开放式地理实体关系抽取的Bootstrapping方法
从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性.本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验.研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TF-IDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%.
文本挖掘、地理实体、关系抽取、定量评价、bootstrapping
45
P208(一般性问题)
国家自然科学基金41271408;国家863 计划2013AA120305 The National Natural Science Foundation of China41271408;The National High-Tech Research and Development Program of China 863 Program2013AA120305
2016-06-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
616-622