10.3969/j.issn.1006-9348.2005.04.072
采用开放语料库的跨领域模式自动获取
信息抽取模式的自动获取不仅能极大地减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都至关重要.该文提出的采用开放语料库的跨领域模式自动获取方法是采用开放的训练语料库来自动生成领域无关的抽取模式,借助模式和实例之间的二元性,不断获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点.该方法尽可能减少了领域相关性,领域移植的代价很小.由于采用开放语料,该文提出了一种通过机器学习使用统计模型来自动选取用于模式生成和评价的正反实例的方法.根据在投资领域的测试结果,该方法获得了较好的效果,模式抽取的平均查准率达到92%,平均召回率达到42.4%.
模式自动获取、开放语料库、跨领域、模式和实例的二元性、统计判断模型、正反实例判断
22
TP391(计算技术、计算机技术)
2005-06-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
259-263,293