10.3969/j.issn.1003-0077.2009.06.005
伪实例与人工标注实例相结合的词义消歧方法
知识获取是制约基于语料库的词义消歧方法性能提高的瓶颈,使用等价伪词的自动语料标注方法是近年来解决该问题的有效方法.等价伪词是用来代替歧义词在语料中查找消歧实例的词.但使用等价伪词获得的部分伪实例质量太差,且无法为没有或很少同义词的歧义词确定等价伪词.基于此,该文提出一种将等价伪词获得的伪实例和人工标注实例相结合的词义消歧方法.该方法通过计算伪实例与歧义词上下文的句子相似度,删除质量低下的伪实例.并借助人工标注语料为某些无等价伪词的歧义词提供消歧实例,计算各义项的分布概率.在Senseval-3汉语消歧任务上的实验中,该文方法取得了平均F-值为0.79的成绩.
计算机应用、中文信息处理、词义消歧、知网、等价伪词、贝叶斯分类器、自动标注语料
23
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60674078, 50575031;国家863高技术研究发展计划资助项目2006AA04Z109
2010-01-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
31-38