DOI：10.3969/j.issn.1003-0077.2012.02.006

基于序列标注的全词消歧方法

引用

摘要：

全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM).首先,我们用HMM对全词消歧进行建模.然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中.对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决.最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法.

关键词：全词消歧、隐马尔可夫模型、最大熵马尔可夫模型、超大状态问题

所属期刊栏目：26

分类号：TP391(计算技术、计算机技术)

资助基金：国家高技术研究发展计划863计划项目2010AA012505;国家自然科学基金重点课题资助项目60933005;国家自然科学基金资助项目60873097

在线出版日期：2012-05-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：28-34

英文信息展示

期刊专题