10.3969/j.issn.0258-2724.20170178
一种半监督的汉语词义消歧方法
为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵(maximum entropy,ME)词义分类器;其次,采用Co-Training算法并结合大量无标注语料来优化词义消歧模型;再次,进行了优化实验,在实验中,使用SemEval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器;最后,对优化后的词义消歧模型进行测试.测试结果表明:与基于支持向量机(support vector machine,SVM)的词义消歧方法相比,本文所提出方法的消歧准确率提高了0.9%.词义消歧的性能有所提高.
自然语言处理、词义消歧、最大熵、贝叶斯分类器
54
TP391.2(计算技术、计算机技术)
国家自然科学基金资助项目61502124,60903082;中国博士后科学基金资助项目2014M560249;黑龙江省自然科学基金资助项目F201420,F2015041
2019-05-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
408-414