基于无指导机器学习的全文词义自动标注方法

引用

摘要：

为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法.实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择.最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作.

关键词：词义标注、无指导学习算法、单纯贝叶斯模型、依存文法

所属期刊栏目：32

分类号：TP391(计算技术、计算机技术)

资助基金：国家高技术研究发展计划863计划60435020;中国科学院资助项目60575042;60573072

在线出版日期：2006-04-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：228-236

英文信息展示

期刊专题