10.3969/j.issn.1000-3428.2009.18.006
基于最大熵模型的汉语词义消歧与标注方法
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语言编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数.结合一些语言知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率.
词义消歧与标注、最大熵模型、上下文特征、特征筛选
35
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60873013;北京市自然科学基金B类资助重点项目KZ200811232019;中科院自动化所模式识别国家重点实验室开放专项经费基金;北京市属市管高校人才强教计划基金资助项目PXM2008_014215_055942
2009-11-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
15-18