DOI：10.3969/j.issn.1000-3428.2009.18.006

基于最大熵模型的汉语词义消歧与标注方法

引用

摘要：

分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语言编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数.结合一些语言知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率.

关键词：词义消歧与标注、最大熵模型、上下文特征、特征筛选

所属期刊栏目：35

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目60873013;北京市自然科学基金B类资助重点项目KZ200811232019;中科院自动化所模式识别国家重点实验室开放专项经费基金;北京市属市管高校人才强教计划基金资助项目PXM2008_014215_055942

在线出版日期：2009-11-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：15-18

英文信息展示

期刊专题