10.3969/j.issn.1003-0077.2006.06.005
自动获取汉语词语搭配
作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用.本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法.实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度.本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果.
计算机应用、中文信息处理、词语搭配、互信息、熵
20
TP391(计算技术、计算机技术)
国家自然科学基金60573074;山西省青年科研项目20031027;山西省自然科学基金20041040;山西省科技攻关项目051129
2006-12-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
31-37