DOI：10.3969/j.issn.1003-0077.2006.06.005

自动获取汉语词语搭配

引用

摘要：

作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用.本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法.实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度.本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果.

关键词：计算机应用、中文信息处理、词语搭配、互信息、熵

所属期刊栏目：20

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60573074;山西省青年科研项目20031027;山西省自然科学基金20041040;山西省科技攻关项目051129

在线出版日期：2006-12-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：31-37

英文信息展示

期刊专题