DOI：10.3969/j.issn.1673-629X.2015.09.026

基于信息熵的新的词语相似度算法研究

引用

摘要：

针对词语相似度计算中结果合理性的问题，文中基于对“知网”中词语、义项和义原三个层次概念的研究，提出一种结合信息论研究中熵的概念的新的词语相似度方法。首先是引入词表相似度计算对词语集进行合理选取，再根据义原信息熵对各义原进行权重上的平衡，抑制一些常见义原在词语的义原集中比重过大而导致计算结果与真实情况相比出现明显误差的情况。实验结果表明，与传统方法相比，文中方法在实验并未出现1.000这样过于绝对的结果，提高了结果的合理性；并且实验词语集而非两词语之间，说明比较的效率也得到了提高。

关键词：词语相似度、知网、义原、信息熵、词表相似度

分类号：TP301.6(计算技术、计算机技术)

资助基金：安徽省高校自然科学研究重点项目KJ2013Z023,KJ2013A058;安徽省振兴计划资助项目2013ZDJY073

在线出版日期：2015-10-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：119-122

英文信息展示

期刊专题