DOI：10.3772/j.issn.1000-0135.2015.008.010

基于复杂网络的汉语相似词挖掘和相似度计算研究

引用

摘要：

相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤.首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度.其次,基于分布假设、上下文语境理论和词汇网络结构的特点,本文提出了基于贡献度折扣的词汇相似度计算方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来.通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Salton 方法.最后文章就实验结果及其结论做了详细分析.

关键词：复杂网络、语料库、词汇相似度、语义相关度

所属期刊栏目：34

分类号：TP3;G44

资助基金：国家自科青年项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”71303120;南京邮电大学引进人才科研启动基金“基于语料库的词汇相似度计算研究”NYS213008;南京邮电大学国自基金孵化项目“大数据时代下汉语词义知识挖掘研究”NY214112

在线出版日期：2016-03-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：885-896

英文信息展示

期刊专题