基于中文维基百科链接结构与分类体系的语义相关度计算

引用

摘要：

自然语言词汇的语义相关度的计算需要获取大量的背景知识,而维基百科是当前规模最大的百科全书,其不仅是一个规模巨大的语料库,而且还是一个包含了大量人类背景知识和语义关系的知识库,研究表明,其是进行语义计算的理想资源,本文提出了一种将维基百科的链接结构和分类体系相结合计算中文词汇语义相关度的算法,算法只利用了维基百科的链接结构和分类体系,无需进行复杂的文本处理,计算所需的开销较小.在多个人工评测的数据集上的实验结果显示,获得了比单独使用链接结构或分类体系的算法更好的效果,在最好的情况下,Spearman相关系数提高了30.96％.

关键词：语义相关度、语义相关性、语义相似性、维基百科

所属期刊栏目：32

分类号：TP311(计算技术、计算机技术)

资助基金：国家”八六三”高技术研究发展计划项目2011AA010702,2010AA012505;国家自然科学基金项目60933005,60873204

在线出版日期：2012-06-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：2237-2242

英文信息展示

期刊专题