DOI：10.3772/j.issn.1000-0135.2012.12.005

基于中文维基百科的词语相关度计算

引用

摘要：

词语相关度的计算是自然语言处理关键技术之一,在信息检索、机器翻译、词义消歧、句法分析等领域有广泛应用.国内现有大部分词语相关度计算方法是基于知网(HowNet)的.本文将中文维基百科作为语义资源,利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度.在借鉴向量空间模型和谷歌相似度(Google Similarity Distance)计算方法基础上,通过构建分类图和相关语义向量来实现汉语词语相关度的计算.在测试集WordSimilarity-353上进行了实验,实验结果的斯皮尔曼等级相关系数显示,本文的方法是可行和有效的.

关键词：词语相关度计算、维基百科、分类图、语义向量

所属期刊栏目：31

分类号：TP3;G25

资助基金：国家自然科学基金61103101;教育部人文社会科学研究基金12YJCZH201

在线出版日期：2013-01-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1265-1270

英文信息展示

期刊专题