10.3772/j.issn.1000-0135.2012.12.005
基于中文维基百科的词语相关度计算
词语相关度的计算是自然语言处理关键技术之一,在信息检索、机器翻译、词义消歧、句法分析等领域有广泛应用.国内现有大部分词语相关度计算方法是基于知网(HowNet)的.本文将中文维基百科作为语义资源,利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度.在借鉴向量空间模型和谷歌相似度(Google Similarity Distance)计算方法基础上,通过构建分类图和相关语义向量来实现汉语词语相关度的计算.在测试集WordSimilarity-353上进行了实验,实验结果的斯皮尔曼等级相关系数显示,本文的方法是可行和有效的.
词语相关度计算、维基百科、分类图、语义向量
31
TP3;G25
国家自然科学基金61103101;教育部人文社会科学研究基金12YJCZH201
2013-01-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
1265-1270