DOI：10.16383/j.aas.c180312

一种基于词义向量模型的词语语义相似度算法

引用

摘要：

针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题,提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同,在词义向量模型中多义词按不同词义被分成多个单义词,每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息,对语料库中不同上下文的多义词进行词义消歧;然后基于词义消歧后的文本训练词义向量模型,实现了现有词向量模型无法完成的精确词义表达;最后对两个比较词进行词义分解和同义词扩展,并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.

关键词：词语语义相似度、Word2vec、同义词词林、词义消歧、词义向量

所属期刊栏目：46

在线出版日期：2020-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：1654-1669

英文信息展示

期刊专题