DOI：10.3969/j.issn.1672-9722.2020.07.008

基于百度百科多特征信息的词汇相似度计算

引用

摘要：

作为自然语言理解的一项基础工作,词汇语义相似度度量一直是研究的重点.语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等.论文提出了一种新的基于百度百科词条信息的词汇相似度计算方法.该方法经由百科名片、词条正文,开放分类和相关词条四个部分的内容,分别计算出它们之间的相似性值,以此来获得一对词汇间的整体相似性.经试验证明,在Words-240数据集上,论文方法在词汇相似度计算上,准确率更高.

关键词：自然语言处理、词汇相似度、百度百科词条、Words-240

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

在线出版日期：2020-09-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1580-1584,1736

英文信息展示

期刊专题