DOI：10.3969/j.issn.1006-2475.2015.04.002

一种基于语义的中文文本相似度算法

引用

摘要：

利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高.

关键词：文本相似度、语义、《知网》、关键词、段频

分类号：TP311(计算技术、计算机技术)

资助基金：湖南省自然科学基金资助项目12JJ3066;湖南省高校科技成果产业化培育项目11CY018;湖南省“十二五”重点学科项目

在线出版日期：2015-06-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：6-9

英文信息展示

期刊专题