10.3969/j.issn.1006-2475.2015.04.002
一种基于语义的中文文本相似度算法
利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高.
文本相似度、语义、《知网》、关键词、段频
TP311(计算技术、计算机技术)
湖南省自然科学基金资助项目12JJ3066;湖南省高校科技成果产业化培育项目11CY018;湖南省“十二五”重点学科项目
2015-06-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
6-9