DOI：10.3969/j.issn.1006-9348.2007.12.081

一种用于中文文本查重的双因子相似度算法

引用

摘要：

为了提高搜索引擎的检索效率以及加强知识产权保护,结合汉语语言学以及自然语言处理的研究成果,提出了一种用于中文文本查重的算法.通过引入"动词中心词"的概念,扩展停用词的范围,将文本中的部分动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似性.同时根据IFIDF方法提取文本特征并进行权重计算,计算出中文文本间的语义相似性.结合文本间语法相似性和语义相似性得到文章的相似度,可以判断两篇中文内容的相似性,有效地进行重稿检测.

关键词：语法相似性、语义相似性、重稿检测

所属期刊栏目：24

分类号：TP301.6(计算技术、计算机技术)

在线出版日期：2008-04-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：312-314

英文信息展示

期刊专题