10.3969/j.issn.1000-3428.2011.20.070
基于粒子群优化的文档子内容查重算法
现存的文档相似性算法虽然能够获得2篇文档的相似度,但不能判断出重复或最相似子内容的位置.为此,提出一种基于粒子群优化(PSO)的文档内部子内容的查重算法.利用PSO方法查找2篇文档中最佳相似子内容的位置和长度,设计一种相关函数来判断字符串之间的相似程度,从而得到粒子群的评估函数.测试表明,该查重算法能够快速准确地确定出重复或最相似子内容的位置与长度.
查重、相似度函数、粒子群优化、评估函数、字符串
37
TP391.1(计算技术、计算机技术)
浙江省教育厅基金资助项目Y200908502
2012-01-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
203-205