10.14132/j.cnki.1673-5439.2016.03.013
基于Simhash算法的重复数据删除技术的研究与改进
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究.在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中.然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据.实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法.通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果.
相似检测、Simhash算法、TF-IDF技术、指纹计算、汉明距离
36
TP391(计算技术、计算机技术)
国家自然科学基金11501302
2016-07-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
85-91