10.15988/j.cnki.1004-6941.2018.04.025
基于Simhash算法的海量文本相似性检测方法研究
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档.本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算.最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测.
相似性计算、Simhash算法、TF-IDF技术、海明距离、指纹值
45
TB9(计量学)
2018-09-29(万方平台首次上网日期,不代表论文的发表时间)
共3页
78-80