基于语义指纹的海量文本快速相似检测算法研究
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见.针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法.在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能.另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档.通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势.
文本相似、语义指纹、Simhash、同义词扩展、互信息
12
TP391(计算技术、计算机技术)
2017-04-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
175-177