基于语义指纹的海量文本快速相似检测算法研究

引用

摘要：

相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见.针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法.在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能.另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档.通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势.

关键词：文本相似、语义指纹、Simhash、同义词扩展、互信息

所属期刊栏目：12

分类号：TP391(计算技术、计算机技术)

在线出版日期：2017-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：175-177

英文信息展示

期刊专题