DOI：10.3969/j.issn.1000-8519.2019.15.031

基于SimHash的文本相似检测算法研究

引用

摘要：

simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活.

关键词：SimHash、文本相似监测、TF-IDF算法

资助基金：国家自然科学基金71561023;宁夏重点研发重点项目2018BFG02003;宁夏大学生创新创业计划2019107490762

在线出版日期：2019-08-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：87-89

英文信息展示

期刊专题