10.3969/j.issn.1000-8519.2019.15.031
基于SimHash的文本相似检测算法研究
simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活.
SimHash、文本相似监测、TF-IDF算法
国家自然科学基金71561023;宁夏重点研发重点项目2018BFG02003;宁夏大学生创新创业计划2019107490762
2019-08-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
87-89