10.3969/j.issn.1673-629X.2014.09.023
基于Simhash算法的海量文档反作弊技术研究
以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高峰期请求耗时会增长,但一般不会超过100 ms。
重复文本检测、Simhash、反作弊、签名计算
TP311(计算技术、计算机技术)
宁波市自然科学基金资助项目2011A610100
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
103-107