10.3969/j.issn.1672-9722.2009.01.004
网页查重算法Shingling和Simhash研究
随着网络信息爆炸式增长,人们对信息检索有了更高的要求.在海量的网页中,有很多重复的网页.网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能.在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等.
网页查重、搜索引擎、shingling、simhash
37
TP301.6(计算技术、计算机技术)
2009-04-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
15-17,108