10.3969/j.issn.1001-6600.2007.02.036
基于Map/Reduce的网页消重并行算法
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量.提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能.
搜索引擎、网页消重、Map/Reduce
25
TP391(计算技术、计算机技术)
国家自然科学基金90412015
2007-07-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
153-156