10.3969/j.issn.1000-3428.2009.04.037
网络爬行器的分布式设计
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务.该文采用分布式网络爬行器加以解决.在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面.实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低.
网络爬行器、分布式、多线程
35
TP393(计算技术、计算机技术)
国家自然科学基金资助重点项目"下一代信息检索研究"60736044
2009-04-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
105-107