10.3772/j.issn.1000-0135.2010.03.003
基于P2P的分布式主题爬虫系统的设计与实现
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.
网络爬虫、对等网络、分布式计算、信息检索、主题爬虫
29
TP3;TP2
2010-06-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
402-407