10.3969/j.issn.1000-3428.2009.19.005
分布式多主题网络爬虫系统的研究与实现
提出一种基于数据抽取器的分布式爬虫架构.该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题.介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性.给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测.
网络爬虫、多主题、分布式
35
TP393(计算技术、计算机技术)
国家"863"计划基金资助项目"融合型旅游在线服务业务的研究"2008AA01A307
2009-12-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
13-16,19