10.19678/j.issn.1000-3428.0053439
一种高效的分布式爬虫系统负载均衡策略
传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理.针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略.分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多影响因素的非线性分布式爬虫节点运行时间模型.以该模型预测的各子节点运行时间的最小方差为负载均衡策略的目标函数,并利用带约束条件的改进粒子群优化算法求解目标函数,确定负载均衡的任务分配方案.实验结果表明,该负载均衡策略在满足爬虫节点高性能要求的前提下,能有效缩短分布式爬虫系统的运行时间.
分布式爬虫、负载均衡、预测模型、粒子群优化算法、约束条件
45
TP311.5(计算技术、计算机技术)
安徽省科技重大专项“基于大数据的中小微企业精准智力服务平台”711245801052
2019-12-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
62-67