10.11959/j.issn.1000-0801.2017234
基于云平台的分布式高性能网络爬虫的研究与设计
随着大数据时代的到来,数据成为最宝贵的资源,而网络爬虫技术作为外部数据采集的重要手段,已然成为数据分析的标配.介绍了一种高性能、灵活和便捷的基于云平台的爬虫架构设计和实现.从爬虫的整体架构、分布式设计以及各模块的设计等角度进行了详细的阐述.爬虫各模块用Docker封装,Kubernetes做集群的资源调度和管理,在性能优化上采用了MD5去重树算法、DNS优化和异步I/O等多种策略组合的形式.实验表明,对比未优化的方案,爬虫在性能上具有较明显的优势.
分布式系统架构、网络爬虫、Docker、高性能
33
TP393(计算技术、计算机技术)
2017-09-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
180-186