DOI：10.3969/j.issn.1673-629X.2020.02.037

分布式爬虫的研究与实现

引用

摘要：

网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术.采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示.运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据.通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性.通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫.

关键词：分布式集群、Nutch、Solr、企业官网

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

资助基金：辽宁省自然科学基金20180550130

在线出版日期：2020-03-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：192-196

英文信息展示

期刊专题