Scrapy分布式爬虫搜索引擎

引用

摘要：

随着大数据时代的到来,信息的获取与检索尤为重要.如何在海量的数据中快速准确获取到我们需要的内容显得十分重要.通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭建搜索引擎网站,将从知乎,拉钩,伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中,供用户搜索获取.研究结果表明分布式网络爬虫比单机网络爬虫效率更高,内容也更丰富准确.

关键词：网络爬虫、Scrapy、分布式、Scrapy-Redis、Django、ElasticSearch

所属期刊栏目：14

分类号：TP311(计算技术、计算机技术)

在线出版日期：2019-02-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：186-188

英文信息展示

期刊专题