Scrapy分布式爬虫搜索引擎
随着大数据时代的到来,信息的获取与检索尤为重要.如何在海量的数据中快速准确获取到我们需要的内容显得十分重要.通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭建搜索引擎网站,将从知乎,拉钩,伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中,供用户搜索获取.研究结果表明分布式网络爬虫比单机网络爬虫效率更高,内容也更丰富准确.
网络爬虫、Scrapy、分布式、Scrapy-Redis、Django、ElasticSearch
14
TP311(计算技术、计算机技术)
2019-02-26(万方平台首次上网日期,不代表论文的发表时间)
共3页
186-188