国外科技网站反爬虫研究及数据获取对策研究

引用

摘要：

当前,来自国外网站的互联网开源科技信息已经成为科技情报的重要表现形式和组成部分,利用垂直爬取技术抽取、集成、解析、跟踪、研究这些网页信息可帮助科研人员实时、全面、深入地了解领域内的研究现状.然而国内目前访问国外某些网站困难;且国外很多网站都加强了反爬虫技术策略与应用,爬虫技术总是不断被反爬虫技术超越,特定主题内容规模化信息获取尤为困难.采用简单的搜索方式难以获取,且有些信息具有很强的时效性,人工跟踪难度大、时间耗费多,不利于数据的长期积累.为此,我们重点针对开源信息获取的反爬虫技术开展了研究,提出针对性的解决方案,系统地介绍了反爬虫技术和爬虫技术的应用.

关键词：爬虫、反爬虫、信息采集、搜索引擎、python

所属期刊栏目：16

在线出版日期：2020-03-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：24-28

英文信息展示

期刊专题