DOI：10.3969/j.issn.1673-629X.2017.09.042

基于Java的新浪微博爬虫研究与实现

引用

摘要：

为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统.该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间.主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能.为验证该系统的有效性和可行性,与其他传统方法进行了分析对比.实验验结果表明,所提出的系统爬取效率更高,实现代码更简便.

关键词：新浪微博、网络爬虫、Java、数据挖掘

所属期刊栏目：27

分类号：TP39(计算技术、计算机技术)

资助基金：国家级大学生创新创业训练计划项目201411656017, 201611656002, 201611656029, 2016pyA033;广东省自然科学基金2016A030307049;广东省高等学校学科与专业建设专项资金科研类项目2013KJCX0132;广东省云机器人石油化工工程技术研究中心开放基金项目650007

在线出版日期：2017-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：191-196

英文信息展示

期刊专题