10.3969/j.issn.1673-629X.2014.03.002
一种基于模拟登录的微博数据采集方案
随着Web 2.0时代的到来,舆情信息在微博上能够更快速的产生和传播。为了有效地分析微博舆情信息,微博数据的获取显得尤为重要。文中以新浪微博为研究对象,提出了基于模拟登录的网络爬虫采集方案。此方案解决了调用微博API接口对开发者的次数限制,解决了传统的网络爬虫需要身份验证的问题,加快了微博数据的采集速度,可以在短时间内获得海量的微博数据。实验表明,用该方案开发的系统具有快速的微博信息采集速度,更加灵活,可以很好地为舆情系统分析提供大量准确的数据支持。
微博API、模拟登录技术、网络爬虫
TP301(计算技术、计算机技术)
国家科技重大专项2012ZX10004-901001;国家自然科学基金资助项目11102124
2014-03-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
6-10