DOI：10.3969/j.issn.1009-4067.2013.22.049

新浪API与网络爬虫结合获取数据的研究与应用

引用

摘要：

微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据.如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题.由于单独使用网络爬虫或者新浪API接口获取新浪微博中电商用户数据,无法一次性完成获取数据的任务.所以,本文主要介绍一种基于新浪API接口和网络爬虫相集合的方法获取新浪微博中用户数据的方法,设计方法中主要解决了新浪API接口的访问频率限制和网络爬虫需要下载大量页面的问题,并且结合了两种方法的优点.最后,采用统计性试验,对本文新提出的方法和传统的方法进行比较研究.

关键词：数据挖掘、网络爬虫、新浪API、获取数据

分类号：TN915.08

在线出版日期：2014-01-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：58-59

期刊专题