10.3969/j.issn.1000-3428.2015.04.007
基于众包的社交网络数据采集模型设计与实现
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
社交网络、众包模式、分布式计算、信息采集、Web爬虫、Hadoop分布式文件系统
TP311(计算技术、计算机技术)
国家“863”计划基金资助项目“基于媒体大数据的大众信息消费服务平台及应用示范”SS2014AA012305。
2015-04-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
36-40