10.3969/j.issn.1006-6403.2015.10.002
分布式大数据采集关键技术研究与实现
随着大数据时代的到来,针对大数据的挖掘与分析已经成为当今的研究热点.而数据集是大数据挖掘和分析的基础.因此一个有效的数据采集方案对大数据挖掘研究具有重要意义.提出了高效的分布式大数据采集系统.在该系统的解析模块中提出了一种通用有效的基于标签树节点权重的正文提取算法.同时引入IP代理池技术来保证系统的持续性.实验证明,本系统能够高效快速地获取大量的网络数据,且具有强的鲁棒性、可行性和灵活性.
大数据、数据采集、正文提取、IP代理池
35
TP3;TN9
2015-11-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
7-10,79