Hadoop平台的海量数据并行随机抽样

引用

摘要：

在“信息爆炸”的当今社会，海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时，研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较，得出其时间效率非常高，是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。

关键词：云计算、hadoop、mapreduce、并行计算、数据挖掘、随机抽样

分类号：TP391.12(计算技术、计算机技术)

在线出版日期：2014-10-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：115-118

英文信息展示

期刊专题