DOI：10.3969/j.issn.1003-5060.2013.08.009

基于并行抽样的海量数据关联挖掘算法

引用

摘要：

在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战.文章针对海量数据挖掘时所面临的内存和性能问题,提出了一种基于并行随机数据抽样的云频繁项集挖掘算法.该算法可以实现在单次扫描海量数据进行并行数据抽样的基础上,对样本数据进行并行的频繁项集挖掘.实验结果表明,通过并行随机抽样算法可以有效抽取反映数据真实情况的样本数据,并对其进行相关清理,在得到样本数据后采用文中所提的并行关联云挖掘算法能有效解决内存和性能方面的问题,为推动数据挖掘在海量数据下的发展奠定了良好基础.

关键词：云计算、并行计算、随机抽样、关联分析

所属期刊栏目：36

分类号：TP391.12(计算技术、计算机技术)

资助基金：国家自然科学基金重点资助项目60633060

在线出版日期：2013-10-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：933-937

英文信息展示

期刊专题