10.3969/j.issn.1673-629X.2015.10.017
基于二叉树的并行频繁项集挖掘算法
大数据时代的到来,使得人们对数据的处理速度、利用率等方面的要求变得更高。在频繁项集挖掘方面, Count Distribution算法和Data Distribution算法是比较经典的并行频繁项集挖掘算法,由于挖掘过程中需要较大的存储空间和通信开销,挖掘效率并不十分理想。文中提出了一种基于二叉树的并行频繁项集挖掘算法,利用了MapReduce的并行性,先通过遍历二叉树的方法找出数据库中固定大小的所有子集,然后统计每个子集的出现次数,再与事先设定好的一个固定阈值进行比较,超过阈值的子集即为所求的频繁项集。通过对实验结果进行对比分析表明,提出的算法只需要一次Ma-pReduce过程即可完成挖掘,充分利用了集群的并行性,不需要使用迭代的方式进行挖掘,性能上明显优于CD和DD算法,也就是说,该算法具有较高的挖掘效率。
频繁项集挖掘、MapReduce、并行计算、二叉树
TP311(计算技术、计算机技术)
国家“973”重点基础研究发展计划项目2006AA01Z201
2015-11-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
80-83,87