DOI：10.3969/j.issn.1673-629X.2015.10.017

基于二叉树的并行频繁项集挖掘算法

引用

摘要：

大数据时代的到来，使得人们对数据的处理速度、利用率等方面的要求变得更高。在频繁项集挖掘方面， Count Distribution算法和Data Distribution算法是比较经典的并行频繁项集挖掘算法，由于挖掘过程中需要较大的存储空间和通信开销，挖掘效率并不十分理想。文中提出了一种基于二叉树的并行频繁项集挖掘算法，利用了MapReduce的并行性，先通过遍历二叉树的方法找出数据库中固定大小的所有子集，然后统计每个子集的出现次数，再与事先设定好的一个固定阈值进行比较，超过阈值的子集即为所求的频繁项集。通过对实验结果进行对比分析表明，提出的算法只需要一次Ma-pReduce过程即可完成挖掘，充分利用了集群的并行性，不需要使用迭代的方式进行挖掘，性能上明显优于CD和DD算法，也就是说，该算法具有较高的挖掘效率。

关键词：频繁项集挖掘、MapReduce、并行计算、二叉树

分类号：TP311(计算技术、计算机技术)

资助基金：国家“973”重点基础研究发展计划项目2006AA01Z201

在线出版日期：2015-11-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：80-83,87

英文信息展示

期刊专题