DOI：10.16208/j.issn1000-7024.2019.03.016

Hadoop环境下基于并行熵的FIUT算法挖掘

引用

摘要：

针对传统频繁项集挖掘算法效率低下的问题, 提出基于Hadoop平台的并行BMR-FIUT算法.通过引入FIU-Tree (frequent items ultrametric tree) 结构挖掘频繁项集, 避免传统算法的缺陷;改进FIUT算法的分解过程, 使之适应于Map-Reduce框架下的并行计算, 达到并行化的目的;利用并行熵作为集群系统的负载均衡度量, 使系统尽可能在各节点间合理分发数据以平衡负载.实验结果表明, BMR-FIUT算法能够有效减少并行化过程中节点负载倾斜的问题, 较现有的PFP-Growth算法具有更好的性能, 适用于海量数据挖掘.

关键词：数据挖掘、频繁项集、MapReduce编程模型、FIUT算法、并行熵、负载均衡

所属期刊栏目：40

分类号：TP311(计算技术、计算机技术)

在线出版日期：2019-05-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：685-690,787

英文信息展示

期刊专题