10.16337/j.1004-9037.2016.01.025
基于负载均衡和冗余剪枝的并行FP-Growth算法
针对现有的并行FP-Growth算法在数据并行分组时存在数据冗余和负载不均的问题,提出了基于负载估算和冗余剪枝的优化算法.首先,在采用高频策略分组时,引入节点任务估算方法,把每个分组中最大模式树的最长路径和支持度作为该分组的估计值,将估计值远大于其他节点的分组进行分割,平均到其他分组中,并且对不同分组中重复的列表元素进行截断,去除冗余数据.实验表明,本文提出的算法能够有效防止并行化的数据倾斜,减少数据冗余,在时间和空间复杂度上要低于以前的并行化FP-Growth算法.
关联规则、MapReduce、冗余剪枝、FP-Growth算法
31
TP311.13(计算技术、计算机技术)
国家自然科学基金61373148;国家社科基金12BXW040;教育部人文社科基金14YJC860042;山东省自然科学基金ZR2012FM038,ZR2014FL010;山东省优秀中青年科学家奖励基金BS2013DX033;山东省社科规划项目2012BXWJ01;山东省高等学校科技计划J15LN02,J15LN22
2016-05-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
223-230