Spark平台中的并行化FP_growth关联规则挖掘方法

引用

摘要：

为了提高关联规则挖掘效率,文中提出了一种适用于 Spark平台的并行化 FP_growth关联规则挖掘方法.首先,利用Spark平台在分布式系统中的所有节点的内存 RDD中完成遍历扫描运算,得到频繁集,以便生成 FP_Table 并更新 FP_Tree.然后,引入时间序列来预测待挖掘的项目集,以便实现分布式系统中的所有节点能够均衡分担挖掘任务,从而充分利用各节点的 FP_Tree遍历功能,获取 FP_growth关联规则挖掘结果.实验结果显示,相比单机情况,并行化 FP_growth关联规则挖掘在效率方面提高了约 60%.经过负载均衡处理后的 FP_growth关联规则挖掘的效率更高,提高了约 14%,这说明各节点遍历任务的分配更均衡,并行化程度更高.

关键词：Spark平台、FP_growth算法、关联规则挖掘、频繁集、负载均衡

所属期刊栏目：47

分类号：TP311.13(计算技术、计算机技术)

资助基金：广州市专利技术产业化项目;国家自然科学基金面上项目;国家重点研发计划;2017国家自然科学基金青年基金项目

在线出版日期：2020-12-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：139-143

英文信息展示

期刊专题