DOI：10.3969/j.issn.1673-629X.2019.03.006

基于Spark的关联规则挖掘算法并行化研究

引用

摘要：

关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表.Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架.以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案.该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止.性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性.

关键词：Apriori、关联规则、并行化、Spark、推荐算法、频繁项集、挖掘

所属期刊栏目：29

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金61302158,61571238

在线出版日期：2019-05-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：30-34

英文信息展示

期刊专题