基于Spark的Apriori并行算法优化实现

引用

摘要：

针对传统Apriori算法处理速度和计算资源的瓶颈，以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题，提出了Spark下并行关联规则优化算法。该算法只需两次扫描事务数据库，并充分利用Spark内存计算的RDD存储项集。与传统Apriori算法相比，该算法扫描事务数据库的次数大大降低；与Hadoop下Apriori算法相比，该算法不仅简化计算，支持迭代，而且通过在内存中缓存中间结果减少I/O花销。实验结果表明，该算法可以提高关联规则算法在大数据规模下的挖掘效率。

关键词：Spark、并行化、数据挖掘、关联规则、Apriori

所属期刊栏目：48

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61373162;四川省科技支撑项目2014GZ007

在线出版日期：2017-01-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：60-64

英文信息展示

期刊专题