10.13705/j.issn.1671-6841.2016667
基于Spark的Apriori并行算法优化实现
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法。该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集。与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销。实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率。
Spark、并行化、数据挖掘、关联规则、Apriori
48
TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目61373162;四川省科技支撑项目2014GZ007
2017-01-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
60-64