DOI：10.16208/j.issn1000-7024.2017.07.026

基于Spark改进的最大频繁项集挖掘算法

引用

摘要：

为解决面向大规模高维数据的频繁项集挖掘问题,针对传统算法的时空复杂度和并行化策略进行优化,实现基于Spark改进的最大频繁项集挖掘算法.结合Spark的分布式框架和DMFIA算法的优点,提出深度路径搜索和长度优先超集检验两项改进方法,进行深度路径递归搜索一次性生成最大频繁项候选集,对候选项集进行长度优先排序并检验超集,降低候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题.实验结果表明,该算法在时间上优于同类算法2-4倍,对数据集规模具有良好的扩展性.

关键词：频繁模式树、分布式计算、数据挖掘、关联规则、最大频繁项

所属期刊栏目：38

分类号：TP311(计算技术、计算机技术)

在线出版日期：2017-08-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1839-1843

英文信息展示

期刊专题