10.16208/j.issn1000-7024.2017.07.026
基于Spark改进的最大频繁项集挖掘算法
为解决面向大规模高维数据的频繁项集挖掘问题,针对传统算法的时空复杂度和并行化策略进行优化,实现基于Spark改进的最大频繁项集挖掘算法.结合Spark的分布式框架和DMFIA算法的优点,提出深度路径搜索和长度优先超集检验两项改进方法,进行深度路径递归搜索一次性生成最大频繁项候选集,对候选项集进行长度优先排序并检验超集,降低候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题.实验结果表明,该算法在时间上优于同类算法2-4倍,对数据集规模具有良好的扩展性.
频繁模式树、分布式计算、数据挖掘、关联规则、最大频繁项
38
TP311(计算技术、计算机技术)
2017-08-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
1839-1843