10.3778/j.issn.1673-9418.2008068
采用N-list结构的混合并行频繁项集挖掘算法
针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN.首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果.实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果.
频繁项集挖掘;N-list结构;贪心策略;集合枚举树;超集等价剪枝策略(SES)
16
TP311(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;江西省教育厅科技项目;江西省教育厅科技项目
2022-01-14(万方平台首次上网日期,不代表论文的发表时间)
共17页
120-136