10.3969/j.issn.1673-629X.2016.03.024
基于分布式倒排索引的频繁项集挖掘
频繁项集挖掘是关联规则挖掘中的核心,其直接影响了频繁项集的产生效率。针对Eclat算法在挖掘海量数据中的频繁项集时存在的内存和计算资源不足等问题,文中设计了通过分布式倒排索引实现频繁项集挖掘的DiiEclat算法。倒排索引等同于将数据垂直分布,按事务编号的不同将倒排索引分布式地存储在不同的索引节点上,每个节点上的事务分别做交集,最后由检索代理合并交集结果。在 chess、mushroom、T40I10D100K 和 T10I4D100K 数据集上,对 DiiEclat、Eclat、Diffset等算法进行了实验对比。结果表明,给出的DiiEclat算法通过事务集合垂直划分和并行计算,解决了数据挖掘过程中求交集运算效率低下和内存不足等问题,算法高效、可扩展。
Eclat算法、频繁项集、倒排索引、并行计算
26
TP311(计算技术、计算机技术)
国家“863”高技术发展计划项目2006AA01Z201
2016-05-06(万方平台首次上网日期,不代表论文的发表时间)
共4页
101-104