10.3969/j.issn.1673-629X.2018.04.015
一种基于SOM划分的FP-growth算法
FP-growth算法只能处理较小数据集,在面对海量数据集时显得无能为力.对此,对FP-growth算法的挖掘过程进行改进,提出一种基于SOM(self-organizing map)划分的FP-growth算法.在数据预处理阶段,将原始数据中的每条事务标准化为相同维度的数据;考虑到大数据集较难处理的问题,首先利用系统抽样方法从大数据集中抽取出具有代表性的样本;由于包含频繁项的事务具有较小的欧氏距离,再对样本进行SOM聚类分析;根据聚类结果,将大数据集分成若干个子集,在各个子集上并行进行FP-growth算法挖掘.实验结果表明,改进算法降低了内存占用量,缩短了数据挖掘时间,提高了对海量数据的处理能力和效率,并且具有较好的加速比.
FP-growth、自组织映射、数据挖掘、聚类、数据划分
28
TP181(自动化基础理论)
国家自然科学基金重点支持项目U150120175
2018-05-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
71-76,81