10.16208/j.issn1000-7024.2018.12.024
面向大数据挖掘的Hadoop框架K均值聚类算法
为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法.采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块.在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果.在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率.
数据挖掘、K均值聚类、Hadoop框架、大数据、MapReduce模型
39
TP391(计算技术、计算机技术)
国家自然科学基金项目61502204
2019-03-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
3734-3738