DOI：10.16208/j.issn1000-7024.2018.12.024

面向大数据挖掘的Hadoop框架K均值聚类算法

引用

摘要：

为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法.采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块.在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果.在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率.

关键词：数据挖掘、K均值聚类、Hadoop框架、大数据、MapReduce模型

所属期刊栏目：39

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61502204

在线出版日期：2019-03-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：3734-3738

英文信息展示

期刊专题