DOI：10.16526/j.cnki.11-4762/tp.2016.07.073

基于MapReduce的K-means聚类算法的优化

引用

摘要：

针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷.提出了一种基于MapReduce的改进K-means聚类算法.该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景;文中对该改进算法和传统聚类算法进行了比较,比较结果证明其性能优于后者;这表明该改进算法降低了对初始聚类中心的依赖,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间,而且在处理海量数据时表现出较大的性能优势.

关键词：K均值算法、抽样、Canopy算法、最大最小距离法

所属期刊栏目：24

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目11271057,51176016;江苏省自然科学基金项目BK2009535

在线出版日期：2016-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：272-275,279

英文信息展示

期刊专题