基于云环境K-means聚类的并行算法

引用

摘要：

K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用“极限点”原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势.

关键词：海量数据、聚类、K-means算法、Canopy算法、MapReduce

所属期刊栏目：61

分类号：TP301(计算技术、计算机技术)

资助基金：国家高技术研究发展计划8632012AA040910,国家自然科学基金51275362资助项目

在线出版日期：2015-10-08（万方平台首次上网日期，不代表论文的发表时间）

页码：368-374

英文信息展示

期刊专题