10.14188/j.1671-8836.2015.04.012
基于云环境K-means聚类的并行算法
K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用“极限点”原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势.
海量数据、聚类、K-means算法、Canopy算法、MapReduce
61
TP301(计算技术、计算机技术)
国家高技术研究发展计划8632012AA040910,国家自然科学基金51275362资助项目
2015-10-08(万方平台首次上网日期,不代表论文的发表时间)
368-374