基于MapReduce的K_means并行算法及改进
针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于MapReduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进。实验结果表明,基于MapReduce的K_means并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比。
MapReduce、k-means算法、canopy算法、并行计算、聚类
2015-06-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
188-192