10.3969/j.issn.2095-2163.2018.01.019
基于Spark框架的改进并行K-means算法研究
传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确.随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣.为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写.在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证了改进算法的有效性.
Spark、K-means、Map、Reduce、Hadoop、加速比
8
TP311.13(计算技术、计算机技术)
2018-03-21(万方平台首次上网日期,不代表论文的发表时间)
共3页
76-78