基于Spark的Kmeans并行算法研究
随着处理数据规模的迅速增长,对算法的执行速度要求越来越高.Kmean是聚类分析分析中的一个经典算法,虽然其已在Hadoop平台上有并行化实现,但Hadoop的计算模型并不适合像Kmeans这种迭代计算.Spark被看作下一代大数据并行处理框架,非常适合进行迭代计算.该文论述了Kmeans算法在Spark平台上的并行原理,给出了实现方法,并通过实验证明该实现能够快速完成在大数据集上的聚类.
Kmeans、并行化、Spark、大数据、聚类
12
TP312(计算技术、计算机技术)
2016-05-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
74-75,78