10.13413/j.cnki.jdxblxb.2017.01.19
MapReduce框架下基于抽样的分布式K-Means聚类算法
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.
抽样、MapReduce、分布式计算、K-Means聚类算法
55
TP391(计算技术、计算机技术)
国家自然科学基金51277023;吉林省科技发展计划项目20140204071GX
2017-04-01(万方平台首次上网日期,不代表论文的发表时间)
共7页
109-115