DOI：10.3969/j.issn.1673-629X.2013.07.005

基于Hadoop的K-means聚类算法的实现

引用

摘要：

文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性.

关键词：数据挖掘、K-means算法、Hadoop、MapReduce

所属期刊栏目：23

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家科技计划课题2012BAD35B01;上海市科技创新计划11DZ1501703

在线出版日期：2013-10-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：18-21

英文信息展示

期刊专题