DOI：10.3969/j.issn.1673-629X.2017.09.006

基于MapReduce的单遍K-means聚类算法

引用

摘要：

K-means应用于MapReduce框架的大数据处理可显著提高K-means对大数据集的处理能力.但K-means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次迭代作为一个独立map作业执行,需要读写整个数据集,从而导致显著的I/O消耗,与MapReduce框架的设计理念不符.为此,提出了一个基于MapReduce的单遍K-means算法(MR-SK).该算法采用流数据单遍算法读取数据,聚类时采用K-means++初始化seeding算法得到初始聚类中心.在理论分析MRSK算法复杂度的基础上,进行了MRSK算法的测试验证和相关分析.验证实验结果表明,相对于基于MapReduce和基于数据流的K-means聚类算法,所提出的MRSK算法在执行速度和聚类效果方面具有更好的优势.

关键词：MapReduce框架、数据聚类、K-means++、Mahout、单遍技术

所属期刊栏目：27

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61640020;江苏省科技支撑计划BE2012386,BE2011342;江苏省农业自主创新项目CX133054, CX161006;江苏省重点研发计划BE2016368-1;深圳市战略性新兴产业发展专项资金项目JCYJ20130331151710105

在线出版日期：2017-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：26-30

英文信息展示

期刊专题