DOI：10.3969/j.issn.1007-130X.2016.10.005

基于Hash改进的k-means算法并行化设计

引用

摘要：

为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案.将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数.又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率.实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度.

关键词：海量数据、Hadoop、Hash、并行k-means聚类、中心选取

所属期刊栏目：38

分类号：TP399(计算技术、计算机技术)

资助基金：国家自然科学基金61402053;湖南省科技计划2014SK3080;湖南省教育厅优秀青年项目14B005

在线出版日期：2016-11-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1980-1985

英文信息展示

期刊专题