DOI：10.16208/j.issn1000-7024.2015.05.039

加速大数据聚类K-means算法的改进

引用

摘要：

为有效处理大规模数据聚类的问题，提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中，基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明，无论是在单机环境还是集群环境下，该方法受初始聚类中心的影响降低，提高了聚类的准确性，减少了聚类的迭代次数，降低了聚类的时间。

关键词：K-均值算法、随机抽样、最大最小距离法、映射归约、并行化

分类号：TP311(计算技术、计算机技术)

资助基金：中国科学院西部之光人才培养计划基金项目RCPT201205

在线出版日期：2015-05-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1317-1320

英文信息展示

期刊专题