一种海量数据快速聚类算法

引用

摘要：

为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.

关键词：快速聚类、Spark、最佳聚类初始点、网格划分

所属期刊栏目：43

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目;广西创新驱动重大专项项目;广西科技创新团队项目

在线出版日期：2020-09-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：118-124

英文信息展示

期刊专题