一种海量数据快速聚类算法
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.
快速聚类、Spark、最佳聚类初始点、网格划分
43
TP311(计算技术、计算机技术)
国家自然科学基金项目;广西创新驱动重大专项项目;广西科技创新团队项目
2020-09-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
118-124