10.19734/j.issn.1001-3695.2019.08.0284
改进的CK-means优化及并行策略
针对大数据背景下K-means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-means聚类优化及并行策略.从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-means的并行加速策略,并分析不同并行度对计算耗时的影响.经实验,相较于K-means算法,CK-means算法的准确率与迭代次数间的比值更高,算法性能更优,在iris数据集中性能比提升44.79%,在wine数据集中性能比提升32.03%;同时证明了不同并行度下CK-means算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关.
大数据、加速策略、内存计算、并行化、聚类算法
37
TP391(计算技术、计算机技术)
国家自然科学基金资助项目;新疆维吾尔自治区教育厅创新团队项目
2020-12-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
3287-3291