10.3969/j.issn.1006-9348.2022.03.067
基于Spark的K-means快速聚类算法的优化
针对聚类算法处理海量数据所存在的不足,提出基于Spark的K-means快速聚类算法的优化.使用形态学相似距离代替欧氏距离作为相似度测量标准来提高聚类准确率;通过最大距离(Max-distince)准则改进因初始聚类中心选取不当而造成的局部最优问题;为减少迭代过程中的冗余计算,利用数据集中点的位置信息与聚类质心的位置关系建立网格结构.综合肘部法则绘制误差平方和SSE-K的关系图确定K值,并在Spark实现SMGK-means(SparkMaxGridK-means)聚类算法.通过实验表明,SMGK-means算法不仅准确率平均提高了6.73%,而且在Spark分布式集群下表现出优秀的执行效率和并行计算能力.
形态学相似距离、最大距离、位置关系
39
TP311(计算技术、计算机技术)
2022-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
344-349