基于优化初始聚类中心和轮廓系数的 K-means 聚类算法

引用

摘要：

传统K-means聚类算法初始聚类中心以及聚类数目K是随机确定的,聚类结果受其影响较大,这样容易造成聚类结果不稳定且准确率较低.针对上述问题,本文提出一种基于优化初始聚类中心和轮廓系数的K-means聚类算法.首先,为了选出准确的初始聚类中心,引入平均样本距离和误差平方和,构造初始聚类中心的选取方法,使得选取的初始聚类中心是样本相对集中的点,有效避免选择离群点;然后,为了选择出最佳聚类数目K,基于最近簇中心进行簇的合并,基于中位数构造轮廓系数,设计基于中位数的平均轮廓系数评价指标,判断簇合并之后的最佳K;最后,通过以上两种方法选择合理的初始聚类中心和K,进而设计了基于优化初始聚类中心和轮廓系数的K-means聚类算法.在选取的合成数据集和UCI数据集上进行测试与分析.实验结果表明,本文所提算法能够选取最优的K和唯一的初始中心点,获得了更好的聚类结果,同时也提升了聚类算法的稳定性.

关键词：K-means算法、聚类中心、K值、中位数、轮廓系数

所属期刊栏目：36

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金;河南省科技攻关项目

在线出版日期：2022-04-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共19页

页码：47-65

英文信息展示

期刊专题