DOI：10.3778/j.issn.1002-8331.2011.11.035

基于聚类准则函数的改进K-means算法

引用

摘要：

K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集.为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例.同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇.实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性.

关键词：K-means算法、簇、聚类准则函数

所属期刊栏目：47

分类号：TP301.6(计算技术、计算机技术)

资助基金：上海财经大学"211工程"三期重点学科建设项目

在线出版日期：2011-07-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：123-127

英文信息展示

期刊专题