DOI：10.3969/j.issn.1004-373X.2014.08.006

基于数据抽样的自动k-means聚类算法

引用

摘要：

为了解决传统k-means算法需要输入k值和在超大规模数据集进行聚类的问题，这里在前人研究基础上，首先在计算距离时引入信息熵，在超大规模数据集采用数据抽样，抽取最优样本数个样本进行聚类，在抽样数据聚类的基础上进行有效性指标的验证，并且获得算法所需要的k值，然后利用引入信息熵的距离公式再在超大数据集上进行聚类。实验表明，该算法解决了传统k-means算法输入k值的缺陷，通过数据抽样在不影响数据聚类质量的前题下自动获取超大数据集聚类的k值。

关键词：k-means算法、信息熵、最优样本抽取、有效性指标

分类号：TN911-34;TP311

在线出版日期：2014-04-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：19-21

英文信息展示

期刊专题