DOI：10.1360/N112015-00135

K近邻优化的密度峰值快速搜索聚类算法

引用

摘要：

针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心;提出两种基于K近邻的样本分配策略,依次分配样本到相应类簇中心,得到数据集样本的分布模式.理论分析和在经典人工数据集、UCI数据集及Olivetti人脸数据集的对比实验表明:提出的基于K近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇中心,并合理分配样本到相应类簇,揭示数据集样本的分布模式,对噪声数据具有非常好的鲁棒性,聚类结果优于2014年6月发表在Science的密度峰值点快速搜索聚类算法,以及经典聚类算法AP,DBSCAN和K-means.本文算法是一种非常有效的聚类算法,可用于发现任意数据集的隐藏模式与规律.

关键词：K近邻、局部密度、密度峰值、类簇中心、聚类

所属期刊栏目：46

分类号：TP301.6;TN948.64;TP181

资助基金：国家自然科学基金;陕西省科技攻关计划;中央高校基本科研业务费专项

在线出版日期：2016-03-04（万方平台首次上网日期，不代表论文的发表时间）

页码：258-280

英文信息展示

期刊专题