面向流形数据的共享近邻密度峰值聚类算法
流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大.密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题.为此,本文提出面向流形数据的共享近邻密度峰值聚类(density peaks clustering based on shared nearest neighbor for manifold datasets,DPC-SNN)算法.提出了一种基于共享近邻的样本相似度定义方式,使得同一流形类簇样本间的相似度尽可能高;基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形类簇的类簇中心与其他样本;根据样本的相似度分配剩余样本,避免了样本的连续误分配.DPC-SNN算法与DPC、FKNN-DPC、FNDPC、DPCSA及IDPC-FA算法的对比实验结果表明,DPC-SNN算法能够有效发现流形数据的类簇中心并准确完成聚类,对真实以及人脸数据集也有不错的聚类效果.
密度峰值、聚类分析、流形数据、K近邻、共享近邻、样本相似度、数据挖掘、图像处理
18
TP301.6(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金
2023-08-28(万方平台首次上网日期,不代表论文的发表时间)
共12页
719-730