加权K近邻和多簇合并的密度峰值聚类算法

引用

摘要：

密度峰值聚类(DPC)算法是一种基于密度的聚类算法.该算法原理简单、运行高效,可以找到任意非球形类簇.但是该算法存在一些缺陷:首先,该算法局部密度定义的度量准则不统一且两者的聚类结果存在较大差异;其次,该算法的分配策略易产生分配连带错误,即一旦某一个样本分配错误,会导致后续一连串的样本分配错误.为解决这些问题,提出了一种加权K近邻和多簇合并的密度峰值聚类算法(WKMM-DPC).该算法结合加权K近邻的思想,引入样本的权重系数,重新定义样本的局部密度,使局部密度更加依赖于K近邻内样本的位置,且统一了密度定义的度量准则;定义了类簇间的相似度,并据此度量准则进行多簇合并,以避免分配剩余样本时的分配连带错误.在人工和UCI数据集上的实验表明,该算法的聚类效果优于FKNN-DPC、DPCSA、FNDPC、DPC和DBSCAN算法.

关键词：聚类、局部密度、密度峰值、K近邻(KNN)、多簇合并

所属期刊栏目：16

分类号：TP301.6(计算技术、计算机技术)

资助基金：江西省教育厅科技项目;国家自然科学基金;国家自然科学基金;江西省杰出青年基金

在线出版日期：2022-09-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：2163-2176

英文信息展示

期刊专题