DOI：10.16451/j.cnki.issn1003-6059.202009005

基于密度峰值聚类的自适应欠采样方法

引用

摘要：

基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.

关键词：不平衡数据、分类、欠采样、密度峰值聚类、重叠区

所属期刊栏目：33

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目;山西省重点研发计划项目

在线出版日期：2020-11-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：811-819

英文信息展示

期刊专题