10.16451/j.cnki.issn1003-6059.202009005
基于密度峰值聚类的自适应欠采样方法
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.
不平衡数据、分类、欠采样、密度峰值聚类、重叠区
33
TP391(计算技术、计算机技术)
国家自然科学基金项目;山西省重点研发计划项目
2020-11-10(万方平台首次上网日期,不代表论文的发表时间)
共9页
811-819