10.16208/j.issn1000-7024.2020.05.015
基于HDBACAN聚类的自适应过采样技术
为克服不平衡数据集中存在的噪声、 小分离、 类内和类间不平衡问题,提出一种基于HDBSCAN(hierarchical density-based spatial clustering of applications with noise)聚类的自适应过采样技术.该技术只对HDBSCAN发现的任意形状的集群进行过采样,在稀疏度大的集群中自适应地合成较多的样本,在稀疏度小的集群中合成相对较少的样本,且合成的样本靠近集群中心.实验结果表明,该方法可有效避免不平衡数据集中噪声的产生,同时克服类间和类内不平衡问题,为不平衡学习提供了一种过采样策略.
类不平衡、聚类、过采样、不平衡学习、数据挖掘
41
TP311.1(计算技术、计算机技术)
2020-05-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
1295-1300