10.11925/infotech.2096-3467.2022.0609
基于KNN和深度高斯混合模型的边界过采样方法
[目的]针对数据不平衡导致的分类器偏向问题,提出一种基于K-最近邻(KNN)算法和深度高斯混合模型(DGMM)的边界过采样方法.[方法]首先,采用KNN算法获得训练集中的边界少数类样本;其次,构建该区域少数类样本的DGMM,并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据;最后,采用3σ准则剔除噪声样本,循环执行直到生成的样本不存在异常值.[结果]所提方法获得的AUC和G均值的最大提升幅度分别为8.62%和12.99%,对应的平均提升幅度分别为3.51%和4.93%.[局限]DGMM的参数优化方法需进一步完善.[结论]所提方法可以更好地处理数据不平衡问题.
数据不平衡、过采样、深度高斯混合模型
7
TP311(计算技术、计算机技术)
2023-07-31(万方平台首次上网日期,不代表论文的发表时间)
共7页
116-122