10.3979/j.issn.1673-825X.2020.03.020
考虑边界稀疏样本的非平衡数据处理方法
针对现有非平衡数据处理方法存在的局限性,提出一种考虑边界4稀疏样本的混合采样方法(considering boundary sparse samples-hybrid sampling,CBSS-HS).通过计算每个样本的边界因子识别边界点,将样本空间划分为边界域和非边界域,对非边界域内的负类样本进行欠采样,而由于边界域上样本的稀疏性,对其上正类样本使用基于最大距离的合成少数类过采样技术(max distance-synthetic minority oversampling technique,MD-SMOTE)进行过采样,最大限度地保留正类样本的信息,最终达到2类样本基本平衡.将Recall,F1-value,G-mean和AUC(area under the curve)值作为评价指标,使用CBSS-HS+支持向量机(support vector machines,SVM)算法在5个不同平衡度的数据集上验证其有效性,并与其他4种组合模型的分类效果做对比.结果表明,提出的CBSS-HS算法在不同数据集上各个评价指标都有良好的表现,平均提高了4.6%.因此,该方法可以作为处理非平衡数据的一种有效手段.
非平衡数据、混合采样、边界因子、SMOTE算法
32
TP273(自动化技术及设备)
国家自然科学基金 61363043
2020-06-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
495-502