10.11772/j.issn.1001-9081.2018102180
基于带多数类权重的少数类过采样技术和随机森林的信用评估方法
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法.首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测.使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%.与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化.
不平衡数据集、机器学习、带多数类权重的少数类过采样技术、随机森林、信用评估
39
TP18;TP399(自动化基础理论)
国家重点研发计划项目2017YFB1400803;国家自然科学基金资助项目31571563,61601310
2019-07-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
1707-1712