10.13778/j.cnki.11-3705/c.2020.01.005
SMOTE混合抽样对非平衡数据分类效果的影响分析
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响.首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果.模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型.通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义.
非平衡数据、SMOTE过抽样、欠抽样、混合抽样、分类效果
C81(统计方法)
2020-03-15(万方平台首次上网日期,不代表论文的发表时间)
共8页
34-41