一种基于密度的SMOTE方法研究
重采样技术在解决非平衡类分类问题上得到了广泛的应用.其中,Chawla提出的SMOTE(Synthetic Mino-rity Oversampling Technique)算法在一定程度上缓解了数据的不平衡程度,但这种方法对少数类数据不加区分地进行过抽样,容易造成过拟合.针对此问题,本文提出了一种新的过采样方法:DS-SMOTE方法.DS-SMOTE算法基于样本的密度来识别稀疏样本,并将其作为采样过程中的种子样本;然后在采样过程中采用SMOTE算法的思想,在种子样本与其k近邻之间产生合成样本.实验结果显示,DS-SMOTE算法与其他同类方法相比,准确率以及G值有较大的提高,说明DS-SMOTE算法在处理非平衡数据分类问题上具有一定优势.
非平衡、分类、采样、准确率、密度
12
TP311(计算技术、计算机技术)
国家自然科学基金项目61772323,61402272;山西省自然科学基金项目201701D121051
2018-01-22(万方平台首次上网日期,不代表论文的发表时间)
共8页
865-872