DOI：10.11896/j.issn.1002-137X.2018.09.043

基于NKSMOTE算法的非平衡数据集分类方法

引用

摘要：

SMOTE(Synthetic Minority Over-sampling TEchnique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题.鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique).该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,然后在核空间上计算少数类样本在所有样本中的K个近邻,最后根据少数类样本的分布对算法分类性能的影响程度赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度.实验采用决策树(Decision Tree,DT)、误差逆传播算法(error BackPropagation,BP)、随机森林(Random Forest,RF)作为分类算法,并将几类经典的过采样方法和文中提出的过采样方法进行多组对比实验.在UCI数据集上的实验结果表明,NKSMOTE算法具有更好的分类性能.

关键词：SMOTE算法、过采样、核空间、非平衡度、分类

所属期刊栏目：45

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金61572406

在线出版日期：2018-10-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：260-265

英文信息展示

期刊专题