基于海林格距离和SMOTE的多类不平衡学习算法
数据不平衡现象在现实生活中普遍存在.在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果.少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化.鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE).首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向.其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险.最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价.实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%.HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果.
SMOTE、上采样、海林格距离、多类不平衡学习、分类
47
TP311(计算技术、计算机技术)
国家自然科学基金;广西自然科学基金;广西嵌入式技术与智能系统重点实验室基金
2020-03-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
102-109