10.3969/j.issn.1000-565X.2010.04.027
若干评价准则对不平衡数据学习的影响
为解决绝大部分传统的以精度准则为优化目标而获得的分类器不适于不平衡数据学习(IDL)的问题,文中通过在支持向量机(SVM)模型上进行"元学习", 研究了精度、平衡精度、几何平均、F1得分、信息增益、AUC(ROC曲线下方图面积)以及文中新提出的GAF和GBF等评价准则对IDL的影响. 在16个来自UCI的不平衡数据集上进行了仿真实验.对实验结果的统计分析表明: 不同准则对分类器性能的影响有显著差异; 即便是对于先进的学习方法支持向量机(SVM)而言, 若以精度准则最大化选择分类器, 那么得到的SVM分类器也容易偏向预测多类; 通过在其他准则上优化, 能输出纠偏了的SVM分类器, 它们的整体性能更好, 尤其是在预测少类能力方面; 在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能.
评价准则、不平衡数据学习、支持向量机、GAF准则、GBF准则
38
TP181(自动化基础理论)
广东省教育部产学研结合项目2007B090400031;广东高校优秀青年创新人才培育项目LYM08074
2010-07-08(万方平台首次上网日期,不代表论文的发表时间)
共9页
147-155