一种新的不平衡数据学习算法PCBoost
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
数据挖掘、不平衡数据、集成学习、提升、扰动
35
TP18(自动化基础理论)
国家科技支撑计划项目2006BAK01A33;吉林省科技发展计划项目20070321,20090704
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
202-209