基于异构距离的集成分类算法研究
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法——HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器.用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高.
异构数据、不均衡数据、异构距离、集成学习、过取样、欠取样
14
TP391.4(计算技术、计算机技术)
陕西省自然科学基础研究计划项目2015JM6347;陕西省教育厅科技计划项目15JK1218;商洛学院科学与技术项目18sky014;商洛学院科技创新团队建设项目18SCX002;商洛学院重点学科建设项目,学科名:数学”
2019-07-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
733-742