10.16208/j.issn1000-7024.2016.02.021
基于测地距离的GIDGC-KNN不平衡数据分类器
IDGC (imbalanced data gravitation classification)在不平衡数据分类中使用欧式距离计算引力时,未能考虑数据分布性状和待测数据近邻类相关性,存在准确率低的问题,为此提出一种基于测地距离的GIDGC-KNN不平衡数据分类器模型.在IDGC基础上引入放大引力系数 (amplified gravitation coefficient,AGC),结合测地距离和KNN (K-nearest neigh-bor)算法得到数据分布隐含的全局几何结构和近邻样本类相关性.该模型适应高维具有流形结构的数据,继承了KNN近邻样本类相关性的优点.KEEL数据集上的实验结果表明,与IDGC算法、数据层面算法、代价敏感学习算法和集成方法算法相比,GIDGC-KNN在高不平衡数据集上比在低不平衡数据集上有明显的分类性能优势和良好的泛化能力.
测地距离、K-近邻、数据引力、不平衡数据、分类
37
TP181(自动化基础理论)
国家自然科学基金项目50976108;山西省自然科学基金项目2012011011-3
2016-04-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
389-395