10.16088/j.issn.1001-6600.2020.02.008
一种面向不平衡分类的改进多决策树算法
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection).其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树.通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性.
不平衡数据、多决策树、Tomeklink欠采样、集成欠采样、属性选择
38
TP391(计算技术、计算机技术)
国家社会科学基金19BYY076;山东省社科规划项目18CXWJ01
2020-04-10(万方平台首次上网日期,不代表论文的发表时间)
共9页
72-80