10.16208/j.issn1000-7024.2018.01.036
基于决策树生成及剪枝的数据集优化及其应用
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正.在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树.利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正.决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正.实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法.
信息熵、基尼指数、决策树、剪枝、数据优化
39
TP181(自动化基础理论)
国家863高技术研究发展计划基金项目2009AA062802;国家自然科学基金项目60473125;中国石油CNPC石油科技中青年创新基金项目05E7013;国家重大专项子课题基金项目G5800-08-ZS-WX;中国石油大学北京克拉玛依校区科研启动基金项目RCYJ2016B-03-001
2018-04-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
205-211