10.16208/j.issn1000-7024.2016.07.046
基于Hadoop的改进决策树剪枝算法
针对当前决策树剪枝算法较少考虑训练集嘈杂度对模型的影响,以及传统驻留内存分类算法处理海量数据困难的问题,提出一种基于 Hadoop平台的不确定概率误差剪枝算法(IEP),并将其应用在C4.5算法中。在剪枝时,认为用于建树的训练集是嘈杂的,通过将基于不确定概率误差分类数作为剪枝选择依据,减少训练集不可靠对模型的影响。在 Ha-doop平台下,通过将C4.5-IEP算法以文件分裂的方式进行 MapReduce程序设计,增强处理大规模数据的能力,具有较好的可扩展性。
剪枝算法、不确定概率、Hadoop、嘈杂数据、并行化
37
TP181(自动化基础理论)
国家自然科学基金项目61272109
2016-08-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
1942-1946