DOI：10.16798/j.issn.1003-0530.2017.10.004

基于Spark的分层子空间权重树随机森林算法

引用

摘要：

高维数据的很多特征与类别的相关性弱,影响了随机森林的分类正确率.针对原始随机森林算法在高维数据上的分类问题,提出了一种分层子空间权重树随机森林算法.同时,传统的单机模式无法满足高维数据计算效率的需求,因此利用开源集群计算框架Spark在内存缓存和迭代计算上的优势,将所提算法在Spark上实现.所提算法采用以决策树为单位的分层抽样来生成特征子空间,在提高单棵决策树性能的同时,保证决策树之间的多样性;并且采用权重树的集成策略,使分类能力强的树在集成过程中影响力更大.通过在Mnist和Gi-sette数据集上的实验结果表明,相比原始随机森林算法、TWRF算法以及分层子空间随机森林算法,所提算法具有更好的正确率,提高了泛化误差性能,可扩展性良好,能够有效分类高维数据.

关键词：高维数据、随机森林算法、决策树、分层抽样、权重树、Spark

所属期刊栏目：33

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学青年基金11402294;天津市智能信号与图像处理重点实验室开放基金项目2015AFS03;中国民航大学第六期波音基金项目20160159209

在线出版日期：2018-03-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1301-1307

英文信息展示

期刊专题