基于Spark的分层子空间权重树随机森林算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.16798/j.issn.1003-0530.2017.10.004

基于Spark的分层子空间权重树随机森林算法

引用
高维数据的很多特征与类别的相关性弱,影响了随机森林的分类正确率.针对原始随机森林算法在高维数据上的分类问题,提出了一种分层子空间权重树随机森林算法.同时,传统的单机模式无法满足高维数据计算效率的需求,因此利用开源集群计算框架Spark在内存缓存和迭代计算上的优势,将所提算法在Spark上实现.所提算法采用以决策树为单位的分层抽样来生成特征子空间,在提高单棵决策树性能的同时,保证决策树之间的多样性;并且采用权重树的集成策略,使分类能力强的树在集成过程中影响力更大.通过在Mnist和Gi-sette数据集上的实验结果表明,相比原始随机森林算法、TWRF算法以及分层子空间随机森林算法,所提算法具有更好的正确率,提高了泛化误差性能,可扩展性良好,能够有效分类高维数据.

高维数据、随机森林算法、决策树、分层抽样、权重树、Spark

33

TP301.6(计算技术、计算机技术)

国家自然科学青年基金11402294;天津市智能信号与图像处理重点实验室开放基金项目2015AFS03;中国民航大学第六期波音基金项目20160159209

2018-03-12(万方平台首次上网日期,不代表论文的发表时间)

共7页

1301-1307

相关文献
评论
暂无封面信息
查看本期封面目录

信号处理

1003-0530

11-2406/TN

33

2017,33(10)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn