基于Spark框架XGBoost的林业文本并行分类方法研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.6041/j.issn.1000-1298.2019.06.032

基于Spark框架XGBoost的林业文本并行分类方法研究

引用
针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类.经由交叉验证,构建的XGBoost并行分类算法准确率为0.923 4,在各类别中最低F1为0.860 4,最高为0.998 4;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82.结果 表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类.

林业文本、文本分类、大数据分析、Spark、XGBoost

50

TP391.1(计算技术、计算机技术)

国家自然科学基金项目61772078;北京林业大学热点追踪项目2018BLRD18

2019-07-30(万方平台首次上网日期,不代表论文的发表时间)

共8页

280-287

相关文献
评论
暂无封面信息
查看本期封面目录

农业机械学报

1000-1298

11-1964/S

50

2019,50(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn