DOI：10.6041/j.issn.1000-1298.2019.06.032

基于Spark框架XGBoost的林业文本并行分类方法研究

引用

摘要：

针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类.经由交叉验证,构建的XGBoost并行分类算法准确率为0.923 4,在各类别中最低F1为0.860 4,最高为0.998 4;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82.结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类.

关键词：林业文本、文本分类、大数据分析、Spark、XGBoost

所属期刊栏目：50

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金项目61772078;北京林业大学热点追踪项目2018BLRD18

在线出版日期：2019-07-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：280-287

英文信息展示

期刊专题