基于随机森林特征重要性和区间偏最小二乘法的近红外光谱波长筛选方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3964/j.issn.1000-0593(2023)04-1043-08

基于随机森林特征重要性和区间偏最小二乘法的近红外光谱波长筛选方法

引用
为建立快速近红外光谱定量分析模型,特征波长筛选是提高定量分析预测精度较为有效的方法之一.它能够筛选出有效波长信息,减少数据冗余、提高数据有效性.随机森林(RF)作为一种集成算法,可根据计算特征重要性进行特征筛选.RF将基于袋外数据(OOB)的平均精度下降(MDA)方法计算均方误差平均值作为特征重要性结果,通过设置特征重要性阈值筛选特征变量构成特征波长子集,但该阈值范围的设定无理论依据,因此需要对特征重要性阈值范围进行探究.另一方面,由于RF的随机特性,特征波长子集中可能包含无效甚至是干扰变量,并不能保证所选变量的有效性.故而进一步提出RF-iPLS波长筛选方法.区间偏最小二乘法(iPLS)筛选出的特征波长多为连续特征波段的特性,对特征波长子集划分区间,弥补RF因自身随机性造成的无效变量问题;同时,RF筛选的离散特征波长解决了iPLS筛选的连续波段中含冗余信息的问题.为了说明RF-iPLS算法的合理性,特征子集经过蒙特卡洛(MC)方法500次样本特征采样后,构建RF-MC-iPLS算法.虽然RF-iPLS与RF-MC-iPLS算法结构接近,但运行时间缩短了11.12%,结果说明RF-iPLS算法在预测模型中的特征波长筛选是有效的,且具有较低的时间复杂度.为了进一步验证改进的RF-iPLS算法的有效性,应用一组公开谷物蛋白质近红外光谱数据,建立PLSR模型,并与全谱的PLSR模型以及基于不同波长筛选方法的PLSR模型进行比较.实验结果表明,相比于全谱的117个波长,RF-iPLS优选出12个特征波长,建模集的RMSEC从2.61降到0.64,预测精度提升了约75.5%,预测集的RMSEP从2.63降到0.69,预测精度提升了73.8%,极大地提高了预测精度且预测结果最优,说明RF-iPLS是一种有效的特征波长筛选方法,可以简化近红外光谱定量分析模型的复杂度并实现高效降维.

波长筛选、特征重要性计算、谷物蛋白质含量、定量分析

43

O433.4(光学)

黑龙江省百千万工程科技重大专项;中央支持地方高校改革发展资金项目;黑龙江省博士后面上项目;黑龙江八一农垦大学三横三纵支持计划项目;黑龙江八一农垦大学学成人才科研启动基金项目

2023-04-24(万方平台首次上网日期,不代表论文的发表时间)

共8页

1043-1050

相关文献
评论
暂无封面信息
查看本期封面目录

光谱学与光谱分析

1000-0593

11-2200/O4

43

2023,43(4)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn