10.3964/j.issn.1000-0593(2020)04-1056-07
近红外光谱的选择比率竞争群体分析的变量选择算法
光谱分析是化学计量学的一个重要应用方向,并已被广泛应用到各个领域,其中光谱变量选择又是光谱分析的重要环节.研究不同的变量选择方法客观地识别有用的信息变量和消除无关或干扰变量十分关键.提出了一种新的变量选择方法,命名选择比率的竞争性群体分析法(SRCM PA).该算法采用选择比率,自适应加权采样和模型群体分析的思想,并结合了变量排列和指数递减函数方法.关键波长定义为多元线性回归模型中得分值较大的波长,将线性模型PLS下的选择比率的得分值作为评价各波长重要性的指标,然后,根据每个波长的重要性,SRCM PA依次从蒙特卡罗采样中选择N个波长子集,以迭代和竞争的方式运行.在每一次采样运行中,以固定比率的样品以建立校准的PLS模型并计算每个变量的选择比率值,基于排序选择比率的得分值和作为权重的归一化的SR(选择比率)得分值,采用指数递减函数的强制选择和自适应加权采样竞争选择的两步过程来选择关键变量.最后,应用交叉验证(C V)方法来选择具有最低交叉验证均方根(RMSECV)的子集作为最优子集.该算法已在小麦蛋白数据集和啤酒数据集上进行了测试,并使用三种高效算法作对比.通过对实验结果来评估算法优越性,该算法能够找到数据集的关键波长变量的最佳组合,并能用于解释感兴趣的化学特性,通过建模后的评价结果也是最佳的.该算法在啤酒光谱数据集的运行结果,相较于啤酒数据集的全光谱PL S模型,变量个数由567个减少到42个左右.并且模型的RM-SECV由0.622下降到0.115,RMSEP由0.823减少到了0.263左右,预测精度分别提高了81.5% 和68.1%.Q2_CV和Q2_test也分别由0.940,0.852提高到了0.994和0.995.在小麦蛋白数据集的运行结果,相较于于小麦蛋白光谱数据集的全光谱PLS模型,变量个数由175个减少到18个左右.并且模型的RMSECV由0.607下降到0.292,RMSEP由0.519减少到了0.234左右,预测精度分别提高了51.9% 和54.9%.Q2_CV和Q2_test也分别由0.748,0.774提高到了0.931和0.839.
变量选择、选择比率、自适应加权采样、群体模型分析、蒙特卡罗采样
40
O65(分析化学)
国家自然科学基金项目;中华人民共和国教育部国际科技合作项目2016-2196资助
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
1056-1062