模式识别在烟草化学中的过拟合现象研究
烟草化学建模过程中,化学成分间的多重共线性是常见的问题,使用偏最小二乘判别分析可以有效克服这一问题,但是模型容易出现过拟合的现象,即模型的构建效果好,但是预报能力差。本文选取湖南烟区3个种植大区,即湘南、湘中、湘西北种植的53种不同烟叶,使用偏最小二乘判别分析建立了烟叶主要化学指标与地区大类之间的模型,但是由于变量过多以及噪声的干扰,模型的预报精度差,偏最小二乘判别分析方法出现了过拟合现象,模型的稳健性受到破坏。本文采用了多种模式识别的方法,逐步筛选变量,准确提取出特征变量9个,对产地变量有更好的解释能力,并能够有效地在模型预测的过程中避免变量间的多重共线性以及仪器检测的噪声干扰,建立了有效的烟叶—产地识别模型。模型预报的准确率由未筛选变量之前的75%提高到87.5%,模型的稳健性得到很大提高,改善了模型的过拟合现象。
多重共线性、偏最小二乘判别分析、过拟合
TQ015.9;TP391.9;O6-39(一般性问题)
2013-07-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
561-564