10.3969/j.issn.1001-4160.2012.07.011
融合PLS监督特征提取和虚假最近邻点的数据分类特征选择
在高维数据分类中,针对多重共线性、冗余特征及噪声易导致分类器识别精度低和时空开销大的问题,提出融合偏最小二乘(Partial Least Squares,PLS)有监督特征提取和虚假最近邻点(False Nearest Neighbors,FNN)的特征选择方法:首先利用偏最小二乘对高维数据提取主元,消除特征之间的多重共线性,得到携带监督信息的独立主元空间;然后通过计算各特征选择前后在此空间的相关性,建立基于虚假最近邻点的特征相似性测度,得到原始特征对类别变量解释能力强弱排序;最后,依次剔除解释能力弱的特征,构造出各种分类模型,并以支持向量机(Support Vector Machine,SVM)分类识别率为模型评估准则,搜索出识别率最高但含特征数最少的分类模型,此模型所含的特征即为最佳特征子集.3个数据集模型仿真结果均表明,由此法选择出的最佳特征子集与各数据集的本质分类特征吻合,说明该方法有良好的特征选择能力,为数据分类特征选择提供了一条新途径.
偏最小二乘、虚假最近邻点、相似性测度、特征选择
29
TP391.4;O235(计算技术、计算机技术)
国家自然科学基金61174015、51075418;重庆市自然科学基金CSTC2010BB2285;重庆市教委科技项目KJ111417
2013-03-13(万方平台首次上网日期,不代表论文的发表时间)
共5页
817-821