基于特征选择的高维数据集成学习方法研究

引用

摘要：

从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.

关键词：集成学习、多样性、特征选择、信息熵、高维数据

所属期刊栏目：48

分类号：TP181(自动化基础理论)

在线出版日期：2021-07-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：250-254

英文信息展示

期刊专题