一种结合随机森林和邻域粗糙集的特征选择方法
针对肿瘤基因数据具有高维小样本的特性,为了提高传统基因分类方法的正确率,提出一种结合随机森林和邻域粗糙集的特征基因选择方法(Random Forest and Neighborhood Rough Set,RFNRS).该方法首先利用Relief算法,对原始的肿瘤基因数据进行权重选择,去除权重较低的特征子集;接着引入基于随机森林的封装式特征选择算法(Random Forest Wrapper Feature Select,RFWFS),以模型准确率作为评判准则,筛选特征子集;然后引入邻域粗糙集针对连续性的特征子集进行寻优处理;最后利用多个经典分类算法处理特征子集.经实验结果表明,该方法不仅在肿瘤基因特征子集的选择上具有良好的性能,同时在算法的分类性能上也有所提高.
肿瘤基因数据、随机森林特征封装、Relief算法、邻域粗糙集、特征选择
38
TP18(自动化基础理论)
国家自然科学基金项目61163010;甘肃省自然科学基金项目1308RJZA111;兰州市科技计划项目2015-2-99
2017-08-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
1358-1362