10.19678/j.issn.1000-3428.0048265
基于Spark的肿瘤基因混合特征选择方法
为处理随微阵列技术发展而急剧增长的肿瘤基因数据,实现对肿瘤基因数据的特征选择,结合集成特征选择和混合特征选择,提出一种Spark分布式计算框架的混合特征选择方法.利用F-score特征选择方法去除无关特征,进行初步特征选择,结合F-score、多分类支持向量机递归消除法、基于随机森林的特征选择3种方法得到最优的特征子集,并采用支持向量机对特征子集进行分类预测.实验结果表明,该方法能通过选择较少的基因达到较高的分类准确率.
肿瘤基因数据、Spark分布式计算框架、混合特征选择、集成特征选择、分类
44
TP391(计算技术、计算机技术)
上海市科委重点项目14DZ1206302
2019-01-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
1-6