10.11896/j.issn.1002-137X.2015.7.053
两种基于树结构的基因选择算法
癌症诊断是生物信息学领域的重要课题,其中从基因表达数据中选择与癌症相关的基因子集是癌症诊断的关键.随机森林是近年来很热门的算法,它能够评估分类中特征的重要性(该方法简称为PBM).受此启发,提出了两种基于树结构的基因选择方法FBM和ABM,分别以树结构中特征出现的频率和重要性打分的平均值作为属性重要性的指标.数值实验中,使用提出的方法选取特征子集,并建立随机森林分类器,通过AUC结果评估基因选择的优劣.实验结果表明,当PBM的AUC值不低于0.900时,其在Leukemia数据集上至少需要26个基因,在ColonCancer数据集上至少需要48个基因.而在仅选取前10个基因时,FBM和ABM在Leukemia数据集的AUC值均达到0.989,在Colon Cancer数据集的AUC值达到0.900.此外,与其它典型的基因选择方法mRMR和ECRP等相比,提出的方法也有较高的精度,这对癌症的精确诊断和及早治疗具有重要的现实意义.
分类、基因选择、随机森林
42
TP3-05(计算技术、计算机技术)
国家自然科学基金61271337,61103126;教育部博士点基金20100141120049;湖北省自然科学基金2011CDB454;深圳市战略新兴产业发展专项资金项目JCYJ20130401160028781
2016-05-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
250-253