融合遗传算法与XGBoost的玉米百粒重相关基因挖掘
基于RNA-Seq的转录组测序数据特征维度较高,使用传统生信方法寻找表型相关基因需要大量计算资源,且差异分析所得候选基因范围较大,进一步筛选依赖已有的先验知识.针对这一问题,本文提出了融合遗传算法和XGBoost的转录组分析方法—GA-XGBoost,通过融入机器学习算法缩小了后续分析的候选基因范围.在一组高质量玉米数据集上对基因–百粒重性状的关联进行了对比实验和后续分析,结果显示,相比于分别使用全体基因和差异表达基因直接训练XGBoost模型,所提方法得到的候选基因训练的XGBoost模型在玉米百粒重的预测结果上具有最小的MSE;相比于差异表达分析结果的1542个差异表达基因,GA-XGBoost方法最终将候选基因范围减小至48个,范围缩小了31倍,表明所提方法能够有效提升对转录组数据的分析能力和效率.
遗传算法;极限梯度提升算法;机器学习;玉米;转录组分析;百粒重;基因本体;京都基因与基因组百科全书
17
TP391(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;北京市属高校高水平创新团队建设计划项目;国家重点研发计划;北京市教委科技计划重点项目
2022-02-17(万方平台首次上网日期,不代表论文的发表时间)
共11页
170-180