10.11772/j.issn.1001-9081.2021061082
基于表示学习和深度森林的长链非编码RNA编码短肽预测模型
长链非编码RNA(lncRNA)中的小开放阅读框(sORFs)能够编码长度不超过100个氨基酸的短肽.针对短肽预测研究中lncRNA中的sORFs特征不鲜明且高可信度数据尚不充分的问题,提出一种基于表示学习的深度森林(DF)模型.首先,使用常规lncRNA特征提取方法对sORFs进行编码;其次,通过自编码器(AE)进行表示学习来获得输入数据的高效表示;最后,训练DF模型实现对lncRNA编码短肽的预测.实验结果表明,该模型在拟南芥数据集上能够达到92.08%的准确率,高于传统机器学习模型、深度学习模型以及组合模型,且具有较好的稳定性;此外,在大豆与玉米数据集上进行的模型测试中,该模型的准确率分别能达到78.16%和74.92%,验证了所提模型良好的泛化能力.
长链非编码RNA;小开放阅读框;短肽;表示学习;深度森林;预测
41
TP183(自动化基础理论)
国家自然科学基金资助项目61872055
2022-01-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
3614-3619