10.13705/j.issn.1671-6841.2021214
结合多尺度卷积胶囊网络的植物lncRNA编码小肽预测
长非编码RNA(lncRNA)是一类不编码蛋白、长度大于200 nt的非编码RNA.然而,最近研究表明,部分lncRNA中含有不超过300 nt的短开放阅读框(sORFs),具备编码小肽的能力.这一发现使得sORFs编码小肽(SEPs)这一崭新的研究领域引起人们的重视.目前,对SEPs的研究大多采用生物实验和传统机器学习方法.由于生物实验方法造价高、耗时长、传统机器学习涉及过多人工干预,提出一种结合多尺度卷积胶囊网络的深度学习模型,既能够充分提取序列特征,又通过胶囊间的连接进行特征聚类.采用五折交叉验证评估模型性能,在苔藓数据集上与单一深度学习模型和简单融合深度学习模型相比,取得较好的分类效果.另外,采用拟南芥、大豆两个物种的数据集进行独立测试,验证了模型具有良好的泛化能力.
胶囊网络;长非编码RNA;短开放阅读框;小肽;预测
54
TP183(自动化基础理论)
国家自然科学基金61872055
2022-01-12(万方平台首次上网日期,不代表论文的发表时间)
共7页
12-18