基于卷积神经网络的大肠杆菌启动子预测
目的 基于位点特异性打分矩阵(position-specific scoring matrices,PSSM)的预测模型已经取得了良好的效果,基于PSSM的各种优化方法也在不断发展,但准确率相对较低,为了进一步提高预测准确率,本文基于卷积神经网络(convolutional neural networks,CNN)算法做了进一步研究.方法 采用PSSM将启动子序列处理成数值矩阵,通过CNN算法进行分类.大肠杆菌K-12(Escherichia coli K-12,E.coli K-12,下文简称大肠杆菌)的Sigma38、Sigma54和Sigma703种启动子序列被作为正集,编码(Coding)区和非编码(Non-coding)区的序列为负集.结果 在预测大肠杆菌启动子的二分类中,准确率达到99%,启动子预测的成功率接近100%;在对Sigma38、Sigma54、Sigma70 3种启动子的三分类中,预测准确率为98%,并且针对每一种序列的预测准确率均可以达到98%以上.最后,本文以Sigma38、Sigma54、Sigma703种启动子分别和Coding区或者Non-coding区序列做四分类,预测得到的准确性为0.98,对3种Sigma启动子均衡样本的十交叉检验预测精度均可以达到0.95以上,海明距离为0.016,Kappa系数为0.97.结论 相较于支持向量机(support vector machine,SVM)等其他分类算法,CNN分类算法更具优势,并且基于CNN的分类优势,编码方式亦可以得到简化.
大肠杆菌、位点特异性打分矩阵、卷积神经网络、多分类
49
Q61(理论生物物理学)
国家自然科学基金;内蒙古自治区高等学校科学研究项目;内蒙古大学大学生创新创业训练计划项目
2022-08-12(万方平台首次上网日期,不代表论文的发表时间)
共14页
1334-1347