多特征融合的植物长链非编码RNA的预测
长链非编码RNA(Long non-coding RNA,lncRNA)是一类被定义为转录本的长度大于200 nt、没有蛋白编码能力的RNA转录本.研究表明,lncRNA在调节植物生长发育、表观遗传反应以及各种胁迫反应中起重要作用.但是与人类和动物相比,植物lncRNA的研究仍然处于起步阶段.目前,如何从大量的转录本中准确地挑选出lncRNA仍然是植物lncRNA研究领域的重要问题之一.本文构建了新的植物lncRNA和mRNA数据集,分析了数据集中植物lncRNA的序列及结构特征,提取了序列的k-mer频数信息、二级结构信息、开放阅读框信息以及序列的几何柔性等特征,基于SVM(Support Vector Machine,SVM)算法,用Jackknife检验对植物lncRNA进行了预测,并且计算了各种特征融合后对植物lncRNA预测结果的影响,准确率达到了96.14%.
植物lncRNA、特征提取、多特征融合、支持向量机
19
Q61(理论生物物理学)
国家自然科学基金;国家自然科学基金
2021-07-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
128-135