10.3969/j.issn.1672-5565.201709002
基于序列特征的环状RNA识别
环状RNA是新发现的一类具有重要生物学功能的RNA.现有的环状RNA识别工具依赖高通量测序数据,因数据本身和识别方式的弊端而普遍存在准确性不足、不同方法间重复性低以及假阳性率/假阴性率高等缺点.为了解决该问题,我们搭建模型来实现不依赖于测序数据而根据序列的内在特征的环状RNA从头预测.本文选取了包括剪接位点上下游内含子的长度、A?to?I密度和Alu重复序列等100个与RNA成环相关的序列特征,建立了机器学习模型,并识别了人类基因组中的环状RNA,比较了两种机器学习方法随机森林法(RF)和支持向量机(SVM)的分类效果.结果表明,所选序列特征能有效地鉴别RNA能否成环,同时,不同序列特征对模型的分类预测能力的贡献也不同.相比于SVM方法,RF分类的效果更好.
环状RNA、序列特征、机器学习、随机森林、支持向量机
16
Q522+.6(核酸)
国家自然科学基金61372164, 61471112 , 61571109;江苏省重点研发计划BE2016002-3;中央高校基本科研业务费专项资金2242017K3DN04
2018-08-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
113-118