10.3969/j.issn.1002-3208.2019.04.004
基于机器学习方法的非编码RNA-蛋白质相互作用的预测
目的 非编码RNA-蛋白质的相互作用(noncoding RNA?protein interactions,ncRPI)具有重要的生物学意义,目前预测其相互作用已成为当下研究非编码RNA(noncoding RNA,ncRNA)和蛋白质功能的重要途径之一.方法 本研究基于ncRNA和蛋白质的序列信息提取特征,运用卷积自编码器预处理原始数据,训练三个机器学习模型:LightGBM(LBM)、随机森林(random forest,RF)和极端梯度增强算法(extreme gradient boosting,XGB),预测ncRNA与蛋白质的相互作用.结果 在RPI369和RPI488两个数据集做5倍交叉验证,LBM、RF与XGB三个模型在两个数据集均达到较高的预测准确率,在RPI369数据集三个模型的预测准确率分别为0.757(LBM)、0.791(RF)、0.791(XGB),在RPI488数据集三个模型的预测准确率分别为0.918(LBM)、0.908(RF)、0.918(XGB);三个模型在RPI1807、RPI2241、RPI13254大数据集也取得较高的AUC(area under curve)值,在RPI1807三个模型的AUC值均为0.99,在RPI2241三个模型最低AUC值为0.87,在RPI13254三个模型最低AUC值为0.81,都表现出较好的预测准确性.结论 机器学习方法能够预测ncRNA与蛋白质是否存在相互作用.
非编码RNA-蛋白质相互作用、LightGBM、随机森林、极端梯度增强算法、卷积自编码器
38
R318.01;Q51(医用一般科学)
国家自然科学基金21173014
2019-08-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
353-359