基于统计差表与加权投票的高精度剪接位点预测
基于机器学习的高精度剪接位点识别是真核生物基因组注释的关键.本文采用卡方测验确定序列窗口长度,构建卡方统计差表提取位置特征,并结合碱基二联体频次表征序列;针对剪接位点正负样本高度不均衡这一情形,构建10个正负样本均衡的支持向量机分类器,进行加权投票决策,有效解决了不平衡模式分类问题.HS3D数据集上的独立测试结果显示,供体、受体位点预测准确率分别达到93.39%、90.46%,明显高于参比方法.基于卡方统计差表的位置特征能有效表征DNA序列,在分子序列信号位点识别中具有应用前景.
剪接位点、位置特征、卡方统计差表、加权投票、支持向量机
46
Q51;Q61(蛋白质)
国家自然科学基金;湖南省自然科学基金;湖南省教育厅科学研究项目
2019-07-01(万方平台首次上网日期,不代表论文的发表时间)
共8页
496-503