DOI：10.3969/j.issn.1001-3695.2011.05.027

蛋白质二级结构的协同训练预测方法

引用

摘要：

针对蛋白质二级结构机器学习预测方法,忽略氨基酸疏水性特征以及氨基酸之间的长程作用和准确率不高的现状,进行了比较实验分析.采用氨基酸对应的疏水能值替换蛋白质中相应的氨基酸,得到疏水能值的序列.实验结果表明,用长的疏水能值序列训练BP网络,对长程作用起主导的E结构的预测效果好.由于Profile编码特征和疏水能值特征是独立的冗余视图,基于协同训练思想,提出Co-training算法.该算法的主要步骤是在Profile特征空间训练SVM分类器,在疏水性特征空间训练BP神经网络分类器,协同对氨基酸二级结构进行预测;SVM分类器和BP分类器有分歧的样本,基于主动选择思想,分析分类器以及特征空间的特点,定义质疑样例和可信样例,给予两个分类器不同的优先级进行仲裁.实验表明,Co-training方法有较高的准确性,对短程起主导的E结构和长程起主导的H结构预测准确率都有所提高.

关键词：协同训练、蛋白质、二级结构预测、支持向量机、神经网络

所属期刊栏目：28

分类号：TP301(计算技术、计算机技术)

资助基金：中国博士后科学基金资助项目20070420711;重庆市科委自然科学基金资助项目2007BB2372

在线出版日期：2011-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1688-1691

英文信息展示

期刊专题