DOI：10.3969/j.issn.1001-4160.2010.04.004

以序列特征值预测酶和非酶蛋白及内含肽

引用

摘要：

利用生物信息学快速准确鉴别酶、非酶蛋白及内含肽能极大提高实验效率,而测序数量的指数型增长使酶、非酶蛋白及内含肽的自动分类尤显重要.本文获取了同一性小于25%的序列共计3 853条,采用Z标度的伪氨基酸组成和氨基酸组成分布提取序列特征值识别酶、非酶蛋白及内含肽.结果表明,该特征值提取方法经参数优化后,即当λ=5,w=0.15时,以支持向量机为分类器,其10倍交叉验证的精度可达81.3%,ROC曲线下面积为0.83;其精度高于其它方法0.5%到12.9%不等;独立样本测试的预测精度可达71.2%,ROC曲线下面积为0.782,其精度高于其它方法0.4%到6.4%不等,效果均优于其它常见的序列特征值方法.本文结果说明从序列出发判断其归属是可行的,3种不同功能的分子在序列特征上存在一定的差异,所建立的Z标度的伪氨基酸组成和氨基酸组成分布法可用于其它类似的生物信息学问题.建立了从序列出发预测酶、非酶蛋白及内含肽的新方法.

关键词：酶、非酶蛋白、内含肽、伪氨基酸组成、氨基酸组成分布

所属期刊栏目：27

分类号：Q617(理论生物物理学)

资助基金：国家自然科学基金20806031;福建省自然科学基金2009J01030;华侨大学科研基金07HZR20

在线出版日期：2010-10-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：435-438

英文信息展示

期刊专题