10.3321/j.issn:0253-9772.2008.09.012
人类蛋白编码基因局部GC水平相关性分析
GC含量是基因组DNA序列碱基组成的重要特征,蕴涵基因结构、功能和进化信息.文中通过从公共数据库提取7 992个非冗余的人类蛋白质编码基因DNA序列,分析了基因序列不同区域的局部GC含量和相关性.结果表明:基因局部GC含量呈现不均一性,5'非翻译区GC水平最高,为62.56%:而3'非翻译区GC水平最低,为43.97%.3'侧翼序列的GC含量能较好地代表基因所在区域DNA长片段的GC水平.虽然开放阅读框的GC含量比内含子、3'非翻译区和3'侧翼序列的GC含量高,但4个区域的GC含量之间均存在较高的相关性.密码子第三位置的平均GC含量(GC3)为58.09%,显著高于密码子第一位置和第二位置的GC含量,且与开放阅读框的GC水平高度相关,相关系数高达0.91.GC3与内含子、3'非翻译区,3'侧翼序列的GC水平相关性也较高,GC3对3'侧翼序列的GC含量的直线回归斜率为1.25.因此,GC3可作为基因所在区域GC水平变化的敏感性指标.而密码子第一位置和第二位置以及5'侧翼序列和5'非翻译区GC水平与基因其他区域的GC水平的相关性较弱.该研究结果提示:基因蛋白编码区密码子第三位置、内含子、3'非翻译区和3'侧翼序列的碱基可能经历了相近的进化过程,而蛋白编码区密码子第一位置和第二位置,5'侧翼序列和5'非翻译区由于功能的需要而经历了不同的突变和选择.
局部GC含量、相关、人类蛋白编码基因
30
R51;S82
四川省应用基础研究项目编号:03JY029-041资助Supported by Applied Basic Research Projects of Sichuan Province03JY029-041
2009-01-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
1169-1174