人类基因组非冗余Exon/Intron数据库的构建
以Homo.sapiens RefSeq作为原始数据库来构建EID (Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2 870 827 355 bps)中含有32 157个基因标识符 (gene blocks),其中7 398个基因为假基因,4 014个基因发生了可变剪切 (Alternative Splicing,AS),15 533个基因含有CDS内含子,765个基因含有UTR内含子,2 585个基因不含有内含子,其他的为异常基因.
非冗余外显子/内含子数据库、RefSeq、Homo.sapiens、编码序列、非翻译区
Q34(遗传学分支学科)
国家自然科学基金专项项目/科学部主任基金项目30940020;国家自然科学基金项目30470495
2011-03-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
87-92