10.3969/j.issn.1672-5565.2015.04.01
牙龈卟啉单胞菌编码基因重注释研究
为了确保牙龈卟啉单胞菌生物大分子信息的准确性,对NCBI数据库中的3株牙龈卟啉单胞菌的注释信息进行研究。首先,准备好蛋白质编码与非编码序列正负样本,用基于Z曲线理论的Fisher判别法对正负样本集进行训练,确定一个判断ORF编码或非编码的阈值t0,由阈值作为判别条件来识别所有的ORFs,判断基因片段是否具有编码蛋白质的功能,由此阈值为判别标准排除掉3株牙龈卟啉单胞菌基因组中错误的基因注释信息。然后,用Prodigal基因预测软件对牙龈卟啉单胞菌进行基因预测,基因预测结果与原始功能已知基因进行比对,挑选出具有不同5’终端的ORFs,将这些具有不同5’终端的ORFs与功能已知的基因片段进行比对,找到重叠率小于20%的候选基因。最后,对这些候选基因用Blast进行序列比对找到满足条件的新基因,并为这些新基因添加功能注释信息。基于以上方法共排除了117个非编码的开放式阅读框,并找到了30个NCBI数据库中缺失的编码蛋白质的新基因。
牙周病、牙龈卟啉单胞菌、基因重注释、新基因
Q343.1+2(遗传学分支学科)
中央高校基本科研业务费 ZYGX2013J100;2014年非全日制专业学位研究生教研教改项目 ZY2014009。
2016-03-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
205-211