牙龈卟啉单胞菌编码基因重注释研究

引用

摘要：

为了确保牙龈卟啉单胞菌生物大分子信息的准确性，对NCBI数据库中的3株牙龈卟啉单胞菌的注释信息进行研究。首先，准备好蛋白质编码与非编码序列正负样本，用基于Z曲线理论的Fisher判别法对正负样本集进行训练，确定一个判断ORF编码或非编码的阈值t0，由阈值作为判别条件来识别所有的ORFs，判断基因片段是否具有编码蛋白质的功能，由此阈值为判别标准排除掉3株牙龈卟啉单胞菌基因组中错误的基因注释信息。然后，用Prodigal基因预测软件对牙龈卟啉单胞菌进行基因预测，基因预测结果与原始功能已知基因进行比对，挑选出具有不同5’终端的ORFs，将这些具有不同5’终端的ORFs与功能已知的基因片段进行比对，找到重叠率小于20％的候选基因。最后，对这些候选基因用Blast进行序列比对找到满足条件的新基因，并为这些新基因添加功能注释信息。基于以上方法共排除了117个非编码的开放式阅读框，并找到了30个NCBI数据库中缺失的编码蛋白质的新基因。

关键词：牙周病、牙龈卟啉单胞菌、基因重注释、新基因

分类号：Q343.1+2(遗传学分支学科)

资助基金：中央高校基本科研业务费 ZYGX2013J100；2014年非全日制专业学位研究生教研教改项目 ZY2014009。

在线出版日期：2016-03-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：205-211

英文信息展示

期刊专题