一种基于关联性特征的宏基因组测序片段分装方法
20世纪末宏基因组学的概念被首次提出,从此打开了利用宏基因组学方法和技术研究微生物的大门,随着高通量测序技术的成熟,宏基因组学已经成为了一门新兴的热门学科.序列分析是宏基因组学研究的基础,而序列分析的一个重要环节就是测序片段的分装(binning).分装的准确性直接影响宏基因组学研究的精度和效率,提高分装准确性的关键在于提取出一种反映宏基因组测序片段物种分类的序列特征.目前主流分装方法利用的都是基因组序列的碱基组成性特征.本文深入研究序列的关联性特征,提出了一种基于关联性特征的分装方法,结合机器学习算法实现准确的分装,在对不同物种层次和不同复杂度的模拟宏基因组测序数据集进行分装时都能保持良好的性能.通过对比,发现此方法分装的正确率和稳定性都要优于目前国际上的无监督分装算法以及那些单纯使用三联、四联核苷酸出现频率进行分装的算法.
宏基因组、分装、关联性特征、机器学习
58
国家重点基础研究发展计划2012CB316501
2014-03-14(万方平台首次上网日期,不代表论文的发表时间)
共7页
2854-2860