10.3969/j.issn.0258-8021.2013.04.011
一种针对RNA-Seq数据的基因异构体表达水平计算方法
RNA-Seq是基于高通量测序技术对转录组进行研究的实验技术,被大量用来进行基因的选择性剪切研究.针对RNA-Seq数据中读段对基因异构体的多源映射以及读段在基因参考序列上呈非均匀分布的问题,基于文本数据分析领域流的LDA(latent dirichlet allocation)模型,提出了一个新的基因异构体表达值计算方法LDAseq.利用已知的基因异构体注释信息对模型参数进行约束,解决读段对基因异构体的多源映射问题;通过引入固定长度的“探针”将基因参考序列进行分段,解决读段在整个基因参考序列上呈非均匀分布的问题.将LDAseq应用到一个小鼠数据集和一个人类乳腺癌数据集,并和目前流行的方法Cufflinks和RSEM进行对比.结果表明,所提出的LDAseq方法相比Cufflinks和RSEM准确率分别提高了75.5%和62.8%,从而获得了较为准确的基因异构体表达水平计算结果.
RNA-Seq、异构体表达、多源映射、LDA、概率模型
32
R318(医用一般科学)
国家自然科学基金61170152;中央高校基本科研业务费专项CXZZ11_0217
2014-04-01(万方平台首次上网日期,不代表论文的发表时间)
共10页
454-463