多条件多样本RNA-Seq数据的剪切异构体表达水平估计
当处理多条件多样本RNA-Seq测序数据时,现有方法忽略了读段分布样本之间存在高度相似性的特点.本文提出了一个基于多条件多样本RNA-Seq测序数据剪切异构体表达水平估计方法MCMS-Seq.该方法建立了一个联合偏差估计模型来提取读段分布在样本之间的相似性特征,同时考虑读段分布受全局偏差和局部偏差的影响.此外,增加 L2/L1组稀疏约束和L1稀疏约束两个正则化项,用来体现基因和剪切异构体之间存在稀疏特性,以及消除技术性误差和数据噪声的影响.通过多个真实数据集的验证,MCMS-Seq方法能获得更为准确的剪切异构体表达水平,同时也能提供更有意义的生物性解释.
转录组测序技术;多条件;多样本;剪切异构体;表达水平估计;稀疏特性;读段分布偏差;数据噪声
16
TP391(计算技术、计算机技术)
国家自然科学基金项目;江苏省自然科学基金项目;南京林业大学青年科技创新基金项目;汕尾市省级科技创新战略专项资金项目
2021-12-07(万方平台首次上网日期,不代表论文的发表时间)
共10页
1126-1135