全外显子组测序分析中预处理方法和变异识别方法的比较
目的:比较全外显子组数据分析中不同的预处理方法和变异过滤方法对变异识别的影响.方法:利用2例全外显子组测序数据,从使用不同的预处理方法(FASTX-Toolkit、Trimmomatic及未做预处理)、修饰后不成对读长(single-end reads,SE)取舍策略以及变异过滤方法[Hard过滤和变异质量得分重新校正(variant quality score recalibration,VQSR)]3个方面,通过数据覆盖深度(depth of coverage,DP)、识别变异的数目、转换/颠换比值和基因型一致性等特征,比较他们对全外显子组变异识别结果的影响.结果:Trimmomatic预处理后的读长测序DP与未预处理的原始数据接近,但明显高于FASTX-Toolkit预处理方法.当Dp≥10×且基因型质量分数(genotype quality score,GQ)≥20时,经Trimmomatic预处理后识别到的单核苷酸变异(singlenucleotide variant,SNV)数量比FASTX-Toolkit多,与未预处理组接近.当包含SE时,FASTX-Toolkit组多识别出的SNV数量高于(28%) Trimmomatic组(5%).当样本量较少时,在所有实验组中Hard过滤方法滤掉的SNV要少于VQSR.结论:Trimmomatic修饰(过滤)原始序列更温和,而FASTX-Toolkit可能过度过滤了原始数据.保留SE有利于下游变异识别.Hard过滤相较于VQSR表现出了更高的容忍度.
全外显子组测序、预处理、变异识别
38
R857.3;Q344+.12(航空航天医学)
国家自然科学基金资助项目30930082
2014-02-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
1397-1404