牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响
SNP芯片已被广泛应用于动植物的遗传研究和生产实践,其基因分型的准确性至关重要.但在实际应用中,常有一定数量的基因型因缺失而需要去估计(填充).此外,由于各种原因,又常常需要在不同芯片的基因型之间相互填充彼此没有的SNP基因型,或从低密度SNP填充到高密度SNP基因型.因此,基因型填充准确率直接影响后续数据分析的准确性和可靠性.为深入了解基因型填充准确率的影响因素,本研究利用20116头美国荷斯坦牛的50K SNP芯片基因分型数据,在SNP分型检出率与错误率存在相关和没有相关两种情形下,分别评估了上述两个因素对下游基因型填充准确率的影响.当两者不相关时,模拟的SNP分型检出率从100%降低到50%,SNP分型错误率由0%提升到50%.当两者存在相关时,基因分型的检出率和错误率之间的关系是基于一个实际数据中这两个变量之间的线性回归方程来确定,即模拟的SNP分型检出率从100%降低到50%,SNP分型错误率从0% 升高到13.35%.最后,采用5折交叉验证的方法评估基因型填充的准确率.结果表明,当原始数据的SNP分型检出率与错误率彼此独立发生时,基因型填充的错误率受原始SNP分型检出率影响不大(P>0.05),却随着原始SNP分型错误率的升高而显著提高(P<0.01).当原始数据的SNP分型检出率与错误率存在负相关时,基因型填充的错误率随着原始SNP分型检出率的降低而显著提高(P<0.01).在这两种情形下,建议SNP分型检出率应在90%以上,基因型填充准确率才能不低于98%.该结果可为提升实际的SNP分型和下游数据分析的质控提供参考依据.
SNP芯片、基因型分型、填充准确率、检出率、错误率
41
湖南省百人计划项目,湖南省重点研发计划项目2018NK2081;湖南省畜禽安全协同创新中心项目和长沙市科技计划重点项目kq1801014
2019-07-31(万方平台首次上网日期,不代表论文的发表时间)
共9页
644-652