DOI：10.3969/j.issn.1004-3918.2023.08.001

基于预训练蛋白质语言模型的氨基酸致病突变预测

引用

摘要：

依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AUC)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具.

关键词：氨基酸致病突变、蛋白质语言模型、无监督学习、深度突变扫描

所属期刊栏目：41

分类号：Q31;TP391(遗传与变异)

在线出版日期：2023-09-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1093-1101

英文信息展示

期刊专题