基于预训练蛋白质语言模型的氨基酸致病突变预测
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1004-3918.2023.08.001

基于预训练蛋白质语言模型的氨基酸致病突变预测

引用
依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AUC)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具.

氨基酸致病突变、蛋白质语言模型、无监督学习、深度突变扫描

41

Q31;TP391(遗传与变异)

2023-09-07(万方平台首次上网日期,不代表论文的发表时间)

共9页

1093-1101

相关文献
评论
暂无封面信息
查看本期封面目录

河南科学

1004-3918

41-1084/N

41

2023,41(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn