10.3969/j.issn.1002-3208.2020.01.009
一种基于卷积神经网络的DIA数据预处理模型
目的 数据非依赖性采集(data independent acquisition,DIA)是目前针对大通量蛋白质组学分析常用的一种数据采集方式.在对DIA数据无目标的分析方式中,由于无法预测肽段出现在DIA数据中的位置,需要对谱中所有的峰进行分析.但谱中含有大量的噪声峰,这些峰会严重影响后续蛋白质定性定量分析的效率与效果,所以在DIA数据的无目标分析过程中先进行预处理以去除噪声峰就成了很重要的一步.为了能充分利用从DIA数据中提取出来的肽段在一级质谱(first stage of mass spectrometry,MS1)和二级质谱(second stage of mass spectrometry,MS2)中的峰信息,提出质谱卷积神经网络(mass spectrometry convolutional neural network,MSCNN)模型.方法 不同于传统的方法,本文首先提出适用于MSCNN网络结构的样本提取流程,然后利用MSCNN对样本进行训练和学习,该模型可以最大限度利用肽在MS1和MS2中的特征,最后通过观察模型在测试集中的结果来验证模型的效果.结果 和传统算法相比,在保证真峰处理效果大致相同的情况下,MSCNN模型过滤噪声峰的数量提高了约11.2%.结论 本文提出的MSCNN模型可以更有效地去除DIA数据中的噪声峰.
蛋白质组学、卷积神经网络、质谱、预处理、相关性
39
R318.04(医用一般科学)
国家重点基础研究发展计划;安徽省自然科学基金
2020-04-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
56-61