视觉Transformer预训练模型的胸腔X线影像多标签分类

引用

摘要：

目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题.本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率.方法选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类.结果在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验.结果表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208.并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性.最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014～0.031的提升.结论与其他方法相比,ViT模型胸腔X线影像的多标签分类精确度更高,且迁移学习可以在降低训练成本的同时提升ViT模型的分类性能和泛化性.消融实验与模型可视化表明,包含CNN结构的ViT模型能重点关注有意义的区域,高效获取胸腔X线影像的视觉特征.

关键词：胸腔X线影像、多标签分类、卷积神经网络(CNN)、视觉Transformer(ViT)、迁移学习

所属期刊栏目：28

分类号：TP391.41;TP181;TP79

资助基金：国家自然科学基金;北京市自然科学基金

在线出版日期：2023-04-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1186-1197

英文信息展示

期刊专题