视觉Transformer预训练模型的胸腔X线影像多标签分类
目的 基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题.本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率.方法 选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类.结果 在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验.结果 表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208.并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性.最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014~0.031的提升.结论 与其他方法相比,ViT模型胸腔X线影像的多标签分类精确度更高,且迁移学习可以在降低训练成本的同时提升ViT模型的分类性能和泛化性.消融实验与模型可视化表明,包含CNN结构的ViT模型能重点关注有意义的区域,高效获取胸腔X线影像的视觉特征.
胸腔X线影像、多标签分类、卷积神经网络(CNN)、视觉Transformer(ViT)、迁移学习
28
TP391.41;TP181;TP79
国家自然科学基金;北京市自然科学基金
2023-04-23(万方平台首次上网日期,不代表论文的发表时间)
共12页
1186-1197