医学图像描述综述:编码、解码及最新进展

引用

摘要：

随着医疗成像技术的不断提升,放射科医师每天要撰写的医学报告也与日俱增.深度学习兴起后,基于深度学习的医学图像描述技术用于自动生成医学报告,取得了显著效果.本文全面整理了近年来深度医学图像描述方向的论文,包括这一领域的最新方法、数据集和评价指标,分析了它们各自的优劣,并以模型结构为线索予以介绍,是国内首篇针对医疗图像描述任务的综述.现今的深度医疗图像描述技术主要以编码器—解码器结构为基础进行拓展,包括但不局限于加入检索方法、模板匹配方法、注意力机制、强化学习和知识图谱等方法.检索和模板匹配方法虽然简单,但由于医学报告的特殊性仍在本任务上有不错的效果;注意力机制使模型产生报告时能关注图像和文本的某一部分,已经被几乎所有主流模型所采用;强化学习方法突破了医疗图像描述任务中梯度下降训练法与离散的语言生成评价指标不匹配的瓶颈;知识图谱方法则融合了人类医生对于疾病的先验知识,有效提高了生成报告的临床准确性.此外,Transformer等新型结构也正越来越多地取代循环神经网络(recurrent neural network,RNN)甚至卷积神经网络(convolutional neural network,CNN)的位置成为网络主干.本文最后讨论了目前深度医疗图像描述仍需解决的问题以及未来的研究方向,希望能推动深度医疗图像描述技术真正落地.

关键词：深度学习(DL)、医学图像描述、自动医学报告生成、编码器—解码器、图像字幕

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;深圳市科创委资助项目;深圳市高校稳定支持计划项目

在线出版日期：2023-08-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共21页

页码：1990-2010

英文信息展示

期刊专题