DOI：10.11834/jig.220660

深度学习图像描述方法分析与展望

引用

摘要：

图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换.随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升.本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究.这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战.针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法.此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究趋势进行预测和展望.

关键词：图像描述、深度学习、基本能力、应用有效性、核心技术挑战

所属期刊栏目：28

分类号：TP183(自动化基础理论)

在线出版日期：2023-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共29页

页码：2788-2816

英文信息展示

期刊专题