DOI：10.3969/j.issn.1673-629X.2023.04.002

图像描述技术方法研究

引用

摘要：

图像描述是人工智能领域中的多模态研究任务,融合了计算机视觉技术与自然语言处理技术,在人机交互和智能家居等领域具有广泛的应用.然而图像与文本之间存在较大的语义鸿沟,生成语义丰富的图像描述是一项具有挑战性的任务.文章旨在对图像描述技术进行总结研究,首先,文章简要地概述了图像描述任务的定义和发展历程.其次,文章分析了图像描述任务发展过程中出现的经典方法与模型,包括模板填充的方法、检索的方法和深度学习的方法;其中,基于深度学习的方法有:基于注意力机制的方法、基于对抗生成网络的方法和基于强化学习的方法,并对这些基于深度学习的图像描述方法在不同数据集上的实验结果进行了比较分析.另外,文章介绍了图像描述任务的相关数据集和评价指标.最后,文章展望了图像描述任务的未来工作.

关键词：图像描述、图像处理、文本生成、机器学习、多模态任务

所属期刊栏目：33

分类号：TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;江苏省六大人才高峰高层次人才项目

在线出版日期：2023-04-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：9-17

英文信息展示

期刊专题