从图像到语言:图像标题生成与描述

引用

摘要：

图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑.图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性.本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结.针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法.此外,本文还分析了融合情感信息与个性化表达的图像描述方法.在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路.对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析.由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决.

关键词：图像标题生成、深度特征、视觉描述、语段生成、图像情感、逻辑语义

所属期刊栏目：26

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目;井冈山大学博士科研启动项目;江西省艺术科学规划项目;江西省高校人文社科基地招标项目;江西省高校信息化学会一般项目

在线出版日期：2021-05-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共24页

页码：727-750

英文信息展示

期刊专题