文本信息辅助图像差异描述生成

引用

摘要：

图像描述生成任务要求机器自动生成自然语言文本来描述图像所呈现的语义内容,从而将视觉信息转化为文本描述,便于对图像进行管理、检索、分类等工作.图像差异描述生成是图像描述生成任务的延伸,其难点在于如何确定2张图像之间的视觉语义差别,并将视觉差异信息转换成对应的文本描述.基于此,提出了一种引入文本信息辅助训练的模型框架TA-IDC.采取多任务学习的方法,在传统的编码器-解码器结构上增加文本编码器,在训练阶段通过文本辅助解码和混合解码2种方法引入文本信息,建模视觉和文本2个模态间的语义关联,以获得高质量的图像差别描述.实验证明,TA-IDC模型在3个图像差异描述数据集上的主要指标分别超越已有模型最佳结果12％、2％和3％.

关键词：图像差异描述、模态融合、图像描述、计算机视觉、自然语言处理

所属期刊栏目：48

分类号：TP37(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;北京市自然科学基金

在线出版日期：2022-09-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1436-1444

英文信息展示

期刊专题