基于图神经网络和引导向量的图像字幕生成模型

引用

摘要：

近年来,深度学习已在图像字幕技术研究中展现其优势.在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用.为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG).该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network,GCN)作为编码器对图的每个区域进行表示.在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句.基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9％提高到了 142.1％.

关键词：图像字幕、空间语义图、图卷积神经网络、引导向量、生成模型

所属期刊栏目：38

分类号：TP3(计算技术、计算机技术)

资助基金：国家重点研发计划2018YFB1700902

在线出版日期：2023-04-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：209-219

英文信息展示

期刊专题