10.16337/j.1004-9037.2023.01.018
基于图神经网络和引导向量的图像字幕生成模型
近年来,深度学习已在图像字幕技术研究中展现其优势.在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用.为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG).该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network,GCN)作为编码器对图的每个区域进行表示.在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句.基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了 142.1%.
图像字幕、空间语义图、图卷积神经网络、引导向量、生成模型
38
TP3(计算技术、计算机技术)
国家重点研发计划2018YFB1700902
2023-04-07(万方平台首次上网日期,不代表论文的发表时间)
共11页
209-219