10.3969/j.issn.1006-2475.2020.06.015
基于自适应注意模型的图像描述
结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中.大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如"the"和"of".本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号.在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型.最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量.
注意力机制、卷积神经网络、长短时记忆网络(LSTM)、图像描述
TP391.41(计算技术、计算机技术)
2020-06-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
95-100