DOI：10.3969/j.issn.1006-2475.2023.01.002

基于改进的Transformer_decoder的增强图像描述

引用

摘要：

Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(Self Attention)通过捕获细粒度的特征来实现更深层次的图像理解.本文对Self Attention机制进行2方面改进,包括视觉增强注意力机制(Vision-Boosted Attention,VBA)和相对位置注意力机制(Relative-Position Attention,RPA).视觉增强注意力机制为Transformer_decoder添加VBA层,将视觉特征作为辅助信息引入Self Attention模型中,指导解码器模型生成与图像内容更匹配的描述语义.相对位置注意力机制在Self Attention的基础上,引入可训练的相对位置参数,为输入序列添加词与词之间的相对位置关系.基于COCO2014进行实验,结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进,且2种注意力机制相结合的解码器模型有更好的语义表述效果.

关键词：图像描述、Transformer模型、Self Attention机制、相对位置注意力机制、视觉增强注意力机制

分类号：TP391(计算技术、计算机技术)

资助基金：国家青年基金资助项目;陕西省教育厅项目;陕西省自然科学基础研究计划项目

在线出版日期：2023-03-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：7-12

英文信息展示

期刊专题