10.19734/j.issn.1001-3695.2019.12.0663
基于空间注意力推理机制的视觉问答算法研究
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究.在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出.相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域.模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率.
视觉问答、注意力机制、多模态学习、自注意力、空间推理注意力
TP391(计算技术、计算机技术)
国家自然科学基金资助项目71761028
2021-03-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
952-955