10.11772/j.issn.1001-9081.2021030470
面向视觉问答的跨模态交叉融合注意网络
为了提高视觉问答(VQA)模型回答复杂图像问题的准确率,提出了面向视觉问答的跨模态交叉融合注意网络(CCAN).首先,提出了一种改进的残差通道自注意方法对图像进行注意,根据图像整体信息来寻找重要区域,从而引入一种新的联合注意机制,将单词注意和图像区域注意结合在一起;其次,提出一种"跨模态交叉融合"网络生成多个特征,将两个动态信息流整合到一起,每个模态内产生有效的注意流,其中对联合特征使用逐元素相乘的方法.此外,为了避免计算成本增加,网络之间共享参数.在VQA v1.0数据集上的实验结果表明,该模型的准确率达到67.57%,较MLAN模型提高了2.97个百分点,较CAQT模型提高了1.20个百分点.所提方法有效提高了视觉问答模型的准确率,具有有效性和鲁棒性.
视觉问答、联合注意、交叉融合、残差通道、联合特征
42
TP391.41(计算技术、计算机技术)
贵州省科技成果转化项目
2022-04-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
854-859