10.19734/j.issn.1001-3695.2022.06.0335
基于多路语义图网络的图像自动问答
基于视觉特征与文本特征融合的图像问答已经成为自动问答的热点研究方向之一.现有的大部分模型都是通过注意力机制来挖掘图像和问题语句之间的关联关系,忽略了图像区域和问题词在同一模态之中以及不同视角的关联关系.针对该问题,提出一种基于多路语义图网络的图像自动问答模型(MSGN),从多个角度挖掘图像和问题之间的语义关联.MSGN利用图神经网络模型挖掘图像区域和问题词细粒度的模态内模态间的关联关系,进而提高答案预测的准确性.模型在公开的图像问答数据集上的实验结果表明,从多个角度挖掘图像和问题之间的语义关联可提高图像问题答案预测的性能.
图像问答、多头注意力、自动问答、特征融合、跨模态分析
40
TP391.1(计算技术、计算机技术)
北京市自然科学基金资助项目;北京社会科学基金资助项目;北京市教委科技计划资助项目
2023-03-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
383-387