一致性协议匹配的跨模态图像文本检索方法
跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联.然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题.为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能.本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能.在Flickr30K和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性.
人工智能;计算机视觉;视觉和语言;跨模态检索;一致性协议匹配;注意力;卷积神经网络;循环神经网络;门控循环单元
16
TP18(自动化基础理论)
国家自然科学基金项目;中国博士后科学基金创新人才支持计划项目
2021-12-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
1143-1150