DOI：10.16112/j.cnki.53-1223/n.2023.01.132

多头注意机制的多粒度文本-图像对齐

引用

摘要：

基于文本的人物图像搜索任务存在文本和图像细粒度特征提取以及消除文本-图像模态间差距等方面的挑战.本文针对全局特征不足以表示全面的文本和图像模态特征的问题,提出了多头注意机制的多粒度文本-图像对齐方法,该方法引入多头注意力机制,在考虑全局匹配的基础之上,同时考虑局部图像特征和局部文本特征之间的匹配,并对局部图像特征和局部文本特征应用多头注意力机制,来获取文本和图像模态内的关系信息,提出模态间关系模块来获取两个模态之间的关系信息,使提取到的局部图像特征和局部文本特征自适应地对齐,从而提升基于文本的人物图像搜索任务的整体效果.在公共数据集CUHK-PEDES上进行了实验验证,模型的总体性能较baseline提高了 3.0％,由此表明本文提出的模型在基于文本的人物图像搜索任务中的有效性.

关键词：跨模态匹配、全局匹配、多头注意力机制、局部图像特征、局部文本特征

所属期刊栏目：48

分类号：TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2023-03-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：42-52

英文信息展示

期刊专题