基于双门控-残差特征融合的跨模态图文检索
由于互联网和社交媒体的快速发展,跨模态检索引起了广泛关注,跨模态检索学习的目的是实现不同模态的灵活检索.不同模态数据之间存在异质性差距,不能直接计算不同模态特征的相似度,使得跨模态检索任务的准确率很难提高.为缩小图像和文本数据间的异质性差距,文中提出了一种双门控-残差特征融合的跨模态图文检索方法(DGRFF),该方法通过设计门控特征和残差特征来融合图像模态和文本的特征,能够从相反的模态中获得更有效的特征信息,使得语义特征信息更全面.同时,采用对抗损失来对齐两个模态特征的分布,以保持融合特征模态不变性以及在公共潜在空间中得到更有辨识力的特征表示.最后,联合标签预测损失、跨模态相似性损失和对抗损失对模型进行训练学习.在Wikipedia和Pascal Sentence数据集上进行实验,结果证明,DGRFF在跨模态检索任务上获得了良好的效果.
跨模态检索、异质性差距、门控特征、残差特征、特征融合
50
TP391(计算技术、计算机技术)
2023-09-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
481-487