基于知识蒸馏的跨模态哈希
由于计算和存储的高效性,哈希被广泛地用于大规模跨模态检索.现有跨模态哈希方法分别对单模态数据生成哈希码,忽略了模态内和模态间的上下文信息,无法充分挖掘多媒体数据的潜在关联信息.为此,本文提出一种基于知识蒸馏的跨模态哈希方法.该方法首先利用基于Transformer的教师网络从图像和文本数据中捕获模态内和模态间的上下文信息,进而得到包含丰富视觉-语义关联信息的联合表示,并将联合表示投影到低维的汉明空间以得到判别性较高的二值哈希码.此外,该方法利用知识蒸馏技术将教师网络学到的多模态数据潜在关联信息迁移到学生网络,从而让学生网络生成的哈希码最大程度保留多模态关联信息.该方法在MIRFLICKR-25K,NUS-WIDE和MS-COCO数据集上进行验证,实验结果表明该方法的跨模态检索性能优于目前的主流方法.
哈希、跨模态检索、知识蒸馏、Transformer
52
TP391;TP183;TN92
科技创新新一代人工智能重大项目;国家自然科学基金;国家自然科学基金;国家自然科学基金;中国博士后科学基金;中国博士后科学基金
2022-07-29(万方平台首次上网日期,不代表论文的发表时间)
共14页
713-726