基于对比学习和GIF标记的多模态对话回复检索-期刊-万方数据知识服务平台

搜索

DOI: 10.11772/j.issn.1001-9081.2022081260

基于对比学习和GIF标记的多模态对话回复检索

1.南京邮电大学计算机学院、软件学院、网络空间安全学院,南京 2100232.中国移动通信集团重庆有限公司,重庆 4011203.南京邮电大学计算机学院、软件学院、网络空间安全学院,南京 210023;江苏省大数据安全与智能处理重点实验室(南京邮电大学),南京 210023

在线阅读下载

引用

打印

摘要：社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍.但目前大多方法针对问题"如何选择一个合适的GIF回复消息",没有很好地利用社交媒体上的GIF附属标记信息.为此,提出基于对比学习和GIF标记的多模态对话回复检索(CoTa-MMD)方法,将标记信息整合到检索过程中.具体来说就是使用标记作为中间变量,文本→GIF的检索就被转换为文本→GIF标记→GIF的检索,采用对比学习算法学习模态表示,并利用全概率公式计算检索概率.与直接的文本图像检索相比,引入的过渡标记降低了不同模态的异质性导致的检索难度.实验结果表明,CoTa-MMD模型相较于深度监督的跨模态检索(DSCMR)模型,在PEPE-56多模态对话数据集和Taiwan多模态对话数据集上文本图像检索任务的召回率之和分别提升了0.33个百分点和4.21个百分点.

关键词：

跨模态检索多模态对话 GIF 对比学习表示学习

分类号：

TP391.3(计算技术、计算机技术)

论文发表日期：

2024-01-10

在线出版日期：

2024-01-31 （万方平台首次上网日期，不代表论文的发表时间）

页数：

7 ( 32-38 )

英文信息

计算机应用

ISSN：1001-9081

年,卷(期)：2024,44(1)

所属栏目：跨媒体表征学习与认知推理

评审材料打包下载