基于多通道多步融合的生成式视觉对话模型
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11772/j.issn.1001-9081.2023010055

基于多通道多步融合的生成式视觉对话模型

引用
当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限.比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达.视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI.该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过"视觉-语义-对话"历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码.在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model),MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47.为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标.在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70.

视觉对话、生成式任务、视觉语义描述、多步融合、多通道融合

44

TP389.1(计算技术、计算机技术)

2024-01-31(万方平台首次上网日期,不代表论文的发表时间)

共8页

39-46

相关文献
评论
暂无封面信息
查看本期封面目录

计算机应用

1001-9081

51-1307/TP

44

2024,44(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn