面向深度学习的多模态融合技术研究综述

引用

摘要：

面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展.在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术.重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望.

关键词：深度学习、多模态、模态融合、模态对齐、多核学习、图像模型

所属期刊栏目：46

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金;云南省地方本科高校基础研究联合专项

在线出版日期：2020-05-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1-11

英文信息展示

期刊专题