数据受限条件下的多模态处理技术综述

引用

摘要：

随着多媒体技术的发展,可获取的媒体数据在种类和量级上大幅提升.受人类感知方式的启发,多种媒体数据互相融合处理,促进了人工智能在计算机视觉领域的研究发展,在遥感图像解译、生物医学和深度估计等方面有广泛的应用.尽管多模态数据在描述事物特征时具有明显优势,但仍面临着较大的挑战.1)受到不同成像设备和传感器的限制,难以收集到大规模、高质量的多模态数据集;2)多模态数据需要匹配成对用于研究,任一模态的缺失都会造成可用数据的减少;3)图像、视频数据在处理和标注上需要耗费较多的时间和人力成本,这些问题使得目前本领域的技术尚待攻关.本文立足于数据受限条件下的多模态学习方法,根据样本数量、标注信息和样本质量等不同的维度,将计算机视觉领域中的多模态数据受限方法分为小样本学习、缺乏强监督标注信息、主动学习、数据去噪和数据增强5个方向,详细阐述了各类方法的样本特点和模型方法的最新进展.并介绍了数据受限前提下的多模态学习方法使用的数据集及其应用方向(包括人体姿态估计、行人重识别等),对比分析了现有算法的优缺点以及未来的发展方向,对该领域的发展具有积极的意义.

关键词：多模态数据、数据受限、深度学习、融合算法、计算机视觉

所属期刊栏目：27

分类号：TP37(计算技术、计算机技术)

资助基金：国家自然科学基金62171436

在线出版日期：2022-10-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共32页

页码：2803-2834

英文信息展示

期刊专题