10.11772/j.issn.1001-9081.2022020296
多模态预训练模型综述
预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识.而在多模态中,PTM的发展还处于初期.根据具体模态的不同,将目前大多数的多模态PTM分为图像-文本PTM和视频-文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类.首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba's collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向.
多模态、预训练模型、图像-文本预训练模型、视频-文本预训练模型、神经网络、单流模型、双流模型
43
TP391.1(计算技术、计算机技术)
国家语委重点研发项目ZDI135-96
2023-04-25(万方平台首次上网日期,不代表论文的发表时间)
共14页
991-1004