DOI：10.11834/jig.220895

视觉Transformer识别任务研究综述

引用

摘要：

Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣.本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战.根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法.考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法.同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状.基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡.全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现.在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征.Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义.大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能.

关键词：视觉Transformer(ViT)、自注意力、视觉识别、深度学习、图像处理、视频理解

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-11-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共35页

页码：2969-3003

英文信息展示

期刊专题