视觉Transformer识别任务研究综述
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣.本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战.根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法.考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法.同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状.基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡.全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现.在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征.Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义.大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能.
视觉Transformer(ViT)、自注意力、视觉识别、深度学习、图像处理、视频理解
28
TP391(计算技术、计算机技术)
2023-11-16(万方平台首次上网日期,不代表论文的发表时间)
共35页
2969-3003