多模态数据的行为识别综述

引用

摘要：

行为识别是当前计算机视觉方向中视频理解领域的重要研究课题.从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向.本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述.行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据.首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了 RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法.传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点.基于不同模态的数据集分类进行不同行为识别技术的对比分析.通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势.最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点.

关键词：计算机视觉、行为识别、深度学习、神经网络、多模态、模态融合

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;江苏省重点研发计划;中央高校基本科研业务费专项;江苏省水利科技项目

在线出版日期：2022-11-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共21页

页码：3139-3159

英文信息展示

期刊专题