基于2D CNN和Transformer的人体动作识别
人体动作识别是计算机视觉领域的研究热点之一,在人机交互、视频监控等方面具有深远的理论研究意义.为了解决2D CNN无法有效获取时间关系等问题,利用Transformer在建模长期依赖关系上的优势,引入Transformer架构并将其与2DCNN相结合用于人体动作识别,以更好地捕获上下文时间信息.首先使用融合通道-空间注意力模块的2D CNN提取强化的帧内空间特征,其次利用Transformer捕捉帧间的时间特征,最后应用MLP Head进行动作分类.实验结果表明在HMDB-51数据集和UCF-101数据集上分别达到了 69.4%和95.5%的识别准确度.
人体动作识别、2D CNN、通道-空间注意力模块、Transformer
45
TP18(自动化基础理论)
内蒙古自治区高等学校科学研究项目;内蒙古师范大学研究生科研创新基金项目;内蒙古自然科学基金项目
2022-11-10(万方平台首次上网日期,不代表论文的发表时间)
共7页
123-129