10.3969/j.issn.1673-629X.2023.09.016
基于混合注意力机制的视频人体动作识别
C3D作为一种典型的三维卷积神经网络被应用于视频动作识别任务.针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的C3D三维卷积网络模型.在原C3D网络插入由GCNet通道注意力模块和3D-Crisscross空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能.将所提方法在UCF-101 和HMDB-51 两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对更高的准确率,在UCF-101 和HMDB-51 数据集上的识别准确率可以达到96.7%和63.3%,而且与原C3D方法相比在效果上有明显提升.
人体动作识别、三维卷积神经网络、全局上下文建模、远程依赖、注意力机制
33
TP391.41(计算技术、计算机技术)
移动通信教育部工程研究中心开放研究项目cqupt-mct-202006
2023-09-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
105-112