用于骨架行为识别的多维特征嵌合注意力机制

引用

摘要：

目的在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要.尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升.基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA).方法不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息.对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符.特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息.结果实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2 FA与其基线方法2 s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果.在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8％;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6％和1.0％.同时,消融实验验证了多维特征嵌合机制的有效性.实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果.结论通过与基线方法2 s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确.

关键词：行为识别、骨架信息、图卷积网络(GCN)、注意力机制、时空交互、通道依赖性、多维特征嵌合

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;高等学校学科创新引智计划111计划

在线出版日期：2022-08-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：2391-2403

英文信息展示

期刊专题