10.3778/j.issn.1002-8331.2108-0016
用于视频行为识别的高效二维时序建模网络
二维卷积难以对视频数据进行有效的时间信息建模.针对这个问题,提出了一个高效的基于二维卷积的时间建模网络.该网络只需要RGB图像作为输入,避免了复杂的光流计算,在低计算复杂度的前提下,可以在行为识别任务中达到先进的准确性.网络主要由两个部分组成,即运动特征增强模块和时序聚集模块.具体来说,运动特征增强模块主要实现短期时序建模,它利用当前帧与相邻帧的差异信息对当前帧中的运动信息进行自适应性的增强,让网络能够了解图像中的哪一部分将要产生运动.时序聚集模块实现长期的时序建模,主要应用于网络的后期,通过二维卷积对时序上的信息进行信息聚合,让每一帧图像经过网络提取特征后,都能够结合时序上所有帧序列的信息.在三个常见的视频动作识别数据集(UCF101、HMDB51和Something-Something V1)上进行的大量实验表明,与大多数现有方法相比,所提出的时序建模网络可以获得先进的识别性能.
短期运动特征增强、长期时序聚集、时序建模、二维卷积网络、行为识别
59
TP181(自动化基础理论)
国家自然科学基金;虚拟现实技术与系统国家重点实验室开放课题;软件开发环境国家重点实验室开放课题
2023-02-20(万方平台首次上网日期,不代表论文的发表时间)
共8页
127-134