DOI：10.16526/j.cnki.11-4762/tp.2021.11.030

多模态特征融合的长视频行为识别方法

引用

摘要：

行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2％和72.8％,优于其他对比方法,实验结果证明了该方法的有效性.

关键词：深度学习;行为识别;特征提取;多模态特征融合

所属期刊栏目：29

分类号：TP3(计算技术、计算机技术)

资助基金：陕西省自然科学基金面上项目;西安建筑科技大学基础研究基金项目;西安建筑科技大学自然科学基金项目

在线出版日期：2021-12-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：165-170,175

英文信息展示

期刊专题