多特征融合的行为识别模型

引用

摘要：

目的视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题.针对这些难点,提出了一种多特征融合的行为识别模型.方法首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息.其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符一一3D ConvNets(3D convolutional neural networks)结构.然后,采用BiConvLSTM(bidirec-tional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题.最后,利用Softmax最大化似然函数分类行为动作.结果为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计.结果表明,本文算法在两个验证集上的平均准确率分别为96.47％和80.03％.结论通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点.

关键词：行为识别、双路特征提取网络、3维卷积神经网络、双向卷积长短期记忆网络、加权融合、高频特征、低频特征

所属期刊栏目：25

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家自然科学基金项目;甘肃省科技厅青年科学基金项目;甘肃省教育厅项目;甘肃政法大学重点项目;甘肃政法大学司法鉴定中心科研资助项目

在线出版日期：2021-02-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：2541-2552

英文信息展示

期刊专题