10.3979/j.issn.1673-825X.202108210300
一种融合多模态特征的视频暴力检测方法
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.
注意力机制;关系网络;多模态融合;暴力检测;视频内容分析
33
TP391(计算技术、计算机技术)
国家自然科学基金;北邮-传音"视觉感知与计算"联合实验室项目
2021-11-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
861-867