10.19678/j.issn.1000-3428.0061913
基于深度学习的双流程短视频分类方法
随着智能手机和5G网络的普及,短视频已经成为人们碎片时间获取知识的主要途径.针对现实生活场景短视频数据集不足及分类精度较低等问题,提出融合深度学习技术的双流程短视频分类方法.在主流程中,构建A-VGG-3D网络模型,利用带有注意力机制的VGG网络提取特征,采用优化的3D卷积神经网络进行短视频分类,提升短视频在时间维度上的连续性、平衡性和鲁棒性.在辅助流程中,使用帧差法判断镜头切换抽取出短视频中的若干帧,通过滑动窗口机制与级联分类器融合的方式对其进行多尺度人脸检测,进一步提高短视频分类准确性.实验结果表明,该方法在UCF101数据集和自建的生活场景短视频数据集上对于非剧情类与非访谈类短视频的查准率和查全率最高达到98.9%和98.6%,并且相比基于C3D网络的短视频分类方法,在UCF101数据集上的分类准确率提升了 9.7个百分点,具有更强的普适性.
3D卷积神经网络、深度学习、VGG网络、注意力机制、短视频分类
48
TP391(计算技术、计算机技术)
文化部科技创新项目2015KJCXXM19
2022-09-16(万方平台首次上网日期,不代表论文的发表时间)
共7页
277-283