10.13705/j.issn.1671-6833.2024.01.017
基于门控时空注意力的视频帧预测模型
针对循环式视频帧预测架构存在精度低、训练缓慢,以及结构复杂和误差累积等问题,提出了一种基于门控时空注意力的视频帧预测模型.首先,通过空间编码器提取视频帧序列的高级语义信息,同时保留背景特征;其次,建立门控时空注意力机制,采用多尺度深度条形卷积和通道注意力来学习帧内及帧间的时空特征,并利用门控融合机制平衡时空注意力的特征学习能力;最后,由空间解码器将高级特征解码为预测的真实图像,并补充背景语义以完善细节.在Moving MNIST、TaxiBJ、WeatherBench、KITTI数据集上的实验结果显示,同多进多出模型SimVP相比,MSE分别降低了 14.7%、6.7%、10.5%、18.5%,在消融扩展实验中,所提模型达到了较好的综合性能,具有预测精度高、计算量低和推理效率高等优势.
视频帧预测、卷积神经网络、注意力机制、门控卷积、编解码网络
45
TP391.41;TP183(计算技术、计算机技术)
中央高校基本科研业务费专项;国家自然科学基金;宁夏自然科学基金资助项目;北方民族大学研究生创新项目
2024-02-03(万方平台首次上网日期,不代表论文的发表时间)
共9页
70-77,121