10.13229/j.cnki.jdxbgxb.20210842
基于多模态自注意力网络的视频记忆度预测
针对现有视频记忆度预测模型存在的仅利用单模态特征、多模态关联挖掘不充分、语义表示建模范式单一等问题,提出一种基于多模态自注意力网络的视频记忆度预测方法.本文方法由语义表示学习子网络和语义建模子网络构成.语义表示学习子网络利用生成对抗学习充分挖掘模态间关联并完成多模态信息的融合;语义建模子网络则采用 自注意力机制,能够在凝练全局信息的同时最大程度地保留局部信息.在公开数据集上的实验结果表明本文方法的预测性能优于现有方法.此外,消融实验也进一步验证了本文语义表示学习及语义建模子网络在视频记忆度预测任务上的有效性.
视频记忆度、语义表示、多模态融合、生成对抗网络、自注意力机制
53
TP391.4(计算技术、计算机技术)
国家自然科学基金;天津市自然科学基金
2023-05-26(万方平台首次上网日期,不代表论文的发表时间)
共9页
1211-1219