基于先验MASK注意力机制的视频问答方案

引用

摘要：

视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中.在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性.实验结果表明,该模型在视频问答任务中的准确率达到61％,与VQA+、SA+等视频问答模型相比,其具有更快的预测速度以及更好的预测效果.

关键词：视频问答、计算机视觉、自然语言处理、注意力机制、MASK模型

所属期刊栏目：47

分类号：TP81(远动技术)

资助基金：江苏省产学研合作项目BY2015019-30

在线出版日期：2021-02-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：52-59

英文信息展示

期刊专题