10.19678/j.issn.1000-3428.0056867
基于先验MASK注意力机制的视频问答方案
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中.在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性.实验结果表明,该模型在视频问答任务中的准确率达到61%,与VQA+、SA+等视频问答模型相比,其具有更快的预测速度以及更好的预测效果.
视频问答、计算机视觉、自然语言处理、注意力机制、MASK模型
47
TP81(远动技术)
江苏省产学研合作项目BY2015019-30
2021-02-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
52-59