基于精细化多模态关联的自然语言句子在视频中的时序定位方法
通信技术和移动互联网的发展使多媒体数据逐渐渗透人们的生活,而视频作为其中一种最具表现力的内容表达方式,近年来受到了工业界和学术界的广泛关注.针对视频数据中背景信息较为冗余,所需分析浏览时间长的特点,本文介绍了自然语言句子在视频中的时序定位任务,即在视频中定位与给定自然语言句子语义相关的视频片段,这样人们可以通过提供明确简洁的文本描述在视频中迅速找寻所关注的特定内容,从而提高用户的视频浏览体验和搜索效率.传统方法往往以多模态匹配的框架来解决句子在视频中的时序定位问题,忽略了自然语言句子中的关键定位线索,更忽视了自然语言句子对于关联视频内部相关内容的重要指导作用,因而其时序定位准确率十分有限.为解决上述难题,本文提出了多模态共同注意力机制挖掘自然语言句子中与时序定位相关的重要语义细节,精细地构建句子中各单词和视频内容之间的语义关系.在此基础上,我们还提出了语义条件动态归一化机制,指导视频中与句子语义相关的局部视频内容紧密耦合,形成明确的视频片段边界,最后辅以细粒度的边界调整模块,进而获得更为精准和灵活的时序定位结果.在公开数据集上的实验验证了本文所提出的机制和方法的有效性.最后,本文还从引入视频中的音频信号、考虑弱监督环境下的时序定位问题,以及构建无偏见时序定位数据集这3个方面对自然语言句子在视频中的时序定位问题进行了未来研究方向的展望.
时序定位、语义关联、多模态共同注意力机制、时序卷积网络、语义条件动态归一化机制
52
TP391.41;TN925.93;TP242
科技创新新一代人工智能重大项目;国家自然科学基金
2022-09-02(万方平台首次上网日期,不代表论文的发表时间)
共30页
1417-1446