DOI：10.16383/j.aas.c200662

从视频到语言:视频标题生成与描述研究综述

引用

摘要：

视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于"编码-解码"架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

关键词：视频描述;卷积神经网络;循环神经网络;语段生成;情感表达;逻辑语义

所属期刊栏目：48

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金;上海市科技创新行动计划项目;江西省自然科学基金;江西省自然科学基金;井冈山大学博士启动基金

在线出版日期：2022-03-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共23页

页码：375-397

英文信息展示

期刊专题