关系挖掘驱动的视频描述自动生成

引用

摘要：

视频的自动描述任务是计算机视觉领域的一个热点问题.视频描述语句的生成过程需要自然语言处理的知识,并且能够满足输入(视频帧序列)和输出(文本词序列)的长度可变.为此本文结合了最近机器翻译领域取得的进展,设计了基于编码-解码框架的双层LSTM模型.在实验过程中,本文基于构建深度学习框架时重要的表示学习思想,利用卷积神经网络(CNN)提取视频帧的特征向量作为序列转换模型的输入,并比较了不同特征提取方法下对双层LSTM视频描述模型的影响.实验结果表明,本文的模型具有学习序列知识并转化为文本表示的能力.

关键词：视频描述、LSTM模型、表示学习、特征嵌入

所属期刊栏目：9

分类号：TP391.41;TP183(计算技术、计算机技术)

资助基金：国家自然科学基金61572503,61432019;北京市自然科学基金4152053

在线出版日期：2017-12-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：642-649

英文信息展示

期刊专题