10.13878/j.cnki.jnuist.2017.06.008
关系挖掘驱动的视频描述自动生成
视频的自动描述任务是计算机视觉领域的一个热点问题.视频描述语句的生成过程需要自然语言处理的知识,并且能够满足输入(视频帧序列)和输出(文本词序列)的长度可变.为此本文结合了最近机器翻译领域取得的进展,设计了基于编码-解码框架的双层LSTM模型.在实验过程中,本文基于构建深度学习框架时重要的表示学习思想,利用卷积神经网络(CNN)提取视频帧的特征向量作为序列转换模型的输入,并比较了不同特征提取方法下对双层LSTM视频描述模型的影响.实验结果表明,本文的模型具有学习序列知识并转化为文本表示的能力.
视频描述、LSTM模型、表示学习、特征嵌入
9
TP391.41;TP183(计算技术、计算机技术)
国家自然科学基金61572503,61432019;北京市自然科学基金4152053
2017-12-14(万方平台首次上网日期,不代表论文的发表时间)
共8页
642-649