DOI：10.16208/j.issn1000-7024.2017.03.037

图像内容理解的深度学习方法

引用

摘要：

为生成准确描述视频内容的语句,研究计算机视觉领域图像识别的深度学习方法.基于广泛用于图像识别领域的端到端产生式模型,提出一种适合应用于视频内容理解领域的基于深层体系架构的产生式概率模型,建立将输入视频编码成向量,再将向量解码成完整句子的神经网络体系结构.通过在Sogou、mFlickr25k和MSCOCO图像数据集和网络视频数据集上训练的实验,分析生成的视频描述语句的语法准确性和语义准确性.实验结果表明,该产生式模型生成的句子比其它几个著名模型生成的句子获得了更高的BLEU和METETOR得分,验证了其有效性.

关键词：视觉识别、深度学习、神经网络、概率模型、机器翻译

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金："十二五"国家科技支撑计划基金项目2014BAK07B01

在线出版日期：2017-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：756-760

英文信息展示

期刊专题