LSTM逐层多目标优化及多层概率融合的图像描述

引用

摘要：

使用计算模型对图像进行自动描述属于视觉高层理解,要求模型不仅能够对图像中的目标及场景进行描述,而且能够对目标与目标之间、目标与场景之间的关系进行表达,同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络(Convolutional neural network,CNN)和长短时记忆网络(Long-short term memory,LSTM)的方法已成为解决该问题的主流,虽然已取得巨大进展,但存在LSTM层次不深,难以优化的问题,导致模型性能难以提升,生成的描述句子质量不高.针对这一问题,受深度学习思想的启发,本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM(Multi-objective layer-wise optimization/multi-layer probability fusion LSTM,MLO/MLPF-LSTM)模型.模型中首先使用浅层LSTM进行训练,收敛之后,保留原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模型进行训练,对模型原有参数进行微调;在测试时,将多个分类层使用Softmax函数进行变换,得到每层对单词的预测概率分值,然后将多层的概率分值进行加权融合,得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示,该模型性能显著,在多个统计指标上均超过了同类其他方法.

关键词：图像描述、多目标优化、逐层优化、多层融合、长短时记忆网络、卷积神经网络

所属期刊栏目：44

资助基金：国家自然科学基金61622115,61472281;上海高校特聘教授东方学者跟踪计划GZ2015005;江西省教育厅科学技术研究项目GJJ170643

在线出版日期：2018-11-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：1237-1249

英文信息展示

期刊专题