基于文本信息补充的图像描述模型

引用

摘要：

基于encoder-decoder的深度神经网络在图像描述任务中获得了很好的表现,LSTM解决梯度消失的良好能力使其成为解码器的主流.LSTM的门控机制较好地解决了 RNN的长期依赖问题,但该机制对信息的筛选导致信息缺失,使得LSTM隐藏单元表达能力不足,出现LSTM输入信息缺失、预测信息不充分问题.为解决这两个问题,提出两种基于文本信息补充的图像描述模型:输入信息补充(IIS)模型通过信息提取函数提取更多的文本信息作为输入,解决LSTM输入信息缺失问题;输出信息补充(OIS)模型通过信息提取函数提取多个时间步的隐藏单元信息进行预测,解决LSTM预测信息不充分问题.实验证明,在AI CHALLENGER测试集中,两种模型均显著地提高了各项评价指标.

关键词：长短时记忆网络;图像描述;文本信息补充;信息提取函数;信息缺失

所属期刊栏目：40

分类号：Q936(微生物学)

资助基金：国家重点研发计划;山东省重点研发计划项目

在线出版日期：2022-01-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：61-68

英文信息展示

期刊专题