基于动态语义记忆网络的长尾图像描述生成

全文直达

下载全文

在线阅读

引用

摘要：

图像描述生成任务旨在基于输入图像生成对应的自然语言描述.现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布.已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用.针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果.DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能.为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO.在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.6028％,召回率为0.3234％,F-1值为0.3567％,相较于基准方法提升明显.

关键词：深度学习、图像理解、图像描述生成、长尾分布、记忆网络

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;中国科学院前沿科学重点研究计划项目;北京市自然科学基金

在线出版日期：2022-09-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：1399-1408

英文信息展示

期刊专题