DOI：10.16088/j.issn.1001-6600.2022013101

基于知识辅助的图像描述生成

引用

摘要：

为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一.大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量.针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性.这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力.此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述.在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法.

关键词：图像描述生成、内部知识、外部知识、单词注意力、知识图谱、强化学习

所属期刊栏目：40

分类号：TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;广西自然科学基金项目;广西八桂学者工程专项基金

在线出版日期：2022-10-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：418-432

英文信息展示

期刊专题