基于对象关系网状转换器的图像描述模型

引用

摘要：

针对图像描述生成模型缺乏空间关系信息且图像特征利用不充分的问题,结合对象关系网状转换器,提出一种改进的图像描述模型.利用Faster R-CNN提取图像的外观和边界框特征,并将提取的特征输入到改进的转换器中经过编解码生成图像描述.通过将对象外观和边界框特征合并为关系特征的方式对编码器自我注意力层的注意力权值进行改进,以强化目标间的关联性.将编码器和解码器的连接设计为网状结构,从而充分利用图像特征.实验结果表明,与基于单一注意力的Top-down基线模型相比,该模型的BLUE@1和CIDEr评价指标值分别提高了7.6和3.7个百分点,显著提升了描述语句的准确性.

关键词：图像描述模型、注意力机制、编码器和解码器、对象关系、网状转换器

所属期刊栏目：47

分类号：TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金61672473

在线出版日期：2021-05-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：197-204

英文信息展示

期刊专题