基于增强语义信息理解的场景图生成

引用

摘要：

场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局.然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步.为了解决上述问题,提出一种基于增强语义信息理解的场景图生成算法.整个模型由特征提取模块、图像裁剪模块、语义转化模块、拓展信息谓词模块四部分组成.特征提取模块和图像裁剪模块负责提取视觉特征并使其具有全局性和多样性.语义转化模块负责将谓词之间的语义关系从常见的预测中恢复信息预测.拓展信息谓词模块负责扩展信息谓词的采样空间.在数据集VG和VG-MSDN上与其他方法进行比较,平均召回率分别达到59.5％和40.9％.该算法可改善预测出来的谓词信息性不足问题,进而提升场景图生成算法的性能.

关键词：场景图生成、图像裁剪、语义转化、拓展信息

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：广东普通高校人工智能重点领域专项;江门市基础与理论科学研究类科技计划项目

在线出版日期：2023-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：52-56

英文信息展示

期刊专题