提取全局语义信息的场景图生成算法

引用

摘要：

目的场景图能够简洁且结构化地描述图像.现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息.同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组.另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性.为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法.方法网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成.语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理.目标编码模块提取图像的视觉特征.目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习.在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理.最后利用解析器构造场景图,进而结构化地描述图像.结果在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2％和55.3％.在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力.结论本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图.

关键词：场景图、全局语义信息、目标推断、关系推理、图像理解

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;江西省自然科学基金;江西省智慧城市重点实验室项目

在线出版日期：2022-07-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：2214-2225

英文信息展示

期刊专题