融合物体空间关系机制的图像摘要生成方法
聚焦于图像中物体间位置关系这一特定信息,提出一种融合空间关系机制的神经网络图像摘要生成模型,以期为视觉问答和语音导航等下游任务提供物体方位或轨迹等关键信息.为了增强图像编码器的物体间位置关系学习能力,通过改进Transformer结构来引入几何注意力机制,显式地将物体间位置关系融合进物体外观信息中.为了辅助完成面向特定信息的抽取和摘要生成任务,进一步提出相对位置关系的数据制作方法,并基于SpatialSense数据集制作物体间位置关系的图像摘要数据集Re-Position.与5个典型模型的对比测评实验结果表明,所提模型的5个指标在公开测试集COCO上优于其他模型,全部6个指标在本文制作的Re-Position数据集上优于其他模型.
图像摘要、物体间位置关系、注意力机制、Transformer结构
57
国家自然科学基金61876198,61976015,61976016
2021-04-12(万方平台首次上网日期,不代表论文的发表时间)
共8页
75-82