基于Transformer的细粒度图像中文描述

引用

摘要：

针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention,MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果.

关键词：图像中文描述、细粒度特征、多头注意力

所属期刊栏目：60

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;全国高等院校计算机基础教育研究会项目

在线出版日期：2022-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：1103-1112

英文信息展示

期刊专题