10.13413/j.cnki.jdxblxb.2021389
基于Transformer的细粒度图像中文描述
针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention,MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果.
图像中文描述、细粒度特征、多头注意力
60
TP391(计算技术、计算机技术)
国家自然科学基金;全国高等院校计算机基础教育研究会项目
2022-10-11(万方平台首次上网日期,不代表论文的发表时间)
共10页
1103-1112