基于多模态注意力机制的图像理解描述新方法

引用

摘要：

针对现有的图像理解描述方法存在描述句子不丰富、不准确、模型结构复杂、难以训练等问题,该文提出了一种端到端的基于多模态注意力机制(M-AT)的图像理解描述新方法.该方法首先通过关键词图像特征提取模型(K-IFE)提取更优的空间特征和关键词特征,并利用关键词注意力机制模型(K-AT)关注重要描述词语、空间注意机制模型(S-AT)关注图像更重要的区域并简化模型结构,且K-AT和S-AT两种注意力机制可以相互矫正,最终生成更加准确、丰富的图像描述语句.在MSCOCO数据集的实验结果表明该方法是有效的,部分评价指标有2％左右的提升.

关键词：注意力机制、图像理解、关键词、多模态、空间

所属期刊栏目：49

分类号：TP312(计算技术、计算机技术)

资助基金：国家重点研发项目;重庆市技术创新与应用发展专项重点项目;中央高校基本科研项目

在线出版日期：2020-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：867-874

英文信息展示

期刊专题