DOI：10.16208/j.issn1000-7024.2023.04.015

融合多重视觉特征与语义信息的图像描述生成

引用

摘要：

针对图像描述模型中对语义信息考虑不足,循环神经网络收敛速度慢与精度低等问题,提出一种基于多注意力融合的深层图像描述模型.通过对图像中提取到的内容信息以及文本描述信息分配不同的权重,达到提升精度的效果,融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题.使用改进模型与传统模型在数据集MSCOCO上进行对比实验,实验结果表明,该方法能够生成更加准确的描述,在BLEU与CIDEr等关键指标上有明显提升.

关键词：图像描述、多注意力融合、语义信息、深层图像描述模型、MOGRIFIER网络、收敛速度、精度

所属期刊栏目：44

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61906068

在线出版日期：2023-05-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1066-1072

英文信息展示

期刊专题