10.16208/j.issn1000-7024.2023.04.015
融合多重视觉特征与语义信息的图像描述生成
针对图像描述模型中对语义信息考虑不足,循环神经网络收敛速度慢与精度低等问题,提出一种基于多注意力融合的深层图像描述模型.通过对图像中提取到的内容信息以及文本描述信息分配不同的权重,达到提升精度的效果,融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题.使用改进模型与传统模型在数据集MSCOCO上进行对比实验,实验结果表明,该方法能够生成更加准确的描述,在BLEU与CIDEr等关键指标上有明显提升.
图像描述、多注意力融合、语义信息、深层图像描述模型、MOGRIFIER网络、收敛速度、精度
44
TP391(计算技术、计算机技术)
国家自然科学基金61906068
2023-05-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
1066-1072