10.3969/j.issn.1671-7449.2021.01.007
基于知识增强与注意力机制的双通道图像描述研究
图像描述方法中在信息输入时只将图像作为输入,在端到端训练过程中,内部参数变化难以获取,很有可能造成错误.为进一步减小图像描述的不确定性,在图像描述任务中应用知识增强方法,即在输入端输入图像中的主题信息,将图像描述的范围确定化.提出了一种新的双通道图像描述架构,该架构包括主题通道与图像通道两部分,主题通道提取语义信息,并将其作为主题信息对图像信息进行知识增强;图像通道实现经典图像描述任务功能.两个通道都由极快速区域神经网络进行编码提取特征,采用注意力机制进行特征筛选,由长短期记忆网络进行解码预测信息.最后再使用一个长短期记忆网络综合两个通道的信息,实现主体通道对图像通道的知识增强并生成描述.该方法在数据集Flickr与MS COCO上测试,与一般的图像描述方法相比准确率获得了提高.
图像描述、双通道、极快速区域卷积神经网络、长短期记忆网络、注意力机制
35
TP391.4(计算技术、计算机技术)
山西省研究生创新资助项目2019SY015
2021-03-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
36-41