10.11772/j.issn.1001-9081.2020091439
基于多特征提取的图像语义描述算法
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法.所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测.该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习.首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性.实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点.所提算法能够有效地提高模型对图像的语义描述性能.
图像语义描述、图像属性、双向长短时记忆网络、卷积神经网络、循环神经网络
41
TP391.41(计算技术、计算机技术)
国家重点研发计划;徐州市重点研发科技项目
2021-07-01(万方平台首次上网日期,不代表论文的发表时间)
共7页
1640-1646