双语图像标题联合生成研究

引用

摘要：

图像标题(Image Caption)的研究大多是对图像生成单一语言的标题,而在当今各国语言交汇融合的情况下,对一张图像生成两门甚至多门语言标题是必然趋势,以让不同母语的人理解其他人对同一张图片的评价.对此,提出一种双语图像标题,即图像同时生成两种语言标题的方法.该方法由一个编码器和两个不同的解码器组成,其中编码器基于卷积神经网络,用于提取图像特征;解码器基于长短时记忆网络,两个不同的解码器分别用于解码两种不同的语言特征.由于两种语言标题之间存在着互译的特性,因此提出了双语料图像标题的联合生成模型.具体地,在解码端采用交替的方式生成两种语言的标题,使得在预测某种语言的下一个单词时,不仅可以利用该语言标题的历史信息,还可以利用另一门语言标题的历史信息,同时促进两种语言标题生成的性能.基于 MSCOCO20 14 数据集的实验结果表明,双语图像标题联合生成能够同时提高两门语言的性能,在英文上较英文单语言标题生成的性能提高了 1 .0 个BLEU_4 值和0.9 8 个CIDEr值,在日文上较日文单语言标题生成的性能提高了 1 .0 个BLEU_4 值和0.3 1 个CIDEr值.

关键词：图像双语标题、联合模型、交替生成

所属期刊栏目：47

分类号：TP391.1;TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金61876120

在线出版日期：2020-12-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：183-189

英文信息展示

期刊专题