DOI：10.3969/j.issn.1673-629X.2020.12.005

多维度注意力和语义再生的文本生成图像模型

引用

摘要：

文本生成图像是结合计算机视觉和自然语言处理两个领域的综合性任务,从给定的文本描述生成图像有两个目标:视觉真实性和语义一致性.虽然在使用生成对抗网络(GAN)生成高质量和视觉逼真的图像方面取得了显著进展,但确保文本描述和视觉内容之间的语义一致性仍然是非常具有挑战性的.目前的方法由于文本和图像形式的多样性,仅在单词级别使用注意力并不能确保全局语义的一致性.因此,在MirrorGAN的基础上提出了一种改进的多维度的注意力协同模块(MCAM)和语义文本再生模块(STRM)来解决这些问题.MCAM使用了更为先进的BERT模型来进行文本处理,STRM用于从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述对齐,使生成的图像更加贴合语义.最后,形成了基于多维度注意力以及语义文本再生的生成对抗网络模型(MirrorGAN++).通过对两个公共基准数据集的深入实验,证明了MirrorGAN++优于其他方法.

关键词：文本生成图像、生成对抗网络、语义一致、注意力、语义文本再生

所属期刊栏目：30

分类号：TP391.41(计算技术、计算机技术)

资助基金：上海重点科技攻关项目;上海市工程中心建设项目

在线出版日期：2021-02-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：27-33

英文信息展示

期刊专题