基于特征融合的文本到图像的生成
近年来,基于生成对抗网络(Generative Adversarial Network,GAN)从文本描述中合成图像这一具有挑战性的任务已经取得了令人鼓舞的结果.这些方法虽然可以生成具有一般形状和颜色的图像,但通常也会生成具有不自然的局部细节且扭曲的全局图像.这是因为卷积神经网络在捕获用于像素级别图像合成的高级语义信息时效率低下,以及处于粗略状态的生成器-鉴别器由于缺少详细信息生成了有缺陷的结果,而这个结果会作为输入促使最终结果的生成.因此,提出了一种基于特征融合的生成对抗网络.该网络通过嵌入残差块特征金字塔结构来引入多尺度特征融合,并通过自适应融合这些特征直接生成最后的精细图像,仅使用一个鉴别器就可以生成256 px×256 px的逼真图像.将所提方法在花类数据集Oxford-102和加利福尼亚理工学院鸟类数据库CUB上进行验证,使用Inception Score和FID评估生成图像的质量,结果表明,生成图像的质量明显优于以往若干经典的方法.
特征融合、鉴别器、残差块特征金字塔、生成对抗网络
48
TP391(计算技术、计算机技术)
国家自然科学基金61701222
2021-06-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
125-130