
16516
0
G1由G1生成,G2
添加了细粒度的细节(例如,眼睛反射)。最终合成的图像
看起来像是从不同图像尺度的视觉特征简单组合而成。其次
,现有的研究通常在对抗训练过程中固定额外的网络[33,
50],使这些网络容易被生成器欺骗,合成对抗特征[30,
52],从而削弱了它们对语义一致性的监督能力。第三,跨
模态注意力[50]无法充分利用文本信息。由于计算成本较高
,它只能在64×64和128×128的图像特征上应用两次。这限
制了文本-图像融合过程的有效性,并使模型难以扩展到更
高分辨率的图像合成。为了解决上述问题,我们提出了一种
名为DeepFusionGenerativeAdversarial
Network(DF-GAN)的新型文本-图像生成方法。对于第
一个问题,我们用一阶段骨干网络替换了堆叠的骨干网络。
它由铰链损失[54]和残差网络[11]组成,可以直接合成高分
辨率图像。由于一阶段骨干网络中只有一个生成器,它避免
了不同生成器之间的纠缠。对于第二个问题,我们设计了一
个目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单
向输出组成,以增强文本-图像的语义一致性。MA-GP是鉴
别器上的正则化策略。它追求鉴别器在目标数据(真实和文
本匹配图像)上的梯度为零。因此,MA-GP在真实和匹配
数据点上构建了一个平滑的损失曲面,进一步促使生成器合
成文本匹配图像。此外,考虑到以前的双向输出在MA-GP
下减慢了生成器的收敛过程,我们用更有效的单向输出替换
它。对于第三个问题,我们提出了一种深度文本图像融合块
(DFBlock),以更有效地将文本信息融合到图像特征中。
DFBlock由几个仿射变换[31]组成。仿射变换是一个轻量级
模块,通过通道级缩放和平移操作来操作视觉特征图。在所
有图像尺度上堆叠多个DFBlock可以加深文本-图像融合过程
,并实现文本和视觉特征之间的完全融合。总的来说,我们
的贡献可以总结如下:
0
•
我们提出了一种新颖的一阶段文本到图像的骨干网络,可以直接
合成高分辨率图像,而不会产生不同生成器之间的纠缠。
0
•
我们提出了一种新颖的目标感知鉴别器,由匹配感知梯度
惩罚(MA-GP)和单向输出组成。它显著增强了文本-图
像的语义一致性,而不引入额外的网络。
0
•
我们提出了一种新颖的深度文本图像融合块(DFBlock)
,更有效地深度融合文本和视觉特征。
0
•
在两个具有挑战性的数据集上进行了广泛的定性和定量实
验,证明了所提出的DF-GAN优于现有的最先进的文本-
图像模型。
0
2.相关工作
0
生成对抗网络(GANs)[8]是一种吸引人的框架,可以通过
解决生成器和鉴别器之间的最小最大优化问题来模拟复杂的
现实世界分布[16,17,43,
54]。例如,Reed等人首次应用条件GAN从文本描述中生成
逼真的图像[37,
38]。StackGAN通过堆叠多个生成器和鉴别器生成高分辨率
图像,并通过将文本向量和输入噪声串联来向生成器提供文
本信息[56,
57]。接下来,AttnGAN引入了跨模态注意力机制,帮助生
成器合成更多细节的图像[50]。MirrorGAN通过生成的图像
重新生成文本描述,以实现文本-图像的语义一致性[33,
59]。SD-GAN采用Siamese结构[45,
46]从文本中提取语义共性,以实现图像生成的一致性[51]。
DM-GAN在堆叠的架构中引入了记忆网络[10,
49],以在初始图像生成不良时改进模糊图像内容。最近,
一些基于大型Transformer的文本到图像方法[7,24,
35]在复杂图像合成方面表现出色。它们将图像标记化,并
通过单向Transformer[2,
34]将图像标记和词标记进行自回归训练。我们的DF-GAN
与以前的方法有很大的不同。首先,它通过一阶段骨干网络
直接生成高分辨率图像。其次,它采用目标感知鉴别器增强
文本-图像的语义一致性,而不引入额外的网络。第三,它
通过一系列DFBlock更深入有效地融合文本和图像特征。与
以前的模型相比,我们的DF-GAN在合成逼真和文本匹配图
像方面更简单但更有效。
0
3.提出的DF-GAN
0
在本文中,我们提出了一种名为DeepFusion
GAN(DF-GAN)的简单的文本到图像合成模型。为了合成更逼真
和与文本匹配的图像,我们提出了以下内容:(i)一种新颖的单阶
段文本到图像骨干网络,可以直接合成高分辨率图像而不引入视觉
特征纠缠。(ii)一种新颖的目标感知判别器,由匹配感知梯度惩罚
(MA-GP)和单向输出组成,增强了文本-图像语义一致性而不引
入额外的网络。(iii)一种新颖的深度文本-图像融合块(DF-Block
),更充分地融合文本和视觉特征。