没有合适的资源?快使用搜索试试~ 我知道了~
165150DF-GAN:一种简单有效的文本到图像合成基准0Ming Tao 1 Hao Tang 2 Fei Wu 1 Xiaoyuan Jing 3 Bing-Kun Bao 1* Changsheng Xu 4,5,601 南京邮电大学 2 ETH苏黎世联邦理工学院CVL 3 武汉大学 4 彭城实验室 5 中国科学院大学 6中国科学院自动化研究所NLPR0bingkunbao@njupt.edu.cn0摘要0从文本描述中合成高质量逼真的图像是一项具有挑战性的任务。现有的文本到图像生成对抗网络通常采用堆叠架构作为骨干,但仍存在三个缺陷。首先,堆叠架构引入了不同图像尺度生成器之间的纠缠。其次,现有研究倾向于在对抗学习中应用和固定额外的网络以实现文本-图像语义一致性,这限制了这些网络的监督能力。第三,由于计算成本的限制,先前的工作广泛采用基于跨模态注意力的文本-图像融合仅限于几个特定的图像尺度。为此,我们提出了一种更简单但更有效的深度融合生成对抗网络(DF-GAN)。具体而言,我们提出了:(i)一种新颖的一阶段文本到图像骨干,直接合成高分辨率图像,而不引入不同生成器之间的纠缠;(ii)一种新颖的目标感知鉴别器,由匹配感知梯度惩罚和单向输出组成,增强文本-图像语义一致性,而不引入额外的网络;(iii)一种新颖的深度文本-图像融合块,通过深化融合过程实现文本和视觉特征的完全融合。与当前最先进的方法相比,我们提出的DF-GAN更简单但更高效地合成逼真且与文本匹配的图像,并在广泛使用的数据集上取得更好的性能。代码可在https://github.com/tobran/DF-GAN上获得。01. 引言0在过去的几年中,生成对抗网络(GANs)在各种应用中取得了巨大的成功[4, 27,48]。其中,文本到图像合成是GANs最重要的应用之一。0*通讯作者0图1.(a)现有的文本到图像模型堆叠多个生成器以生成高分辨率图像。(b)我们提出的DF-GAN直接生成高质量图像,并通过我们的深度文本-图像融合块深度融合文本和图像特征。0它旨在从给定的自然语言描述中生成逼真且文本一致的图像。由于其实用价值,文本到图像合成最近已成为一个活跃的研究领域[3, 9, 13, 19-21, 32, 33, 35, 51, 53,60]。文本到图像合成面临的两个主要挑战是生成图像的真实性以及给定文本和生成图像之间的语义一致性。由于GAN模型的不稳定性,大多数最近的模型采用堆叠架构[56,57]作为生成高分辨率图像的骨干。它们使用跨模态注意力来融合文本和图像特征[37, 50, 56, 57,60],然后引入DAMSM网络[50]、循环一致性[33]或孪生网络[51]通过额外的网络来确保文本-图像语义一致性。尽管之前的研究[9, 19, 21, 32, 33, 51,60]已经取得了令人印象深刻的结果,但仍然存在三个问题。首先,堆叠架构[56]引入了不同生成器之间的纠缠,这使得最终的精细图像看起来像是模糊形状和一些细节的简单组合。如图1(a)所示,最终的精细图像由G0合成的模糊形状、由G0合成的粗糙属性(例如眼睛和喙)组成。165160G 1 由 G 1 生成,G 2添加了细粒度的细节(例如,眼睛反射)。最终合成的图像看起来像是从不同图像尺度的视觉特征简单组合而成。其次,现有的研究通常在对抗训练过程中固定额外的网络[33,50],使这些网络容易被生成器欺骗,合成对抗特征[30,52],从而削弱了它们对语义一致性的监督能力。第三,跨模态注意力[50]无法充分利用文本信息。由于计算成本较高,它只能在64×64和128×128的图像特征上应用两次。这限制了文本-图像融合过程的有效性,并使模型难以扩展到更高分辨率的图像合成。为了解决上述问题,我们提出了一种名为Deep Fusion Generative AdversarialNetwork(DF-GAN)的新型文本-图像生成方法。对于第一个问题,我们用一阶段骨干网络替换了堆叠的骨干网络。它由铰链损失[54]和残差网络[11]组成,可以直接合成高分辨率图像。由于一阶段骨干网络中只有一个生成器,它避免了不同生成器之间的纠缠。对于第二个问题,我们设计了一个目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单向输出组成,以增强文本-图像的语义一致性。MA-GP是鉴别器上的正则化策略。它追求鉴别器在目标数据(真实和文本匹配图像)上的梯度为零。因此,MA-GP在真实和匹配数据点上构建了一个平滑的损失曲面,进一步促使生成器合成文本匹配图像。此外,考虑到以前的双向输出在MA-GP下减慢了生成器的收敛过程,我们用更有效的单向输出替换它。对于第三个问题,我们提出了一种深度文本图像融合块(DFBlock),以更有效地将文本信息融合到图像特征中。DFBlock由几个仿射变换[31]组成。仿射变换是一个轻量级模块,通过通道级缩放和平移操作来操作视觉特征图。在所有图像尺度上堆叠多个DFBlock可以加深文本-图像融合过程,并实现文本和视觉特征之间的完全融合。总的来说,我们的贡献可以总结如下:0•我们提出了一种新颖的一阶段文本到图像的骨干网络,可以直接合成高分辨率图像,而不会产生不同生成器之间的纠缠。0•我们提出了一种新颖的目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单向输出组成。它显著增强了文本-图像的语义一致性,而不引入额外的网络。0•我们提出了一种新颖的深度文本图像融合块(DFBlock),更有效地深度融合文本和视觉特征。0•在两个具有挑战性的数据集上进行了广泛的定性和定量实验,证明了所提出的DF-GAN优于现有的最先进的文本-图像模型。02. 相关工作0生成对抗网络(GANs)[8]是一种吸引人的框架,可以通过解决生成器和鉴别器之间的最小最大优化问题来模拟复杂的现实世界分布[16, 17, 43,54]。例如,Reed等人首次应用条件GAN从文本描述中生成逼真的图像[37,38]。StackGAN通过堆叠多个生成器和鉴别器生成高分辨率图像,并通过将文本向量和输入噪声串联来向生成器提供文本信息[56,57]。接下来,AttnGAN引入了跨模态注意力机制,帮助生成器合成更多细节的图像[50]。MirrorGAN通过生成的图像重新生成文本描述,以实现文本-图像的语义一致性[33,59]。SD-GAN采用Siamese结构[45,46]从文本中提取语义共性,以实现图像生成的一致性[51]。DM-GAN在堆叠的架构中引入了记忆网络[10,49],以在初始图像生成不良时改进模糊图像内容。最近,一些基于大型Transformer的文本到图像方法[7, 24,35]在复杂图像合成方面表现出色。它们将图像标记化,并通过单向Transformer[2,34]将图像标记和词标记进行自回归训练。我们的DF-GAN与以前的方法有很大的不同。首先,它通过一阶段骨干网络直接生成高分辨率图像。其次,它采用目标感知鉴别器增强文本-图像的语义一致性,而不引入额外的网络。第三,它通过一系列DFBlock更深入有效地融合文本和图像特征。与以前的模型相比,我们的DF-GAN在合成逼真和文本匹配图像方面更简单但更有效。03. 提出的DF-GAN0在本文中,我们提出了一种名为Deep FusionGAN(DF-GAN)的简单的文本到图像合成模型。为了合成更逼真和与文本匹配的图像,我们提出了以下内容:(i)一种新颖的单阶段文本到图像骨干网络,可以直接合成高分辨率图像而不引入视觉特征纠缠。(ii)一种新颖的目标感知判别器,由匹配感知梯度惩罚(MA-GP)和单向输出组成,增强了文本-图像语义一致性而不引入额外的网络。(iii)一种新颖的深度文本-图像融合块(DF-Block),更充分地融合文本和视觉特征。The proposed DF-GAN is composed of a generator, adiscriminator, and a pre-trained text encoder as shown inFigure 2. The generator has two inputs, a sentence vectorencoded by text encoder and a noise vector sampled fromthe Gaussian distribution to ensure the diversity of the gen-erated images. The noise vector is first fed into a fully con-nected layer and reshaped.We then apply a series of UP-Blocks to upsample the image features. The UPBlock iscomposed of an upsample layer, a residual block, and DF-Blocks to fuse the text and image features during the imagegeneration process. Finally, a convolution layer convertsimage features into images.The discriminator converts images into image featuresthrough a series of DownBlocks. Then the sentence vectorwill be replicated and concatenated with image features. Anadversarial loss will be predicted to evaluate the visual real-ism and semantic consistency of inputs. By distinguishinggenerated images from real samples, the discriminator pro-motes the generator to synthesize images with higher qual-ity and text-image semantic consistency.The text encoder is a bi-directional Long Short-TermMemory (LSTM) [41] that extracts semantic vectors fromthe text description. We directly use the pre-trained modelprovided by AttnGAN [50].LD = − Ex∼Pr[min(0, −1 + D(x, e))]− (1/2)EG(z)∼Pg[min(0, −1 − D(G(z), e))](1/2)ExPmis[min(0, −1 − D(x, e))](1)165170图2.提出的DF-GAN用于文本到图像合成的架构。DF-GAN通过一个生成器和一个判别器直接生成高分辨率图像,并通过多个深度文本-图像融合块(DFBlock)在UPBlocks中融合文本信息和视觉特征图。我们的模型配备了匹配感知梯度惩罚(MA-GP)和单向输出,可以合成更逼真和与文本匹配的图像。0提出的DF-GAN由一个生成器、一个判别器和一个预训练的文本编码器组成,如图2所示。生成器有两个输入,一个由文本编码器编码的句向量和从高斯分布中采样的噪声向量,以确保生成图像的多样性。噪声向量首先经过一个全连接层并进行重塑。然后,我们应用一系列的UPBlocks来上采样图像特征。UPBlock由上采样层、残差块和DF-Block组成,在图像生成过程中融合文本和图像特征。最后,卷积层将图像特征转换为图像。判别器通过一系列的DownBlocks将图像转换为图像特征。然后,句向量将被复制并与图像特征连接。通过区分生成的图像和真实样本,判别器促使生成器合成更高质量和文本-图像语义一致性的图像。文本编码器是一个双向长短期记忆(LSTM)[41],从文本描述中提取语义向量。我们直接使用AttnGAN[50]提供的预训练模型。03.1. 模型概述03.2. 单阶段文本到图像的骨干网络0由于GAN模型的不稳定性,先前的文本到图像GAN通常采用堆叠的架构[56,57]从低分辨率图像生成高分辨率图像。然而,堆叠的架构会引入不同生成器之间的纠缠,并使最终的精炼图像看起来像是模糊形状和一些细节的简单组合(见图1(a))。受到最近关于无条件图像生成的研究[23,54]的启发,我们提出了一种单阶段文本到图像的骨干网络,可以通过一个生成器和一个判别器直接合成高分辨率图像。我们采用铰链损失[23]来稳定对抗训练过程。由于单阶段骨干网络中只有一个生成器,它避免了不同生成器之间的纠缠。由于单阶段框架中的单个生成器需要直接从噪声向量合成高分辨率图像,它必须比堆叠架构中的先前生成器包含更多层。为了有效地训练这些层,我们引入了残差网络[11]来稳定更深层网络的训练。我们的单阶段方法使用铰链损失[23]的公式如下:0L G = - E G(z) � P g [D(G(z), e)]0其中 z 是从高斯分布中采样的噪声向量;e 是句子向量;P g 、P r 、Pmis 分别表示合成数据分布、真实数据分布和不匹配数据分布。(2)165180图3. (a) 应用梯度惩罚前后损失景观的比较。梯度惩罚使判别器损失曲面平滑,有助于生成器的收敛。 (b)MA-GP的示意图。数据点(真实,匹配)应该应用MA-GP。0分别是合成数据分布、真实数据分布和不匹配数据分布。03.3. 目标感知判别器0在本节中,我们详细介绍了提出的目标感知判别器,它由匹配感知梯度惩罚(MA-GP)和一种输出方式组成。目标感知判别器促使生成器合成更逼真且文本-图像语义一致的图像。03.3.1 匹配感知梯度惩罚0匹配感知的零中心梯度惩罚(MA-GP)是我们新设计的增强文本-图像语义一致性的策略。在本小节中,我们首先从一个新颖而清晰的角度展示了无条件梯度惩罚[28],然后将其扩展到我们的MA-GP用于文本到图像生成任务。如图3(a)所示,在无条件图像生成中,目标数据(真实图像)对应于较低的判别器损失。相应地,合成图像对应于较高的判别器损失。铰链损失限制了判别器损失在-1和1之间的范围。对于真实数据的梯度惩罚将减小真实数据点及其周围区域的梯度。然后,平滑了围绕真实数据点的损失函数曲面,这有助于合成数据点收敛到真实数据点。基于以上分析,我们发现目标数据上的梯度惩罚构建了更好的损失景观,有助于生成器的收敛。通过利用文本到图像生成的视角。如图3(b)所示,在文本到图像生成中,判别器观察到的0接受四种输入:具有匹配文本的合成图像(假,匹配)、具有不匹配文本的合成图像(假,不匹配)、具有匹配文本的真实图像(真,匹配)、具有不匹配文本的真实图像(真,不匹配)。为了实现文本-视觉语义一致性,我们倾向于在文本匹配的真实数据上应用梯度惩罚,即文本到图像合成的目标。因此,在MA-GP中,梯度惩罚应该应用于具有匹配文本的真实图像。我们的模型与MA-GP的整体公式如下:0L D = - E x � P r [min(0, -1 + D(x, e))]0- (1 / 2) E G(z) � P g [min(0, -1 - D(G(z), e))]0- (1 / 2) E x � P mis [min(0, -1 - D(x, e))]0+ k E x � P r [(∥� x D(x, e)∥ + ∥� e D(x, e)∥) p]0L G = - E G(z) � P g [D(G(z), e)]0其中 k 和 p是两个超参数,用于平衡梯度惩罚的有效性。通过将MA-GP损失作为判别器的正则化,我们的模型可以更好地收敛到文本匹配的真实数据,从而合成更多文本匹配的图像。此外,由于判别器在我们的网络中是联合训练的,它防止了生成器合成固定额外网络的对抗特征。此外,由于MA-GP不需要任何额外的用于文本-图像一致性的网络,并且梯度已经通过反向传播过程计算出来,我们提出的MA-GP引入的唯一计算是梯度求和,比额外的网络更加计算友好。γ = MLP1(e),θ = MLP2(e).(3)AFF(xi|e) = γi · xi + θi,(4)165190图4. 两种输出方式的比较。 (a)两种输出方式预测条件损失和无条件损失,并将它们相加作为最终的对抗损失。 (b) 我们的一种输出方式直接预测整个对抗损失。03.3.2 单向输出0在之前的文本到图像GAN中[50, 56,57],判别器提取的图像特征通常以两种方式使用(图4(a)):一种确定图像是真实的还是伪造的,另一种将图像特征和句向量连接起来评估文本-图像语义一致性。相应地,在这些模型中计算无条件损失和条件损失。0然而,研究表明双向输出削弱了MA-GP的有效性并减慢了生成器的收敛速度。具体而言,如图3(b)所示,在反向传播之后,条件损失给出了指向真实和匹配输入的梯度α,而无条件损失仅给出了指向真实图像的梯度β。然而,最终梯度的方向只是简单地将γ和β相加,并不指向我们期望的真实和匹配数据点。由于生成器的目标是合成真实的与文本匹配的图像,带有偏差的最终梯度无法很好地实现文本-图像语义一致性,并减慢了生成器的收敛过程。0因此,我们提出了一种单向输出的文本到图像合成方法。如图4(b)所示,我们的判别器将图像特征和句向量连接起来,然后通过两个卷积层仅输出一个对抗损失。通过单向输出,我们能够使单一梯度γ直接指向目标数据点(真实和匹配),从而优化和加速生成器的收敛过程。0通过结合MA-GP和单向输出,我们的目标感知判别器可以引导生成器合成更真实和与文本匹配的图像。03.4. 高效的文本-图像融合0为了高效地融合文本和图像特征,我们提出了一种新颖的深度文本-图像融合块(DFBlock)。与之前的文本-图像融合模块相比,我们的DFBlock加深了文本-图像融合过程,实现了完全的文本-图像融合。如图2所示,我们的DF-GAN的生成器由7个UPBlock组成。一个UPBlock包含两个文本-图像融合块。为了充分利用融合中的文本信息,我们提出了深度文本-图像融合块(DFBlock),它在融合块中堆叠了多个仿射变换和ReLU层。对于仿射变换,如图5(c)所示,我们采用两个多层感知机(MLP)分别从句向量e中预测语言条件的通道缩放参数γ和偏移参数θ:0对于给定的输入特征图X ∈ R B × C × H ×W,我们首先使用缩放参数γ对X进行通道缩放操作,然后使用偏移参数θ进行通道偏移操作。这个过程可以表示为:0其中AFF表示仿射变换;xi是视觉特征图的第i个通道;e是句向量;γi和θi是视觉特征图的第i个通道的缩放参数和偏移参数。仿射层扩展了生成器的条件表示空间。然而,仿射变换对于每个通道来说是线性变换,它限制了文本-图像融合过程的有效性。因此,我们在两个仿射层之间添加了一个ReLU层,将非线性引入融合过程中。相比于只有一个仿射层,它扩大了条件表示空间。更大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示中。我们的DFBlock在一定程度上受到了条件批量归一化(CBN)[5]和自适应实例归一化(AdaIN)[14,16]的启发,它们都包含了仿射变换。然而,CBN和AdaIN都使用了归一化层[15,44]将特征图转化为正态分布。这产生了与期望增加不同样本之间距离的仿射变换相反的效果。对于条件生成过程来说,这是无益的。因此,我们去除了归一化过程。此外,我们的DFBlock加深了文本-图像融合过程。我们堆叠了多个仿射层,并在其中添加了一个ReLU层。这提升了视觉特征的多样性,并扩大了表示空间,以165200图5. (a) 生成器网络中的典型UPBlock。UPBlock通过两个Fusion Block对图像特征进行上采样并融合文本和图像特征。(b)DFBlock由两个仿射层、两个ReLU激活层和一个卷积层组成。(c) 仿射变换的示意图。(d) (d.1) 带有跨模态注意力的生成器[ 50 , 60 ]与(d.2)我们的带有DFBlock的生成器的比较。0根据不同的文本描述,DFBlock表示不同的视觉特征。随着融合过程的加深,DFBlock为文本到图像生成带来了两个主要的好处:首先,在融合文本和图像特征时,它使生成器更充分地利用文本信息。其次,加深融合过程扩大了融合模块的表示空间,有利于从不同的文本描述生成语义一致的图像。此外,与之前的文本到图像GAN[ 50 , 56 , 57 , 60]相比,我们提出的DFBlock使得我们的模型在融合文本和图像特征时不再考虑图像尺度的限制。这是因为现有的文本到图像GAN通常采用跨模态注意力机制,随着图像尺寸的增加,计算成本迅速增长。04. 实验0在本节中,我们首先介绍了在实验中使用的数据集、训练细节和评估指标,然后定量和定性地评估了DF-GAN及其变体。数据集。我们遵循之前的工作[ 33 , 50 , 51 , 56 , 57 ,060 ]并在两个具有挑战性的数据集上评估提出的模型,即CUB鸟[ 47 ]和COCO[ 25]。CUB数据集包含11,788张属于200种鸟类的图像。每个鸟类图像有十个语言描述。COCO数据集包含80k张用于训练和40k张用于测试的图像。该数据集中的每个图像有五个语言描述。训练细节。我们使用Adam [ 18]优化我们的网络,其中β 1 =0 . 0 且 β 2 =0 . 9。生成器的学习率设置为0 . 0001,判别器的学习率根据Two Timescale Update Rule(TTUR) [ 12 ]设置为0 . 0004 。评估细节。根据之前的工作[50 , 60 ],我们选择Inception Score (IS) [ 40 ]和Fr´echetInception Distance (FID) [ 12 ]来评估我们网络的性能。0工作。具体而言,IS计算条件分布和边际分布之间的Kullback-Leibler(KL)散度。较高的IS意味着生成的图像质量较高,并且每个图像明确属于特定的类别。FID [ 12]计算合成图像的分布与预训练的Inceptionv3网络的特征空间中真实世界图像的Fr´echet距离。与IS相反,更逼真的图像具有较低的FID。为了计算IS和FID,每个模型从测试数据集中随机选择的文本描述中生成30,000张图像(256×256分辨率)。正如最近的研究[ 21 , 58]所述,IS不能很好地评估COCO数据集上的图像质量,这也存在于我们提出的方法中。此外,我们发现一些基于GAN的模型[ 50 , 60]在COCO数据集上的IS明显高于基于Transformer的大型文本到图像模型[ 7 , 35],但合成图像的视觉质量明显低于基于Transformer的模型[ 7 , 35]。因此,我们不在COCO数据集上比较IS。相反,FID更加稳健,并与人类的定性评估在COCO数据集上保持一致。此外,我们评估参数数量(NoP)以与当前方法进行模型大小比较。04.1. 定量评估0我们将提出的方法与几种最先进的方法进行比较,包括StackGAN [ 56 ],StackGAN++ [ 57 ],AttnGAN [ 50],MirrorGAN [ 33 ],SD-GAN [ 51 ]和DM-GAN [ 60],这些方法通过使用堆叠结构实现了文本到图像合成的显著成功。我们还与更近期的模型[ 22 , 26 , 39 , 55]进行了比较。需要指出的是,最近的模型总是使用额外的知识或监督。例如,CPGAN [ 22]使用额外的预训练YOLO-V3 [ 36 ],XMC-GAN [ 55]使用额外的预训练VGG-19 [ 42 ]和Bert [ 6 ],DAE-GAN [39 ]使用额外的NLTKPOS标记和手动设计不同数据集的规则,TIME [ 26]使用额外的2-D位置编码。165210图6. AttnGAN [50],DM-GAN [60]和我们提出的DF-GAN根据COCO和CUB数据集的文本描述合成的图像示例。0表1.与CUB和COCO测试集上最先进方法的IS、FID和NoP结果进行比较。0模型 CUB COCO0IS ↑ FID ↓ FID ↓ NoP ↓0StackGAN [56] 3.70 - - - StackGAN++ [57] 3.84 --0AttnGAN [50] 4.36 23.98 35.49 230M MirrorGAN[33] 4.56 18.34 34.71 - SD-GAN [51] 4.67 - - -DM-GAN [60] 4.75 16.09 32.64 46M0CPGAN [22] - - 55.80 318M XMC-GAN [55] - - 9.30166M DAE-GAN [39] 4.42 15.19 28.12 98M TIME[26] 4.91 14.30 31.14 120M0DF-GAN(我们的)5.10 14.81 19.32 19M0如表1所示,与其他领先模型相比,我们的DF-GAN具有显著较小的参数数量(NoP),但仍然实现了竞争性的性能。与使用跨模态注意力融合文本和图像特征的AttnGAN[50]相比,我们的DF-GAN将IS指标从4.36提高到5.10,并将FID指标从23.98降低到14.81(在CUB数据集上)。我们的DF-GAN将FID从35.49降低到19.32(在COCO数据集上)。与使用循环一致性和孪生网络确保文本-图像语义一致性的MirrorGAN [33]和SD-GAN[51]相比,我们的DF-GAN将IS分别从4.56和4.67提高到5.10。与引入记忆网络以改进模糊图像内容的DM-GAN[60]相比,我们的模型还将IS从4.75提高到5.10,并将FID从16.09降低到14.81(在CUB数据集上)。0并且在COCO上将FID从32.64降低到19.32。此外,与引入额外知识的最新模型相比,我们的DF-GAN仍然实现了竞争性的性能。定量比较证明了我们的模型更简单但更有效。04.2. 定性评估0我们还比较了AttnGAN [50],DM-GAN[60]和提出的DF-GAN合成的可视化结果。可以看出,在图6中,由AttnGAN[50]和DM-GAN[60]合成的图像看起来像是模糊形状和一些视觉细节的简单组合(第1列,第3列,第5列,第7列和第8列)。如第5列,第7列和第8列所示,由AttnGAN [50]和DM-GAN[60]合成的鸟类包含错误的形状。此外,由我们的DF-GAN合成的图像具有更好的物体形状和逼真的细节(例如第1列,第3列,第7列和第8列)。0此外,我们的DF-GAN结果中的鸟类姿势也更加自然(例如第7列和第8列)。与其他模型相比,我们发现我们的DF-GAN还可以捕捉到更细致的文本描述细节。例如,如图6中的结果所示,其他模型无法很好地合成文本中描述的“握着滑雪杖”,“火车轨道”和“眼睛旁边的黑条纹”,但是我们提出的DF-GAN可以更正确地合成它们。04.3. 消融研究0在本节中,我们在CUB数据集的测试集上进行消融研究,以验证所提出的DF-GAN中每个组件的有效性。165220表2. 我们模型在CUB测试集上不同组件的性能。0架构 IS ↑ FID ↓ SC ↑0基线 3.96 51.34 - OS-B 4.11 43.45 1.46 OS-B w/DAMSM 4.28 36.72 1.79 OS-B w/ MA-GP 4.4632.52 3.55 OS-B w/ MA-GP w/ OW-O 4.57 23.164.610组件包括一阶段文本到图像骨干网络(OS-B),匹配感知梯度惩罚(MA-GP),单向输出(OW-O),深度文本图像融合块(DFBlock)。我们还将我们的目标感知鉴别器与当前模型中广泛使用的深度注意力多模态相似性模型(DAMSM)进行了比较[50, 51,60]。我们首先评估了OS-B,MA-GP和OW-O的有效性。我们进行了一项用户研究,评估了文本-图像语义一致性(SC),我们请十名用户对100个随机合成的带有文本描述的图像进行评分。评分范围从1(最差)到5(最好)。CUB数据集上的结果如表2所示。基线。我们的基线采用堆叠框架和具有与Stack-GAN[56]相同的对抗性损失的双向输出。在基线中,句子向量被天真地连接到输入噪声和中间特征图中。一阶段骨干网络的效果。我们提出的OS-B将IS从3.96提高到4.11,将FID从43.45降低到32.52。结果表明,我们的一阶段骨干网络比堆叠架构更有效。MA-GP的效果。配备了MA-GP后,模型将IS进一步提高到4.46,SC提高到3.55,并将FID显著降低到32.52。这表明,所提出的MA-GP可以促使生成器合成更逼真和文本-图像语义一致的图像。单向输出的效果。所提出的OW-O还将IS从4.46提高到4.57,将SC从3.55提高到4.61,并将FID从32.52降低到23.16。这也表明,在文本到图像生成任务中,单向输出比双向输出更有效。目标感知鉴别器的效果。与DAMSM相比,我们提出的由MA-GP和OW-O组成的目标感知鉴别器将IS从4.28提高到4.57,将SC从1.79提高到4.61,并将FID从36.72降低到23.16。结果表明,我们的目标感知鉴别器优于额外的网络。DFBlock的效果。我们将我们的DFBlock与CBN [1, 5, 29],AdaIN[16]和AFFBlock进行了比较。AFFBlock采用一层仿射变换层来融合文本和图像特征。MA-GPGAN是采用一阶段文本到图像骨干网络、匹配感知梯度惩罚和单向输出的模型。从表3的结果中,我们发现,与其他融合方法相比,连接不能有效地融合文本和图像特征。0表3. MA-GP GAN在CUB测试集上使用不同模块的性能。0架构 ↑ FID ↓0MA-GP GAN w/ Concat 4.57 23.16 MA-GP GAN w/CBN 4.81 18.56 MA-GP GAN w/ AdaIN 4.85 17.52MA-GP GAN w/ AFFBLK 4.87 17.43 MA-GP GAN w/DFBLK (DF-GAN) 5.10 14.810特征。CBN、AdaIN和AFFBlock之间的比较证明了融合块中规范化并不是必要的,甚至去除规范化稍微提高了结果。DFBlock和AFFBlock之间的比较证明了加深文本-图像融合过程的有效性。总之,比较结果证明了我们提出的DFBlock的有效性。04.4. 限制0尽管DF-GAN在文本到图像合成方面显示出优势,但在未来的研究中必须考虑一些限制。首先,我们的模型只引入了句子级别的文本信息,这限制了细粒度视觉特征合成的能力。其次,引入预训练的大型语言模型[6,34]来提供额外的知识可能进一步提高性能。我们将在未来的工作中尝试解决这些限制。05. 结论与未来工作0在本文中,我们提出了一种新颖的DF-GAN用于文本到图像生成任务。我们提出了一个一阶段的文本到图像骨干网络,可以直接合成高分辨率图像,而不会在不同生成器之间产生纠缠。我们还提出了一种新颖的目标感知判别器,由匹配感知梯度惩罚(MA-GP)和单向输出组成。它可以进一步增强文本-图像语义一致性,而不引入额外的网络。此外,我们引入了一种新颖的深度文本-图像融合块(DFBlock),可以更有效地和更深入地融合文本和图像特征。大量实验结果表明,我们提出的DF-GAN在CUB数据集和更具挑战性的COCO数据集上明显优于当前最先进的模型。0致谢0本工作得到国家重点研发计划(编号2020AAA0106200),中国国家自然科学基金(编号61936005、61872424、62076139、62176069和61933013),江苏省自然科学基金(编号BK20200037和BK20210595)以及浙江实验室开放研究项目(编号2021KF0AB05)的支持。165230参考文献0[1] Andrew Brock, Jeff Donahue, and Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练。在《学习表示国际会议》中,2019年。80[2] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan,Pranav Shyam, Girish Sastry, Amanda Askell, et al.语言模型是少样本学习器。arXiv预印本arXiv:2005.14165,2020年。20[3] Jun Cheng, Fuxiang Wu, Yanling Tian, Lei Wang, andDapeng Tao. Rifegan:从先验知识生成文本到图像的丰富特征生成。在《IEEE/CVF计算机视觉与模式识别会议论文集》中,页码10911-10920,2020年。10[4] Wen-Huang Cheng, Sijie Song, Chieh-Yun Chen, Shin-tami Chusnul Hidayati, and Jiaying Liu.时尚与计算机视觉相遇:一项调查。《ACM计算调查(CSUR)》54(4):1-41,2021年。10[5] Harm De Vries, Florian Strub, J´er´emie Mary, HugoLarochelle, Olivier Pietquin, and Aaron C Courville.通过语言调节早期视觉处理。在《神经信息处理系统进展》中,页码6594-6604,2017年。5, 80[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert:深度双向转换器的预训练用于语言理解。arXiv预印本arXiv:1810.04805,2018年。6, 80[7] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng,Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao,Hongxia Yang, 等. Cogview:通过Transformer掌握文本到图像生成. arXiv预印本, 2021. 2 , 60[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, 和Yoshua Bengio. 生成对抗网络. 在神经信息处理系统进展中,2014. 1 , 20[9] Yuchuan Gou, Qiancheng Wu, Minghao Li, Bo Gong, 和Mei Han. Segattngan: 带有分割注意力的文本到图像生成.arXiv预印本, 2020. 10[10] Caglar Gulcehre, Sarath Chandar, Kyunghyun Cho, 和Yoshua Bengio. 具有连续和离散寻址方案的动态神经图灵机.神经计算, 30(4):857–884, 2018. 20[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun.深度残差学习用于图像识别. 在IEEE计算机视觉和模式识别会议上,2016. 2 , 30[12] Martin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功