GANs使用双重对比损失和注意力提升图像生成

142 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6731GANs的双重对比损失和注意力Ning Yu1，2 Guilin Liu3 Aysegul Dundar3，4安德鲁·陶3布莱恩·卡坦扎罗3拉里·戴维斯1马里奥·弗里茨51马里兰大学2马克斯普朗克信息学研究所3NVIDIA4比尔肯大学5CISPA亥姆霍兹信息安全{ningyu，lsdavis}@ umd.edu{guilinl，adundar，atao，bcatanzaro}@nvidia.comfritz@cispa.saarland摘要生成对抗网络（GANs）在使用大规模图像数据集时，在无条件图像生成方面产生了令人印象深刻的结果。然而，生成的图像仍然很容易被发现，特别是在具有高方差的数据集上（例如，卧室、教堂）。在本文中，我们提出了各种改进，以进一步推动边界的图像生成。具体来说，我们提出了一种新的双重对比损失，并表明，与此损失，鉴别器学习更广义和可区分的表示，以激励一代。此外，我们重新审视注意力，并广泛实验不同的注意力块转换{Self-attention转换{Conv{参考-注意转换{共享参数在发电机里。我们发现注意仍然是一个重要的模块，成功的图像生成，即使它没有被用于最近的国家的最先进的模型。最后，我们研究了鉴别器中不同的注意结构，并提出了一种参考注意机制。通过结合这些补救措施的优势，我们在几个基准数据集上将引人注目的最先进的Fre'chetInceptionDistance（FID）提高了至少17.5%我们在合成合成场景上获得了更显着的改进（在FID中高达47.5%）。1. 介绍逼真的图像生成已经越来越成为现实，受益于生成式对抗网络（GANs）的发明[24]及其连续的突破[67，3，25，60，5，41，42，43]。进度主要由大规模数据集驱动[18，57，91，38，54，42]，架构调整[10，98，42，43，69]，和损失-[58，3，25，60，39，101，105，96，40，106，36]。GAN技术已经普及到广泛的计算机视觉应用中，包括但不限于图像翻译[35，107，108，54，33，82，64，20，63]，后期处理[35，107，108，54，33，82，64，20，63 ]。双重对比损失图1.我们的GAN框架图使用三个关键组件：自我注意的发生器，参考注意的鉴别器，和一个新的双重对比损失。技术图表见图。2和4.处理[46，71，44，45，77，62，102]，图像处理-[13，14，70，1，4，80]，纹理合成[94，53，59]，图像修复[34，52，92，93]，和文本到图像一般[68，99，100，74]。然而，在最先进的StyleGAN2 [43]的看似饱和的性能背后，GANs仍然存在开放的问题，这些问题使得生成的图像非常明显[95，81，21，28]。因此，当其他并行的深度学习技术不断进步并为GAN改进创造空间时，仍然有必要重新审视基本的生成能力我们研究了在两个维度上改进GANs的方法在第一维中，我们处理损失函数。由于鉴别器旨在通过真/假二进制分类的解决方案对难以处理的真实数据分布进行建模，因此更有效的鉴别器可以反向传播更有意义的信号以供生成器竞争。发生器主映像参考图像鉴别器6732然而，鉴别器的特征表示通常不足以激励逆向进化生成器，并且易于忘记先前的任务[11]或先前的数据模式[72，49]。这通常会导致生成的样本具有不连续的语义结构[51，98]或生成的分布具有模式崩溃[72，96]。为了缓解这个问题，我们建议将生成式建模与对比学习的进步相结合[61，8]。在这个方向上，我们第一次用新设计的双重对比损失取代了StyleGAN 2的逻辑损失在第二个维度，我们重新审视了生成器和鉴别器网络的架构。具体来说，许多基于GAN的图像生成器依赖于卷积层来编码特征。在这种设计中，跨像素的长范围依赖性（例如，大尺寸语义相关布局）只能用卷积层的深栈来公式化。然而，这不利于GAN训练的稳定性，因为期望地协调多个层的挑战。GAN框架中的极小极大公式和交替梯度上升-下降进一步加剧了这种不稳定性。为了解决这个问题，将支持跨图像区域的远程建模的注意力机制并入GAN模型[98，5]。然而，在那之后，StyleGAN2声称具有新颖的建筑设计，没有任何注意力机制。因此，不清楚注意力是否仍然可以改善结果，哪些流行的注意力机制[37，85，83，103]改善最多，以及作为回报，有多少额外的参数。为了回答这些问题，我们广泛研究了注意力在当前最先进的发电机中的作用，并在本研究中显着改善了结果。在鉴别器中，我们再次探索注意力的作用，如图所示。1.一、我们在鉴别器中设计了一种新的参考注意机制，其中我们允许两个不相关的图像同时作为输入：一个输入从作为参考的实际数据中采样，而另一个输入在实际采样和生成采样之间切换。这两个输入通过两个连体分支进行编码[6，15，73，97]，并通过参考注意模块进行融合。通过这种方式，我们实现了在现实世界的关注下引导真/假贡献概述如下：• 我们在对抗训练中提出了一种新的双重对比度损失，它概括了表示，以更有效地区分真实和虚假，并进一步激励图像生成质量。• 我们研究了GAN架构中的注意力机制的变体，以减轻卷积的局部和静态问题。• 我们设计了一种新的参考注意鉴别器架构，有利于有限规模的数据集。• 我们通过在几个大规模基准数据集上将FID分数提高至少 17.5% 来重新定义最新技术我们还在CLEVR数据集[ 38 ]上实现了更真实的生成，这带来了与其他数据集不同的挑战：具有遮挡、阴影、反射和镜面的合成场景。它具有47.5%的FID改进。2. 相关工作生成对抗网络（GANs）。自GAN发明以来[24]，实现逼真图像生成的进展迅速[67，3，25，25，60，5、41、42、43]。通过以下方式获得显著改善仔细的建筑设计的发电机[10，98，42，43，69]，判别器[82，56]和新的正则化技术-niques [58，3，25，60，101，105，96，40，106，36].建筑技术-生成器的结构演变从多层感知器（MLP）[24]开始，并移动到深度卷积神经网络（DCNN）[67]，具有残差块的模型[60]，以及最近基于风格的模型[42，43]和基于注意力的模型[98，5类似地，鉴别器从MLP发展到DCNN [67]，然而，它们的设计尚未被积极地研究。在本文中，我们提出的变化发生器和鉴别器，并为损失函数。对比学习。对比学习的目标是将输入转换为嵌入，其中相关信号被聚集在一起，并且它们与数据集中的其他样本保持距离[26，76，8，9]。对比学习背后的同样直觉也是暹罗网络的基础[6，15，73，97]。对比学习被证明是无监督学习[61，27，87]，条件图像合成[63，40，106]和域自适应[23]的有效工具。在这项工作中，我们研究了它的有效性，当它与对抗训练框架紧密结合，并取代了传统的对抗损失的无条件图像生成。它与[40，106，36，47]正交，其中它们的对比损失仅作为传统对抗损失的增量辅助，适用于生成器而不是生成器，和/或需要昂贵的类注释或生成增强。注意模特们。注意力模型已经主导了语言建模[78，86，17，19，89]，并且在从图像识别[16，79，31，32，104，109，30，85]到图像捕获的各种计算机视觉问题中变得流行。将视频预测[88，90，7]转换为视频预测[37，83]。它们以各种形式提出：空间注意力，重新加权卷积激活[98，83，12]，在不同的变化-[79，31，32]，或它们的组合[7，84，22]。注意力模型与其重新加权机制提供了一种可能性，跨越遥远的图像区域的远程建模。由于注意力模型在各种计算机视觉任务中优于其他模型，研究人员很快将其纳入无条件图像生成[10，98，65，5]，6733ΣΣ−x−z基于语义的图像生成[56，75]和文本引导的图像操作模型[48，66]。尽管注意力模型已经使图像生成任务受益，但我们相信可以通过使用注意力模块[103]中的最新成就为最先进的图像合成模型[43]（不涉及注意力）供电来进一步改善结果此外，我们为鉴别器设计了一种新的参考注意力架构，并在有限规模的数据集上显示出进一步的提升。3. 方法我们对GANs的改进包括一种新的双重对比损失和注意力机制的变体。对于每一个改进，我们组织的背景下，在方法制定和实验研究之间的在验证我们的最佳配置后，我们将其与第4节中的最新配置进行比较。3.1. 双重对比损失对抗性训练依赖于鉴别器假分类与其他分类任务一样，当数据集图2.传统GAN损耗图与我们的双对比损耗图的比较我们在案例I中的对比损失旨在教导鉴别器将单个真实图像（R）与一批生成的图像（F）分离在案例II中，鉴别器学习将单个生成的图像与一批真实图像分离。过时的图像在案例II中，鉴别器学习将单个生成的图像与一批真实图像分离。生成器逆向学习以最小化这种双重对比。在数学上，我们通过将[24，43]中使用的二进制分类扩展到噪声对比估计框架[61]来推导这个损失函数，这是softmax交叉熵公式中的一个对一个批次分类新配方如下：在情况I中：尺寸有限[2]。另一方面，在更大的数据集上，没有研究表明disciminator过拟合，但我们L控制（G，D）=ElogeD（x）假设对抗性训练仍然可以受益于新的损失函数，该损失函数鼓励区分性房xp（x）eD（x）+n（0，Id）eD（G（z））鉴别器表示的功率对于它们的实数与假分类任务。我们把另一个镜头上的表征能力的鉴别器，通过对比学习激励一代。对比学习将数据点和他们的积极的例子和分离的其他点=Ep（x）在情况II中：logn（0，Id）eD（G（z））−D（x）（一）在数据集中，这些被称为负例。它最近被各种无监督学习作品[26，61，76，8，9]和生成作品[63，40，106]重新普及Lcontr（G，D）=Ee−D（G（z））logΣ在这些研究中，对比学习被作为辅助任务使用例如，在图像到图像转换任务中，假n（0，Id）e−D（G（z））+Σxp（x）e−D（x）翻译器学习通过对抗损失输出给定马图像的斑马图像，并且此外学习通过对比损失函数对齐输入的马图像和生成的斑马图像[63]。对比损失在那工作被利用=EN（0，Id）埃斯特洛格1+xp（x）eD（G（z））−D（x）（二）使得给定的示出输出斑马的腿的块应该与输入马的对应腿强关联，比从马图像随机提取的其它块更强关联在这项工作中，与以前的不同，我们不使用对比学习作为辅助任务，而是通过一种新的损失函数公式直接将其耦合到主要的对抗训练中。据我们所知，对于第一次训练一个无条件GAN比较Eq.在图1和图2中，通过切换真实/虚假采样的顺序同时保持其他计算不变来制定对偶性与逻辑损失[24，43]相比，对比损失丰富了softplus公式。lationlog（1+eD（·））与一批内部项，并使用鉴别器logit对比真实和假样本。最后，我们的对抗目标是：min maxLcontr（G，D）+Lcontr（G，D）（3）关于对比学习如图2右情况I，我们的G D 实数假对比损失函数的目的是教导鉴别器将单个真实图像与一批通用图像分离。损耗设计研究。我们广泛验证了双对比损失的有效性相比，其他6734∈FFHQ卧室教会马Clevr非饱和[24]（默认）4.864.014.543.919.62饱和[24]5.164.264.805.9010.46沃瑟斯坦[25]7.996.056.287.235.82铰链[50]4.144.924.395.2714.87双重对比（我们的）3.983.863.733.706.06表1.不同GAN损耗之间FID的比较。基于StyleGAN2 config E主干，它显示我们的对比损失在五分之四的大规模数据集上优于各种其他损失Wasserstein损失在CLEVR上比我们的好，但在其他数据集上最差。损失FFHQ卧室教会马Clevr非饱和[24]（默认）245.332.517.1285.199.双重对比（我们的）377.580.856.1645.513.表2. StyleGAN2违约损失和我们损失之间的FDDF比较。更大的值是更期望的，指示学习的图3.鉴别器特征的分布的tSNE图。基于我们的对比损失的特征的可区分性比基于StyleGAN2基线中的默认非饱和损失的特征的可区分性我们的损失学会将假特征与“核心”集团（绿色）相基线损失无法区分来自两个源的特征（红色与蓝色），具有清晰的边缘。损失函数如表1所示。我们用其他流行的GAN损失替换StyleGAN 2 [43]中使用的损失，非饱和默认损失，同时保持所有其他参数相同。如表1所示，双重对比损失是在所有五个数据集上一致地显著改善StyleGAN2的故障损失的唯一损失Wasserstein损失在CLEVR数据集上优于我们的损失函数，但在其他数据集上的所有损失函数中最差。我们的原因的成功的双重损失，其制定明确学习真实和生成的分布之间的无偏表示对比表征的可区分性。我们的双重对比损失的一致改进的动机，我们深入研究，如果我们的对比表示比原来的鉴别器表示更我们通过Fre´chet距离来衡量表示的可区分性的鉴别器功能在最后一层（FDDF）之间的50K真实和生成的样本。较大的值指示特征在真实和伪之间更可区分。我们发现我们的双重对比特征始终比原始鉴别器特征更可区分，如表2和图2所示3，其反向传播更有效的梯度以激励我们的生成器。3.2. 发生器中的自我注意大多数基于GAN的图像生成器仅依赖于卷积层来提取特征[67，3，25，60，41，42，43]，即使生成器中的局部和静态卷积基元无法对图像中的长程依赖性进行在最近的基于GAN的模型中，SAGAN [98]使用了自注意力块[83]，并证明了改进的结果。BigGAN [5]也遵循这种选择，并使用类似的注意力模块以获得更好的性能。然而，在那之后，StyleGAN [42]和Style-GAN 2[43]通过对生成器架构的各种修改重新定义了现有技术，这些修改不包括任何注意力机制。StyleGAN2还表明，通过增加卷积滤波器数量因此，现在还注意力是否仍能提高网络性能？哪种注意力机制最受益，在交易中有多少额外的参数？为了回答这些问题，我们对之前提出的自我注意模块进行了实验：动态滤波器网络（DFN）[37]、视觉变换器（VT）[85]、自注意GAN（SAGAN）[98]以及最先进的基于补丁的空间自适应自注意模块SAN [103]。所有上述自注意模块都受益于它们的自适应数据相关参数空间，同时它们具有自己的手工制作的架构设计和可解释性。DFN [37]保持卷积原始，但使卷积滤波器条件成为其输入张量。VT [85]将输入张量压缩为一组1D特征向量，将其解释为语义标记，并利用语言Transformer [78]进行张量传播。SAN [103]通过用分块全连接变换替换逐点softmax注意来推广自注意块[83]（如SAGAN [98我们在图4中显示了自我注意力的图表，由于其通用和最先进的设计，它具有来自SAN的特定实例[103]注意，注意模块对于网络主干是不可知的，并且可以切换到其他选项以进行公平比较。为了概念和技术上的完整性，我们在下面阐述了基于SAN的自我注意力。具体来说设TRh×w×c 是原始架构中的卷积层的输入张量。遵循自我注意力计算的主流协议6735×∈∈∈=××∈∈w2w1��= 1... ��1x1转换查询可学习网络参数循环遍历所有元素，在两种关注类型SAN注意模块。其他选项：DFN，VT，SAGAN参考张量变平重塑1x1转换全连接注意力层��= 1... ��关键输出张量1x1转换主张量值图4.自我注意力和参照注意力图式图注意模块由SAN [103]实例化，但是对于网络骨干是它可以灵活地切换到其他选项，并且是即插即用的。我们在用于计算Key张量和Query张量的源之间切换，以便分别实现自关注和参考关注。在[83，98，65]中，我们分别使用11卷积核，然后使用偏置和泄漏ReLU来获得相应的键、查询和值张量K（T）、Q（T）、V（T）Rh×w×c。对于tensor空间维度内的每个位置（i，j），我们提取大小为s，记为k∈Rs×s×c.我们我们循环所有的（i，j）以构成输出tensorO¯self并定义它为自我注意输出。最后，我们用OselfRh×w×c替换原始卷积输出，这是这个自注意输出的残余版本。然后展平面片，并沿渠道连接自我（i，j）=o（i，j），i = 1，. . . ，h，j =1，. . . ，w维数q∈R1×1×c，查询向量在（i，j），到得到p∈R1×1×（s2c+c）：我自己。attn（K（T），Q（T），V（T））（七）k=K（i−s：i+s+1，j−s：j+s+1）Oself=O¯self+T2 2 22q=Q（i，j）（四）值得注意的是，w在概念上起着等价的作用softmax的注意力地图的传统关键-p=concat（flatten（k），q）为了在密钥和查询之间进行协作，我们通过两个全连接层，然后通过bias和leak yReLU来馈送p，并获得大小为w∈R1×1×s2c的向量：查询聚合[83，98，65]，除了它不再跨通道相同，而是一般化以针对每个通道进行优化。w在精神上也与DFN [37]的概念一致，除了空间大小ss根据经验被设置为远大于3 3，并且更重要的是，w不再是“滑动”的，而是被概括为在每个位置处进行w=leakyReLU（pMw1+bw1）w~=wMw2+bw2（五）自我注意模块的研究。在表3中，我们通过替换32×32中的默认卷积来MW1 ∈R（s2c+c）×s2c，M∈Rs2c×s2c，且b，bw2∈StyleGAN2 [43] config E backbone中的分辨率层R1×1×s2c是全连接层和偏置中的可学习参数一方面，我们将w重塑回补丁大小wRs×s×c;另一方面，我们从以（i，j）为中心的V中提取具有相同大小的补丁，表示为vRs×s×c。接下来，我们将空间维度上的v与来自w的相应权重进行聚合以导出输出向量o∈R1×1×c：w=reshape（w）v=V（i−s：i+s+1，j−s：j+s+1）其中之一我们证明SAN [103]在StyleGAN2基线上显着改进，并且在几个数据集上优于其他注意力变体。DFN [37]在CelebA数据集上比我们的好，但在大多数其他数据集上是最差的我们在补充材料中提供了关于网络结构的额外消融研究。我们在图1中可视化最佳表现生成器（StyleGAN2 +SAN）的注意力图示例。五、我们发现注意力地图强烈对应于生成的图像的语义自我注意模块的复杂性。我们也来-2 2 22S（六）在表4中减少这些自o（i，j）=mΣ，n=1w（m，n）v（m，n）注意模块。我们观察到DFN [37]和VT [85]适度提高了交易O6736∈∈∈×=CelebA兽面卧室教会StyleGAN2 [43]9.8436.5519.3311.02+ DFN [37]8.4135.1026.8611.31+ VT [85]9.1834.7016.8510.64+ 萨根[98]9.3534.8317.9410.65+ SAN [103]8.6032.7216.369.62表3.发生器中不同注意力模块的FID比较。不包括注意模块的StyleGAN2 config E用作主干。为了计算高效的比较，我们使用每个数据集的30k子集。128×128分辨率。图5. StyleGAN2 + SAN生成的样本及其自注意力图在生成器中对应的点位置。考虑到每个位置都有一个注意力权重核wRs×s×c，我们将每个空间位置的范数可视化。W.注意力地图与所生成的图像的语义布局和结构强烈地对齐，这使得能够跨对象进行长距离依赖。在补充材料中查看更多样本方法FLOPS（G）#参数（M）StyleGAN2 [43]1.0848.77+ DFN [37]4.20177.60+ VT [85]7.39240.09+ 萨根[98]0.9944.99+ SAN [103]1.0848.43表4.时间复杂度以FLOPS表示，空间复杂度以每种方法的参数数表示。五、然后，我们探索了一个先进的注意力计划，两类输入（真实与。假的）被馈送到鉴别器。我们允许鉴别器同时获取两个图像输入：参考图像和主图像，其中我们将参考图像设置为总是真实样本，而主图像设置为真实样本或生成样本。对参考图像进行编码以表示注意力分量的一部分学习这些分量以引导从主图像编码在这一进步中有(1)有效的鉴别器对真实图像和生成的图像进行不同的编码，使得参考注意力能够在给定来自真实类的两个图像的情况下学习正反馈，并且在给定来自不同类的两个图像的情况下学习负这样的方案放大了真实和虚假之间的表示差异，并且反过来潜在地增强了辨别器的能力（2）参考关注使得能够在原始GAN框架中的鉴别器logit水平之外的鉴别器特征水平中进行分布(3)参考注意力学习在一轮反向传播中显式地合作真实和生成的图像，而不是单独对它们进行分类并对一批图像的梯度进行平均。任意配对图像miti-门鉴别器从过拟合，类似于随机数据增强的精神，但我们反而进行随机特征增强使用注意力。详细地说，我们首先通过原始鉴别器层对参考图像和主图像进行编码，然后以一定的分辨率进行卷积。为了对齐特征嵌入，我们应用Siamese架构[6，15]来共享层参数，如图所示。1.一、然后，我们应用与生成器中使用的相同的注意力方案，除了我们使用来自参考分支的张量TrefRh×w×c来计算关键和查询张量，并使用来自主分支的张量TpriRh×w×c最后，我们将原始卷积输出替换为我们的参考注意力输出：不受欢迎> 3 6复杂性。相反，SAGAN [98]或SAN [103]的改进并不存在。O参考attn（K（Tref），Q（Tref），V（Tpri））+Tpri（8）复杂性的成本，而是受益于更具代表性的注意力设计。它们使用较少数量的卷积通道和多头技巧[83]来控制其复杂性。这些结果表明，改进的性能不来自任何额外的参数，而是注意力结构本身。3.3. 鉴别器中的参照注意首先，我们将SAN [103]应用于鉴别器，这是我们在生成器中验证的最佳注意力然而，我们没有看到如表1所示的这种设计的益处。在参考-注意层之后，两个连体分支融合成一个，然后是剩余的鉴别器层以获得分类logit。我们在图中显示。4参照-注意图。当量8提供了如何在参考图像和主图像之间协作的灵活性。我们经验性地探索了补充材料中的参考注意力的关键、查询和值组件的来源的其他组成，以及对网络架构的额外消融研究。从表5中，我们验证了参考注意机制（ref attn），以改善结果，而自我注意，6737×××图6.在FID中比较StyleGAN2配置E基线（蓝色）和我们在鉴别器中的参考注意力（橙色）。当数据集大小在1k和30k图像之间变化时，我们的方法始终如一地提高了基线为了计算效率的比较，我们使用128×128分辨率的每个数据集。有关这些图中的值，请参见补充资料。FFHQ 人脸数据集 [42] 、 3M LSUN Bedroom 数据集[91]、120K LSUN Church数据集[91]、2M LSUN Horse数据集[91]、CelebA人脸数据集[57]和Animal Face数据集[55]以及70K CLEVR [38]数据集，该数据集包含具有3D表5.在FID中比较鉴别器中不同的注意配置。不包括任何注意模块的StyleGAN2 config E用作主干。对于计算效率的比较，我们使用每个的30k子集分辨率为128×128。几乎不为歧视者带来好处。受这些发现的鼓舞，我们在全尺度数据集上运行了所提出的参考注意力，但没有看到任何改进。因此，我们深入研究了鉴别器中关于数据集大小的参考关注行为，如图所示。六、我们发现，在判别器的参考注意力一致地提高性能时，数据集大小在1k和30k图像之间变化，相反，稍微恶化的性能时，数据集大小进一步增加。我们的理由是，参考和主图像输入的任意配对可以防止数据大小小时的过拟合，但随着数据大小的增加会导致欠拟合。尽管在本文中，我们的主要范围是大规模数据集上的GAN，但我们相信这些发现对于研究人员为有限规模的数据集设计网络非常有趣。我们在补充材料中总结了我们对有限规模数据集的比较。4. 与最新技术实作详细数据。我们所有的模型都是基于最新的最先进的无条件风格-GAN 2 [43] config E构建的，因为它具有高性能和合理的速度。我们充分利用所有改进方案的即插即用优势，严格遵循StyleGAN2官方设置和训练协议，这有助于重复性和公平比较。对于双对比损失，我们首先使用默认的非饱和损失进行大约20个epoch的热身训练，然后切换到使用我们的损失进行训练。数据集。我们使用几个基准数据集，70K形状、统一的材料、统一的颜色、点光源和简单的背景。它带来了与其他常见数据集不同的挑战：具有遮挡、阴影、反射和镜面的合成场景。我们使用256 -256分辨率的图像，这些数据集，除了CelebA和动物脸数据集，用于128 - 128分辨率。我们不使用FFHQ的1024 1024分辨率进行实验，因为训练StyleGAN2基础模型需要9天。相反，我们对上述各种数据集进行了广泛的实验。如果没有特别说明，我们使用整个数据集。评价FID [29]被认为是定量评价发电质量的金标准。我们遵循StyleGAN2 [43]中的协议，报告50K生成图像和50K真实测试图像之间的FID。越小越好。在补充材料中，我们报告了StyelGAN [42]或StyleGAN 2 [43]中提出的各种其他指标，但在其他文献中，感知路径长度，精度，召回率和可分离性。比较。除了StyleGAN 2 [43]之外，我们还比较了一个并行的最先进的研究，U-Net GAN [69]，它是在BigGAN [5]的基础上建立和改进的。我们通过将U-Net适应于更好的Style骨干-GAN 2 [43]来训练U-Net，以进行公平比较，并获得比非FFHQ数据集上的官方发布更好的结果。如表6所示，我们的自我注意力生成器在五个大规模数据集中的四个上有所改善这突出了关注细节和对复杂场景的长期依赖性的好处。然而，自我注意力并没有在广泛研究的FFHQ数据集上得到改善我们的理由是，面部标志对齐的图像预处理补偿了注意力方案的缺乏，这使得以前的工作也忽略了他们在其他数据集上。我们的双对比损失有效地改善了所有的CelebA兽面卧室教会StyleGAN2 [43]9.8436.5519.3311.02+ D中的自关联10.4942.4117.2211.06+ 参考D7.4831.088.327.866738图7.未经策划的生成样本。为了对齐比较，我们使用相同的真实查询图像用于预训练的生成器来重建。来自StyleGAN2的工件用红框突出显示。放大查看详细信息。特别是，我们的一代显着优于CLEVR图像的基线，这些图像强烈依赖于长距离依赖性（遮挡，阴影，反射等）和一致性（一致的阴影方向，一致的镜面反射，规则的形状，均匀的颜色等）。在补充材料中查看更多样本图像中的不连续性、Church图像中的结构中的不连续性以及CLEVR图像中的对象之间的颜色泄漏。5. 结论注意图式与对比研究表6. FID与最先进的GAN在大规模数据集上的比较。我们用粗体突出最好的，用下划线突出第二好的。“w/ attn”表示在生成器中使用自注意。数据集，在CLEVR数据集上提高了37%。这突出了对比学习对广义表示的好处，特别是对对齐的数据集，例如FFHQ和CLEVR，这可以很容易地使传统的鉴别器过拟合。自我注意和对比学习之间的协同效应是显著和一致的，导致CLEVR的相对改善至少17.5%和高达47.5%。特别是对于CLEVR，我们的生成器可以更真实地处理遮挡、阴影、反射和镜面。如图7，我们的方法抑制了之前在StyleGAN2基线输出中可见的伪影，具有红色框，例如，卧室墙上的艺术品学习为GAN的新设计创造了机会。我们的注意力计划作为一个有益的替代本地和固定的卷积，以便配备生成和鉴别器表示与远程自适应依赖关系。特别是，我们的参考注意力判别器在真实参考图像和主图像之间进行合作，减轻了判别器过拟合，并导致在有限规模数据集上的进一步提升此外，我们新的对比损失概括了鉴别器表示，使它们更容易区分真实和虚假，并反过来激励更好的生成质量。确认这项工作得到了 DARPA SAIL-ON （ W 911 NF2020009）计划的部分支持宁宇部分由Twitch ResearchFellowship 提供支持。我们感谢 Tero Karras 、 XunHuang和Tobias Ritschel的建设性建议。方法损失FFHQ卧室教会马ClevrBigGAN [5]Adv11.4----U-Net GAN [69]Adv7.4817.611.720.233.3StyleGAN2 [43]Adv4.864.014.543.919.62StyleGAN2 w/attnAdv5.133.484.383.598.96StyleGAN2Contr3.983.863.733.706.06StyleGAN2 w/attnContr4.633.313.392.975.056739引用[1]Rameen Abdal 、 Peihao Zhu 、 Niloy Mitra 和 PeterWonka。Styleflow：使用条件连续规范化流对stylegan生成的图像进行Arxiv，2020年。1[2]马丁·阿吉奥对凯和莱·恩·博图。这是训练生成对抗网络的原则性方法。在ICLR，2017。3[3] 马丁·阿乔对凯，苏米特·钦塔尔，和Le'onBottou 。Wasserstein生成对抗网络在ICML中。一、二、四[4]Anand Bhattad、Aysegul Dundar、Guilin Liu、AndrewTao和Bryan Catanzaro。单图像纹理3d模型的视图泛化在CVPR，2021年。1[5]安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在ICLR，2018年。一、二、四、七、八[6] JaneBromley，JamesWBentz，Le´onBottou，IsabelleGuyon，YannLeCun，CliffMoore，EduardS¨ckinger，andRoopakShah.使用“连体”时间延迟神经网络的签名验证。IJPRAI，1993年。二、六[7]Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力在CVPR，2017年。2[8]陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架在ICML，2020。二、三[9]Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大型自监督模型是强半监督学习器。在NeurIPS，2020年。二、三[10]Ting Chen，Mario Lucic ，Neil Houlsby，and SylvainGelly.生成对抗网络的自调制。2019年，在ICLR。一、二[11]Ting Chen ， Xiaohua Zhai ， Marvin Ritter ， MarioLucic，and Neil Houlsby.通过辅助旋转损失的自监督gans。在CVPR，2019年。2[12]陆驰，袁泽寰，穆亚东，王长虎。具有分组双线性注意变换的非局部神经网络在CVPR，2020年。2[13]Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。1[14]Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。1[15]Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在CVPR，2005年。二、六[16]Jifeng Dai ， Haozhi Qi ， Yuwen Xiong ， Yi Li ，Guodong Zhang，Han Hu，and Yichen Wei.可变形卷积网络。在CVPR，2017年。2[17]Zihang Dai ， Zhilin Yang ， Yiming Yang ， JaimeCarbonell，Quoc V Le，and Ruslan Salakhutdinov.变压器-xl：超越固定长度上下文的注意语言模型。在ACL，2019年。26740[18]Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。1[19]雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。2[20]Aysegul Dundar，Karan Sapra，Guilin Liu ，AndrewTao，and Bryan Catanzaro.基于全景的图像合成在CVPR，2020年。1[21]Ricard Durall，Margret Keuper，and Janis Keuper.注意你的上卷积：基于CNN的生成式深度神经网络无法再现光谱分布。在CVPR，2020年。1[22]Jun Fu，Jing Liu ，Haijie Tian ，Yong Li ，YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR，2019年。2[23]葛一笑，陈大鹏，朱峰，赵瑞，李洪生.领域自适应目标识别的混合存储器自定步调对比学习。在NeurIPS，2020年。 2[24]伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦 · 库维尔和约舒亚 · 本吉奥。生成性对抗网。NeurIPS，2014。一、二、三、四[25]Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。一、二、四[26]Raia Hadsell，Sumit Chopra，and Yann LeCun. 通过学习一个不变映射来降低维数. CVPR，2006。二、三[27]Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，and Ross Girshick.用于无监督视觉表示学习的动量对比。在CVPR，2020年。2[28]杨河、宁宇、玛格丽特·库柏、马里奥·弗里茨。在光谱之外：通过重新合成检测深度伪造IJCAI，2021年。1[29]MartinHeusel，HubertRamsauer，ThomasUnterthiner，Bern-hard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。7[30]Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络。在ICCV，2019年。2[31]Jie Hu

下载后可阅读完整内容，剩余1页未读，立即下载