Wasserstein散度和WGAN-div：新的优化目标GAN中的挑战和优势

48 浏览量更新于2023-10-13 收藏 1.47MB PDF 举报

生成对抗网络

图像合成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

GANs的Wasserstein散度Jiqing Wu1，Zhiwu Huang1，Janine Thoma1，DineshAcharya1，and Luc Van Gool1， 21瑞士苏黎世联邦理工学院计算机视觉实验室{jwu，zhiwu.huang，jthoma，vangool}@ vision.ee.ethz.ch，acharyad@student.ethz.ch2VISICS，KU Leuven，比利时抽象。在计算机视觉的许多领域中，生成对抗网络（GANs）已经取得了巨大的成功，其中Wasserstein GANs（WGANs）家族由于其理论贡献和具有竞争力的定性性能而被认为是然而，近似Wasserstein-1度量（W-met）所需的k-Lipschitz约束是非常具有挑战性的本文提出了一种新的Wasserstein散度（W-div），它是W-met的一种简化形式，不需要k-Lipschitz约束。作为一个具体的应用，我们引入了一个Wasserstein散度目标GANs（WGAN-div），它可以通过优化忠实地近似W-div。在各种设置下，包括渐进式增长的训练，我们证明了稳定性的建议WGAN-div由于其理论和实践优势WGANs。此外，我们研究了WGAN-div在标准图像合成基准上的定量和视觉性能，显示了WGAN-div与最先进的方法相比的优越性能。关键词：Wasserstein度量，Wasserstein散度，GANs，渐进增长。1介绍在过去的几年里，我们见证了生成式对抗网络（GANs）[1]在各种应用中的巨大成功。GAN是一个有用的生成模型家族，它将生成建模表达为两个网络之间的零和游戏：生成器网络在给定一些噪声的情况下产生似然样本，而鉴别器网络在a处区分生成器的输出和真实样本。仅举几个例子，由原始GANs[2-5]提供了一个新的算法虽然GAN可以产生视觉上令人愉悦的样本，但它们缺乏一种可靠的方法来测量假数据和真实数据分布之间的差异，这导致了不稳定的训练。为了解决这个问题，[6]在GAN框架中引入了Wassestein-1度量（W-met）与Jensen-Shannon（JS）或Kullback-Leibler（KL）散度相比，W-met被认为对低维流形支持的分布更敏感鉴于W-met的原始形式2Wu等人是难以计算的，[6]提出使用W-met的对偶形式，其需要k-Lipschitz约束。提出了一系列想法[6-9]来近似双W-met，并且与基于非Wasserstein的GANs相比取得了令人印象深刻的然而，它们通常遭受针对k-Lipschitz约束的不令人满意的正则化，这主要是因为它是非常严格的约束并且对于近似[9，10]来说是不平凡的。其他研究从不同角度解决了稳定性问题。例如，[10]提出了一种与f散度[11]相关的基于梯度的正则化器，以解决维度错误指定。为了稳定高分辨率图像的训练，[12，13]通过引入额外信息应用了深度堆栈架构。最近，在[7]的双重W-met目标的基础上，[14]提出了一种复杂的渐进式增长训练方案，并获得了出色的高分辨率图像。在本文中，我们建议通过引入放松版本的W-met并将其纳入GAN框架来解决k-Lipschitz约束我们的贡献可归纳如下：1. 我们介绍了一种新的Wasserstein散度（W-div），并证明了建议的W-div是一个对称的分歧。此外，我们探讨了建议的W-div和W-met之间的连接。2. 受益于W-div所需的非挑战性约束，我们引入Wasserstein散度GANs（WGAN-div）作为其实际应用。所提出的目标可以忠实地近似相应的W-div通过优化。3. 我们证明了WGAN-div在各种设置下的稳定性，包括渐进式增长训练。此外，我们进行了各种标准的图像合成基准实验，并提出了优越的结果相比，最先进的方法，定量和定性的WGAN-div。2背景假设有两个玩家在一个游戏中。一个玩家（生成器）打算生成视觉上可信的图像，旨在欺骗其对手，而对手（鉴别器）试图区分真实图像和合成图像。这种对抗性竞争是GAN模型背后的关键思想。为了测量真实和虚假数据分布之间的距离，[1]提出了目标LJS（Pr，Pg）=ExPr[ln（f（x））]+Ex~Pg[ln（1-f（x~））]，（1）这可以解释为JS散度达到常数[15]，其中f是判别函数。因此，该模型可以被定义为最小-最大优化问题：minmaxE [ln（D（x））]+E[ln（1-D（G（z）]，（2）G DxPrG（z）PgGANs的Wasserstein散度3其中G是由神经网络参数化的生成器，并且D是参数化f的判别神经网络。通常，我们设z是低维随机噪声，x，G（z）是满足概率测度Pr，Pg的真实数据和伪数据。Wasserstein GANs（WGANs）。Wasserstein-1度量（W-met）在GAN模型中的兴起主要是由梯度消失问题引起的不稳定训练引起的。给定两个概率测度Pr，Pg，W-met [16]被定义为W1（Pr，Pg）= supE [f（x）]−E[f（x~）]，（3）f∈Lip1xPrx~Pg其中Lip 1是满足1-Lipschitz约束的所有f的函数空间f值得一提的是，如果Lipschitz约束被修改为k，则W1直到正标量k是不变的。W1被认为是更敏感的分布支持的低维流形，如图像，视频等。通常，现有的Wasserstein GAN（WGAN）分为两类：重量限制。为了近似地满足Lipschitz约束，[6]提出了一种权重裁剪方法，该方法对鉴别器D的权重w施加硬阈值c > 0，其在等式中参数化f。第三章：wif|W| 0的极小化问题fp= argminE[f（x）]−E[f（x~）]+1E[f（x）p]，（10）f∈W1，pxPrx~PgpxPu其中Pu是Radon概率测度，W1，p是包含Lp空间中所有具有一阶弱导数的紧函数f的Sobolev空间支持，我们可以找到一个序列pk→ ∞，使得fpk→−f *。GANs的Wasserstein散度5CCCCCCuWC′′u3.1瓦瑟斯坦散度Eq.之间的关系10和W-met启发我们提出了一个新的Wasser-stein散度（W-div），并证明了它确实是一个有效的对称散度。定理1.（Wasserstein散度）设Ω Rn是一个开的、有界的连通集，S是Ω上所有Radon概率测度的集合。如果对于某个p/= 1，k> 0，我们定义′Wp，k：S×S→R−∪{0}（Pr，Pg）→ infE[f（x）]−E[f（x≠0）]+kE[f（x）p]，（11）f∈C1（n）x <$Prx~PgxPu其中C1（Ω）是上所有一阶可微函数的函数空间c′Ω，则Wp，k是对称散度（直到负值符号）。证据参见补充材料。通过引入C1（λ）函数空间，我们排除了具有弱导数的病态函数.与k-Lipschitz约束相比，f∈C1（Ω）的限制较少，因为f不需要被硬阈值限制K.给定通用逼近定理和神经网络的现代体系结构-堆叠可微层以形成非线性可微函数-f∈C1（Ω）可以很容易地由神经网络参数化。在下文中，我们进一步探索所提出的W-div与等式（1）中的原始W-met之间的联系。3.第三章。注1.（上界）给定Radon概率测度Pr，Pg，Pu，令W（P，P）：=infE [f（x）]−E[f（x~）]+1E[（f（x）2]，（12）PURGf∈C∞（Ω）xPrx~Pg2x1000 x 1000x 1000x1000其中C∞是所有光滑函数f的函数空间支持. 对于W1，存在一个最优的f *（等式1）。3）使得W1（Pr，Pg）=ExPr[f*（x）] −Ex~Pg[f（x）]，（13）′一个P*u由f确定，使得′ ′WP*（P r，P g）=sup WP（P r，P g）.（十四）Pu∈S请参阅[19]中的详细讨论。′注1表示WP*乌由最优f_∞确定的，是我们的W-divWP3的上界。3P是Eq.11，具有更严格的函数空间C∞。uu6Wu等人C′′′′′′C考虑到我们提出的W-div和LGP之间的相似性（等式1）。6），知道是否存在对应于LGP的散度可能是有趣的。总的来说，答案是否定的。备注2. 如果对于n >0，我们令W（P，P）：=infE[f（x）]−E[f（x≠0）]+kE[（f（x）−n）p]，（15）p，k，nrgf∈C1（n）x<$Prx~PgxPu′′则Wp，k，n一般不是散度。反例。假设Ω=（−1，1）且p=2，则足以证明W2， k ， n（ Pr ，Pg ）=/Pr=Pgalmosteveryywhere. 如果ExPr[f（x）]和Ex~Pg[f（x ~）]可以满足，则在给定W2，k，n（Pr，Pg）=0时，f（x）u在（−1，1）上等于n，这意味着f是仿射的，与紧支撑约束相矛盾。对于m维集合如（-1，1）m和偶数个整数p，证明了Picard-Lindeléof定理的唯一性，证明了f只能是仿射的.′′注释2暗示了相应的似然统计距离W2，k，1等式6既不是散度，也不是有效的度量。3.2Wasserstein散度GANs虽然W-met具有提供有用梯度的诱人特性，但实际上，在不施加严格的1-Lipschitz约束的情况下，W-met的ExPr[f（x）]-Ex〜Pg[f（x〜）]上的原始f或mul相比之下，使用我们提出的W-div作为目标非常简单。因此，我们引入了Wasserstein散度GANs（WGAN-div）。我们的目标可以平滑地推导为LDIV=ExPr[f（x）]−Ex~Pg[f（x≠0）]+kExPu[f（x）p]，（16）这与没有下确界的W-div的公式相同尽量减少′LDIV忠实地近似Wp，k，在某种意义上，LDIV的减小指示′更好的近似Wp，k。相比之下，降低LGP不需要-通常意味着LGP更好地近似W1，因为可以以违反梯度惩罚项为代价来减小LGP（六）。通过将我们的目标LDIV结合到GAN框架中，连同由鉴别器D参数化f∈C1min maxE[D（G（z））]−E[D（x）]−kE[xD（x）p]，（17）GDG（z）PgxPrxPu其中，x是在a处的真实值，并且x被执行为真实和虚假数据点的一个独立的组合。关于抽样策略的更多研究，我们建议读者参考我们的补充材料。如Alg中所1.一、遵循[7]的良好实践，我们的构建块为D和GANs的Wasserstein散度7（（1J1算法1提出的WGAN-div算法需要：批量大小m、生成器G和鉴别器D、幂p、系数k、训练迭代次数n和其他超参数1：fori← 1 ton do2：样本实际数据xl，. . . ，xm，从Pr3：采样高斯噪声z1，. . . ，zm从N（0，1）4：样本向量μ =（μ1，. . . ，μm）从均匀分布U [0，1]中得到5：xj=（1−µj）xj+µjG（zj）6：通过以下方式更新GΣofG的数据：wG←Adam（wGmMj=1 D（G（zj））），wG，α，β1，β2）7：通过以下方式更新D的最新数据：wD←Adam（wDmMj=1 D（xj）−D（G（zj））+kxD（xj）p），wD，α，β1，β2）8：结束生成器核大小重采样输出形状噪声––128线性––512× 4× 4残余块[3×3] × 2起来512× 8× 8残余块[3×3] × 2起来256×16 × 16残余块[3×3] × 2起来128×32 × 32残余块[3×3] × 2起来64× 32× 32孔夫山3 ×3–3× 64× 64鉴别器Conv3 ×3–64× 64× 64残余块[3×3] × 2下来128×32 × 32残余块[3×3] × 2下来256×16 × 16残余块[3×3] × 2下来512× 8× 8残余块[3×3] × 2下来512× 4× 4线性––1表1. 用于生成64× 64图像的WGAN-div的默认架构wgan-GPCTGANWGAN-div0.020.040.040.020.030.030.010.020.01表2.在Swiss Roll、8高斯和25高斯上对生成的样本（绿点）和真实样本（黄点）进行还绘制了鉴别器的值G是残差块[20]。WGAN-div的默认架构在Tab. 1.我们应用Adam优化[21]来更新G和D。我们将在下一节中研究关键的超参数，如系数k和幂p。8Wu等人Fig. 1. FID与迭代（左上）、鉴别器成本与迭代（顶部右）、FID与功率p（左下角）和FID与CelebA上的WGAN-div的系数k（右下）。4实验在本节中，我们在玩具数据集和三个广泛使用的图像数据集-CIFAR-10，CelebA [22]和LSUN [23]上评估WGAN-div。作为初步评估，我们使用低维数据集，例如瑞士卷，8高斯和25高斯来证明我们提出的W-div可以比WGAN-GP和CTGAN使用的W-met更有效地学习，就鉴别器D的更有意义的值表面而言，即f，以及更好地生成数据分布（Tab.2）的情况。同时，三个大规模数据集突出了WGAN-div应该解决的各种挑战，对它们的评估足以支持WGAN-div的优势。最近，[24]指出，初始分数（IS）[25]是不可靠的，因为它不包含真实图像样本的统计数据。作为一种替代方法，它可以根据真实数据分布和伪数据分布之间的差异来确定Fr´echetitinceptiondisance（FID）实验证明，FID评分与人类的视觉判断一致。后来，[26]对基于FID的最先进GAN进行了全面研究，证实FID提供了更公平的评估。因此，我们认为FID得分作为评估我们的方法的主要标准。此外，提供视觉结果作为验证的补充形式。我们将WGAN-div与最先进的DCGAN [2]，WGAN-GP [7]，RJS-GAN[18]，CTGAN [9]，SNGAN [8]和PGGAN [14]进行比较。为每个方法，我们应用默认的架构和hyperparamters推荐他们的论文。WGAN-div的G和D的默认架构遵循ResNet设计[20]，如Tab. 1.我们使用Adam优化[21]来更新G和D，学习率为0。0002对于所有三个数据集。CelabA和CIFAR-10的训练步骤数为100000，LSUN的训练步骤数为200000通过交叉验证，我们确定每个训练步骤D的迭代次数对于CelebA和LSUN为4，对于CIFAR-10为5。GANs的Wasserstein散度94.1超参数研究我们展示了两个重要的超参数-功率p和系数k-对我们的WGAN-div方法的影响。它们都控制L DIV的梯度项。我们在图的底行报告了64 × 64CelebA数据集上获得的FID评分。1.对于固定的最优p=6和变化的k，图1示出了LDIV对k的变化不敏感，其中FID分数在16附近轻微波动。另一方面，对于固定的k=2和变化的p，我们在p=6处获得最佳FID，这不同于WGAN方法中应用的常见选择p=2。fp（Eq.10)当p变得更大时收敛到最佳鉴别器可以解释为什么LDIV倾向于更大的功率p.总而言之，我们的默认p，k被确定为p=6和k=2。4.2稳定性研究在本节中，我们将评估我们的方法对架构变化的稳定性在这种情况下，我们为WGAN-div、WGAN-GP和RJS-GAN应用各种架构设置，它们代表三种类型的统计距离：W-div、W-met和f-散度。我们使用两种标准架构来训练这些方法-DCGAN [2]使用的ConvNet和WGAN-GP [7]使用的ResNet [20]。由于批量归一化[27]（BN）被认为是稳定训练过程[2]的关键因素，因此我们还评估了没有BN的FID。我们总共使用四种设置：ResNet、无BN的ResNet、ConvNet和无BN的ConvNet。如Tab.所示。在图3中，每列报告在相同结构下获得的目视和FID结果。我们的WGAN-div在所有四种设置下都获得了最佳FID分数。选项卡. 3也具有相应的视觉效果。与WGAN-GP和RJS-GAN相比，WGAN-div产生的图像在视觉上更令人愉悦，并且在不断变化的设置下视觉质量保持更稳定。该实验研究证实了我们的W-div及其相同的目标LDIV所获得的优势。4.3标准化培训方案的评价在这个实验中，我们打算通过排除微调训练策略造成的影响来公平地比较各种GAN的性能为此，我们遵循标准，即：非增长的训练方案，其在整个训练过程中固定鉴别器和生成器的大小和结构我们计算DCGAN、WGAN-GP、RJS-GAN、CTGAN和WGAN-div的FID分数。根据作者的建议设置比较方法的配置。结果报告在表1中。4.第一章WGAN-div在比较的方法中达到了最好的FID分数，这定量地证实了我们方法的优势。虽然WGAN-div的FID得分在数据集CIFAR-10上略微优于最先进的方法，但它在更大规模的数据集CelebA和LSUN上表现出更明显的改进类似地，图1B中所示的面部结果2告诉我们，WGAN-div在以下方面优于比较方法10Wu等人ResNet无BN的ConvNet无BN的wgan-GP18.420.321.224.6RJS-GAN 21.4 23.2 21.7 22.4WGAN-div 15.2 18.6 17.5 21.5表3.CelebA上各种架构的FID评分和定性比较to diversity多样性and semantics语义.例如图图2显示了WGAN-div生成的不同面孔，包括性别、年龄、面部表情和化妆。我们可以在LSUN上得出同样的结论建议的WGAN-div优于比较的方法，具有相当大的利润，定量和定性。例如，WGAN-div在LSUN上的FID得分为15.9，比CTGAN低4.4， CTGAN已经是WGAN-GP的改进版本，引入了额外的正则化器来增强WGAN-GP。图中所示的视觉上合理的卧室的例子。2进一步突出了通过在GAN模型中引入W-div所获得的优点。对于潜在空间中的插值结果，请查看我们的补充材料。图的最上面一行。1报告了比较方法的学习曲线，表明我们的WGAN-div的训练过程相对稳定，收敛速度快。它以少于60K的迭代次数获得了最高的FID分数图1的右上图。图1说明了图像质量和成本之间有意义的相关性。值得一提的是，[24]提出了一种两个时间尺度的更新方法，以普遍改善各种GAN的训练我们相信WGAN-div也可以从这种复杂的更新规则中受益。但由于篇幅所限，这有待于进一步研究。GANs的Wasserstein散度11CT-GAN RJS-GAN WGAN-GP WGAN-div图二. WGAN-div和比较方法在CelebA（顶行）、LSUN（中间行）和CIFAR-10（底行）上的视觉结果。CIFAR-10 CelebA LSUNDCGAN [2]30.952.061.1WGAN-GP [7]18.818.426.8RJS-GAN [9]19.621.416.7CTGAN [9]18.616.420.3[8]21.7*--WGAN-div18.115.215.9表4. WGAN-div和最先进方法之间的FID比较。带 * 的结果取自原始论文[8]。4.4渐进式成长训练方案受PGGAN [14]的成功启发，PGGAN [14]以渐进增长的方式训练了基于W-met的GAN模型，我们评估了我们的目标LDIV如何使用这种复杂的训练方案进行更具体地说，我们用LDIV替换LPG，同时遵循[14]中建议的默认配置，并提出PGGAN-div。然而，计算该实验设置的FID分数是具有挑战性的，因为调整现有的FID模型用于评估是不平凡的。12Wu等人分辨率CelebA LSUNPGGAN 64 ×6416.317.8PGGAN-div64 ×6416.016.5PGGAN 128 ×12814.115.4PGGAN-div128 ×12813.515.5PGGAN 256 ×256-15.1PGGAN-div256 ×256-14.9表5.不同分辨率下PGGAN-div和PGGAN之间的FID比较从而生成更高分辨率的图像。由于[14]没有详细说明如何计算更高分辨率图像的FID分数，因此我们建议将更高分辨率的图像缩小到64×64分辨率，然后计算FID分数。所得评分报告于表1中。五、有趣的是，Tab。5显示，对于低分辨率图像，PGGAN的FID得分比表1中报道的一些顶级方法之一稍差。4，包括WGAN-div。我们认为，这种现象并不令人惊讶。由于在低维空间中学习数据分布相对容易，因此应用标准训练方案足以实现良好的FID分数。在低维阶段不需要引入复杂的渐进增长策略另一方面，对于更高分辨率的图像（128× 128和256×256），PGGAN和PGGAN-div的FID评分均以不可忽略的裕度降低。值得一提的是，我们的PGGAN-div比原始PGGAN稍微提高了FID分数，证明了我们的目标LDIV在复杂的训练方案下的稳定性。我们还展示了CelebA-HQ的256 × 256视觉结果（图11）。3）和LSUN（图4）. 由于CelebA-HQ是通过后处理CelebA [14]生成的人工后处理算法。图中的视觉结果。图3和图4表明，与两个数据集的原始PGGAN相比，我们的PGGAN-div非常有竞争力。总之，我们证明了在这个训练计划下我们的W-div目标的稳定性。5结论在本文中，我们介绍了一种新的Wasserstein散度，它不需要1-Lipschitz约束。作为一个具体的例子，我们为 GAN 模型配备了我们的Wasserstein散度目标，从而产生了WGAN-div。FID得分和定性性能评价都表明了所提出的WGAN-div的稳定性和优越性。谢谢。我们要感谢Nvidia捐赠了这项工作中使用的GPUGANs的Wasserstein散度13图三. CelebA-HQ上PGGAN（顶部）、PGGAN-div（底部）的视觉结果14Wu等人图4.第一章256× 256 LSUN上PGGAN（顶部）、PGGAN-div（底部）的目视结果GANs的Wasserstein散度15引用1. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。（2014年）2. Radford，A. 梅斯湖 Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。arXiv预印本arXiv：1511.06434（2015）3. Berthelot，D.，Schumm，T.，梅斯湖：BEGAN：边界均衡生成对抗网络。arXiv预印本arXiv：1703.10717（2017）4. 毛泽东，李，Q.，谢，H.，Lau，R.Y.，王志，Smolley，S.P.：最小二乘生成对抗网络。arXiv预印本ArXiv：1611.04076（2016）5. 赵，J，Mathieu，M.，LeCun，Y.：基于能量的生成对抗网络。arXiv预印本arXiv：1609.03126（2016）6. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络在：ICML。（2017年）7. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进的流跟踪。 In：NIPS. （2017）57678. Miyato，T.，Kataoka，T. Koyama，M.，Yoshida，Y.：生成对抗网络的谱归一化。arXiv预印本arXiv：1802.05957（2018）9. 魏，X.，Gong，B.，刘志，卢伟，Wang，L.：改进瓦瑟斯坦甘斯的改良训练：一致性项及其双重效应。In：ICLR. （2018年）10. Roth，K.，Lucchi，A.，诺沃津，S.，霍夫曼，T.：生成型驱动器的稳定化训练是一项跨区域的任务。 In：NIPS. （2017年）201511. 诺沃津，S.，Cseke，B.，富冈，R.：f-gan：使用variatinaldivencemim imizatin训练生成神经采样器。 In：NIPS. （2016）27112. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，黄，X.，王，X.，Metaxas，D.：Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。In：ICCV. （2017年）13. 黄，X.，李，Y.，Poursaeed，O.，Hopcroft，J.，Belongie，S.：堆叠生成对抗网络。arXiv预印本arXiv：1612.04357（2016）14. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。arXiv预印本arXiv：1710.10196（2017）15. Arjovsky，M.，Bottou，L.：训练生成对抗网络的原则性方法。在：NIPS研讨会。卷2016.（2017年）16. Villani，C.：最佳运输：新旧第338卷。05 The Dog of the Woman（2008）17. 卡拉基达河Amari，S.i.：瓦瑟斯坦散度的信息几何。信息几何科学国际会议，Springer（2017）11918. 罗斯河Timofte河，古尔，L.V.：从没有面部标志的单个图像中对真实和明显年龄的深度期望。 International Journal of Computer Vision（IJCV）（2016年7月）19. Evans，L.C.：偏微分方程与蒙格-康托洛维奇传质。《现代数学发展》1997（1）（1997）6520. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：CVPR. （2016）77021. Kingma，D. Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）22. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性。In：ICCV.（2015年）16Wu等人23. 余，F.，Seff，A.，张玉，Song，S.，Funkhouser，T.，Xiao，J.：Lsun：使用深度学习构建大规模图像数据集，其中人类处于循环中。arXiv预印本arXiv：1506.03365（2015）24. Heusel，M.，Ramsauer，H. Unterthiner，T.，内斯勒湾Hochreiter，S.：由两个时间尺度更新规则训练的 GAN 收敛到局部纳什均衡。 In ： NIPS.（2017）662925. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：我为训练营准备了一个检查问题。 In：NIPS. （2016）223426. Lucic，M.，Kurach，K.，Michalski，M.，Gelly，S.，Bousquet，O.：GAN是平等的吗？一项大规模的研究arXiv预印本arXiv：1711.10337（2017）27. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167（2015）

下载后可阅读完整内容，剩余1页未读，立即下载