基于U-Net的生成对抗网络的全局和局部相干图像合成

3 浏览量更新于2023-10-25 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8207基于U-Net的生成对抗网络埃德·加尔·申菲尔德博世人工智能中心edgar. bosch.com伯特·席勒马克斯·普朗克信息学schiele@mpi-inf.mpg.com安娜·霍雷娃博世人工智能Anna. bosch.com摘要生成对抗网络（GANs）面临的主要挑战之一是合成全局和局部相干图像的能力，这些图像具有与真实图像无法区分的对象形状为了解决这个问题，我们提出了一种替代的U-网络的歧视，- tor架构，借用的见解，从分割文献。所提出的基于U-Net的架构允许向生成器提供详细的每像素反馈Em-由每个像素的响应驱动，我们进一步提出了一种基于CutMix数据增强的每个像素一致性正则化技术，培训期间的进步房假使用U-Net分析，更多地关注真实和虚假图像之间的语义和结构变化。这改进了U-Net训练，进一步提高了生成样本的质量。该新方法在标准分布和图像质量度量方面优于现有技术，使生成器能够合成具有不同结构、外观和细节水平的图像与BigGAN基线相比，我们实现了平均2. 7个FID点横跨FFHQ、CelebA和COCO-Animals数据集1. 介绍生成对抗网络（GAN）生成的合成图像的质量最近有了巨大的改善[5，20]。这一进展归功于大规模训练[32，5]，架构修改[50，19，20，27]，以及通过使用不同的正则化技术[34，51]提高训练稳定性。然而，尽管最近取得了进展，学习合成具有全局语义一致性，长程结构和细节精确性的图像仍然具有挑战性。问题的根源之一可能在于歧视-图1：我们在U-Net GAN模型（顶行）及其对应的U-Net GAN的每像素反馈（底行）。在不同的训练迭代中从固定的噪声向量获得合成图像样本较亮的颜色对应于像素为真实的较低置信度（较暗的颜色对应于像素为假的较低置信度）。注意，U-Net鉴别器向发生器提供非常详细和空间相干的响应，使其能够进一步提高图像质量，例如：不自然的大的人的前额被训练器识别为假的，并且在整个训练过程中由发生器校正。inator网络该方法的目标是对数据分布进行建模，作为一个损失函数，为生成器提供一个学习信号，以合成逼真的图像样本。发电机的功率越大，发电机就必须变得越好。在当前最先进的GAN模型中，作为分类网络的分类器仅学习允许基于真实图像和合成图像之间的最具区别性的差异来有效地惩罚生成器的表示。因此，它往往侧重于全球结构或局部细节。当机器人必须在一个非静止的环境中学习时，8208ronment：合成样本的分布随着生成器在训练过程中不断变化而变化，并且容易忘记以前的任务[7]（在判别器训练的上下文中，学习语义、结构和纹理可以被认为是不同的任务）。该方法不被激励来保持更强大的数据表示，学习全局和局部图像差异。这通常会导致生成的图像具有不连续和斑驳的局部结构[27]或具有不连贯的几何和结构图案的图像（例如，不对称的脸或缺少腿的动物）[50]。为了缓解这个问题，我们提出了一种替代的判别器架构，它同时输出全局（整个图像）和局部（每像素）的图像属于真实或假类的决定，见图1。从分割文献的想法的动机，我们重新设计了一个分类器和分割器的作用。我们将 WNN 网络的架构更改为 U-Net[39]，其中编码器模块执行每图像分类，如标准GAN设置中那样，解码器模块输出每像素类别决策，为生成器提供空间相干反馈，参见图2。这种架构变化导致更强大的数据流，这是为了保持更强大的数据表示，使生成器的任务欺骗数据流更多的数据流，从而提高生成的样本的质量（也反映在图S1中的生成器和数据流损失行为）。请注意，我们没有以任何方式修改生成器，并且我们的工作与正在进行的关于生成器的架构更改[20，27]，发散度量[25，1，37]和正则化的研究正交。[40，15，34].所提出的基于U-Net的增强允许采用最近引入的CutMix [47]增强，其被证明对分类网络有效，用于解码器的二维输出空间中的一致性正则化。受[47]的启发，我们将真实图像和合成图像中的补丁剪切并混合在一起，其中地面真实标签映射相对于分割器（U-Net解码器）的真实和假补丁类在空间上进行组合，并且分类器（U-Net编码器）的类标签被设置为假，因为在全局上CutMix图像应该被识别为假的，参见图3。通过U-Net的逐像素反馈，我们进一步采用这些CutMix图像进行一致性规则化，惩罚CutMix变换下的逐像素不一致预测。这促使算法更多地关注真实图像和伪图像之间的语义和结构变化，而较少关注域保持扰动。此外，它还有助于提高解码器的本地化能力使用所提出的一致性正则化会导致更强的生成器，更注重局部和全局图像的真实感。我们称之为U-Net GAN。我们使用最先进的BigGAN模型[5]作为基线，在多个数据集上评估了所提出的U-Net GAN模型，并观察到生成的样本在FID和IS指标方面的为在FFHQ [20]上以256×256的分辨率进行无条件图像合成时，我们的U-Net GAN模型比BigGAN模型提高了4个FID点，合成了高质量的人脸（见图4）。在CelebA[29]上，在分辨率为128×128时，我们实现了1。6点FID增益，达到最佳效果据我们所知，最低的FID评分为2分。九十五为在分辨率为128×128的COCO- Animals数据集[28，24]上进行类条件图像合成，我们观察到FID从16改善。三十七比十三73，合成不同动物类别的不同图像（见图5）。2. 相关工作生成对抗网络。GAN [14]及其Conventional变体[33]最近在不同的计算机视觉任务上展示了令人印象深刻的结果，包括图像合成[38，50，19，5，20，27，10]。已经做出了大量努力来改善GAN的训练和性能，从目标函数的重新制定[31，1，26，37]，不同正则化的集成，技术[51，34，40，48]和架构变更[38、19、13、27]。为了提高生成样本的质量，[38]引入了DCGAN架构，该架构采用了步幅和转置卷积。在SAGAN [50]中，添加了自注意块以提高网络建模全局结构的PG-GAN [19]建议同时增长生成器和网络，以提高生成图像的分辨率。其他工作主要集中在通过利用多个[36，13，11]和多分辨率[45，42]鉴别器，使用鉴别器的空间反馈[17]，具有对发生器的基于重建的反馈的自动编码器架构[52]或自我监督以避免灾难性遗忘[7]来改善鉴别器最近，注意力已经转回发电机网络。Style- GAN [20]提出通过向每个卷积层注入潜在代码来改变生成器架构，从而允许对图像合成过程进行更多控制。COCO-GAN [27]将条件协调机制集成到生成器中，使图像合成高度可并行化。在本文中，我们建议将鉴别器网络改为基于U-Net的架构，使鉴别器能够更好地捕获全局和局部结构，并通过逐像素鉴别反馈实现。局部反馈也通常通过PatchGAN鉴别器应用[18]。我们的U-Net GAN将这一想法扩展到整个图像平面上的密集预测，视觉信息在上下方向上进行整合8209采样路径并通过编码器-解码器跳过连接，而不会在局部真实性和全局真实性之间进行权衡。混合切割正则化最近，一几简单而已经提出了有效的正则化技术，其基于通过经由混合或/和切割来自不同类别的样本来创建合成图像来增强训练数据。在MixUp [49]中，输入图像及其目标标签使用相同的随机选择的因子进行插值。[43]通过不仅在输入层中而且在中间层中执行插值来扩展[49]。CutOut [9]通过将矩形区域掩蔽为零来增强图像。显然，CutMix [47]通过从不同类别的图像样本中剪切和粘贴补丁来创建合成图像，从而增强训练数据，结合了MixUp和CutOut的最佳方面。其他作品采用Mix Cut方法进行一致性正则化[44，4，51]，即惩罚分类网络对通过MixUp或CutOut生成的样本的敏感性[49，9]。在我们的工作中，我们提出了一致性正则化下的CutMix变换在我们的U-Net鉴别器的像素输出空间。这有助于提高其定位质量，并引导其关注真实区域和伪区域之间的非歧视性差异。3. U-Net GAN模型“vanilla”GAN由两个网络组成：- 生成器G和CJD，通过以交替方式最小化以下竞争目标来训练：X真/假真/假DUENCDUDecGzG（z）图2：U-Net GAN。建议的U-Net鉴别器在全局和局部每像素水平上对输入图像进行分类。由于编码器和解码器之间的跳跃连接解码器输出中较亮的颜色对应于像素为真实的置信度（以及较暗的假置信度）。U-Net的本地化质量降低，并使其更多地关注真实和虚假样本之间的语义和结构变化。我们称之为U-NetGAN。请注意，我们的方法与大多数GAN模型兼容，因为它不会以任何方式修改生成器，并且保持原始GAN目标不变。3.1. 基于U网的判别器编码器-解码器网络[2，39]构成了密集预测的强大方法。[39]第三十九话LD=−Ex[logD（x）] −Ez[log（1 −D（G（z）]，L G= −Ez[log D（G（z））]1。（一）已经在许多复杂的图像分割任务中展示了最先进的性能。在这些方法中，类似于图像分类网络，编码器逐步地G的目的是映射一个潜在变量zp（z），一个先验分布到一个真实的图像，而D旨在区分真实的x和生成的G（z）图像。通常，G和D分别被建模为解码器和编码器卷积网络虽然GAN目标函数及其网络架构有许多变化[23，30]，但在本文中，我们专注于改进鉴别器网络。在第3.1节中，我们建议将D架构从标准分类网络更改为编码器-解码器网络– U-Net [39]，留下了D的底层基本架构– 编码器部分建议的数据库允许保持全球和本地的数据表示，提供更多的信息反馈的生成器。EM-由U-Net解码器模块的局部每像素反馈提供动力，在第3.2节中，我们进一步提出了一种一致性正则化技术，在真实和虚假图像的CutMix变换[47]这有助于提高1该公式最初在[14]中作为非饱和（NS）GAN提出。下采样输入，捕获全局图像上下文。解码器执行渐进式上采样，使输出分辨率与输入分辨率相匹配，从而实现精确定位。跳过两个模块匹配分辨率之间的连接路由数据，进一步提高了网络准确分割精细细节的能力类似地，在这项工作中，我们提出了扩展一个判别器，以形成一个U-网络，通过重用的原始分类网络的构建块作为编码器部分和生成器网络的构建块作为解码器部分。换句话说，该网络现在由原始的下采样网络和新的上采样网络组成。这两个模块通过瓶颈连接，以及跳过连接，该连接复制并连接来自编码器和解码器模块的特征图，遵循[39]。我们将把这一点称为DU。而原始D（x）分类输入图像x分为真实和虚假，U-网DU（x）此外，在每像素的基础上执行该分类SIS，将图像X分割成真实和虚假区域，连同来自编码器的X的原始图像分类8210ENCENCENCENCENCDecDecDecDecDecENC参见图2。这使得鉴别器能够学习真实图像和假图像之间的全局和局部差异。在下文中，我们参考原始图像真假卡拉斯·D·U和引入的解码器模块，作为DU. 现在新的交易可以通过-真/假DecU U比率r0.28 0.68 0.31 0.51通过Denc和Ddec的决定得出：LDU=LDUUDec、（二）掩模M与Eq类似。1编码器LDU的损失为从DU的标量输出计算：U UCutMixUENC =−Ex[logDenc（x）]−Ez[log（1−Denc（G（z）]，（3）图像解码器的损失计算为平均值对所有像素的决策：ΣΣΣUDecsegm.UDec=−Exi、jlog[DU（x）]i，j地图ΣΣΣUENC课0.36 0.43-Ezi、jlog（1−[DU（G（z））]i，j）。（四）评分图3：CutMix增强的可视化，这里，[DU（x）]i，j和[DU（G（z））]i，j是指像素（i，j）处的判别器决策。这些每像素输出的U-Net公司在CutMix图像上的预测。第一行：真假样品。第2和第3行：采样的真实/假CutMix比率r和对应的二进制UDec是基于全球信息从高-面罩M（颜色代码：白色为真，黑色为假）。月4级别功能，通过上采样从瓶颈，以及更多的本地信息，从低级别的功能，介导的跳过连接从中间层的编码器网络。相应地，生成器目标变为：行：从真实和假样本生成CutMix图像。第5行和第6行：DU的对应真/假分割图及其预测的分类分数。CutMix增强通过剪切ΣLG=−EzlogDU（G（z））Σ+i、jlog[DU（G（z））]i，jΣ、（五）并从不同类别的图像中粘贴补丁。我们在其他混合切割策略中选择CutMix（参见第2节），因为它不改变用于混合的真实和虚假图像块，与[49]相反，保留其原始类域，并提供各种可能的输出。鼓励生成器在合成图像时同时关注全局结构和局部细节，以欺骗更强大的CMDU。推杆我们在图3中可视化了CutMix增强策略和DU预测。在[47]之后，我们合成一个新的训练样本3.2. 一致性正则化在这里，我们提出了一致性正则化技术，用于上一节中介绍的基于U-Net的鉴别器经过良好训练的DU判别器的每像素决策在图像的任何类域改变变换下都应该是等变的。但是，此属性没有明确保证。为了实现它，鉴别器应该被正则化，以更多地关注真实和假样本之间的语义和结构变化，而不太注意任意的类域保持扰动。因此，我们提出了一致性正则化的DU，明确鼓励解码器+LDLDDLDDD8211ENCDec通过混合x和G（z）∈RW×H×C（带面罩M）：x=mix（x，G（z），M），（6）mix（x，G（z），M）=M<$x+（1−M）<$G（z），其中，M∈{0，1}W×H是指示像素（i，j）是来自真实（Mi，j=1）图像还是来自伪（Mi，j=0）图像的二进制掩码，1是用1填充的二进制掩码，并且⊙是元素乘法。与[47]相比，用于n_w CutMix图像x_w的类标签c∈{0，1}被设置为假的，即，c=0。在全局上，混合合成图像应该被编码器DU识别为假的，否则生成器可以学习引入CutMix模块DU输出下的同变预测增加到生成的样本中，导致不期望的实际和fak e样本的CutMix变换[ 47 ]。艺术作品。注意，对于合成样品x，c=0且M8212DecDecDecENCDUW*HDecDecENC分别是HDU的编码器和解码器模块的基础真值给定等式2中的CutMix操作6、我们训练的是...克里姆岛供应商;供应商tpe r-pi x el预测，i. 你好因此，解码器架构几乎与生成器相同，除了我们将最终输出的通道数从3改为ch，附加最终1×1卷积块，以产生1×H×W输出UDecmix（x，G（z），M）混合DU（x），DU（G（z）），M，map，不要使用类条件BatchNorm [8，12]通过引入一致性正则化损失项，联合国的目标是：¨。ΣLconu在解码器中，也不在编码器中。 [15]我是一个很好的人。将类信息提供给DU，并将其投影到U-Net编码器和解码器输出的ch[5]与[6]相对UDec=-Ddecmix（x，G（z），M）.Σ¨2乌乌我们发现不使用分层潜在空间而是直接将相同的输入向量z馈送到BatchNorm-混合 Ddec（x），Ddec（G（z）），M（7）在发电机的每一层。最后，我们还删除了其中，表示L2范数。然后，在剪切混合图像上的DU的每像素输出与剪切混合图像上的DU的输出之间的剪切混合之间取得该一致性损失。真实和虚假的图像，惩罚不一致的预测。我们在等式中加入损失项7到Eq中的目标2具有加权超参数λ：在编码器和解码器中的自注意层，因为在我们的实验中，它们对性能没有贡献，但会导致内存开销。虽然原始的BigGAN是一个类条件模型，但我们还为我们的实验设计了一个不一致的版本。对于无条件模型，我们将类条件 BatchNorm 替换为自调制 [6] ，其中BatchNorm参数仅在潜在向量z上有条件，并且不使用类LDU=LDUUDec+λLcons..（八）Dec[35]在《易经》中，所有这些修改都给我们留下了一个双头蝶-发电机目标LG保持不变，见等式五、除了所提出的一致性正则化之外，我们还使用CutMix样本来训练DU的编码器和解码器模块。请注意，对于U-Net GAN，我们使用非饱和GAN目标公式[14]。然而，引入的一致性正则化以及U-Net架构可以与任何其他对抗性损失相结合[1，26，37]。3.3. 执行在这里，我们讨论第3.1节和第3.2节中提出的U-NetGAN模型的实现细节。基于U-Net的我们建立在最近最先进的BigGAN模型[5]的基础上，并通过我们提出的更改扩展其识别器。针对256 ×256，(and128×128）分辨率，通道倍增器ch=64，如[5]中详细描述的。原始的BigGAN识别器将输入图像下采样为16ch×4×4维的特征图，在其上应用全局和池来导出16ch维的特征向量，该特征向量被分类为真实或虚假。为了让这位不-criminator到一个U-Net中，我们复制生成器架构并将其附加到判别器的 4×4 输出。实际上，特征通过ResNet 块连续上采样，直到达到原始图像分辨率（H×W 为了完成U-Net，每个de的输入coder ResNet block is concatenated to the output featuresof the encoder blocks that share the same intermediate reso-lution. 以这种方式，高级和低级信息在到输出特征图的途中被有效地集成。罪犯我们计算GAN损失在两个头部具有相同的权重。类似于BigGAN，我们在所有基本的U-Net模型中保留了铰链损失[50]，而在解码器输出空间中也采用一致性正则化的模型受益于使用非饱和损失[14]。我们的实现建立在原始BigGAN PyTorch实现2的基础上。一致性正则化对于每个训练迭代，以概率pmix创建一小批CutMix图像（xx，c=0，M）。该概率从0线性增加到0。5之间的前n个时期，以便给generator的时间来学习如何合成更真实的样本，而不是给了太多的权力，从一开始的发电机CutMix图像是使用二进制掩码从小批量中现有的真实和虚假图像创建的M.对于采样M，我们使用原始的CutMix实现3：首先从均匀分布（0，1）对真实图像和生成图像之间的组合比率r进行采样，然后对x和G（z）的裁剪区域的边界框坐标进行均匀采样以保持r比率，即r = 0。|M|（见图3 ）。Binary masks M also denote the target for thedecoder DU , while we use fake,即c=0，作为编码器DU的目标。我们设λ=1。0，因为经验表明这是一个很好的选择。请注意，一致性正则化在训练期间不会带来太多开销。额外的计算成本仅来自通过判别器馈送额外的CutMix图像，同时更新其参数。2https://github.com/clovaai/CutMix-PyTorchhttps://github.com/ajbrock/BigGAN-PyTorchDD+LD8213图4：当在潜在空间中插值时，在FFHQ上使用U-Net GAN生成的分辨率为256×256的图像（从左到右）。注意高质量的合成样本和非常平滑的插值，保持全局和局部真实感。4. 实验4.1. 实验装置数据集。我们考虑三个数据集：FFHQ [20]、CelebA[29]以及包含动物类的COCO [28]和Open- Images [24]图像的子集，我们将进一步将其称为COCO-动物。我们使用FFHQ和CelebA进行无条件图像合成，使用COCO-Animals进行类条件图像合成，其中使用class标签我们对FFHQ的分辨率为256×256，对CelebA和COCO动物的分辨率为128×128CelebA是一个包含200k张图像的人脸数据集，包含了10000个不同的名人，他们有着各种各样的面部姿势和表情。同样，FFHQ是一个更新的数据集，人脸，由70k高质量图像组成，在年龄，种族，配件和视点方面具有更高的变化。所提出的COCO-Animals数据集由属于10个动物类的约38k个训练图像在这里，我们选择COCO和OpenImages（使用hu-具有掩码注释的人验证子集）类别为鸟、猫、狗、马、牛、羊、长颈鹿、斑马、大象和猴子的样本。由于其相对较小的尺寸和每个类别的图像数量不平衡，以及由于其姿势，形状，对象数量和背景的变化，COCO-Animals为类别条件图像合成提出了一项具有挑战性的任务。我们选择组成这个数据集，以执行条件图像生成，在中到高分辨率范围内，具有合理的计算预算和可行的训练时间。这个大小顺序的其他数据集每个类的例子太少（例如AwA [46]）或类间和类内变异性太小。相比之下，COCO- Animals的类内可变性对于某些类来说非常高，例如。鸟类和猴子，它们跨越了许多亚种。有关更多详细信息，请参阅补充材料中的D节和E评估指标。对于定量评估，我们使用Fre'chetInception距离（FID）[16]作为主要指标，并额外考虑Inception评分（IS）[41]。在两者之间，FID是一种更全面的度量标准，在评估生成图像的真实性和变化方面，它已被证明与人类评估更一致[16]，而IS则受到Inception分类器可以识别的内容的限制，这与其训练数据直接相关[3]。如果学习生成分类器的训练数据中不存在的东西（例如，人脸），则尽管生成了高质量图像，IS仍然可能较低，因为该图像没有被分类为不同类别。在我们所有的实验中，FID和IS使用50k合成图像计算，如下[19]。默认情况下，所有报告的数字对应于FFHQ 和 COCO-Animals 的 400k 训练迭代和 CelebA 的800k训练迭代实现的五次独立运行的最佳或中值FID为了评估，我们采用[5，19]之后的生成器权重的移动平均值，衰减为0。九九九九。8214BigGANU-Net GAN图5：在COCO-Animals上训练的U-Net GAN生成的图像，分辨率为128 ×128。请注意，我们不使用任何截断技巧或拒绝采样来生成图像。培训详情。我们采用[5]中的原始训练参数。特别地，我们使用均匀分布的噪声向量z∈[−1，1]140作为生成器的输入，Adam优化器[22]的学习率为1e-4和5e-4。一致性正则化的预热时期的数量η对于COC 0-Animals被设置为200，并且对于FFHQ和CelebA被设置为20 与[5]相反，我们使用相当小的小批量操作：20人在FFHQFFHQ最佳中位数FID ↓IS ↑FID↓IS↑COCO动物方法最好中值FID ↓IS ↑FID↓IS↑BigGAN [5] 11.48 3.97 12.42 4.02 16.37 11.77 16.55 11.78U-Net GAN7.48 4.46 7.63 4.47 13.73 12.29 13.87 12.31表1：FFHQ和COCO-动物的评价结果。我们报告了5次运行的最佳和中位FID评分及其相应的IS，讨论见第4.2节。FFHQ COCO-动物CelebA为50，COCO动物为80见第F和补充材料中的B以了解更多详情。4.2. 结果我们首先在两种设置中测试我们提出的U-Net鉴别器：FFHQ上的无条件图像合成和COCO-Animals上的类条件图像合成，使用30 252020151010万20万30万40万训练迭代10万20万30万40万训练迭代BigGAN模型[5]作为比较的基线我们在表1和图6中报告了我们的关键结果。在无条件的情况下，我们的模型达到了FID评分7。48，这是一个改进4。0FID点超过规范BigGAN阈值（见表1）。此外，新的U-Net在IS指标方面也比基线有所改进（3. 九十七比四。46）。对于条件图像生成设置观察到相同的效果在这里，我们的U-Net GAN实现了FID为13。73分，提高2分。比BigGAN高出64分，并将IS评分从11分提高到11分。77比1229岁图6显示了在5个独立的跑步从图6中可以明显看出，两种模型的FID分数以相似的速率下降，U-Net GAN模型的偏移量恒定，FID的这些结果展示了新的基于U-Net的鉴别器的高潜力关于5次运行中FID平均值、中位数和标准差的详细比较，请参见补充材料中的表S2FFHQ和COCO-动物的定性结果见图4和图5。图4显示了U-Net GAN通过两个合成样本之间的潜在空间中的线性插值生成的人脸。我们图6：BigGAN模型（蓝色）和拟议的U-Net GAN（红色）迭代的FID曲线。描绘了每个设置5次运行的FID平均值和标准偏差。观察到插值在面之间是语义平滑的，即，张开的嘴逐渐变成闭合的嘴，头发逐渐变长，胡须平滑地消失或出现，头发颜色变化无缝。在毛皮方面，我们注意到有几次男人留着粉红色的胡子。由于FFHQ包含相当一部分粉红色头发的人，我们怀疑我们的生成器在训练期间通过全局和局部DU反馈将头发颜色外推到胡子上。图5示出了在COCO-动物上生成的样品。我们观察到各种高质量的图像。我们还注意到，在解码器的像素输出空间中采用类条件投影（如BigGAN中所使用的）不会引入类泄漏或以任何其他方式影响类分离。这些观察结果证实了我们的U-Net GAN在无条件和类条件图像生成中都是有效的。消融研究。在表2中，我们接下来分析了U-Net每个拟议组成部分的个体效应BigGANU-Net GANFIDFID8215ENCDecDecENCDecENCDec方法COCO动物FFHQBigGAN [5]十六岁5512个。42基于U-Net的十五岁8610个。86+ CutMix增强十四岁9510个。30+ 一致性正则化十三岁877 .第一次会议。63表2：FFHQ和COCO动物上的U-Net GAN消融研究。显示的是FID评分中位数。所提出的组件导致更好的性能，平均提高中位数FID 3。比BigGAN高7分方法FID↓IS↑G-GAN [19]7.30–[27]第二十七话5.74–BigGAN [5]4.543.23U-Net GAN2.953.43UDec图7：编码器DU和解码器表3：与最新型号的比较UDec在训练期间，在一批50个生成的样本中。CelebA（128×128）.讨论见第4.2为了可视化，DU分数在所有像素上平均请注意，DU的决策往往DU不在FFHQ和COCO-Animals数据集上，将GAN模型（详见第3节）与BigGAN的基线架构进行比较，比较中位FID评分。请注意，这些单独的组件中的每一个都是相互构建的。如表2所示，单独使用U-Net架构可将FID评分的中位数从12个。四十二比十。FFHQ是86，五十五比十五86人支持COCO-动物添加CutMix增强进一步提高了这些分数，达到FID 10。FFHQ是30个14个。95为COCO动物。采用拟议连贯根据U-Net神经网络的判断，左上角的样本是局部合理的，但不是全局一致的（橙色），而右下角的样本看起来是全局一致的，但有局部不一致的（紫色的例子：长颈鹿有太多的腿和模糊的背景）。每个样本的假分数。图7显示了完整训练批次的每样本预测。这里，解码器得分被计算为平均每像素预测。分数彼此相关，但具有高方差。分割器DU输出左上象限中的点对应于CutMix 图像上的空间使我们能够最大限度地利用CutMix增强，并更好地利用U-Net图像的每像素反馈，而不会带来太多的计算或内存成本。实际上，中位FID下降到7。FFHQ 63，13。87为COCO-动物总的来说，我们认为拟议的组成部分-U-Net GAN的组件提高了FID方面的性能与最新技术水平的比较。表3显示，U-Net GAN与CelebA上的最新技术相比毫不逊色。BigGAN基线已经超过了COCO-GAN，这是据我们所知文献中报道的最佳结果，将FID从5降低。74比4 54，而U-Net GAN进一步将FID提高到2。954.请注意，BigGAN只属于由BigGAN和StyleGAN领导的两个最先进的GAN家族之一，以及它们各自的进一步改进[51，53，21]。虽然在本文中，我们将我们的模型基于BigGAN，但将U-Net模型应用于StyleGAN也会很有趣。鉴别器响应可视化。在实验中，我们观察到DU和DU经常分配不同的实数/-CelebA的4个FID评分使用标准TensorFlow Inception网络计算，以进行比较。所有数据集的PyTorch和TensorFlow FID见表S1中的补充材料。DD8216被解码器赋予高概率为真这意味着地方层面的现实主义，但不一定在全球层面。类似地，右下象限表示被编码器识别为现实的样本，但是包含导致低解码器得分的不现实的补丁。编码器和解码器预测不紧密耦合的事实进一步暗示这两个分量是互补的。换句话说，生成器通过所提出的U-Net鉴别器接收比它将从标准GAN鉴别器获得的更显著的反馈。5. 结论在本文中，我们提出了一种替代的U-网为基础的体系结构的可编程逻辑控制器，它允许提供全局和局部反馈的发生器。此外，我们还介绍了一种基于CutMix数据扩充的U-Net一致性正则化技术。拟议的变化导致更强的鉴别器，使生成器能够合成不同层次的细节图像，保持全球和局部的现实主义。我们在三个不同的数据集上证明了FID在最先进的BigGAN模型[5]上的改进。8217引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein 生成对抗网络神经信息处理系统进展（NeurIPS），2017年。二、五[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。TransactionsonPatternAnalysisandMachineIntelligence，2017。3[3] Shane T.巴拉特和里希·夏尔马关于Inception评分的注释。arXiv：1801.01973，2018。6[4] 大卫·贝特洛，尼古拉斯·卡利尼，伊恩·G·古德费洛，尼科·拉斯·帕佩诺，阿维塔尔·奥利弗和科林·拉菲尔。Mixmatch：半监督学习的整体方法。神经信息处理系统进展（NeurIPS），2019年。3[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在2019年国际学习代表会议（ICLR）上。一、二、五、六、七、八[6] Ting Chen ， Mario Lucic ， Neil Houlsby ， and SylvainGelly.生成对抗网络的自调制。在国际会议上学习表示（ICLR），2018年。5[7] Ting Chen ， Xiaohua Zhai ， Marvin Ritter ， MarioLucic，and Neil Houlsby.通过辅助旋转损失的自监督gans。在计算机视觉和模式识别会议（CVPR），2019年。2[8] HarmdeVries， FlorianStrub， Je're'mieMary ，HugoLarochelle，Olivier Pietquin，and Aaron C.考维尔通过语言调节早期视觉处理。神经信息处理系统进展（NeurIPS），2017年。5[9] Terrance Devries和Graham W. Taylor.改进的卷积神经网络的截断正则化。arXiv：1708.04552，2017。3[10] Rahul Dey，Felix Juefei-Xu，Vishnu Naresh Boddeti，and Marios Savvides. Rankgan：用于生成面的最大间距排名gan。2018年亚洲计算机视觉会议（ACCV）。2[11] ThangDoan ， JoaBagioMonteiro ， IsabelaAl buquerque ，Bog-dan Mazoure，Audrey Durand，Joelle Pineau，andR.德文·耶尔姆gans的线上适应性课程学习。在AAAI，2018。2[12] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。国际学习表征会议（ICLR），2017年。5[13] 伊尚山口Durugkar，Ian Gemp，and Sridhar Mahadevan.生成多对抗网络。国际学习表征会议（ICLR），2017年。2[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。二三五[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进培训沃瑟斯坦甘斯。神经信息处理系统进展，2017年。2[16] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统进展，2017年。6[17] Minyoung Huh ， Shao-Hua Sun ， and Ning Zhang.Feedback Adversarial Learning ： Spatial feedback forimproving generative adversarial networks.在计算机视觉和模式识别会议，2019年。2[18] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。2[19] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的逐步增长，以提高质量，稳定性和变化。在国际会议上学习表示（ICLR），2018年。一、二、六、八[20] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在计算机视觉和模式识别会议（CVPR），2019年。一、二、六[21] Tero Karras、Samuli Laine、Miika Aittala、Janne Hell-sten、Jaakko Lehtinen和Timo Aila。分析和改善stylegan的图像质量。arXiv预印本arXiv：1912.04958，2019。8[22] 迪德里克山口金玛和吉米·巴。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。7[23] KarolKurach，MarioLucic′，XiaohuaZhai，MarcinMichal-ski，and Sylvain Gelly.GAN景观：损失、架构、正则化和规范化。arXiv：1807.04720，2018。3[24] Alina Kuznetsova 、 Hassan Rom、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4：统一的图像分类，对象检测，和视觉关系检测的规模。arXiv：1811.00982，2018。二、六[25] Chun-Lian

下载后可阅读完整内容，剩余1页未读，立即下载