条件对抗网络的图像翻译问题的通用解决方案

67 浏览量更新于2023-10-16 收藏 1.65MB PDF 举报

输入输出

合成照片

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于条件对抗网络的菲利普·伊索拉朱廷辉周阿列克谢A.Efros Berkeley AI Research（BAIR）Laboratory，UC Berkeley街道场景标签立面BW颜色标签输入输出空中到地图输入输出白天到夜间输入输出边缘到照片输入输出输入输出输入输出图1：图像处理、图形和视觉中的许多问题都涉及将输入图像转换为相应的输出图像。这些问题通常通过特定于应用程序的算法来处理，即使设置总是相同的：将像素映射到像素。条件对抗网是一种通用的解决方案，似乎可以很好地解决各种各样的问题。在这里，我们展示了几个方法的在每种情况下，我们都使用相同的架构和目标，并简单地在不同的数据上进行训练摘要我们研究了条件对抗网络作为图像到图像翻译问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射，而且还学习损失函数来训练该映射。这使得有可能对传统上需要非常不同的损失公式的问题适用同样的通用方法。我们demonstrate，这种方法是有效的合成照片从标签地图，重建对象的边缘地图，和彩色图像，以及其他任务。此外，自从与本文相关的pix2pix软件发布以来，数百名twitter用户已经发布了他们使用我们系统的艺术实验。作为一个社区，我们不再手工设计我们的映射函数，这项工作表明，我们可以实现合理的结果，而无需手工设计我们的损失函数。1. 介绍图像处理、计算机图形学和计算机视觉中的许多问题只是个骗局-cept可以用英语或法语表达，场景可以被渲染为RGB图像、梯度场、边缘图、语义标签图等。与自动语言翻译类似，我们将自动图像到图像翻译定义为在给定足够的训练数据的情况下将场景的一种可能表示转换为另一种可能表示的问题（参见图1）。传统上，这些任务中的每一个都是用单独的专用机器（例如，[14，23，18，8，10，50，30，36，16，55，58]），尽管设置总是相同的事实：从像素预测像素。我们在本文中的目标是开发一个通用的框架，所有这些问题。社区已经在这个方向上迈出了重要的一步，卷积神经网络（CNN）成为各种图像预测问题背后的常见主力CNN学习最小化损失函数换句话说，我们仍然要告诉CNN我们希望它尽量减少的东西但是，就像迈达斯国王一样，我们必须小心我们的愿望！如果我们采取一种天真的方法，并要求CNN最小化预测和地面真实图像之间的欧几里得距离11251126否则，它往往会产生模糊的结果[40，58]。这是因为通过对所有可能的输出求平均来最小化欧几里德距离，这导致模糊。提出损失函数，迫使CNN做我们真正想要的- 例如，输出清晰、逼真的图像如果我们可以只指定一个高级目标，比如“使输出与现实无法区分”，然后自动学习适合于满足该目标的损失函数，那将是非常可取的幸运的是，这正是最近提出的生成对抗网络（GANs）所做的[22，12，41，49，59]。GAN学习一个损失，试图分类输出图像是真的还是假的，同时训练一个生成模型来最小化这种损失。模糊的图像是不能容忍的，因为它们看起来明显是假的。由于GAN学习适应数据的损失，因此它们可以应用于传统上需要非常不同类型损失函数的多种任务在本文中，我们将在条件集上探索GANs。正如GAN学习数据的生成模型一样，条件GAN（cGAN）学习条件生成模型[22]。这使得cGANs适用于图像到图像的翻译任务，其中我们以输入图像为条件并生成相应的输出图像。在过去的两年里，GAN得到了大力的研究，我们在本文中探索的许多技术都是以前提出的。尽管如此，早期的论文集中在特定的应用上，并且仍然不清楚图像条件GAN作为图像到图像翻译的通用解决方案的有效性。我们的主要贡献是证明，在各种各样的问题上，条件GANs都能产生合理的结果。我们的第二个贡献是提出一个简单的框架，足以达到良好的效果，并分析几个重要的架构选择的影响。代码可在https://github.com/phillipi/pix2pix 上获得。2. 相关工作图像到图像转换问题通常被公式化为每像素分类或回归（例如，[36、55、25、32、58]）。这些公式将输出空间视为“非结构化的”，在这个意义上，每个输出像素被认为是有条件地独立于给定输入图像的所有其他像素。相反，条件GAN学习结构化损失。结构性损失惩罚了输出的联合配置。大量文献已经考虑了这类损失，方法包括条件随机场[9]、SSIM度量[53]、特征匹配[13]、非参数损失[34]、卷积伪先验[54]和基于匹配协方差统计的损失[27]。条件-传统GAN的不同之处在于，损失是学习的，并且在理论上可以惩罚输出和目标之间不同的任何可能的结构。我们不是第一个在条件设置中应用GAN的公司。先前和并行的工作已经将GAN限制在离散标签[38，21，12]，文本[43]，and，indeed确实，images图片.图像条件模型已经解决了来自法线映射的图像预测[52]、未来帧预测[37]、产品照片生成[56]以及来自稀疏注释的图像生成[28，45]（参见1999年12月11日）。[44]对于同一问题的自回归方法。其他几篇论文也使用GAN进行图像到图像的映射，但仅无条件地应用GAN，依赖于其他术语（如L2回归）来强制输出以输入为条件。这些论文在修复[40]，未来状态预测[60]，用户约束指导的图像操作[61]，风格转移[35]和超分辨率[33]方面取得了令人印象深刻的结果。每种方法都是针对特定应用定制的。我们的框架的不同之处在于没有任何东西是特定于应用程序的。这使得我们的设置比大多数其他设置简单得多。我们的方法也不同于以前的作品在几个架构选择的生成器和鉴别器。与过去的工作不同，对于我们的生成器，我们使用之前在[35]中提出了类似的PatchGAN架构，用于捕获本地风格统计数据。在这里，我们表明，这种方法是有效的更广泛的问题，我们调查的效果，改变补丁的大小。3. 方法GAN是生成模型，它学习从随机噪声向量z到输出图像y的映射，G：z→y[22]。相比之下，条件GAN学习从观察图像x和随机噪声向量z到y的映射，G：{x，z} → y。生成器G被训练以产生不能被计算的输出。通过一个经过逆向训练的神经网络D来区分该训练程序如图2所示。3.1. 目的条件GAN的目标可以表达为LcGAN（G，D）=Ex，y[logD（x，y）]+Ex，z[log（1 −D（x，G（x，z））]，（1）其中G试图最小化该目标，对抗试图最大化该目标的对抗D，即G_n=arg minGmaxDLcGAN（G，D）.1127y假房3.2.1带跳跃的图像到图像转换问题的定义特征是它们将高分辨率输入网格映射到高分辨率输出网格。此外，对于我们考虑的问题，输入和输出在表面外观上不同，但两者都是相同底层结构的渲染。因此，我们认为，图2：训练条件GAN映射边缘→照片。鉴别器D学习在伪（由生成器合成）和实{edge，photo}元组之间进行分类。生成器G学会欺骗鉴别器。与无条件GAN不同，生成器和鉴别器都观察输入边缘图。为了测试条件化鉴别器的重要性，我们还与无条件变体进行了比较，其中鉴别器不观察x：LGAN（G，D）=Ey[logD（y）]+输入中的结构与输出中的结构大致对齐我们围绕这些考虑因素来设计发电机架构。在此领域中的问题的许多先前解决方案[40，52，27，60，56]已经使用编码器-解码器网络[24]。在这样的网络中，输入通过一系列层，这些层逐渐下采样，直到瓶颈层，在这种网络要求所有信息流通过所有层，Ex，z[log（1 −D（G（x，z））].（二）包括瓶颈。对于许多图像翻译问题，lems，有大量的低层次的信息共享先前的方法已经发现将GAN目标与更传统的损耗（例如L2距离）混合是有益的[40]。鉴别器我们还探索了这个选项，使用L1距离而不是L2，因为L1鼓励更少的模糊：LL1（G）=Ex，y，z[y− G（x，z）1].（三）我们的最终目标是在输入和输出之间，并且希望直接在网络上穿梭这些信息。例如，在图像着色的情况下，输入和输出共享突出边缘的位置。为了给生成器提供一种方法来绕过此类信息的瓶颈，我们添加了跳过连接，遵循“U-Net”的一般形状具体来说，我们在每个层i和层n−i之间添加跳过连接，其中n是层的总数每一个跳跃连接-Tion简单地将层i处的所有信道与层n-i处的信道级联。G=arg min maxLcGAN（G，D）+λLL1（G）。（四）G D3.2.2马尔可夫鉴别器（PatchGAN）没有z，网络仍然可以从x学习映射到y，但将产生确定性输出，因此不能匹配除δ函数之外的任何分布。过去的条件GAN已经确认了这一点，并且除了x之外还提供高斯噪声z作为生成器的输入（例如，[52]）。在最初的实验中，我们没有发现这种策略有效-生成器只是学会了忽略噪声-这与Mathieu等人的一致。[37 ]第37段。相反，对于我们的最终模型，我们仅以dropout的形式提供噪声，在训练和测试时应用在生成器的几个层上。尽管丢弃噪声，我们观察到只有轻微的随机性，在我们的网络的输出。设计产生高度随机输出的条件GAN，从而捕获它们所建模的条件分布的全部熵，是本工作尚未解决的一个重要问题。3.2. 网络架构我们根据[41]中的那些来调整生成器和鉴别器架构。生成器和鉴别器都使用convolution-BatchNorm-ReLu形式的模块[26]。在线补充材料中提供了该体系结构的详细信息，主要功能将在下面讨论。众所周知，L2损失-虽然这些损失不能促进高频脆度，但在许多情况下，它们仍然准确地捕获低频。对于这种情况下的问题L1已经可以了。这促使将GAN鉴别器限制为仅对高频结构建模，依赖于L1项来强制低频正确性（等式1）。4）. 为了对高频进行建模，将我们的注意力限制在局部图像补丁的结构上就足够了。因此，我们设计了一个鉴别器架构- 这只会惩罚斑块规模的结构。该鉴别器试图区分图像中的每个N×N块是真的还是假的。我们在整个图像上进行卷积运算，平均所有响应，以提供D的最终输出。在第4.4节中，我们证明了N可以比图像的完整尺寸小得多，并且仍然可以产生高质量的结果。这是有利的，因为较小GG（x）DD1128PatchGAN的参数更少，运行速度更快，并且可以应用于任意大的图像。这样的鉴别器有效地将图像建模为马尔可夫随机场，假设由多于块直径分开的像素之间的独立性这种联系以前在[35]中进行了探索，也是纹理[15，19]和风格 [14 ， 23 ， 20 ， 34] 模型中的常见假设。我们的PatchGAN因此可以被理解为一种纹理/风格损失的形式。3.3. 优化与推理为了优化我们的网络，我们遵循[22]中的标准方法：我们在D上的一个梯度下降步骤，然后在G上的一个步骤之间交替。我们使用 minibatch SGD 并应用Adam求解器[29]。在推理时，我们以与训练阶段完全相同的方式运行生成器网络。这与通常的协议不同，因为我们在测试时应用dropout，并且我们使用测试批次的统计数据应用批次归一化[26]当批量大小设置为1时，这种批量标准化方法被称为在我们的实验中，我们根据实验使用4. 实验为了探索条件GAN的通用性，我们在各种任务和数据集上测试了该方法，包括图形任务（如照片生成）和视觉任务（如语义分割）：• 语义标签photo，在Cityscapes数据集上训练[11]。• 建筑标签→照片，在CMP立面上进行培训[42]。• Map航空照片，根据从Google Maps中抓取的数据进行训练。• BW→彩色照片，在[48]上训练。• 边缘→照片，在[61]和[57]的数据上训练;二进制边缘生成-使用HED边缘检测器[55]加上后处理进行验证。• 草图→照片：测试边缘→照片模型在人类绘制的[17]《明史》• 白天→晚上，训练[30]。在线补充材料中提供了每个数据集的培训细节在所有情况下，输入和输出只是1-3通道图像。定性结果如图7、8、9、10和11所示，其他结果和失效案例见在线材料（ https://phillipi.github.io/pix2pix/ ）。4.1. 评估指标评价合成图像的质量是一个开放且困难的问题[49]。诸如每像素均方误差的传统度量不评估结果的联合统计，并且因此不测量结构化损失旨在捕获的非常结构。为了更全面地评估结果的视觉质量，我们采用了两种策略。首先，我们跑每像素损失每类acc.IOU类L10.420.150.11GAN0.220.050.01cGAN0.570.220.16L1+GAN0.640.200.15L1+cGAN0.660.230.17地面实况0.800.260.21表1：不同损失的FCN评分，在Cityscapes标签上评估。Amazon Mechanical Turk（AMT）上的“真实与虚假”感知研究。对于像彩色化和照片生成这样的图形问题，人类观察者的真实性往往是最终目标。因此，我们测试我们的地图生成，航空照片生成，图像着色使用这种方法。其次，我们测量我们的合成城市景观是否足够逼真，现成的识别系统可以识别其中的对象。该指标类似于[ 49 ]中的AMT感知研究对于我们的AMT实验，我们遵循[58]中的协议：向Turkers提供一系列试验，将“真实”图像与我们算法生成的“假”图像进行比较。在每次试验中，每个图像出现1秒，之后图像消失，并且给予Turkers无限的时间来回复哪个是假的。每个环节的前10张图片是练习，Turkers得到反馈。没有提供关于主实验的40次试验的反馈。每个会话一次只测试一个算法，Turker不允许完成多个ses-锡永50 个Turkers 评估了每种算法。所有图像均以256×256分辨率显示。与[58]不同，我们没有纳入警戒试验。对于我们的彩色前-实验中，真实图像和假图像是从相同的灰度输入生成的。对于地图航空照片，真实和假图像不是从同一输入生成的，以增加任务的难度和避免地板级的结果。虽然生成模型的定量评估具有挑战性，但最近的工作[49，52，58，39]已经尝试使用预先训练的语义分类器来测量生成的刺激的可区分性作为伪度量。直觉是，如果生成的图像是真实的，则在真实图像上训练的分类器也能够正确地分类合成图像。为此，我们采用流行的FCN-8 s [36]架构进行语义分割，并在城市景观数据集上对其进行训练。然后，我们通过分类准确度对合成照片的标签进行评分，这些照片是从合成的。1129输入地面实况L1 cGAN L1 + cGAN图3：不同的损失导致不同的结果质量每列显示在不同损失下训练的结果请参阅https://phillipi.github.io/pix2pix/以获取其他示例。L1L1+cGAN图4：在编码器-解码器中添加跳过连接以创建“U-Net”，从而获得更高质量的鉴别器感受野每像素加速每类acc.IOU类1×10.390.150.1016×160.65 0.210.1770×70 0.66 0.23 0.17286×2860.42 0.16 0.11表2：在Cityscapes标签→照片上评估的识别器不同感受野大小的FCN评分。请注意，输入图像是256×256像素，较大的感受野用零填充.4.2. 目标函数等式中的物镜的哪些部件四是重要？我们进行消融研究以隔离L1项、GAN项的影响，并使用以输入为条件的鉴别器进行比较（cGAN，等式11）。1）反对使用无条件鉴别器（GAN，Eqn. 2）的情况。图3显示了这些变化对两个标签→照片问题的定性影响。L1单独导致合理但模糊的结果。单独的cGAN（在等式1中设置λ=0）4）给出了更清晰的结果，但引入了视觉AR-在某些应用程序上将这两项加在一起（λ=100）可减少这些伪影。我们使用城市景观标签→照片任务的FCN分数来量化这些观察结果（表1）：基于GAN的目标获得了更高的分数，这表明合成大小的我们还测试了从区分中去除条件反射的效果-nator（标记为GAN）。在这种情况下，损失不会使输入和输出之间的不匹配永久化;它只关心使输出看起来逼真。该变体导致非常差的性能;检查结果揭示了发生器崩溃以产生几乎完全相同的输出而不管输入照片。显然，在这种情况下，重要的是损失度量输入和输出之间的匹配质量，并且实际上cGAN比GAN表现得好得多。然而，请注意，添加L1项也鼓励输出尊重输入，因为L1损失惩罚了与输入正确匹配的地面实况输出和可能不匹配的合成大小输出之间的距离相应地，L1+GAN在创建符合输入标签映射的真实渲染方面也是有效的。结合所有项，L1+cGAN表现类似。Colorfulness条件GANs的一个显著效果是它们产生清晰的图像，即使在输入标签映射中不存在空间结构的地方也能产生可以想象cGAN对光谱维度中的“锐化”具有类似的效果-即使图像更有色彩。正如L1在不确定边缘的确切位置时激励模糊一样，当不确定像素应该采用几个合理的颜色值中的哪一个时，它也将激励平均的浅灰色颜色。特别地，L1将通过选择可能颜色上的一致性概率密度函数的中值来最小化。另一方面，对抗性损失原则上可以意识到灰色输出是不现实的，并且鼓励匹配真实颜色分布[22]。在图6中，我们调查了我们的cGAN是否真的在Cityscapes数据集上实现了这种效果。图显示Lab颜色空间中输出颜色值的边缘分布。地面实况分布用虚线示出。很明显，L1导致的分布比地面真相更窄，证实了L1鼓励平均，浅灰色颜色的假设另一方面，使用cGAN可以将输出分布推向更接近真实值。4.3. 生成器架构分析U-Net架构允许低级别信息通过网络进行快捷传输。这会导致更好的结果吗？图4将U-Net与编码器进行了比较U-Net编解码器1130长1×1 16×16 70×70 286×286图5：补丁大小变化。输出中的不确定性对于不同的损失函数以不同的方式表现出来不确定的区域在L1下变得模糊和去饱和。1x1 PixelGAN鼓励更大的颜色多样性，但对空间统计没有影响。16x16 PatchGAN创建了局部清晰的结果，但也导致了超出其可观察范围的平铺伪影。70×70 PatchGAN的输出在空间和光谱（色彩）维度上都是尖锐的，即使不正确。完整的286×286ImageGAN生成的结果在视觉上与70×70PatchGAN相似，但根据我们的FCN评分指标，质量略低（表2）。请访问https://phillipi.github.io/pix2pix/了解更多示例。−1−3−5−7−9−11L1cGANL1+cGANL1+pixelcGAN地面实况−1−3−5−7−9−11−1−3−5−7−9−11直方图与地面实况的损失L a bL10.810.690.70cGAN 0.870.740.840 20 40 60 80100L（一）70 90 110130（b）第（1）款70 90 110 130150B（c）第（1）款L1+cGAN0.860.840.82PixelGAN0.830.680.78（d）其他事项图6：cGAN的颜色分布匹配属性，在Cityscapes上测试。（参见图1的原始GAN文件[22]）。注意，直方图交叉得分由高概率区域中的差异主导，这在图中是不可察觉的，图中示出了对数概率，因此强调了低概率区域中的差异。地图到航拍照片航拍照片到地图输入输出输入输出图7：512x512分辨率下Google地图上的示例结果（模型在256×256分辨率的图像上训练，并在测试时在较大的图像上进行卷积）。调整对比度以提高清晰度。城市景观生成的解码器编码器-解码器通过切断U-网中的跳过连接而简单地创建。在我们的实验中，编码器-解码器无法学习生成逼真的图像。U-Net的优势似乎并不特定于条件GAN：当U-Net和编码器-解码器都使用L1损失进行训练时，U-Net再次实现了更好的结果（图4）。4.4. 从PixelGAN到PatchGans再到ImageGAN我们测试了区分器感受野的斑块大小N的变化效果，从1×1图5显示了定性该分析的结果和表2量化了使用FCN分数的效果请注意，在本文的其他地方，除非另有说明，否则所有实验都使用70×70PatchGAN，并且在本节中，所有实验都使用L1+cGAN损失。PixelGAN对空间清晰度没有影响，但确实增加了结果的色彩（在图6中量化）。例如，图5中的总线在使用L1损失训练网络时被涂成灰色，但在使用PixelGAN损失时变成红色。颜色直方图匹配是图像处理中的一个常见问题[46]，PixelGANs可能是一个有前途的轻量级解决方案。使用16×16PatchGAN足以促进尖锐输出，并获得良logP（L）logP（a）logP（b）1131好的FCN分数，但也导致1我们通过调整斑块的深度来实现斑块大小的这种变化。GAN GAN.在线补充材料中提供了此过程和体系结构的详细信息1132第二层[58]我们的分类（rebal.）[58个] (L1+ cGAN）地面实况参与者189%的试验，显著高于L1基线，产生模糊的结果，几乎从未欺骗过参与者。相比之下，在照片→地图方向上，我们的方法只欺骗了6的参与者。1%的试验，这是没有显着差异，L1基线水平（基于bootstrap检验）。这可能是因为较小的结构性错误更明显在具有刚性几何形状的地图中，比在更混乱的航空摄影中更容易。我们在ImageNet [48]上训练了着色，并在[58，32]引入的测试分割上进行了测试。我们的方法，L1+cGAN损失，愚弄了22的参与者。5%的试验（Ta-图8：条件GAN的着色结果与[58]的L2回归和[60]的完整方法（重新平衡的分类）。cGAN可以产生引人注目的着色（前两行），但具有产生灰度或去饱和结果（最后一行）的常见故障模式。照片→地图地图→照片损失% Turkers标记为真实标记为真实L1的Turkers% 2.8%±1.0% 0.8% ± 0.3%L1+cGAN6.1%± 1.3%18.9% ±2.5%表3：AMT方法% Turkers标记为实数L2回归自[58]16.3%± 2.4%Zhang等人2016年[58] 27.8% ±2.7%我们的22.5%± 1.6%表4：关于着色的AMT每像素损失每类acc.IOU类L10.860.420.35cGAN0.740.280.22L1+cGAN0.830.360.29表5：照片→标签在城市景观上的表现。平铺文物。70×70PatchGAN验证了这些人工因素，并获得了类似的分数。缩放到286×286ImageGAN，似乎并不能提高结果的视觉质量，事实上，显著降低FCN评分（表2）。这可能是因为ImageGAN比70×70PatchGAN具有更多的参数和更大的深度，并且可能更难训练。全卷积翻译的一个优点是PatchGAN是一个固定大小的补丁，适用于任意大的图像。我们也可以将生成器卷积地应用于比上图更大的图像。它是经过训练的。我们在地图航拍任务中对此进行了测试在 256×256 图像上训练生成器之后，我们在512×512图像上测试它图7中的结果证明了该方法的有效性。4.5. 知觉确认我们验证了我们的结果的感知现实主义的任务地图航空照片和灰度 → 颜色。表 3 给出了我们对地图Participphoto进行AMT实验的结果。我们的方法生成的航拍照片ble4）。我们还测试了[58]的结果和他们的方法使用L2损失（详见[58]）。条件GAN的得分与[ 58 ]的L2变体相似（通过自举检验差异不显著），但低于[58]的完整方法，该方法在27上欺骗了参与者。8%的实验。我们注意到，他们的方法是专门设计的，可以很好地进行着色。4.6. 语义分割条件GAN似乎对输出高度详细或照片的问题有效，这在图像处理和图形任务中很常见。视觉问题，比如语义分割，输出比输入更简单，怎么办？为了开始测试这一点，我们在城市景观照片→标签上训练cGAN（有/没有L1损失）。图11显示了定性结果，表5中报告了定量分类精度。有趣的是，在没有L1损失的情况下训练的cGAN能够在合理的程度上解决这个问题准确性。据我们所知，这是GANs成功生成“标签”的第一次演示尽管cGAN取得了一些成功，但它们远不是解决这个问题的最佳方法：简单地使用L1回归比使用cGAN获得更好的分数，如表5所示。我们认为，对于视力问题，目标（即预测输出接近地面实况）可能比图形任务更不模糊，并且像L1这样的重建损失通常是足够的。4.7. 社区驱动的研究自从本文和我们的pix2pix代码库首次发布以来，Twitter社区，包括计算机视觉和图形从业者以及艺术家，已经将我们的框架应用于各种新颖的图像到图像翻译任务，远远超出了原始的范围最终文件。图10显示了#pix2pix标签，如素描→肖像，2请注意，我们训练的标签映射并不是精确的离散值，因为它们是使用双线性插值从原始映射调整大小并保存为jpeg图像，带有一些压缩伪影。1133任务输入输出图9：我们的方法在几个任务上的结果（数据来自[42]和[17]）。请注意，草图→照片结果是由一个在自动边缘检测上训练并在人类绘制的草图上测试的模型生成的。请参阅在线资料以获取更多示例。#edges2catsby Christopher Hesse素描→肖像深度→街景背景移除作者：@gods_tail通过@ivymyt饰Mario Klingemann“Do作者：Jasper vanLoenen调色板产生作者：Kaihu Chen素描→口袋妖怪通过@vvid作者：Brannon Dorsey，Jack Qiao作者：Bertrand Gondouin图10：在线社区基于我们的pix 2 pix代码库开发的示例应用程序：Christopher Hesse的#edges2cats [3]，Mario Kingemann的Sketch→Portrait [7]，Brannon Dorsey的“Do As I Do”pose transfer [ 2 ]，Jasper van Loenen的Depth → Streetview [ 5 ]，Kaihu Chen的Background removal [ 6 ]，Jack Qiao的X-ray generation [ 4 ]和Bertrand Gondou的Sketch → Pokemon [ 1] in.输入地面实况L1 cGAN图11：将条件GAN应用于语义分割。cGAN产生清晰的图像，这些图像看起来像地面实况，但实际上包括许多小的幻觉对象。我愿意5. 结论本文的结果表明，条件对抗网络是许多图像到图像翻译任务的一种有前途的方法，特别是那些涉及高度结构化的图形输出的任务。这些网络学习适应手头的任务和数据的损失，这使得它们适用于各种各样的设置。致谢：我们感谢 Richard Zhang 、 Deepak Pathak 和 ShubhamTulsiani进行的有益讨论，感谢Saining Xie在HED边缘检测器方面的帮助，感谢在线社区探索许多应用并提出改进建议。这项工作得到了NSF SMA-1514512、NGA NURI、IARPA（通过空军研究实验室）、英特尔公司、伯克利深度驱动器和英伟达硬件捐赠的部分支持素描→鞋素描→包包标签→外立面1134引用[1] Bertrand贡杜因https://twitter.com/bgondouin/status/818571935529377792.访问日期：2017-04-21。8[2] Brannon多尔西。https://twitter.com/brannondorsey/status/806283494041223168.访问日期：2017-04-21。8[3] 克里斯托弗·海斯。https://affinelayer.com//.访问时间：2017-04-21。8[4] 杰克乔。http://colormind.io/blog/网站。访问时间：2017-04-21。8[5] 贾斯珀·范·洛南。https：//jaspervanloenen.com/neural-city/.访问日期：2017-04-21。8[6] 开虎尘http://www.terraai.org/imageops/index.html。访问，2017-04-21. 8[7] 马里奥克林格曼https://twitter.com/quasimondo/status/826065030944870400.访问日期：2017-04-21。8[8] A.布阿德斯湾Coll和J. - M.莫瑞尔一种非局部图像去噪算法。见CVPR，第2卷，第60IEEE，2005年。1[9] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。2[10] T. 陈文 M. Cheng ， P. Tan ， A. Shamir 和 S.- M. 胡Sketch2photo：互联网图像蒙太奇。ACM Transactionson Graphics（TOG），28（5）：124，2009。1[11] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集InCVPR），2016. 4[12] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的阿拉斯金字塔的深层生成图像模型。在NIPS，第1486-1494页，2015年。2[13] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。arXiv预印本arXiv：1602.02644，2016。2[14] A. A. Efros和W. T.弗里曼。用于纹理合成和转移的图像绗缝。在SIGGRAPH中，第341ACM，2001年。1、4[15] A. A. Efros和T. K.梁非参数采样纹理合成。在ICCV，第2卷，第1033IEEE，1999年。4[16] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页1[17] M. Eitz 、 J. Hays 和 M. Alexa 人类如何绘制物体？SIGGRAPH，31（4）：44-1，2012. 四、八[18] R. 费格斯湾辛格A.Hertzmann，S.T. Roweis和W.T.弗里曼。从单张照片中消除相机抖动在ACM Transactions onGraphics（TOG），第25卷，第787ACM，2006年。1[19] L. A. Gatys，A. S. Ecker和M.贝丝纹理合成和自然刺激的控制生成使用卷积神经网络。 arXiv 预印本 arXiv ：1505.07376，2015年12月。41135[20] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格转换CVPR，2016年。4[21] J. Gauthier用于卷积人脸生成的条件生成对抗网络。斯坦福大学CS231N课程：卷积神经网络用于视觉识别，冬季学期，2014（5）：2，2014。2[22] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。二、四、五、六[23] A. 赫茨曼角E. Jacobs，N.奥利弗湾Curless和D.H.销售形象类比。在SIGGRAPH中，第327ACM，2001年。1、4[24] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 3[25] S. Iizuka、E. Simo-Serra和H.石川让我们有颜色！：联合端到端学习全局和局部图像先验知识，用于自动图像着色和同时分类。ACM Transactions on Graphics（TOG），35（4），2016. 2[26] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015. 三、四[27] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。2016. 二、三[28] L.卡拉坎角Z. Akata，A. Erdem和E. Erdem学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv：1612.00215，2016。2[29] D. Kingma 和 J. BA. Adam ：一种随机优化方法。ICLR，2015年。4[30] P. - Y. Laffont，Z.Ren，X.陶角，澳-地Qian和J.海斯瞬态属性，用于户外场景的高级理解和编辑 ACMTransactions on Graphics（TOG），33（4）：149，2014。1、4[31] A. B. L. Larsen，S. K. Sønderby和O.温瑟使用学习到的相似性度量来自动编码超出像素arXiv预印本arXiv：1512.09300，2015。3[32] G. Larsson，M. Maire和G.沙赫纳洛维奇学习自动着色的表示。ECCV，2016。二、七[33] C. 莱迪格湖Theis，F.Husza'r，J.Caballero，A.坎宁安A.阿科斯塔A.艾特肯A. Tejani，J. Totz，Z. wang等人使用生成对抗网络的照片级逼真的单幅图像超分辨率。arXiv预印本arXiv：1609.04802，2016。2[34] C. Li和M.魔杖结合马尔可夫随机场和卷积神经网络进行图像合成。CVPR，2016年。二、四[35] C. Li和M.魔杖使用马尔可夫生成对抗网络的预计算实时纹理合成。ECCV，2016。二、四[36] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在CVPR，第3431一、二、四[37] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。ICLR，2016. 二、三[38] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。21136[39] A. Owens，P. Isola，J. McDermott，A. Torralba，E. H.Adel-son和W. T.弗里曼。视觉指示的声音。在IEEE计算机视觉和模式识别会议的Proceedings中，第2405-2413页，2016年。4[40] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。CVPR，2016年。二、三[41] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。二、三[42] R. Sˇ。半径Tyl ecˇ ek 用于识别具有规则结构的对象的空间模式模板在Proc. GCPR，Saar-brucken，德国，2013年。四、八[43] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。arXiv预印本arXiv：1605.05396，2016。2[44] S. Reed，A. van den Oord，N. Kalchbrenner，V.巴普斯特M. Botvinick和N. de Freitas生成具有可控结构的可解释图像。技术报告，技术报告，2016年。2016年2月。2[45] S. E. Reed，Z.Akata、S.莫汉，S.滕卡湾schiele和H.李你学习在哪里画什么。 In Advances 在神经信息处理系统，第217-225页，2016年。2[46] E. Reinhard，M.阿希赫明湾Goo

下载后可阅读完整内容，剩余1页未读，立即下载