基于感知鉴别器的图像翻译方法

43 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于感知鉴别器的DianaSungatullina，Egor Zakharov，Dmitry Ulyanov，and Victor Lempitsky俄罗斯莫斯科斯科尔科沃科技学院{d.sungatullina，egor.zakharov，dmitry.ulyanov，lempitsky} @ skoltech.ru抽象。使用深度卷积网络执行图像操作的系统已经实现了显著的真实感。感知损失和基于对抗性鉴别器的损失是这些进步背后的两类主要学习目标在这项工作中，我们将展示如何将这两个想法结合在一个原则和非添加剂的方式，纳未对齐的图像翻译任务。这是通过生成式对抗学习框架内的一个特殊的网络架构来实现的我们称之为感知鉴别器的新架构将预先训练的深度分类网络的卷积部分嵌入鉴别器网络中。所得到的架构可以在未对齐的图像数据集上训练，同时受益于感知损失的鲁棒性和效率。我们展示了新架构的优点，在一系列的定性和定量比较与基线方法和国家的最先进的框架不对齐的图像翻译。关键词：图像翻译·图像编辑·感知损失·生成性对抗网络1介绍生成卷积神经网络在图像处理任务中取得了显着的成功，这是由于它们在大量数据上训练的能力[20，23，12]以及与这种架构相关联的自然图像先验[38]。最近，训练图像操作ConvNets的能力已经在未对齐的训练场景[42，43，5]中示出，其中训练基于用特定属性的存在/不存在注释的图像集，而不是基于包含{输入，输出}图像对的对齐数据集。从未对齐的数据进行训练的能力在数据集收集和学习新的操纵效果方面提供了相当大的灵活性，但也带来了额外的算法挑战。一般来说，深度图像操作方法的真实性强烈依赖于用于训练生成ConvNets的损失函数的选择。特别是，简单的像素损失（例如，的平方表示同等贡献2D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky距离损失）限制了真实性，并且在未对准的训练场景中应用也是重要的。因此，深度图像生成和处理的真实性的快速改进与超出像素损失的两类损失函数相关联。第一组（所谓的感知损失）基于预先训练的深度卷积网络内部的匹配激活(the为ILSVRC图像分类训练的VGG架构是迄今为止最受欢迎的选择[35]）。第二组由对抗性损失组成，其中损失函数使用单独的鉴别器网络隐式定义，该鉴别器网络与主生成网络并行对抗性这两组（感知损失和对抗损失）被认为在很大程度上具有互补的优势和劣势。因此，感知损失易于合并并且易于缩放到高分辨率图像，然而它们在未对准训练场景中的使用是困难的，因为这些损失项需要具体的目标图像来匹配激活。对抗性损失有可能实现更高的真实感，并且可以在未对齐的场景中自然使用，但众所周知，对抗性训练很难正确设置，10%会遭受模式崩溃，并且很难扩展到高分辨率图像。以相加的方式组合感知和对抗损失已经流行[11，40，24，33]。因此，生成ConvNet可以通过最小化对抗和感知（以及潜在的其他一些）损失的线性组合来训练。然而，这样的添加剂组合不仅结合了两种方法的优点，而且还结合了两种方法的缺点。特别地，感知损失的使用仍然导致使用对齐的数据集进行训练。在这项工作中，我们提出了一个现实的图像处理架构，它结合了感知和对抗性的损失，在一个自然的非添加剂的方式。重要的是，该架构保持了对抗性损失在未对齐数据集上训练的能力，同时还受益于感知损失的稳定性。我们的想法是非常简单的，并关注的具体设计的discrim-inator网络对抗训练。该设计将预训练的分类网络封装为鉴别器的初始部分。在对抗训练过程中，生成器网络被有效地学习，以匹配该参考网络的几层内的激活，就像感知损失一样。我们表明，将预训练的网络并入鉴别器可以稳定训练，并可以很好地扩展到更高分辨率的图像，这与感知损失一样常见。同时，对抗训练的使用允许以避免需要对齐的训练数据。通常，我们已经发现，所建议的架构可以在很少调整的情况下被训练以施加复杂的图像操纵，诸如向人脸添加和移除微笑、面部老化和年轻化、性别改变、发型改变等。在实验中，我们证明了我们的架构可以用于在中等和高分辨率下执行复杂的操作，并将所提出的架构与几种基于对抗学习的基线和最近的基于学习的图像操作方法进行比较。基于感知鉴别器的图像处理32相关工作生成的ConvNets。我们的方法与ConvNets上用于图像生成和编辑的快速增长的作品有关。早期关于ConvNet图像生成[12]和图像处理[20，10，23]的一些重要论文使用了每像素损失函数和完全监督设置，因此在测试时，每个输入的目标图像都是已知的。虽然这证明了ConvNets生成逼真图像的能力，但所提出的系统都必须在对齐的数据集上进行训练，并且由于像素损失函数的效率低下，输出图像中的高频细节量受到限制感知损失。Mahendran和Vedaldi [ 28]的工作已经证明，在预先训练的卷积网络中由图像调用的激活可以用于恢复原始图像。 Gatys等人 [13]证明了这种激活可以用作输入图像的内容描述符或纹理描述符，而Dosovitsky和Brox [11]，Ulyanov等人[37]，Johnson等人[21]已经表明，所产生的和目标激活之间的失配可以用作生成ConvNet的所谓感知损失。[ 7]最近的工作推动了前馈ConvNet产生的图像的空间分辨率和真实感，感知损失达到百万像素分辨率。通常，在所有上述工作[7，37，21，11]中，感知损失以完全监督的方式应用，因为对于每个训练示例，明确给出了特定目标深度激活（或其Gram矩阵）最后，[39]提出了一种方法，该方法通过合成深度预训练网络的所需激活并使用类似于[28，13]的非前馈优化过程找到与此类激活匹配的图像，以高分辨率操作仔细对齐的人脸图像。对抗训练。生成ConvNets最令人印象深刻的结果是在Goodfellow等人最初提出的生成对抗网络（GANs）框架内获得的。[14]第10段。对抗性训练的思想是将损失函数实现为一个单独的可训练网络（鉴别器），该网络与生成式ConvNet（生成器）以并行和对抗的方式进行训练。包括[30，34，3，22]在内的多个后续工作研究了生成器和鉴别器的卷积架构的选择。实现生成器-鉴别器对的可靠和鲁棒收敛仍然具有挑战性[15，8，27]，特别是需要比感知损失函数训练更多的努力。不结盟对抗训练。虽然GANs最初的很多兴趣都与无条件图像生成有关，但最近重点已经转移到有条件图像合成。与我们的工作最相关的是执行图像翻译的逆向训练网络，即根据输入图像生成输出图像。虽然最初使用的方法一致4D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky法克湾雷亚尔湾P（实感知鉴别器P（实P（实VGG（冻结）图1：感知鉴别器由预先训练的图像分类器组成，其中k为k（例如，VGG），splitinocksbi。这些块的参数在训练期间不改变，因此鉴别器保留对所谓的感知特征的访问。这些块的输出使用卷积运算c i的可学习块来处理，并且这些块的输出用于预测图像是真实的或被操纵的概率（使用更简单的版本作为signgleddiscriminatordmain，而在完整版本中使用addeddiionalpathdiscriminators）。数据集用于训练[41，19]，最近使用未对齐的训练数据获得了一些令人印象深刻的结果，其中仅提供输入和输出图像的经验分布[42，5，43]。对于人脸图像操作，在[6，9]中已经提出了在未对齐数据上使用对抗训练的系统。虽然我们也强调面部操作，但我们的贡献与[6，9]正交，因为可以将感知鉴别器引入到他们的系统中。综合感知损失和对抗损失。越来越多的作品[11，24，40]使用感知和对抗损失函数的组合来完成更稳定的训练，并在高分辨率下实现令人信服的图像最近，[33]表明，在百万像素大小的条件图像合成任务中，增加对抗性损失的感知损失比基线系统[7]（已经取得了非常令人印象深刻的结果）有所改善不变地，感知损失和对抗损失的组合以加性方式执行，即，两个损失函数被加权并彼此相加（并且可能与一些其它项相加）。虽然这样的加性组合是简单的并且通常是非常有效的，但是它将学习限制到对齐的场景，因为感知项仍然需要为每个训练示例指定目标激活。在这项工作中，我们提出了感知损失和对抗训练的自然非加性组合，避免了在训练过程中对对齐数据的需求。基于感知鉴别器的图像处理53知觉鉴别器3.1背景和动机生成对抗网络在真实感图像合成方面表现出令人印象深刻的结果该模型包括生成网络G和离散网络D，生成网络G被训练为在空间Y处计算输入中的大的离散点（y），离散网络D被训练为区分输入是真实的还是由G生成的。在最简单的形式中，两个网络针对策略函数V（D，G）进行优化（进行零和游戏）：min maxV（D，G）=Eyptarget（y） logD（y）+Expsource（x）[log（1−D（G（x））]，（1）G D在（1）中，源分布是源（x）的概率分布，可以在潜在空间（例如单位高斯）中恢复为一个简单的近似分布，使得在训练后，可以从一个简单的应用程序中提取不一致的样本。或者，p_s_r_c_e（x）可以被复制到图像空间X中的另一个具体的结构。在这种情况下，生成器学习将图像从X转换为Y，或者在空间X中操作图像（当它与Y重合时）。虽然我们的贡献（感知鉴别器）是适用于无条件的合成和图像处理/翻译，我们专注于后者的情况下，我们的评估。对于低分辨率数据集，我们使用标准的非饱和GAN修改，其中生成器最大化判别器的对数似然，而不是最小化目标⑴[14]。对于高分辨率图像，遵循CycleGAN [42]，我们使用LSGAN公式[29]。已知任何提出的GAN游戏都很难收敛到良好的均衡[15，8，27]。一般来说，经训练的生成器网络的性能关键地取决于鉴别器网络的架构，其需要学习提取有意义的统计数据，这有利于匹配目标数据。GAN训练的特定故障模式是，如果发生器“超功率”，则会出现无法通过人工处理的灾难3.2感知鉴别器架构多种方法已经建议使用由深度预训练分类网络F（y）内部的图像y调用的激活作为检索[4]或少量分类[31]等任务的统计数据。 Mahendran和Vedaldi [28]已经证明，在这种网络的卷积部分之后计算的激活保留了关于输入y的大部分信息，即基本上是可逆的。子序列如[13，37，21，11]所示，所有子序列都具有匹配低级别细节的能力，遵循这一工作路线，我们建议将GAN鉴别器D（y）基于由参考网络F在输入图像y上计算的感知统计，其中可以是真实的（来自于图像的）或真实的（由输入图像的）。6D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky发电机）。我们的动机是使用感知特征的鉴别器比初始化为的鉴别器有更好的机会学习好的统计数据随机网络。为了简单起见，我们假设网络F具有链式结构。例如，F可以是[35]的VGGNet。考虑参考的卷积部分的后续块，并且不将它们定义为b0，b1，. . . ，bK−1. 该算法可以包括利用非线性和池化操作交织的一个或多个卷积层。然后，感知统计{fi（y），. . .，fK（y）}被计算为：f1（y）=b0（y）（2）fi（y）=bi−1（fi−1（y）），i=2，. . . ，K，（3）使得每个fi（y）是空间维度Wi×Wi的卷积映射的堆叠。尺寸Wi由前面的大小Wi−1以及s i d e b i中的srides和poo l inpe pera t e n s确定。我们的创新之处在于，我们可以从存储器中提取数据，即：e. Wi=Wi−1/2。图1显示了我们的数据库的总体结构。我们的鉴别器的关键新颖性是内置的感知统计fi（图像顶部），已知其擅长评估图像真实性[13，21，39]。在反向传播期间，到生成器的梯度流过感知状态，但是来自预训练用于大规模分类的网络的边界的参数。这稳定了训练，并且确保了具有“良好”特征的时间的精确性更详细地，所提出的鉴别器架构使用以下计算将感知统计组合在一起：h1（y）=f1（y）（4）hi（y）=stack[ci−1（hi−1（y），φi−1），fi（y）]，i=2，. . . ，K，（5）当堆栈驱动器不支持缓存操作时，所有缓存都具有可伸缩的参数φj（如果j=1，. . . ，K-1）是一个由多个字符串组成的字符串，每个字符串上有一个ReLUn，并有一个垂直的pol in opo因此，cjbl〇ck的E a c h将空间大小为WjXWj的地图堆叠变换为空间大小为Wj+1XWj+1的地图堆叠。因此，存储器和存储器操作位于存储器和/或存储器操作位于存储器中的相同位置。使用一系列具有可学习参数Φm的卷积层和全连接层来应用于所述预处理K（y），该方法严格地或输出了所述预处理k（y）的实际可行性。对于低分辨率图像，我们仅使用此概率进行实验。对于高分辨率，我们发现来自鉴别器的附加输出导致更好的分辨率。使用“p at chd i s crimim in at”或“i d e a”[19，42]，为了使每个功能都能实现，可以使用一个简单的配置+Leaky R e LU b l o c d j，它具有一个可扩展的部件ψ，它可以在所有的部件上实现p。我们重新定义了一个图像的正则对数近似值为对数D（y）≡对数基于感知鉴别器的图像处理7realwith：l〇 gD（y）= l〇 gdmin（y）+l 〇g d minΣ ΣJp∈Grid（Wj×Wj）l〇 gdj，p（y）（6）并非如此，在这种情况下，可能是严格的或“多尺度的”，因为对于不同的j，Wj上的空间分辨率不同。最近在[40，18]中也提出了在鉴别器内部的多个分类器的想法。与[40，18]不同，这些分类器是不相交的，在我们的架构中，所有这些分类器都是同一网络的不同分支，其下具有感知特征。在训练期间，特征网络F内的c个块的参数保持固定，而特征提取器ci的参数Φi和鉴别器di的参数Φ i在对抗学习期间被更新，这是为了使“正确”的校准信号与特征和特征的输出保持一致。因此，将所有感知项都加载到所有分类器中并将它们一起放入对抗性鉴别器中允许我们在未对齐的训练场景中使用这样的感知项。这种未对齐的序列一般不与“随机”部分相同。3.3架构细节参考网络。在多个先前的工作 [13 ， 37 ， 21] 之后，我们考虑在ILSVRC2012[32]上训练的[35]中的所谓VGG网络作为参考网络F。特别地，我们选择VGG-19变体，我们简单地将其称为VGG。虽然来自VGG的感知特征已经工作得很好，但是原始VGG架构可以进一步改进。Radford et.al[30]报告说，只要leaky ReLU避免稀疏梯度，在鉴别器中用leaky ReLU[17]出于同样的原因，将最大池化层更改为平均池化层可以消除反向传播梯度中不必要的稀疏性。根据这些观察，我们构建了VGG*网络，它特别适合对抗游戏。因此，我们采用在ILSVRC数据集上预训练的VGG-19网络，用平均池化替换所有最大池化层，用具有负斜率0的泄漏ReLU替换ReLU非线性。2，然后在ILSVRC数据集上训练另外两天。我们比较了基于VGG和VGG* 特征的方法的变体。发生器架构。对于图像处理实验，我们使用了Johnson等人提出的Transformer网络 [21]第20段。它由步长为2的M个卷积层、N个残差块[16]和M个上采样层组成，每个层将分辨率提高2倍。我们以允许最后一个残差块的输出具有足够大的感受野的方式设置M和N，但同时使生成器和鉴别器具有相似数量的参数。我们在[2]中提供了架构的详细描述。8D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky1稳定发电机。我们还使用了两种额外的方法来改善生成器的学习并防止其崩溃。首先，我们已经添加了身份损失[36，42]，其确保生成器不会改变输入，而不会从输入中发生。因此，下面的公式被添加到生成器的最大化目标：格Jid=−λidEyptargetλ¨y−G（y）¨L，（7）其中λid是控制权重贡献的元参数，并且· 表示逐像素L1度量。为了实现最困难的翻译任务的最佳结果，我们从CycleGAN [42]中找到了所需的循环思想。因此，我们训练两个生成器Gx→y和Gy→x，它们在相反的方向上并行操作（并与两个鉴别器联合操作），同时添加互易项，以确保映射Gx→y◦Gy→x和Gy→x◦Gx→y接近恒等映射。此外，我们注意到，使用外部特征作为用于判别器的输入尽管这是预期的，但由于我们的方法基本上对应于鉴别器的预训练，因此这种行为是GAN失败的案例之一[8]，并且在实践中会导致更难的任务的不良结果。因此，我们发现需要对生成器进行预训练以增加稳定性。对于图像翻译任务，我们将生成器预训练为自动编码器。此外，预训练生成器的必要性使得我们的方法无法在具有无条件生成器的DCGAN设置中操作在通过预训练和身份和/或周期损失的额外稳定之后，发电机变得不太容易崩溃。总的来说，在所得到的方法中，鉴别器既不容易压倒发生器（这通过身份和/或周期损耗来防止），发生器也不容易压倒鉴别器（因为后者总是能够访问感知特征，其擅长判断输出的真实性4实验实验验证的目标是双重的。主要目标是验证感知鉴别器的效果，与使用无法访问感知特征的传统鉴别器的基线架构相比第二个目标是验证我们的完整系统的感知鉴别器的基础上，以更高的分辨率和更少的数据处理更难的图像翻译/操作任务的能力。在我们的项目页面[2]上可获得大量其他结果。我们在CelebA数据集[25]上执行了大部分实验，因为它的大小，受欢迎程度和属性注释的可用性（该数据集包括超过200 k的粗略对齐图像，具有40个二进制属性;我们使用160×160的图像中心作物作为更难的图像翻译任务，我们使用CelebA-HQ [22]数据集，该数据集由CelebA图像的高分辨率版本组成，并且尺寸较小。最后，我们评估基于感知鉴别器的图像处理9输入DFI DCGANVGG-GAN（我们的）VGG*-GAN（我们的）CycleGAN FaceApp图2：所提出的系统以及中性→微笑图像操作的基线的定性比较。作为基线，我们展示了DFI（感知特征，无对抗训练）和DCGAN（相同的生成器，鉴别器中无感知特征）的结果。具有感知鉴别器的系统输出更合理的操纵。我们的模型对非人脸数据集的问题，如苹果到橘子和照片到莫奈纹理转移任务。实验在NVIDIA DGX-2服务器上进行CelebA的定性比较。尽管我们的贡献与特定的基于GAN的图像翻译方法无关，但我们选择了其中一种，提供了我们提出的修改，并将其与属性操作任务中的以下重要基线进行了比较：– DCGAN[30]：在这个基线GAN系统中，我们使用了图像平移模型，其中生成器和鉴别器仅使用对抗性损失进行训练。– CycleGAN[42]：这种基于GAN的方法学习两个互补变换，其中两个互补变换在两个域中是互补的。我们已经使用了所有– DFI[39]：为了变换图像，该方法首先通过将对应于输入图像的特征向量与使用两个域中的最近邻计算的移位向量相加来确定目标然后，如[ 28]中所示，使用基于优化的特征向量来产生所得到的图像。我们已经用了所有的代码。– FaceApp[1]：是非常流行的闭源应用，其以其过滤器（变换）的质量而闻名我们的模型由两个基本变量表示。10D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky表1：定量比较：（a）照相现实主义用户研究。我们展示了时间选择的特点，因为 “ 最佳”是照相现实主义和身份保护的综合因素(b)C2ST结果（交叉熵，越高越好）。（c）在每个类别的真实数据上训练的分类器的对数损失（越低越好）。详见正文。(a)用户研究−2(b)C2ST，×10(c)分类损失微笑年龄微笑性别头发颜色微笑性别头发颜色DFI [39]0.160.4<0的情况。1<0的情况。01<0的情况。011.30.51.14FaceApp [1]0.450.41––––––DCGAN [30]––0.60.030.060.61.52.33CycleGAN [42]0.030.045.30.350.491.20.82.41VGG-GAN––8.60.210.960.40.11.3VGG*-GAN0.360.155.20.241.290.70.11.24真实数据–––––0.10.010.56– VGG-GAN：我们使用DCGAN作为我们的基础模型。鉴别器具有单个分类器，并且不应用生成器预训练或正则化，除了前一节中提到的身份丢失之外。– VGG*-GAN：与之前的模型相同，但我们使用具有密集梯度的微调VGG网络变体。与国家的最先进的图像变换系统的比较，执行形成验证所提出的架构的竞争力（图2）。通常，我们观察到VGG*-GAN和VGG-GAN模型一致地优于DCGAN变体，实现了更高的有效分辨率并在所得图像中获得了更合理的高频细节虽然更复杂的CycleGAN系统也能够生成清晰的图像，但我们发现合成的微笑通常看起来不可信，并且与面部不DFI在属性操作方面是成功的，但通常会产生不希望的伪影，而FaceApp显示照片级真实感结果，但属性多样性较低。在这里，我们还评估了VGG编码器的密集梯度思想的贡献，并发现它提供了微小的质量改进。CelebA上的用户照相现实主义研究。我们还进行了非正式的用户研究的照片写实主义。该研究招募了30名与计算机视觉无关的受试者，并评估了VGG*-GAN、DFI、Cycle-GAN和FaceApp在微笑和衰老/年轻化变换上的照片真实感为了评估照片真实性，向受试者呈现在训练期间未见过的五张照片。在每个五元组中，中心照片是没有目标属性的图像（例如，图像中的图像）。G.中性表情的真实照片），而其他四张照片通过其中一种方法处理并以随机顺序呈现。然后，受试者被要求从他们认为最合理的四种操作中选择一种（无论是在现实主义还是身份保护方面而基于感知鉴别器的图像处理11输入Blon dhairBlackhairBronhair Gen derswapSmileon/off图3：Celeba-HQ数据集上256×256分辨率下VGG*-MS-CycleGAN属性编辑的结果网络已经被训练成在头发颜色、性别和微笑属性的值之间执行成对建议使用数字放大。更多操作示例参见[2]没有严格的时间限制，用户被要求尽可能快地做出选择每例受试者总共提供30个五联体，其中每个考虑的属性分配15个五联体。表Ia中的结果表明，VGG*-GAN是有竞争力的，并且特别是比比较中的其他前馈方法（CycleGAN）好得多，但FaceApp总体上是赢家。这需要注意的是，FaceApp的训练集可能比CelebA更大。我们还推测，FaceApp中微笑的多样性似乎更低（图2），这是本次用户研究中没有反映出来的不足之处。CelebA的定量结果。为了获得客观的性能指标，我们使用分类器双样本测试（C2ST）[26]来定量比较GAN与其他方法的鉴别器。对于每种方法，我们已经学习了一个单独的分类器来区分来自目标分布的真实图像的保留集和由每种方法产生的合成我们将保留集和假图像集分为训练和测试部分，将分类器拟合到训练集，并在表1b中报告测试集的对数损失。结果符合定性要求12D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky(a)（b）（c）（d）（e）（a）（b）（c）（d）（e）图4：我们比较了CelebA-HQ 256× 256男性和女性问题的鉴别器的不同架构。我们在CycleGAN的方式与LSGAN目标，并比较不同的鉴别器架构的所有架构(a)输入，（b）VGG*-MS-CycleGAN：（c）Rand-MS-CycleGAN：具有特征网络F的多尺度感知鉴别器，所述特征网络F具有带有随机初始化权重的VGG* 架构，（d）MS-CycleGAN：具有跨尺度共享的主干的多尺度鉴别器（如在我们的框架中），其中图像用作直接输入，（e）类似于Wang等人的单独的多尺度鉴别器。[40]。建议使用数字放大观察结果：由DCGAN和DFI产生的伪像容易被分类器检测到，导致非常低的对数损失。所提出的系统与更复杂的CycleGAN保持一致（在三个变换中的两个变换上更好），证明感知鉴别器可以消除对两个额外网络和周期损失的需求。此外，我们以与StarGAN [9]类似的方式评估了属性转换性能。我们已经在CelebA上训练了一个属性分类模型，并测量了合成数据和真实数据属于目标类的平均对数似然。我们的方法在三个面部属性中的两个上实现了比其他方法更低的对数损失（参见表1c）。更高的分辨率。我们在CelebA-HQ数据集上进一步评估了我们的模型。在这里，为了获得高质量的结果，我们使用所有提出的正则化方法。我们将我们的最佳模型称为VGG*-MS-CycleGAN，它对应于使用具有密集梯度的VGG* 网络作为编码器，基于VGG* 网络的多尺度感知器，CycleGAN正则化和生成器的预训练在CycleGAN之后，我们使用LSGAN[29]作为该模型的对抗性目标我们在256 × 256版本的CelebA-HQ数据集上进行了训练，并在图3中展示了属性操作结果。正如我们所看到的，我们的模型提供了照片级真实感的样本，同时捕获了属性之间的差异，即使与我们以前的测试相比，训练样本量更小（每个域几千个）和分辨率更高。为了确保我们每个人的贡献影响这些结果的质量，我们考虑了我们的鉴别器架构的三种变化，并将它们与Wang等人提出的替代多尺度鉴别器进行比较。[40]。而Wang et al.使用多个相同的鉴别器在不同的尺度上操作，我们认为这种架构在术语上具有冗余基于感知鉴别器的图像处理13输入CycleGAN VGG*-CycleGAN输入CycleGAN VGG*-CycleGAN图5：CycleGAN和VGG*-MS-CycleGAN在绘画照片翻译任务上的比较。它证明了我们的方法的适用性，超越人脸图像处理。见[2]的例子。并且可以通过将这些鉴别器组合成具有共享干线和单独的多尺度输出分支的单个网络（如在我们的方法中所做的）来减少到我们的架构。这两种变体都包括在内在图4中进行比较。此外，我们还考虑了Rand-MS-CycleGAN基线，该基线在特征提取器中使用随机权重，以便将VGG*架构作为特征网络F的贡献与其权重预训练对对抗训练成功的影响分开。而VGG部分内部的权重没有被冻结，因此对抗训练过程理论上可以在鉴别器中进化出良好的特征，我们无法使这个基线产生合理的结果。对于高权重的身份损失λid，生成的生成器网络产生几乎相同的结果而减小λid会导致严重的发电机崩溃。我们的结论是，架构本身不能解释感知鉴别器的良好性能（下面将进行验证），并且在特征网络中具有预训练的权重是很重要的。非人脸数据集。虽然我们评估的重点是面部属性修改任务，但我们的贡献适用于其他翻译任务，因为我们在本节中通过在最初评估Cycle-GAN的两个非面部域上与CycleGAN和VGG*-MS-CycleGAN架构进行定性比较来验证：图5中的艺术风格转换任务（Monet-photographs）和图6中的苹果-橙色转换（附图显示了代表性的结果）。为了实现公平的比较，我们在生成器中使用相同数量的残留块和通道，并且在我们的模型和原始CycleGAN中使用相同数量的下采样层和初始数量的通道。我们使用具有默认参数的 Cycle G AN 的所有信息。风格转换任务的结果与实验结果不一致。14D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky输入CycleGANVGG*-MS CycleGAN输入CycleGANVGG*-MSCycleGAN图6：显示了具有CycleGAN和VGG*-MS-CycleGAN的苹果橙翻译样品。推荐放大见[2]的例子。因此，对于更难的苹果到橙色任务，我们通常观察到感知鉴别器的性能更好。其他学习配方。上面，我们已经提供了对未对齐图像翻译任务的感知鉴别器想法原则上，感知鉴别器可以用于其他任务，例如：用于无条件生成和对齐的图像平移。然而，在我们的初步实验中，我们无法在适当调整的基线上实现改进特别地，对于对齐的图像平移（包括图像超分辨率），标准鉴别器架构和感知损失的附加组合这并不奇怪，因为对齐的存在意味着感知损失可以直接计算，同时它们也稳定了GAN学习。对于无条件的图像生成，我们的想法的一个天真的应用程序导致判别器，迅速压倒发电机在游戏的初始阶段，导致学习崩溃。5总结我们提出了一种新的对抗训练鉴别器架构，将感知损失的想法与对抗训练相结合。我们已经证明了它对未对齐图像翻译任务的有用性，其中感知损失的直接应用是不可行的。我们的方法可以被视为使用迁移学习的更一般思想的一个实例，因此可以使用更简单的判别学习公式来稳定和改进GAN和其他生成学习公式。鸣谢。这项工作得到了俄罗斯联邦教育和科学部的支持（拨款14.756.31.0001）。基于感知鉴别器的图像处理15引用1. Faceapp https://www.faceapp.com/（2018）2. 项目网页。 http://egorzakharov.github.io/perceptual_gan（2018）3. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络In：Proc.ICML. pp. 2144. Babenko，A.，Slesarev，A.，Chigorin，A.，Lempitsky，V.S.：图像检索的神经代码。In：Computer Vision - ECCV 2014 - 13th European Conference，Zurich，Switzerland，September6-12，2014，Pr oce edings，PartI. pp. 第5845. Benaim，S.，沃尔夫湖：单侧无监督域映射。In：Proc. NIPS. pp. 7526. Brock，A.，Lim，T.，Ritchie，J.M.，Weston，N.：神经照片编辑与intro-前瞻性对抗网络。CoRR abs/1609.07093（2016）7. 陈昆，Koltun，V.：具有级联细化网络的摄影图像合成。In：Proc.ICCV.pp. 15208. Chintala，S.，Denton，E.，Arjovsky，M.，Mathieu，M.：如何训练GAN ？让 GAN 工作的提示和技巧 https://github.com/soumith/ganhacks（2017）9. 崔，Y.，Choi，M.，Kim，M.，哈J Kim，S.，Choo，J.：Stargan：用于多域图像到图像翻译的统一生成对抗网络。在：Proc. CVPR（2018）10. 董，C.，Loy，C.C.，他，K.，唐X：学习深度卷积网络以用于图像更新。In：Pr oc. ECCV. pp. 18411. Dosovitskiy，A.，Brox，T.：生成具有感知相似性度量的图像是基于两个工作的。 In：Pr oc. NIPS. pp. 65812. Dosovitskiy ， A. ， Springenberg ， J.T. ， Brox ， T. ：学习使用convolutionneunenetwor ks生成椅子。 In：Pr oc. CVPR. pp. 153813. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络工作的图像风格转移。 In：Pr oc. CVPR. pp. 241414. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，C〇urville，A.，Bengio，Y.：Genertivea dver sarial nets.In：Proc.NIPS. pp. 267215. Goodfellow，I.J.：NIPS 2016教程：生成对抗网络。Corrabs/1701.00160（2017）16. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习CoRRabs/1512.03385（2015），http://arxiv.org/abs/1512.0338517. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：在imagenet分类上超越人类水平的性能。在：2015年IEEE国际计算机视觉会议，ICCV 2015，智利圣地亚哥，2015年12月7日至13日。pp. 102618. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的映像组件。ACMTrans. Graph. 36（4），107：119. Isola，P.，Zhu，J.，周，T.，Efros，A.A.：使用条件驱动器的图像到图像转换是一项复杂的工作。 In：Pr oc. CVPR. pp. 596720. Jain，V. Seung，S.：使用卷积网络进行自然图像去噪。见：Proc.NIPS. pp.76921. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：Pr oc. ECCV. pp. 69422. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。CoRR abs/1710.10196（2017）16D. Sungatullina*、E.Zakharov*，D.Ulyanov和V.Lempitsky23. 金，J.，Kwon Lee，J.，Mu Lee，K.：精确的图像超分辨率，使用非常精细的图像处理。 In：Pr oc. CVPR. pp. 164624. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A.Acosta，A.Aitken，A.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片级真实感单幅图像超分辨率。In：Proc. CVPR（2017）25. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性。在：Proc.ICCV（2015）中26. Lopez-Paz，D.，Oquab，M.：重新审视分类器双样本检验。arXiv预印本arXiv：1610.06545（2016）27. Lucic，M.，Kurach，K.，Michalski，M.，Gelly，S.，Bousquet，O.：GAN是平等的吗？一项大规模的研究。CoRR abs/1711.10337（2017）28. Mahendran，A.Vedaldi，A.：通过反转来理解深层图像表示见：Proc.CVPR（2015）29. 毛泽东，李，Q.，谢，H.，Lau，R.Y.K.，Wang，Z.：具有L2损失函数的多类生成对抗网络CoRR abs/1611.04076（2016）30. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习CoRR abs/1511.06434（2015）31. Razavian，A.S.，Azizpour，H.，Sullivan，J.，Carlsson，S.：CNN特色现成：令人震惊的认可基准。在：IEEE计算机视觉和模式识别会议，CVPR研讨会2014，美国俄亥俄州哥伦布，2014年6月23日至28日。pp. 第51232. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A.伯恩斯坦，M.S.，Berg ， A.C. ， Li ， F. ：图像网大规模视觉识别挑战。 CoRRabs/1409.0575（2014），http://

下载后可阅读完整内容，剩余1页未读，立即下载