非成对数据的高分辨率语义图像编辑

22 浏览量更新于2023-10-23 收藏 1.33MB PDF 举报

深度神经网络

鸟类数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5356The GAN that Warped：使用不成对数据进行语义属性编辑GaroeDorta 1，2SaraVicente 2Neill D. F. 坎贝尔1IvorJ.A. 辛普森2，31巴斯大学2人类学技术有限公司。3University of Sussex{g.dorta.perez，n.campbell}@sara@anthropics.comi. sussex.ac.uk bath.ac.uk(a)输入图像（以前未见过）（b）用户请求编辑：“beak larger than head”（c）用户请求编辑：“喙比头小”图1：高分辨率（2480×1850）下的语义图像编辑。用户请求语义属性和输入图像的改变(a)被我们的方法自动转换成，例如，“喙大于头”（b）或“喙小于头”（c）的图像。的原始输入的内容（包括精细细节）被保留。我们的重点是人脸编辑，如以前的工作，但该方法是通用的，足以适用于其他数据集。请参阅这些和其他编辑视频的补充材料。(Zoom详情请参阅）1摘要深度神经网络最近已被用于编辑图像，并取得了巨大成功，特别是对于面部。然而，它们通常仅限于能够在有限的分辨率范围内工作。许多方法是如此灵活，面编辑往往会导致不必要的身份损失。这项工作提出了学习如何执行语义图像编辑，通过应用程序的平滑翘曲字段。先前尝试使用变形进行语义编辑的方法需要成对的数据，即。具有不同语义属性的相同主题的示例图像。相反，我们采用了生成对抗网络的最新进展我们演示了在非常高的分辨率（4k图像）下进行面部编辑，并以较低的分辨率对深度网络进行单次前向传递我们还表明，我们的编辑是实质上更好地保留主题我们的方法的鲁棒性通过在Cub200 [32]鸟类数据集上显示合理的图像编辑结果来证明据我们所知，由于数据集的挑战性，这在以前还没有完成。1图片由Flickr用户Christoph Landers提供。1. 介绍人脸编辑在计算机视觉中有着悠久的历史[20，23，30]，并且随着人们为自己或他人拍摄的照片数量的增加而变得越来越重要。所执行的编辑类型通常操纵语义属性，诸如移除小胡子或将主体在过去的几年里，深度学习方法已经成为大多数编辑任务的标准，包括修补[24]和超分辨率[17]。特别地，已经提出了图像到图像转换方法[14]，其学习如何将图像从源域变换到目标域。Cycle-GAN [39]允许从未配对的数据中学习这种转换，即对于数据集中的每个源图像，不需要对应的目标图像。我们感兴趣的是真实感图像编辑，这是图像到图像翻译的一个子集。我们还着重于为用户提供一个简单的界面来编辑图像的方法，即。每个语义属性都有一个单独的控件[5，26]，因为这使得新手用户更容易编辑。当前编辑方法[14，5，35]的缺点是它们专注于二进制属性更改。为了允许部分编辑，通常需要大量的软属性此外，在推理时，每个中间值都需要前向传递5357网络，增加计算费用[26]。大多数用于图像编辑的深度学习方法直接预测结果图像的像素值[5，6，25，26]。因此，这些方法仅对具有与训练数据相似的分辨率的图像有效。最近，一些有趣的方法，使ed-its在更高的分辨率已经提出.他们通过以固定分辨率估计编辑，然后将其应用于更高分辨率的图像来进行。可能的编辑类型限于扭曲[35]或局部线性颜色变换[10]。然而，这些方法受到需要成对数据的限制，即。对于数据集中的每个源图像，他们需要相应的编辑图像。受这些高分辨率方法的启发，我们引入了一种方法来学习平滑的翘曲场，用于语义图像编辑，而不需要成对的训练数据样本。这是通过利用来自Cycle-GAN[39]方法的具有循环一致性检查的未配对数据的学习编辑的最新进展来实现的我们提出的模型使用与StarGAN [5]（Cycle-GAN的扩展）类似的框架来预测扭曲场，这些扭曲场转换图像以实现所需的边缘。由于预测的扭曲场是平滑的，因此它们可以被简单地上采样并以高分辨率应用。一个潜在的批评是，通过扭曲可能进行的编辑类型有明显的限制。我们认为，对于可以用这种方式描述的变化，有几个明显的好处。相对于基于像素的模型使用扭曲的优点可以概括为：i. 平滑扭曲场可以被上采样并应用于具有最小保真度损失的更高分辨率图像。这与上采样图像相反，上采样图像通常会导致不真实的高频细节。我们使用向上缩放的扭曲场显示合理的编辑，高达30倍的分辨率，他们估计。ii. 几何变换是图像变换模型的一个子集这些模型可以更容易地添加先验，以针对不切实际的编辑进行正则化。我们证明，通过扭曲编辑导致一个模型，是更好地保留一个主题iii. 翘曲场比像素差异更容易解释。我们用显示局部拉伸或挤压程度的地图来说明这一点。iv. 扭曲字段比基于像素的方法更适合于允许部分我们展示了最简单的实现这一点，通过缩放扭曲字段，以显示插值和外推，并定性显示编辑是合理的。这项工作的另一个贡献是提高了基于StarGAN的模型中编辑属性的特异性。我们已经观察到，当这些模型用几个二进制标签训练时，它们可以在-方法非配对数据高分辨率向前传球StarGAN [5]JJ[25]第二十五话JJWG-GAN [9]JFlowVAE[35]JJCWF [8]∼JDBL [10]JJiGAN [38]J∼DFI [31]J∼RelGAN [33]JJSPM+R [34]J∼J我们JJJ表1：与以前的图像到图像转换工作相比，我们的模型是唯一一个能够在网络的单个前向传递中编辑高分辨率图像的模型，而无需配对训练数据。部分满足标准的情况表示为“不符合”。图像的贡献，即使只有一个属性应被编辑。这是由于模型没有指示应该编辑的属性，只有最终预期的标签。例如，当放大具有轻微微笑的对象的鼻子时，模型不仅使鼻子更大，而且使微笑更突出。为了克服这个限制，我们建议转换标签，以通知模型哪些属性应该编辑，哪些应该保持固定。这只会产生预期的更改，并且不需要任何额外的标签注释。此外，它消除了在推理过程中依赖标签分类器的需要。我们通过操纵面部表情和语义属性提供定量和定性结果来展示我们的贡献的优势。2. 以前的工作这项工作建立在最近的图像到图像翻译的工作。这些模型可用于修改图像的语义属性我们的新颖之处在于将这些编辑描述为平滑的变形场，而不是产生全新的图像。平滑扭曲场可以被上采样并应用于更高分辨率的图像，同时保真度损失最小一些允许高分辨率编辑的先前工作依赖于成对的数据示例或需要昂贵的优化，而不是网络的单个前向传递;对于所提出的方法来说，这两个都不是必需的。与先前方法相比，我们的工作的特征概述如表1所示。2.1. 图像到图像翻译Pix 2 Pix [14]模型学习使用adversar-ial loss [11]将图像从源域变换到目标域这种方法需要成对的训练数据;I.E.源域中的每个图像必须在目标域中具有相应的图像鉴于这一限制，5358该方法通常应用于收集配对数据更容易的问题，例如着色。已经提出了几种扩展来执行图像到图像的转换，而不需要配对的数据。在Cycle-GANs [39]中，从源域到目标域训练两个生成器，反之亦然，生成过程中存在周期一致性损失。然而，这不能很好地随着域数量的增加而扩展，因为每个域对需要2个生成器和2个鉴别器。StarGAN [5]通过在域向量上调节生成器来解决这个问题，并将域分类输出层添加到域向量。这些模型可以在一个域中找到不需要的相关性，这会导致图像中意外部分的变化。为了鼓励本地化编辑，已经探索了至少两种技术。使用残留图像编辑[28]，并将更改限制在由掩码给出的区域[22，26]。第一种是描述形状变化的编辑的过于复杂的表示。它必须对区域中的内容进行建模，减去它，然后在第二个区域中添加它。第二种方法通过添加一个无监督的掩码预测网络来显着复杂化模型。在本出版物之前，已经提出了StarGAN的两个相关扩展：[33]和SPM+R [34]。RelGAN提出了一种类似于我们的二进制标签转换方法。然而，他们的方法是使用条件对抗损失进行训练的，该损失采用由两个图像和一个变化属性向量组成的三元组相比之下，我们的方法使用了一个更简单的分类损失，其中只有修改的属性计数。RelGAN还支持部分编辑，但它需要对每个编辑强度进行网络的前向传递。相比之下，我们的方法平凡地使部分编辑的结果是通过扭曲执行的编辑。与我们的工作类似，SPM+R建议使用扭曲功能来编辑图像;然而，这之后是图像修复，其不是分辨率不可知的。他们没有展示他们的编辑方法，高分辨率图像（>512×512），或更复杂的数据集，如Cub200。另一个区别是，而不是使用一个简单的平滑损失，因为我们建议，他们使用一个扭曲场扭曲。它们产生的扭曲场看起来比我们的方法获得的弯曲场要不那么平滑和稀疏。2.2. 编辑高分辨率图像用于以高分辨率编辑图像的方法可以分为两类：（i）使用被设计为良好上采样的中间表示的那些，以及（ii）直接预测高分辨率下的像素值的那些。设计用于上采样这些方法基于预测对图像分辨率相对不可知的受约束的中间表示; e.G.扭曲场或局部颜色仿射变换。扭曲场如果足够平滑，则可以以较低的分辨率预测，上采样并以最小的精度损失以高分辨率应用。以前的工作已将其应用于：重定向眼睛凝视[8]，编辑情感体验[35]和在新视图中合成对象[37]。然而，这些方法需要成对的训练数据。空间Transformer GAN [18]预测图像合成的全局仿射变形。尽管变形可以以任意分辨率应用，但是通过合成进行的面部编辑是有限的，因为它需要合适的面部部分的不可行的大数据集来用作前景图像。局部仿射颜色变换[4，10]已经从低分辨率图像中预测并应用于原始分辨率。然而，这些方法需要成对的数据，并且进行语义更改的能力有限。Blendshapes已被用作中间表示，用于在视频重新显示的上下文中编辑表达式[29，21]。与我们的方法类似，混合变形权重与分辨率无关。然而，融合变形人脸模型需要几个iGAN [38]不是预测中间表示，而是训练低分辨率GAN，然后将密集扭曲场和局部仿射颜色变换拟合到一对输入输出图像。GAN生成器不知道这些受限制的转换，因此它可能会学习这些转换无法表示的编辑。已经提出了几种技术来将深度图像合成方法扩展到更大的分辨率。其中包括：在增加分辨率的金字塔中合成图像[7]，采用在补丁上训练的完全卷积网络[17]，并直接以全分辨率[3，15]。这些方法已成功应用于图像增强[13]和面部编辑[25，9]。直接或基于金字塔的方法的局限性在于，它们不能很好地随分辨率缩放，而对补丁的训练假设编辑不需要全局图像信息。在[31]中提出了一种方法，该方法通过遵循预训练分类网络的梯度方向来修改图像，然而，当输入分辨率与训练数据显著不同时，这种方法会失败在WG-GAN [9]中，输入图像基于目标图像进行扭曲，然后使用两个GAN生成器来合成新内容。与我们的方法相反，WG-GAN在训练期间需要配对数据，不能以任意分辨率应用，不提供语义控制，不支持部分编辑。3. 背景我们首先回顾 GAN [11] ， Cycle-GAN [39] 和StarGAN [5]，因为后者是我们模型的基础。5359图2：我们的模型概述，它由生成器G和生成器D组成。生成器包含一个翘曲网络W和一个翘曲算子T。W的输入是RGB图像x和变换后的标签向量r，c。输出是一个稠密的warp场W，T可以使用它来变形输入图像并产生输出图像x′。标签操作符B将转换后的标签c′转换为二进制标签c′。该算法评估输入图像x和生成图像x'的真实性以及是否存在与标签一致的属性。在这个例子中，c和c之间唯一的变化是属性的标签“big nose”。生成对抗网络（GAN）[11]模型iii. 循环一致性损失：由发电机和整流器两部分组成。生成器生成类似于数据分布的样本Lc=E（x，c），c[x−G（G（x，c<$），c）<$1]，（4）实例，并将数据样本iv. 和域分类损失：是真是假训练师和真正的前-从训练集中提取的样本和假样本，dcls=E（x，c）[−log（C（x，c））]（5）发电机的输出。发电机被训练成GCLS=Ex，c<$[−lo g（C（G（x，c<$），c<$））]，（6）将生成的样本分类为真实样本。形式上，GAN是由一个极大极小游戏目标定义的minGmaxDEx[log （ D （ x ）） ]+Ez[log （ 1−D （ G（z）]，（1）其中x是来自数据集经验分布的样本p（x），z是从任意分布p（z）中抽取的随机变量，G是生成元，D是随机数。给定两个数据域A和B，Cycle-GAN [39]学习一对变换G：A→B和H：B→A. 与以前的方法不同，[14]，这不需要例如，它可以使用来自A和B的成对样本，而是使用循环一致性损失（xa−H（G（xa））1，其中xa是来自域A的样本图像）来学习保留合理数量的图像内容的相干变换。域B使用等效循环损耗。Cycle-GAN模型的局限性在于它们对于每个域对需要2个发生器和2个鉴别器。StarGAN [5]将Cycle-GAN推广为仅需要单个生成器和转换器来在多个域之间进行转换。这里，每个图像x都有一组域，表示为二进制向量c。我们使用（x，c）来表示从带注释的数据分布中采样的对。生成器G（x，c<$）将x变换为与目标匹配的值。干线用c′p（c）表示，其中p（c）是经验的域分布该模型使用以下内容进行训练：i. a Wasserstein GAN [2]损失：Ladv=Ex[D（x）]−Ex，c<$[D（G（x，c<$））]，（2）ii. a Wasserstein梯度惩罚[12]项：LL5360其中，C（x，c）是输出x具有相关联的域c的概率的分类器，并且x是沿着真实图像和伪图像之间的线均匀采样的分类器是在训练集上训练的（等式2）。（5）Eq。6确保翻译后的图像与目标域匹配。4. 方法我们的目标是学习可以在没有配对训练数据的情况下应用于任意尺度的图像变换。我们的系统概述如图2所示。我们采用StarGAN框架作为我们模型的基础，并使用上面介绍的符号。当我们专注于语义面编辑时，我们使用模糊的语义属性或二元标签来引用域c和c′。变形参数化我们修改生成器，使得变换集仅限于输入图像的非线性变形：G（x，c<$）=T（x，W（x，c<$）），（7）其中W（x，c<$）=w是生成warp参数的函数T是将扭曲应用于图像的预定义扭曲函数。选择W作为神经网络。我们采用密集的翘曲参数化，其中w包含输入图像中每个像素的位移向量。在训练时，T根据生成的位移场w使用双线性插值来扭曲输入为了提高图像质量在推理时，我们使用双三次插值。4.1. 学习Lgp=ExstecΣΣ（xstecD（xstecD）2−1）2、（3）我们使用相同的对抗性损失（eq. 2和eq. 3）和域分类损失（eq.（5）星。53612CLSWarp cycle loss周期一致性损失（等式1）4）被修改以产生反向一致的扭曲场，即，前向和后向变换的组合产生恒等变换：输入WarpGAN+SGFlow0. 15Lc=E（x，c），cΣǁT(T(A,w),w¯))−Aǁ2Σ,(8)图3：采用密集流方法[36]将其中w<$=W（G（x，c<$），c），A是双通道图像，其中每个像素取其坐标值。这种损失比情商更能说明问题。 4，因为像素损失不提供恒定颜色区域内的翘曲的信息。平滑度损失扭曲网络估计每个像素的独立变形。因此，没有瓜尔-《明史》（卷155）：“λ = 0时流量法的结果。05，λ= 0。15显示。StarGAN已经将输入编辑到这样的长度，以至于流方法无法找到输入和输出之间的良好对应关系。完整目标整流器和发电机的联合损耗定义为这意味着学习的扭曲将是平滑的。因此，在翘曲梯度上添加L2惩罚以鼓励LD=−L Adv+λgp L糖蛋白+λclsdcls 、（11）平滑度在实践中，有限差分近似被用作LG=Ladv+λclsLg+λcLc+λsLs，（12）ΣΣLs=Ex，c<$1Σwi+1，j−wi，j <$2+其中λcls、λgp、λc和λs是超参数，控制每种损失的相对强度分类损失n（i，j）22（九）由方程式10是用于图像与几个不相互ex.其中，n是扭曲场中的像素数，wi，j是像素坐标（i，j）处的位移向量。二进制标号变换如第1节所述，StarGAN类型模型可能会在以下情况下进行意外编辑：修改属性。在推理时，属性分类器用于推断原始标签。根据所需的编辑，这些标签会被更改或复制到目标向量。这意味着模型无法区分编辑的属性和复制的属性。因此，模型倾向于强调复制的属性。为了解决这个问题，我们建议显式地指示生成器应该编辑哪些属性。发电机的标签被转换为包含三个值-ues，[-1，0，1]，其中-1表示属性应该被反转，0表示属性应该保持不受影响，1表示属性应该被添加。这种方法有两个明显的好处。首先，它导致更多的本地化编辑。其次，它消除了在推理过程中对分类器的需要，因为转换后的目标标签中未编辑的条目可以设置为零。发电机的分类器损失（等式6）修改为只惩罚应该编辑的属性：互斥的二进制属性，和eq. 六是以其他方式使用。4.2. 推理一旦模型参数被优化，任意大小的输入图像可以在网络的单个前向传递中被编辑调整输入图像的大小以匹配训练数据的分辨率，并且根据所需的编辑来设置变换的目标标签c然后，调整大小的图像和目标标签被送入变形网络，产生合适的变形场w。扭曲场位移向量被重新缩放和重新采样到原始图像分辨率。最后，使用重新采样的扭曲场扭曲原始图像以产生最终编辑的图像。5. 结果5.1. 数据集我们在人脸数据集CelebA [19]和鸟类数据集Cub200[32]上评估了我们的方法和基线CelebACelebA [19]数据集包含202，599 im-gcls =Ex，cΣΣr−1−hi=0时Σ|吉吉|log（C（G（x，c_i），c_i））、（10）我们使用作者推荐的训练/测试分割。重要的是，从提供的40个二进制属性中，我们选择了那些更容易被字符化的属性其中，c是变换后的目标标签，r是属性的数量，并且h=r/c是归一化因子，其确保相对于属性的数量没有偏差。编辑属性。在训练过程中，每个属性的变换目标标签ci独立于概率为[0]的分类分布进行采样。25，0。5，0。25]。由于分类损失需要两种类型的标签使用标号运算符c′i=B（c′i）来逆逆运算，定义为B（−1）=0和B（1）=1。B（0）是不确定的，因为它的损失是零的建设。StarGAN [5] SGFlow0. 05LL5362以翘曲为特征，即：微笑，大鼻子，拱形眉毛，细眼睛和尖鼻子。Cub200数据集包含200种鸟类的11，788张图像。这些图像用312个二元属性和鸟体的语义掩码进行注释。我们选择了三个二进制属性，对应于喙大小相对于头部，并使用语义掩码删除背景。采用了作者推荐的训练/测试分离方法由于下面讨论的对齐步骤，仅2，325个图像用于训练。5363输入编号大拱形窄无尖输入微笑大拱形窄无尖微笑鼻子眉毛眼睛鼻子鼻子眉毛眼睛鼻子0的情况。59/0. 990. 36/1. 000. 79比098069/1。000的情况。76比1。000. 58/1。000的情况。76比0 990的情况。29/1。000的情况。61/1。000的情况。86比0 010的情况。76比1。000. 76比0 990. 79比0 990. 81/0。870。84/1。000. 79/1。000的情况。76比1。000的情况。39/1.000的情况。82/1。000的情况。85/0。730的情况。83比0 970的情况。77比1 000的情况。八九比零990的情况。90/1 000的情况。87/1。000. 86比0 940的情况。72/1。000的情况。65/0。990. 81/0。880。85/0。75图4：与CelebA数据集上先前工作的比较。对于给定的输入图像，第一列，每个方法尝试在其对应的列中传输语义属性重新识别分数和属性概率在每个图像的顶部被示为（id/cls）我们的方法编辑输入图像的属性，同时更好地保留主体的身份。[5]第五届全国政协副主席输入喙小喙大喙小比头比头比头喙较大比头部输入喙较小喙较大喙较小喙较大比头比头图5：与Cub200数据集上以前工作的比较。每个模型尝试将每列中的属性（相对喙大小）传输到输入图像。StarGAN无法在这个数据集上产生高质量的编辑，而我们的模型以更合理的方式编辑输入图像。由于这个数据集的性质更加复杂，我们的模型仍然难以产生无伪影的转换。该模型在原始图像分辨率下的结果，并且没有掩蔽背景，可以在补充材料中找到人脸对齐对于这两个数据集，我们在训练和测试时都使用人脸地标位置来对齐图像，并使用全局仿射变换将图像大小调整为128×128。在测试时，仿射的逆变换用于变换扭曲场。然后将扭曲直接应用于原始图像。这与先前的方法相反，先前的方法将编辑对齐的图像，然后将编辑的图像扭曲到原始空间。对于测试集之外的图像，可以使用现成的方法[16]将它们与数据集对齐。5.2. 模型我们的主要基线是StarGAN [5]，这是一种最先进的图像到图像转换模型。我们定义了三个新的模型来评估我们的贡献。WarpGAN去注释输出扭曲场的模型.后缀“+”表示采用我们的二进制标签转换方案的模型。因此，StarGAN+评估标签转换的效果，WarpGAN+是我们最终提出的模型。我们的模型的一个明显的替代方案包括将稠密流场拟合到StarGAN生成的结果。我们使用[36]中描述的密集光流匹配技术对其进行了测试，我们将此方法表示为SGFlow。SGFlow的一个例子如图所示。3，采用opti- cal flow[36]。当没有找到良好的对应时，基于光流的翘曲可能导致伪影。限制StarGAN生成适合光流估计的图像并非易事。因此，本实验表明，将StarGAN模型的结果应用于更高分辨率图像的简单方法因此，我们在剩下的实验中放弃了SGFlow我们还使用作者提供的代码试验了GANimation [26]方法。然而，我们无法生成有意义的结果时，训练的方法与二进制属性。我们怀疑，是由于该方法所有模型都使用TensorFlow在单个Titan X GPU上训练[1]。模特超-StarGAN+WarpGAN+StarGAN [5]5364MMα= −0。25α = 0α = 0. 2α= 0。4α= 0。6α = 0。8α = 1。0α= 1。25输入拱形的眉毛拉伸叠加贴图1.000.750.500.250.00––––图6：使用我们的模型对“smile”属性进行部分编辑。我们的模型生成了一个单一的扭曲，通过将其值的大小缩放α来插值和外推。输入图像，α= 0，在两个方向上逐步编辑。参数为：λcls=2，λgp=10，λc=10和λs=125。对于StarGAN基线，我们采用了作者提供的实现，其中我们保留了除λ cls = 0之外的所有推荐超参数。二十五对于StarGAN和我们的模型，λcls的选择是由图1所示的结果8. 附加实现详情见补充材料。5.3. 定性结果我们在图中显示了CelebA数据集的定性结果。4.第一章对于每个输入图像，我们显示与更改单个属性相对应的编辑图像。StarGAN [5]经常改变与扰动属性无关的特征，例如肤色或背景颜色。StarGAN+比Star-GAN产生更多的本地化编辑。WarpGAN+编辑然而，对于大多数编辑，我们的技术产生的变化是不那么夸张，更好地保持主体的身份。掩蔽和对齐的Cub200数据集的定性结果如图所示五、我们的方法是能够转移相应的属性，虽然有时产生不现实的额外变形。与CelebA相比，StarGAN的低质量结果可能归因于该数据集的复杂性增加和图像数量减少这是一个慷慨的比较，因为预测的扭曲场可以应用于具有复杂背景和更高分辨率的原始图像，如补充材料中所示图1展示了在比直接方法所能达到的高得多的分辨率下的编辑。请参阅动画编辑的补充材料，更多的结果和更多的失败案例。部分编辑我们的模型的另一个优点是，一旦为输入图像计算了扭曲场，就可以通过简单地按标量α缩放预测的位移向量来应用部分编辑。插值结果1.000.750.500.250.00––––图7：针对WarpGAN和WarpGAN+，从warp字段计算的拉伸贴图。显示了翘曲雅可比矩阵的对数行列式，其中蓝色表示拉伸，红色对应于挤压。我们的二进制标签转换方案，WarpGAN+使用，导致正确的本地化编辑。quire为每个新的α值运行网络，与之前允许部分编辑的方法相反[26];这允许以交互速度执行编辑。我们模型的另一个优势是其编辑的可解释性。这一点在图中得到了证明。7，其中我们示出了翘曲场的雅可比行列式的对数行列式，其示出了图像挤压和拉伸。可以看出，采用我们的二进制标签转换方案如何导致更多的本地化编辑。此外，来自拉伸图的值可以潜在地用于自动确定哪些区域被网络过度拉伸或压缩。因此，它们提供了一种直观的测量来检测不切实际的编辑。5.4. 定量结果定量评估对我们的环境具有挑战性我们提供两种方法：第一种是基于单独训练的网络来测量模型性能，第二种是用户研究以估计感知质量。准确性与身份保留我们在训练数据上训练一个单独的分类器，以定量估计编辑后的图像是否具有所需的属性。分类器具有与训练器相同的架构，并且使用eq的交叉熵损失进行训练。五、我们还使用预训练的人脸重新识别模型[27]，以评估编辑是否保留身份。2两个实验的结果如图所示。8，理想的编辑模型将位于右上角。在x轴上，我们显示了分类为havallingthetargetattrib ute（属性准确度），定义为1[C（x，c<$）≥0. 5]，其中m是im的总数年龄在y轴上，示出了同一性保留分数，其被评估为1−1d（x，x′），其中d（·）是L2FEA中输入和编辑图像之间的距离人脸再识别网络的真实空间。的距离以及我们模型产生的曲速场的外推示于图六、这是一种廉价的操作，因为它不会重新2其他细节可以在补充材料中找到。WarpGAN+WarpGAN53651.00.80.60.40.21.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0属性准确度0.00.0 0.2 0.4 0.6 0.8 1.0属性准确度图8：编辑属性的存在（x轴）与面部重新识别分数（y轴），越高越好.分类损失权重λcls显示在每个标记的顶部。以灰色突出显示的是StarGAN作者为此数据集使用的值，紫色是本文中使用的值。与以前的工作相比，我们的模型产生更好地保留身份的编辑。大于1. 2分（低于-0分）。2）已被用于表示两张脸属于不同的人[27]。在属性转移和识别分数之间存在权衡。在一个极端，具有目标属性并且与原始面部不匹配的新面部将以负身份得分实现最大属性准确度另一方面，不修改图像具有最大的同一性得分，但它没有达到目标编辑。相对于StarGAN，我们的二进制标签转换方案（StarGAN+）将曲线移向具有可比身份评分的更高属性我们的变形方法（WarpGAN+）比StarGAN+允许更强的身份保护总的来说，我们的方法比以前的工作更好地保留了身份，类似的属性转移水平。此外，我们根据这些结果选择了λcls：选择导致高准确性和同一性得分两者的值。准确性与真实性我们在 Ama- zon Mechanical Turk（MTurk）上进行了一项用户研究，以评估StarGAN、StarGAN+和我们的模型生成图像的质量对于每种方法，我们使用来自CelebA的相同的250个测试图像，并为每个图像编辑相同的属性。我们进行了两个实验，一个是评估图像的真实性，工作人员必须回答呈现的图像是真的还是假的，另一个是评估属性编辑，我们问工作人员图像是否包含目标属性。在这两个实验中，工人们每次都被随机展示一张图片：一张编辑过的图片或一张未经修改的原始图片。2该用户研究的结果如图所示9 .第九条。一个有用的编辑模型具有高度的真实感，并能产生目标编辑。对于真实数据，工作人员可靠地评估了图像的真实性，但它们通常与属性标签不一致。尽管如此，工人在真实数据上的表现不应被视为上限，因为所有方法都倾向于生成夸大的编辑，以最大化图9：人类对所需属性（属性准确性）的感知与图像的真实性，如用户研究所示由我们的模型生成的图像比以前的工作生成的图像更真实。正确分类。对于编辑模型，属性准确度与图1中的分类器网络报告的一致。8.然而，身份得分和现实主义并不一致，因为它们衡量的是不同的概念。图像可能仅包含身份网络不变的小编辑，但这些编辑可能包括人类可以容易检测到的不切实际的所有编辑模型都实现了良好的属性传递精度，主要在现实主义轴上有改进的余地。我们的模型（Warp- GAN+）在大多数属性上都实现了这一点，并且能够生成比以前的工作更逼真的图像。6. 结论本文介绍了一种新颖的方法来学习如何使用扭曲字段从未配对的数据执行语义图像编辑。我们已经证明，尽管可以单独使用扭曲描述的编辑集有限制，但以这种方式建模编辑有明显的优势：它们更好地保留了主题的身份，允许部分编辑，更易于解释，并且适用于任意决议。此外，我们的二进制标签转换方案导致提高性能，并消除了在推理过程中使用分类器的需要。对于未来的工作，可以添加上采样良好的中间表示以增加模型灵活性，例如局部颜色变换[10]。此外，修复方法[24]可以局部应用于过度扭曲的区域，这可以使用扭曲场的雅可比矩阵的对数行列式确认这项工作得到了Anthropics Technology Ltd.的慷慨支持，以及EPSRC CDE（EP/L016540/1）和CAMERA（EP/M023281/1）赠款。0.1身份评分StarGANStarGAN+WarpGAN+真实平均微笑大鼻子拱形眉毛窄眼睛尖鼻子0.1120.10的情况。25100.250.50.511StarGAN+WarpGANReal+现实主义5366引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis，Jeffrey Dean，Matthieu Devin，et al.张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。6[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络第34届国际机器学习会议论文集，第70卷，第214-223页。PMLR，2017年8月6日至11日。4[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。3[4] Jiawen Chen ， Andrew Adams ， Neal Wadhwa ， andSamuel W. 哈辛诺夫双边引导上采样。 ACM Trans.Graph. ，35（6）：203：1-203：8，Nov. 2016. 3[5] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二、三、四、五、六、七[6] Tali Dekel，Chuang Gan，Dilip Krishnan，Ce Liu，andWilliam T.弗里曼。稀疏的智能轮廓来表示和编辑图像。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[7] Emily L Denton，Soumith Chintala，arthur szlam，andRob Fergus.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。In C. Cortes，N. D. Lawrence，D. D.李，M。Sugiyama和R. Garnett，editors，Advances in NeuralInformation Processing Systems 28 ， pages 1486CurranAssociates，Inc. 2015. 3[8] 雅罗斯拉夫·甘宁，丹尼尔·科诺年科，戴安娜·桑加图利娜，维克多·伦皮茨基。Deepwarp：用于凝视操作的真实感图像在Bastian Leibe，Jiri Matas，Nicu Sebe和MaxWelling，编辑，计算机视觉施普林格国际出版社. 二、三[9] 耿嘉豪，邵天嘉，郑友谊，翁彦林，周坤。用于单张照片面部动画的翘曲引导甘斯。在SIGGRAPH Asia。ACM，2018。二、三[10] Mi c ha e？ lGharbi ，Ji a wenChen ，JonathanTBarron ，SamuelWHasino f f，andFre？doDurand. 用于实时图像增强的深度双边学习 ACM Transactions on Graphics（TOG），36（4）：118，2017。二、三、八[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页二、三、四[12] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在重症盖永V. Luxburg，S. 本吉奥H. 瓦拉赫河 Fergus ， S.Vishwanathan 和 R.Garnett ，Editors ， Advances in Neural Information ProcessingSystems 30，第5767-5777页Curran Associates，Inc. 2017.45367[13] Andrey Ignatov，Nikolay Kobyshev，Radu Rifte，Ken-neth Vanhoey，and Luc Van Gool. Wespe：弱监督数码相机照片增强器。arXiv预印本arXiv：1709.01118，2017。3[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros. 使用条件对抗网络的图像到图像翻译。CVPR，2017年。一、二、四[15] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的逐步增长，以提高质量，稳定性和变化。在2018年国际学习代表会议上。3[16] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，10：1755-1758，2009。6[17] Christian Ledig 、 Lucas Theis 、 Ferenc Huszar 、 JoseCaballero 、 Andrew Cunningham 、Alejandro Acosta 、Andrew Aitken 、 Alykhan Tejani 、 Johannes Totz 、Zehan Wang和Wenzhe Shi。使用生成对抗网络的照片逼真的单图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。第1、3条[18] Chen-Hsuan Lin ， Ersin Yumer ， Oliver Wang ， EliShechtman，and Simon Lucey.St-gan：用于图像合成的空间Transformer生成在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[19] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang. 在野外深度学习人脸属性I

下载后可阅读完整内容，剩余1页未读，立即下载