基于几何变换的超范围图像GAN反演

194 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13941基于几何变换的超范围图像GAN反演Kyoungkook KangPOSTECH CSEkkang831@postech.ac.krSeongtae KimPOSTECHGSAIseongtae0205@postech.ac.krCho SunghyunPOSTECH CSE GSAIs. postech.ac.kr年龄年龄性别性别(a)输入（b）PSP（c）我们的（d）输入（e）PSP（f）我们的图1：在野外图像上不同方法的重建和语义编辑的定性比较（a）和（d）显示输入图像，（b）和（e）显示PSP [22]的结果，（c）和（f）显示我们的结果。摘要对于真实图像的成功语义编辑，GAN反演方法找到与预训练的GAN模型的域对齐的域内潜在代码是不幸的是，这样的域内潜码只能在与GAN模型的训练图像对齐的范围内图像中找到。在本文中，我们提出了BDInvert，这是一种新的GAN反演方法，用于对与GAN模型的训练图像几何不对齐的范围外图像进行语义编辑。为了找到语义上可编辑的潜在代码，BDInvert将输入的范围外图像反转到原始潜在空间之外的替代潜在空间中。我们还提出了一个正则化的反演方法，找到一个解决方案，支持语义编辑的替代空间。我们的实验表明，BDInvert有效地支持语义编辑的范围外的图像与几何变换。1. 介绍生成对抗网络（GANs）是生成模型，可以合成逼真的图像[7]。通常，GANs通过生成器和鉴别器的对抗训练，从从预定义分布采样的随机噪声向量到逼真的图像中学习映射函数。在过去的几年中，已经取得了重大进展，以提高合成图像的质量和多样性[21，14 ， 15 ， 16 ， 5] 。因此，最近的 GAN 模型，如StyleGAN [15]，StyleGAN 2 [16]和BigGAN [5]可以产生极高质量的高分辨率图像。最近，已经表明，丰富的语义信息被编码在GAN的中间特征和潜在空间中，此外，可以通过修改图像来以语义上有意义的方式有效地编辑图像。ing特征或潜在代码[21，4，26，23，10]。为了实现对真实图像的这种语义编辑，GAN反演最近引起了很多关注[3，1，31，33]。GAN反演将真实图像映射到预训练的GAN模型的潜在空间中一旦获得反转的潜在代码，就可以通过修改其潜在代码或从代码生成的中间特征来对图像进行语义编辑。对于真实图像的成功语义编辑，关键是找到与预训练的GAN模型的域对齐的域内潜在代码[31]。如[31]中所示，可能存在可以重构给定输入图像的多于一个潜码，并且它们中的一些可能在域之外在潜在空间中编码的语义知识不适用于这种域外代码，因此这种代码的语义编辑不能产生适当的结果。不幸的是，这样的域内潜码只能被发现用于与预训练的GAN模型的训练图像对齐的真实图像的一小部分。例如，大多数GAN模型使用几何对齐的人脸图像作为其训练数据，以便于训练。结果，具有少量平移或其他几何变换的图像超出了它们的范围，并且先前的GAN反演方法不能为这样的超出范围的图像找到域内潜码。这严重限制了使用GAN反演对真实图像进行语义编辑的适用性。图1示出了真实世界的示例。（a）和（d）中的输入图像是从互联网下载的随机图像由于它们相对于训练数据集（FFHQ [15]）具有不同的旋转、缩放和平移，因此直接应用先前的GAN反演方法[22]会产生不可接受的结果，如（b）和（e）所示。一种解决方案将是在GAN反演之前对准目标图像，但是图像与训练数据的精确对准可能是困难的或者甚至是不可能的，尤其是13942WWFF WF WF WF WFF WWP−WWF WZW∈ Z∈WZ → W在任意自然图像的情况例如，对于图1中的图像1（d）中，面部对准方法[17]由于严重的裁剪而完全失败。在本文中，我们提出了一种新的GAN反演方法，它被称为基本细节反演（BDInvert）的语义编辑范围外的图像。BDInvert使用StyleGAN [15]和StyleGAN2 [16]的训练图像反转几何未对齐的图像具体地，BDIn-vert被设计为覆盖诸如平移、旋转和缩放的几何变换，并且支持针对先前方法不支持的范围外图像的各种类型的编辑我们的核心思想如下。在预训练的GAN模型的原始潜在空间中，不可能将范围外图像反转为域内潜在代码。相反，我们建议将图像反转到另一个空间中，我们称之为/+，它由两个子空间和+。基本代码空间编码几何变换，也支持不同的局部变化，使输入图像的更忠实的重建另一方面，细节代码空间+独立于几何变换并且支持语义操纵。要在/中找到潜在代码，请执行以下操作+空间那信念-为了完全重建输入图像，我们采用基于优化的方法。然而，对重构丢失的简单优化并不能保证潜在代码支持语义编辑。为了使语义编辑，我们还提出了一个正则化方法的基础上编码器网络。图1（c）和（f）显示了我们对真实世界图像的重建和编辑结果。由于我们的/+空间和反演方法，我们可以成功地重建和编辑超出范围的真实世界输入图像。我们的主要贡献可归纳如下。• 我们提出了BDInvert，这是一种新的GAN反演方法，用于对具有几何变换的真实图像进行语义编辑，这些几何变换与预训练GAN模型的训练图像不一致。• BDInvert将图像投影到另一个潜在空间/+中，该空间通过几何变换和各种局部变化支持对超出范围的图像进行更忠实的重建和语义编辑。• 我们提出了一种新的正则化方法，以找到一个合适的解决方案，在f+空间，支持SEMANIC图像编辑。2. 相关工作为了将真实图像嵌入到GAN的潜在空间中，已经在两个方向上提出了各种方法。一个方向是使用数据驱动的方法训练编码器[32，9，22]。另一个方向是随机初始化潜在向量或预训练的输出。编码器，然后对其进行优化以重建目标图像[32，28，6，8，3]。然而，由于GANs潜在空间的有限表现力，反转真实图像仍然是一个困难的问题。最近，为了提高反演质量，已经进行了几次尝试以拓宽潜在空间[8、20、13]。Gu等人[8]通过混合来自几个潜在代码的特征来提高重建Pan等人[20]实时微调发生器，以实现更可靠的重建。Huh等人[13]找到几何变换参数以将图像区域变换为更适合于BigGAN [5]反演。同时，Abdalet al.[1]使用扩展的潜在空间+显示了StyleGAN [15]的高质量嵌入结果。之后，提出了许多针对StyleGAN的研究[2，33，31，16，26]。Abdal等人[2]和Karraset al. [16]优化噪声通道以获得更准确的嵌入。对于成功的图像编辑，将图像嵌入GAN为此，Zhu等。[31]训练编码器，将图像投影到StyleGAN的域中，并在编码器的指导下优化潜在代码。Tewari等人[26]介绍了一种分层优化，首先将图像嵌入到空间，然后将其嵌入到+空间更好的编辑。Zhu等[33]建议范数+空间用于域内反演。然而，大多数现有的作品不能处理超出范围的图像。语义编辑使用GAN进行语义图像编辑的广泛使用的方法是沿着语义上有意义的方向修改潜在代码。 H ¨ rk o¨nen 等 [10]通过对采样的潜在代码应用主成分分析（PCA）来识别语义方向。Shen等人[23]使用属性分类器来发现语义方向。Shen和Zhou [24]提出了一种无监督方法，该方法对潜在代码转换层的权重进行因子分解，以找到导致输出发生较大变化的语义方向。3. 潜在空间F/W+在本节中，我们首先回顾了最先进的GAN版本内方法，并讨论了它们对超出范围图像的限制。然后，我们引入了一个替代的潜在空间/+克服局限性。我们的方法基于StyleGAN和Style-GAN 2 [15，16]，它们产生高质量的合成结果。两种GAN框架都使用基于多层感知器（MLP）的映射网络f：将潜在代码z映射到中间潜在代码如图所示第2段（a）分段。与潜在空间相比中间潜在空间提供了不同属性的较少纠缠的表示，使得在图像生成过程中可以更容易地调整不同属性。StyleGAN和StyleGAN2的另一个值得注意的特点是它们的多尺度图像合成方法，13943F WWWWWF W{···}WF WW ∈ WF W联系我们F W联系我们(a) StyleGAN和StyleGAN的潜空间S、G和G+（b）/G+（c）/G+（StyleGAN 2）图2：StyleGAN [15]和StyleGAN2 [16]的网络架构以及与黄色标记的潜在空间对应的层。未用于潜在空间f+的层在（b）和（c）中用灰色虚线边界标记。在StyleGAN2中，来自粗尺度的RGB图像层被替换为填充零的张量，如绿色框所示。这使得能够按比例地解开不同属性。为了以多尺度方式控制生成过程，StyleGAN和StyleGAN2都将中间潜在代码w馈送到生成器的不同尺度的多个层。此外，为了增强合成图像的多样性，StyleGAN和StyleGAN2都利用从高斯分布随机采样的噪声用于每个图像生成。虽然在生成具有不同属性的不同图像方面是有效的，但是对于大范围的真实图像的GAN反演仍然是不够的为了提高重建的准确性，Abdal等。[1]提出了一种扩展的潜空间+。每个元素w++被定义为w+= w1，w2，… ，wN，其中w1是潜在码，N是将w作为输入的生成器中的层数（图1B）。第2（a）段）。wi中的下标i是取w的层的索引，使得i=1和i=N分别指示最小和最大尺度中的第一层和最后一层。利用扩展的潜在空间+，不同的潜在代码可以用于不同的层，因此，可以重建更宽范围的图像后来，Zhuet al. [31]表明，对于语义图像操作，必须找到域内潜码而不是精确重建输入图像的潜码。他们还表明，真实图像可以通过域引导编码器和域正则化优化有效地反转为+尽管如此，GAN反演到扩展的潜在空间+仍然无法找到范围外图像的域内潜码，如在第2节中所讨论的。1.一、为了克服这一限制，我们提出了另一个潜在的空间/+。每个元素w*in/+被定义为w*=（f，wM+），其中f是基本码，wM+是详细码。wM+是一个集合生成器的精细尺度的潜在代码的集合，其被定义为wM+=wM，，wN。f是在取wM的层之前的生成器的粗尺度特征图。具体来说，对于StyleGAN [15]，我们将f定义为特定尺度下第一个自适应实例归一化（AdaIN）层[12]之前的特征映射。对于StyleGAN2[16]，我们将f定义为特定尺度下的一对上采样和卷积层之后的特征映射图图2（b）和图2（c）描绘了StyleGAN和StyleGAN 2的潜在空间f+在我们的实验中，我们测试了两种不同的尺度，8×8和16×16。在StyleGAN2 [ 16 ]的情况下，生成器需要与从先前尺度上采样的RGB图像相对应的特征图（图1）。第2段（c）分段）。虽然我们可以包括小尺度特征图作为我们的潜在空间的一部分，但是我们观察到，粗尺度的特征图具有接近零的值，并且对图像生成结果几乎没有影响因此，我们在实验中简单地将它们设置为零，如图1第2段（c）分段。/+空间提供了两个很好的属性，可以对超出范围的图像进行语义编辑。首先，与w1，，wM-1相比，基码f可以表示更宽范围的图像，包括具有几何变换的图像。例如，由于f是卷积神经网络（CNN）的特征图，我们可以简单地沿着x轴或y轴移动f来表示移位图像的特征图。第二，细节代码wM+对于图像的翻译是不变性的。具体来说，在StyleGAN [15]的情况下，wM+控制生成器的AdaIN [12类似地，在StyleGAN2 [16]的情况下，wM+控制解调层的参数。AdaIN和解调操作都是应用于CNN要素的全局操作...��+∈G+......上采样转换3 × 3噪声噪声��∈S5A...上采样模式DemodConv3 × 3偏置噪声RGB4ABBM+B5一AdainConv3 × 3M+B6一B一起16×16106Aξ∈GAdain16×16上采样转换3 × 3偏BB7B一7A...B8...B一32×32偏B...8...一32×32......Conv3 × 3AdainConv3 × 3Demod32×32Mod一上采样Conv3 × 3上采样网络映射Conv3 × 3Demod16×16ModConv3 × 3AdainConv3 × 3上采样AdainAdainConv3 × 3Adain6tRGB0Adain513944，F WF WF WF W∥ −∥F W∥ −∥(a)范围内（b）A合成(c) 语义(d) 语义(a) 目标(b) 反演(c) 反演(d) 我们合成图像带偏移的图像编辑（a）编辑（b）图像/翻译仅使用L侦察正则化M+方法图3：/+空间中的语义编辑。 (a)从域内潜码（f，w，M+）生成的范围内合成图像。（b）通过对f应用几何变换，输出-可以获得距离图像因为wM′+a影响图像全局地，用于范围内图像的图像编辑操作(e) 参考(f) 风格混合（g）风格混合（h）风格混合(c)可以用于（d）中的范围外图像。图像形成风格混合结果（b）结果（c）结果（d）以平移不变的方式。由于上述性质，我们可以如下描述图像I与其变换图像T（I）之间的关系，其中T是几何变换算子。假设I是由w生成的，即，I=G（w*）=G（f，wM+）其中G是预训练GAN模型的生成器那么，T（I）可以表示为：T（I）<$G（T′（f），wM+）（1）其中T′是对应于T的几何变换算子，其尺度根据f与I的相对尺度进行调整。这种关系也可以用于T（I）的语义图像操作。由于T′（f）是CNN特征图，wM+是全局操作的一组参数，对于编辑T（I），我们可以以与I相同的方式操纵wM+，并获得类似的编辑结果。图3示出了示出等式1中的关系的示例。（一）.在该示例中，我们对域内潜码（f，w，M+）进行采样，并生成图1中的范围内图像。3（a）使用StyleGAN2[16]。移位f，我们可以生成图1的移位图像3（a）如图所示3（b）款。虽然由于StyleGAN2中的零填充和噪声分量，它们并（一）.图3（c）和（d）示出了使用相同的经操纵的潜码wM’的（a）和（b）的语义编辑结果。+。实验结果表明，我们可以有效地对几何变换后的图像进行语义编辑，其方法与对范围内图像的方法相同。上面的讨论示出，只要（f，wM+）在域内，对于任意T’的（T’（f），wM+）也支持语义图像编辑。在此基础上，我们定义了w* 的一个扩展域为域内潜码（f，wM+）对任意变换T′的一组几何变换潜码（T′（f），wM+）.虽然上面的讨论仅讨论了几何变换，但是我们注意到，我们的潜在空间f+不仅支持几何变换，而且还支持各种局部变化，因为基本代码f支持局部不同的变换。图4：使用损失项的不同组合反演到/+（f）、（g）和（h）中的风格混合[ 15 ]操作的结果通过用来自（e）中的参考图像的w M +替换它们的w M +来获得。信息. 这导致更忠实的重建，即使是没有几何变换的图像，如将在第二节中所示。五、我们还注意到，潜在空间f+不支持需要粗尺度wi<然而，我们的实验表明，它仍然支持各种类型的语义编辑，因为我们将f定义为一个非常粗尺度的特征图。4. F/W+的正则化反演对于图像的反转，我们采用基于优化的方法，因为与基于编码器的方法相比，它通常实现更高的重建质量[6 ， 8 ， 31]。在本节中，我们将介绍我们针对StyleGAN和StyleGAN2的优化方法[15，16]。4.1. 重构损失给定输入图像I，为了找到重构I的潜码w，我们用重构损失L重建来优化目标函数，其被定义为：Lrecon（w*）=LMSE（w*）+ωper Lper（w*）（2）其中L_MSE和L_per分别是均方误差（MSE）和感知损失。ωper是Lper的权重。L MSE定义为L MSE（w*）=IG（w*）2其中G是预训练的StyleGAN模型的生成器。 L per定义为L per（w*）=F（I）F（G（w*））2，其中F是计算感知距离的LPIPS网络[30]。通过优化Eq. ⑵，例如，使用Adam优化器[18]，由于f+空间的高表达能力，我们可以获得即使对于超出范围的图像也产生高质量重建结果的潜在代码。然而，这样的潜码不支持语义图像Y，M+YM+13945×××ZM+¨¨WP−P−¨¨编辑，因为它们是域外的。图4显示了使用StyleGAN 2[16]的示例。图4（a）示出了由于平移而超出范围的目标图像。图4（e）是用于风格混合的参考图像，其是语义图像编辑操作[15]。优化等式（1）中的重建损失。（2），我们可以获得精确地重构目标图像的潜码，如图1B所示第4（b）段。然而，估计的潜在代码是域外的，因此它不能产生如图1B所示的适当的风格混合结果。4（f）。为了能够对超出范围的图像进行语义编辑，f和wM+两者都必须在适当的域中。为了将我们的优化过程引导到适当域中的解，我们在f和wM+上都采用正则化。以下小节逐一讨论我们的正则化方案。4.2. M+详细编码的正则化为了提高域内的wM+，我们采用了Zhu等人提出的基于范数+空间的正则化方案。[33 ]第33段。具体来说，在目标函数的迭代优化的每次迭代中，我们将当前在P −范数+空间中的wM+的估计然后，我们剪辑wM+。图4（d）和（h）分别示出了我们的最终方法可以成功地反转超出范围的图像并支持语义图像编辑。4.4.基本代码f我们的编码器估计输入图像的初始基码f0由于f0具有小的空间分辨率，例如，因此，编码器不需要原始分辨率的输入图像或繁重的网络架构。因此，编码器被设计为获取分辨率为8的下采样图像，该分辨率大于f，例如，128 128.编码器具有类似VGG的架构[25]，由11个卷积块和三个池化层组成，没有完全连接的层。更多详情请参见补充材料。对于编码器的训练，我们在每次迭代时从潜在空间随机采样一批潜在代码。从每个采样的潜码z，我们获得其对应的潜码（fgt，wgt）及其图像I。使用采样的潜码和它们的图像，我们训练我们的编码器损失函数定义为：¨gt¨2超出一定范围的值在我们的实验中我们使用[-5σ，5σ]的范围，如[33]中所建议的，其中σLenc =G（E（I↓），wM+）−IGT（五）2是域内潜在代码的标准偏差然后，我们将裁剪后的值转换回+空间。我们建议读者参考[33]以了解更多细节。我↓+λper F（G（E（I↓），wM+））−F（I）是I的下采样版本。第一和第二-4.3.基码f在优化Eq.（2）在对wM+进行正则化得到了wM+的域内解的情况下，仍然会产生f的不适当解，从而导致语义图像编辑的失败。图4（c）示出了使用重构损失和关于wM+的正则化的反演结果。中的硬剪辑在范数+空间中，估计的wM+总是在期望的范围内。然而，所估计的f仍然是域外的，并且在图1中产生不正确的风格混合结果。4（g）。为了克服这一点，我们引入了一个正则化方法，鼓励f是在第二节定义的扩展域的f3 .第三章。我们的方法是一个两步的方法。对于输入图像I，我们首先使用编码器E找到位于f的扩展域中的初始基码f0。然后，当优化Eq.（2）中，我们找到一个接近于fo的基码f。为了实现这一点，我们将f的正则化损失定义为：Lf（w*）=fo−f2（3）其中f〇=E（I）。我们的最终目标函数定义为：L（w*）=Lrecon（w*）+ωfLf（w*）（4）其中ωf是正则化损失Lf的权重。我们的最终方法优化了Eq。（4）正则化13946×∥ −∥右边的第二项是MSE损失和每个可能的损失该损失最小化了训练图像I与使用由编码器获得的潜码的其重构图像之间的差异由于我们有fgt，我们可以使用基于E（I↓）和fgt之间的距离的损失项，例如E（I↓）fgt2。然而，我们发现用它代替方程中的损失项（5）导致输入图像的较不准确的重建。我们的训练程序不使用几何变换-形成的图像。然而，由于CNN的空间不变特性，我们的编码器仍然有效地执行例如，对于移位图像，我们的编码器估计位于f的扩展域中的移位特征图f。虽然Eq。（5）没有任何术语来鼓励预测扩展域中的潜在代码，我们的编码器可以有效地找到支持语义图像编辑的潜在代码由于编码器是使用大量批量大小的图像进行训练的，因此我们发现没有必要包括任何其他约束，例如基于潜在代码距离的损失项。5. 实验实现细节在我们的实现中，我们将图像下采样到256256以计算L和L_enc中的感知损失，遵循先前的工作[1 ， 19 ， 33] 。在我们的实验中，我们设置 ωper=10，ωf= 10和ω f = 10。13947(a) 输入(b) Im2StyleGAN(c) StyleGAN2（e）PSP（f）我们的（8×8）（g）我们的（16×16）图5：不同方法的重建质量的定性比较。输入图像从CelebA-HQ数据集采样，并应用不同的几何变换。从上到下：150像素的翻译旋转20 °，并缩放3/4。平移旋转缩放模型度量0501001501020307/8↓3/4↓9/8↑5/4↑Im2StyleGAN [1]PSNRFID↑↓25.6348.3725.0645.7324.5352.5223.9258.6425.7650.0624.6556.6323.8765.7625.8233.8025.2534.2426.1738.0226.2736.78P-norm+ [33]PSNRFID↑↓21.7958.6920.9464.5219.7878.5618.5498.5320.7077.9318.9186.1617.93110.4821.5346.8919.4160.3822.0752.7621.8549.06StyleGAN2 inv. [16个]PSNRFID↑↓18.7365.4918.2970.3617.3178.3216.7187.7017.9579.3117.2282.2516.0296.2318.6552.2618.4350.2319.1260.6419.4360.24PSP [22]PSNRFID↑↓20.5478.5319.0384.8517.5999.6616.50118.5019.14108.1317.78115.4616.99142.0919.0284.8717.7896.2920.6370.1620.1568.32我们的（8 ×8）PSNR↑23.6923.3523.7423.5023.3022.0621.3523.3722.7223.9324.22FID↓49.6849.4746.0549.0060.8460.5271.7137.5138.3444.1137.43我们的（16 ×16）PSNR↑26.4726.3026.3726.4326.4826.4926.3326.4426.2826.9827.26FID↓30.2732.1630.6831.5837.0133.9633.9824.9224.2927.6123.84表1：不同方法在几何变换图像上的重建质量的定量比较。为了进行评估，我们从CelebA-HQ数据集[14]中采样了50张图像，并应用了不同程度的平移、旋转和缩放。数据集型号度量卧室塔猫Im2StyleGANPSNR ↑FID ↓19.88111.7320.6458.1422.9071.19IDinvertPSNR ↑FID ↓19.2780.2120.0275.59--我们的（16x16）PSNR ↑FID ↓20.2149.9220.3742.8924.67三十一点七十四表2：不同方法在自然图像上重建质量的定量比较。每个测试集由从互联网上收集的25幅图像组成。对于卧室和塔楼测试集，我们使用在LSUN卧室和塔楼数据集[29]上预训练的StyleGAN [15]模型对于猫测试集，我们使用在LSUN猫数据集上预训练的 Style-GAN 2 [16] 模型。对于猫数据集，IDinvert [31]的结果不可用，因为IDin-vert不为其编码器网络提供预训练的权重λper=10。为了训练编码器，我们将批处理大小设置为16，迭代次数设置为10，000。我们最初将学习率设置为0.001，并将其降低了一个因子，13948F W每2,000次迭代0.1。对于反演，我们使用1，200次迭代，学习率为0.01。我们使用Adam优化器[18]用于编码器的训练和 GAN 反演。我们使用 StyleGAN1 和StyleGAN22的预训练模型进行了实验。在我们的实验中，我们通过向潜在代码添加语义编辑向量来其中α是控制编辑强度的用户参数，并且V是遵循[23，24，31]的编辑向量具体来说，我们分别使用 IDinvert [31] 和 SeFa [24] 为 StyleGAN [15] 和StyleGAN2 [16]提供的编辑向量。对于/+中的潜在代码，我们仅将编辑向量添加到详细代码wM+。重建比较我们首先在CelebA-HQ数据集上将我们的方法的重建质量与先前最先进的反演方法的重建质量进行比较[15]1https://github.com/genforce/idinvert_pytorch2https://github.com/genforce/genforce13949××××F W（一）（b）第（1）款（c）第（1）款输入Im2StyleGANID反转室内照明植被发色(d)我们的（16×16）图6：不同方法对自然图像的重建和语义编辑质量的定性比较。最上面一行的输入图像是从互联网上收集的。对于左侧和中间的卧室和塔楼图像，我们使用在LSUN卧室和塔楼数据集[29]上预训练的StyleGAN [15]模型。对于右侧的猫图像，我们使用在LSUN猫数据集上预训练的StyleGAN2 [16]模型。对于猫数据集，IDinvert [31]的结果不可用，因为IDinvert没有为其编码器网络提供预训练的权重。从左到右，语义编辑操作是室内照明、植被和头发颜色改变。使用在FFHQ数据集[15]上预训练的StyleGAN2 [16]模型。为了比较，我们构造了一个测试由从CelebA-HQ数据集随机提取的50张图像组成的集合[14]。为了研究在具有几何变换的范围外图像上的反演性能，我们对测试集应用不同的变换具体来说，我们在随机方向上应用50、100和150像素的平移，在逆时针和顺时针方向上随机旋转10、20和30度，并按7/8、3/4、9/8和5/4缩放。我们将我们的方法与最先进的方法进行比较：Im2StyleGAN [1]、StyleGAN 2反演[16]、P-范数+[33]和PSP [22]。PSP是一种基于编码器的方法，而其他方法是基于优化的。我们使用了作者的StyleGAN2和PSP代码。我们实现了Im 2StyleGAN和P-norm+，因为它们的代码不可用。我们还比较了我们的方法的两个版本，它们使用基码f的大小分别为8×8和16×16图5示出了定性比较。如图所示，除了Im2StyleGAN[1]和我们的方法之外，所有方法都无法重建输入图像。表1报告了PSNR和FID的定量比较[11]。我们建议读者参考我们的补充材料，以便在SSIM [27]和RMSE中进行额外比较。该表显示，我们的16 - 16版本实现了最高的重建质量，无论是在PSNR和FID的所有几何变换。在图和表中，Im2StyleGAN都显示了高质量的重建结果。然而，由于缺乏域内约束，Im2StyleGAN倾向于产生语义上不可编辑的域外潜在代码，如将在本节稍后看到的。该表还示出了对于较大的平移和旋转，先前方法的性能快速降低。例如，对于30度的旋转，P-norm+ [33]的性能下降3.86dB 我们88版本的性能比16 16版本，因为它使用更受约束的潜在空间。我们也注意到我们的1616版本优于所有即使对于没有几何变换的图像，mations（表1中的翻译= 0），这要归功于基础代码f支持地方差异。自然图像的反演由于多样性大由于自然图像的复杂性，使用先前的GAN反演方法难以精确地重建和编辑自然图像。另一方面，由于/+空间的高度自由度，我们的方法在处理自然图像时特别有效。为了验证这一点，我们比较了以前的方法和我们的自然图像的重建和编辑质量。为了进行评估，我们使用StyleGAN和StyleGAN2模型[15，16]在LSUN卧室，塔楼和猫数据集[29]上进行预训练。我们还从互联网上收集了25张卧室，塔楼和猫的图片，并将它们用作我们的测试集，以便在13950F W××F W×F WF WW我们的（8×8）(b)（c）（d）(a)我们(16×16）(e)（f）（g）图7：消融研究。（a）目标图像。（b）重建我们-(a) 反演(b) 构成(c) 老化只计算重建损失。(c)使用正则化对wM+进行重建。(d)在w M +和f上使用正则化进行重建（我们的最终方法）。（b）、（c）和（d）的语义编辑结果分别在（e）、（f）和（g）中示出。测试集与预训练模型的训练图像属于相同的类，但不与训练图像对准。对于这些数据集，我们使用3,000次迭代。我们将我们的方法与Im2StyleGAN [1]和IDinvert [31]进行比较，Im2StyleGAN [1]在先前的实验中显示了高质量的重建结果，IDinvert [ 31 ]找到了用于语义编辑的域内潜在代码。我们使用作者的代码进行IDinvert。图6示出了重建和编辑质量的定性比较。Im2StyleGAN[1]和IDinvert [31]都产生比我们更不准确的重建结果。它们的编辑结果还显示出由于超出范围的输入图像而产生的伪影。特别地，Im2StyleGAN的编辑结果具有严重的伪像作为其域外潜在代码。相比之下，我们的方法显示了所有三种情况下的高质量重建和编辑结果。表2示出了重建质量的定量比较。该表还示出了与其他方法相比，我们的方法在自然图像上实现了高重建质量更多的结果可以在补充材料中找到。消融研究图7显示了使用StyleGAN2 [16]对我们方法的变体进行定性比较，以验证我们正则化方案的有效性。虽然所有变体由于f+空间的高自由度而显示出优异的重构结果，但是仅使用重构损失或对细节代码wM+的正则化的变体的编辑结果被严重降级。另一方面，由于我们的正则化反演方案，我们在（d）中的最终模型的编辑结果看起来最自然。更多的例子和定量评估在补充材料中。编辑操作与最后分析了基码f的尺度对图像编辑的影响。如图1所示，对于基码f使用更精细尺度的特征图导致更高的重建质量5和表1。另一方面，也减少了语义编辑操作的多样性。尤其是，这让我很难图8：根据f的大小的可用编辑操作。(a)示出了使用不同大小的f的反演结果。(b)以及（c）示出了不同编辑操作的结果。改变整体图像结构的姿势编辑操作不适用于尺寸为16×16的f，而老化操作适用于两者。以执行依赖于空间中的粗尺度潜在代码Wi图8示出了示例。虽然我们的方法与f的大小88支持姿势改变和老化，我们的与f的大小16 16不支持姿势改变，因为姿势改变操作需要编辑小规模的潜在代码。6. 结论在本文中，我们提出了BDInvert，一种新的GAN版本内方法，用于对具有几何变换的范围外图像进行语义编辑。基于Style-GAN和StyleGAN 2框架[15，16]，我们提出了一种替代的潜在空间/+，它支持图像的几何变换及其语义操纵。要找到一个适当的解决方案/+空间是语义可编辑的，我们介绍了一种新的正则化优化方法。我们验证了我们的方法的有效性，定性和定量。限制如第如图3和5所示，/+空间减少了语义编辑操作的多样性。此外，由于我们的方法是基于优化，它需要一个相对较长的计算时间。使用Nvidia RTX 3090GPU，1024 1024大小的图像大约需要3分钟。我们的方法不能处理严重的几何变换的图像。然而，这可以通过输入图像的粗略对准容易地最后，我们的方法不能处理与训练数据集差异太大的图像。有关示例，请参见补充材料。致谢本研究得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（编号：2019 -0-01906，人工智能研究生院项目（POSTECH））和韩国政府（MSIT）资助的韩国国家研究基金会（NRF）资助（NRF-2018 R1 A5A1060031，编号：2019 - 01906，人工智能研究生院项目（POSTECH））的支持。2020R1C1C1014863）。13951引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在CVPR，2019年。一二三五六七八[2] Rameen Abdal ， Yipeng Qin ， and Peter Wonka. Im-age2stylegan++：如何编辑嵌入的图像？在CVPR，2020年。2[3] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.语义- tic照片处理与生成图像之前。ACM Transactionson Graphics（TOG），38（4），2019年7月。一、二[4] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，Joshua B Tenenbaum，William T Freeman，andAntonio Torralba.肝解剖：可视化和理解生成对抗网络。2019年，在ICLR。1[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练2019年，在ICLR。一、二[6] Antonia Creswell和Anil Anthony Bharath。反生成对抗网络的生成器。IEEE Transactions on Neural Networks andLearning Systems，30（7）：1967二、四[7] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。在NIPS，2014。1[8] Jinjin Gu，Yujun Shen，and Bolei Zhou.图像处理采用多码gan先验.在CVPR，2020年。二、四[9] Shanyan Guan 、Ying Tai、Bingbing Ni、Feida Zhu、Feiyue Huang和Xiaokang Yang。协作学习更快的风格嵌入。arXiv预印本arXiv：2007.01758，2020。2[10] 埃里克·哈克·奥南、亚伦·赫茨曼、雅克·科莱蒂宁和西尔万·帕里斯.Ganspace：发现可解释的Gan控件。在NeurIPS，2020年。一、二[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS，2017年。7[12] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 3[13] Minyoung Huh，Richard Zhang，Jun-Yan Zhu，SylvainParis，and Aaron Hertzmann.将图像转换和投影到类条件生成网络中。在ECCV，2020年。2[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。一、六、七[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。一二三四五六七八[16] Tero Karras ， Samuli Lai

下载后可阅读完整内容，剩余1页未读，立即下载