多层选择的空间自适应GAN反演和编辑方法

28 浏览量更新于2023-10-25 收藏 2.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11399用于GAN反演和编辑的空间自适应多层选择Gaurav Parmar1，2李怡君2吕京万2张俊2朱军燕1Krishna Kumar Singh21卡内基梅隆大学2Adobe Research（a）可逆性图（b）反转（c）编辑颜色（d）编辑姿势重建输入单层反演编辑性重建编辑性空间自适应多层反演（我们的）重构可编辑性图1. 用空间自适应多层潜码反转和编辑图像。选择单个潜在层进行GAN反演会导致在获得输入图像的忠实重建和能够执行下游编辑（第1行和第2行）之间陷入困境相比之下，我们提出的方法自动选择为每个区域量身定制的潜在空间，以平衡重建质量和可编辑性（第3行）。给定一个输入图像，我们的模型预测一个可逆映射（a），其中包含用于每个区域的层索引。这允许我们精确地重建输入图像（b），同时保留可编辑性（c，d）。摘要现有的GAN反转和编辑方法对于具有干净背景的对齐对象（例如，por- traits和动物面部）工作良好，但是对于具有复杂场景布局和对象遮挡的更困难的类别（例如，汽车、动物和户外图像）常常难以实现。我们提出了一种新的方法来反转和编辑GAN潜在空间中的复杂图像，例如StyleGAN2。我们的关键思想是探索反演与层的集合，空间适应反演过程的图像的难度。我们学习预测不同图像片段的“可逆性”，并将每个片段投影到潜在层中。较短的区域可以被反转到生成器的潜在空间中的较早层中，而较长的区域可以被反转到较晚的特征空间中。实验结果表明，该方法在保持下游可编辑性的前提下，获得了比现有方法更好的反演请参考我们的项目页面gauravparmar.com/sam_inversion。1. 介绍生成对抗网络[19]的最新进展，如ProGAN [29]，StyleGAN模型家族[31-在GAN编辑流水线中，首先通过最小化生成的图像和输入图像之间的距离将图像投影到预先训练的GAN的潜在空间中然后，我们可以根据用户编辑来更改潜在代码，并相应地合成输出。然后可以改变潜在代码，以满足用户编辑。最终的输出图像与更新的潜在代码合成。最近的几种方法已经取得了令人印象深刻的编辑结果，为真正的图像[2，8，40，62]使用涂鸦，文本，属性和对象类条件。然而，现有的方法对于人像和动物面部工作良好，但不太适用于更复杂的类别，如汽车、马和猫。与人脸相比，这些对象具有更多样化的视觉外观和杂乱的背景。此外，它们往往不太对齐，更经常被遮挡，所有这些都使反演更具挑战性。在这项工作中，我们的目标是更好地反转复杂的图像我们F4F6W+W+F1011400我们的方法建立在两个关键的观察上。(1) 空间自适应可逆性：首先，反转难度在图像内的不同区域中变化。即使整个图像不能在早期潜在空间中被反转（例如，W和W+空间），如果我们将图像分成多个片段，则更容易的区域仍然可以在这些潜在空间中以高保真度进行反转。例如，在图1中，虽然LSUN CAR生成器对汽车和天空区域进行了良好的建模，但灌木和围栏却没有，因为它们在数据集中出现的频率较低。此外，这两个区域都被前景汽车遮挡。(2) 可逆性和可编辑性之间的权衡：如先前工作[51，65]所述，层的选择可以确定图像可以重建的精确程度以及可以执行的下游编辑的范围。生成模型（W，W+）的早期潜在层通常无法重建具有挑战性的图像，但允许有意义的全局和局部编辑。相反，使用后面的中间层的反转当后面的层中的可逆性增加时，可编辑性降低。图1中的前两行具体显示了真实汽车图像的这些权衡。考虑到空间变化的难度和可编辑性和可逆性之间的权衡，我们通过选择不同的特征或潜在空间来执行空间自适应多层（SAM）反演时，反转每个图像区域。我们训练一个预测网络来推断输入图像的可逆性映射，该映射指示每个片段要使用的潜在空间，如图1的第二列所示。我们的方法能够生成非常接近目标输入图像的图像，同时保持下游编辑能力。我们在多个领域进行实验，如 FACES ， CARS ，HORSES和CATS。实验结果表明，该方法在保持可编辑性的同时，能够更精确地重建具有挑战性的图像。我们使用标准指标（如PSNR和LPIPS）来测量重建。然而，图像质量和可编辑性使用人类偏好研究进行评估。最后，我们在不同的生成器架构（StyleGAN 2[33]，BigGAN-deep [12]）和不同的范式（基于优化或基于编码器）上展示了我们的想法的通用性。2. 相关工作GAN反转和编辑。自GAN [19]引入以来，有几种方法提出将输入图像投影到GAN的潜在空间中，用于各种编辑和合成应用[14，35，42，63]。这种使用GAN作为强图像先验的想法后来被用于在图像修复、去模糊、合成、去噪彩色化、语义图像编辑和数据扩充[7，8，15，16，20，54，59]。 [57]第五十七话的双曲余切值。大规模GAN的巨大进步[12，28 - 33，61]使我们能够对高分辨率图像采用GAN反演[1，2]。一个流行的应用是肖像编辑[3，4，37，50]。目前的方法可以分为三类：基于优化的方法，基于编码器的方法和混合方法。基于优化的方法[1，2，33，36，63]旨在最小化优化输出和输入图像之间的差异。尽管取得了相当准确的结果，缓慢的过程需要多次迭代，并可能陷入局部最优。为了加速这个过程，几个作品[14，35，42，43，51，53，63]学习编码器通过单个前馈通道预测潜在代码。然而，与基于优化的方案相比，学习的编码器有时在重构质量方面受到限制。自然地，结合两种方案的最佳方案的混合方法出现[5，8，10，24，53，63]，但质量和速度之间的权衡仍然存在。选择潜在的空间之前的几种方法[1，2]专注于将输入图像反转到StyleGAN模型[32，33]的潜在空间中，该模型使用AdaIN层[23]来控制图像的除了探索不同的投影方案外，他们还证明了潜在空间的选择是StyleGAN独特的基于风格的设计的关键因素。最近的作品提出将图像投影到风格参数空间[1，2，55]和卷积特征空间[64]，而不是将图像投影到潜在空间[14，63]正如最近的工作[51，65]所指出的，在可逆性和可编辑性之间存在权衡，并且没有层可以同时最大化这两个标准。为了处理复杂的图像，最近的论文提出使用同一层的多个代码[20，26，49]，将图像分割成片段[18]，使用连续图像[58]，扩展处理未对齐的对象[6，24，27]，修改生成器架构以获得更好的编辑能力[34，39]，采用类条件GAN [24，38，49]，并将生成器微调为输入图像[8，38，44]。与上述在单个层上操作的方法不同，我们考虑了跨不同输入图像段的反演难度，并且通过使用多个潜在空间对每个段我们在实验中表明，我们的方法优于并发生成器微调方法[44寻找编辑方向。在反转之后，我们可以通过遍历使用监督[9，25，47]或非超级计算的语义有意义的方向来编辑反转的代码[17，21，41，48，52]。这些方法中的大多数离线计算这些方向[9，25，48]，并将其作为预先录制的选项提供给用户。其他作品在推理时间内计算编辑方向，以支持更灵活的涂鸦[63]和文本11401层l在x轴上LSL2∈∈--.Σ∈训练每个潜在层输入x输入xA. 预测每个潜在空间C. 成品可逆性D. 组合可逆性映射输入xB. 获取区域预训练可逆性分割模型0.40.20.0重构误差el图2. 训练可逆性分段器。在左侧，我们示出了如何训练每个可逆性预测子Sl。我们使用五个候选潜在空间之一来反转训练集中的所有图像，并使用LPIPS [60]空间误差图el作为监督。接下来（右），我们将展示如何使用经过训练的可逆性模型来生成最终的反转潜在映射。我们首先预测图像的每个区域使用我们前面提到的可逆性网络对每个潜在层进行反转的随后，我们使用预先训练的语义分割网络来细化预测图，并使用用户指定的阈值τ将它们组合起来。右侧所示的组合可逆性图用于确定用于反转图像中每个片段的潜在层输入[40]。我们表明，我们的方法可以很好地与不同类型的方向。3. 方法我们的目标是使用预训练的GAN反转图像，同时保持可编辑性。我们首先学习预测一个可逆映射，该映射指示每个图像区域应该使用哪些潜在空间。接下来，我们融合来自不同潜在空间的特征，以生成与我们的输入相匹配的图像，并且可以在潜在空间中进行编辑。arXiv版本中提供了其他网络训练和架构细节3.1. 预测可逆性如前所述，不同的潜在空间具有不同的反演能力。我们学习一个网络来预测图像的哪些部分是可逆的，使用任何给定的潜在空间。在这里，我们使用在图2（左）中，我们展示了如何学习不同潜在空间的可逆性我们收集由输入图像xR H×W×3及其重建图像x R H× W ×3组成的图像对数据集。RH×W×3进入第l个潜在空间，遵循Karras等人提出的基于优化的反演。[33]。我们考虑5个不同的潜在空间Φ =W+，F4，F6，F8，F10，其中F的索引对应于StyleGAN2生成器的特征层索引，W+是来自W空间的不同向量的级联，其中W空间是StyleGAN2的MLP网络的输出空间。我们选择W+而不是W，因为它在执行下游编辑时提供更好的反演结果和更细粒度和更清晰的控制。接下来，我们计算重建损失如下e1=LLPIPS（x，x≠1），（1）其中e l R H×W是每个潜在空间的x与其i v x之间的LPIPS空间误差图[60]。容易反演的部分具有较小的空间误差，而困难的区域引起较大的误差。我们对网络进行子训练，以预测每个潜在空间的可逆性，通过102损失回归到LPIPS空间误差图。训练损失可以用公式表示如下：Sl= argmin2Sl（x），el.（二）SL一旦经过训练，该网络就以前馈方式预测任何输入图像在任何层的可逆性。然而，我们的预测可能是嘈杂的，并且在同一语义区域内可能不这可能潜在地导致不一致的反转和编辑，因为相同区域的不同部分我们使用预训练的分割模型来改进我们的预测。对于每个段，我们计算该区域中的平均预测可逆性，并将该值用于整个段。如图2（右）所示，这样的细化步骤有助于我们将可逆性映射与图像中的自然对象边界对齐。3.2. 自适应潜在空间选择我们观察到，潜在空间在重建输入图像和下游图像编辑任务的效用之间具有固有的权衡，如最近的工作[51，65]所指出的。例如，将潜在空间选择为W+将导致适合于编辑但对于获得困难输入图像的可信重构而言次优的反转潜在向量。另一方面，选择激活块F10（接近于所生成的像素空间）将具有很大的重构，但编辑能力有限。在图3中，我们明确显示了潜在空间的不同选择我们反转输入F6W+F4S11402输入优化潜伏期StyleGAN2发生器恒定W+风格块-1m4/f4风格块-4M66号线风格块-5预测可逆性图风格块-6m8f8风格块-7风格块-8m10楼f10风格座-9风格块-10F6W+F4--∈∈∈+++W+峰值信噪比：17.4F4峰值信噪比：21.6F6峰值信噪比：24.3F8峰值信噪比：27.1F10峰值信噪比：30.8输入图3. 可逆性和可编辑性之间的权衡。我们显示反转和编辑时，输入反转使用不同的单潜在层。当我们在特征空间中向下时，重构得到了改善，但编辑能力却下降了。用1000幅图像的PSNR定量地显示了单个图像的重建效果。和指示是否成功应用了编辑。使用单个潜在层的图像，并且观察到重建质量随着我们使用越来越接近输出像素的层而单调地提高。对整个图像使用单个潜在层迫使我们在整个图像中对可编辑性和重建之间的权衡使用单个操作点相反，我们的目标是根据区域中的图像内容来调整潜在层选择为了做到这一点，对于每个图像片段，我们选择最早的潜在层，使得重建仍然满足一些最低标准。更具体地说，对于每个片段，我们从Φ中选择最可编辑的潜在空间（W+是最可编辑的，F10是最小的），预测的可逆性高于该片段的阈值τ我们选择这个阈值empirically这样的反转是感知接近输入图像，而不会严重牺牲可编辑性。在图4中，我们显示了最终的反转图，不同的潜在空间分配给输入图像中的不同片段。简单的汽车区域被分配到W+空间，而难以生成的背景区域（通常不能由原生潜在空间生成）被分配到后面的F4和F6潜在空间。3.3. 培养目标我们在两种设置中实现我们的多层反演：1）基于优化和2）基于编码器。在基于优化的方法中，我们直接优化每幅图像的潜在空间。对于基于编码器的方法，我们为每个潜在空间训练一个单独的编码器。图像形成模型。在图4中，我们展示了如何组合潜在代码以生成最终图像。我们预测的w+W+直接用于调制预训练的StyleGAN2的层。对于特征空间F F4，F6，F8，F10，我们预测该层中要反转的区域的值的变化。我们预测图4. 使用空间自适应潜码的图像形成。我们将展示如何使用预测的可逆性映射结合多个潜在代码来生成最终图像。w+W+直接调制预训练的StyleGAN2模型的StyleBocks。对于中间特征空间Fi，我们预测层的特征值的变化，并将其添加到用相应的二进制掩码m i进行掩码后的特征块。层特征的变化输出的特征值是w+和wf的组合，由二进制掩码屏蔽，指示在该层中哪个区域应该被反转。例如，为了产生特征f4∈F4，我们有：f4=g0→4（c，w+）+m4f4，（3）其中gi→j表示StyleGAN2的卷积层中从第i层到第j层的模块，c是StyleGAN 2中使用的输入常数张量，m4是双线性下采样到对应张量大小的细化的预测可逆性掩码，并且m 4表示Hadamard乘积。注意，gi→j由扩展潜在码w+的对应部分调制。同样，我们可以称之为-计算所有特征和最终输出图像如下：f6=g4→6（f4，w+）+m6f6f8=g6→8（f6，w）+m8f8f10=g8→10（f8，w）+m10美元f10x=g10→16（f10，w）.（4）接下来，我们提出了优化目标函数，构成树木颜色反演反演11403L--输入可逆性图反转编辑图像改变大小更多的树轮毂造型红色N/A改变大小更多的树轮毂造型红色F4F6F4W+F6改变姿势红鼻子大眼睛黑毛改变姿势红鼻子大眼睛黑毛F4W+F4W+改变姿势树少添加鞍座白马N/AN/A改变姿势树少添加鞍座白马F4W+F4添加眼镜笑年龄浓眉添加眼镜笑年龄浓眉F6F4W+F4W+图5. 定性反演和编辑结果。在第一列中，我们显示了我们预测第二列中所示的可逆性映射的输入图像。我们能够获得与第三列所示的输入密切匹配的反转图像。在剩下的列中，我们显示编辑结果。我们可以无缝地应用复杂的空间编辑，如姿势和大小变化，即使不同的片段在不同的潜在空间中被反转。潜在代码=w+，f4，f6，f8，f10。我们重建结构的输入图像，同时正则化的潜在代码。重建损失。我们使用输入图像x和输入图像x之间的距离以及LPIPS差作为我们的重建损失。11404Nnn2Σϕ--n0n输入可逆性映射反演编辑潜在代码编辑类嵌入F2Z+添加草改变姿势改变姿势大白熊金毛猎犬罗威纳图6. 使用BigGAN-deep进行反转和编辑。我们表明，我们的空间自适应方法，使用不同的潜在层，（Z+，F2）可以应用于类条件模型，例如在ImageNet上训练的BigGAN-deep [ 12 ]。在第三列中，我们表明所获得的反演非常接近输入图像。后续的编辑可以使用改变潜在代码（顶行）或修改类嵌入向量（底行）来执行。Lrec=λ2（x，xλ）+λLPIP SLLPIP S（x，xλ），（5）其中λLPIPS是权重项。W-空间正则化。如[51，56]所述，仅具有重构损失的图像导致对编辑无用的对于我们的反演方法，我们对不同的潜在空间使用不同的潜在正则化损失。对于w+，我们使用以下内容：LW=（wn−µ）T（wn−µ）+||w+−w+||2Σ，（6）其中w+是w+v矢量r的第n个分量，wn=LeakyReLU（w+，5. 0），µ和μ分别是随机采样的W空间向量的经验均值和协方差矩阵。第一项应用多变量高斯分布先验[56]，第二项使各个样式代码与第一样式代码之间的变化最小化。F-空间正则化。对于特征空间，我们强制我们的预测变化f小，使得我们的最终特征值不会偏离原始值太多图7. 在不同的运行时重建。我们使用1000幅汽车图像比较了不同GAN反演方法在优化和编码器制度中的每LF=f∈||（七）||(7)该方法使用单个NVIDIA RTX 3090 GPU。我们所提出的方法实现了一个更接近的重建输入在更短的时间内的优化和编码器的范例。最终目标。我们的全部目标如下：argmin Lrec+ λ WLW+ λ FLF，（8）其中λ W和λ F控制每个项的权重。3.4. 图像编辑在获得反转的潜在代码之后，我们通过将编辑方向向量应用于反转的w+潜在向量来编辑图像我们使用GANSpace [21]和StyleCLIP [40]在W+潜在空间中找到编辑方向δw+在W+空间中反转的段由全码w++δw+调制，而在中间特征空间F4、F6、F8、F10中反转的段仅对于该特征空间层之后的层由w++δw+例如，在F10空间中反转的片段对于直到第10层的层被w+调制，并且对于之后的层被w++δw+调制这是必要的，因为我们的倒置特征与w++δw+不兼容。4. 实验在这里，我们进行了详细的定量和定性分析，以显示我们的反演方法在不同数据集上的有效性。请参考arXiv版本了解更多详细信息，包括数据集、BigGAN反演详细信息、LPIPS架构变化、更多定性结果、面部编辑实验和消融研究。数据集。我们在预训练的StyleGAN 2和BigGAN-deep生成器上测试了我们的方法，这些生成器在各种不同的挑战性领域上进行了训练，并遵循不同领域的常用协议[5，43，44]。对于所有实验，我们使用官方发布的StyleGAN 2 [33]，在LSUN汽车、LSUN马、LSUN猫和FFHQ[32]数据集，官方发布了BigGAN-deep [12]在ImageNet上训练[45]。我们使用来自数据集的10，000张图像的子集来训练我们的可逆性预测E4eReStyle - e4eReStyle -pSpSAM -编码器（我们的）StyleGAN 2 Inversion - WW W+ with Gaussian PriorHybrid InversionStyleGAN 2 InversionSAM -优化（我们的）单位：秒（对数刻度）PSNR11405输入输入W +F4F6反演编辑的图像改变大小红色轮式添加树改变大小红色轮式添加树N/A红色轮式添加树改变大小SG2PTI山姆（我们的）SG2PTI山姆（我们的）图8. 与其他基于优化的反演方法的比较。我们将我们的反演和编辑结果与StyleGAN2 W+反演和关键调整进行了比较。与其他方法相比，我们获得了更接近和详细的反演目标图像。此外，我们能够应用语义编辑，同时保持图像的真实感。我们能够执行低级别的编辑，如颜色变化，以及高级别的编辑，如大小变化。关于其他类别的其他结果见项目网站。网络S和1000个图像用于评估。评价我们评估了两个任务-重建和editibility的各种in-version方法的性能。使用PSNR和LPIPS [60]测量反转图像和输入图像注意，不同的先验反演方法使用不同的LPIPS主干。我们使用LPIPS-VGG进行所有实验和比较。如[51]所指出的，测量潜在代码的编辑能力是困难的，并且图像质量度量（诸如IS [46]、FID [22]和KID [11]）与用户偏好不相关。因此，我们展示了定性比较，并进行用户偏好研究，以评估反转和编辑图像的质量。重建比较。我们首先将我们的反演方法与基于优化的机制中的其他最先进的GAN反演方法进行比较。StyleGAN 2 Inversion- sion 和使用 W+ 的 StyleGAN 2Inversion在W和W+潜空间。[56]在进行反演时应用多变量高斯先验约束我们还比较了使用预训练的e4e编码器[51]进行初始化的混合 W+ 反转最近提出的枢轴调谐反转（PTI）[44]在W空间中反转图像后，还对预训练的StyleGAN 2的权重进行了微调表1显示，我们的方法在所有与基线一致的度量上实现了更好的重建。我们的方法能够使用中间层特征空间来反转困难区域，而基线仅依赖于单个W和W+空间难以反转。PTI能够改变StyleGAN2权重来反转图像，但它使用了大量的局部正则化来阻止偏离原始权重，这限制了其反转能力。此外，对于更简单的图像部分，我们得到更好的反转，因为我们的W+潜在代码只关注它可以反转的部分反观其他添加树轮式红色改变大小添加树轮式红色改变大小添加树轮式红色改变大小11406方法车马猫脸LPIPS（↓）PSNR（↑）LPIPS（↓）PSNR（↑）LPIPS（↓）PSNR（↑）LPIPS（↓）PSNR（↑）StyleGAN2 Inversion [33]0.3414.440.4513.460.4414.470.2818.32StyleGAN2 Inversion [33]使用W+0.2417.290.3415.740.3517.110.2022.10高斯先验反演[56]0.4515.920.4217.190.4917.010.1525.18混合W+反演与e4e [51]0.3617.050.4216.680.4217.910.1525.13PTI [44]0.3819.390.4318.730.4120.450.2622.36SAM -优化（我们的）0.1622.810.2321.070.2222.910.1326.89[第51话]0.4714.570.5513.980.5614.680.3419.39ReStyle（pSp）[5]0.4316.440.4516.530.4817.580.2921.47ReStyle（e4e）[5]0.4515.610.5214.500.5315.640.3419.72SAM -编码器（我们的）0.2819.210.3418.610.3718.590.2921.10表1. 与先前方法的重建比较。我们使用PSNR和LPIPS-VGG对1000幅图像的重建进行评估。对于具有挑战性的类别，我们实现了一个更好的重建比所有的基线方法在基于优化人脸图像更简单，包含更少的挑战性区域。随后，我们的方法在使用优化进行反转时的性能略好于先前的方法，并且与使用编码器的最佳性能ReStyle（pSp）相似这些方法试图使用相同的代码来反转容易和困难的部分，导致即使对于较容易的部分也是次优的反转。我们对基于编码器的方法进行了类似的比较，并表明使用我们提出的方法训练的编码器在具有挑战性的图像上优于编码器基线[5，51在面部上，我们的编码器仅用单个前向传递获得类似的重建，作为性能最好的基线ReStyle（pSp），其需要五个前向传递。我们还使用图7中的1000个汽车图像比较了基于优化和基于编码器的反演方法的运行时间。在这两种范例中，我们的方法在较短的时间内获得了更好的重建。定性结果。接下来，我们展示了编辑图5中重建的复杂图像的能力。在第三列中，我们展示了我们使用更有能力的潜在层F4和F6重建困难区域的能力，而容易生成的区域使用更可编辑的W+。这种分离使我们能够执行具有挑战性的编辑，同时忠实地重建目标图像。图6显示了类调节的BigGAN模型的版本内和编辑结果在图8中，我们观察到，我们得到了比基线方法更接近的反演和现实编辑。在某些情况下，例如第一张图像，我们甚至可以在编辑阶段保留细粒度的细节，如光线类型和车轮使用W+的StyleGAN2反演生成逼真的图像，但与输入图像不匹配，而PTI生成更接近但缺乏真实感的图像，特别是在编辑后。我们假设这是由于微调权重和微调之前学习的编辑方向之间的不兼容性用户研究。我们还进行了用户偏好研究，以评估反转和编辑图像的真实性。表2使用来自每个类别的500个不同目标图像将我们的方法与三种最接近的基线方法（PTI[44]，使用W+ 的StyleGAN2反演和混合W+反演每对都由3次运行评估-domized和不同的用户，导致1500比较方法反转编辑汽车马猫汽车马猫PTI [44] 7.0% 11.6% 11.6% 18.4% 16.4%SAM（我们的）93.0%88.4%88.4%81.6%83.6% 62.0%SG2-W+28.0% 24.7% 20.5% 28.8% 35.7% 35.0%SAM（我们的）72.0%75.3%79.5%71.2%64.3%e4e混合型23.2% 21.8% 22.4% 36.4% 38.3% 44.6%SAM（我们的）76.8%78.2%77.6%62.6%61.7% 55.4%表2. 与先前方法的用户偏好比较。我们从每个图像类别中反转和编辑500个，并询问3个不同的用户（每次比较1500对）。实验结果表明，该方法生成的图像受到用户的青睐使用自举法计算的值的分布为2.5%。<每个基线每个类别。结果表明，用户更喜欢我们的结果超过所有具有挑战性的图像类别的基线。请注意，面部图像明显更容易，值得在arXiv版本中进行单独处理。5. 结论和限制我们的关键思想是，图像的不同区域最好使用不同的潜在层进行反转。我们使用这种洞察力来训练网络，预测任何给定输入图像的不同潜在层的容易重建的图像我们使用我们提出的多层反演方法在多个具有挑战性的数据集上显示反演和编辑结果。这种方法的一个局限性是，如果给定的输入图像非常困难，我们的方法将预测后面的潜在层的使用，这将对应于只能编辑有限的东西。致谢。我们感谢 Eli Shechtman 、 Sheng-Yu Wang 、Nupur Kumari 、 Kangle Deng 、 George Cazenavette 、Ruihan Gao和Chonghyuk（Andrew）Song进行了有益的讨论。我们感谢Adobe、Naver Corporation和SonyCorporation的支持。11407引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.如何将图像嵌入到风格的潜在空间？IEEEInternational Conference on Computer Vision（ICCV），2019年。2[2] Rameen Abdal ， Yipeng Qin ， and Peter Wonka.Im-age 2stylegan ++：如何编辑嵌入的图像？IEEE计算机视觉和模式识别会议（CVPR），2020。一、二[3] Rameen Abdal，Peihao Zhu，Niloy J Mitra和Pe-ter Wonka。Styleflow：使用条件连续规范化流对stylegan生成的图像进行属性条件化探索。ACMTransactions on Graphics（TOG），40（3）：1-21，2021。2[4] Yuval Alaluf，Or Patashnik，and Daniel Cohen-Or.只是风格问题：使用基于风格的回归模型进行年龄转换。ACM事务处理图表，40（4），2021. 2[5] Yuval Alaluf，Or Patashnik，and Daniel Cohen-Or.Restyle：一个基于残差的风格编码器，通过迭代细化。在 IEEE/CVF 国际计算机视觉会议（ICCV）的会议录中，二零二一年十月。二、六、八[6] Rushil Anirudh，Jayaraman J Thiagarajan，BhavyaKailkhura，and Peer-Timo Bremer.仿像：在图像流形上的仿像投影. 国际计算机视觉杂志，第1-19页，2020年。2[7] 穆罕默德·阿西姆，法赫德·沙姆沙德，阿里·艾哈迈德。使用深度生成先验的盲图像反卷积。arXiv预印本arXiv：1802.04073，2018。2[8] David Bau，Hendrik Strobelt，William Peebles，Jonas Wulff ， Bolei Zhou ， Jun-Yan Zhu ， andAntonio Torralba.具有生成图像先验的语义照片处理。ACM SIGGRAPH，38（4）：1-11，2019。一、二[9] David Bau，Jun-Yan Zhu，Hendrik Strobelt，BoleiZhou ， Joshua B. 作者： William T.Freeman 和Antonio Torralba。Gan dissection：Visualizing andunderstanding generative adversarial networks.国际学习表征会议（ICLR），2019年。2[10] David Bau、Jun-Yan Zhu、Jonas Wulff、WilliamPee-bles、Hendrik Strobelt、Bolei Zhou和AntonioTorralba 。看看一个帮派不能创造什么。IEEEInternational Conference on Computer Vision（ICCV），2019年。2[11] 我的儿子比恩科沃斯基，丹妮卡J萨瑟兰，迈克尔Ar-贝尔，阿瑟Gretton.揭秘mmd 甘斯。在ICLR，2018年。7[12] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练在国际会议上学习表示（ICLR），2019年。一、二、六[13] Andrew Brock、Theodore Lim、James M Ritchie和Nick Weston。使用内省对抗网络进行神经照片编辑。国际学习表征会议（ICLR），2017年。1[14] Andrew Brock、Theodore Lim、James M Ritchie和Nick Weston。使用内省对抗网络进行神经照片编辑。国际学习表征会议（ICLR），2017年。2[15] 露西·柴乔纳斯·武尔夫菲利普·伊索拉利用潜空间回归分析及调整gans的组成在国际会议上学习表示（ICLR），2021年。2[16] Lucy Chai，Jun-Yan Zhu，Eli Shechtman，PhillipIsola，and Richard Zhang.具有深刻的生成观点。在IEEE/CVF计算机视觉和模式识别会议论文集，第14997-15007页，2021年。2[17] Edo Collins ，Raja Bala，Bob Price，and SabineSusstrunk.编辑风格：发现甘斯的本地特征。IEEE计算机视觉和模式识别会议（CVPR），2020。2[18] D a vidFutelek ， MichalLu ka'c， EliShechtman 和DanielSy`k ora。实图像分段反转。arXiv预印本arXiv：2110.06269，2021。2[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，2014年。一、二[20] Jinjin Gu，Yujun Shen，and Bolei Zhou.图像处理采用多码gan先验。在IEEE计算机视觉和模式识别会议（CVPR），2020年。2[21] ErikH¨rko¨nen ， AaronHertzmann ， JaakkoLehtinen，and Sylvain Paris.Ganspace：发现可预测的Gan控件.在神经信息处理系统的进展，2020年。二、六[22] Martin Heusel ， Hubert Ramsauer ， Thomas Un-terthiner，Bernhard Nessler，and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛于局部纳什均衡。在神经信息处理系统的进展，2017年。7[23] Xun Huang和Serge Belongie。任意风格的实时传输与自适应实例规范化。 IEEEInternationalConference on Computer Vision （ ICCV ）， 2017年。211408[24] Minyoung Huh ，Richard Zhang ，Jun-Yan Zhu ，Sylvain Paris，and Aaron Hertzmann.转换和投影图像到类条件生成网络。欧洲计算机视觉会议（ECCV），2020年。2[25] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成对抗网络的“可操纵性”。在学习代表国际会议，2020年。2[26] Omer Kafri ， Or Patashnik ， Yuval Alaluf ， andDaniel Cohen-Or. Stylefusion：一个用于解开空间片段的生成模型。 arXiv 预印本 arXiv ：2107.07437，2021。2[27] 姜国国，金成泰，赵成贤。利用几何变换对超范围图像进行 Gan 反演。 IEEEInternationalConference on Computer Vision （ ICCV ）， 2021年。2[28] Animesh Karnewar和Oliver Wang。Msg-gan：用于生成对抗网络的多尺度梯度。IEEE计算机视觉和模式识别会议（CVPR），2020。2[29] Tero Karras ， Timo Aila ， Samuli Laine ， andJaakko Lehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在2018年国际学习表征会议（ICLR）一、二[30] Tero Karras ， Miika Aittala ， Janne Hellsten ，Samuli Laine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练NIPS，33，2020年。2[31] Tero Karras ， Miika Aittala ， Samuli Laine ，ErikHárkoênen，JanneHellsten，JaakkoLehtinen，andTimo Aila.无别名生成对抗网络。arXiv预印本arXiv：2106.12423，2021。一、二[32] Tero Karras Samuli Laine和Timo Aila一个基于风格的生成器架构，用于生成对抗网络.在IEEE计算机视觉和模式识别会议（CVPR），2019。一、二、六[33] Tero Karras、Samuli Laine、Miika Aittala、JanneHell-sten、Jaakko Lehtinen和Timo Aila。分析和改善stylegan的图像质量。在IEEE计算机视觉和模式识别会议（CVPR），2020年。一二三六八[34] Hyunsu Kim，Yunjey Choi，Junho Kim，SungjooYoo，and Youngjung Uh.利用感兴趣区域的空间维度进行即时影像编辑。在IEEE计算机视觉和模式识别会议（CVPR），2021年。2[35] AndersBoesenLindboLarsen ， SørenKaaeSønderby，Hugo Larochelle，and Ole Winther.使用学习到的相似性度量来对后面的像素进行自动编码InIn-国际机器学习会议（ICML），2016年。2[36] Zachary C Lipton和Subarna Tripathi。从生成对抗网络中精确地重构潜在向量。arXiv预印本arXiv：1702.04782，2017。2[37] Xuan Luo ， Xuaner Zhang ， Paul Yoo ， RicardoMartin-Brualla ， Jason Lawrence ， and Steven MSeitz. 时间旅行重拍 arXiv 预

下载后可阅读完整内容，剩余1页未读，立即下载