高保真度图像属性编辑方法

92 浏览量更新于2023-10-25 收藏 16.87MB PDF 举报

属性编辑

图像编辑

身份认证购VIP最低享 7 折!

30元优惠券

113790用于图像属性编辑的高保真度GAN反演0Tengfei Wang 1 Yong Zhang 2 � Yanbo Fan 2 Jue Wang 2 Qifeng Chen 1 � 1香港科技大学 2 腾讯AI Lab0摘要0我们提出了一种新颖的高保真度生成对抗网络（GAN）反演框架，可以保留图像特定细节（例如背景、外观和照明）进行属性编辑。我们首先从有损数据压缩的角度分析了高保真度GAN反演的挑战。使用低比特率的潜在代码，之前的工作在重建和编辑图像中保留高保真度细节方面存在困难。增加潜在代码的大小可以提高GAN反演的准确性，但会降低可编辑性。为了在不损害可编辑性的情况下提高图像保真度，我们提出了一种失真协商方法，该方法使用失真映射作为高保真度重建的参考。在失真协商反演（DCI）中，首先将失真映射投影到高比特率的潜在映射中，然后通过协商融合将其与基本的低比特率潜在代码补充更多细节。为了实现高保真度编辑，我们提出了一种自适应失真对齐（ADA）模块，该模块采用自监督训练方案，弥合了编辑和反演图像之间的差距。在人脸和汽车领域进行了大量实验证明了反演和编辑质量的明显改善。项目页面为 https://tengfei-wang.github.io/HFGI/。01. 引言0图像属性编辑是在保留其他细节的同时修改给定图像的所需属性的任务。随着生成对抗网络（GANs）[9]的快速发展，一种有前途的方向是利用StyleGAN [19,20]的强大控制能力来操作图像。为了实现真实世界的图像编辑，最近已经探索了GAN反演技术[40]，该技术旨在将图像投影到预训练的GAN生成器的潜在空间中。现有的GAN反演方法要么执行每个图像的优化[1, 17,45]，要么学习数据驱动的编码器[26,34]。优化方法可以实现更高的0输入0反演0反演0（Restyle）0反演0编辑0编辑0图1.高保真度图像反演和编辑（年龄、微笑、眼睛、颜色、草地）。我们的方法在反演和编辑结果中都能很好地保留细节，如背景、妆容、胡须/发型、反射和阴影。0通过在单个图像上过拟合来提高重建准确性，但潜在代码可能会超出GAN流形，导致编辑质量较差。相比之下，基于编码器的GAN反演方法更快，并且由于从大量训练图像中学到的知识，显示出更好的编辑性能。然而，它们的重建结果通常不准确且保真度较低：这些方法可以重建出粗略的布局（低频模式），但往往忽略了图像特定的细节（高频模式）。例如，重建的人脸图像通常具有与大多数训练图像一致的平均模式（例如，正常的姿势/表情）。113800遮挡/无阴影）以及在训练数据中呈现少数模式（例如背景、照明、配饰）的细节会发生失真。在重建和编辑中保留这些图像特定细节是非常重要的。尽管一些方法尝试提高基于编码器的方法的重建准确性，但它们的编辑性能通常会下降[34]。为了分析现有方法的局限性，我们将GAN反演问题视为具有冻结解码器的有损数据压缩系统。根据速率失真理论[29]，将现实世界的图像反转为低维潜在代码将不可避免地导致信息丢失。根据信息瓶颈理论[33]的猜想，丢失的信息主要是图像特定细节，因为深度压缩模型倾向于保留域的公共信息。基于这些分析和实验观察，我们提出了GAN反演的速率-失真-编辑折衷，这进一步激发了我们的框架的灵感。根据这种折衷，低比特率的潜在代码对于高保真度的GAN反演是不足够的。然而，直接增加速率以提高重建准确性并不容易。较高比特率的潜在代码可以通过过度拟合重建过程来轻松实现低失真，但会导致编辑性能的显著下降。为了实现准确性和可编辑性（高保真度编辑），我们提出了一种新颖的框架，为低比特率的编码器模型提供失真协商。协商分支作为生成的“备忘单”，只传达被忽略的图像特定信息。具体而言，我们利用源图像和低保真度重建图像之间的失真映射作为参考，并将其投影到更高比特率的潜在映射中。与从完整图像推断出的高比特率潜在代码相比，失真映射只传达图像特定细节，因此可以缓解上述过拟合问题。高比特率潜在映射和低比特率潜在代码进一步通过协商融合嵌入和融合在生成器中。我们的方案在重建质量上显示出明显的改善，并且不涉及测试时间优化。对于属性编辑，我们遵循先前的工作，在低比特率潜在代码上执行向量算术[25]，而希望协商能够恢复丢失的细节。虽然失真协商对反演质量有很大贡献，但由于反演图像和编辑图像之间的不对齐，它不能直接应用于反演图像上观察到的失真映射进行编辑。为此，我们还设计了自适应失真对齐（ADA）网络，以调整失真映射与编辑图像的对齐。为了将对齐与协商编码器分离并稳定训练，我们通过提出自监督训练方案的对齐正则化对ADA进行中间监督。0广泛的实验证明，我们的方法在重建和编辑结果的细节保留方面明显优于当前方法。由于具有高保真度的反演能力，我们的方法对视角和光照波动具有鲁棒性，因此可以对视频进行时间上一致的编辑。我们的主要贡献可以总结如下。0•我们提出了一种失真咨询反演方案，将高重建质量和引人注目的可编辑性与咨询融合相结合。0•对于高保真度的编辑，我们提出了自适应失真对齐模块，并采用自监督学习方案。通过对齐，失真信息可以很好地0•我们的方法在各种图像领域和视频上在定性和定量上优于最先进的方法。该框架简单、快速，并且可以轻松应用于GAN模型。02. 相关工作02.1. GAN反演0现有的GAN反演方法可以分为基于优化、基于编码器和混合方法。优化方法可以实现高重建质量，但推理速度较慢。[45]使用L-BFGS，I2S[1]采用ADAM来解决优化问题。[15]采用协方差矩阵适应进行无梯度优化。[45]学习了一个编码器来投影图像。[44]提出了一种在真实图像上的域内方法。pSp [26]和GHFeat[41]提出了以分层方式嵌入潜在代码。此外，e4e[34]分析了重建和编辑能力之间的权衡。[38]通过使用高效头部的浅层网络提高了反演效率。ReStyle[4]通过迭代细化来投影潜在代码。这些方法更加高效，但无法实现高保真度的重建。混合方法做出了妥协。[45]使用编码器输出初始化优化以加速。[11]为编码器和优化迭代器设计了一种协作学习方案。[27]在预测初始潜在代码后，对每个图像进行了StyleGAN参数微调，这需要几分钟的时间。与先前的方法相比，我们的方法显著提高了编码器模型的重建质量，而无需推理时间优化。GAN反演方法还可以根据使用的潜在空间进行分类。Z空间[19]直观但容易出现特征纠缠。StyleGAN中的W [19]和W +[1,2]空间更具解缠性，其中W+空间通过在不同层上使用不同的W来扩展W空间。S空间[39]是通过仿射层将W+转换而来的。P空间[46]将图像反转为最后的激活层。113810+胡须0+年龄0源图像由(a)重建编辑(a) 由(b)重建编辑(b) 由我们重建由我们编辑潜在代码低码率低码率天真高码率天真高码率咨询咨询0图2. 码率-失真-编辑权衡。 “Rec”和“Edit”分别代表重建和编辑结果。 (a)是一种典型的低码率GAN反演框架，但会导致细节丢失和失真。(b)是一种天真的高码率GAN反演框架，具有几乎完美的重建，但编辑性和可解释性较差。所提出的方法（图3）将高细节保真度和引人注目的编辑性能与快速推理速度相结合。0非线性映射网络中的激活层。除了StyleGAN，一些工作[10]也采用了ProgressGAN[18]的多尺度潜在代码。然而，由于有限的比特率（第3.1节），这些潜在空间在重建图像中不可避免地会丢失细节。为了进行高保真度的反演，我们提出了失真咨询分支来传递高频率的图像特定信息。02.2. 潜变量空间编辑0许多监督和无监督的方法探索了GAN潜变量空间中的语义方向。监督方法需要现成的属性分类器或带注释的图像来获取特定属性。InterfaceGAN[30]使用SVM训练来学习每个二进制属性的边界超平面。StyleFlow[3]通过归一化流和现成的分类器学习可逆映射。其他方法[16,24]通过自监督学习探索简单的几何变换。无监督方法不需要预训练的分类器。GANspace[13]对早期特征层进行了PCA。类似地，SeFa[30]对仿射层进行了特征向量分解。一些方法[22, 35,47]基于互信息找到了可区分的方向。LatentCLR[42]通过对比学习探索方向。03. 方法0给定源图像X和经过充分训练的生成器G0，GAN反演通过编码器E0推断出潜变量W，期望能够忠实地重建X。在本节中，0本节中，我们首先分析了先前反演方法的瓶颈，并描述了我们提出的失真协商反演策略。为了处理特征不对齐，我们提出了自监督训练方案的自适应失真对齐模块。整个框架如图3所示。03.1. 概述0动机。目前，GAN反演框架可以分为三类，即基于优化、基于编码器和混合方法。尽管基于优化和混合方法更准确，但耗时较长，因此在实时应用中难以接受。现有的基于编码器的方法可以通过图2（a）进行说明，其中解码器是一个冻结的经过充分训练的生成器（例如StyleGAN），而编码器学习从源图像到潜变量的映射。正如许多现有作品（例如图2中的结果（a））所观察到的那样，编码器方法无法忠实地重建输入图像，反演（和编辑）结果在细节方面的保真度较低。注意到先前方法中的潜变量维度相对较低，我们推测低速率潜变量对于高保真重建是不足够的。这个推测也得到了速率失真理论[5, 7,29]的支持，将在补充材料中进行回顾。为了进一步分析潜变量速率对于高保真GAN反演的影响，我们将基于编码器的GAN反演问题形式化为有损数据压缩问题。在{{෩Δ = 𝑿 − ෡𝐗𝒐{s 𝑊𝑒𝑑𝑖𝑡scale 𝑠𝑖bias 𝑏𝑖gate 𝑔𝑖details ℎ𝑖ℎ𝑖 + 𝑔𝑖 ∙ 𝐹𝑖′113820�0（固定） �0（固定）0�� 0反演0�0（固定）0��0潜变量图 �00.8 × 500 × � × �0ADA0�� 0编辑0�� 或 �� 0或0或0��0反演（DCI）0� � ��0编辑（DCI）0或00.8 × 500 基本编码器0协商0�∆0融合0� � �0AdaIN( � � , � � , � � )0潜变量 � �0� �0潜变量图 � �0层 �0融合0图3.我们的高保真图像反演和编辑框架概述。基本编码器E0推断出对应于低保真重建图像ˆXo的低速率潜变量W。失真图˜∆包含了丢失的高频图像特定细节，以提高重建保真度。红色虚线框表示具有特定语义方向Nedit的编辑行为，其中Wedit = W +αNedit对应于低保真编辑图像ˆXedito。为了实现高保真图像编辑，我们提出了失真协商分支来促进生成。在失真协商中，首先通过ADA将˜∆与低保真编辑图像ˆXedito对齐，然后通过协商编码器Ec将其嵌入到高速率潜变量图C中。潜变量W和潜变量图C通过协商融合（详见右侧部分）在G0的各层之间进行组合，生成最终的编辑图像ˆXedit。0在这个公式中，速率可以解释为潜在编码的维度（例如18×512），而失真表示重建质量（保真度）。我们希望设计一种引人注目的反演方法，能够产生高保真度的反演和编辑图像（低失真）。然而，当前潜在编码的维度远小于图像的维度（低速率）。这与[29，32]中显示的低速率潜在编码对于忠实的重建是不足够的，并且不可避免地会丢失一些信息存在矛盾。因此，我们有动力设计一个大速率的GAN反演系统。0挑战。然而，通过简单增加潜在速率来减少失真并非易事。对于忠实的重建，一个天真的想法是采用类似图2（b）的高速率潜在编码。这种类似Unet的结构被一些最近的图像恢复工作采用[6，37]，它传递潜在映射（例如18×512×H×W）给解码器。由于较高的比特率，恢复质量令人满意（例如图2中的结果（b））。然而，我们无法在我们的情况下应用这种结构，因为高维潜在编码难以解释和操作以进行属性编辑（例如图2中的结果（b））。类似地，先前的工作[34]也观察到由过拟合带来的重建和可编辑性之间的权衡。高速率潜在编码容易在重建上过拟合，从而影响编辑性能。由于反演只是实现编辑目标的中间步骤，因此必须平衡速率、重建和编辑质量，我们称之为速率-失真-编辑的权衡（图2）。为此，需要精心设计系统。0设计。如上所述，通过（相对）低速率的潜在编码，GAN反演系统受到不可避免的低速率潜在编码的损失。0信息损失。通过分析先前GAN反演方法的视觉结果（图1，图2，图4），我们发现这些重建结果可以成功保留源图像的频繁模式和主要属性。相反，丢失的信息主要是图像特定的细节，如背景、化妆和照明。这一观察结果与信息瓶颈理论[31-33]一致，该理论假设深度模型主要学习数据集中的常见模式，而忘记了用于重建的不常见细节。考虑到速率-失真-编辑的权衡，既然我们已经优先考虑了可编辑性（具有低速率的潜在编码），主要问题是如何传达丢失的信息以提高保真度（降低失真），而不影响编辑性能。为此，我们提出了一个失真咨询分支，仅传达图像特定的细节以增强重建质量，避免了简单过拟合的平凡解决方案。对于编辑，我们仍然对低速率潜在编码进行向量算术运算，以实现其高可编辑性。通过结合两者的优点，所提出的方法在重建和编辑方面都实现了高保真度（图2）。03.2.失真咨询反演（DCI）0基本编码器。通过基本编码器E0，我们可以获得低速率的潜在编码W = E0(X)和初始反演图像ˆX o =G0(W)。在这种情况下，生成器G0将W作为每一层的输入来获取特征图：0F i +1 = AdaIN(F i, f s i(W i), f b i(W i)), (1)0其中，f s i(W i)和f b i(W i)是AdaIN中用于尺度和偏置的仿射层[14]。ˆXo由于信息不完整而具有低保真度。113830低速率潜在编码的损失，下标o表示对源图像X的（不令人满意的）观察。咨询编码器。为了提高E0的保真度，我们提出了一个失真咨询分支，以传达丢失的图像特定细节。我们将其称为咨询，因为网络明确地咨询图像特定信息作为生成的参考。具体而言，我们将源图像X和初始重建图像ˆXo之间的失真图˜∆ = X - ˆXo视为丢失的细节[36]。失真图被投影到高速率潜在映射C =Ec(˜∆)通过咨询编码器Ec。与仅依赖W的先前方法相比，G0还额外使用C来咨询丢失的细节，以实现高保真度的重建，即ˆX = G0(W, C)。0咨询融合。为了将咨询分支与基本编码器结合起来进行图像生成，我们采用了一种逐层咨询融合的方法，用于潜变量 W和潜图 C，如图3所示。由于 W引入的伪影和不准确的细节可能会降低生成质量，我们设计了一种门控融合方案，以自适应地滤除不需要的特征。在 G0 的第 i 层中，C i 被嵌入到门图 g i 和高频细节图 h i 中：0g i = f gate i (C i), h i = f hf i (C i), (2)0其中映射函数 f gate 和 f hf 是卷积层。h i包含图像特定的细节，并促进从 Wi（Eq.（2））获得的低保真度特征生成 StyleGAN 1中的高保真度特征图 F i +1 ：0F i +1 = g i ∙ AdaIN(F i, f s i (W i), f b i (W i)) + h i. (3)0为了避免对反转结果过拟合，我们只在 G 0的早期层进行咨询融合。03.3. 自适应扭曲对齐（ADA）0对于属性编辑，低码率的潜变量 W 将沿着某个语义方向 Nedit 移动，如 W edit = W + αN edit[30]。通过基础编码器得到的初始编辑图像表示为ˆ X edit o= G 0(Wedit)，其中存在细节失真。到目前为止，我们通过提出的DCI改善了反转图像ˆ X o 的保真度，其中扭曲图˜ ∆ = X - ˆ Xo 用于计算ˆ Xo。然而，当编辑年龄、姿势和表情等属性时，ˆ X edit o会从ˆ X o 变形。这意味着观察到的˜ ∆ 可能与编辑图像ˆ Xedit o 不对齐。直接将DCI应用于ˆ X edit o会导致明显的伪影，因为它会参考不对齐的细节˜∆（见第4.3节）。为了将DCI从反转推进到编辑，应该将观察到的扭曲图˜ ∆ 自适应地与编辑图像ˆ X edit o对齐。因此，我们提出了ADA模块，它是一种类似编码器-解码器的结构，用于扭曲对齐。0对于StyleGAN2 [20]，融合层将是 F i +1 = g i ∙ ModulatedConv(F i, f s i(W i), f b i (W i)) + h i.0考虑一个不对齐的 { I , ˜ ∆ } 对，其中 I 是反转的ˆ Xo，用于编辑的ˆ X edit o是编辑的，ADA是将扭曲图˜ ∆与目标图像 I对齐。对于反转，ADA理想上是一个恒等映射。对于编辑，期望将扭曲图自适应地转换为ˆ ∆ edit = ADA(ˆ X edit o, ˜∆)，与初始编辑结果ˆ X edit o对齐。以 C edit = E c(ˆ ∆edit) 作为参考，ˆ X edit = G 0(W edit, C edit)可以保留更多细节。0自监督训练。为了减轻扭曲对齐和扭曲咨询之间的纠缠，我们在ADA输出上进行中间监督。为此，我们需要大量的不对齐的 { I , ˜ ∆ } 对和它们的地面真实对齐图 ∆进行训练，但数据收集是费时费力的。为了进行自监督训练，我们将 X 作为源图像，将低保真度反转ˆ X o作为对齐的目标图像 I，因此地面真实对齐的扭曲为 ∆ = X -ˆ X o。在训练过程中，我们通过随机透视变换对 ∆进行增强，以模拟不对齐的扭曲图˜∆。我们经验性地观察到这些模拟对在训练中起到了很好的作用，并期望在未来的工作中有更好的模拟方案。鼓励ADA模块产生对齐的扭曲ˆ ∆ = ADA(ˆ X o, ˜ ∆)，以逼近∆。对齐损失定义为：L align = ∥ˆ ∆ -∆∥1。更多细节请参见补充材料。03.4. 损失0在训练过程中，生成器 G 0 和基本编码器 E 0被冻结。为了忠实重建，我们计算ˆ X 和 X 之间的 L 2损失和 LPIPS [43]。我们还计算身份损失 L id = 1 - �F(X),F(ˆ X)�，其中 F 是预训练的ArcFace[8]或用于不同领域的ResNet-50模型[34]。重建损失为0L rec = L 2 + λ per L LP IP S + λ id L id. (4)0我们还采用对抗性损失来提高图像质量：0L D = E [log D ( ˆ X )] + E [log(1 - D ( X ))], (5)0L adv = - E [log( D ( ˆ X ))], (6)0其中D是用训练有素的鉴别器初始化的。总的损失是Lrec，L adv和Lalign的加权求和。请注意，训练过程只涉及反演图像，不需要编辑方向Nedit。训练后，模型可以推广到不同方法探索的多样属性编辑。04. 实验 4.1. 设置0数据集。对于人脸领域，我们使用FFHQ[19]数据集进行训练，使用CelebA-HQ[18]数据集进行评估。对于汽车领域，我们使用StanfordCars [21]进行训练和评估。对于属性113840+年龄0-年龄0+微笑0-微笑0+口红0+姿势0-姿势0闭上眼睛0颜色0颜色0+草地0+草地0输入pSp（Rec）e4e（Rec）Restyle（Rec）Ours（Rec）pSp（Edit）e4e（Edit）Restyle（Edit）Ours（Edit）0图4. 人脸反演和编辑的视觉比较。更多结果请参见附录。113850方法 MAE ↓ SSIM ↑ LPIPS ↓ 时间 ↓0I2S [1] .0636 ± .0010 .872 ± .005 .134 ± .006 156s PTI [27].0622 ± .0004 .877 ± .003 .132 ± .003 283s0pSp [26] .0789 ± .0006 .793 ± .006 .169 ± .002 0.11s RestylepSp [4] .0729 ± .0005 .823 ± .004 .145 ± .002 0.46s e4e [34].0919 ± .0008 .742 ± .007 .221 ± .003 0.11s Restyle e4e [4].0887 ± .0008 .758 ± .007 .202 ± .003 0.46s0Ours e 4 e .0617 ± .0004 .877 ± .002 .127 ± .001 0.24s0表1. 人脸反演质量的定量比较。0编辑，我们采用InterfaceGAN[30]用于人脸图像和GANSpace[13]用于汽车图像。实现细节请参见附录。04.2. 评估04.2.1 定量评估我们将我们的方法（以e4e为基本编码器）与最先进的基于编码器的GAN反演方法进行比较，包括pSp [26]，e4e[34]和Restyle[4]（分别使用pSp和e4e作为主干）。我们在表1中报告了CelebA-HQ的前1500张图像的反演性能的定量比较结果。这些指标是在CelebA-HQ的前1500张图像上计算得出的。我们还将所提出的方法与两种基于优化的方法进行了比较[1，27]。我们的方法在重建质量方面明显优于基于编码器的基线，并且在推理时比基于优化的方法快得多。04.2.2 定性评估编码器基线。我们在图4中展示了反演和编辑的视觉结果。与以前的方法相比，我们的方法对遮挡和极端视角的图像具有鲁棒性。例如，图4的第一行给出了一张被手遮挡的人脸图像，最后一行展示了一张具有超出范围视角的汽车图像。现有方法无法忠实地重建这些具有挑战性的图像。它们生成扭曲的结果，并且在反演和编辑方面都存在伪影。相比之下，我们提出的失真协商方案使我们的方法更加鲁棒，并具有高保真度的结果。除了提高鲁棒性，我们的方法还成功地保留了背景（第4行），阴影（第2行），反射（第10行），配饰（第5行），表情（第7和第8行）以及外观（第9和第11行）中的更多细节。优化基线。我们还将我们的方法与基于优化的方法[1，20，27]进行了比较。请注意，PTI[27]优化了潜在代码和StyleGAN参数，但我们仍然报告他们的结果以进行更好的比较。通过�1000×更快的推理，我们的方法实现了可比较甚至更好的重建质量。此外，所提出的方案产生的编辑结果成功地保留了源图像的特定细节，而不会影响编辑性能。0我们 > pSp 我们 > e4e 我们 > Restyle0偏好率 81.2% 84.4% 79.7%0表2. 用户研究结果。报告的数值表示我们相对于基线的偏好率。04.2.3用户研究为了感知地评估编辑性能，我们在表2中进行了用户研究。我们从CelebA-HQ中选择了前50张图像，并对广泛的属性进行了编辑。我们从30名参与者那里收集了1500张投票。每个参与者一次给出一组图像（源图像，我们的编辑结果，基线编辑结果），并被要求选择具有适当编辑的更高保真度的图像。用户研究显示我们的方法在很大程度上优于基线。04.3. 消融研究04.3.1 畸变咨询的效果0如前所述，畸变咨询反演（DCI）方案将被忽略的图像细节补充到低速基本编码器中，从而实现高保真度的重建。为了验证DCI的有效性，我们在图6中展示了我们的反演结果。通过提出的畸变咨询分支，模型对遮挡和极端姿势更具鲁棒性，并在重建结果中保留更多细节。04.3.2 自适应畸变对齐的效果0为了分析ADA的效果，我们在图7中展示了有无ADA的编辑结果。没有自适应对齐，畸变图无法推广到编辑后的图像，并降低了生成图像的质量。在提出的方法中，通过咨询编码和咨询融合，对齐的畸变图被嵌入和整合到特征空间中。一个简单的替代方法是直接在图像空间中通过面部标志估计的变形添加畸变图˜∆到Xedito。如图7所示，在图像空间中进行变形和融合也会导致明显的伪影，其中变形是通过面部标志的坐标插值实现的。04.4. 视频编辑应用0与图像反演和编辑相比，视频对应的关键挑战是帧间细节的时间一致性。这对重建保真度提出了更高的要求，因为每个单独图像的畸变在视频中会被放大，从一致性和质量的角度来看[23]。我们在真实视频[28]上展示了图8中的反演和编辑结果。以前的低速反演方法对姿势变化缺乏鲁棒性，无法保留原始人物的身份，并在编辑结果中产生明显的畸变。当视频帧的姿势和视角发生变化时，他们的结果显示了不一致的细节和明显的身份差异。113860+姿势0+年龄0输入 W [20]（重建） W + [1]（重建） PTI [27]（重建）我们（重建） W（编辑） W +（编辑） PTI（编辑）我们（编辑）0图5. 与基于优化的方法的视觉比较。我们的方法比这些基线方法快得多。0输入0无DCI0无DCI0图6. 畸变咨询反演（DCI）的效果。0输入图像空间图像空间我们我们无变形我们有变形我们无ADA 我们有ADA0图7.ADA的效果。我们分别在图像和特征空间中整合畸变图，并展示编辑结果。0不一致的细节和突然的身份差异。相比之下，所提出的方法对帧间差异（例如姿势，视角）更具鲁棒性，并实现了更高的细节保留保真度。更多以mp4格式给出的结果请参见补充材料。05. 结论0在这项工作中，我们提出了一种新颖的GAN反演框架，实现了高保真度的图像属性编辑。通过信息咨询分支，我们将观察到的畸变图作为高速参考来咨询丢失的信息。这种方案增强了基本编码器，实现了高质量的重建而不影响可编辑性。0原始0视频0e40(+微笑)0Restyle0(+微笑)0我们的0(+微笑)0我们的0(推荐)0图8. 对真实视频的反演和编辑结果.0性。通过自适应畸变对齐和畸变协商技术，我们的方法对于具有遮挡和极端视角等挑战性情况更加稳健。由于咨询分支的附加信息，所提出的方法在重建和编辑方面显示出明显的改进，例如图像特定细节的保留(例如背景、外观和照明)。所提出的框架易于应用，我们相信它可以轻松推广到未来工作中的其他GAN模型。局限性。所提出方法的一个局限性是处理大的错位情况的困难。由于我们实验中用于ADA训练的增强数据不包括极端错位，当编辑具有大视角变化的图像时，ADA可能不足(请参阅补充材料中的失败案例)。113870参考文献0[1] Rameen Abdal，Yipeng Qin和Peter Wonka.Image2StyleGAN: 如何将图像嵌入到StyleGAN潜空间中?在2019年IEEE/CVF国际计算机视觉大会(ICCV)上，2019年1月，2月，7月，8月.0[2] Rameen Abdal，Yipeng Qin和Peter Wonka.Image2StyleGAN++: 如何编辑嵌入图像?在2020年IEEE/CVF计算机视觉与模式识别会议(CVPR)上，2020年2月.0[3] Rameen Abdal，Peihao Zhu，Niloy Mitra和Peter Wonka.StyleFlow:使用条件连续归一化流对StyleGAN生成的图像进行属性条件探索.在SIGGRAPH上，2021年3月.0[4] Yuval Alaluf，Or Patashnik和Daniel Cohen-Or. Restyle:通过迭代改进的基于残差的StyleGAN编码器.在2021年IEEE/CVF国际计算机视觉大会(ICCV)上，2021年2月，7月.0[5] Yochai Blau和Tomer Michaeli. 重新思考有损压缩:码率-失真-感知权衡.在2019年国际机器学习大会(ICML)上，2019年3月.0[6] 陈超峰，李晓明，杨凌波，林贤辉，张磊和Kwan-Yee K.Wong. 盲人人脸修复的渐进语义感知风格转换.在2021年IEEE/CVF计算机视觉与模式识别会议(CVPR)上，2021年4月.0[7] Thomas M Cover. 信息论要素. 约翰威利和儿子，1999年3月.0[8] 邓建康，郭佳，薛念楠和Stefanos Zafeiriou. Arcface:深度人脸识别的加性角度边界损失.在2019年IEEE/CVF计算机视觉与模式识别会议(CVPR)上，2019年5月.0[9] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio. 生成对抗网络.在神经信息处理系统(NeurIPS)会议上，2014年1月.0[10] 顾金金，沈宇军和周博磊. 利用多编码GAN先验进行图像处理.在2020年IEEE/CVF计算机视觉与模式识别会议(CVPR)上，2020年3月.0[11] 关山燕，邰颖，倪冰冰，朱飞达，黄飞跃和杨晓康.协作学习加速StyleGAN嵌入.arXiv预印本arXiv:2007.01758，2020年2月.0[12] 郭建柱，朱翔宇，杨洋，杨帆，雷震和李斯坦.迈向快速、准确和稳定的3D密集人脸对齐.在2020年欧洲计算机视觉大会(ECCV)上，2020年7月.0[13] Erik Harkonen，Aaron Hertzmann，JaakkoLehtinen和Sylvain Paris. GAN空间: 发现可解释的GAN控制.在神经信息处理系统(NeurIPS)会议上，2020年3月，7月.0[14] Xun Huang and Serge J. Belongie.实时任意风格转移与自适应实例归一化。在2017年ICCV中发表。40[15] Minyoung Huh, Richard Zhang, Jun-Yan Zhu, SylvainParis, and Aaron Hertzmann.将图像转换和投影到类条件生成网络中。在2020年欧洲计算机视觉（ECCV）会议中发表。20[16] Ali Jahanian, Lucy Chai, and Phillip Isola.关于生成对抗网络的“可操纵性”。在2020年学习表示国际会议（ICLR）中发表。30[17] Kyoungkook Kang, Seongtae Kim, and Sunghyun Cho.用几何变换对超出范围的图像进行GAN反演。在2021年IEEE/CVF国际计算机视觉（ICCV）会议论文集中发表。10[18] Tero Karras, Timo Aila, Samuli Laine, and JaakkoLehtinen.渐进增长的GAN以提高质量、稳定性和变化性。在2018年学习表示国际会议（ICLR）中发表。3, 50[19] Tero Karras, Samuli Laine, and Timo Aila.用基于样式的生成器架构进行生成对抗网络。在2019年IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中发表。1, 2, 50[20] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量。在2020年IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中发表。1, 5, 7, 80[21] Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei.用于细粒度分类的3D对象表示。在2013年国际IEEE3D表示和识别研讨会上发表。50[22] Yu-Ding Lu, Hsin-Ying Lee, Hung-Yu Tseng, and Ming-Hsuan Yang.GAN中无监督发现解缠绕流形。arXiv预印本arXiv:2011.11842，2020年发表。30[23] Hao Ouyang, Tengfei Wang, and Qifeng Chen.通过隐式长程传播进行内部视频修复。在2021年IEEE/CVF国际计算机视觉（ICCV）会议论文集中发表。70[24] Antoine Plumerault, Hervé Le Borgne, and CélineHudelot.用连续变化因素控制生成模型。在2020年学习表示国际会议（ICLR）中发表。30[25] Alec Radford, Luke Metz, and Soumith Chintala.用深度卷积生成对抗网络进行无监督表示学习。在2016年学习表示国际会议（ICLR）中发表。20[26] Elad Richardson, Yuval Alaluf, Or Patashnik, YotamNitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or.StyleGAN编码器用于图像到图像的翻译。在2021年IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中发表。1, 2, 70[27] Daniel Roich, Ron Mokady, Amit H Bermano, and Daniel Cohen-Or.关键调整用于基于潜在空间的真实图像编辑。arXiv预印本arXiv:2106.05744，2021年发表。2, 7, 80[28] Andreas Rossler, Davide Cozzolino, Luisa Verdoliva,Christian Riess, Justus Thies, and Matthias Nießner.Faceforensics++：学习检测篡改的面部图像。在2019年IEEE/CVF国际计算机视觉（ICCV）会议论文集中发表。7113880[29] Claude E Shannon等人.具有保真度准则的离散源的编码定理。IRE Nat. Conv.Rec，4(142-163):1，1959年发表。2, 3, 40[30] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou.解释GAN的潜在空间用于语义人脸编辑。在2020年IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中发表。3, 5, 70[31] Ravid Shwartz-Ziv和NaftaliTishby。通过信息打开深度神经网络的黑盒。arXiv预印本arXiv：1703.00810，2017年。40[32] Naftali Tishby，Fernando C Pereira和WilliamBialek。信息瓶颈方法。年度奥尔顿通信，控制和计算会议论文集，1999年。40[33] Naftali Tishby和NogaZaslavsky。深度学习和信息瓶颈原理。在2015年IEEE信息理论研讨会（ITW）上，第1-5页，2015年。2，40[34] Omer Tov，Yuval Alaluf，Yotam Nitzan，OrPatashnik和DanielCohen-Or。为StyleGAN图像操作设计编码器。ACM图形学交易（TOG），40（4）：1-14，2021年。1，2，4，5，70[35] Andrey Voynov和ArtemBabenko。在GAN潜在空间中无监督发现可解释方向。在国际机器学习会议（ICML）上，2020年。30[36] Tengfei Wang，Jiaxin Xie，Wenxiu Sun，QiongYan和QifengChen。带对齐注意模块的双摄像头超分辨率。在IEEE /CVF国际计算机视觉会议（ICCV）的论文集中，第2001-2010页，2021年10月。50[37] Xintao Wang，Yu Li，Honglun Zhang和YingShan。实现具有生成性面部先验的真实世界盲目面部修复。在IEEE /CVF计算机视觉和模式识别会议（CVPR）的论文集中，2021年。40[38] Tianyi Wei，Dongdong Chen，Wenbo Zhou，JingLiao，Weiming Zhang，Lu Yuan，Gang Hua和NenghaiYu。StyleGAN反演的简单基准。arXiv预印本arXiv：2104.07661

下载后可阅读完整内容，剩余1页未读，立即下载