没有合适的资源?快使用搜索试试~ 我知道了~
67110ReStyle:一种基于残差的StyleGAN编码器通过迭代细化0Yuval Alaluf Or Patashnik Daniel Cohen-Or0特拉维夫大学计算机科学学院0摘要0最近,通过使用生成对抗网络(GAN),无条件图像合成的能力已经显著提高。将图像反转为训练过的GAN的相应潜在代码是非常重要的任务,因为它允许利用网络学到的丰富语义进行真实图像的操作。鉴于当前反转方法的局限性,在这项工作中,我们提出了一种新颖的反转方案,通过引入迭代细化机制来扩展当前基于编码器的反转方法。与直接使用单次传递预测给定真实图像的潜在代码不同,编码器被要求以自我校正的方式预测相对于当前估计的反转潜在代码的残差。我们的基于残差的编码器ReStyle在准确性方面相比于当前最先进的基于编码器的方法具有改进,而推理时间几乎没有增加。我们分析了ReStyle的行为,以获得有关其迭代性质的有价值的见解。然后,我们评估了我们的残差编码器的性能,并分析了与基于优化的反转和最先进的编码器相比的鲁棒性。代码可通过我们的项目页面获得:https://yuval-alaluf.github.io/restyle-encoder/01. 引言0最近,由于生成对抗网络(GAN)能够合成高质量和多样性的图像,它们在人们中的流行度不断增长。除了在许多领域上的惊人逼真度和保真度之外,最近的研究表明,GAN(例如StyleGAN)能够有效地在其潜在空间中编码语义信息。值得注意的是,已经证明StyleGAN学习到的潜在空间W具有解缠绕特性,使得可以通过利用训练良好的StyleGAN生成器进行广泛的图像操作。然而,这种操作通常被应用于GAN自身生成的合成图像。要在真实图像上应用这样的编辑,必须首先将给定图像反转为StyleGAN的潜在空间。也就是说,找到潜在代码w,使得将w传递给预训练的StyleGAN生成器返回原始图像。为此,已经普遍使用基于学习的反转方法,并训练编码器将给定的真实图像映射到其相应的潜在代码。与每个图像的潜在向量优化相比,编码器速度更快,因为它们使用单次前向传递进行反转,并收敛到更适合编辑的潜在空间区域。然而,就重建准确性而言,学习为基础的反转方法与基于优化的反转方法之间仍存在显著差距。因此,尽管在学习为基础的反转方面取得了重大进展,但设计适当的编码器和训练方案仍然是一个具有挑战性的问题,许多研究仍然采用每个图像的优化方法。0输入 迭代输出 −→0图1。与传统的基于编码器的反转技术不同,我们的基于残差的ReStyle方案采用迭代的方式逐步收敛到真实图像的准确反转。对于每个领域,我们首先显示左侧的输入图像,然后显示中间的反转输出。0首先将给定图像反转为StyleGAN的潜在空间。也就是说,找到潜在代码w,使得将w传递给预训练的StyleGAN生成器返回原始图像。为此,已经普遍使用基于学习的反转方法,并训练编码器将给定的真实图像映射到其相应的潜在代码。与每个图像的潜在向量优化相比,编码器速度更快,因为它们使用单次前向传递进行反转,并收敛到更适合编辑的潜在空间区域。然而,就重建准确性而言,学习为基础的反转方法与基于优化的反转方法之间仍存在显著差距。因此,尽管在学习为基础的反转方面取得了重大进展,但设计适当的编码器和训练方案仍然是一个具有挑战性的问题,许多研究仍然采用每个图像的优化方法。67120鉴于在一次拍摄中获得准确的反转很困难,我们引入了一种新颖的基于编码器的反转方案,其任务是将真实图像编码为扩展的W +StyleGAN潜在空间。与典型的基于编码器的反转方法不同,后者使用单次前向传递来推断输入的反转潜在代码,我们的方案引入了一种迭代反馈机制。具体而言,反转是通过多次前向传递来执行的,通过将编码器与前一次迭代的输出以及原始输入图像一起输入,使编码器能够利用在先前迭代中学到的知识,集中在实现对输入图像准确重建所需的相关区域上。从潜在空间的角度来看,我们的残差编码器被训练成在每个步骤中预测当前潜在代码与新潜在代码之间的残差或偏移量。这样做可以使编码器逐渐将其反转收敛到目标代码和重建中,参见图1。还要注意的是,反转仅使用编码器预测,之后不进行每个图像的优化。从某种意义上说,我们的反转方案名为ReStyle可以被视为在预训练的无条件生成器的潜在空间中以基于残差的方式执行少量步骤(例如10步)。ReStyle是通用的,因为它可以应用于StyleGAN反转任务的各种编码器架构和损失目标。我们进行了大量实验证明,与标准的前向编码器相比,ReStyle在重建质量上取得了显著的改进。这在推理时间上几乎没有增加,仍然比耗时的基于优化的反转快一个数量级。我们还分析了我们方法的迭代性质。具体而言,我们首先演示了每个迭代反馈步骤中细化的图像区域,证明了我们的方案以粗到细的方式运行。其次,我们展示了每个步骤的绝对变化幅度减小,预测的残差在仅经过少量步骤后收敛。为了证明ReStyle在StyleGAN反转任务以及与当前反转技术相比的吸引力方面的泛化性,我们继续通过探索我们的方案在下游任务和特殊用例上的鲁棒性来进行分析。为此,我们对反转的潜在代码进行潜在空间操作[16, 36,37],以查看嵌入是否具有语义上的意义。然后,我们探索了一种编码器引导技术,允许利用两个训练良好的编码器获得给定真实图像的更准确的转换。02. 背景和相关工作0采用迭代细化方案的想法并不新鲜。Carreira等人[6]引入了一种用于人体姿势估计的迭代反馈机制。其他工作有0提出使用迭代细化来进行光流[20]、物体姿态估计[43,18]、物体检测[34]和语义分割[48]等任务。据我们所知,我们是第一个采用迭代细化方法来学习反演真实图像的。02.1. GAN反演0GAN反演的任务最早由Zhu等人[51]引入,用于将真实图像投影到其潜在表示中。在他们的开创性工作中,作者演示了如何通过执行这种反演来利用GAN的潜在空间的语义进行各种图像操作任务。一些工作[51, 28, 10, 1, 2, 25,39]通过直接优化潜在向量来最小化给定图像的重构误差来解决这个任务。这些工作通常能够实现高质量的重构,但每张图像需要几分钟的时间。其他方法设计了一个编码器[51,32, 50, 15, 35,40],学习从给定图像到其对应的潜在向量的直接映射。虽然这些方法比纯优化方法更高效,但通常重构质量较差。为了平衡这种权衡,一些工作还提出了混合方法,通过使用编码器来初始化优化过程[51, 5, 15,50]。我们建议读者参考Xia等人的综述[44]了解GAN反演的全面调查。02.2. 通过学习的编码器进行潜在空间嵌入0为了在真实图像上进行图像操作,方法通常采用“先反演,后编辑”的方法。首先将图像嵌入到其对应的潜在代码中,然后以语义上有意义的方式对其进行编辑。与上述方法不同,最近的一些工作[30, 35, 4,7]提出了端到端的方法,利用GAN生成的高质量图像进行各种图像到图像的转换和图像编辑任务。在这些工作中,真实输入图像直接编码成转换后的潜在代码,然后输入生成器以获得所需的转换图像。通过训练一个带有额外约束的编码器,这些工作能够直接解决各种任务,而无需事先反演图像。其他工作[45]利用学习的StyleGAN编码器产生的特征来解决各种下游任务,如人脸验证和布局预测。这些工作进一步强调了在预训练的无条件生成器的潜在空间中训练一个强大的编码器的优势。02.3. 潜在空间操作0随着GAN在图像合成方面的最新进展[14],许多工作提出了各种方法来理解和控制它们的潜在表示,以进行广泛的图像操作。𝐸𝑛𝑐𝑜𝑑𝑒𝑟𝑬𝑆𝑡𝑦𝑙𝑒𝐺𝐴𝑁𝑮Δ! = 𝐸 𝒙𝒕𝒘!𝒚'𝒕𝒙𝒙𝒕𝐰!#$ = Δ! + 𝒘!𝒚'!#$𝐹𝑜𝑟𝑤𝑎𝑟𝑑 𝑃𝑎𝑠𝑠𝐼𝑡𝑒𝑟𝑎𝑡𝑖𝑣𝑒 𝐹𝑒𝑒𝑑𝑏𝑎𝑐𝑘𝒚'𝟎 = 𝑮(𝒘𝟎)𝐼𝑛𝑖𝑡𝑖𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛𝒘𝟎 = 𝒘67130图2.我们的ReStyle迭代反演方案。给定输入图像x,该方案以平均潜在代码w0及其对应的图像ˆy0初始化。考虑第t步。ReStyle在通过将当前反演预测wt ∈ W +(显示为黄色)对应的图像ˆyt与x连接起来得到的扩展输入上操作。然后,编码器E被要求预测一个残差潜在代码∆t ∈ W+(显示为蓝色)。然后将预测的残差添加到先前的潜在代码wt中,以获得更新的潜在代码预测wt+1(显示为绿色)。最后,将新计算的潜在代码传递给生成器G,得到更新的重构ˆyt+1,然后将其作为输入传递给下一步。在训练过程中,每次前向传递时计算损失目标,并相应地进行反向传播。推理过程中也执行类似的多步骤过程。0各种工作[12, 13,36]使用完全监督的方法来找到与各种属性(如年龄、性别和表情)相对应的潜在方向。在监督程度的另一端,几种方法[16, 41,42]以完全无监督的方式找到方向。其他人则探索了超越潜在空间线性遍历的技术。Tewari等人[38]使用预训练的3DMM来学习语义人脸编辑。Shen等人[37]通过生成器权重的特征向量分解学习多功能编辑方向。Abdal等人[3]通过在目标属性上条件化的归一化流学习非线性路径。最后,Patashnik等人[31]利用CLIP来使用输入文本提示操纵图像。通过设计一种高效准确的反转方法,可以利用这些工作来操作真实图像。03. 准备工作03.1. 基于编码器的反转方法0回想一下,我们的目标是训练一个编码器,将真实图像反转为预训练StyleGAN生成器的潜在空间。让E和G分别表示我们的编码器和StyleGAN生成器。给定源图像x,我们的目标是生成一个图像ˆy = G(E(x)),使得ˆy ≈x。观察到在传统的基于编码器的反转方法中,重建图像ˆy仅仅是通过E和G通过StyleGAN的潜在空间表示进行单次前向传递计算的。为了学习执行反转,这些方法引入了一组用于训练编码器网络E的损失。对于训练编码器,大多数方法都使用了加权组合的像素级L2损失和感知损失。0基于编码器的方法采用像素级L2损失和感知损失(例如,LPIPS[49])的加权组合来指导训练过程。最近,Richardson等人[35]扩展了这些损失,并引入了专门的身份损失来实现在人脸领域的改进重建。为了获得对反转潜在代码的改进可编辑性,Tov等人[40]在训练过程中还引入了两个正则化损失。观察到在训练过程中,预训练的生成器网络G通常保持不变。04. 方法0我们现在转向描述我们的ReStyle方案,并建立在上述传统的单次编码方法之上。给定一个输入图像x,ReStyle执行N> 1步来预测图像反转w =E(x)和相应的重建ˆy。在这里,我们将一步定义为通过E和G进行一次前向传递。因此,可以观察到传统的编码过程是通过单步执行的,是ReStyle的特例,其中N =1。对于训练编码器网络E,我们将单个训练迭代定义为对一批图像执行的N个步骤的集合。与传统的编码方案一样,ReStyle在反转任务上使用了一组精心策划的损失目标来训练E,而预训练的生成器G保持不变。观察到损失目标是在每次前向传递(即步骤)中计算的,通过反向传播相应地更新编码器权重(即每批次进行N次反向传播)。xt := x ∥ ˆyt.(1)∆t := E(xt).(2)wt+1 ← ∆t + wt.(3)ˆyt+1 := G(wt+1).(4)……𝒙16×16𝑚𝑎𝑝2𝑠𝑡𝑦𝑙𝑒𝑚𝑎𝑝2𝑠𝑡𝑦𝑙𝑒𝑤!"#𝑤$67140在推理过程中,执行相同的多步骤过程(不进行损失计算)来计算图像反转和重建。值得注意的是,对于给定的一批图像,我们发现只需要少量的步骤即可收敛(例如,N <10),从而实现快速推理时间。我们现在更正式地描述ReStyle的反转过程,如图2所示。在每个步骤t中,ReStyle通过将x与当前预测的重建图像ˆyt连接起来,在扩展输入上进行操作:0给定扩展的6通道输入xt,编码器E的任务是计算与上一步中预测的潜在代码相关的残差代码∆t,即:0与输入图像x的反演对应的潜在代码的新预测然后更新为:0将这个新的潜在代码w t +1通过生成器G传递,以获得重建图像的更新预测:0最后,将更新的预测ˆ y t +1作为下一步的附加输入通道,如方程1所定义。该过程从一个初始猜测w 0 和相应的图像ˆ y 0开始。在我们的实验中,它们分别被设置为生成器的平均样式向量和其对应的合成图像。注意,将编码器约束为在单个步骤中反演给定图像,如通常所做的那样,对训练过程施加了硬约束。相反,我们的训练方案可以被看作是放松了这个约束。在上述公式中,编码器学习如何在潜在空间中根据前一步骤中获得的输出来最好地进行几个步骤,这些步骤由初始猜测w 0引导。这种放松的约束使得编码器能够以自我校正的方式逐步缩小其反演到所需目标潜在代码的范围。我们还可以将ReStyle步骤类似于优化步骤,但关键区别在于这里的步骤是由编码器学习的,以便高效地执行反演。04.1. 编码器架构0为了证明所提出的训练方案可以应用于不同的编码器架构和损失目标,我们将ReStyle方案应用于Richardson等人的最新编码器(pSp)[35]和Tov等人的最新编码器(e4e)[40]。这两个编码器在ResNet[17]骨干网络上使用特征金字塔网络[27],并提取样式0图3.我们简化的编码器架构。生成器的所有k个输入样式向量都从编码器的最终16×16特征图中提取,然后通过k个map2style块[35]进行处理。0来自三个中间层的特征。这样的分层编码器在结构良好的领域(如面部领域)中是有动机的,其中样式输入可以粗略地分为三个层次的细节。通过这样的设计,我们发现对于结构较少的多模态领域,这种设计对其影响可以忽略不计,但会引入更大的开销。此外,我们发现ReStyle的多步特性减轻了对这种复杂编码器架构的需求。因此,我们选择设计pSp和e4e编码器的简化变体。不是从编码器的三个中间层提取样式特征,而是从最终的16×16特征图中提取所有样式向量。给定具有k个样式输入的StyleGAN生成器,pSp中引入了k个不同的map2style块,用于对特征图进行下采样以获得相应的512维样式输入。架构的高级概述如图3所示,附加细节和消融实验结果请参见补充材料。05. 实验05.1. 设置0数据集。我们在各种不同的领域上进行了广泛的评估,以说明我们方法的泛化能力。对于人脸领域,我们使用FFHQ[24]数据集进行训练,CelebA-HQ[29,22]测试集进行评估。对于汽车领域,我们使用StanfordCars[26]数据集进行训练和评估。还在LSUN[47]Horse和Church数据集以及AFHQWild[8]数据集上进行了其他评估。基准。在本节中,我们探索和分析基于编码器、基于优化和混合反演技术。对于基于编码器的方法,我们将我们的ReStyle方法与Zhu等人的IDInvert编码器[50]、Richardson等人的pSp[35]和Tov等人的e4e[40]进行比较。对于基于优化的方法,我们将我们的结果与Karras等人的反演技术[25]进行比较。对于上述每种基于编码器的反演方法,我们还对得到的潜变量进行优化,以与混合方法进行比较。更多细节请参见补充材料。67150输入 优化 混合 pSp ReStyle pSp 输入 优化 混合 pSp ReStyle pSp0输入 优化 混合 e4e ReStyle e4e 输入 优化 混合 e4e ReStyle e4e0图4. 定性比较。我们将各种基于编码器和基于优化的反演方法与我们的ReStyle方案应用于pSp [35]和e4e [40]进行比较(用ReStylepSp和ReStyle e4e表示)。混合结果是通过对相邻编码器获得的潜在编码进行优化得到的。附加比较请参见补充材料。最佳查看放大。0架构和训练细节。对于人脸领域,我们采用了Deng等人的ResNet-IRSE50架构[11],该架构经过人脸识别的预训练。对于其他所有领域,我们使用在ImageNet上预训练的ResNet34网络。这些网络的输入层进行了修改,以适应ReStyle使用的6通道输入。所有结果均使用StyleGAN2[25]生成器获得。在本节中,我们将ReStyle应用于pSp[35]和e4e[40],使用原始作品中定义的损失目标和训练细节(例如批量大小、损失权重)。请注意,在应用ReStyle时,我们使用第4.1节中介绍的简化编码器架构来提取图像反演。所有ReStyle编码器使用每批次的N = 5步进行训练。05.2. 反演方法比较0我们首先将ReStyle与当前最先进的StyleGAN反演技术进行比较。虽然基于每个图像的优化技术在图像重建方面取得了优于基于学习的方法的成果,但它们的计算成本要高得多。因此,在分析反演方法时,必须根据推理时间来衡量重建质量,从而产生所谓的“质量-时间”权衡。0定性评估。我们首先展示了ReStyle和其他反演方法的定性比较。0图4中展示了不同领域中各种反演方法的定性比较。重要的是要强调,我们并不声称在重建质量上超越优化。相反,比较的目的是显示ReStyle在视觉上与后者相当。以显著较低的推理时间获得可比较的重建质量,使ReStyle处于“质量-时间”权衡曲线上的一个吸引人的点。因此,我们注意到ReStyle在与pSp和e4e编码器的比较中改善了重建结果,特别是在保留细节方面。例如,在与pSp的比较中(前三行),观察左上角男子的衣领和右上角女子的头发。类似地,在左侧的汽车比较中观察奥迪标志和车牌。在与e4e的比较中(后两行),观察ReStyle如何更好地捕捉野生动物的背景和马的姿势。0定量评估。我们现在对不同的反演方法在各种数据领域进行定量比较。为了衡量像素级和感知相似性,我们应用了常用的L2和LPIPS[49]指标。此外,对于人脸领域,为了衡量每种方法在保持身份方面的能力,我们使用了最先进的CurricularFace[19]人脸识别方法来衡量重建图像与其源之间的身份相似性。67160图5.定量比较。我们通过分析重建结果的三个评估指标(人脸的ID相似性,汽车的L2损失和教堂的LPIPS损失),同时测量每种方法的推理时间,将ReStyle与当前最先进的基于优化和基于编码器的方法进行比较。每种基于编码器的方法使用�符号表示。相应的混合方法使用相同颜色的虚线表示,应用于基础方法的ReStyle使用相同颜色的实线表示。优化结果使用虚线绿线显示。基于pSp的方法以红色显示,基于e4e的方法以蓝色显示。最后,使用IDInvert [50]获得的结果以橙色显示。请注意,两个轴都以对数刻度显示。0为了说明不同方法之间的权衡,我们还测量了每种方法每个图像的推理时间。如前所述,优化和重新风格化都可以视为质量-时间图上的连续曲线-随着每一步的增加,我们在额外的推理时间成本下获得了改进的重建质量。为了对所有反演方法进行完整的比较,我们为每个领域构建了一个质量-时间图。这些图可以在图5中可视化。为了形成每个图,我们对每种反演技术进行了以下评估。对于每个基于编码器的反演,我们运行了一次前向传递以获得重建图像,从而在图上得到一个点。对于测量来自[25]的优化技术,我们使用不同数量的步骤从1个优化步骤到1,500个步骤来反演输入图像。对于混合方法,给定从相应编码器获得的计算潜在代码,我们使用从1到500个步骤逐渐增加的步骤进行优化。最后,对于我们的两个ReStyle编码器,我们进行了最多10个反馈循环。我们首先分析面部领域。与传统的pSp和e4e编码器相比,我们的ReStyle变体与它们的对应物相匹配或超过。值得注意的是,虽然优化技术在身份相似性方面比ReStyle实现了改进,但它们需要比ReStyle多约20倍的时间才能达到ReStyle所达到的相似性。在汽车领域中,可以观察到类似的权衡,其中ReStyle相对于典型的编码器的优势在重建的L2损失评估中更加显著。在非结构化的教堂领域中,ReStyle应用于pSp几乎与优化和混合技术在重建质量上相匹配,并且推理时间显著较低。请注意,由于ReStyle的训练公式更加宽松,因此ReStyle的第一个输出可能比传统编码器的输出更差,因为它经过多个推理步骤进行训练。通过这样,ReStyle很快就能达到或超过单次拍摄编码器的质量。这些比较指出了ReStyle的吸引力:尽管优化通常可以实现更好的重建,但ReStyle在重建质量和推理时间之间提供了出色的平衡。有关所有领域和指标的结果,请参见补充材料。01 → 2 2 → 3 3 → 4 4 → 50图6.在每个子图像中,我们显示了一个热图,显示了在指定的迭代之间哪些图像区域发生了最大的变化(红色)和哪些区域发生了最小的变化(蓝色)。01 → 2 2 → 3 3 → 4 4 → 50图7.类似于图6,不同之处在于这里的所有图像都相对于彼此进行了归一化。如图所示,每个步骤的变化幅度逐渐减小。0通过多个推理步骤来形成。通过这样,ReStyle很快就能达到或超过单次拍摄编码器的质量。这些比较指出了ReStyle的吸引力:尽管优化通常可以实现更好的重建,但ReStyle在重建质量和推理时间之间提供了出色的平衡。有关所有领域和指标的结果,请参见补充材料。05.3. 重新风格分析0在本节中,我们探索了ReStyle的各个方面,以更好地了解其行为并获得关键洞察。具体而言,我们分析了编码器在每个步骤中关注的主要细节,并分析了推理过程中收敛所需的步骤数。有关图像空间和潜在空间的其他分析,请参阅补充材料。67170年龄0微笑0视图0立方体0姿势+缩放0输入 优化 反演 优化 编辑 混合 反演 混合 编辑 e4e 反演 e4e 编辑 ReStyle e4e 反演 ReStyle e4e 编辑 图8.编辑比较。我们对从几种方法获得的反演进行编辑。在人脸领域进行编辑时,我们使用InterFaceGAN [36],在汽车领域我们使用GANSpace[16],在马领域我们使用SeFa [37]。0焦点在哪里?我们首先探索在推理过程中编码器在每个步骤上关注图像的哪些区域。我们考虑人脸领域。对于每个步骤t和每个输入图像x,我们计算在图像空间中在步骤t和t-1生成的图像之间的平方差异。也就是说,我们计算d = ||yt -yt-1||^2,其中yt在方程4中定义。0对所有测试样本进行平均,我们得到两个步骤之间的平均图像差异。最后,我们将平均图像归一化到范围[0,1],并可视化当前步骤t中发生最大变化的图像区域。我们在图6中可视化了这个过程,显示了ReStyle的渐进改进。可以看到,在早期步骤中,编码器主要关注细化背景和姿势,而在后续步骤中,编码器将焦点转移到调整眼睛和头发等细节。0在图6中,我们只显示每个步骤内的变化幅度。也就是说,变化的绝对幅度在不同的步骤之间可能会有所不同。为了显示随着每一步变化的总量减少,我们将读者引用到图7中。在那里,所有图像都相对于彼此进行了归一化,可以看到最大的变化发生在第一步,之后逐渐减少。0在某种意义上,编码器以粗到细的方式操作,首先集中于低频细节,然后逐渐补充调整高频细节。0输入ReStyle pSp迭代输出−→0输入ReStyle e4e迭代输出−→0图9.给定左侧的输入图像,我们可视化了应用于pSp [35]和e4e[40]的ReStyle的中间输出。0ReStyle的迭代进展。现在我们转向图90并展示了随着ReStyle的每一步迭代,重建质量逐步提高。具体来说,观察ReStylepSp如何逐渐改善非正面输入图像的重建结果。类似地,注意到ReStylee4e如何迭代地改进马骑手的姿势并捕捉到教堂建筑的倾斜结构。671805.4.通过潜在空间操作的可编辑性0以前的研究[50,52,40,52]讨论了反演方法的可编辑性的重要性。在这里,我们展示ReStyle实现的可编辑性与传统编码器相当。由于e4e专门设计用于图像操作,我们选择展示将e4e与ReStyle结合使用得到的反演仍然可编辑。我们在图8中展示了视觉示例。与e4e相比,ReStyle能够更好地重建输入图像,同时仍然允许进行逼真的编辑。值得注意的是,与通过优化得到的反演相比,观察到ReStyle的反演具有更合理的编辑。例如,观察将基于优化的反演应用于汽车编辑时前保险杠中的伪影。05.5.编码器引导0最后,我们探索了一个新的概念,我们称之为编码器引导。为了激发这个想法,让我们考虑图像tooni�cation任务,我们希望将真实的面部图像转化为它们的tooni�ed或动画版本。Pinkney等人[33]提出通过将每个真实输入图像投影到通过对FFHQ StyleGAN生成器进行微调获得的toonStyleGAN的潜在空间中最接近的toon图像来解决这个图像到图像的任务。在类似的意义上,ReStyle可以应用于pSp来解决这个任务。在这里,ReStyle是用平均toon潜在代码及其对应的图像初始化的。然后,执行N步将图像转换为其tooni�ed版本。通过编码器引导,我们采用了稍微不同的方法。我们不是使用平均toon图像初始化迭代过程,而是首先将给定的真实图像传递给一个编码器,该编码器的任务是将真实图像嵌入到在FFHQ上训练的StyleGAN的潜在空间中。这样做将导致一个反转的代码w1和重建的图像ˆy1。然后,采用这个反转的代码和重建的图像来初始化使用ReStyle的tooni�cation转换。这个想法在图10中有所说明。请注意,这种技术之所以可行,是因为ReStyle具有残差特性。通过利用FFHQ编码器获得更好的初始化,我们能够更容易地学习一个适当的残差,用于翻译输入图像并更忠实地保留身份。我们在图11中比较了几种从真实到toon的变体。观察一下使用FFHQ代码引导tooni�cation过程的翻译如何更好地捕捉输入特征和toonify风格。观察引导变体更好地保留化妆品、眼镜、发型和表情的能力。在图12中,我们展示了用于初始化toonify编码器的反转真实图像,然后是ReStyle的tooni�ed输出。引导技术是有趣的,因为不清楚为什么FFHQ潜在空间中的代码会导致toonify空间中的有意义的代码。我们将读者参考补充材料进行进一步分析。0� ����%��� �# �0�0� �0图10. 编码器引导概述。0输入Toonify [33] ReStyle pSp ReStyle BS pSp 图11.Toonify比较。应用具有引导引导的ReStyle BSpSp,能够更好地保留输入真实图像的身份特征。0输入反转迭代输出−→图12.对于每个输入,我们展示了在我们的ReStyle pSpFFHQ编码器的单个步骤之后获得的反转图像,然后是我们的ReStyle pSp toonify编码器的迭代输出。06. 结论0在我们的工作中,我们专注于提高编码器的反转准确性,并提出了一种新的GAN编码器训练方案。我们不是一次性地预测反转,而是执行多次前向传递,这样可以更准确、更快速地收敛到目标反转。从某种意义上说,这种方案允许编码器学习如何有效地引导其收敛到所需的反转。此外,编码器在一个更大、更丰富的图像集上进行训练,该集合不仅包括原始数据集本身,还包括中间重建图像。我们还探索了将ReStyle方案与图像tooni�cation任务的引导技术配对。我们认为这种引导思想和由此产生的转换是有趣的,并且可能进一步为其他任务打开大门,利用我们基于残差的迭代方案的特性。267190参考文献0[1] Rameen Abdal,Yipeng Qin和Peter Wonka.Image2StyleGAN:如何将图像嵌入StyleGAN潜空间?在IEEE国际计算机视觉会议论文集中,页码4432-4441,2019年。1,20[2] Rameen Abdal,Yipeng Qin和Peter Wonka.Image2StyleGAN++:如何编辑嵌入图像?在IEEE/CVF计算机视觉和模式识别会议论文集中,页码8296-8305,2020年。1,20[3] Rameen Abdal,Peihao Zhu,Niloy Mitra和Peter Wonka.Style�ow:使用条件连续归一化流对StyleGAN生成的图像进行属性条件探索,2020年。30[4] Yuval Alaluf,Or Patashnik和Daniel Cohen-Or.只是一种风格问题:使用基于风格的回归模型进行年龄转换,2021年。20[5] Baylies. stylegan-encoder,2019年。访问日期:2021年2月。0[6] Joao Carreira,Pulkit Agrawal,KaterinaFragkiadaki和Jitendra Malik.迭代误差反馈的人体姿势估计,2016年。20[7] Lucy Chai,Jonas Wulff和Phillip Isola.使用潜空间回归分析和利用GAN中的组合性。在国际学习表示会议上,2021年。20[8] Yunjey Choi,Youngjung Uh,Jaejun Yoo和Jung-WooHa. Stargan v2: 多域多样的图像合成,2020年。40[9] Edo Collins,Raja Bala,Bob Price和Sabine Susstrunk.风格编辑:揭示GAN的局部语义。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码5771-5780,2020年。10[10] Antonia Creswell和Anil Anthony Bharath.反转生成对抗网络的生成器.IEEE神经网络和学习系统交易,30(7):1967-1974,2018年。1,20[11] Jiankang Deng,Jia Guo,Niannan Xue和StefanosZafeiriou.Arcface:用于深度人脸识别的加性角度边缘损失。在IEEE计算机视觉和模式识别会议论文集中,页码4690-4699,2019年。50[12] Emily Denton, Ben Hutchinson, Margaret Mitchell, andTimnit Gebru.使用生成对抗网络的生成对抗性面部属性增强方法检测偏见.arXiv预印本arXiv:1906.06439,2019年。30[13] Lore Goetschalckx, Alex Andonian, Aude Oliva, andPhillip Isola. Ganalyze: 走向认知图像属性的视觉定义, 2019. 30[14] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,and Yoshua Bengio. 生成对抗网络.在第27届神经信息处理系统国际会议论文集中, 2014. 20[15] Shanyan Guan, Ying Tai, Bingbing Ni, Feida Zhu, FeiyueHuang, and Xiaokang Yang. 协作学习以加快速度0stylegan嵌入. arXiv预印本arXiv:2007.01758 , 2020. 1 , 20[16] Erik H¨ark¨onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: 发现可解释GAN控制.arXiv预印本arXiv:2004.02546 , 2020. 1 , 2 , 3 , 70[17] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别, 2015. 40[18] Shao-Kang Huang, Chen-Chien Hsu, Wei-Yen Wang, andCheng-Hung Lin. 基于RGBD数据的迭代姿态细化的物体姿态估计. 传感器 , 20(15):4114, 2020. 20[19] Yuge Huang, Yuhan Wang, Ying Tai, Xiaoming Liu,Pengcheng Shen, Shaoxin Li, Jilin Li, and Feiyue Huang.Curricularface: 用于深度人脸识别的自适应课程学习损失.在IEEE/CVF计算机视觉与模式识别会议论文集中, 2020. 50[20] Junhwa Hur and Stefan Roth.迭代残差细化用于联合光流和遮挡估计, 2019. 20[21] Ali Jahanian, Lucy Chai, and Phillip Isola.关于生成对抗网络的“可操控性”, 2020. 10[22] Tero Karras, Timo Aila, Samuli Laine, and JaakkoLehtinen. 渐进增长的GAN用于改进质量、稳定性和变化.arXiv预印本arXiv:1710.10196 , 2017. 40[23] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine,Jaakko Lehtinen, and Timo Aila. 有限数据下的生成对抗网络训练,2020. 10[24] Tero Karras, Samuli Laine, and Timo Aila.用于生成对抗网络的基于样式的生成器架构.在IEEE计算机视觉与模式识别会议论文集中, 2019. 1 , 40[25] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量.在IEEE/CVF计算机视觉与模式识别会议论文集中, 2020. 1 , 2 , 4 , 5 , 60[26] Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei.用于细粒度分类的3D物体表示.在第四届国际IEEE三维表示与识别研讨会中, 2013. 40[27] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie.物体检测的特征金字塔网络, 2017. 40[28] Zachary C Lipton and Subarna Tripathi.从生成对抗网络中精确恢复潜在向量.arXiv预印本arXiv:1702.04782 , 2017. 1 , 20[29] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang.野外深度学习人脸属性, 2015. 40[30] Yotam Nitzan, Amit Bermano, Yangyan Li, and DanielCohen-Or. 利用预训练生成器在潜在空间中进行解缠.arXiv预印本arXiv:2005.07728 , 2020. 20[31] Or Patashnik, Zongze Wu, Eli Shechtman, DanielCohen-Or, and Dani Lischinski. Styleclip:基于文本的StyleGAN图像操作, 2021. 30[32] Stanislav Pidhorskyi, Donald A Adjeroh, and GianfrancoDoretto. 对抗性潜在自动编码器.在IEEE/CVF计算机视觉与模式识别会议论文集中, 2020. 1 , 267200[33] Justin N. M. Pinkney and Doron Adler.分辨率相关的GAN插值,用于可控图像合成领域之间的图像合成,2020年。80[34] Rakesh N Rajaram, Eshe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功