图像反演和编辑的基于变压器的样式变换器

55 浏览量更新于2023-10-26 收藏 14.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

113370图像反演和编辑的样式变换器0胡学琦1，黄秋生1，石正义1，李思源1，高长新3，孙立1,2*，李庆丽101上海市多维信息处理重点实验室，2统计与数据科学高级理论与应用重点实验室，华东师范大学，上海，中国3华中科技大学，武汉，中国0参考来源0源反演微笑性别0编辑0刘海0嘴巴0性别0眼镜0基于标签的编辑基于参考的编辑0图1.我们模型在CelebA-HQ数据集上的图像反演和编辑结果。从左到右依次显示反演、基于标签的编辑和基于参考的编辑。对于基于参考的编辑，三列分别是源图像、参考图像和编辑图像，每个编辑图像都保持源内容的同时采用参考的风格。0摘要0现有的GAN反演方法无法同时提供可靠重建和灵活编辑的潜在代码。本文提出了一种基于变压器的图像反演和编辑模型，用于预训练的StyleGAN，它不仅具有较少的失真，而且在编辑方面具有高质量和灵活性。所提出的模型利用CNN编码器提供多尺度图像特征作为键和值。同时，它将要为生成器的不同层确定的样式代码视为查询。它首先将查询令牌初始化为可学习参数，并将其映射到W+空间。然后，利用多阶段交替的自注意力和交叉注意力，更新查询以实现通过生成器的输入进行反演。此外，基于反演的代码，我们通过预训练的潜在分类器研究了基于参考和基于标签的属性编辑。0分类器，实现高质量的图像到图像翻译。通过大量实验证明，在StyleGAN的反演和编辑任务中，我们的模型表现出更好的性能。代码可在https://github.com/sapphire497/style-transformer找到。01. 引言0生成对抗网络（GAN）[5, 25,27]在近年来得到了显著改进。特别是，在AdaIN[15]或其变种ModulatedConv的帮助下，StyleGAN [17,18]能够合成具有中等质量的高分辨率图像。因此，利用0*通讯作者，电子邮件：sunli@ee.ecnu.edu.cn。本工作得到上海市科学技术委员会（No.19511120800）和中国自然科学基金（No.61302125）的支持。113380预训练和固定的StyleGAN用于下游任务成为热门研究课题，尤其是在图像到图像（I2I）翻译的编辑任务中[3, 11, 29,30, 35,36]。为了编辑给定的真实世界图像，我们首先需要找到其输入噪声向量z或中间潜在代码w，它们可以通过预训练的生成器忠实地重建指定的真实图像。然后，通过与目标属性对应的偏移量修改代码，以便将其映射到编辑后的图像，同时保留原始细节。尽管付出了很大努力，但是对于StyleGAN的图像反演[1, 2, 28, 31, 40]或编辑[3, 11, 29, 30,35]仍然具有挑战性，原因如下。首先，存在几个候选潜在嵌入。现有方法[31, 35,42]表明对它们的不同选择至关重要。与具有单个512维向量的Z或W空间相比，W+具有足够的能力来描述图像细节，因此适用于反演。在W+中，每个图像由18个不同的代码表示，每个代码为512维。它们被提供给生成器，以便按顺序从低分辨率到高分辨率形成特征和最终合成。然而，除非施加足够的正则化，否则无法很好地编辑W+中的代码。其次，W或W+中的分布非常复杂。真实图像仅位于空间中的流形上[31]。此外，不同的维度通常会纠缠在一个单一属性上，使得独立编辑变得困难。本文旨在同时改进基于编码器的StyleGAN图像反演和编辑。受到变压器在图像分类[10,22]和目标检测[6,43]中取得的巨大成功的启发，我们将其用于在W+空间中找到适当的潜在代码，以进行图像反演和编辑任务。基本思想是将不同生成阶段的潜在代码视为查询令牌，将不同空间位置的图像特征视为键和值，然后通过多头交叉注意力以迭代方式更新查询。同时，在交叉注意力之前，还允许查询通过自注意力访问其他查询，以增强对它们的正则化，使得给生成器的最终代码变得紧密链接。特别地，查询首先通过比较每个查询-键对之间的相似性与图像特征（键）进行交互。然后，它们被组织成注意力矩阵，以动态加权特征（值）并更新下一个阶段的变压器块的查询。作为键和值使用的图像特征是通过CNN编码器获得的。为了捕捉不同分辨率的图像细节，我们采用了[28]中提出的两个金字塔编码器来提供多尺度特征作为键和值。请注意，我们的模型具有从低到高分辨率的多个交叉注意力，并且样式查询逐渐通过不同尺度的特征进行更新。因此，首先形成查询中的一般内容，然后通过更高分辨率的细节进行改进。0分辨率。经过多次自注意力和交叉注意力后，查询从输入图像中吸收足够的细节，因此可以通过预训练的生成器来反演它。我们进一步关注的是编辑代码以翻译特定属性的方式。传统方法[11，29，35]假设在潜在空间中对于二进制属性存在线性分离，因此来自不同图像的反演代码通过相同的方向进行编辑。我们认为相同的方向对于编辑质量来说并不是最优的，并且可能会减少结果的多样性。受到[7，14]的启发，我们将StyleGAN中的图像编辑分为两种不同类型。一种是基于标签的编辑，只指定目标标签。另一种是基于参考的编辑，需要另一张图像提供所需的风格。对于前者，使用预训练的非线性潜在分类器来确定方向。它根据目标标签计算反演代码的损失，并将其梯度反向传播到代码，给出编辑方向。在后一种情况下，我们希望从参考中确定确切的编辑向量。因此，使用源图像的反演代码作为查询，使用参考图像的反演代码作为键和值。在它们之间执行交叉注意力。注意模块中的参数在潜在分类器的监督下进行训练，鼓励编辑属性与参考和其他属性保持相似而没有任何变化。所提出的编辑方法能够在保持图像质量的同时提供多样化的结果。本文的贡献总结如下。首先，我们在W+空间中提出了新颖的多阶段风格转换器，以准确地反演图像。转换器包括自注意力和交叉注意力模块，其中风格查询逐渐从多尺度图像特征中更新。其次，我们将StyleGAN中的图像编辑分为基于标签和基于参考的两种类型，并使用非线性分类器生成编辑向量。获得了多样化和高保真度的编辑结果。02. 相关工作0GAN反演首次在[41]中提出，并由于一些最近的生成器的广泛应用而变得重要。基本上有两种方式，即无编码器和基于编码器。前者没有任何训练参数，潜在代码直接通过梯度优化主要来自重构损失。为了处理复杂的潜在结构，Abdal等人[1]在W+空间中反演真实图像，并使用像素级MSE和感知损失与Adam [20]调整代码。Image2StyleGAN++[2]将代码空间扩展到逐层加性噪声向量以减少失真。尽管这种方法可以可靠地通过多步迭代找到代码，但效率低下，其代码缺乏可编辑性。相反，基于编码器的方法旨在训练一个通用模型，以实现所有图像的反演。它113390改进了编辑能力，在推理过程中高效。IDInvert[40]利用CNN作为编码器输出代码。除了重构和感知损失外，它还通过额外的对抗性损失进行训练。pSp[28]设计了一个双金字塔编码器，提供多尺度特征，并通过多个卷积层将它们映射到风格向量。由于强大的特征，pSp实现了较小的失真。ReStyle[4]使用编码器以迭代的方式给出残差风格，以改进反演。E4e[31]分析了W+中反演和编辑任务的失真-可编辑性权衡。它牺牲了反演精度以提高可编辑性，将不同层的代码约束在彼此附近。Kim等人[19]和Wang等人[34]离开了W+空间，并增强了具有空间维度的代码，以便为生成器提供更多信息以降低失真。与以前的工作相比，我们的方法严格地位于W+中，并且能够同时实现最小的失真和高质量的编辑。0预训练的StyleGAN的潜在代码操作通常用于编辑属性和实现I2I转换，无论是在监督还是无监督的方式下。GANSpace[ 11 ] 和Sefa [ 30 ]采用PCA在W空间中找到主要方向。它们负责控制姿势、性别或背景。需要注意的是，对于特定属性，这些作品在所有潜在代码上指定相同的方向来实现编辑。Voynov和Babenko [ 32]训练一个简单的模块来编辑输入，并使用像素域中的重构器来解释编辑，找到明显的方向。LatentCLR [ 38]构建了一个可学习的方向模型来编辑代码，并使用对比损失进行训练。因此，这两个模型给不同的图像提供了不同的编辑方向。所有上述作品都是无监督的，不需要属性标签进行编辑。但是，某些属性只能找到有限的方向。0监督方法可以识别更多属性的方向，特别是局部属性。InterfaceGAN [ 29 ]在潜在空间中训练线性二进制SVM以获得分离平面，其法向量控制其对应的属性。StyleSpace [ 35 ]通过语义掩码精确引导的方式找到控制方向。此外，他们提出在由W之后的仿射层定义的S空间中编辑代码。王等人[33]通过追溯梯度流到其前一阶段进一步扩展了S空间，使变化更加准确。需要注意的是，这些作品仍然共享所有图像的相同编辑方向。最近，StyleFlow [ 3 ]使用连续归一化流（CNF）有条件地操作图像。姚等人[ 36]提出了一个潜在转换模块，用于为不同图像生成自适应方向。王等人[ 34]利用CNN编码器提供多尺度特征来补充1×1样式向量，实际上是适应不同位置的方向。0然而，以前的作品只处理基于标签的编辑。Collins等人[ 8]对特征进行k-means聚类，以获得逐通道掩码，确定哪些通道是局部语义感知的。参考的聚类成员还指导源的局部属性编辑。与上述作品不同，我们的工作严格在W+空间中，并实现了基于标签和基于参考的编辑。03. 样式变换的框架0我们的目标是通过我们在W+空间中提出的样式变换器实现StyleGAN的准确图像反演。给定一个真实图像I∈RH×W×3，我们的模型能够指定N个不同的样式向量，表示为wn∈R512，其中n=1,2，∙∙∙，N是注入到生成器G的不同阶段的向量的索引。为简单起见，我们使用w∈RN×512表示所有wn，没有任何索引。需要注意的是，在StyleGAN2中，wn首先由仿射层A投影，然后通过调制卷积核来影响相应的层。图2说明了所提出框架的概述。输入图像I由E编码，生成一系列多分辨率的图像特征F1到F3 [ 28]。通过MLP输出的N个不同查询以顺序方式访问这些特征，通过变换器块形成生成器的最终代码w。MLP的初始输入zn∈R512也是可学习的，并且逐渐更新为适合反转I的w。通过训练包括变换器块、编码器E、MLP和初始zn在内的所有参数，预训练的G可以利用最终的w以最小的失真重构输入I。03.1. 样式变换块0样式变换器块是图像反演的关键组件。该模型中应用了相同的结构3次，分别利用了从F1到F3的图像细节。块内的具体设计如图2右侧所示。基本上，有两种类型的注意力，即多头自注意力和交叉注意力。此外，我们遵循变换器的设计例程，将残差连接、归一化和FFN模块纳入块中。样式查询初始化。给定单个样式代码w，可以通过StyleGAN生成器合成高保真图像。然而，W+空间需要N个不同的样式向量来重构一个图像，它们本质上描述了不同尺度上的细节，因此被用于影响生成器中不同分辨率的特征。变换器解码器中的常见选择是随机初始化开始查询令牌，并将其保持为模型中的可学习参数。然而，考虑到W空间中的代码分布复杂且远离高斯分布............Q = XqW selfQ,K = XqW selfK,V = XqW selfV(1)Attn(Q, K, V ) = Softmax(QiKTi√d)Vi(2)MHA(Q, K, V ) = [Attn(Qi, Ki, Vi)]h=1:HW o(3)Q = XqW crsQ ,K = FiW crsK ,V = FiW crsV(4)113400变换器块0MLP0变换器块0变换器块 A0A0A0反转图像输入图像0多头自注意力0多头交叉注意力0查询0q k v0加和归一化特征0q k v0FFN0加和归一化0加和归一化0更新的查询0变换器块0图2. 图像反转的整体框架。我们构建了基于多阶段变换器的模型来更新 W +空间中的代码。变换器块内的细节如右图所示。每个变换器块都有一个多头自注意力和交叉注意力块，遵循变换器模型中的常规流程。0在先前的工作中，我们利用 StyleGAN 中的预训练 MLP将每个单独的代码 z n 首先映射到 W空间中的起始样式查询 w n，然后通过自注意力和交叉注意力操作来更新 w n。注意，z n � N (0 , I )是从标准高斯分布中采样得到的，并设置为模型参数。此外，预训练的 MLP在训练过程中进行微调。多头自注意力。自注意力在 N个不同的查询标记 q 1 ，q 2 ，∙∙∙ ，q N之间进行。它旨在找到它们之间的潜在关系，并将值路由到连接它们的位置。我们将所有的 q 表示为 X q ∈ R N ×512 。查询 Q ，键 K 和值 V 都是根据方程（1）从 X q投影得到的。注意，W self Q ， W self K 和 W self V ∈ R512 × 512是自注意力模块中的可学习投影头，它们不改变特征维度。0多头注意力操作的公式如方程（2）所示，其中 Q i ， K i 和V i 是第 i 个头部的查询、键和值，Attn是该头部的结果。特征维度 d = 512 /H ，H是注意力头的数量。0自注意力对 X q 的最终更新是方程（3）中的 MHA。W o∈ R 512 × 512 也是可学习的，负责融合来自不同头部的Attn 的结果。0多头交叉注意力。自注意力在计算中不涉及任何图像特征。因此，0我们进一步设计了用于反转任务的交叉注意力，使查询标记能够从不同分辨率的图像特征 F 1 ， F 2 和 F 3中获取信息。在交叉注意力中，键和值的特征来自编码器 E，而查询是通过对自注意力块中的先前结果进行线性投影计算得到的。特别地，根据方程（4）我们有查询、键和值，其中 W crs Q ， W crs K 和 W crs V与自注意力具有相似的设置。0多头交叉注意力的执行方式与方程（2）和方程（3）中所示的方式相同。之后，更新后的查询标记被传递给一个 FFN来进一步改进自身，并将结果进一步传递给下一个阶段的变换器块，从更细的分辨率特征中挖掘细节。03.2. 图像反转的训练目标0在训练过程中，StyleGAN 的主干 G （包括仿射层 A）是严格固定的。梯度只从损失中调整其他参数。注意，我们使用与 pSp [ 28 ]相同的训练目标。特别地，为了给出准确的重建，计算输入图像 I 和其反转版本 ˆ I 之间的 L 2 损失。同时，还采用了LPIPS [ 39 ]，一种基于 Inception 网络 F ( ∙ )特征计算的相似度度量，指定了另一个目标 L LP IP S = ∥F ( I ) − F ( ˆ I ) ∥ 2。此外，为了保持反转图像的身份，我们还引入了预训练的ArcFace 模型 [ 9 ] R ( ∙ ) 用于 ID 损失 L ID = 1 − � R ( I ), R ( ˆ I ) � ，以便最大化 I 和 ˆ I的余弦相似度。请注意，训练过程中不采用任何对抗性损失。.........113410Transformer 块0q k v0参考源0图 3. 基于参考图像的编辑模块及其训练策略。源图像和参考图像的反演代码 w s 和 w r 被输入到Transformer 模块 T 中，指定了代码 w e。0用于编辑图像的 C 是 W+空间中的属性分类器，通过它我们约束编辑属性与参考图像相似，同时保持其他属性与源图像相同。04. Style Transformer 中的图像编辑0通过固定的 StyleGAN进行图像编辑不仅是一项重要的应用，还用于评估图像反演的质量。低扭曲只是其中一个方面，灵活和高保真的编辑也很重要。正如 [7, 14]中所描述的那样，有两种类型的编辑，一种是通过目标标签进行编辑，另一种是通过所需领域中的参考图像进行编辑。之前的工作 [29, 35, 36]主要关注前者，但很少有工作处理基于参考图像的编辑，这可能会提供多样化的结果。通常情况下，给定反演的风格代码 w s ∈ R N × 5120对于源图像 I s和所需的目标属性，我们需要确定一个偏移量 Δ w，使得 we = w s + Δ w 可以映射到具有与 I s不同的所需属性的编辑图像 ˜ I = G(w e)，但保持 I s的内容不变。在基于参考图像的编辑中，另一个图像 I r被作为额外输入。由于我们的风格转换器可以几乎无失真地反演图像，我们训练了一个用于 W+ 空间中 K个二进制属性的潜在分类器 C 来指导编辑，类似于[36]。具体来说，给定从图像反演得到的代码w，分类器计算与第 k 个属性对应的多个嵌入特征 C kf，以及用于 BCE 损失 L bce 的最终 logits C kl。在编辑过程中，C 被固定以评估 w e。04.1. 基于参考图像的编辑0模块设计。我们设计了一个简单的模块 T，根据反演代码 w r 来转换特定的属性。0从参考图像 I r 中获取信息。由于 w s 和 w r都代表几乎没有扭曲的图像，这些代码包含了关于编辑属性的足够信息。T 应该能够基于 w r 和 w s 来指定 Δw。再次选择了交叉注意力结构，如图 3 所示。Q = w s Wedt Q 被用作一系列查询标记，而 K = w r W edt K 和 V =w r W edt V 则是从 w r 投影得到的键和值标记。根据 [29,35]，某些局部属性仅依赖于 G 中特定分辨率上的单个 wn。因此，我们选择了与公式（2）不同的路由方案。其思想是使 Softmax Q在查询上进行归一化，而不是在键上。然后，通过 Norm K对键进行重新归一化，如公式（5）所示。这种策略以唯一的方式将值特征 V 分配给查询，使得来自 w r的值标记仅影响 w s 中的少数标记。0T(w s, w r) = Δ w = Norm K(Softmax Q(QK T0√0d)) V (5)0损失设计。为了保证第 k个属性的编辑结果，我们设计了以下损失项来训练 T中的投影头。特别地，我们通过 L s → r emb来约束编辑后的代码 w e，如公式（6）所示：0L s → r emb = ∥ C k f (w e) − C k f (w r) ∥ 2 (6)0这里 C k f 是预训练潜在分类器 C 中第 k 个属性的嵌入。Ls → r emb 确保编辑后的属性与 I r 相似。同时，其他由 � k表示的属性应该与源图像 I s 保持接近，给出 L s ↓ emb的计算公式如下（7）：L s ↓ emb = ∥ C � k f ( w e ) − C �k f ( w s ) ∥ 2 (7)0最后，我们通过正则化项 L reg = ∥ Δ w ∥ 2 = ∥ w e − ws ∥ 2 来限制编辑后的图像 ˜ I 的变化不大。04.2. 基于标签的编辑0与基于参考的编辑相比，基于标签的编辑相对容易。因此，我们采用一种无编码器的方法来编辑基于潜在分类器C的w。我们强调对于每个Is，应该有一个唯一的方向nkΔw用于第k个属性的编辑，该方向由从分类器C反向传播的梯度确定。注意，w的一阶梯度是g = �w L bce (Ckl(w s),yt)，方向变为nkΔw = -g/||g||2。在这里，yt是目标标签，Ckl(ws)是sigmoid之后的logits。我们还研究了基于二阶导数H的方法，即Hessian矩阵。类似于[24]，首先获得一个随机采样的单位向量d，然后通过一个小数ξ对其进行缩放。然后，通过公式（8）评估Hessian向量乘积。根据幂迭代，d ←Hd收敛到主特征向量，所以我们令g = Hd。0Hd ≈ � r L bce ( C k ( w s + r ) ,y t ) | r = ξd −� r L bce ( C k ( w s ) ,y t ) | r =00ξ (8)113420反转输入微笑眼镜性别0我们的方法pSpe4e0我们的方法pSpe4e0输入反转类型旋转0图4. 图像反转的定性结果。我们将我们的方法与pSp和e4e进行比较。除了反转图像，我们还列出了使用InterFaceGAN[29]对人脸进行编辑的图像。对于汽车，我们使用GANSpace [11]提供的编辑方向。0领域方法反转编辑模型大小0MSE ↓ LPIPS ↓ FID ↓ SWD ↓ FID ↓ SWD ↓ 参数(M) ↓ FLOPs(G) ↓ 时间(s) ↓0人脸 pSp 0.037 0.169 31.52 15.07 46.64 29.05 267.3 72.55 0.0668 e4e 0.050 0.209 36.16 17.25 47.45 25.10267.3 72.55 0.0659 我们的方法 0.036 0.166 28.31 14.00 40.57 23.21 40.6 36.37 0.04360汽车 pSp 0.115 0.298 17.24 19.76 27.25 36.01 238.0 66.11 0.0565 e4e 0.110 0.314 14.68 18.25 21.50 27.57238.0 66.11 0.0541 我们的方法 0.089 0.245 13.58 16.14 21.24 25.28 40.6 36.34 0.04350表1.不同反转方法的定量比较。为了考虑失真-可编辑性的权衡，我们列出了图像编辑的指标，以进行综合评估。我们还列出了三种方法的参数和FLOPs，时间表示一次迭代的推理时间。05. 实验05.1. 实现细节0所有实验都是在StyleGAN2 [18]在FFHQ [17]和LSUN Cars[37]数据集上预训练的基础上实现的。我们基于pSp编码器构建了我们的模型，用于多尺度图像特征。对于人脸领域，我们在FFHQ数据集上训练反转模型，并在CelebA-HQ[16]测试集上进行评估。对于汽车领域，反转模型是在Stanford Cars[21]数据集上进行训练和评估的。StyleGAN2中的合成网络是固定的，我们的所有其他参数都是0模型是可训练的。05.2. 反转结果0我们将我们的模型与pSp [28]和e4e[31]进行比较，它们是两种最先进的基于编码器的反转方法。定性和定量结果如图4和表1所示。我们的模型在反转的感知质量、编辑能力和模型大小三个方面得到验证。MSE和LPIPS评估输入和反转图像的像素和感知相似性。FID[13]和SWD[26]衡量真实图像和生成图像之间的距离，表示视觉113430输入-微笑+刘海性别输入+微笑性别+刘海0我们的方法-1我们的方法-2InterFaceGANStyleSpace0图5. 不同基于标签的编辑方法的定性比较。我们列出了对“性别”、“微笑”和“刘海”进行编辑的结果，并与[29,35]进行比较。请注意，我们评估了第一和第二阶段在第4.2节中提出的编辑方法。0方法性别微笑刘海0FID ↓ SWD ↓ FID ↓ SWD ↓ FID ↓ SWD ↓0InterFaceGAN 48.72 19.43 40.03 18.94 44.01 29.41StyleSpace 37.31 17.31 34.72 15.46 42.91 20.96Ours-1 38.73 17.83 33.50 14.89 41.15 19.30 Ours-234.84 16.14 32.88 15.23 40.14 18.530表2. 基于标签的编辑在三个属性上的定量比较，对应于图5。0生成图像的质量。为了比较三种方法的编辑能力，我们在人脸领域采用InterFaceGAN[29]编辑每种方法生成的潜在编码。对于汽车领域，我们应用GANSpace[11]来找到语义方向。这些指标是在整个测试集的编辑结果上进行平均。我们的模型在反转和编辑能力方面表现优于其他方法。此外，我们在表1中列出了三种方法的参数、FLOPs和推理时间。与Convnet相比，我们模型中使用的变换器仅有18或16个标记用于人脸和汽车领域，因此它具有轻量级和高效的特点。05.3. 编辑结果0我们在CelebA-HQ数据集上应用基于参考和基于标签的编辑，其中每个图像都有40个面部属性的标签。我们使用预训练的反转模型将图像反转为潜在编码，并训练一个40类的潜在分类器。潜在分类器由4个全连接层组成，在预测之前，每个属性都有一个独立的分支，导致独立的嵌入特征。0图6. 基于标签的编辑在三个属性上与[29,35]进行比较的平均AD结果，数值越低表示效果越好。Ours-1和Ours-2分别表示我们的一阶和二阶方法。0基于标签的编辑。我们首先应用预训练的反转模型获取图像的潜在编码，然后使用一阶和二阶方法将图像编辑为具有目标属性。仅通过一次迭代即可生成理想的结果。我们评估了第4.2节中介绍的一阶和二阶方法，并将我们的结果与InterFaceGAN [29]和StyleSpace[35]进行了比较。定性结果和指标如图5和表2所示。此外，我们通过计算属性依赖性（AD）[35]来衡量属性的解缠度，该指标表示在编辑一个属性时其他属性的变化程度。我们应用基于ResNet-50[12]的多分支属性分类器来获取图像的预测logits。我们计算输入图像和编辑后图像之间的变化Δl，并通过σ(l)对Δl进行归一化，其中σ(l)是从大量生成图像的logits计算得到的标准差。对于目标属性k，我们计算平均AD113440参考0源0参考0源0源0参考0参考0源0刘海嘴巴0男性女性0图7.基于参考图像的编辑结果。给定一对源图像和参考图像，我们首先利用提出的方法在W+中找到它们的反向编码。然后，使用第4.1节中描述的变换器块来提取参考编码中的“刘海”、“嘴巴”和“性别”样式，并将它们应用到源图像上。0对其他属性的影响Δki/σ(li)，其中i∈Ωk是固定属性的索引。图6展示了目标属性变化程度Δlk/σ(lk)的平均AD。我们的方法在解缠度上优于InterFaceGAN和StyleSpace，而二阶方法具有更高的解缠度。一阶和二阶方法的详细算法见附录C。0基于参考图像的编辑。基于参考图像的编辑模块是针对不同属性进行单独训练的。为了确保模块从参考图像中获取样式，我们将训练图像随机分为源集和参考集，而不是依赖于标签。我们在三个属性上训练了该模块，并在图7中展示了定性结果。编辑后的图像从不同的参考图像中获取相关属性，并在翻译属性上呈现相似的样式。请注意，基于参考图像的编辑模块仅在潜在空间中进行训练，与直接在图像上进行编辑相比，多样性较少。然而，与基于优化的方法[8]不同，我们的模型可以普遍适用于所有图像，具有轻量级和更灵活的特点。06. 结论0本文提出了一种基于Transformer的StyleGAN图像反演和编辑方法。我们选择W+空间来表示真实图像，需要确定生成器不同层的多个样式编码。为了有效利用输入图像的信息，我们设计了一个多阶段的Transformer模块，主要由自注意力和交叉注意力组成。在初始阶段，MLP将一组可学习的噪声向量映射到W+中的编码，然后通过两种类型的注意力操作进行迭代更新，因此最终阶段的编码可以准确地重构输入。基于这些编码，我们能够以灵活的方式进行基于标签和参考的编辑。给定所需的标签，采用无编码器的策略根据预训练潜在分类器的梯度找到唯一的编辑向量。同时，给定一个参考编码，训练一个Transformer块来编辑源图像，使结果从参考中获取相关的风格。实验证明，所提出的图像反演和编辑方法在同时实现较少失真和更高质量方面取得了成功。113450参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan: 如何将图像嵌入到StyleGAN的潜在空间中?在IEEE/CVF国际计算机视觉会议论文集中, 页码4432-4441, 2019. 20[2] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan++: 如何编辑嵌入的图像?在IEEE/CVF计算机视觉与模式识别会议论文集中,页码8296-8305, 2020. 20[3] Rameen Abdal, Peihao Zhu, Niloy J Mitra, and PeterWonka. Styleflow:基于属性的条件化连续归一化流探索StyleGAN生成图像. ACMTransactions on Graphics (TOG) , 40(3):1–21, 2021. 2 , 30[4] Yuval Alaluf, Or Patashnik, and Daniel Cohen-Or. Restyle:一种基于残差的StyleGAN编码器通过迭代细化.在IEEE/CVF国际计算机视觉会议论文集中, 页码6711-6720, 2021. 30[5] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成.arXiv预印本arXiv:1809.11096 , 2018. 10[6] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. 在欧洲计算机视觉会议中,页码213-229. Springer, 2020. 20[7] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. Stargan v2: 多领域的多样化图像合成.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码8188-8197, 2020. 2 , 50[8] Edo Collins, Raja Bala, Bob Price, and Sabine Susstrunk.样式编辑: 揭示GAN的局部语义.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码5771-5780, 2020. 3 , 80[9] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface: 深度人脸识别的加性角度边缘损失.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码4690-4699, 2019. 40[10] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, 等. 一张图像价值16x16个单词:用于图像识别的Transformer. arXiv预印本arXiv:2010.11929 ,2020. 20[11] Erik H¨ark¨onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: 发现可解释的GAN控制.arXiv预印本arXiv:2004.02546 , 2020. 2 , 3 , 6 , 70[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议论文集中，页码770-778，2016年。 70[13] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, 和 SeppHochreiter. 通过两个时间尺度的更新规则收敛到局部纳什均衡的GAN.在神经信息处理系统进展中，第30卷，2017年。 60两个时间尺度更新规则收敛到局部纳什均衡.在神经信息处理系统进展中，第30卷，2017年。 60[14] Qiusheng Huang, Zhilin Zheng, Xueqi Hu, Li Sun, 和Qingli Li. 在多属性图像到图像翻译中弥合标签和参考的差距.在IEEE/CVF国际计算机视觉会议论文集中，页码14628-14637，2021年。 2 , 50[15] Xun Huang 和 Serge Belongie.实时的任意风格转移与自适应实例归一化.在IEEE国际计算机视觉会议论文集中，页码1501-1510，2017年。10[16] Tero Karras, Timo Aila, Samuli Laine, 和 Jaakko Lehtinen.渐进增长的GAN用于提高质量、稳定性和变化性.在arXiv预印本arXiv:1710.10196，2017年。 60[17] Tero Karras, Samuli Laine, 和 Timo Aila.一种基于风格的生成对抗网络生成器架构.在IEEE/CVF计算机视觉和模式识别会议论文集中，页码4401-4410，2019年。 1 , 60[18] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, 和 Timo Aila. 分析和改进StyleGAN的图像质量.在IEEE/CVF计算机视觉和模式识别会议论文集中，页码8110-8119，2020年。 1 , 60[19] Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, 和Youngjung Uh.在GAN中利用潜在空间的空间维度进行实时图像编辑.在IEEE/CVF计算机视觉和模式识别会议论文集中，页码852-861，2021年。 30[20] Diederik P Kingma 和 Jimmy Ba. Adam:一种用于随机优化的方法.在arXiv预印本arXiv:1412.6980，2014年。 20[21] Jonathan Krause, Michael Stark, Jia Deng, 和 Li Fei-Fei.用于细粒度分类的3D对象表示.在IEEE国际计算机视觉会议工作坊论文集中，页码554-561，2013年。 60[22] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, ZhengZhang, Stephen Lin, 和 Baining Guo. Swin Transformer:使用移位窗口的分层视觉Transformer.在arXiv预印本arXiv:2103.14030，2021年。 20[23] Francesco Locatello, Dirk Weissenborn, ThomasUnterthiner, Aravindh Mahendran, Georg Heigold, JakobUszkoreit, Alexey Dosovitskiy, 和 Thomas Kipf.基于对象的学习与槽注意力.在arXiv预印本arXiv:2006.15055，2020年。 50[24] Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, 和Shin Ishii. 虚拟对抗训练: 一种用于监督和半监督学习的正则化方法.在模式分析和机器智能交易中的IEEE交易，第41卷第8期，页码1979-1993，2018年。 50[25] Aaron van den Oord, Oriol Vinyals, 和 KorayKavukcuoglu. 神经离散表示学习.在arXiv预印本arXiv:1711.00937，2017年。 10[26] Julien Rabin, Gabriel Peyr´e, Julie Delon, 和 Marc Bern

下载后可阅读完整内容，剩余1页未读，立即下载