没有合适的资源?快使用搜索试试~ 我知道了~
112540SemanticStyleGAN:学习组合生成先验以实现可控图像合成和编辑0Yichun Shi Xiao Yang Yangyue Wan Xiaohui Shen {yichun.shi,yangxiao.0,wanyangyue,shenxiaohui.kevin }@bytedance.com By0https://SemanticStyleGAN.github.io0粗结构 背景 脸部 眼睛 眉毛 嘴巴 头发0图1. SemanticStyleGAN基于语义区域分解其潜在空间。在这里,我们展示了通过交换局部潜在代码进行样式混合的结果。请注意,我们的模型也解耦了形状和纹理,但在这里我们同时改变了两者。0摘要最近的研究表明,StyleGAN为图像合成和编辑的下游任务提供了有前景的先验模型。然而,由于StyleGAN的潜在代码被设计用于控制全局风格,很难对合成图像进行细粒度的控制。我们提出了SemanticStyleGAN,其中一个生成器被训练成分别对本地语义部分进行建模,并以组合的方式合成图像。不同的局部部分的结构和纹理由相应的潜在代码控制。实验结果表明,我们的模型在不同空间区域之间提供了强大的解耦。当与为StyleGAN设计的编辑方法相结合时,它可以实现对合成或真实图像的更细粒度的控制。该模型还可以通过迁移学习扩展到其他领域。因此,作为具有内置解耦性的通用先验模型,它可以促进基于GAN的应用的发展,并实现更多潜在的下游任务。01. 引言0关于生成对抗网络(GANs)的最新研究在图像合成方面取得了令人瞩目的进展,可以从潜在空间中的随机代码生成逼真的图像[11,35-37]。这些模型通过作为神经渲染器为下游任务提供了强大的生成先验。然而,它们的合成过程通常是随机的,并且自然地没有用户控制的承诺。因此,实现可控的图像合成和编辑利用生成先验仍然是一个具有挑战性的问题。064×64 32×32 16×16…112550通过在StyleGAN的潜在空间中使用神经网络,可以控制生成图像的全局属性[4,26,59,60]或3D结构[64]。此外,通过使用优化/编码器方法,还可以将真实图像嵌入到潜在空间中创建统一的合成/编辑模型[2,3,5,55,65,67,75]。然而,作为纯学习方法,这些解决方案不可避免地受到StyleGAN潜在空间中的偏见的影响。例如,由于StyleGAN中的不同属性可能相关,当一个人想要编辑某个属性或区域时,通常会发生意外属性或局部部分的变化。为了获得更精确的控制,另一种解决方案是通过引入额外的监督或归纳偏见从头开始训练一个新的GAN模型。例如,通过使用3D渲染的人脸,CONFIG [39]和DiscoFaceGAN[18]旨在构建一个GAN,其中姿势、3D信息在潜在空间中被分解。GAN-Control[61]通过将预训练的属性模型纳入对比学习中来解耦潜在空间。鉴于神经渲染的最新进展,已经显示可以通过将体积渲染注入到合成过程中从图像中训练出3D可控制的GAN[13,25,46,58,74]。然而,上述模型的一个主要局限性是它们设计用于整体属性,没有细粒度的局部可编辑性。在这项工作中,我们提出了SemanticStyleGAN,它引入了一种新类型的用于可控图像合成的生成先验。与以往的工作不同,SemanticStyleGAN的潜在空间是基于语义分割掩码定义的语义部分进行分解的(图2(b))。每个语义部分都通过相应的局部潜在代码进行调制,并通过组合局部特征图来合成图像。与布局到图像转换方法[14,69,76]不同,我们的局部潜在代码能够同时控制语义部分的结构和纹理(见图1)。与属性条件GAN[18,39,61]相比,我们的模型不是为任何特定任务而设计的,可以像StyleGAN一样作为通用先验。因此,它可以与为StyleGAN设计的潜在操纵方法相结合,以编辑输出图像并提供更精确的局部控制。本文的贡献可以总结如下:0•一种组合式生成器架构,将潜在空间分解为不同的语义区域,以控制局部部分的结构和纹理。0•一种GAN训练框架,学习图像和语义分割掩码的联合建模。0•实验证明我们的生成器可以与现有的潜在操作方法相结合,以更可控的方式编辑图像。0•实验证明我们的生成器可以适应其他领域的有限图像,同时保持空间解耦。0w0(a) StyleGAN0w0脸发鼻0(b) SemanticStyleGAN0图2.我们方法的抽象示意图。与StyleGAN不同,SemanticStyleGAN的潜在编码与不同的粒度相关。SemanticStyleGAN的潜在空间在不同区域上进行了因子分解,从而控制了局部形状和纹理。02. 相关工作02.1. 用于图像编辑的GAN潜在空间0鉴于GAN在合成高质量图像方面的成功[11, 36,37],许多研究尝试利用GAN作为图像先验来实现可控的图像合成和编辑。这些研究可以分为两类。第一类旨在学习一个模型,以操纵预训练GAN网络的潜在空间以实现可编辑性。例如,InterFaceGAN [59],GANSpace[26]和StyleFlow[4]在StyleGAN潜在空间中训练了一个属性模型来控制二进制属性。StyleRig[64]学习了一组潜在空间网络来改变姿势和光照。类似地,StyleFusion[33]学习了如何在潜在空间中融合来自不同图像的语义部分。第二类旨在使用额外的监督学习GAN具有更多解耦的潜在空间。例如,CONFIG [39]和DiscoFaceGAN[18]使用3D渲染数据将姿势、身份、表情与其他信息解耦。GAN-Control[61]通过利用预训练的属性模型在潜在空间中分离身份和年龄等属性。除此之外,StyleMapGAN[38]提出使用样式映射来调制合成网络,但每个样式像素的含义不清楚。与之前的工作不同,我们提出了一种根据语义标签在GAN潜在空间中进行的新型分解。我们的解耦潜在编码可以独立地控制输出图像中每个语义部分的形状和纹理。02.2. 组合式图像合成0大量研究已经探讨了如何构建生成模型来模拟世界的组合性质。为了实现组合性,一些研究提议以图像作为输入,并使用来自真实图像的元素组合成复杂的场景[8, 10,57]。另一方面,大多数研究旨在构建一种生成模型,该模型能够无监督地发现训练图像中的不同对象,然后从独立的潜在编码中合成它们。这些方法中的大多数假设对象在场景中独立定位,并设计了一种组合性生成模型来发现这些对象[6, 12, 19, 20, 23, 24, 31, 66, 71, 72]。还有一些方法……𝐰!𝐰#𝐟!𝐝!𝐟"𝐝"𝐟#𝐝#112560� !0� "0� #0MLP0�~�(0, �)0融合0渲染网络0R0真实/伪造0鉴别器0真实图像 伪造图像0特征图 �0D0掩码 � 细化0Δ�0� "0图3.我们训练框架的概述。一个MLP首先将随机采样的编码映射到W空间。w编码用于调制局部生成器的权重。每个局部生成器gk输出一个特征图fk和一个伪深度图dk,它们被融合成一个粗糙的分割掩码m和一个全局特征图f用于图像合成。只与特征图有关的渲染网络R通过学习一个残差∆m将上采样的m精细化为高分辨率的分割掩码,并生成伪造图像。一个双分支鉴别器对RGB图像和语义分割掩码的联合分布进行建模。0从3D的角度来看,我们以组合合成为基础,通过学习多视图数据集[28, 45, 47,48]来分解对象和背景。与这些工作类似,我们注入组合作为归纳偏差,以鼓励分解。然而,我们专注于由人类定义的语义部分。这使我们能够在对象级别以下分解高度相关的局部部分(例如头发和脸部),并在合成过程中实现更精细的控制。02.3. 基于布局的局部编辑生成器0在布局到图像转换问题中,布局图像被提供作为可控图像合成的条件。布局图像可以是语义分割掩码[14, 15, 42, 49,53, 68, 69, 76, 77],草图图像[16, 55,68]等。其中,一些研究尝试使用潜在代码表示不同的语义部分[14, 76,77]。但由于布局由输入的分割掩码控制,它们只能控制局部纹理。我们的方法也与利用语义掩码作为生成的中间表示的先前研究相似[9, 30,32],但它们被设计用于条件生成任务,无法从头开始生成图像。最近,一些研究人员还分析了StyleGAN样式空间与语义掩码之间的相关性[17, 33,70],或者使用分割掩码监督潜在操作[21, 41,51]以实现局部编辑。与这些方法相比,我们构建了一个语义感知的生成器,直接将不同的局部区域与潜在代码关联起来,这些代码可以用于编辑局部结构和纹理。03. 方法论0典型的GAN框架学习一个将向量z �Z映射到图像的生成器,其中Z通常是标准正态分布。在StyleGANs [36, 37]中,为了处理0由于数据分布的非线性,z首先通过MLP映射到潜在代码w �W。然后,将该W空间扩展为控制不同分辨率输出样式的W+空间[36]。然而,这些潜在代码没有严格定义的含义,很难单独使用。我们建议构建一个生成器,其W+空间为不同的语义区域进行解耦。形式上,给定一个标记的数据集D ={(x1, y1), (x2, y2), ..., (xn, yn)},其中yi ∈ {0,1}H×W×K是图像xi的语义分割掩码,K是语义类别的数量,我们的生成器给出一个分解的W+,使得:W+ = Wbase ×W1 × W2 × ... × WK. (1)0在这里,每个本地潜在代码w k ∈ Wk控制第k个语义区域在分割标签中定义的形状和纹理,而wbase ∈ Wbase是一个共享代码,控制粗略结构,如姿势。每个wk进一步分解为形状代码w k s和纹理代码w kt。生成器G:W+ →X×Y将潜在代码映射到RGB图像和语义分割掩码。为此,我们确定了两个主要挑战:1. 如何解耦不同的局部区域?02.如何确保这些区域的语义含义?对于第一个问题,受组合生成模型[12, 23,48]的启发,我们引入了局部生成器和组合合成过程作为归纳偏差。对于第二个问题,我们使用一个双分支判别器D:X×Y → R来建模联合分布p(x,y),以监督合成后的局部部分的形状。03.1. 生成器0我们生成器的整体结构如图3所示。与StyleGAN2 [36,37]类似,一个8层MLP首先将z映射到中间代码w。然后,引入K个局部生成器,使用�Lall = LStyleGAN2 + λmaskLmask + λR1segLR1seg, (6)112570傅里叶特征0粗糙结构纹理0� !"#$ � # � � &0特征� '深度� '0图4.局部生成器的架构。蓝色块是调制的1×1卷积层,其权重取决于输入的潜在编码。紫色块是线性变换层。0w.渲染网络R接收来自局部生成器的融合结果,并输出RGB图像和相应的语义分割掩码。0局部生成器根据最近的连续图像渲染工作[7,62,74],我们使用调制的MLP进行局部生成器(图4),这允许对合成输出进行明确的空间控制。给定傅里叶特征[63](位置编码)p和潜在编码作为输入,局部生成器gk输出特征图fk和伪深度图dk:gk:(p,wbase,wks,wkt) → (fk,dk)。 (2)0在这里,为了降低计算成本,输入傅里叶特征图以及输出的大小为Hc×Wc,小于最终输出图像。在实践中,我们选择它为64×64,以平衡效率和质量。在训练过程中,独立地在每个局部生成器中进行样式混合[36],在wbase,wks和wkt之间进行,以便不同的局部部分、不同的形状和纹理可以协同工作进行合成。我们注意到这里的伪深度图并不严格是深度图,我们之所以称之为“深度”,是因为它们用于模拟z缓冲过程的组合策略。0融合在融合步骤中,我们首先从伪深度图生成粗糙的分割掩码m∈ RK × Hc ×Wc。根据组合生成的先前工作[12,23],伪深度图用作softmax函数的逻辑回归:0mk(i, j) = exp(dk(i, j)) / Σk′ exp(dk′(i, j)), (3)0其中mk(i, j)表示掩码m的第k类中的像素(i, j),dk(i,j)类似。然后通过以下方式聚合特征图:0f =0k=1 mk ⊙ fk. (4)0这里⊙表示逐元素乘法。聚合特征图f包含有关输出图像的所有信息,并发送到R进行渲染。我们注意到0直接使用m进行特征聚合可能在某些类别透明时存在问题。因此,我们在存在透明类别时使用修改后的版本˜m进行特征聚合,例如眼镜(详见附录)。0渲染网络 渲染网络 R与原始的StyleGAN2生成器类似,但有一些修改。首先,它不使用调制卷积层,输出完全取决于输入特征图。其次,我们在16×16和64×64的分辨率下输入特征图,其中特征拼接在64×64处进行。低分辨率特征图的额外输入允许更好地融合不同部分。最后,我们发现直接使用m进行训练很困难,因为softmax输出和真实分割掩码之间存在固有差距。因此,除了每个卷积层后的ToRGB分支之外,我们还有一个额外的ToSeg分支,如SemanticGAN[40]中所示,用于输出残差以将粗糙的分割掩码m细化为与输出图像大小相同的最终掩码ˆy = upsample(m) +∆m。这里需要一个正则化损失,以使最终掩码与粗糙掩码不会偏离太多:0Lmask = ∥∆m∥2. (5)03.2. 判别器和学习框架0为了建模联合分布p(x,y),判别器需要同时接收RGB图像和分割掩码作为输入。我们发现简单的连接不起作用,因为分割掩码上的梯度幅度很大。因此,我们提出使用双分支判别器D(x,y),其中x和y分别有两个卷积分支。然后将输出求和用于全连接层。这样的设计使我们能够通过额外的R1正则化损失LR1seg分别规范化分割分支的梯度范数。得到的训练框架与StyleGAN2类似,损失函数为:0其中,L StyleGAN 2代表原始StyleGAN2中使用的损失函数。04. 实现细节0我们使用PyTorch1.15库实现了我们的方法。我们使用与StyleGAN2相同的优化器和批次设置。λ R 1 img ,λ R 1 seg 和λ mask分别设置为10、1000和100。样式混合概率和路径正则化分别降低到0.3和0.5。对于一些实验,我们在仅图像的数据集上对模型进行微调。在这种情况下,我们在鉴别器中去掉了分割分支,并使用原始的StyleGAN2损失函数对模型进行微调。由于空间限制,有关网络架构的更多细节请参见附录。StyleGAN2img4.453.40SemanticGANimg&seg18.542.77+ proposed trainingimg&seg7.503.51SemanticStyleGAN (ours)img&seg6.423.21112580图像0伪深度0分割0图5.组合合成的示意图。从背景开始,我们逐渐将更多的组件添加到特征图中。第二行显示了用于融合的每个相应组件的伪深度图。请注意,“头发”生成器输出了一个完整的形状,即使它被脸部遮挡。在合成过程中,所有的伪深度图都被无序地融合在一起。0方法 数据 组合 FID ↓ IS ↑0表1.合成质量的定量评估。所有模型都在CelebAMask-HQ上以256×256的分辨率进行训练。“img”和“seg”分别指RGB图像和分割掩模。0图6.在CelebAMask-HQ数据集上训练的我们模型的示例生成结果。图像的分辨率为512×512,截断为0.7。05. 实验05.1. 语义感知和解耦合生成0我们首先评估我们的模型的合成质量和局部解耦合。对于合成质量,我们将我们的模型与StyleGAN2[37]和SemanticGAN[40]进行比较。原始的StyleGAN2既不模拟分割掩模,也不提供局部可控性,因此将其作为合成质量的上限进行比较。SemanticGAN将StyleGAN2修改为一个联合训练框架,可以输出图像和分割掩模。由于其目标是进行分割,它也不允许局部控制。所有模型都在CelebAMask-HQ的前28000张图像上进行训练,调整为0背景0脸部0头发0图7.在整个潜空间和指定子空间上的潜空间插值结果。这里,“Face”指的是与脸部相关的所有组件,包括眼睛、嘴巴等。0256×256。使用Fr´echet Inception Distance (FID)[29]和Inception Score (IS) [56]来衡量合成质量。0我们的项目最初是建立在SemanticGAN框架上的,用于学习语义感知模型。原始的SemanticGAN是半监督的,我们改变了它以使用所有的训练标签。如表1所示,与原始的StyleGAN相比,SemanticGAN的质量要低得多,这表明学习图像和分割掩模的联合模型是一项具有挑战性的任务。我们假设SemanticGAN的主要瓶颈是用于学习分割掩模的额外的补丁鉴别器,我们用提出的双分支鉴别器替换它。新的训练框架实现了更好的合成得分。我们进一步用我们的SemanticStyleGAN生成器替换了SemanticGAN生成器。与SemanticGAN生成器相比,我们的模型在提供每个语义区域的附加可控性的同时,显示了类似的合成质量。然后,我们将模型扩展到512×512的分辨率和112590真实图像重建合成翻译缩小0图8.通过傅里叶特征操作进行图像合成和转换。真实图像用作合成的背景,并反转为特征图。然后可以在特征空间中在这个真实图像上合成前景。可以通过傅里叶特征来控制前景的位置和大小。0实现了FID和IS分别为7.22和3.47。作为参考,StyleGAN2生成器的FID和IS分别为6.47和3.55。图6显示了512×512模型的合成结果。为了解释我们模型的组合合成过程,图5显示了使用有限组件进行合成的结果。我们首先禁用所有前景生成器,然后逐步将它们添加到前向过程中。可以看到这些局部生成器可以独立工作以生成一个语义部分。伪深度图尽管缺乏3D监督,但学习到了有意义的形状,可以用于协同组合不同的脸部。图7显示了我们生成器模型的潜在插值结果。第一行显示了我们的模型可以在两个随机采样的图像之间平滑插值。此外,我们可以通过改变相应的潜在编码(例如脸部或头发)来在特定的语义区域上进行插值,同时固定不相关的部分。结果表明,我们的模型已经学习到了一个平滑且解缠的语义编辑潜在空间。总体而言,尽管在训练过程中没有明确的约束,我们观察到我们的模型能够解缠大多数局部形状和纹理。我们还请读者参考附录中关于语义局部样式混合的更多结果。我们注意到,与生成完整图像的传统GAN不同,这样的组合过程还允许我们的模型仅生成前景并通过操作傅里叶特征来控制它(参见图8)。05.2. 受控合成和图像编辑0通过在潜在空间中进行语义分解,我们的模型为图像编辑提供了更加解缠的生成先验。在这里,我们对我们的模型在下游编辑任务上进行评估,并将其与StyleGAN2进行比较。我们使用官方StyleGAN2(FFHQ1024x1024上的con�g-F的pytorch转换)作为我们的基线,这在图像编辑的相关研究中被广泛使用。我们使用512×512模型进行我们的方法。05.2.1 对真实图像进行编码和编辑0为了评估在真实图像上的编辑结果,我们首先需要将这些图像嵌入到GAN潜在空间中。在这里,0方法 MSE ↓ ID ↑ LPIPS ↓0StyleGAN2(FFHQ)0.031 ± 0.015 0.654 ± 0.097 0.309 ± 0.0460StyleGAN2 0.029 ± 0.016 0.575 ± 0.119 0.330 ± 0.052SemanticStyleGAN 0.031 ± 0.017 0.602 ± 0.122 0.335 ± 0.0510表2.使用Restyle(psp)编码器对重建性能进行定量评估。底部两行(StyleGAN2和Ours)是在CelebAMask-HQ的相同拆分上训练的。0我们采用了最先进的GAN编码器,即Restyle-psp[5],用于StyleGAN2和我们的模型。我们使用Restyle作者的官方模型用于StyleGAN2,而我们的模型则使用默认超参数进行训练了一个新的编码器。为了参考,我们还训练了一个在CelebAMask-HQ上训练的编码器用于我们的StyleGAN2。表2显示了使用restyle编码器进行图像重建的定量结果。总体而言,我们的模型在重建方面达到了可比较的性能。下一个问题是我们的模型是否可以应用于对这些重建图像的局部编辑。在这里,我们采用了两种为StyleGAN2提出的流行的编辑方法:InterFaceGAN[59]和StyleFlow[4]。这两种方法都需要生成一组伪造图像并标记它们的属性以训练潜在的操作模型。特别地,InterFaceGAN学习一个线性SVM,而StyleFlow使用条件连续归一化流[22]来建模潜在属性操作。对于这两个生成器,我们随机合成了50,000张图像进行标记。按照InterFaceGAN的方法,我们在CelebA数据集[44]上训练了一个ResNet-50[27]来标记这些图像。在实验过程中,我们发现我们在CelebAMask-HQ上训练的模型相比于基于FFHQ的StyleGAN2具有更低的多样性。因此,我们在FFHQ上对我们的模型进行了1,000步的微调(参见第4节),观察到了多样性的足够提升而没有丧失可控性。我们选择了4个涵盖面部图像不同部分的局部属性进行编辑实验,即微笑、秃头、胡须和刘海,并在CelebAMask-HQ的最后1,000张图像上进行测试,这些图像没有用于训练。对于StyleGAN2,我们保留了这些方法中用于内容保护的潜在维度的原始选择。对于我们的方法,我们手动选择了相关的编辑区域,例如秃头的头发和胡子的脸部,这在部署过程中可以被视为一个微不足道的步骤。图9显示了将InterFaceGAN应用于StyleGAN2和我们的模型的质量结果。虽然InterFaceGAN成功地编辑了StyleGAN2上的属性,但由于潜在空间中的纠缠,不相关的部分不可避免地被改变。相比之下,我们的模型只关注指定的语义区域。我们还对编辑任务进行了定量评估。对于每个图像,我们控制操作的程度生成了10张图像。然后使用属性分类器绘制了一个“保留分数”曲线。这里,分数增益指的是目标属性分类分数的平均增益。0.0000.1060.2120.3180.4240.530Score Gain0.8600.8880.9160.9440.9721.000Pixel Preservation0.0000.1620.3240.4860.6480.810Score Gain0.6100.6880.7660.8440.9221.000Pixel Preservation0.0000.1660.3320.4980.6640.830Score Gain0.6900.7520.8140.8760.9381.000Pixel Preservation0.0000.1660.3320.4980.6640.830Score Gain0.600.680.760.840.921.00Pixel Preservation0.0000.106.3180.4240.530in0.8600.8880.9160.9440.9721.000Pixel Preservation0.0000.0540.1080.2160.270Scor0.7400.7920.8440.8960.9481.000Pixel Preservation0.0000.1660.3320.4980.6640.830Score Gain0.6900.7520.8140.8760.9381.000Pixel Preservation0.0000.1660.3320.4980.6640.830Score Gain0.600.680.760.840.921.00Pixel PreservationStyleFlow+StyleGAN2InterFaceGAN+StyleGAN2StyleFlow+OursInterFaceGAN+Ours112600表情0秃头0刘海0胡须0输入反演(StyleGAN2)StyleFlow InterFaceGAN 反演(我们的)StyleFlow+我们的 InterFaceGAN+我们的0图9. GAN反演和编辑的结果。对于每个属性和方法,我们显示了Restyle编码器的反演结果,编辑后的图像以及它们之间的差异图。0微笑0秃头0刘海0胡须0微笑0秃头0刘海0胡须0图10.使用StyleGAN2和我们的模型进行局部属性编辑的定量比较。0获取属性。像素保留是指两个图像之间的ℓ1损失的1减去。ℓ1损失是ℓ0损失的近似,它计算已经改变的像素数。在我们的实验中,我们发现这个简单的度量与图像之间的空间差异最相关。从图10可以看出,我们的模型实现了更好的整体性能。请注意,对于秃头,我们的模型在去除所有头发时停止,但InterFaceGAN+StyleGAN2通过适应相关属性(如衰老)来不断增加分数。对于刘海,我们的模型倾向于增加头发的整体长度,这可能是从原始训练数据中继承的偏差。此外,我们发现StyleFlow对标签不平衡更敏感。因此,鉴于秃头示例的数量很少,它无法为两个生成器学习秃头属性。0初始脸“一个皮肤为棕色的人”“一个紫色长发的人”“一个蓝眼睛的人”0StyleCLIP0StyleCLIP+我们的0图11.在顺序编辑下的文本引导图像合成结果。从平均假脸开始,第一行(从左到右)显示了使用基于优化的StyleCLIP[50]和StyleGAN2顺序应用的结果,而第二行显示了使用相同输入文本的我们的模型的结果。05.2.2 文本引导合成0最近的研究表明,可以使用文本-图像嵌入,如CLIP[54],来引导StyleGAN2的合成,以进行受控合成[50]。与属性编辑类似,StyleGAN2在局部解缠问题上存在问题。图11显示了使用StyleCLIP[50]通过一系列文本提示来操纵合成图像的几个示例。在这里,我们使用基于优化的StyleCLIP版本,因为它对于任何输入文本都是灵活的。可以看到,原始的StyleCLIP经常修改整个图像,而文本只是试图改变特定区域。我们的模型通过让用户选择相关区域,可以忠实地将编辑限制在局部部分。结果表明,我们的模型可能是一个更适合提供详细描述的文本引导肖像合成的工具。112610照片0Toonify0MetFaces0Bitmoji0图12.在适应的新领域上改变发型的示例。前四列和最后三列分别显示了不同潜在代码的发型和纹理的结果。0头发0顶部0底部0图13.在DeepFashion数据集上的受控生成结果。我们的模型可以为不同部分生成各种风格。05.3. 在其他领域的结果0从头开始训练我们的模型需要同时访问图像和分割掩模,这在某些情况下可能不可行。因此,我们想问一下,是否可以在仅有图像的数据集上对模型进行微调,同时保持局部解缠(详见第4节中的微调)。图12显示了在Toonify[52]、MetFaces数据集[34]和BitMoji[1]上对我们的模型进行微调后的结果。所有这些数据集与CelebAMask-HQ相比,图像数量要少得多,而且没有分割掩模。我们训练我们的模型数百步,直到生成感知良好的结果。可以看到,在具有有限领域差距的数据集上,我们的模型即使在微调后仍能保持局部可控性。尽管迄今为止的面部数据集上的实验,我们的方法确实不包括任何仅针对面部的模块,因此也可以应用于其他对象。图13显示了在DeepFashion数据集[43]上训练我们的模型的结果,我们从[77]中获取标签。使用默认超参数,我们发现0我们的模型可以成功地在时尚数据集上进行训练,并且我们可以在潜在空间中同样控制不同语义部分的结构和纹理。06. 限制和讨论0适用数据集虽然我们已经证明了我们的方法可以应用于除了人脸照片之外的其他领域,但我们仍然看到了设计和监督所带来的限制。由于我们需要为每个类别构建一个局部生成器,所以该方法无法适用于具有太多语义类别的数据集,例如场景[73]。此外,为了合成质量的目的,我们将SemanticGAN[40]的半监督框架改为全监督,这限制了我们的模型无法从头开始在仅包含图像的数据集上进行训练。未来开发我们方法的半监督版本将是有益的。0解缠作为姿势、形状和纹理之间的解缠仅通过局部生成器中的层分离设计来强制实施,我们发现它们之间的边界有时仍然模糊不清。例如,共享的粗略结构代码可能会编码一些关于表情的信息,而形状代码可能会影响胡须。然而,在这项工作中,我们主要关注不同语义部分之间的空间解缠,我们相信未来可以加入额外的正则化损失或架构调整来更好地解耦这些信息。0社会影响我们的工作关注于提高GAN的可控性的技术问题,并没有专门设计用于任何恶意用途。尽管如此,我们确实认为该方法可能会被扩展到生成虚假个人资料等有争议的应用中。因此,我们认为使用我们的方法合成的图像应该表现为合成的。07. 结论0在本文中,我们提出了一种新型的GAN方法,以可控的方式合成图像。通过设计局部生成器、掩蔽特征聚合和图像与分割掩蔽的联合建模,我们能够分别对不同语义区域的结构和纹理进行建模。实验证明,我们的方法能够合成高质量的图像,同时解开不同局部部分。通过将我们的模型与其他编辑方法结合,我们可以更精细地控制合成图像。实验证明,我们的模型可以适应仅包含图像的数据集,同时保持解缠能力。我们相信所提出的方法为可控图像合成的GAN先验提供了一种新颖而有趣的方向,这可能为许多潜在的下游任务提供启示。112620参考文献0[1] Bitmoji数据集.https://www.kaggle.com/mostafamozafari/bitmoji-faces/version/1, 2013年. 根据CC BY 4.0发布. 80[2] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2StyleGAN: 如何将图像嵌入StyleGAN潜空间? 在CVPR,2019年. 20[3] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2StyleGAN++: 如何编辑嵌入图像? 在CVPR, 2020年. 20[4] Rameen Abdal, Peihao Zhu, Niloy J Mitra, and PeterWonka. StyleFlow:使用条件连续归一化流对StyleGAN生成的图像进行属性条件的探索. TOG, 2021年. 2, 60[5] Yuval Alaluf, Or Patashnik, and Daniel Cohen-Or. Restyle:一种基于残差的StyleGAN编码器通过迭代细化.arXiv:2104.02699, 2021年. 2, 60[6] Titas Anciukevicius, Christoph H Lampert, and PaulHenderson. 以物体为中心的图像生成,具有分解的深度、位置和外观.arXiv:2004.00642, 2020年. 20[7] Ivan Anokhin, Kirill Demochkin, Taras Khakhulin, GlebSterkin, Victor Lempitsky, and Denis Korzhenkov.带有条件独立像素合成的图像生成器. 在CVPR, 2021年. 40[8] Relja Arandjelovi´c and Andrew Zisserman. Object discoverywith a copy-pasting gan. arXiv:1905.11369 , 2019. 20[9] Oron Ashual and Lior Wolf. Specifying object attributes andrelations in interactive scene generation. In ICCV , 2019. 30[10] Samaneh Azadi, Deepak Pathak, Sayna Ebrahimi, andTrevor Darrell. Compositional gan: Learningimage-conditional binary composition. IJCV , 2020. 20[11] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv:1809.11096 , 2018. 1 , 20[12] Christopher P Burgess, Loic Matthey, Nicholas Watters,Rishabh Kabra, Irina Higgins, Matt Botvinick, and AlexanderLerchner. Monet: Unsupervised scene decomposition andrepresentation. arXiv:1901.11390 , 2019. 2 , 3 , 40[13] Eric R Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu,and Gordon Wetzstein. pi-gan: Periodic implicit generativeadversarial networks for 3d-aware image synthesis. In CVPR ,2021. 20[14] Anpei Chen, Ruiyang Liu, Ling Xie, Zhang Chen, Hao Su,and Jingyi Yu. Sofgan: A portrait image generator withdynamic styling. ACM TOG , 2021. 2 , 30[15] Qifeng Chen and Vladlen Koltun. Photographic imagesynthesis with cascaded refinement networks. In ICCV , 2017.30[16] Shu-Yu Chen, Wanchao Su, Lin Gao, Shihong Xia, andHongbo Fu. Deepfacedrawing: Deep generation of faceimages from sketches. TOG , 2020. 30[17] Edo Collins, Raja Bala, Bob Price, and Sabine Susstrunk.Editing in style: Uncovering the local semantics of gans. InCVPR , 2020. 30[18] Yu Deng, Jiaolong Yang, Dong Chen, Fang Wen, and XinTong. Disentangled and controllable face image generationvia 3d imitative-contrastive learning. In CVPR , 2020. 20[19] S´ebastien Ehrhardt, Oliver Groth, Aron Monszpart, MartinEngelcke, Ingmar Posner, Niloy Mitra, and Andrea Vedaldi. Relate:Physically plausible multi-object scene synthesis using structuredlatent spaces. arXiv:2007.01272 , 2020. 20[20] SM Eslami, Nicolas Heess, Theophane Weber, YuvalTassa, David
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功