属性分解生成对抗网络的可控人物图像合成

156 浏览量更新于2023-10-25 收藏 14.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

50840具有属性分解生成对抗网络的可控人物图像合成0Yifang Men 1，Yiming Mao 2，Yuning Jiang 2，Wei-Ying Ma 2，Zhouhui Lian 1�01北京大学计算机技术研究所，中国2字节跳动AI实验室0摘要0本文介绍了一种全新的可控人物图像合成生成模型，称为属性分解生成对抗网络（Attribute-DecomposedGAN），它可以根据各种源输入提供的所需人类属性（例如姿势、头部、上衣和裤子）生成逼真的人物图像。所提出模型的核心思想是将人类属性作为独立的代码嵌入潜在空间，从而通过混合和插值操作在明确的样式表示中实现属性的灵活和连续控制。具体而言，提出了一种由两个编码路径组成的新架构，其中包含样式块连接，以将原始的硬映射分解为多个更易访问的子任务。在源路径中，我们使用现成的人体解析器提取组件布局，并将其馈送到共享的全局纹理编码器中进行分解的潜在代码。这种策略允许合成更逼真的输出图像，并自动分离未注释的属性。实验结果表明，所提出的方法在姿势转移方面优于现有技术水平，并在组件属性转移的全新任务中具有有效性。01.引言0人物图像合成（PIS）是计算机视觉和计算机图形学领域的一个具有挑战性的问题，在图像编辑、电影制作、人物重新识别（Re-ID）、虚拟试衣等方面有着巨大的潜在应用。这个主题的一个重要任务是姿势引导的图像生成[23, 24, 9,33]，即以任意姿势呈现人物的照片级真实图像，这已成为社区中的一个热门话题。实际上，不仅姿势，还有许多其他有价值的人类属性可以用来引导合成过程。在本文中，我们提出了一个全新的任务，旨在合成具有可控人类属性的人物图像，包括姿势和组件属性，如头部、上衣和裤子。如图1所示，用户可以输入多个源人物图像0�通讯作者。电子邮件：lianzhouhui@pku.edu.cn0组件属性姿势属性（关键点）0目标姿势源40基础0样式代码姿势代码0可控人物图像合成0姿势源0生成具有可编辑样式代码的图像0图1：通过多个源图像提供所需的人类属性进行可控人物图像合成。人类属性包括姿势和组件属性，被嵌入潜在空间作为姿势代码和分解的样式代码。目标人物图像可以通过可编辑的样式代码进行用户控制。0分别提供所需的人类属性。所提出的模型将组件属性嵌入潜在空间以构建样式代码，并将从人物图像中提取的基于关键点的2D骨架编码为姿势代码，从而通过自由编辑样式（姿势）代码实现直观的组件特定（姿势）控制合成。因此，我们的方法可以在任意姿势下自动合成具有所需组件属性的高质量人物图像，并且不仅可以广泛应用于姿势转移和Re-ID，还可以用于服装转移和属性特定的数据增强（例如，服装商品检索和识别）。由于人类属性注释不足，关键点表示的简单性和人物外观的多样性，使用现有方法实现上述目标是具有挑战性的。姿势50850首先由[23]提出并后来由[24, 9, 33,46]扩展的转移方法主要关注姿势引导的人物图像合成，并且它们不提供对人类属性（如头部、裤子和上衣）的用户控制。此外，由于人体的非刚性特性，通过卷积神经网络直接转换空间错位的身体部位是困难的，因此这些方法无法产生令人满意的结果。外观转换方法[40, 38,28]允许用户通过估计复杂的3D人体网格并将纹理变形以适应身体拓扑来将衣服从一个人转移到另一个人。然而，这些方法未能对内在形状和外观的复杂相互作用进行建模，导致纹理变形的不真实结果。另一种类型的外观转换方法[30,20,45]尝试通过将整个源人物图像输入神经网络来建模服装纹理，但它们无法从多个源人物图像转移人类属性，并且缺乏组件级别的服装编辑能力。0属性编辑的概念在面部属性操作领域中常被使用[14, 41,39]，但据我们所知，这项工作是首次在人物图像合成任务中实现属性编辑。与之前的面部属性编辑方法不同，这些方法需要严格的属性注释（例如，训练数据集中是否存在微笑、胡须和眼镜等），所提出的方法不需要任何组件属性的注释，并通过精心设计的模块实现自动和无监督的属性分离。另一方面，我们的模型仅通过对人物的部分观察进行训练，并需要推断未观察到的身体部位以合成不同姿势和视角的图像。这比运动模仿方法[6, 1,35]更具挑战性，后者利用所有角色执行一系列相同的动作来解开外观和姿势，或者通过学习从2D姿势到一个特定领域的映射为每个角色训练一个模型。0为了解决上述挑战，我们提出了一种通过Attribute-DecomposedGAN实现可控人物图像合成的新方法。与之前的工作[23, 3,33]强制性地学习从连接条件到目标图像的映射不同，我们引入了一个新的生成器架构，其中包含两个独立的路径，一个用于姿势编码，另一个用于分解的组件编码。对于后者，我们的模型首先通过预训练的人体解析器提取源人物图像的语义布局，自动分离组件属性。组件布局被输入到具有多分支嵌入的全局纹理编码器中，并且它们的潜在编码按照特定顺序重新组合以构建样式编码。然后，作为两个路径的连接，级联的样式块通过将样式编码表示的组件属性注入到姿势编码中。0通过控制AdaIN层的仿射变换参数。最终，可以从目标特征中重建所需的图像。总之，我们的贡献有三个方面：0•我们提出了一项全新的任务，通过直接提供不同的源人物图像合成具有可控人类属性的人物图像，并通过建模内在姿势和组件级别属性的复杂相互作用来解决该任务。0• 我们引入了Attribute-DecomposedGAN，这是一个简洁而有效的模型，不仅实现了对人类属性的灵活和连续的用户控制，还显著提高了原始PIS任务的质量。0•我们通过利用现成的人体解析器提取组件布局，实现了对人类属性的自动分离，从而解决了人类属性的注释不足的挑战。02. 相关工作02.1. 图像合成0由于其显著的结果，生成对抗网络（GANs）[13]在过去几年中已成为图像合成的强大生成模型[16，44，4]。图像到图像的转换任务在Pix2pix [16]中使用条件GANs[26]解决，并在Pix2pixHD[36]中扩展到高分辨率级别。Zhu等人[44]引入了一种无监督方法CycleGAN，利用循环一致性从两个领域的无标签图像生成图像。许多工作都集中在通过堆叠架构[43，27]、更可解释的潜在表示[7]或自注意机制[42]来改善GAN合成图像的质量。StyleGAN[18]通过提出一种全新的生成器架构，通过自适应实例归一化（AdaIN）[15]来控制生成器，从而合成出令人印象深刻的图像，这是风格转移文献[10，11，17]的成果。然而，由于复杂的外观和仅有几个关键点的简单姿势，这些技术在处理属性引导的人物合成时具有有限的可扩展性。我们的方法通过一种新颖的生成器架构，设计了属性分解，克服了这些挑战。02.2. 人物图像合成0到目前为止，已经提出了许多使用对抗学习合成任意姿势的人物图像的技术。PG2[23]首次提出了一个两阶段的GAN架构来生成人物图像，其中目标姿势的人物在第一阶段粗略合成，然后在第二阶段进行细化。Esser等人[9]利用变分自动编码器结合条件U-Net[31]来建模固有的形状和外观。Siarohin等人[33]使用基于U-Net的生成器与...⊙𝑇,-.𝑇,-.50860样式代码0姿势编码器…0目标姿势 � " 生成的图像 � $0卷积0AdaIN0ReLU0卷积0AdaIN0� "&'0解码器0… �0⊙0共享0源 � *0人体解析0融合0样式块0样式块0样式块0语义0⊕0⊙ 0 逐元素相乘0⊕ 0 逐元素相加0� 0 特征拼接0� "0图2：我们生成器的网络架构概述。目标姿势和源人物通过两个独立的路径嵌入到潜在空间中，分别称为姿势编码和分解组件编码。对于后者，我们使用人体解析器来分离组件属性，并通过全局纹理编码器对其进行编码。引入了一系列带有融合模块的样式块，通过控制AdaIN层中的仿射变换参数，将源人物的纹理样式注入到姿势代码中。最后，通过解码器重建所需的图像。0通过引入可变形的跳跃连接来减轻由姿势差异引起的像素对齐问题。Zhu等人[46]在生成器中引入级联的姿势注意力转移块，逐步引导可变形转移过程。[29，34]利用双向策略以无监督的方式合成人物图像。然而，这些方法只关注将目标图像的姿势转移到参考人物上，而我们的方法实现了可控的人物图像合成，不仅有姿势引导，还有组件属性（例如头部、上衣和裤子）的控制。此外，可以产生更逼真的人物图像，具有纹理的一致性和身份的一致性。03. 方法描述0我们的目标是合成具有用户可控的人体属性（如姿势、头部、上衣和裤子）的高质量人物图像。与以前的属性编辑方法[14，39，41]需要带有每个属性的二进制注释的标记数据不同，我们的模型通过引入一个精心设计的生成器实现了组件属性的自动和无监督分离。因此，我们只需要包含每个人在几个姿势中的人物图像 { I ∈ R 3 × H × W }的数据集。相应的基于关键点的姿势 P ∈ R 18 × H × W，即编码人体18个关节点位置的18通道热图，可以通过现有的姿势估计方法[5]自动提取。在训练过程中，目标姿势0将 P t 和源人物图像 I s 输入到生成器中，并挑战一个按照 Is 的外观但在姿势 P t 下的合成图像 I g的真实性。接下来，我们将详细描述我们模型的每个部分。03.1. 生成器0图2显示了我们生成器的架构，其输入是目标姿势 P t和源人物图像 I s ，输出是在目标姿势 P t 中具有源人物 I s的生成图像 I g。与[23]中直接将源图像和目标条件连接在一起作为U-Net架构的输入，并在目标图像 I t的监督下强制学习结果的生成器不同，我们的生成器通过两个独立的路径，即姿势编码和分解组件编码，将目标姿势 Pt 和源人物 I s嵌入到两个潜在编码中。这两个路径由一系列样式块连接，将源人物的纹理样式注入到姿势特征中。最后，解码器通过目标特征重构所需的人物图像 I g 。03.1.1 姿势编码0在姿势路径中，目标姿势 P t通过姿势编码器嵌入到潜在空间中作为姿势编码 C pose，该编码器由 N 个下采样卷积层（在我们的情况下，N =2）组成，遵循常规的编码器配置。⊙Cisty = Tenc(Iis),(2)where the texture encode Tenc is shared for all branchesand its detailed architecture will be described below. Thenall Cisty, i = 1. . . K will be concatenated together in a top-down manner to get the full style code Csty.In contrast to the common solution that directly encodesthe entire source person image, this intuitive DCE mod-ule decomposes the source person into multiple compo-nents and recombines their latent codes to construct the fullstyle code. Such an intuitive strategy kills two birds withone stone: 1) It speeds up the convergence of model andachieves more realistic results in less time. Due to the com-plex structure of the manifold that is constituted of variousperson images with different clothes and poses, it is hard toencode the entire person with detailed textures, but muchsimpler to only learn the features of one component of theperson. Also, different components can share the same net-work parameters for color encoding and thus DCE implic-itly provides a data augmentation for texture learning. The50870参考0VGG编码器0平均池化 �0可学习的编码器0纹理特征0掩码0编码0图3：我们生成器中纹理编码器的细节。通过将可学习编码器和固定的VGG编码器的输出连接起来，引入了全局纹理编码。03.1.2 分解组件编码0在源路径中，源人物图像 I s通过名为分解组件编码（DCE）的模块嵌入到潜在空间中作为样式编码C sty 。如图2所示，该模块首先使用现有的人体解析器[12]提取源人物 Is 的语义图 S ，并将 S 转换为 K 通道热图 M ∈ R K × H × W。对于每个通道 i ，对应的组件（例如上衣）有一个二进制掩码 M i ∈R H × W 。通过将源人物图像与组件掩码 M i 相乘，计算出具有组件 i的分解人物图像 I i s = I s ⊙ M i ，其中 ⊙ 表示逐元素乘积。然后，将I i s 输入到纹理编码器 T enc 中，通过每个分支获得相应的样式编码 C isty。所有的 C i sty ，i = 1 . . . K将以自顶向下的方式连接在一起，得到完整的样式编码 C sty。与直接编码整个源人物图像的常见解决方案不同，这种直观的 DCE模块将源人物分解为多个组件，并重新组合它们的潜在编码来构建完整的样式编码。这种直观的策略一举两得：1）它加快了模型的收敛速度，以更少的时间获得更逼真的结果。由于由不同服装和姿势的各种人物图像构成的流形的复杂结构，很难对整个人物进行详细纹理的编码，但是只学习一个人物组件的特征要简单得多。此外，不同的组件可以共享颜色编码的相同网络参数，因此 DCE 隐式地为纹理学习提供了数据增强。0(a) 源图像 (b) 目标姿势 (c) 无DCE和GTE (d) 无DCE (e) 完整模型0图4：DCE和GTE的可视化效果。 (a)输入的源人物和目标姿势。 (b) 无DCE和GTE生成的结果。(c) 无DCE生成的结果。 (d)同时使用DCE和GTE生成的结果。0图5：我们的DCE模块在训练过程中的损失曲线。0图5显示了我们的DEC模块在训练中的效果损失曲线，图4(d)(e)提供了可视化效果。2）它在训练数据集中实现了自动和无监督的属性分离，无需任何注释，利用现有的人体解析器进行空间分解。特定属性在样式代码的固定位置进行学习。因此，我们可以通过混合从不同源人物中提取的所需组件代码来轻松控制组件属性。对于纹理编码器，受到样式转移方法[15]的启发，该方法通过预训练的VGG网络直接提取图像代码以提高纹理编码的泛化能力，我们引入了一个全局纹理编码的架构，通过在相应的层中连接VGG特征到我们的原始编码器，如图3所示。原始编码器中的参数值是可学习的，而VGG编码器中的参数是固定的。由于固定的VGG网络是在COCO数据集[21]上预训练的，并且它已经看到了许多具有各种纹理的图像，因此它具有全局属性和强大的野外纹理泛化能力。但与Typical style transfer task [15,11]不同，它仅需要一个粗略合理的结果而不需要严格的约束，我们的模型需要为给定的源人物在目标姿势下输出明确指定的结果。对于具有固定编码器的网络来说，很难适应这样一个复杂的模型，因此引入了可学习的编码器，与固定编码器结合使用。全局纹理编码（GTE）的效果如图4(c)(d)所示。Ft = ϕt(Ft−1, A) + Ft−1,(3)where λrec, λper and λCX denote the weights of corre-sponding losses, respectively.Adversarial loss. We employ an adversarial loss Ladv withdiscriminators Dp and Dt to help the generator G synthe-size the target person image with visual textures similar tothe reference one, as well as following the target pose. It pe-nalizes for the distance between the distribution of real pairs(Is(Pt), It) and the distribution of fake pairs (Is(Pt), Ig)containing generated images50880(a) 源图像 (b) 目标姿势 (c) 无DCE (d)有DCE，无FM (e)有DCE和FM0图6：融合模块（FM）对DCE的辅助效果。 (a)输入的源人物和目标姿势。 (b) 无DCE生成的结果。 (c)有DCE但没有FM的结果。 (d)同时使用DCE和FM生成的结果。03.1.3 纹理风格转移0纹理风格转移旨在将源人物的纹理模式注入到目标姿势的特征中，作为姿势代码和样式代码之间的连接。该转移网络由多个级联的样式块组成，每个样式块由融合模块和带有AdaIN的残差卷积块构成。对于第t个样式块，其输入是前一个块输出的深层特征Ft-1和样式代码Csty。该块的输出可以通过以下方式计算：0其中Ft-1首先经过卷积块ϕt，其输出与Ft-1相加得到输出Ft，F0 =Cpose是第一个块中的输入，总共采用了8个样式块。A表示AdaIN层中所需的学习仿射变换参数（缩放µ和平移σ），可以用于将特征规范化为所需的样式[8,15]。这些参数通过融合模块（FM）从样式代码Csty中提取，FM是DEC的一个重要辅助模块。由于组件代码按照指定顺序连接以构建样式代码，在位置和组件特征之间形成高度相关性，这就需要很多人为干预，并与网络本身的学习倾向产生冲突。因此，我们引入了由3个全连接层组成的FM，前两个层允许网络通过线性重组灵活选择所需的特征，最后一个层提供所需维度的参数。FM可以有效地解开特征并避免前向操作和反馈之间的冲突。FM的效果如图6所示。当将DCE应用于我们的模型时，没有FM的结果（见图6(d)）甚至比没有DCE的结果（见图6(c)）更糟糕。融合模块使我们的模型更加灵活，并保证了DCE的正确性能。03.1.4 人物图像重建0使用最后一个风格块输出的最终目标特征F T − 1，解码器生成最终图像I g0通过N个反卷积层，按照常规解码器配置，从F T − 1生成。03.2 判别器0参考Zhu等人[46]，我们采用了两个判别器D p 和D t，其中D p 用于确保生成图像I g 的姿势与目标姿势P t的对齐，D t 用于确保生成图像I g 的外观纹理与源人物I s的相似性。对于D p ，目标姿势P t 与生成图像I g（真实目标图像I t）连接在一起作为伪造（真实）对输入到D p 中。对于D t，源人物图像I s 与I g （I t）连接在一起作为伪造（真实）对输入到D t 中。D p 和D t都被实现为PatchGAN，更多细节可以在[16]中找到。03.3 训练0我们的完整训练损失由对抗项、重建项、感知项和上下文项组成，L total = L adv + λ rec L rec + λ per L per + λ CXL CX , (4)0L adv = E I s ,P t ,I t [ log ( D t ( I s , I t ) ∙ D p ( P t , I t ))]+0E I s ,P t [ log ((1 - D t (I s , G(I s , P t ))) ∙ (1- D p (P t , G(I s , P t ))))] . (5)0重建损失。重建损失用于直接引导生成的图像的视觉外观与目标图像I t相似，这可以避免明显的颜色失真，并加速收敛过程以获得令人满意的结果。L adv被定义为生成图像与目标图像I t 之间的L1距离0L rec = || G(I s , P t ) - I t || 1 . (6)0感知损失。除了在RGB空间中的低级约束外，我们还利用预训练的VGG网络从特定层提取的深度特征进行纹理匹配，这在图像合成[9,33]任务中已被证明是有效的。由于视觉风格统计信息可以通过特征相关性很好地表示，我们使用特征的Gram矩阵来衡量纹理相似性。目标图像I t 在其特征图F l ( I t)上的Gram矩阵G(F l ( I t ))可以计算为0G(F l ( I t )) = [ F l ( I t )][ F l ( I t )] T , (7)Contextual loss. The contextual loss proposed in [25] isdesigned to measure the similarity between two non-alignedimages for image transformation, which is also effective inour GAN-based person image synthesis task. Comparedwith the pixel-level loss requiring pixel-to-pixel alignment,the contextual loss allows spatial deformations with respectto the target, getting less texture distortion and more reason-able outputs. We compute the contextual loss LCX byLCX = −log(CX(Fl(Ig), Fl(It))),(9)50890来源0来源0图7：合成任意姿势的人物图像的结果。0(a) 源图像 (b) 目标姿势 (c) 真实图像 (d) 无 CX (e) 有 CX0图8：上下文损失的效果。0感知损失 L per 的定义如下0L per = ∥ G(F l(G(I s, P t))) - G(F l(I t)) ∥ 2. (8)0其中 F l ( I g ) 和 F l ( I t )分别表示从预训练的VGG19网络的第 l = relu { 3 2 , 4 2 } 层提取的特征图，用于图像 I g 和 I t ，CX表示匹配特征之间的相似度度量，考虑像素的语义含义和整个图像的上下文。更多细节可以在[ 25 ]中找到。我们在图8 中展示了 L CX的效果，它使网络能够更好地保留细节并减少失真。实现细节。我们的方法使用两个具有16GB内存的NVIDIATesla-V100 GPU在PyTorch中实现。使用人体解析器[ 2]，我们获取人物图像的语义地图，并将[ 12]中定义的原始标签合并为 K ( K = 8)个类别（即背景、头发、脸、上衣、裤子、裙子、手臂和腿）。损失项的权重设置为 λ rec = 2, λ per = 2 和 λ CX= 0 . 02 。我们采用Adam优化器[ 19]，动量设置为0.5，对我们的模型进行约120k次迭代的训练。初始学习率设置为0.001，并在60k次迭代后线性衰减为0。按照这个配置，我们交替训练生成器和两个判别器。04. 实验结果0在本节中，我们验证了所提出的网络在属性引导的人物图像合成任务（姿势转换和组件属性转换）中的有效性，并展示了它相对于其他最先进方法的优越性。详细结果在下面的小节中展示，更多结果可在补充材料（Supp）中找到。数据集。我们在In-shop Clothes Retrieval BenchmarkDeepFashion [ 22]上进行实验，该数据集包含大量具有各种外观和姿势的人物图像。总共有52,712张分辨率为256×256的图像。按照姿势转换[ 46]中的相同数据配置，我们随机选择了101,966对图像进行训练和8,750对进行测试。评估指标。Inception Score (IS) [32 ]和结构相似性 (SSIM) [ 37]是人物图像合成任务中最常用的两个评估指标，最早在PG2 [ 23 ]中使用。后来，Siarohin等人[ 33 ]引入了检测分数(DS)来衡量图像中是否能检测到人物。然而，IS和DS仅依赖于输出图像来判断其自身的质量，并忽略了其与条件图像的一致性。在这里，我们引入了一种称为上下文 (CX)分数的新指标，它是为图像转换提出的[ 25]，使用深度特征之间的余弦距离来衡量两个非对齐图像的相似度，忽略特征的空间位置。CX能够明确评估两个图像之间的纹理一致性，适用于我们的任务，用于衡量生成图像与源图像（目标图像）之间的外观一致性，记录为CX-GS（CX-GT）。除了这些计算的指标外，我们还进行用户研究，评估合成图像的真实性。04.1. 姿势转换04.1.1 任意姿势下的人物图像合成0姿势是最基本的人类属性之一，我们的实验验证了我们的模型在姿势控制的人物图像合成中的有效性。给定相同的源人物图像和从测试集中提取的几个姿势，我们的模型可以生成自然和真实的50900源 GT PG2 DPIG Def-GAN PATN 我们的方法0图9：与最先进方法的定性比较。0即使目标姿势与源姿势在尺度、视角等方面有很大差异，我们的方法仍能产生逼真的结果。我们在图 7中展示了一些结果，更多结果可在Supp中找到。04.1.2 与最先进的方法的比较0对于姿势转换，我们通过定性和定量比较评估了我们提出的方法。定性比较。在图9中，我们将我们的方法的合成结果与四种最先进的姿势转换方法进行了比较：PG2[23]，DPIG [24]，Def-GAN [33]和PATN[46]。所有这些方法的结果都是直接使用作者发布的源代码和训练模型获得的。从图中可以看出，我们的方法在全局结构和细节纹理方面产生了更真实的结果。面部身份得到了更好的保留，甚至成功合成了详细的肌肉和衣服褶皱。更多结果可以在补充材料中找到。定量比较。在表1中，我们展示了与之前描述的丰富指标的定量比较。由于[23, 24,33]的实验中没有给出数据分割信息，我们下载了它们的预训练模型，并在我们的测试集上评估了它们的性能。尽管测试图像可能包含在它们的训练样本中，但我们的方法在大多数指标上仍然优于它们。结果表明，我们的方法不仅生成了更真实的细节，具有最高的IS值，而且与源图像和目标图像相比，纹理更相似、更自然（最低的CX-GS和CX-GT值）。此外，我们的方法在人物检测方面具有最高的置信度，具有最佳的DS值。对于SSIM，我们观察到随着IS值的增加，0模型 IS ↑ SSIM ↑ DS ↑ CX-GS ↓ CX-GT ↓0PG2 3.202 0.773 0.943 2.854 2.795 DPIG 3.323 0.7450.969 2.761 2.753 Def-GAN 2.265 0.770 0.973 2.7512.713 PATN 3.209 0.774 0.976 2.628 2.604 我们的方法3.364 0.772 0.984 2.474 2.4740表1：与DeepFashion上最先进的方法的定量比较。0指标 PG2 DPIG Def-GAN PATN 我们的方法0R2G 9.2 - 12.42 19.14 23.49 G2R 14.9 - 24.61 31.7838.67 Prefer 1.61 1.35 16.23 7.26 73.550表2：用户研究结果（%）。R2G表示所有真实图像中被评为生成图像的百分比。G2R表示所有生成图像中被评为真实的百分比。最后一行显示了与源人物最真实图像的用户偏好。0这个指标略有下降，意味着更清晰的图像可能具有较低的SSIM，这也在其他方法中观察到过[23,24]。用户研究。我们进行了一项用户研究，评估生成图像的真实性和忠实度，并将我们的方法与四种姿势转换技术进行比较。对于真实性，参与者被要求在一秒钟内判断给定的图像是真实还是伪造的。按照[23, 33,46]的协议，我们随机选择了55张真实图像和55张生成图像，其中前10张用于热身，剩下的100张用于评估。对于忠实度，参与者展示了一张源图像和5个转换输出，他们被要求选择与源人物图像相对应的最自然和合理的图像。我们向每个参与者展示了30个比较，最终收集到40个实验的回应。表2中的结果进一步验证了我们生成的图像更加真实、自然和忠实。值得注意的是，与其他方法相比，我们的方法获得的合成结果质量显著提高，超过70%的结果被选为最真实的结果。04.2. 组件属性转换0我们的方法还可以实现可控的人物图像合成，具有用户特定的组件属性，这些属性可以由多个源人物图像提供。例如，给定3个具有不同组件属性的源人物图像，我们可以自动合成目标图像，其中包含人物1的基本外观，人物2的上衣和人物3的裤子。这也为编辑组件级人体属性提供了强大的工具。50910图10：使用可控组件属性合成人物图像的结果。我们在第一列中显示原始人物图像，右侧的图像是合成结果，其裤子（第一行）或上衣（第二行）与左侧的相应源图像发生了变化。0源目标姿势结果源目标姿势结果0图11：由于组件或姿势属性极端偏向于训练数据而导致的失败案例。0例如，将裤子变成连衣裙，将T恤变成背心，将男人的头变成女人的头。通过将源人物图像编码为分解的组件代码，并重新组合它们的代码以构建完整的风格代码，我们的方法可以使用额外的源人物图像编辑目标图像的上衣或裤子，以提供所需的属性。我们的方法生成具有新属性的自然图像，同时保留其余组件的纹理。风格插值。使用我们的属性分解GAN，我们可以沿着给定图像中人物的所有组件属性的流形进行旅行，从而将动画从一个属性合成到另一个属性。例如，从person1和person2的上衣代码（C uc 1和C uc2），我们将它们的混合结果定义为0C mix = βC uc 1 + (1 - β) C uc 2，(10)0其中 β ∈ (0, 1)，β在特定步骤中从1减少到0。风格插值的结果可在补充材料中找到04.3. 失败案例0虽然我们的方法在大多数情况下可以获得令人印象深刻的结果，但它无法合成具有极端偏向流形的姿势和组件属性的图像0建立在训练数据上。该模型构建了一个由人物图像的各种姿势和组件属性构成的复杂流形，我们可以沿着流形从一个属性到另一个属性进行旅行。因此，有效的合成结果实际上是通过插值操作混合的已见结果。如图11所示，女人T恤上的特定卡通图案无法与已见的图案插值，而罕见姿势的人无法无缝合成。05. 结论0在本文中，我们提出了一种新颖的属性分解GAN用于可控人物图像合成，可以灵活和连续地控制人类属性。我们的方法引入了一种新的生成器架构，将源人物图像嵌入到潜在空间中作为一系列分解的组件代码，并按特定顺序重新组合这些代码以构建完整的风格代码。实验结果表明，这种分解策略不仅能够产生更逼真的输出图像，还能够灵活地控制组件属性。我们还相信，使用现成的人体解析器自动从整个人物图像中分离组件属性的解决方案可以激发未来在数据注释不足的研究。此外，我们的方法不仅适用于生成人物图像，还可以潜在地适应其他图像合成任务。0致谢0本工作得到了中国国家自然科学基金（编号：61672043和61672056）、北京市科技新星计划（编号：Z191100001119077）和出版业科技与标准重点实验室（智能出版媒体技术重点实验室）的支持。[6] Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei AEfros. Everybody dance now. In Proceedings of the IEEEInternational Conference on Computer Vision, pages 5933–5942, 2019. 2[17] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptuallosses for real-time style transfer and super-resolution. InEuropean Conference on Computer Vision, pages 694–711.Springer, 2016. 250920参考文献0[1] K�r Aberman, Rundi Wu, Dani Lischinski, Baoquan Chen,and Daniel Cohen-Or. Learning character-agnostic motionfor motion retargeting in 2d. arXiv preprintarXiv:1905.01680, 2019. 20[2] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.Segnet: 一种用于图像分割的深度卷积编码器-解码器架构. IEEEtransactions on pattern anal- ysis and machine intelligence ,39(12):2481–2495, 2017. 60[3] Guha Balakrishnan, Amy Zhao, Adrian V Dalca, Fredo Du-rand, and John Guttag. 在未见过的姿势中合成人物图像. InProceedings of the IEEE Conference on Computer Vision andPattern Recognition , pages 8340– 8348, 2018. 20[4] Andrew Brock, Jeff Donahue, and Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练. arXiv preprintarXiv:1809.11096 , 2018. 20[5] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.使用部分关联场的多人二维姿势估计. In Proceedings of theIEEE Conference on Computer Vision and PatternRecognition , pages 7291–7299, 2017. 30[7] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, IlyaSutskever, and Pieter Abbeel. Infogan:通过最大化信息的生成对抗网络进行可解释的表示学习. InAdvances in neural information processing systems , pages2172–2180, 2016. 20[8] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kud-lur. 一种用于艺术风格的学习表示. arXiv preprintarXiv:1610.07629 , 2016. 50[9] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer.一种用于条件

下载后可阅读完整内容，剩余1页未读，立即下载