没有合适的资源?快使用搜索试试~ 我知道了~
Soubhik Sanyal2∗Alex Vorobiov1Timo Bolkart2Matthew Loper1Betty Mohler1Larry Davis1Javier Romero1Michael J. Black1{ssanyal,tbolkart}@tue.mpg.de{vorobioo,mloper,btmohler,lrrydav,javier,mjblack}@amazon.com111380使用循环自监督学习实现逼真的人体重塑,包括3D形状、姿势和外观的一致性01 亚马逊 2 图宾根智能系统研究所0图1:SPICE(自监督人物图像生成)根据源图像和目标姿势生成一个人物的新姿势图像。图中的每个三元组由源图像(左)、目标姿势的参考图像(中)和目标姿势的生成图像(右)组成;输入和参考图像来自DeepFashion测试集[22]。0摘要0从单个图像中合成一个人物在新姿势下的图像是一个高度模糊的任务。大多数现有的方法需要成对的训练图像;即同一个人在不同姿势下穿着相同的服装的图像。然而,获取足够大的成对数据集具有挑战性和成本高昂。放弃成对监督的先前方法缺乏真实性。我们提出了一个名为SPICE(自监督人物图像生成)的自监督框架,以弥补与监督方法相比的图像质量差距。实现自监督的关键洞察是以多种方式利用关于人体的3D信息。首先,在重塑时,3D身体形状必须保持不变。其次,用3D表示身体姿势可以推理自遮挡。第三,重塑前后可见的3D身体部分应具有相似的外观特征。一旦训练完成,SPICE接收一个人物图像并生成该人物的新图像0*本工作是在亚马逊实习期间完成的。0在新的目标姿势下。SPICE在DeepFashion数据集上实现了最先进的性能,将FID分数从29.9提高到7.8,与先前的无监督方法相比,并且与最先进的监督方法(6.4)性能相似。SPICE还能够根据输入图像和一系列姿势生成时间上连贯的视频,尽管仅在静态图像上进行训练。01. 引言0给定一个人的单个源图像,我们能否生成一个从不同视角、不同姿势看起来逼真的图像?虽然这个问题本质上是模糊的,但人体姿势、服装和外观中存在着显著的统计规律,这可能使这种生成成为可能,如图1所示。解决这个问题将在在线时尚、游戏、个人化头像创建或动画等方面具有广泛的应用,并因此引起了广泛的研究兴趣[6, 16, 31, 33, 38, 42]。111390最近的工作集中在生成建模[8, 13, 15,0特别是使用条件图像合成[49]。一组方法使用监督训练[6,20, 21,32],这需要具有相同外观和服装的同一人在不同姿势下的成对训练图像。需要这样的成对数据限制了训练集的潜在规模,可能影响鲁棒性和泛化性。因此,我们通过开发一种自监督方法来解决这个问题,而不需要任何成对数据。这种自监督公式最近也受到了重视[7, 26, 30,42]。我们的新公式建立在循环一致性的思想上[49],并进行了一些重要的修改。对于循环的正向方向,该方法接收源图像、源姿势和目标姿势,并生成一个以姿势和外观为条件的目标图像。反向方向通过交换源和目标条件,接收这个生成的图像并重新生成源图像。目标是最小化原始输入图像与通过循环合成的图像之间的差异。问题在于这种方法可能有一个平凡的解,即循环产生恒等映射。为了解决这个问题,先前的方法[30,38]用2D信息约束目标图像生成。然而,人体是非刚性的3D实体,其变形和遮挡不容易用2D表示。我们展示了如何利用从图像中自动提取的3D信息以多种方式约束模型。具体而言,我们的方法称为SPICE(自监督人物图像生成),利用估计的SMPL身体模型[23]参数对应于输入和生成的目标图像。由于输入和目标图像仅在姿势上有所不同,它们的身体形状应该是相同的。SMPL使得强制执行这一点变得容易,因为它将身体形状从姿势中分解出来。基于此,我们引入了两个损失。首先,我们使用姿势损失来鼓励生成图像中的身体姿势与3D中的目标姿势匹配。其次,我们添加了一个形状一致性损失,以鼓励生成图像中的人物具有与源图像中的人物相同的3D形状(图2)。然而,这两个约束不足以生成具有正确外观的图像,因为它们只强制模型生成具有正确形状和姿势的图像。没有约束生成的图像具有源图像的外观(例如服装、头发等)。先前的工作通过在每个2D关节之间强制执行感知损失来解决这个问题[30]。当身体以大的视角变化或身体部分被遮挡时,这是不足够的;见图3。我们通过在身体表面而不是关节上引入姿势相关的外观一致性来解决这个问题。0图2:形状一致性:第一列显示了同一个人在两个不同的姿势和视角下的两张图像。第二列显示了我们的3D回归器预测的3D身体,并以T形姿势摆放。对于同一个主体,不同姿势和视角下的估计3D身体形状是相似的。第三列显示了两个网格的每个顶点的差异,颜色从蓝色(0毫米)到红色(20毫米)进行编码。0这个想法是,两个不同姿势下的3D身体的投影表面在匹配身体的部分时必须具有相似的外观特征,并且这种相似性应该与3D身体之间的相对全局方向差异成比例。总之,我们通过三种新方法利用3D身体信息来改善自监督人体重塑的真实性:使用3D姿势损失、身体形状一致性和遮挡感知外观特征一致性。我们使用非配对数据对SPICE进行训练。在DeepFashion [22]和FashionVideo数据集[44]上进行了大量实验证明了我们模型的定性和定量效果。SPICE在准确性上显著优于先前的最先进(SOTA)的非自监督方法,并且几乎与最好的监督方法一样准确。02. 相关工作0对于对人类图像进行重塑的方法可以大致分为两类:有监督和无监督。虽然这两种方法都依赖于生成建模[8, 13, 15,49],但有监督方法需要成对的真实数据:不同姿势下的源图像和目标训练图像。我们的方法属于无监督或自监督类别,我们不使用成对的训练数据。我们在下面介绍每一类方法。有监督方法:有监督方法学习将源图像转换为给定源姿势和目标姿势的目标图像[2, 5, 6, 9, 16, 19-21, 24, 25, 27,28, 31, 32, 34-36, 39-41, 43, 45,50]。监督是由目标图像在训练过程中提供的,通常使用对抗性和感知损失来训练模型[33]。方法之间的差异通常在于网络输入和它们的架构。Dong等人[5]在两个阶段中合成目标图像。首先,他们从源姿势生成目标姿势分割,并在其软门控翘曲块架构中使用它来渲染目标姿势的人物。Knoche等人[16]学习了一个人的隐式体积表示,将源姿势扭曲成目标姿势。体积表示是使用编码器解码器架构隐式学习的。Li等人[20]利用学习的流场将源姿势的人物扭曲到目标姿势。流场是从3D身体学习的,并且在深度架构中用于特征级别和像素级别的扭曲。Ma等人[24]首先从源姿势中生成目标姿势的人物全局结构的粗略图像,这是在两阶段网络中以对抗的方式进行细化以获得更好的细节。Sarkar等人[32]使用DensePose[10]从源图像计算出部分UV纹理映射。他们将其用作输入到他们的网络中,该网络学习完成UV纹理映射并在目标姿势中渲染它使用神经渲染。Siarohin等人[35]提出了一种使用可变形跳跃连接的网络架构来解决问题。Tang等人[39]提出了一种共同关注融合模型,该模型从图像中融合外观和形状特征,并在其架构内部进行解缠。他们使用两个不同的鉴别器来共同判断生成。Zhu等人[50]提出了一种使用一系列注意力传输块的渐进生成器。每个块都会传输它关注的特定区域,并逐步生成人物图像。Ren等人[31]提出了一种新的深度架构,其中他们将基于流的操作与注意机制相结合。image during training and usually adversarial and percep-tual losses are used to train the model [33]. The differencesbetween methods usually lie in network inputs and their ar-chitectures. Dong et al. [5] synthesize the target image intwo stages. First they generate a target pose segmentationfrom the source pose and use it in their soft-gated warpingblock architecture to render the person in the target pose.Knoche et al. [16] learn an implicit volumetric representa-tion of the person to warp the source pose into the targetpose. The volumetric representation is implicitly learnedusing an encoder decoder architecture. Li et al. [20] utilizea learned flow field to warp a person in a source pose to thetarget pose. The flow field is learned from 3D bodies andis used for warping at the feature level and pixel level ina deep architecture. Ma et al. [24] first generate a coarseimage of the global structure of a human in the target posefrom the source pose in a two stage network. This is thenrefined in an adversarial way in the second stage to get finerdetails. Sarkar et al. [32] compute a partial UV texture mapusing DensePose [10] from the source image. They use thisas input to their network, which learns to complete the UVtexture map and render it in a target pose using neural ren-dering. Siarohin et al. [35] propose a network architectureusing deformable skip connections to tackle the problem.Tang et al. [39] propose a co-attention fusion model thatfuses appearance and shape features from images, whichthey disentangle inside their architecture. They use two dif-ferent discriminators for appearance and shape to jointlyjudge the generation. Zhu et al. [50] propose a progres-sive generator using a sequence of attention transfer blocks.Each of these blocks transfers certain regions it attends toand generates the image of the person progressively. Ren etal. [31] propose a new deep architecture where they com-bine flow-based operations with an attention mechanism.111400图3:问题:基于2D关键点的补丁丢失。一个人以相同的服装出现在三个不同的姿势中。在她的左臀关键点处提取一个补丁(白色矩形)。假设补丁的外观在不同视角下是相同的是错误的。相反,SPICE使用3D身体表面来推断在多个视角中可见的身体区域。这个图中的关键点是由OpenPose[4]预测的。0请注意,上述方法都是有监督的,不能直接用于自监督场景。相反,我们的工作侧重于无配对数据,并在Ren等人的[31]架构基础上进行构建。因此,我们的贡献不在于网络架构,而是引入了新的约束条件,使得在没有配对数据的情况下解决问题成为可能。无监督或自监督设置:越来越多的研究关注以无监督/无配对的方式解决问题。这种方法可以在没有配对数据可用或通过结合配对和无配对数据来增加鲁棒性和泛化性。早期的方法[26]将过程分为两个阶段。第一阶段使用基于自动编码器的架构从源图像中学习姿势、前景和背景的对应嵌入空间。第二阶段将高斯噪声映射到姿势、前景和背景的嵌入空间,并使用第一阶段的预训练解码器在新姿势下生成人物图像。Yang等人[42]从源图像中训练外观编码器来学习外观表示或嵌入。他们将来自不同姿势的不同人物图像的姿势嵌入与外观嵌入融合。通过这种方式,他们生成了新姿势下的人物图像。Esser等人[7]使用一个U-Net架构,以变分自动编码器的输出为条件进行外观生成。他们还尝试从源图像中解耦人物的姿势和外观。总的来说,上述方法试图从2D图像中解耦形状、姿势和外观,这是一个困难的问题。这导致生成的图像质量相对较差。与从图像中学习这种解耦不同,我们采用了不同的方法来解决问题。我们使用参数化的解耦3D人体表示SMPL[23]提取人物的姿势和形状信息,并对我们的自监督生成进行约束。此外,我们还通过利用3D人体的表面和投影来约束外观生成。与我们的循环公式类似,Pumarola等人[30]和Song等人[38]以自监督CycleGAN[49]的方式训练他们的网络。此外,[38]还将语义解析图作为网络的输入。他们使用2D信息约束自监督生成。我们通过3D人体信息约束自监督方法与这些方法不同。03. 方法0SPICE需要一个训练数据集,其中包含元组(I,P,R),每个元组包含一个人的图像I,他们的2D关键点姿势P和2D渲染R。为了生成R,我们使用SMPLify将SMPL3D网格[23]拟合到P上,然后使用UV空间中的彩色轮纹理渲染0that is, our method does not require images of the same per-son wearing the same clothing in different poses (i.e. with-out direct supervision through paired data). During training,the source image Is, source pose Ps, source rendering Rs,target pose Pt and target rendering Rt are given. SPICEthen synthesizes the image ˆIt, which is the reposed sourceimage Is, using a generator network G (Section 3.1):111410图4:SPICE概述:给定一个人的源图像I s ,源姿势P s ,目标姿势P t 和源姿势的3D网格渲染R s,生成器G生成一个目标姿势下的人的目标图像。然后交换源姿势和目标姿势,并通过G传递,但以生成的目标图像作为源图像。这样可以重新生成源图像,从而在训练过程中使用循环自监督损失L cycle 。为了防止平凡解,循环受到3D姿势损失L θ、形状损失L β 、外观损失L app 和对抗损失L adv 的约束,这些是SPICE的主要贡献(第3节),同时还提供了P s 和P t作为输入热图给G。0ˆ I t = G ( I s , P s , R s , P t ) . (1)0在训练过程中,我们利用循环一致性(第3.2节)。具体来说,我们通过重复使用G从ˆ I t 生成源图像的合成版本;即ˆI s = G ( ˆ I t , P t , R t , P s )。这使我们能够直接应用感知损失和像素损失来训练G,以在 I s 和ˆ I s 之间防止平凡解。为了防止平凡解,我们为ˆ I t添加了3D指导(第3.3节)和外观约束(第3.4节)。请参见SPICE训练流程的概述图(图4)。03.1. 生成器架构0我们的生成器G有两个模块:全局流场估计器和局部神经渲染模块。流场估计器模块以 R s , P s , P t为输入,在源姿态和目标姿态之间的特征级别生成2D变形场。神经渲染模块以 I s 和 P t为输入,并使用局部注意力块的特征级别上生成的变形场来生成ˆ I t 。流场估计器模块的损失可以写成0L flow = L R s → R t flow + L R t → R s flow ,(2)0其中 L x → y flow是生成的流场的采样正确性损失和正则化损失的加权相加,如Ren等人[31]所提出的。在合成ˆ I t 时应用 L R s → R tflow ,在循环结束时重新生成ˆ I s 时应用 L R s → R t flow。采样正确性损失是变形后的源特征和目标特征之间的余弦相似度距离。源特征和目标特征分别来自预训练的VGG网络[37]的特定层,给定源渲染和目标渲染作为输入。正则化损失对生成的变形场提供正则化。我们的生成器遵循Ren等人[31]的设计,不同之处在于流场估计器是在源渲染和目标渲染(即 R s 和 R t)上进行训练的,而不是在源图像和目标图像(即 I s 和 I t)上进行训练,因为在我们的设置中没有 I t可用。有关采样正确性损失和正则化损失的更多细节,请参阅Ren等人[31]。03.2. 闭环0强制循环一致性使我们能够使用监督损失在源图像 I s和重新生成的源图像ˆ I s之间训练SPICE。具体来说,我们最小化0L cycle = λ percep L percep + λ style L style + λ pix L pix , (3)0其中λ是各个损失权重,感知损失 L percep ,风格损失 Lstyle [14]和像素损失Lp1(8)111420L pix 定义为0L percep = ||φ j ( I s ) −0j0L style = λ0|| G ( φ j ( I s )) − G ( φ j (ˆ I s )) || 10其中 φ j是预训练的VGG网络[37]的第j层的激活图,G是由激活图φ j构建的Gram矩阵。为了生成逼真的图像,SPICE通过添加一个鉴别器D来最小化对抗损失,该鉴别器区分伪造图像ˆ I t和真实图像 I s。为了在每个图像中提供姿态信息,我们将D条件化为相应的渲染(即ˆ I t 的 R t 和 I s 的 R s),通过提供两个图像的串联作为鉴别器输入。形式上,我们最小化0L adv = E [log(1 − D ( ˆ I t , R t ))] + E [log D ( I s , R s )] .03.3. 姿态和形状一致性0SPICE在训练过程中使用SMPL [23]3D人体模型来强制姿态和形状的一致性。SMPL将依赖身份的形状混合形状与依赖姿态的修正混合形状和线性混合蒙皮(LBS)相结合,用于姿态表达。重要的是,这种形式将身体形状与姿态分离开来。给定形状参数 β ∈ R | β |和姿态参数 θ ∈ R 3 K +3 ,SMPL是一个函数 M ( β , θ ),它输出一个具有 N = 6890 个顶点的3D网格。为了从 I中提取SMPL形状和姿态参数 β 和 θ,我们使用可微分的回归器[17],表示为0β, θ = f3D(I). (5)0给定提取的SMPL参数ˆβt,ˆθt =f3D(ˆIt),我们定义了一个损失,鼓励合成图像ˆIt中的3D关节旋转ˆθt与目标姿势θt相同:0Lθ = ||θt − ˆθt||1, (6)0其中θt是通过在Pt上运行SMPLify[3]获得的。SPICE还根据以下观察结果强制执行身体形状一致性(图2),即虽然Is和ˆIt在姿势上不同,但它们的身体形状βs(即βs, θs =f3D(Is))和ˆβt必须相同,由以下公式强制执行:0Lβ = ||βs − ˆβt||1. (7)03.4. 外观特征一致性0上述损失约束了ˆIt的姿势和形状,但不能保证ˆIt的外观保持一致。0a) b) c)0图5:外观特征一致性:a)带有前(红色)和后(蓝色)躯干掩码的SMPL模板,b)和c)显示了不同姿势下的人物图像(左),以及通过渲染带有主体姿势的3D身体获得的相应躯干掩码。然后,根据相对骨盆旋转加权,对相同颜色的躯干掩码的图像段应用外观一致性损失。0与Is。因此,我们对Is和ˆIt中匹配区域的外观施加了额外的约束,使其相似。由于Is和ˆIt之间的姿势变化不受限制,我们不能直接在这些图像之间应用深度外观损失(感知或风格损失)。相反,我们利用3D身体网格在相应的图像段之间应用外观损失。给定SMPL参数β和θ,我们使用图5a)的纹理渲染网格M(β,θ)以获得渲染的前后躯干区域的图像段,如图5b)和c)所示。令Mmask表示二进制掩码,对于前/后躯干段内的像素,其值为1,其他地方为0。此外,令Ppatch表示I ⊙Mmask,其中⊙是Hadamard乘积。m和p都是通过图像段的边界框从Mmask和Ppatch裁剪出来的。0给定从Is和ˆIt提取的图像块ps和ˆpt以及二进制掩码ms和ˆmt,外观一致性定义为lapp =:0λa1�0k ∥ φk(ps) ⊙ ψk(ms) − φk(ˆpt) ⊙ ψk(ˆmt)∥10+ λa2�0||Gφj(ps) ⊙ ψj(ms) − Gφj(ˆpt) ⊙ ψj(ˆmt)||10其中λ是权重,φk是激活图。����(10)111430其中Gφj是从相应的激活图φ构建的Gram矩阵,ψ是相应层的下采样函数。请注意,所述外观损失的形式要求掩码裁剪内的相应图像特征有足够的重叠。我们计算外观损失如下:0L app = λ(θ s, θ t) × l app,(9)0其中λ(θs,θt)是一个权重函数,取决于源姿势和目标姿势之间的相对骨盆旋转(即围绕SMPL根关节的旋转):0λ(θ s, θ t) =01.0,如果0° ≤ |θpel s − θpel t| < 20°00.1,如果20° ≤ |θ pel s − θ pel t| < 40°00.01,如果40° ≤ |θpel s − θpel t| < 60°00,否则为0。03.5. 最终损失0提议方法的总损失为:0LSPICE = αcycleLcycle + αflowLflow + αadvLadv +αθLθ + αβLβ + αappLapp,(11)0其中α i是相应的损失权重。下一节详细介绍了如何设置这些权重。04. 实验0数据集:SPICE在两个公开可用的数据集上进行评估,分别是DeepFashion In-shop Clothes Retrieval Benchmark[22]和FashionVideo数据集[44]。DeepFashion数据集用于定性和定量比较,FashionVideo数据集用于运动转移示例,遵循Sarkar等人[32]的方法。DeepFashion数据集[22]包含52712个高分辨率的时尚姿势模型图像。数据集按照以前的工作[31,50]进行训练和测试集划分。对于训练,我们使用训练集中的25341个图像,其中从鼻子到膝盖的身体关键点至少可见。此外,从训练集中随机选择100个图像作为模型选择的验证集。定性和定量评估是在Ren等人[31]使用的相同8570个图像对上进行的。FashionVideo数据集[44]包含女性时尚姿势视频序列,使用静态视频摄像机拍摄,包含大约350帧的每个视频。请注意,SPICE在训练过程中不使用配对图像。训练细节:我们使用残差块作为G的基本构建块。有关体系结构的更多细节,请参阅Ren等人[31]的论文。我们在两个数据集上都使用256×256的图像分辨率进行SPICE的训练。0图6:FashionVideo数据集[44]上的定性结果。视频帧是使用驱动视频中的姿势从源帧合成的。请参阅Sup.Mat.获取视频和更多示例。0DeepFashion 无配对 FID(↓) LPIPS(↓)0Def-GAN [35] – 18.5 0.233 Pose-Attn [50] –20.7 0.253 Intr-Flow [20] – 16.3 0.2130CoCosNet* [46] – 14.4 -0ADGAN ** [27] – 22.7 0.183 Ren et al. ** [31] –6.4 0.1430VUNet ** [7] – 34.7 0.212 DPIG ** [26] – 48.20.2840PGSPT ** [38] – 29.9 0.238 SPICE (我们的方法) –7.8 0.1640表1:我们的方法与其他最先进方法的定量比较。*表示该方法报告了不同的训练/测试集划分的结果。**表示使用公开可用的代码重新计算了指标,并遵循Sup.Mat.中描述的协议;请注意,重新计算指标会导致与[31]中报告的数字不同。0我们在生成器和判别器中使用了谱归一化。生成器的学习率为8e-4,判别器的学习率为1.6e-3,遵循Heusel等人[12]的类似GAN训练策略。我们使用8个NVIDIA V100GPU进行训练。111440为了训练SPICE,每个GPU的批大小为8。我们将不同损失的权重设置如下:α cycle = 1.0,α flow = 1.0,α adv =1.0,α θ = 0.01,α β = 0.01,α app = 1.0,λ a 1 =0.01,λ a 2 = 10.0,λ percep = 0.5,λ style = 500.0,λpix =5.0。首先,我们训练流场估计器。与Ren等人[31]不同,我们在训练过程中使用R s 和R t 以及关键点,因为I t不可用。R s 和R t 分别用作其流估计模块中的I s 和I t的替代品。我们还使用类似Kolotouros等人[18]的方法,在DeepFashion数据集[22]的训练集上微调3D回归器f 3D。在f 3 D的微调过程中,我们使用了Zhou等人[48]提出的类似表示来表示3D旋转。最后,我们将整个SPICE模型进行端到端训练,保持3D回归器的权重不变。在训练迭代中,我们使用ROIAlign [11]从I s 和ˆ I t中提取所需的区域。我们训练模型5天(约400个时代)。在单个图像上的推理时间为74毫秒,使用单个NVIDIA V100GPU。评估指标:根据Ren等人[31]的方法,我们使用学习的感知图像补丁相似度(LPIPS)[47]和FID[12]分数来评估我们的实验结果。LPIPS量化了生成图像与真实图像之间的感知距离。FID分数定义为真实图像和生成图像之间的Wasserstein-2距离。我们使用LPIPS分数来评估SPICE的重建误差,使用FID分数来量化生成图像的逼真程度。对参考或生成图像进行图像压缩(例如JPEG)会显著影响FID分数。有关更多详细信息,请参阅Sup.Mat.或[29]进行类似分析。我们还评估了其他指标,如上下文相似性[27]和物体关键点相似性[1],并在Sup.Mat.中提供了结果。定量评估:表1定量比较了我们的方法与DeepFashion数据集[22]上其他最先进的方法。我们与Def-GAN [35],Pose-Attn [50],Intr-Flow[20],CoCosNet [46],ADGAN[27],Ren等人[31],DPIG [26],VUNet [7]和PGSPT[38]进行比较。请注意,Def-GAN,Pose-Attn,Intr-Flow,CoCosNet,ADGAN和Ren等人是有监督的方法,在训练过程中需要目标姿势和服装的真实图像。相比之下,我们的方法是无监督的,并与表的下半部分(即[7,26])进行比较。我们使用Ren等人[31],ADGAN [27],VUNet[7],DPIG [26]和PGSPT[38]提供的公开可用代码重新生成了我们测试集上的图像,并重新计算了指标。SPICE在无配对方法中取得了最先进的结果,并在与有监督方法的比较中取得了有竞争力的结果。定性评估:图1显示了在DeepFashion测试集上的结果。SPICE在保留了原始图像的同时做得很好。0源目标 SPICE DPIG VUNet PGSPT0图7:定性比较:更多结果可以在附录中找到。0尽管姿势发生了巨大变化,但SPICE能够生成目标外观和姿势。图7与DeepFashion测试集上的其他非/自监督方法进行了定性比较。与DPIG [26]、VUNet [7]和PGSPT[38]相比,SPICE生成的图像更加逼真、高质量,并且保留了姿势和外观。请参见附录视频以获取DeepFashion测试集上更多的视觉结果。运动转移:如果可以生成一个姿势,就可以生成一系列姿势。因此,我们在时尚视频数据集的测试集上展示了视频生成,如图6所示。我们随机选择一个视频作为驱动视频,提供目标姿势。我们将测试集中其他视频的第一帧作为源图像,并从中生成整个序列。请注意,我们没有训练SPICE生成视频;即没有视频监督或时间一致性。请参见附录视频以获取生成视频的示例。消融研究:表2总结了我们的消融研究,逐个从模型中删除一个损失。配置“SPICE w unconditionalD”表示我们将生成的图像直接提供给鉴别器,而不通过姿势进行条件化,通过连接渲染结果。我们的完整模型更好地保留了细节、姿势,并具有更好的整体图像质量。如果我们在训练SPICE时不使用姿势损失,生成器对身体的自遮挡信息了解较少。因此,它倾向于生成对于真实人物来说不可能的姿势,例如在另一条腿内长出腿等。如果我们在训练中排除形状损失,生成器对源图像中人物的3D身体形状了解较少,这可能导致生成图像中形状的不一致变形,例如臀部变大,腰部变得非常细等。在训练过程中排除外观损失会导致重建的细节减少,整体服装一致性降低。图8和111450配置 FID( ↓ ) LPIPS( ↓ )0SPICE w/o shape loss 8.7 0.166 SPICE w/opose loss 8.4 0.165 SPICE w/o appearanceloss 9.9 0.164 SPICE w unconditional D 10.00.167 SPICE 7.8 0.1640表2:DeepFashion测试集上的消融研究。0图8:特定损失的伪影:每行显示了在没有特定损失的情况下训练时的伪影。顶部:没有形状损失。中部:没有姿势损失。底部:没有外观损失。从左到右:源图像、目标姿势的参考图像、没有相应损失的生成图像和SPICE。0附录视频展示了这种特定损失的伪影。讨论和限制:虽然DeepFashion数据集提供了成对数据,但这些成对数据的服装不总是相同的,如图7底部所示。我们手动检查了500对随机抽样的训练数据,发现在16%的对中,其中一张图像包含额外的配饰或新衣服。这对于完全监督的方法来说可能是一个负担。相反,我们采取了纯自监督的极端方法,以查看这种方法能推动到何种程度。对于极端的姿势/视角变化,解决方案是高度模糊的:无法从前面或后面知道服装的正面。虽然SPICE生成了一个合理的解决方案,但结果可能与真实的不可见细节不匹配。实际应用情况将限制源图像和目标图像之间的姿势变化范围。SPICE需要目标图像的0图9:限制:SPICE在放大、处理极端特写和从没有人的服装图像生成人体时存在困难。0当摄像机放大时,人体的大部分区域都可见,但我们的模型在保留细节方面存在困难。放大需要超分辨率,这本身就是一个研究课题。05. 结论0我们提出了SPICE,一种从单张图像中重新布置着装人物的新方法。SPICE通过利用循环一致性在无配对训练数据的自监督方式下进行训练。我们的关键见解是在训练过程中以不同的方式使用3D人体信息来约束图像生成。首先,SPICE利用参数化的3D人体模型和3D人体回归器来约束人体形状和姿势。其次,SPICE使用3D人体网格来一致地分割源图像和生成图像,以强制实现遮挡感知的外观特征一致性。第三,SPICE将鉴别器条件化为彩色网格渲染,以提高生成图像的质量。训练完成后,SPICE接收一张单独的图像和由2D关键点指定的目标姿势,并生成目标姿势中同一人的图像。SPICE生成的图像比以前的无监督方法显著好,并且与最先进的监督方法在质量上相似。此外,SPICE可以轻松生成视频,尽管它没有为此任务进行训练。0将3D约束添加到重新布置问题中可以实现一些超出本文范围的应用,属于未来的工作。虽然我们使用了形状和外观损失来保持这些特征不变,但它们也可以用于控制输出模型的外观(例如,改变T恤的图案)或形状(例如,改变模型的身体比例)。披露。虽然MJB也是智能系统MaxPlanck研究所(MPI-IS)的员工,但这项工作仅在他兼职的亚马逊公司进行。在MPI-IS,他从Intel,Nvidia,Adobe,Facebook和Amazon获得了研究礼物资金。他在亚马逊,DatagenTechnologies和Meshcapade GmbH拥有财务利益。[9] Artur Grigorev, Artem Sevastopolsky, Alexander Vakhitov,and Victor Lempitsky. Coordinate-based texture inpaintingfor pose-guided human image generation. In Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition (CVPR), pages 12135–12144, 2019. 2[10] Rıza Alp G¨uler, Natalia Neverova, and Iasonas Kokkinos.Densepose: Dense human pose estimation in the wild. InProceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), pages 7297–7306, 2018.3[11] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn. In Proceedings of the IEEE InternationalConference on Computer Vision (ICCV), pages 2961–2969,2017. 7[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained by atwo time-scale update rule converge to a local nash equilib-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功