没有合适的资源?快使用搜索试试~ 我知道了~
多姿态引导虚拟试穿网络的方法及应用特性分析
9026多姿态引导虚拟试穿网络的董浩业1、2、梁晓丹3、沈晓辉7、王博超1、赖汉江1、2、朱佳4、5、胡志亭6、尹健1、2、王晓1中山大学数据与计算机科学学院2广东省大数据分析与处理重点实验室,广州5100063中山大学智能系统工程学院4华南师范大学计算机学院5广州市大数据与智能教育重点实验室6卡内基梅隆大学7字节跳动AI实验室。{donghy7@mail2,laihanj3@mail,issjyin @ mail}.sysu.edu.cnxdliang328@gmail.com,jzhu@m.scun.edu.cn,shenxiaohui@bytedance.com摘要任意姿态下的虚拟试穿系统具有巨大的应用潜力,但也提出了广泛的挑战,如自遮挡,不同姿态之间的严重错位,以及复杂的衣服纹理。现有的虚拟试穿方法只能在给定固定的人体姿势的情况下转移衣服,并且仍然表现出令人不满意的性能,通常不能保留人的身份或纹理细节,并且具有有限的姿势多样性。本文首次尝试了一种多姿态引导的虚拟试穿系统,该系统可以实现服装在不同姿态下的自动试穿。给定输入的人图像、期望的衣服图像和期望的姿势,所提出的多姿势引导虚拟试穿网络(MG-VTON)在将期望的衣服适配到人中并操纵姿势之后生成新的人图像MG-VTON由三个阶段构成:1)提出了一种条件人体解析网络,该网络既匹配期望的姿势又匹配期望的衣服形状; 2)深度变形生成对抗网络(Warp-GAN),其将期望的衣服外观变形到合成的人类解析图中,并消除输入的人类姿势和期望的姿势之间的错位问题; 3)细化渲染网络基于多姿势合成掩模恢复衣服的纹理细节并去除人工制品。在常用数据集和我们新收集的最大虚拟试穿基准上进行的大量实验表明,我们的MG-VTON在定性和定量方面都明显优于所有最先进的方法,显示出有希望的虚拟试穿性能。通讯作者是殷健图1.我们模型的一些结果衣服和姿势图像显示在第一行中,而人物图像显示在第一列中。由衣服和姿势操纵的结果显示在其他列中。1. 介绍虚拟试穿是指通过虚拟的方式让用户试穿衣服以确认尺码或款式,具有巨大的商业价值,在计算机视觉中引起了广泛的关注已经提出了许多虚拟试穿系统[13,38],并且在姿势固定时取得了有希望的结果然而,这些方法通常只学习以衣服为条件来当给定不同的姿势时,它们往往会合成模糊的图像,丢失大部分细节和风格,如图4所示。9027与此同时,其他现有的作品[22,29,45]利用3D模型和测量来保持身体形状并生成视觉逼真的结果。然而,它需要专业知识和巨大的劳动力成本来收集3D标注数据和建立3D模型。当人的3D模型无法获得或不准确时,这些方法也将变得不适用。为了解决这些限制,我们提出了一个实际的尝试任务,允许用户控制的衣服和姿势没有任何3D注释。给定人物图像、期望的衣服和期望的姿势,我们生成穿着具有保留的纹理外观的新衣服的人物图像,并且同时重建姿势,如图1所示从固定姿势虚拟试穿前进到多姿势试穿任务的挑战来自于必须同时学习目标衣服的翘曲和人类姿势的操纵的事实。在没有明确地分解两者并对外观、衣服和姿势之间的内在相互作用建模的情况下,如在那些先前的方法[13,38,47]中的基于图像的端到端解决方案将无法解开姿势和外观空间,通常导致模糊伪影。针对上述问题,本文提出了一种新的多姿态引导虚拟试穿网络(MG-VTON),该网络能够在输入图像中拟合出所需的服装并进行姿态调整后生成一幅新的人物图像。我们的MG-VTON是一个具有生成对抗学习的多阶段框架。具体而言,我们设计了一个姿势服装引导的人类解析网络,以估计目标图像的合理人类解析,条件是来自源图像的信息(包括近似的身体形状,面部掩模和头发掩模),以及期望的衣服和目标姿势。源图像中人体部位的精确区域可以有效地指导基于合成的人体解析图,然后使用几何匹配模型来扭曲目标衣服,并将其无缝地贴合到人身上。此外,我们 设 计 了 一 个 深 度 Warping 生 成 对 抗 网 络 ( Warp-GAN)来合成粗糙的结果,减轻了由于不同姿势和衣服外观的多样性而造成的大的不对齐。最后,我们提出了一个细化网络,利用多姿态合成掩模来恢复纹理细节,并减轻由参考姿态和目标姿态之间的大的不对准所造成的伪影。为了证明我们的模型,我们收集了一个新的数据集,命名为MPV,通过收集不同的衣服图像和个人图像与不同的姿势从同一个人。此外,我们还在Deep-Fashion [48]数据集上进行实验以进行评估。根据对象评 价 方 案 [39] , 我 们 在 Amazon Mechanical Turk(AMT)平台上进行了人体主观研究。定量和定性结果均表明,我们的方法实现了有效的性能和具有吸引人的细节的高质量图像。我们工作的主要贡献概述如下:• 我们引入了一个新的任务,虚拟试穿条件下的多个姿势,并收集了一个新的数据集,涵盖不同的姿势和各种衣服。• 我们提出了一种新的多姿态引导虚拟试穿网络(MG-VTON),通过解开衣服出现的在多个阶段中的姿势和姿态操纵。具体来说,我们提出了一个姿势服装引导的人类解析网络,首先合成人类解析与所需的衣服和姿势,有效地指导虚拟试穿,以实现合理的结果,通过正确的区域部分。• 我们设计了一个Warp-GAN,它集成了人体解析和几何匹配,以减轻由于不同姿态之间的不对齐而导致的模糊问题。• 进一步提出了一种姿态指导的细化网络,根据不同的姿态自适应地控制合成掩模,学习恢复细节,去除伪影。2. 相关工作生成对抗性网络(GAN)。GANs [10]由两个网络组成,其中识别器学习在合成图像和真实图像之间进行分类,而生成器则试图欺骗识别器。现有的作品已经研究了它与其他生成模型的联系[15,28],并将该方法应用于各个领域,例如风格转移[17,46,20],图像修复[42,12],视频合成[6]和文本生成[14,44,43]。 受GANs这些令人印象深刻的结果的启发,我们还应用对抗性损失来利用GANs的虚拟试穿方法。人物图像合成。基于目标骨架的人脸引导方法[41]生成人物形象条件反射。PG 2 [25]应用了由粗到细的框架,该框架由粗阶段和精阶段组成。工作[26]采用新的分解策略进一步改善了结果deformableGAN[35]和[1,11,5]分别尝试使用粗矩形区域上的变换来缓解不同姿态之间的未对准问题并扭曲部分。[16,7]在学习生成模型时增加了结构化的人体约束。V-UNET [8]引入了一个变分U-Net [32],通过用stickman标签重构形状来合成大小的人物图像。工作[30]直接应用CycleGAN [46]来操纵姿势。然而,所有这些作品都未能保存9028图2.所提出的MG-VTON的概述。第一阶段:我们首先将参考图像分解为三个二进制掩码。然后,我们将它们与目标服装和目标姿势连接起来,作为条件解析网络的输入,以预测人类解析图。第二阶段:接下来,我们扭曲衣服,从参考图像中删除衣服,并将它们与目标姿势和合成解析相连接,以使用Warp-GAN合成粗略结果第三阶段:我们最后用细化渲染来细化粗糙的结果,调整扭曲的衣服,目标姿势和粗糙的结果。纹理的一致性。这背后的原因是他们忽视了人类解析、服装和姿势之间的相互作用。人类的句法分析可以指导生成器在精确的区域层次上合成图像,保证人体结构的连贯性。虚拟试穿。VITON [13]和CP-VTON [38]都提出了一种基于图像的虚拟试穿网络,可以通过使用翘曲策略将所需的衣服转移到人身上。VITON直接通过形状上下文TPS [2]计算变换映射。CP-VTON引入了一种学习方法来估计变换参数。FashionGAN [47]学会了根据描述不同服装的句子在人的输入图像上生成新衣服。然而,上述方法都是在固定的姿态下合成人的图像,限制了其在真实感虚拟试衣仿真中的应用。ClothNet [23]提出了一种基于图像的生成模型,以根据颜色生成新衣服。CAGAN [18]提出了一种条件类比网络来合成以成对衣服为条件的人物图像,这限制了实际的虚拟试穿场景。[29,37]自动捕捉身体的形状。[34]提出了一种需要三维人体外形的虚拟试衣系统,该系统采集标注比较费力本文介绍了一种通过对抗性学习来学习合成具有不同姿势的人的新服装的图像的有效方法3. MG-VTON我们提出了一种新的多姿态引导虚拟试穿网络(MG-VTON),通过操纵衣服和姿态来学习合成新的给定输入的人图像、期望的衣服和期望的姿势,所提出的MG-VTON旨在通过操纵期望的衣服和姿势来产生人的新图像。受从粗到精的思想[13,25]的启发,我们采用了一种轮廓-粗-精策略,将该任务分为三个子任务,包括条件解析学习、Warp-GAN和细化渲染。图2示出了MG-VTON的概述我们首先应用姿态估计器[4]来估计姿态。然后,我们将姿势编码为18个热图,其中在半径为4像素的圆中填充1,其他为0。人类解析器[9]用于预测人类解析,该人类解析用于提取面部、头发和身体形状的二进制掩码。在VI- TON [13]之后,我们将身体的形状降采样到较低的分辨率(16×12),并直接将其调整为原始分辨率(256×192),这有助于减轻因体型变化而造成的伪影。3.1. 条件解析学习为了在操纵衣服和姿势的同时保持人物图像的结构一致性,我们设计了一个姿势-衣服引导的人物解析网络,条件是衣服的图像、姿势热图、身体的近似形状、面部的掩模和头发的掩模。如图4所示,基线方法未能保留人的某些部分(例如,(裤子的颜色和发型)因为他们直接把人物图像和衣服图像输入到模型中。在这项工作中,我们利用人类解析映射来解决这些问题,这可以帮助生成器在零件级上合成高质量的图像。形式上,给定人I的输入图像、衣服C的输入图像和目标姿态P,该阶段学习′预测以衣服C为条件的人类解析图St和姿态P。 如图3(a)所示,我们首先提取分别通过使用人类解析器[9]和姿势估计器[4]来确定头发掩模Mh、面部掩模Mf、体型Mb和目标姿势P。然后,我们将它们与衣服的图像连接起来,作为条件的输入′解析网络 St的推论可以公式化为:9029图3.所提出的MG-VTON的网络架构。(a)(b):条件解析学习模块由预测人类解析的姿势-服装引导网络组成,这有助于生成高质量的人物图像。(c)(d):Warp-GAN通过使用扭曲特征策略来学习生成逼真的图像,这是由于姿势的多样性导致的未对准。(e)细化渲染网络学习姿势引导的合成遮罩,以增强合成图像的视觉质量。(f)几何匹配网络学习估计以身体形状和衣服掩模为条件的变换映射。最大化后验概率:′p(St|(Mh,Mf,Mb,C,P))= G(Mh,Mf,Mb,C,P).(一)我们采用一个类ResNet网络作为生成器G来建立条件分析模型。我们直接从pix2pixHD [39]中采用了pixD。我们应用L1损失来进一步提高性能,这是为了生成更平滑的结果而进行的尝试[41]。受LIP [9]的启发,我们应用像素级softmax损失来鼓励生成器合成高质量的人类解析图。因此,我们将条件解析学习的问题表述为:最小最大F(G,D)将衣服外观合成到合成的人体解析图中,这消除了输入人体姿势和期望人体姿势之间的不对准问题。与可变形GAN [35]和[1]不同,我们通过使用仿射和TPS(薄板样条)[3]变换来扭曲瓶颈层的特征图,而不是仅使用仿射直接处理像素。由于[31]的泛化能力,我们直接使用[31]的预训练模型来估计参考解析和合成解析之间然后,我们通过使用这个变换映射来扭曲w/o衣服参考图像。如图3(c)和(d)所示,所提出的深度扭曲网络由Warp-GAN生成器组成G曲速和曲速GAN超光速曲速 公司现采用国际G D=EM,C,P 数据[log(1−D(G(M,C,P),M,C,P))]几何匹配模块对服装图像进行变形,在第3.4节中描述形式上,我们把变形的衣服+ESt,M,C,Pp数据[logD(St,M,C,P)](二)图像C,w/o衣服参考图像I,焦油-+E[S]W- G(M,C,P)]不穿衣服St、M、C、PPP数据t1+ESt,M,C,Pp数据[L解析(St,G(M,C,P))],得到姿态P,合成的人解析S t 如─对Warp-GAN生成器进行了仿真,并对仿真结果进行了I=G经纱 (Cw′,Iw/oclothes,P,St). 受启发[19,13,24],其中M表示Mh、Mf和Mb的级联。lossL解析表示逐像素softmax loss [9]。St表示地面实况人类解析。p数据表示实际数据的分布。3.2. Warp GAN我们用感知损失来衡量预训练模型中的高级特征,这鼓励生成器合成高质量和逼真的图像。我们将感知损失公式化为:Σn由于像素的未对齐会导致生成模糊的结果[35],因此我们引入了一个深度Warping Gen,Lperceptual(I)=i=0时αi<$φi(I<$)−φi(I)<$1,(39030)交互式对抗网络(Warp-GAN)扭曲de,其中φi(I)表示第i(i=0,1,2,3,4)层fea。9031真实图像I的预训练网络φ中的真实图。我们使用预训练的VGG19 [36]作为φ,并对φ中最后五层特征图的L1范数进行加权求和,以表示图像之间的感知损失。αi控制每层的重量损失。此外,在pixp2pixHD [39]之后,来自不同层的不同尺度的特征图增强了图像合成的性能,我们还引入了特征损失并将其公式化为:ΣnL特征(I,I)=γi<$Fi(I)−Fi(I)<$1,(4)i=0时其中Fi(I)表示训练的D扭曲的第i(i=0,1,2)层特征图。γi表示相应层的L1损失的权重此外,我们还应用对抗损失Ladv[10,27]和L1损失L1[41]来提高性能。我们设计了一个重量和损失作为G翘曲的损失,这使得-鼓励Gwarp在不同方面合成逼真和自然我们将其公式化为:LG=λ1Ladv+λ2L感知+λ3L特征+λ4L1,(5)3.4. 几何匹配学习受[31]的启发,我们采用卷积神经网络学习变换参数,包括特征提取层、特征匹配层和变换参数估计层。如图3(f)所示,我们将衣服图像的掩模和身体形状的掩模作为输入,其首先通过特征提取层。然后,我们通过使用匹配层来预测相关图。最后,我们应用一个回归网络估计TPS(薄板样条)[3]变换参数的衣服图像直接基于相关图。形式上,给定衣服C及其掩模的输入图像,C掩码,在条件分析学习阶段之后,我们获得近似的身体形状Mb和syn-合成人的衣服面具解析这个子任务的目的是学习具有参数θ的变换映射函数T,以扭曲衣服C的输入图像。由于合成的衣服看不见,但有合成的衣服面具,我们学习原始衣服面具C面具和合成的衣服面具之间的映射。经纱大小的衣服面具Cm是一个很容易的身体形状Mb。因此,在本发明中,其中λi(i=1,2,3,4)表示对应的权重分别亏损。3.3.优化渲染在粗处理阶段,虽然可以保留人的身份信息和形状,但由于衣服图像的复杂性,纹理将变形的衣服直接粘贴到目标人上可能导致产生伪影。由于姿势的多样性,学习扭曲的衣服图像和粗略结果之间的合成掩模也会生成伪影[13,38]。为了解决上述问题,我们提出了一个细化渲染利用多姿态合成掩模恢复纹理细节,并删除一些文物。形式上,我们将Cw定义为通过几何匹配学习模块获得的翘曲衣服的图像,Iw定义为由Warp-GAN生成的粗略结果,P作为目标姿势热图,Gp作为细化渲染的生成器。如图3(e)所示,将Cw、Ip和P作为输入,Gp学习预测朝向多姿态的a合成遮罩并合成渲染结果。我们将细化渲染的结果公式化为:Ip=Gp ( Cw , I, P ) <$Cw+ ( 1−Gp ( Cw , I,P))<$I,(6)其中,n表示逐元素矩阵乘法。我们还采用感知损失来增强性能,Gp的目标函数可以写为:Lp=µ1Lperceptual(Ip ,I )+µ21−Gp(Cw,I,P)1, (七)其中μ1表示感知损失的权重,μ2表示掩码损失的权重。我们将几何匹配学习的目标函数公式化为:Lgeomatchingg(θ)=<$Tθ(Cmask)−C<$mask<$1,(8)因此,翘曲的衣服Cw可以用公式表示为:Cw=Tθ(C),这有助于解决未对准的问题和学习组合掩模中的组合掩模。上文第3.2和3.3分节。4. 实验在本节中,我们首先与其他方法进行直观的比较,然后定量地讨论结果。我们还进行了人类感知研究和消融研究,并在我们新收集的数据集MPV上进一步训练我们的模型,在Deepfashion上测试它以验证生成能力。4.1. 数据集由于VI-TON [13]和CP-VTON [38]中使用的数据集中的每个人的图像只有一个固定的姿势,我们从互联网上收集了新的数据集,名为MPV,其中包含35,687个人的图像和13,524个衣服图像。MPV中的每个人图像具有不同的姿势。图像分辨率为256 ×192。我们提取了同一个人穿着同样衣服但姿势不同我们进一步将它们分为训练集和测试集,分别具有52,236和10,544个请注意,我们用不同的衣服和不同的姿势来洗牌测试集,以进行质量评估。DeepFash- ion [48]只有同一个人在不同的9032图4.在MPV数据集上对不同方法进行视觉比较。注意,前面的方法不能保持裤子和头部的同一性。DeformableGAN + CP-VTON是我们首先使用DeformableGAN [35]改变姿势,然后使用CP-VTON [38]穿衣服的模型。请放大以获得最佳视图。摆姿势,但缺乏服装的形象为了验证所提出的模型的泛化能力,我们从DeepFashion中提取了10,000对衣服,并从MPV的测试集中随机选择衣服图像进行测试。4.2. 评估指标我们采用三种方法来评估所提出的模型,包括主观和 客 观 指 标 : 1 ) 我 们 在 Amazon Mechanical Turk(AMT)平台上执行成对A/B测试,用于人类感知研究。2)我们使用结构相似度(SSIM)[40]来测量合成图像和地面真实图像之间的相似性。在这项工作中,我们采取的目标图像(同一个人穿着同样的衣服)作为地面真实图像用于比较与合成图像计算SSIM。3)我们使用Inception Score(IS)[33]来衡量生成图像的质量,这是验证图像生成性能的传统方法4.3. 实现细节设置. 我们使用ADAM优化器[21]分别训练条件解析网络,Warp- GAN,细化渲染和几何匹配网络200,15,5,35 epoch,批量大小为40,学习率为0.0002,β1=0。5,β2=0。999 我们使用两个NVIDIA Ti-Ubuntu 14.04上的XP GPU和Pytorch平台。架构如图3所示,MG-VTON的每个生成器都是一个类似ResNet的网络,它由三个下采样层,三个上采样层和九个残差块组成,每个块有三个卷积层,3x 3滤波器内核,后面是浴范数层和Relu激活函数。对于图像处理器,我们采用与pix2pixHD [39]相同的架构,可以处理不同层次的不同比例的特征图。每个图层都包含四个下采样图层,包括InstanceNorm和LeakyReLU激活函数。4.4. 基线VITON[13]和CP-VTON[38]是最先进的基于图像的虚拟试穿方法,其假设人的姿势是固定的。它们都是利用变形的衣服图像来提高视觉质量,但缺乏生成任意姿态下图像的能力。特别地,VTION直接应用形状上下文匹配[2]来计算变换映射。CP-VTON借用了[31]的想法,使用卷积网络来估计变换映射。此外,我们将最先进的方法DeformableGAN [35]与其他两个基线的CP-VTON结合起来:可变形GAN + CP- VTON和CP-VTON+可变形GAN。Deformable-GAN + CP-VTON首先应用姿势引导网络DeformableGAN将参考图像中的人转换为期望的姿势,然后应用虚拟试穿网络CP-VTON试穿期望的衣服。CP-VTON + DeformableGAN则是先使用CP-VTON进行试戴,再通过DeformableGAN进行姿态的改变。为了获得公平性,我们首先丰富了VITON、CP-VTON和DeformableGAN的输入。然后,我们在MPV数据集上重新训练了VITON,CP-VTON和DeformableGAN,并使用与我们的模型相同的分割(训练集和测试集)。4.5. 定量结果我们对两个基准测试和COM进行了实验,并针对两个最近的相关作品,使用两个广泛使用的度量SSIM和IS来验证图像合成的性能,总结在表中。二、分数越高越好。结果表明,我们提出的方法显着实现更高的分数,并始终优于所有的基线上的两个数据集感谢我们的con-parsing生成器,Warp-GAN的合作,和细化9033表1.对MPV和DeepFashion的人体研究每个单元格列出了我们的MG-VTON优于其他方法的百分比VitonCP-VTON可变形GAN+ CP-VTONCP-VTON+可变形GANMG-VTON(不解析)MG-VTON(无渲染)MG-VTON(不含面罩)MPV百分之八十三点一百分之八十五点九百分之八十九点二99.6%百分之九十八点五百分之八十二点四84.6%DeepFashion88.9%百分之八十三点三百分之九十三点二99.2%百分之九十九84.6%百分之七十五点五表2.比较MPV和DeepFashion。MPV DeepFashion模型SSIM是是氟橡胶[13]0.63952.394 ±0.2052.302 ±0.116CP-VTON [38]0.70542.519 ±0.1071.977 ±0.266可变形GAN + CP-VTON0.69353.354 ±0.0473.130 ±0.054CP-VTON +可变形GAN0.71512.746 ±0.0682.649 ±0.047MG-VTON(不解析)0.75392.578 ±0.1162.556 ±0.056MG-VTON(不带渲染)0.75442.694 ±0.1192.813 ±0.047MG-VTON(不带面罩)0.73323.309 ±0.1373.368 ±0.055MG-VTON(我们的)0.74423.154 ±0.1423.030 ±0.057图5.影响人类分析的质量。在虚拟试穿任务中,人工解析的质量显著影响合成图像的质量。图6.我们的模型在MPV上训练并在DeepFashion上测试了一些结果,DeepFashion合成了逼真的图像,并很好地捕捉了所需的姿势和衣服。渲染。请注意,MG-VTON(w/o渲染)获得了最佳SSIM评分,而DeformableGAN + CP-VTON获得了最佳IS评分,但它们的视觉质量较差9034与MG-VTON(我们的)相比,AMT研究中的得分更低,如表1和图7所示如图4所示,MG-VTON(我们的)比MG-VTON(w/o Render)合成了更逼真的结果,但后者获得了更高的SSIM评分,这也可以在[19]中观察到。因此,我们相信所提出的MG-VTON可以生成高质量的多姿态虚拟试穿的人的图像,具有令人信服的结果。4.6. 定性结果我们将所提出的方法与VITON [13],CP-VTON[38] , DeformableGAN + CP-VTON , CP-VTON +DeformableGAN,MG-VTON(w/o Parsing),MG-VTON(w/o Render)和MG-VTON(w/o Mask)进行了视觉比较,如图4所示,这表明我们的模型生成了具有令人信服的细节的合理结果。基线方法虽然合成了衣服的一些细节,但对于多姿态虚拟试穿场景来说,距离实际应用还有很大特别是,它们不能保持服装的身份和质地。此外,在更换上身服装的同时,也不能保留下半身的服装。此外,基线方法不能很好地合成发型和人脸,导致图像模糊.究其原因,是由于它们忽略了虚拟试穿任务中参考图像的高级语义以及参考图像与目标姿态之间的关系。与之不同的是,本文采用服装和姿势引导网络生成目标人体解析,有助于缓解下半身服装和发型无法保存的此外,我们还设计了一个具有对抗性损失的深度翘曲此外,我们捕捉的姿态之间的相互作用,并提出了一个多姿态的基础上改进的网络,学习消除噪声和文物。4.7. 人类感知研究我们对MPV和Deepfash进行了人体研究-离子[48],以评估所生成图像的视觉质量。与pix 2 pixHD[39]类似,我们在Amazon Mechanical Turk(AMT)平台上部署了A/B测试。那里有1,600张图片,大小为256×192。我们已经展示了三张图片作为参考(参考图片,衣服,姿势),两个合成的图像,可选择拾取。工人们有两个选择,有无限的时间来选择一个图像看起来更真实和自然,考虑到9035图7. MPV数据集的消融研究。放大查看详细信息。所需的姿势和衣服,如图8所示。我们利用人的分析代替直接的人的图像,并且我们可以以一种更简单和更有效的方式合成人的图像。此外,我们还介绍了一个实验,该实验在我们收集的数据集MPV上进行训练,并在DeepFashion数据集上进行测试,以验证所提出的模型的泛化能力。如图6所示,我们的模型很好地捕捉了目标姿势和衣服。图8.服装和姿势对人体的影响分析,即通过姿势和服装进行操纵。目标衣服和姿势被捕获得有多好,以及人的身份和外貌是否被保留。具体地,工作人员被示出参考图像、目标衣服、目标姿势和混洗图像对。我们从100个不同的工人那里收集了8,000个比较。如表1所示,与基线方法相比,我们的模型合成的图像获得了更高的人类评估分数,并表明了高质量的结果。4.8. 消融研究我们进行了消融研究,以分析我们的方法的重要组成部分。从桌子上看。2、MG-VTON(w/o Mask)取得最好成绩。但是,如图4所示在图7和图4中,我们进一步评估了我们的MG-VTON的组件的效果,即人类解析、多姿态合成掩码丢失、感知丢失和细化渲染阶段中的姿态以及Warp-GAN中的扭曲模块对于增强性能是重要的。我们还进行了一个实验,以验证我们的MG-VTON中的人类解析的效果如图5所示,人机解析的质量与结果的质量之间存在正相关为了进一步验证人工合成句法分析的效果,我们对人工合成的句法分析进行了人工操作,5. 结论在这项工作中,我们首次尝试研究多姿态引导的虚拟试穿系统,它使衣服转移到一个人的形象在不同的姿态。我们提出了一个MG-VTON生成一个新的人的图像后,将所需的衣服到输入的图像和操纵人体姿势。我们的MG-VTON将虚拟试穿任务分解为三个阶段,引入人类解析模型来指导图像合成,Warp-GAN通过减轻由不同姿势引起的错位来学习合成真实感图像,并且细化渲染恢复纹理细节。我们构建了一个新的数据集,用于多姿势引导的虚拟试穿任务,该任务覆盖具有更多姿势和服装多样性的人物图像。实验表明,我们的MG-VTON显着- cantly优于现有的方法,定性和定量的有前途的性能。确认本工作得到了国家自然科学基金(U1611264,61472453 , U1401256 , U1501252 , U1711261 ,U1711262,61602530,61836012,国家高层次人才特别支持计划(万人计划)、广东省自然科学基金(批准号:61622214)、广州市大数据与智能教育重点实验室(201905010009)、国家高层次人才特别支持计划(万人计划)、广东省自然科学基金(批准号:61622214)、广东省自然科学基金(批准号:2017A030312006,广东省重点&研发计划(2018B010107005)。9036引用[1] Guha Balakrishnan,Amy Zhao,Adrian V Dalca,FredoDu- rand,and John Guttag.合成人类在看不见的姿势的图像。在CVPR,2018年。[2] Serge Belongie Jitendra Malik和Jan Puzicha。使用形状上下文的形状匹配和物体识别。IEEE TPAMI,24(4):509[3] 弗雷德湖布克斯坦主要经纱:薄板样条与变形分解。IEEE TPAMI,11(6):567[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。[5] 董浩业、梁晓丹、龚克、赖汉江、朱佳、尹建。用于姿势 引 导 的 人 物 图 像 合 成 的 软 门 控 Warping-GAN 在NeurIPS,第474-484页[6] Haoye Dong , Xiaodan Liang , Xiaohui Shen , BowenWu,Bing-Cheng Chen,and Jian Yin.流导航翘曲甘视频虚拟试穿。在ICCV,2019年。[7] Haoye Dong,Xiaodan Liang,Chenxing Zhou,HanjiangLai,Jia Zhu,and Jian Yin.用于人物图像合成的部分保持姿态操作在ICME,第1234-1239页[8] PatrickEsse r,EkaterinaSutte r,andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在CVPR,2018年。[9] 龚克,梁晓丹,沈晓慧,林亮。看人:自我监督结构敏感学习和人类解析的新基准。在CVPR,2017年。[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。[11] Xintong Han,Xiaojun Hu,Weilin Huang,and MatthewR. Scott. Clothflow:一个基于流的服装人物生成模型。在ICCV,2019年。[12] 韩欣彤,吴祖轩,黄伟林,Matthew R.Scott和Larry S.戴维斯兼容多样的时尚图像修复。在ICCV,2019年。[13] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis.Viton:一个基于图像的虚拟试穿网络。在CVPR,2018年。[14] 胡志廷,杨子超,梁晓丹,鲁斯兰·萨拉胡特-迪诺夫,邢鹏.控制文本的生成ICML,2017。[15] Zhiting Hu,Zichao Yang,Ruslan Salakhutdinov,andEric P Xing.关于统一深层生成模型。在ICLR,2018年。[16] 胡志婷,杨子超,Ruslan R Salakhutdinov,秦连辉,梁晓丹,董浩业,邢鹏.具有可学习知识约束的深层生成模型。NeurIPS,2018。[17] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。[18] 尼古拉·杰切夫和乌尔斯·伯格曼 条件类比可以:在人物图片上交换时尚文章。ICCVW,2(6):8,2017.[19] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。ECCV,第694-711页,2016年[20] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、JungkwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。arXiv预印本arXiv:1703.05192,2017。[21] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[22] 佐拉·莱纳丹尼尔·克里默斯托尼·董深皱纹:精确逼真的服装造型。在ECCV,2018。[23] Christoph Lassner , Gerard Pons-Moll , and Peter VGehler.穿着衣服的人的生成模型。在CVPR,2017年。[24] Chri s tianLedig , LucasTheis , FerencHus za'r , Jo seCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,Alykhan Tejani,Johannes Totz,ZehanWang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR,2017年。[25] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。NeurIPS,2017。[26] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.解纠缠的个人图像生成。在CVPR,2018年。[27] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。[28] Shakir Mohamed和Balaji Lakshminarayanan。 在隐式生成 模 型 中 学 习 。 arXiv 预 印 本 arXiv : 1610.03483 ,2016。[29] Gerard Pons-Moll、Sergi Pujades、Sonny Hu和Michael JBlack。Clothcap:无缝的4D服装捕捉和重新定位。ACM Transactions on Graphics (TOG),36(4):73,2017。[30] Albert Pumarola 、 Antonio Agudo 、 Alberto Sanfeliu 和Francesc Moreno-Noguer。任意姿态的无监督人物图像合成。在CVPR,2018年。[31] I. 罗科河 Arandjel o v ic′和J. S i vic. 几何匹配的通用神经网络结构。在CVPR,2017年。[32] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络在MICCAI,第234-241页[33] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford、Xi Chen和Xi Chen。改进的gans训练技术。InNeurIPS,2016.[34] Masahiro Sekine , Kaoru Sugita , Frank Perbet , BjornStenger,and Masashi Nishiyama.通过单次拍摄体型估计进行虚拟拟合。在3D身体扫描技术国际会议上,第406-413页[35] AliaksandrSiarohin 、 EnverSangineto 、 StephaneLathuiliere和Nicu Sebe。用于基于姿势的人类图像生成的可变形gans。arXiv预印本arXiv:1801.00055,2017年。[36] Karen Simonyan和Andrew Zisserman用于大规模图像识9037别的非常深的卷积网络2015年,国际会议。9038[37] Yu Sun,Yun Ye,Wu Liu,Wenpeng Gao,YiLi Fu,and Tao Mei.通过骨架分解表示从单目图像中恢复人体网格。在ICCV,2019年。[38] Bochao Wang,Huabin Zhang,Xiaodan Liang,YiminChen,and Liang Lin.基于图像特征保持的虚拟试穿网络。在ECCV,2018。[39] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR,2018年。[40] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and Eero
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功