M3D-VTON：一种高效的3D虚拟试穿方法，恢复精确的身体形状和逼真的纹理颜色，采用2D和3D方法相结合的优势，引入自适应预对齐策略和深度梯度约束，构建了新的3D虚拟试穿数据集MPV-3D

161 浏览量更新于2023-10-13 收藏 20.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

M3D-VTON: A Monocular-to-3D Virtual Try-On NetworkFuwei Zhao1, Zhenyu Xie1, Michael Kampffmeyer2, Haoye Dong1Songfang Han3, Tianxiang Zheng4, Tao Zhang4, Xiaodan Liang1∗1Shenzhen Campus of SYSU, 2UiT The Arctic University of Norway, 3UC San Diego, 4Momo{zhaofw@mail2,xiezhy6@mail2,donghy7@mail2,xdliang328@mail}.sysu.edu.cnmichael.c.kampffmeyer@uit.no,s5han@eng.ucsd.edu,{zhengtianxiang1128,allenxuejian}@gmail.comPerson3D Try-On ResultClothingPerson3D Try-On ResultClothingFigure 1: Results of the proposed Monocular-to-3D virtual try-on network. Given the target clothing image and the referenceperson image, our M3D-VTON can reconstruct the 3D try-on mesh with the clothing changed and person identity retained.AbstractVirtual 3D try-on can provide an intuitive and realisticview for online shopping and has a huge potential com-mercial value. However, existing 3D virtual try-on meth-ods mainly rely on annotated 3D human shapes and gar-ment templates, which hinders their applications in prac-tical scenarios.2D virtual try-on approaches provide afaster alternative to manipulate clothed humans, but lackthe rich and realistic 3D representation. In this paper, wepropose a novel Monocular-to-3D Virtual Try-On Network(M3D-VTON) that builds on the merits of both 2D and 3Dapproaches. By integrating 2D information efﬁciently andlearning a mapping that lifts the 2D representation to 3D,we make the ﬁrst attempt to reconstruct a 3D try-on meshonly taking the target clothing and a person image as inputs.The proposed M3D-VTON includes three modules: 1) TheMonocular Prediction Module (MPM) that estimates aninitial full-body depth map and accomplishes 2D clothes-person alignment through a novel two-stage warping proce-dure; 2) The Depth Reﬁnement Module (DRM) that reﬁnesthe initial body depth to produce more detailed pleat andface characteristics; 3) The Texture Fusion Module (TFM)that fuses the warped clothing with the non-target body partto reﬁne the results. We also construct a high-quality syn-thesized Monocular-to-3D virtual try-on dataset, in whicheach person image is associated with a front and a backdepth map. Extensive experiments demonstrate that the pro-posed M3D-VTON can manipulate and reconstruct the 3Dhuman body wearing the given clothing with compelling de-tails and is more efﬁcient than other 3D approaches. 11. Introduction3D virtual try-on, the process of ﬁtting a speciﬁc clothingitem onto a 3D human shape, has attracted increasing atten-tion due to its promising research and commercial value.Recently, researchers’ interest has moved from physics-1code will be available at https://github.com/fyviezhao/M3D-VTON13239based [2, 5, 6, 42, 13, 15] or scan-based approaches [37, 27,44] to learning-based 3D try-on methods [3, 35, 31, 55, 8],dressing a 3D person directly from 2D images and gettingrid of costly physics simulation or 3D sensors. However,most of these learning methods [3, 35, 31] build on theparametric SMPL [29] model and depend on some prede-ﬁned digital wardrobe [3], limiting their real-world applica-bility. Moreover, the inference speed of these existing 3Dapproaches is still insufﬁcient, largely due to the optimiza-tion cost introduced by the parametric 3D representation.Related to this, research on image-based virtual try-onaims to ﬁt an in-shop clothing onto the target person and hasbeen explored intensively [17, 48, 52, 16, 51, 22, 9]. Mostof these works utilize the Thin Plate Spline (TPS) trans-formation [4] to achieve the clothes-person alignment andfusion, obtaining photo-realistic try-on results. These 2Dmethods are attractive due to their small computation costand extensive amount of available training data on shoppingwebsites. Nevertheless, their try-on results are in 2D imagespace and ignore the underlying 3D body information, lead-ing to inferior capability of representing the human body.To address the above limitation of 2D/3D approaches,we propose a light-weight yet effective Monocular-to-3DVirtual Try-On Network (M3D-VTON), which integratesboth 2D image-based virtual try-on and 3D depth estima-tion to reconstruct the ﬁnal 3D try-on mesh. M3D-VTONconsists of three modules as shown in Fig. 2.The ﬁrstpart is the Monocular Prediction Module (MPM), which uti-lizes a single network to serve the following three purposes:1) regressing the parameters for the TPS [4] transforma-tion; 2) predicting the conditional person segmentation thatis compatible with the in-shop clothing; 3) estimating thefull-body depth map. Different from the warping operationin existing 2D try-on methods, MPM ﬁrst utilizes a novelself-adaptive afﬁne transformation to transform the in-shopclothing to the appropriate size and location before the non-rigid TPS deformation. The second part is the Depth Re-ﬁnement Module (DRM), which jointly uses the estimateddepth map, the warped clothing, the non-target body partand the image gradient information to enhance the geomet-ric details in the depth map. In particular, DRM introducesa depth gradient loss to better exploit the high-frequencydetails in the inputs. Finally, the Texture Fusion Module(TFM) leverages the 2D information (e.g., warped clothing)and the 3D information (e.g., estimated full-body depth) tosynthesize the try-on texture. The collaborative use of the2D information and the body depth map provides instruc-tive information for the synthesizing process. Given the es-timated 2D try-on texture and the reﬁned body depth map,M3D-VTON obtains a colored point cloud and reconstructsthe ﬁnal textured 3D virtual try-on mesh.We conduct extensive experiments on the new MPV-3Ddataset, which is constructed by running PIFuHD [41] on132400与其他3D试穿方法相比，M3D-VTON在恢复详细的身体形状和逼真的纹理颜色的同时更具计算效率，相对于纯3D方法而言。我们的主要贡献是：0•我们是第一个利用2D和3D方法的优点来解决单目到3D试穿问题的方法。我们的方法在比纯3D方法更快的同时，重建了逼真的3D有衣物人体。0•为了促进衣物与参考人物图像之间更准确的几何匹配，我们引入了一种自适应预对齐策略。0•我们利用图像中的阴影信息，并结合一种新颖的深度梯度约束，引导网络捕捉和恢复复杂的几何变化。0•我们构建了一个新的合成的3D虚拟试穿数据集MPV-3D，可以促进单目到3D虚拟试穿领域的发展。广泛的实验证明了我们的M3D-VTON惊人的形状恢复和纹理生成能力。02. 相关工作02D虚拟试穿。2D虚拟试穿旨在将目标服装转移到参考人物身上。一系列的工作[17, 48, 52, 51, 9, 34, 22,19]利用非刚性TPS变换[4]获得了吸引人的虚拟试穿结果。其中大部分工作都是基于VITON[17]，该方法提出了一个由粗到细的架构，首先通过TPS对商店内的服装进行变形，然后渲染最终的试穿结果。CP-VTON[48]进一步训练了一个几何匹配模块，并使用合成掩模来更好地融合衣物和人物。VTNFP[52]利用身体分割作为合成指导，产生更清晰的皮肤纹理。ACGPN[51]提出了对TPS参数的二阶约束，以稳定变形过程。我们的方法不仅继承了上述方法的优点，还能生成逼真的3D有衣物人体，为单目到3D虚拟试穿提供了经济实用的解决方案。3D虚拟试穿。与3D人体重建和表演捕捉的任务相比[54, 14,11, 39, 53, 24, 36, 26, 21,1]，3D虚拟试穿由于服装的复杂变形更具挑战性。PI-FuHD[41]提供了一个高保真度的单视图无纹理3D人体重建流程，可以产生逼真的服装细节，但不能进行服装转移。MGN[3]可以预测参数化的服装几何形状，并将其叠加在SMPL[29]模型上。由于分层表示，MGN可以适应不同的身体形状和姿势，但仅限于其预定义的数字衣柜中的服装。DeepFashion3D[55]提供了更多的3D服装数据，以实现更具挑战性的服装重建。Pix2Surf [32]也旨在转移更多的This module plays a preparatory role in the proposedM3D-VTON. It provides constructive guidance for theother two modules by warping the in-shop clothing, predict-ing a conditional person segmentation, and by estimating abase 3D shape using a multi-target network. All these taskscan be accomplished by utilizing the features extracted fromthe target clothing C and the clothing-agnostic person rep-resentation A. A consists of a 25-channel pose map (ob-tained by applying OpenPose [7] on person image I), a 3-channel unchanged person part (Ip) (obtained by applying[28] on I), and a 1-channel coarse person mask that havebeen concatenated. We explain the three sub-branches ofMPM in the following sections.Clothing Warping Branch. Inspired by [38], the ﬁrstbranch of the MPM utilizes an end-to-end trainable geo-metric matching network to achieve the texture-preservingclothing-person alignment. Speciﬁcally, as part of the geo-metric matching network, the features extracted by the en-coders EC and EA are fed into the feature correlation layerto calculate the matching score, which is used by the re-gressor R to predict the TPS transformation [4] parametersθ (see Fig. 2). However, directly estimating θ is non-trivialsince there is a huge gap in size between the in-shop cloth-ing C and the arm-torso region of the reference person Iat.We therefore extract Iat from I by applying person seg-mentation [28] and design a self-adaptive pre-alignmentprocedure to transform C to the proper position and sizebefore conducting the TPS transformation. We formulatethe procedure as an afﬁne transformation:Caff =�R00R�C +�xcIat − xcCycIat − ycCR =hatIhC ,wChC ⩾ watIwatIwC ,wChC <132410方法 CC 3D FBT SG ED FI0VITON [17] Y N N N Y Y CP-VTON [48] Y N N N Y YACGPN [51] Y N N Y Y Y0PIFuHD [41] N Y N N N Y MGN [3] Y Y Y Y N NDeepFashion3D [55] N Y N Y N - Pix2Surf [31] Y Y NN Y Y0Deephuman [45] N Y N Y N Y FACSMILE [43] N N YN Y N NormalGAN [49] N Y Y N N Y0M3D-VTON（我们的方法） Y Y Y Y Y Y0表1：M3D-VTON与相关工作在属性方面的比较，使用是(Y)或否(N)表示。前三行是2D试穿方法，中间行是3D试穿/重建方法，底部行除了我们的方法外都是人体深度估计方法。根据以下分类：可更换的衣物（CC）；穿着的3D人体（3D）；全身纹理（FBT）；语义引导（SG）；易于获取的数据集（ED）；快速推理（FI）。通过学习2D服装轮廓和3D服装表面的UV贴图之间的密集对应关系，将野外服装图像映射到SMPL模型上。然而，DeepFashion3D和Pix2Surf都无法显示身体纹理。此外，几乎所有这些方法都需要一个扫描的3D数据集进行训练，与我们提出的高质量合成数据集相比，这种方法收集起来成本高昂。我们的方法可以恢复有衣物的身体形状和纹理，为3D试穿提供了更实用的解决方案。人体深度估计。最近，提出了非参数化的3D人体重建方法，通过预测深度图来更好地捕捉形状细节。Moulding Humans[10]从单个RGB图像中估计前后深度图，生成无纹理的3D人体。FACSMILE[43]类似，并添加了法向约束来雕刻局部深度细节，但是操作的是裸体，不考虑衣物。DeepHuman[46]也利用法向图来改进估计的深度，但只生成前部身体部分，限制了其实际应用。NormalGAN[49]进一步使用以法向图为条件的对抗学习框架来恢复有纹理的3D人体。然而，NormalGAN需要以昂贵的深度传感器收集的地面真实深度图作为输入。与上述方法相比，我们的M3D-VTON是在高质量的合成数据上训练的，并允许对有衣物的人体进行操作。为了便于比较，表1总结了M3D-VTON和最相关方法的属性。03. M3D-VTON0为了方便进行3D虚拟试穿，我们提出了一种新颖的单目到3D虚拟试穿网络（M3D-VTON），它以服装图像C和人物图像I为输入，重构了一个更换了衣物并保留了人物身份的3D试穿网格O。如图2所示，M3D-VTON由单目预测模块（MPM）、深度细化模块（DFM）和纹理融合模块（TFM）组成。0该模块在提出的M3D-VTON中起到了准备工作的作用。它通过对店内服装进行变形、预测条件人物分割，并利用多目标网络估计基础3D形状，为其他两个模块提供了建设性的指导。所有这些任务都可以利用从目标服装C和与服装无关的人物表示A中提取的特征来完成。A由一个25通道的姿势图（通过在人物图像I上应用OpenPose[7]获得）、一个3通道的不变人物部分（通过在I上应用[28]获得）和一个1通道的粗糙人物掩码组成。我们在以下章节中解释MPM的三个子分支。服装变形分支。受[38]的启发，MPM的第一个分支利用一个端到端可训练的几何匹配网络实现了保持纹理的服装-人物对齐。具体来说，作为几何匹配网络的一部分，编码器EC和EA提取的特征被输入到特征相关层中计算匹配分数，该分数由回归器R用于预测TPS变换[4]的参数θ（见图2）。然而，直接估计θ是非常困难的，因为店内服装C和参考人物Iat的手臂-躯干区域之间存在巨大的尺寸差距。因此，我们通过应用人物分割[28]从I中提取Iat，并设计了一个自适应的预对齐过程，在进行TPS变换之前将C转换到正确的位置和大小。我们将该过程形式化为一个仿射变换：03.1. 单目预测模块0� , (1)0其中Caff表示变换后的服装项目（见图2），(xcIat,ycIat)和(xcC,ycC)分别表示Iat和C的中心。R是通过比较纵横比计算的缩放因子，以确保对齐的服装大于或至少等于手臂-躯干区域：0� �0�0h at I . (2)0对于公式1的直观理解是，首先将C和I在对齐并将C缩放到与I大致相同的大小，以简化TPS变形步骤。图3展示了对齐过程的有效性。132420预对齐0去除衣物0相关0连接0TPS0单0模块（MPM）0模块（DRM）0纹理融合模块（TFM）0图2：提出的M3D-VTON的概述。该流水线包含三个模块，具有以下任务。a）单目预测模块（MPM）：通过去除衣物过程获得与服装无关的人物表示A，通过自适应预对齐和TPS变换将店内服装C变形为变形服装Cw，预测人物分割S，并估计初始双深度图Di。b）深度细化模块（DRM）：给定双深度图Di、变形服装Cw、保留的人物部分Ip及其阴影信息Ig0作为输入，该模块通过引入新的深度梯度约束来细化初始深度图并产生更多的局部细节（如布料褶皱和面部结构）。c）纹理融合模块（TFM）：在MPM的语义布局的指导下，通过融合变形衣物和保留的纹理信息来渲染结果It。一旦It和细化的深度图Dr在空间上对齐，形成RGB-D表示，我们可以直接获得彩色点云并对其进行三角化，以获得穿着目标衣物并保留身份的3D穿衣人物O。0店内服装0TPS变形0预对齐+TPS0变形0店内服装0TPS变形0预对齐+TPS0变形0图3：预对齐策略的验证。所提出的自适应变换提高了变形的质量（如第三列所示）。0给定Caff，我们将Caff和无关衣物的人物表示A传递给几何匹配网络，以回归TPS参数θ，然后将Caff变形为变形衣物Cw。在训练过程中，Cw与地面真实图像Ic（穿着衣物的人物）之间的差异被用来定义变形损失：0Lw = ∥Cw - Ic∥1. (3)0条件分割估计分支。该分支的目标是估计假设穿着所需衣物的人物分割，该分割描绘了参考人物的不同部分（例如，袖子和手臂的边界）。分割掩码提供了对以下纹理融合模块的引导，以减轻皮肤纹理退化或衣物穿透，特别是在自遮挡或大范围衣物变化的情况下。如图2所示，从EC和EA的特征图被级联在一起，并发送到分割解码器DS以生成条件人物分割S。虽然在训练过程中只有成对的（C，I）图像2被馈送到模型中，但由于其无关衣物的表示的好处，网络可以推广到推理时的非配对数据。在训练过程中，我们使用像素级交叉熵[12] Ls 来优化这个分支。0为以下纹理融合模块提供指导，以缓解皮肤纹理退化或衣物穿透，特别是在自遮挡或大范围衣物变化的情况下。如图2所示，从EC和EA的特征图被级联在一起，并发送到分割解码器DS以生成条件人物分割S。虽然在训练过程中只有成对的（C，I）图像2被馈送到模型中，但由于其无关衣物的表示的好处，网络可以推广到推理时的非配对数据。在训练过程中，我们使用像素级交叉熵[12] Ls 来优化这个分支。0深度估计分支。MPM中的最后一个分支旨在估计参考人物的基础3D形状。我们以双深度形式表示3D形状，类似于[10]，即对应于3D人体表示的各自侧面的前后深度图。在这个分支中，级联特征图通过深度解码器DZ上采样，生成前后深度。在训练过程中，损失函数可以表示为：0Lz = ∥Dif - Dgtf∥1 + ∥Dib - Dgtb∥1, (4)02参考人物I穿着衣物C。132430其中Dif和Dib表示估计的前后深度，上标i表示“初始”。Dgtf和Dgtb是相应的地面真实深度图。我们将估计的深度图称为“初始”深度，因为DZ没有足够的线索来推断变形衣物的完整细节，例如褶皱细节。为了获得更精确的3D信息，初始深度图将在深度细化模块中进行改进，这将在第3.2节中解释。我们在一个多目标网络中同时训练这三个分支，并将这三个前述的损失组合起来得到MPM的完整损失：0LMPM = Lw + Ls + Lz. (5)03.2.深度细化模块0MPM的初始估计深度图无法捕捉几何细节（例如，衣物细节，面部特征）的原因有两个：（1）MPM的输入缺乏经过变形的衣物，这对于雕刻衣服褶皱至关重要；（2）MPM中使用的L1深度损失倾向于惩罚估计深度图与地面实际深度图之间的低频差异，导致深度结果过于平滑。为了增加高频深度细节，我们提出了深度细化模块（DRM），它进一步利用变形衣物的亮度变化Cw和保留的人体部分Ip来细化初始深度图。具体而言，我们对Cw和Ip应用Sobel算子，并将梯度图像连接起来得到图像梯度Ig，表示亮度变化。然后，Ig、Cw、Ip和初始深度图Di被送入类似UNet的生成器GZ，以产生细化的深度图Dr。在训练过程中，我们提出了两个特殊的损失函数，以使网络能够捕捉高频细节。首先，受[20]的启发，我们用对数L1版本取代了普通的L1深度损失，这更严重地惩罚接近的点，因此引导估计关注复杂的局部细节，其公式为：0Ldepth =10n0i =1 ln ( ϵi + 1) ，(6)0其中ϵi是第i个深度点的L1损失，n是前/后深度图点的总数。其次，为了进一步加强深度估计并捕捉特别是相邻身体部位边界的几何细节，我们引入了深度梯度损失：0Lgrad =10n0i =1 (ln ( �x ( ϵi ) + 1) + ln ( �y ( ϵi ) + 1)) ，(7)0其中�表示Sobel算子。注意，法线图可以从深度梯度图生成[33]，因此方程7也惩罚了法线图的差异。[49]中指出，法线图通常包含比深度图更详细的几何信息，因此沿法线方向的约束可以帮助恢复几何细节并勾勒相邻身体部位的边界，而深度梯度通常较大。上述两个损失以互补的方式工作，以约束不同类型的错误：a）Ldepth确保沿z方向的一致性，b）Lgrad确保x、y和法线方向的一致性。因此，我们利用上述损失的加权和来训练DRM：0法线图往往包含比深度图更详细的几何信息，因此沿法线方向的约束可以帮助恢复几何细节并勾勒相邻身体部位的边界，而深度梯度通常较大。上述两个损失以互补的方式工作，以约束不同类型的错误：a）Ldepth确保沿z方向的一致性，b）Lgrad确保x、y和法线方向的一致性。因此，我们利用上述损失的加权和来训练DRM：0LDRM = λdepthLdepth + λgradLgrad，(8)0其中λdepth，λgrad分别设置为1.0和0.5。03.3.纹理融合模块0为了为最终的3D人体网格合成逼真的身体纹理，我们提出了纹理融合模块（TFM），它将变形的服装与不变的人体部分融合，以呈现无缝的试穿结果。TFM以保留的人体部分Ip、变形的服装Cw、预测的分割S和估计的初始前视深度Dif作为输入，生成粗糙的试穿结果˜Ic和融合掩码˜M。Ip、Cw和S的2D线索提供了人物外观、服装纹理和语义引导给网络。此外，TFM还考虑了包含沿z轴的不同身体部位的空间信息的身体深度图Dif。在Dif的额外指导下，TFM能够在具有挑战性的自遮挡情况下更精确地合成试穿结果。最后，融合掩码˜M用于将Cw和˜Ic融合到修正的试穿结果It中，可以表示为：It = Cw ⊙ ˜M + ˜Ic ⊙ (1 − ˜M)。0TFM使用感知损失Lperc[23]、修正的试穿结果It与真实人物图像I之间的L1损失Ltry-on，以及估计的融合掩码˜M与真实穿衣人物掩码M之间的L1损失Lmask进行训练。因此，TFM的综合损失可以表示为：0LTFM = Lperc + Ltry-on + Lmask。0最后，我们可以从DRM中反投影出前视图和后视图的深度图，得到3D点云，并使用筛选的Poisson重建方法进行三角剖分[25]。由于TFM的试穿结果与深度图在空间上对齐，因此可以直接用于给网格的前侧上色。至于背面纹理，我们首先使用[47]中提出的快速匹配方法修复试穿图像，用周围头发的颜色填充面部区域，然后将修复的“背面”视图图像镜像到网格的背面纹理上。这使我们成功实现了单目到3D的转换，生成了保留身份的重建的3D穿衣人物。132440服装人物 VITON CP-VTON CP-VTON+ ACGPN M3D-VTON 服装人物 VITON CP-VTON CP-VTON+ ACGPN M3D-VTON0图4：2D试穿任务的定性比较。第一列是输入，第3到第6列是之前的方法，第7列展示了我们提出的方法。04. 实验04.1. 数据集生成0我们基于MPV数据集[9]构建了第一个单目到3D试穿数据集MPV-3D，该数据集包含了涵盖各种姿势和上半身服装的人物图像3。MPV-3D包含了6566个服装-人物图像对（C，I），尺寸为512×320，其中每个人物图像与一个前景和一个背景深度图Df和Db相关联。我们通过在MPV数据集的全身正面人物图像上应用PIFuHD[41]，然后将生成的人体网格正交投影到双深度图上，获得深度图并将其设置为我们的M3D-VTON的伪真实值。数据集进一步分为训练集和测试集，分别包含5632个和934个四元组（C，I，Df，Db），测试集被随机打乱以形成用于质量评估的不配对（C，I）列表。04.2. 实现细节0MPM与DRM和TFM分别进行训练，因为它们为这些模块提供输入，而DRM和TFM则一起进行训练4。每个模块使用Adam优化器进行100个时期的训练，β1 = 0.5，β2 =0.999，学习率初始化为0.0002，并在最后50个时期线性衰减为0。批量大小为8。模型使用Pytorch实现，并在单个NVIDIA 2080tiGPU上进行训练。在训练过程中，参考人物穿着与目标店内服装相同，作为无配对服装和人物的试穿结果，没有可用的监督。然而，在测试过程中，目标服装与人物上的服装不同，并且以端到端的方式进行推理。0在补充材料中展示了3个示例。在补充材料中提供了完整的架构细节。0方法 SSIM ↑ FID ↓ HE ↑0VITON [17] 0.8807 28.43 21.35% CP-VTON [48]0.8503 20.05 10.65% CP-VTON+ [30] 0.878223.18 12.57% ACGPN [51] 0.8924 20.19 13.50%0M3D-VTON 0.8804 20.04 41.92%0表2：与其他2D试穿方法的定量比较。为了公平比较，我们将全身试穿结果裁剪并调整大小，使其与图4中的结果一样，因为其他方法最初是进行半身试穿的。04.3. 与SOTA方法的2D试穿比较0我们将我们的2D试穿结果与现有的最先进的2D试穿方法进行比较：VITON [17]，CP-VTON [48]，CP-VTON+[30]和ACGPN[51]。图4显示了定性比较。VITON缺乏服装的纹理细节，并且在自遮挡情况下无法合成手臂。虽然CP-VTON和CP-VTON+可以更好地保留服装纹理，但在服装被身体部位遮挡时表现不佳。ACGPN无法合成完整的手臂，并且由于其分割估计网络引入的随机性，可能在服装区域合成伪影。由于我们的两阶段变形策略，M3D-VTON通过条件分割和身体深度图的协同引导更准确地保留了服装纹理，并精确地合成了身体部位。对于定量比较，我们采用结构相似性指数（SSIM）[50]和Fr ´e chet In-ception距离（FID）[18]来衡量合成图像与真实图像之间的相似性。此外，我们进行了人类评估（HE），以评估M3D-VTON和其他四个基线的2D试穿结果。具体而言，我们邀请了26名志愿者完成了一个包含40个任务的问卷调查。在每个任务中，给定一个132450服装人物 PIFu NormalGAN M3D-VTON PIFu-HD 人物 PIFu NormalGAN M3D-VTON PIFu-HD 服装0图5：3D试穿结果的定性比较。前两列和最后一列分别代表输入和（伪）真实的PIFu-HD网格，而其他列是来自不同方法的3D试穿结果（带/不带纹理）。我们的M3D-VTON生成的人体网格比PIFu [40]和NormalGAN[49]（注意NormalGAN使用GT前景深度图作为输入）包含更多纹理细节和更准确的形状。0在给定一个人物图像和一张服装图像的情况下，志愿者需要从五种方法生成的图像中选择最逼真的试穿图像。如

下载后可阅读完整内容，剩余1页未读，立即下载