没有合适的资源?快使用搜索试试~ 我知道了~
Han Yang1,2Xinrui Yu3Ziwei Liu4 �1ZMO.AI2ETH Zurich3Harbin Institute of Technology, Shenzhen4S-Lab, Nanyang Technological Universityhanyang@ethz.ch, stuyxr@stu.hit.edu.cn, ziwei.liu@ntu.edu.sg34600全范围虚拟试穿与Recurrent Tri-Level Transform0图1.虚拟试穿方法中对标准服装(如T恤和长袖夹克)进行了深入分析,而具有不规则设计和图案的非标准服装则很少报道。给定目标服装图像和参考人物,我们的方法可以合成具有准确服装形状的逼真结果,无论服装类型如何。我们的框架涵盖了包括露肩衣服和字肩衣服在内的难样本,而基线方法则无法推广。0摘要0虚拟试穿旨在将目标服装图像转移到参考人物上。尽管取得了很大的进展,现有方法的功能区域仍然局限于标准服装(例如,没有复杂花边或破损效果的普通衬衫),而非标准服装的复杂性和多样性(例如,露肩衬衫,字肩连衣裙)则被大部分忽视。在这项工作中,我们提出了一个有原则的框架,即Recurrent Tri-Level Transform(RT-VTON),它可以对标准和非标准服装进行全范围的虚拟试穿。我们对框架设计有两个关键见解:1)语义转换需要在三个不同级别的服装表示(即服装代码、姿势代码和解析代码)上逐渐进行特征转换。2)0� 通讯作者0几何转换需要在刚性和灵活性之间进行正则化的图像变形。首先,我们通过使用局部门控注意力和非局部对应学习来反复改进三级特征编码的语义来预测“试穿后”的人的语义。接下来,我们设计了一种半刚性变形来对齐服装图像和预测的语义,从而保持局部变形的相似性。最后,一个规范的试穿合成器将所有处理过的信息融合在一起,生成着装人物图像。对传统基准数据集的大量实验证明,我们的框架在定量和定性上都达到了最先进的性能。值得注意的是,RT-VTON在各种非标准服装上展示了令人信服的结果。项目页面:https://lzqhardworker.github.io/RT-VTON/。01. 引言0虚拟试穿是学术界和工业界的一个快速发展的主题,随着生成模型的不断增强,它的功能也在不断提升。34610各种流水线[4, 10, 14, 37,42]被提出来构建系统,但在真实场景中进行不同类型服装的全范围试穿仍然具有挑战性。标准服装,如T恤和长袖夹克,与参考人物之间存在明确的关系,而非标准服装可能涉及不规则的图案和设计,因此导致更多的模糊对应关系。两种典型的非标准类型是露肩衣服(正常领口露出肩膀)和字肩衣服(向肩膀方向的水平领口线)。这些非标准服装的结果在任何试穿论文[4, 10, 14, 29, 37, 42]中都很少报道。0早期的工作[14,37]利用粗糙的形状和姿势图来合成Thin-plate Spline(TPS)变形的试穿结果。开创性的方法[10, 17,42]通过首先预测目标服装图像的语义布局,然后通过正则化的TPS变形来变形服装图像,产生具有更清晰边界的更好结果,从而改善了粗糙形状[14,37]引起的模糊伪影。然而,这些方法[10,42]仍然难以准确描绘“试穿后”的语义,其中功能区域仅限于标准服装。另一个阻碍全范围虚拟试穿的障碍是服装图像与参考人的错位。TPS是一种常用的做法,如[2, 4, 14,37,42]中所用,用于在保留特征的同时对服装图像进行空间变换。然而,服装图像的过度变形阻碍了基于TPS的方法,引发了对基于仿射的算法[9,20]的越来越多的偏好。与TPS相反,基于仿射的方法[9,20]在生成无畸变结果方面表现出很大的潜力,但未涉及非刚性变形部分,无法模拟衣物与人之间的自然交互。基于流的方法[5, 11, 12,41]在变形建模中嵌入了最大化的容量,密集地预测像素级偏移场。然而,没有地面真实流的情况下,优化流网络只能通过强正则化先验(如仿射先验、总变差约束或二阶拉普拉斯惩罚)来实现。0为了实现全范围的虚拟试穿,我们提出了一个原则性的框架,即循环三级变换(RT-VTON),通过准确预测目标服装图像的语义布局,深入挖掘“试穿后”的语义,并通过我们的半刚性变形来平衡刚性和灵活性。具体而言,RT-VTON遵循了传统的分割-变换-合并方案(图2),如[4,5,22,41,42]。第一个模块是语义生成模块(SGM),它逐渐将三级特征代码转换为预测的身体部位和服装区域的语义分割。与之前的工作相反,我们的SGM能够准确地0捕捉目标服装图像与人体之间的相关性,从而实现非标准服装的全范围试穿(见图1)。第二个模块是服装变形模块(CDM),它根据SGM的语义输出对目标服装图像应用一种新颖的半刚性变形。我们借鉴了图形学中广泛使用的几何编辑技术[16,34],并首次将其集成到可微分的基于学习的框架中。最后,类似于[4,42]的试穿合成器模块(TOM)融合了语义分割、变形后的服装以及非目标人体图像,以合成最终的试穿输出,其中使用辅助服装重建损失来增强纹理保留。我们总结了我们的贡献如下。1)我们提出了一种新的基于图像的虚拟试穿框架,即RT-VTON,它准确地描述了“试穿后”的语义,从而极大地提高了全范围服装类型的试穿质量和适应性。2)提出了一种新颖的循环三级变换,以改进语义布局预测,通过局部门控注意机制和非局部对应关系学习逐渐更新三个不同层次的服装表示,即服装代码、姿势代码和解析代码。3)为了进行无畸变的服装变形,我们设计了一种半刚性变形,将服装图像与预测的语义对齐,保持局部变形相似性。4)大量实验证明,所提出的方法可以对标准和非标准服装进行逼真的虚拟试穿,从定性和定量上优于现有的方法。02. 相关工作0时尚分析与合成。最近,由于其潜在的改变生活的能力,与时尚相关的话题变得越来越受欢迎。服装属性识别和预测[24,36]引起了人们对自动理解服装语义的极大关注。地标检测[15,19,25,39]是另一个快速增长的领域,对其他与时尚相关的应用至关重要。在强大的生成对抗网络(GANs)的帮助下,时尚图像合成[1,13,23]是另一个吸引研究人员和公司的热门领域。姿势引导的人物图像生成。姿势引导的图像生成旨在根据目标姿势和参考人物图像合成具有指定姿势的照片逼真的人物图像,这是在PG2[28]中首次引入的。PG2利用两阶段的图像到图像转换网络来解决这个任务。随后,变分U-net[8]结合了U-net和条件VAE[35]来解开外观和姿势。然而,这些方法忽略了空间信息,导致外观不对齐。PATN [45]利用渐进注意力中的姿势信息MtC(u, v) =ˆxCt (u)T ˆxPt (v)ˆxCt (u)ˆxPt (v) ,(2)34620模块,这些模块具有与输入图像的外观一致性和形状一致性。GFLA[31]学习像素级流,并利用局部注意力来扭曲源人物图像。最近,SPGNet[27],一种新的两阶段方法,利用姿势和语义信息来引导人物图像生成。基于图像的虚拟试穿。虚拟试穿旨在生成穿着指定服装图像的逼真人物图像,给定目标服装和参考人物图像。最近,基于深度学习,特别是生成对抗网络(GANs)的方法引起了相当大的关注。一般来说,基于深度学习的虚拟试穿方法可以分为基于3D的方法和基于2D的方法。由于很难收集3D试穿数据,学术界更广泛地讨论2D方法。VITON [14],CP-VTON[37]利用身体的粗略形状、姿势图和基于TPS的变形方法来变形服装并生成穿着指定服装图像的人物。ACGPN[42]提出了一种分割-变换-合并的方案,通过自适应生成和保留图像内容,实现了逼真的结果。DCTON[10]提出了一种遵循循环一致性学习的方法,稳定了试穿图像合成,但可能会错误地保留参考人物的图像内容。PF-AFN[11]是一个采用知识蒸馏来纠正语义解析错误的两阶段模型。蒸馏技巧对于我们的方法来说肯定是一个可行的后处理方法,但试穿质量仍然在很大程度上取决于第一次单通道试穿阶段,这是我们的主要关注点。03. 循环三级虚拟试穿0框架概述。为了生成逼真的试穿效果,循环三级变换(RT-VTON)遵循分割-变换-合并的方案,由三个模块组成:语义生成模块(SGM)、服装变形模块(CDM)和试穿合成器模块(TOM)。我们首先从输入解析中移除面部、上衣和手臂标签,得到部分解析,原始服装形状对网络来说是不可知的。然后,SGM根据目标服装和参考姿势图预测“试穿后”的语义布局。通过准确的语义分割,我们可以通过计算皮肤区域的交集,即残余身体,来自适应地生成和保留图像内容。我们对该框架的关键见解是SGM用于语义转换,CDM用于几何转换。03.1. 循环三级变换0之前的工作,如CP-VTON[37]和VITON[14],使用粗糙的身体形状作为输入,而不是语义分割,失去了抓取服装和非服装区域的细节的能力。ACGPN[42]是第一个构建0基于语义的流水线用于生成逼真的照片效果,但无法稳定语义预测过程。此外,由于服装图像和参考人之间的错位,准确保留试穿过程中的服装形状仍然是一个巨大的挑战。为了解决这个问题,我们的循环三级变换基于三个级别的服装表示,即服装编码、姿势编码和解析编码。受到人类行为的真实穿衣过程的启发,我们试图模仿这个过程,首先找到长距离的对应关系,然后生成语义布局。这打破了直接学习以服装图像和姿势图为条件的语义转换的传统流水线,无法准确预测精确的语义布局,特别是对于非标准的服装,如图4所示。我们的流水线将局部门控注意力与全局对应学习相结合,逐渐改进三级特征编码,从而使我们的SGM能够预测出准确的语义布局以进行进一步的生成。局部门控注意力。我们将局部门控注意机制建模为一个自我校正的过程,用于过滤不相关的特征。分别为姿势编码和服装编码从解析编码中计算出双重注意掩码。从初始解析编码F S 0、服装编码F C0和姿势编码F P 0开始,第t个姿势编码F P t和第t个0服装编码F C t通过来自第t个解析编码F St的注意掩码进行更新。门控块的设计遵循[28,43]中的传统结构。这里应用了广泛使用的逐元素sigmoid门控,公式如下:0M P t = σ ( conv S → P ( F S t − 1 )) , (1)0其中,conv S → C和conv S →P表示卷积层。σ表示逐元素的sigmoid函数。非局部对应。我们尝试在第t个块中使用[44]中提出的对应层找到服装编码F C t和姿势编码F P t之间的相关性。特别地,F P t和F Ct通过卷积层进行下采样以提取高级特征,然后将其展平为x ′ t P ∈ R HW ×C(姿势)和x ′ t C ∈ R HW × C(服装),0(服装),相关矩阵M t C ∈ R HW ×HW通过逐对特征相关性计算得到,0其中,ˆ x C t ( u )和ˆ x P t ( v )表示x ′ t C和x ′ tP的通道居中特征。M t C ( u, v)表示第t个块中的相应相似性。然后,通过非局部对应矩阵M t C,通过以下方式将展平的服装编码x C t从F C t转换为0¯xCt = softmaxv(αMtC)xCt, (3)iv|2α ,(6)34630图2.我们的循环三级变换(RT-VTON)的整体流程以及详细的三级特征码更新方案。该框架首先从输入解析中删除面部、上衣和手臂标签,得到部分解析,然后根据目标服装预测“试穿后”的语义布局。通过计算皮肤区域的交集,可以提取出未改变的身体纹理,即残余身体,作为TOM的输入。0其中α是一个锐化参数,如[44]中所使用,xCt在实际实现中是通过滑动窗口展开的,softmaxv是沿行维度的softmax操作。然后,我们将扁平化的变换后的服装特征码¯xCt重新整形以获得¯FCt。代码更新。通过计算注意力掩码MCt和MPt,服装特征码FCt和姿势特征码FPt通过以下方式更新:0FCt = MCt ⊙ convC(FCt-1) + FCt-1 FPt =MPt ⊙ convP(FPt-1) + FPt-1, (4)0其中⊙表示逐元素乘法。然后提取高级特征来计算相关矩阵MtC,通过应用公式3,我们得到变换后的服装特征码¯xCt。我们通过以下方式更新解析码FS t:0FS t = γ(¯FCt) ⊙ FS t-1 + β(¯FCt), (5)0其中γ(∙)和β(∙)表示条件尺度和偏移参数计算,遵循空间特征变换(SFT)[40]的设计。我们不直接依赖于服装特征,而是通过空间变换的服装特征码¯FCt来调制解析码,从而有效地弥合了目标服装和参考人之间的不对齐。通过对下采样的服装图像进行变形,并以参考人上的服装作为真值,添加重构损失来帮助对应关系学习。图6展示了非局部对应关系学习帮助理解“试穿后”语义的有效性。03.2. 半刚性变形0在预测“试穿后”的人的语义布局之后,我们可以将服装图像变形以转移纹理。常见的做法[10,14]使用薄板样条(TPS)[7]来建模空间变形。受仿射变换的共线性启发,ACGPN[42]提出了一个二阶差分约束来惩罚TPS变形的非仿射部分。DCTON[10]提出了一种单应性正则化方法来稳定TPS训练,但仍然可以观察到过度变形,如图5所示。以前的方法试图将TPS的灵活性与仿射变换的刚性结合起来,但未能找到这种权衡的平衡点。为了解决这个问题,我们提出了一种半刚性变形,将变形建模为可学习的最小二乘问题,以平衡灵活性和刚性的权衡。控制点的影响随着距离的增加而二次衰减,因此在计算每个点的单独仿射变换参数时允许局部灵活性。我们在补充材料中对最小二乘问题给出了清晰的解释。我们将均匀采样的初始控制点定义为q,预测的目标点定义为q'。给定图像中的点v,我们通过应用衰减权重计算每个v的不同仿射变换。0wi = 10其中α是一个衰减参数,默认值为1,i表示第i个点。通过求解最小二乘问题,我们可以得到:R90−−→q0q1,(7)R90q′0q′1,(8)34640图3.计算尽可能相似(ASAP)[16]正则化的示意图。这里的变形效果仅用于更容易理解,不是实际的变形结果。0问题,我们可以根据预测的控制点 q ′对目标服装图像进行半刚性变形。通过应用空间衰减权重,充分利用仿射变换的优势,同时允许局部的灵活性。局部相似性保持。我们提出了一个As-Similarity-As-Possible(ASAP) [16, 26]约束,该约束在预测的控制点 q ′的每个四边形内计算。每个四边形被分成两个三角形。如图3所示,ASAP约束通过惩罚变形的三角形{q ′ 0, q ′ 1, q ′2}来强制实现每个三角形的相似变换。我们定义相对坐标 q1 {x 01, 0} 和 q 2 {0, y 02},其中 x 01 和 y 02是均匀采样的控制点的固定间隔。然后,q 2 可以由 q 0 和q 1 定义为:0q 2 = q 0 + y 020其中 R 90 表示逆时针旋转90度。给定 q ′ 0 和 q ′ 1,我们可以计算出 q ′ 2 的期望位置:0q desired 2 = q ′ 0 + y 020我们的正则化项可以表示为:0E { q ′ 2 } = || q desired 2 − q ′ 2 || 2 ,(9)0其中 E { q ′ 2 } 表示 q ′ 2的误差项。类似地,我们可以对同一四边形中的另一个三角形的 q ′ 1 应用相同的机制,0E { q ′ 1 ,q ′ 2 }= ∑0i ∈{1, 2}0|| q desired i − q ′ i || 2 ,(10)0其中每个四边形的误差被累加以形成最终的正则化损失。应用L1损失和感知损失[18]来引导图像变形,并通过ASAP约束进行正则化。到此为止,我们已经成功准备好了最终合成的所有要素。03.3. 试穿合成器0给定预测的语义布局以及变形的服装图像,提出的试穿合成器模块(TOM)生成具有上述特征的穿着人物0输入。我们采用类似于[42]中提到的自适应生成和保留策略来保留非目标身体部位,同时生成裸露的身体纹理。为了鼓励网络保留变形的服装纹理,RT-VTON同时重构了变形的服装输入,这有助于网络编码更多的身份映射线索以保留原始特征。为了训练自适应保留和生成,我们应用了遮罩修复策略[42],通过随机删除身体部位来建立生成缺失皮肤和保留不变像素(残差身体)的能力。我们使用Irregular MaskDataset[21]提供的遮罩来随机删除脸部、颈部和手臂。在训练过程中,我们的TOM生成一个三元组{I ′ S,C R,α},其中I ′S是生成的穿着衣物的身体,CR是辅助监督的重构变形服装,α是一个组合遮罩,用于将生成的图像与变形的服装C W 组合起来0I S = α ⊙ I ′ S + (1 − α) ⊙ C W , (11)0其中 ⊙ 表示逐元素乘法,I S是我们合成的试穿结果。我们应用L1损失、感知损失[18]和对抗损失来生成穿着衣物的身体以及变形的衣物。与[37]中相同的正则化方法也应用于α。在测试过程中,根据参考人物的语义布局和预测的语义布局,我们可以通过将残差身体I R 输入到TOM中来完全保留不变的皮肤像素,定义为0I R = I ⊙ M skin ⊙ M ′ skin , (12)0其中 ⊙ 表示逐元素乘法,I是输入的参考人物,M skin是参考人物的皮肤区域,M ′ skin是预测的语义布局的皮肤区域。04. 实验04.1. 数据集和比较0实验在标准虚拟试穿基准(即VITON数据集)上进行,包含约19,000对图像,每对图像包括一个参考人物图像和一个相应的目标服装图像。根据[37]的方法移除无效的图像对后,得到16,253对图像,其中训练集包含14,221对图像,测试集包含2,032对图像。非标准服装集。为了定量比较,我们尽量穷尽测试集中的非标准服装,通过手动选择得到了包含48个服装图像的非标准服装集,包括露肩服装、字母肩服装以及复杂图案的服装。34650图4.四种虚拟试穿方法在标准到非标准情况下的视觉比较(从上到下)。四种方法在没有形状变化的标准情况下表现良好,但在向非标准情况进行大规模形状变换时失败。通过我们的三级变换和半刚性变形,RT-VTON为全范围的服装类型生成了逼真的结果,并保留了服装纹理的细节。0花边。标准和非标准服装的典型示例如图1所示,标准服装和非标准服装之间的差异是明显的。由于非标准服装的稀缺性,非标准统计数据仅供参考。比较。RT-VTON与三种最先进的方法进行比较,包括CPVTON+ [29],ACGPN[42]和DCTON [10],这些方法都有官方实现。04.2. 实验设置0网络架构。RT-VTON由三个模块组成,SGM、CDM和TOM。SGM由三级块组成。在计算非局部对应矩阵之前,特征提取和下采样的设计遵循[44]以进行鲁棒的对应建模。值得注意的是,提取的高级特征也可以作为下一个块的更新服装代码使用,这是我们的实际实现。CDM的设计与[37]类似,是一个传统的结构。我们使用[11]的Res-Unet构建我们的TOM以保留输入信息。所有图像的分辨率为256×192。在SGM和TOM中使用了高斯姿势热图和高斯姿势分割图[27]。训练细节。在训练SGM时,对目标服装进行了随机翻转增强。SGM和CDM分别进行训练,TOM使用预训练的CDM对变形后的服装图像进行训练。我们使用与[31]相同的基于ResNet的判别器。SGM和TOM的批大小为4,训练20个时期,而CDM的批大小为1,训练20个时期。半刚性变形训练中的ASAP正则化权重设置为00.001。学习率初始化为0.0002,我们采用带有默认超参数的Adam优化器。所有代码都是在PyTorch中实现的,并在1个Tesla V100GPU上进行训练。测试和评估指标。在测试阶段,手部分割被粘贴回去以更好地保留手指细节。为了准备测试对,对于每个参考人物,我们随机分配一个目标服装。对于完整数据集的测试,计算FID分数时,我们随机洗牌人体-服装对,以确保每个服装图像只被分配一次。对于非标准(N.S.)设置,每个参考人物随机分配一个非标准服装图像。04.3. 定性结果0尝试比较。我们在图4中使用三种方法进行了视觉比较实验,包括最先进的基于语义的方法DCTON [10],以及ACGPN[42]和CPVTON+[29]。我们可以看到,CPVTON+只能产生模糊的结果,身体部分纹理质量差,而ACGPN生成了清晰锐利的穿着衣物的身体。然而,ACGPN仍然无法根据给定的目标服装图像生成准确的语义布局,特别是对于非标准的服装。DCTON改善了语义一致性,如图4(a,i)所示,成功地生成了一个穿着长袖衣服的人,而ACGPN错误地保留了原始短袖参考人物的结构。然而,在DCTON的结果中可以看到袖口边界被错误地保留,这在很大程度上损害了视觉质量。相反,RT-VTON可以生成准确的“试穿后”效果。CPVTON+ [37]21.2924.10 82.35% 82.17%ACGPN [42]16.4619.22 73.88% 75.00%DCTON [10]16.3720.42 68.87% 71.67%RT-VTON11.6617.24--34660图5.TPS变形和我们的半刚性变形方法之间的图像变形方法的视觉比较。我们选择了最先进的基于TPS的试穿方法DCTON作为基准来评估我们方法的有效性。0无论参考人物的原始服装如何(如图4(a,i)所示),我们的方法去除了参考人物的服装部分,因此RT-VTON不会像DCTON那样受到误保护问题的影响。在非标准服装设置下,RT-VTON可以提供更好的试穿效果。在图4(b,i)中,这件无袖衬衫的蕾丝被准确地保留下来,而ACGPN将其识别为短袖,DCTON也无法保留细节。从非标准服装的结果中,我们可以看到现有方法无法生成保留准确服装形状的照片逼真结果。在图4(c-d,i)和(b-d,ii)中,只有CPVTON+可以在一定程度上保留露肩特征,而ACGPN和DCTON生成标准短袖或长袖结果,过度拟合标准服装形状。在不使用语义分割的情况下,CPVTON+直接从变形后的衣物中借用结构,有助于保留露肩特征,但也无法生成清晰的衣物-身体边界。通过比较CPVTON+与ACGPN和DCTON的语义布局,我们可以看到使用语义布局在改善图像质量以及保留非目标身体部位细节方面起到了很大的帮助,但同时,不正确的分割可能会导致不可预测的伪影。RT-VTON通过使用三级变换打破了这种权衡,产生的结构甚至比非语义方法(CPVTON+)更好,同时也不失语义基于流程(ACGPN,DCTON)的优势。几何变形比较。我们还对半刚性变形的有效性进行了定性实验。为了展示其优越性,我们选择了最好的基于TPS的方法,即DCTON作为基准。如图5所示,我们可以看到我们的半刚性变形可以准确地对齐服装图像并保持局部相似性。DCTON变形的衣物在边界附近可能过度扭曲,如第四列所示。我们可以看到第二列中我们的半刚性变形的固有灵活性,通过计算最小二乘仿射参数。0表1. 定量比较。“N.S.”表示非标准。我们展示了四种方法的Fr´echet InceptionDistance(FID)[30]和用户研究结果。FID越低越好。用户研究结果是我们方法的偏好比例,越高越好。‘-’表示占位符。由于没有[5, 12,17]的官方实现,我们在参考资料中给出了它们报告的数据进行额外比较。0方法 FID 用户偏好0整体 N.S. 整体 N.S.0第五列可能是由于难以理解衣物与人体的关系而引起的。从第二列中,我们还可以看到我们的半刚性变形的固有灵活性,通过计算最小二乘仿射参数。04.4. 定量结果0由于在目标服装中没有参考人物的真实数据,因此很难对试穿任务进行定量评估。我们采用Fr´echet InceptionDistance(FID)[30]来衡量生成结果与参考数据之间的相似性。由于Inception Score(IS)[33]只在类似ImageNet[6]的数据集中有效,如[3]所述,我们不采用IS作为评估虚拟试穿的指标。定量结果如表1所示。RT-VTON在整体和非标准设置下都取得了最先进的结果。特别是在整体设置下,RT-VTON的性能优于CPVTON+,ACGPN和DCTON分别达到9.63,4.80和4.71。我们可以看到非语义方法CPVTON+与ACGPN和DCTON之间存在很大差距。ACGPN和DCTON的FID分数无法区分,部分说明了这两种方法都存在相同的结构限制。04.5. 用户研究0图像指标可能在描述试穿质量方面存在局限性。为了进一步证明我们方法的优越性,我们对整个测试集进行了用户研究,并申请了一个非标准设置。我们邀请了25名志愿者参加我们的用户研究。每个志愿者分配了来自两个设置(整体、非标准)的30对图像,其中包含一个参考人物、一个目标服装图像、一个来自RT-VTON的结果和一个来自随机选择的基线方法的结果。为了提高测试准确性,两种方法的结果被随机洗牌,使用户无法从位置上区分,以防止随意游戏。从表1中的用户研究结果可以看出,RT-VTON在整体和非标准设置中都明显优于现有的最先进方法。34670图6.RT-VTON中语义生成模块(SGM)的可视化消融研究。将三级变换与普通编码器-解码器[38]和Unet[32]结构进行比较。0表2.语义生成模块(SGM)的消融研究。我们在分割重建设置中进行比较,考虑了“脸部、左臂、右臂、上衣”四个类别。采用平均IoU(交并比),数值越高越好。0不同配置的SGM平均IoU(%)0[38]中的普通编码器-解码器架构86.310[4,42]中使用的传统Unet骨干86.770三级变换(我们的方法)88.110设置。我们提出的框架对整体和非标准设置都有帮助,这解释了两个设置中的接近偏好比。04.6. 消融研究0我们的消融研究主要是分析我们的三级块在语义生成模块(SGM)中的有效性。给出了三个设置:1)使用三级变换的完整RT-VTON,2)使用残差块连接的普通编码器-解码器,参考[38],3)使用Unet[32]作为SGM的RT-VTON,这是设计试穿流程中常用的骨干。我们使用平均交并比(IoU)指标来评估相同服装-人物对的语义预测,如表2所示。非配对试穿结果也在图6中可视化;我们可以清楚地看到Unet或基于编码器-解码器的SGM无法捕捉非标准服装的复杂形状;它们将字肩衬衫识别为普通的U领衬衫。此外,由于目标服装的形状线索不明确,吊带背心(第二行)被错误地建模为长袖衬衫。我们的完整模型可以结合长距离建模和局部注意力,充分利用服装与人体的相关性,从而成功地描绘出非标准服装的准确语义布局。非局部对应的有效性。由于相关矩阵是在降采样的特征空间(16×12)中计算的,我们通过在图7中手动选择的位置上进行基于补丁的图像级对应来展示。很明显,非局部对应学习有助于捕捉0图7.在一些手动选择的位置上给出我们的非局部对应的可视化。由于相关矩阵是在降采样的特征空间中计算的,所以相应的点以相同颜色的补丁形式显示。0图8.我们的本地门控机制在服装编码(顶部)和姿势编码(底部)中的注意力掩码可视化。TLB1-6表示我们在语义生成模块(SGM)中使用的六个三级块。0捕捉非标准服装的模式(左侧),从而展示了露肩区域保留服装形状的强关系。此外,袖子的边界(右侧)与目标服装很好地描绘出来,利用了长距离相关性来重建最终的语义布局。0门控注意力的有效性。在图8中,我们提取了RT-VTON中使用的六个三级块的注意力掩码。第一行显示了衣物代码的掩码,底部行覆盖了姿势代码的掩码。门控注意力以逐渐的方式转移特征,与人类直觉相吻合。初始掩码是输入分割的混合物,但随着解析代码根据目标服装进行调制,服装形状和袖口边界逐渐显现出来。在最后两列中,我们可以看到“试穿后”人的明显袖口边界,这有助于确定目标服装的形状。05. 结论0在这项工作中,我们提出了一种新颖的循环三级变换(RT-VTON),它嵌入了语义转换和几何转换的两个原则性见解:1)三级变换,它通过局部门控注意力建模长程依赖性以预测准确的语义布局;2)半刚性变形,它试图在衣物变形中平衡刚性和灵活性的权衡。致谢。本工作得到NTU NAP,MOE AcRFTier1(2021-T1-001-088)的支持,并在RIE2020工业对齐基金-工业合作项目(IAF-ICP)资金计划的支持下进行,以及来自工业合作伙伴的现金和实物贡献。34680参考文献0[1] Kenan Emir Ak,Joo Hwee Lim,Jo Yew Tham和Ashraf A.Kassim.语义一致的分层文本到时尚图像合成与增强注意力生成对抗网络.在ICCV Workshops中,第3121-3124页。IEEE,2019年。20[2] Kumar Ayush,Surgan Jandial,Ayush Chopra,MayurHemani和Balaji Krishnamurthy.鲁棒的布料变形:虚拟试穿框架的多尺度补丁对抗损失. 在ICCVWorkshops中,第1279-1281页。IEEE,2019年。0[3] Shane T. Barratt和Rishi Sharma. Inception分数注释.CoRR,abs/1801.01973,2018年。70[4] Seunghwan Choi,Sunghyun Park,Minsoo Lee和JaegulChoo. VITON-HD:通过对齐感知归一化实现高分辨率的虚拟试穿.在CVPR中,第14131-14140页。计算机视觉基金会/IEEE,2021年。2, 80[5] Ayush Chopra,Rishabh Jain,Mayur Hemani和BalajiKrishnamurthy. Zflow:基于门控外观流的虚拟试穿与3D先验.CoRR,abs/2109.07001,2021年。2, 70[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi和Li Fei-Fei. ImageNet:一个大规模的分层图像数据库.在CVPR中,第248-255页。IEEE计算机学会,2009年。70[7] Jean Duchon.在Sobolev空间中最小化旋转不变半范数的样条曲线.在《多变量函数的构造理论》中,第571卷,第85-100页。Springer,1976年。40[8] Patrick Esser,Ekaterina Sutter和Bj¨orn Ommer.用于条件外观和形状生成的变分U-Net.在CVPR中,第8857-8866页。计算机视觉基金会/IEEE计算机学会,2018年。20[9] Matteo Fincato,Federico Landi,Marcella Cornia,FabioCesari和Rita Cucchiara.VITON-GT:一种基于图形变换的基于图像的虚拟试穿模型.在ICPR中,第7669-7676页。IEEE,2020年。20[10] Chongjian Ge,Yibing Song,Yuying Ge,Han Yang,WeiLiu和Ping Luo. 高度逼真的虚拟试穿的分离循环一致性.在CVPR中,第16928-16937页。计算机视觉基金会/IEEE,2021年。2,3, 4, 6, 70[11] 葛玉英,宋一兵,张瑞茂,葛崇健,刘伟,罗平.无需解析器的虚拟试穿通过提取外观流.在CVPR中,第8485-8493页。计算机视觉基金会/IEEE,2021年。2, 3, 60[12] Xintong Han,Weilin Huang,Xiaojun Hu和Matthew R.Scott. Clothflow:一种用于穿着人物生成的基于流的模型.在ICCV中,第10470-10479页。IEEE,2019年。2, 70[13] Xintong Han, Zuxuan Wu, Weilin Huang, Matthew R.Scott, 和Larry Davis. Finet: 兼容和多样的时尚图像修复. In ICCV,pages 4480–4490. IEEE, 2019. 20[14] Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, 和Larry S.Davis. VITON: 一种基于图像的虚拟试穿网络. CoRR,abs/1711.08447, 2017. 2, 3, 40[15] 黄长勤,陈继凯,潘燕,赖汉江,尹健,和黄琼浩.使用关键点关联先验的深度网络进行服装地标检测. IEEE Trans.Cybern., 49(10):3744–3754, 2019. 20[16] Takeo Igarashi, Tomer Moscovich, 和John F. Hughes.尽可能刚性的形状操作. ACM Trans. Graph., 24(3):1134–1141,2005. 2, 50[17] Surgan Jandial, Ayush Chopra, Kumar Ayush, Mayur He-mani, Abhijeet Kumar, 和Balaji Krishnamurthy. Sievenet:一种用于强大的基于图像的虚拟试穿的统一框架. In WACV, pages2171–2179. IEEE, 2020. 2, 70[18] Justin Johnson, Alexandre Alahi, 和Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. In ECCV (2), volume9906 of Lecture Notes in Computer Science, pages 694–711.Springer, 2016. 50[19] 金孝进,李斗熙,Asim Niaz,金灿勇,Asif AzizMemon,和Kwang Nam Choi.使用单阶段检测器进行多服装检测和时尚地标估计. IEEE Access,9:11694–11704, 2021. 20[20] Kedan Li, Min Jin Chong, Jingen Liu, 和David A. Forsyth.通过形状匹配和多次变形实现准确和逼真的虚拟试穿. CoRR,abs/2003.10817, 2020. 20[21] 刘桂林,Fitsum A. Reda,Kevin J. Shih,Ting-ChunWang,Andrew Tao,和Bryan Catanzaro.使用部分卷积修复不规则孔洞的图像修复. In ECCV (11), volume11215 of Lecture Notes in Computer Science, pages 89–105.Springer, 2018. 50[22] Guoqiang Liu, Dan Song, Ruofeng Tong, 和Min Tang.通过地标引导的形状匹配实现逼真的虚拟试穿. In AAAI, pages2118–2126. AAAI Press, 2021. 20[23] 刘静远,陆宏. 基于特征图上采样和地标驱动的时尚分析. InECCV Workshops (3), volume 11131 of Lecture Notes inComputer Science, pages 30–36. Springer, 2018. 20[24] 刘子威,罗平,邱石,王晓东,和唐晓欧. Deepfashion:利用丰富的注释提供强大的服装识别和检索. In CVPR, pages1096–1104. IEEE Computer Society, 2016. 20[25] 刘子威,严思杰,罗平,王晓东,唐晓欧. 野外时尚地标检测.In ECCV, 2016. 20[26] 刘子威,袁璐,唐晓欧,Matt Uyttendaele,和Jian Sun.快速连拍图像去噪. TOG, 2014. 50[27] 吕正尧,李晓明,李鑫,李福,林天伟,何东亮,左旺盟.通过区域自适应归一化学习语义人物图像生成. In
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功