基于序列模板姿态的共同注意特征重映射虚拟试衣

32 浏览量更新于2023-10-15 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13809时尚镜：基于序列模板姿态的共同注意特征重映射虚拟试衣陈杰云陈玲罗品瑞黄宏汉帅文黄成国立交通大学台湾新竹{cychen.ee09g，lynn97.ee08g，i309505013.eic09g，hhshuai，whcheng} @ nctu.edu.tw摘要虚拟试穿任务已经引起了越来越多的关注。现有技术集中于通过在语义分割的帮助下使衣服变形并在像素级融合信息来解决该任务。然而，进行语义分割是耗时的，并且容易随着时间的推移而导致错误此外，在像素级而不是特征级扭曲信息限制了性能（例如，不能产生不同的视图）并且是不稳定的，因为它直接显示了结果，即使存在未对准。相比之下，特征级的融合信息可以通过卷积进一步细化以获得最终结果。基于这些假设，我们提出了一个共同注意力特征重映射框架，即FashionMirror，根据驱动姿势序列分两个阶段生成试穿结果。在第一阶段中，我们考虑源人体图像和目标试穿衣服来预测去除的掩模和试穿衣服掩模，这取代了预处理的语义分割，并减少了推理时间。在第二阶段中，我们首先经由被移除的掩模移除源人类上的衣服，并且将在试穿衣服掩模上调节的衣服特征变形以适合下一帧人类。同时，我们从连续的2D姿态预测光流，并在特征层上将源人物变形到下一帧。然后，我们增强服装特征和源人体特征在每一帧生成真实的试穿结果与时空平滑。定性和定量结果均表明FashionMirror优于最先进的虚拟试穿方法。1. 介绍在本文中，我们设想了一个新的购物场景。想象一下，我们站在里面的一面时尚镜子前购物中心。时尚魔镜实时展示图1. 虚拟试穿导致连续的姿势。所选衣服的虚拟试穿结果。因此，我们可以展示任意的姿势来引导时尚镜子中的合成试穿结果，以查看服装在多个方面的合适程度，如图所示。1.为了实现该目标，一种直观的方式是应用单姿态虚拟试穿方法（例如，[41])并应用顺序姿态变换（例如，[31]对于以下帧。然而，由于服装信息仅取决于第一帧，因此误差可能在连续生成中累积。另一种可能的解决方案是使用多姿态虚拟试穿方法（例如，[19]以逐帧的方式。然而，连续帧的结果可能不一致（即，闪烁伪像），因为它们是独立生成的。为了考虑基于视频的虚拟试穿的顺序信息，FWGAN [10]提出了流导航的扭曲GAN，其（i）扭曲服装图像并在像素级细化服装纹理，（ii）经由[11]生成的光流扭曲前一帧，以及（(iii)进行预处理的语义分割，以从源人体图像中去除衣服。然而，性能是有限的，所产生的光流和翘曲的衣服在像素水平禁止13810网络产生新的内容。例如，侧视图中的服装内容不能从正视图获得。同时，在像素级融合细化的衣服容易产生不稳定的结果（例如，严重的阻塞问题）。例如，当试穿模型在躯干前面具有肢体的人与像素级的翘曲的衣服之间进行融合时，衣服将肢体遮盖为图1中所示的绿色框。4.大多数先前的作品[38，14，41，28，9，45，19，10]需要预处理的语义分割，这是耗时的，并且分割的质量高度影响后续的试穿结果。为了减少时间成本，[22] 提出了一种免解析的虚拟试穿方法。但是，它不能传递用户的姿态，从而从不同的视角获取信息.这对于现实世界试穿场景是重要的，因为用户通常试穿衣服并展示不同的姿势以评估服装是否合适。为了解决这些问题，我们提出了一个共同关注的功能重新映射试穿框架，即FashionMir- ror。给定源人体图像、目标试穿衣服图像和引导姿势序列，目标是根据引导姿势序列合成顺序姿势中的试穿结果。所提出的FashionMir框架由两个阶段组成：（I）无解析共同注意掩模预测和（II）人和服装特征重映射。在阶段（I）中，FashionMirror不使用语义身体部位，而是直接利用共同注意机制来学习连续人体帧与目标试穿衣服之间的关系基于共同参与的结果，FashionMirror预测i）移除的掩模，表示应当从源人类移除的服装区域，以及ii）目标试穿服装掩模，表示目标服装应当合身的区域在阶段（II）中，目标是基于移除的和目标试穿的服装面具来合成目标试穿结果。由于在像素级重新映射目标试穿衣服的视觉信息遭受如前所述的不同视图和不稳定的问题，因此我们在特征级扭曲人和衣服信息以实现逼真的试穿结果。具体地，骨架流提取网络学习连续帧之间的特征级光流。通过利用提取的特征流来扭曲当前帧的人体特征，我们进行人体序列生成以将当前帧的人体转移到下一姿势。此外，我们加强了每帧内的源人体特征和目标服装特征，以改善细节信息。我们评估了所提出的FashionMir- ror与几个国家的最先进的方法对主观和客观实验的功效。结果表明，FashionMirror优于最先进的方法质量。尝试性地和定量地。贡献总结如下：• 我们提出了一个共同关注的功能重新映射虚拟试穿框架，即FashionMirror，设想一个新的购物场景，通过合成的现实试穿结果与时空平滑的顺序姿势。• 所提出的无解析的共同注意掩码机制取代了虚拟试穿中常用的语义分割，并将推理时间减少了42.84%。2. 相关工作2.1. 姿态引导视频生成针对姿势引导的视频生成提出了各种研究[39，6，43，46，31，40，42]。例如，Wang等人 [39]首先提出了一种视频到视频合成方法，以解决直接应用基于图像的方法来合成视频序列所引起的不相干问题。Chan等人 [6]专注于运动传输任务，并将OpenPose [4]提取的2D姿势骨架视为简化模型的中间表示。 Zablotskaia等人 [43]进一步采用了由DensePose [1]提取的3D姿态表示，以保留来自源人类的详细外观。Ren等人。 [31]首先清理了2D姿势表示以获得更平滑的表示序列，并提出了一个全局流局部注意力网络来重新组装输入特征。然而，将姿势引导视频生成直接应用于第一试穿帧可能丢失详细的服装信息。2.2. 虚拟试穿虚拟试穿方法可以分为两组，基于3D的方法[30，13，2，24，27，36，29]和基于3D的方法[30，13，2，24，27，36，29]。基于2D的方法[15，38，18，19，45，9，14，41，28，22，8]。由于本文针对基于2D的方法，由于快速推理速度的要求，我们只回顾基于2D的方法在这里。具体而言，VITON [15]提出了一种基于图像的粗到细网络，以合成具有适当几何对齐的试穿结果。CPVTON [38]通过用可学习的薄板样条变换替换手工形状上下文匹配来进一步改进VITON，以保留服装特征的细节然而，网络倾向于被限制生成新的内容（不同的视图），并且当通过扭曲衣服并将它们与像素级的人类图像融合来试穿衣服时可能不稳定。ACGPN[41]进一步操纵语义分割来学习身体部位信息以处理遮挡问题。然而，尽管如此，13811t=1. Σh图2.培训概述，包括两个阶段。阶段I（无解析共同注意掩码预测）预测移除的掩码Mr和试穿服装掩模Mc，用于提供与源人物相对应的目标试穿服装形状的信息体型第二阶段（人体和服装特征重映射）提取姿势嵌入。p tΣN从引导姿势序列tNt=1 在N帧通过姿态嵌入提取，并学习与骨架流量提取。然后，人类序列生成重新映射特征以生成试穿结果。htΣN。这些方法是有限的，因为它们只能用于固定姿势。[19，45，9]合并的姿态变换平.gt=1虚拟试穿任务。例如，VTNCAP [45]改进了[38]的架构以实现姿态变换。FashionOn [19]设计了一种基于语义引导的图像网络，以生成具有任意姿势的逼真虚拟试穿TF-TIS [8]进一步扩展了Fash-ionOn，以基于用户指定的衣服合成合适的姿势。然而，进行预处理语义分割是耗时的并且容易导致错误累积[22]。为了考虑时间信息，FWGAN [10]提出了一种流导航变形GAN，以基于姿势引导视频生成[39]和虚拟试穿[38]内的衣服变形模块来解决基于视频的虚拟试穿。3. 该方法给定源人体图像h_s、目标试穿服装图像C和引导姿势图像序列{h_t}N3.1. 免解析的共同注意掩码预测人体部位的信息对于虚拟试穿是必不可少的。它帮助模型知道目标试穿衣服应该在哪里适合源人类图像并且捕获身体和衣服之间的依赖性，例如，折叠的手臂遮挡胸部区域上的衣服。大多数最先进的虚拟试穿模型[38，14，41，28，9，45，19，10]依赖于语义分割，其包含多个通道，每个通道表示一个身体部位，以提供人体部位的信息。语义分割有助于指导虚拟试穿的学习以生成具有清晰空间信息的结果。然而，预处理语义分割信息是耗时的并且容易导致累积误差[22]。受[20，26]的启发，我们提出了一个共同注意掩码网络来学习与服装相关的掩码，它保留了有用的语义信息，但减轻了对服装的依赖。在Nt=1帧，目标是生成序列试穿效率问题。1根据引导姿势序列来确定结果我们提出了一个共同注意特征重映射框架，称为Fash-ionMirror。图2示出了FashionMirror的架构，共同注意掩码网络（CMN）。给定源人体图像h_s和目标试穿服装图像C，CMN联合学习以预测移除的掩模M_r和试穿服装图像C。其包括两个阶段：（一）无解析共关注面具预测和（II）人体和服装特征重映射-1运行时间的改善在第2节中报告。四点三。13812∈C×个t=1LLL×个∈Nt=1），（--在服装面罩Mc上，即，Mr，Mc=CMN（hs，C），（1）其中Mr，Mc[0，1]1×W×H分别表示h s上应脱去的服装区域和源人体体型对应的目标试穿服装体型。CMN被设计为装备两种机制：单帧和多帧机制，如图所示。3.第三章。具体地，单帧机制用于前两帧。在处理前两个帧之后，CMN考虑前两个帧和当前帧人类图像以预测下一帧试穿服装掩模Mt+1。遵循[20，26]的架构，CMN采用具有前5层的siamese ResNet [16]，然后是atrous空间金字塔池化（ASPP）模块[7]，以从hs和C中提取特征εh和εc。然后，计算特征层的相似性矩阵S=εhTWεc，以寻找人体图像和服装图像上的服装特征之间的共参特征，其中W是一个可学习的权值矩阵。S被进一步按列归一化，并乘以服装特征矩阵εc以得到服装共同关注特征εcA=εcsoftmax（S）。类似地，我们将人类特征矩阵εh乘以归一化的S以得到人类共同注意特征εhA=εhsoftmax（S）。当背景在不同图像中变化时，对εcA（或εhA）执行一个11卷积以学习ε cA（或ε hA）在不同图像中的变化量。图3.共同注意掩码网络的架构。流和选择掩码。此外，人类序列生成将当前帧人类扭曲到下一姿势。同时，基于服装特征和源人体特征增强鲁棒性特征，使得试穿结果更加真实。姿势嵌入提取。引导姿态图像的序列ht被简化为3通道RGB骨架图像，通过最先进的姿态估计获得。信息函数PE（. ）（例如，OpenPose[3]）。应注意C（或hs）以适应变量-第接下来，ε′cA）与εh（或εc）级联为(orε′hA.tΣN。 tΣN预测层的输入以生成Mr和Mc。为了计算Mr和Mc与其相应的地面实况Mr和Mc的差值，它们是布-对于从现有技术的语义分割[12]获得的信道，我们使用L1距离损失（L1）、二元交叉熵损失（BCE）和服装补丁损失（Patch）。用于训练单帧CMN的总体目标函数2被导出如下。LCMN=λL1LL 1+λBCELBCE+λPatchLPatch，（2）对于多帧CMN，总损失函数仅基于Mt+1，因为它仅预测一个输出Mt+1。其中p表示骨架图像。我们的姿势表示多达137个点，而不是使用人体25分，手21分，脸70分。二、骨架流提取（SFE）。在导出骨架序列之后，我们设计SFE以提取两个连续帧t和t+1之间的特征级光流（由F表示）和选择掩模（由m表示）。其中，Ft和mt可以由关注层选择为C c示于图2. Ft帮助当前帧的人类ht翘曲3.2. 人体和服装特征重映射在预测从hs和目标试穿服装形状的去除的服装区域之后，我们引入特征重映射机制，用于用指导姿势序列试穿源人。在该阶段中，姿势嵌入提取首先将引导姿势序列简化为骨架表示。之后，骨架流提取提取特征级光学2详情见附录A。到ht+1，并且mt[0，1]表示下一帧信息ht+1是否应该从ht或hs获得。为了提取Ft和mt，SFE首先经由5个编码层分别从pt和pt+1然后，对编码后的特征进行解码和组合.最后，在特征层上计算pt和pt+1之间的相关性，预测光流场和选择掩模。光流为区域空间转换提供了很好的指导，但它的研究具有挑战性p01 - 02-03张玉萍H13813StGL*µl、FLLSLLt=1M⊗CorrNmaxLG t=1Ht=1t=1MMC1Σµ（ε ，ε）t t t+1l，Flm m iN{}h−m mcm mMc由于使用具有大空间差异的常用双线性采样的不良对准而导致的光流为了解决这个问题，我们设置模型来学习光学特征级，以使网络能够生成新的内容（不同的视图），并且可以应用卷积运算来细化结果。具有轻微空间变换的两个帧的流，即，（εt+1）=GaussianWarping（（εt），（Ft））在具有0 - 2个随机跳帧的30 fps。此外，根据以前的工作[33，32]，我们进行高斯采样而不是双线性采样gimi+λhs（εm）i（m）i我（八）采样以扭曲特征，并应用样本正确性损失来指导SFE有效地学习。不是使用由最先进的方法[11，21]生成的光流作为地面实况，而是通过余弦相似性μ（）与预先训练的VGG19 [35]进行样本正确性损失校正配备有样本正确性损失，SFE学习专门用于人体姿势转移和虚拟试穿的数据驱动流（如图1B中所示（5）防止被限制#21040;的表现[11，21]。tt+1L（h，F，h ）=exp（−），（5）l∈Ω其中，εt 表示经由+λci（STN（εc）i）（εMt+1）i，C其中（εt+ Ι）i是t+Ι帧中生成的试穿结果的第i层特征。λ hs和λ ci是控制εt、εs和εc之间平衡的超参数。λc随着感受野的减小而增大，因为它包含更多的细节。总体目标函数包括空间和时间损失。Ltryon=L空间+L时间。（九）空间损失引导学习以生成高质量的试穿结果，并且时间损失教导平滑试穿服装细节变化（例如，扭曲的平滑变化kle结构）。 L空间可以分为两个部分和L_temporal可以被分类为三个部分：在位置l=（x，y）处的VGG19的选定关注层并以Ft翘曲。εt+1是在位置l处从ht+1提取的特征。µmax是有助于限制流量变化的归一化项：L空间=L人类不的衣服不、（10）µmax= maxµ（εt，εt+1），（6）L时间=L流量+L人+L衣服，（11）l′∈Ω勒其中L人类和L衣服处理人和布-其中，Ω是由特征图中的所有N个坐标组成的坐标集人序列生成（HSG）。HSG网络以顺序姿势最终确定试穿结果，由Gh表示。通过获取源人类hs、目标试穿服装图像C、序列的姿势嵌入pt的输入，以及CMN的帮助，G的目标是生成试穿序列。htΣN。信息，分别。流是样本正确性损失 corr的加权版本。由于篇幅所限，详情请参阅附录A4. 实验本节提供了实验装置的细节，即，数据集、实施细节、最新基线和评估指标。之后，定性定量分析是与国家的.htΣN=G（h，s，C，.ptΣN，CMN（.ht−1ΣN、C）），（七）艺术方法。有关视频示例，请参阅https://github.com/FashionMirror/FashionMirror的网站。其中h0等于hs。具体而言，HSG首先掩蔽其中表示逐像素乘法，用于防止源衣服干扰试穿过程。然后，Mc提供关于C拟合hs的服装形状的结构信息。同时，我们提取了h_s，h_t_3，C，M_t+1的特征，用于制备下列化合物4.1. 实验装置数据集。为了训练和评估顺序虚拟试穿，需要包含顺序姿势视频和与视频中的人相关的服装图像的数据集。然而，不存在由相关服装图像组成的公共数据集4。我们设计新颖的培训过程整经工艺设（εs）i，（εt）i，（εc）i和（εt+1）i表示第i层中的hs、ht、C和Mt+1 在这里，我们整合了3为了训练，我们在每一帧中掩蔽ht，以防止服装信息干扰训练，因为C和ht上的服装是相同的。+LG t=1L13814以简化数据集要求，其仅需要可以从视频访问的顺序姿势视频4值得注意的是，FWGAN [10]在竞赛网站上发布的数据集只是部分，即，仅包含第一帧人体、相关衣服和姿势表示，而不包含与姿势表示相关的人体帧。13815图4. 5个基线内的目视比较。最左边的三列是输入集。我们示出了试穿结果，辅助结果位于右下侧。每个基线的辅助结果是[CPVTON + GFLA]：采用GFLA前的翘曲衣服和试穿结果，[ACGPN + GFLA]：预测的语义分割和采用之前的试穿结果。 ingGFLA，[FashionOn]：预测的语义分割[VTNCAP]：翘曲的衣服和预测的目标体型掩模，[FWGAN]：扭曲的衣服和网格面具，以及 [ 我们的 ] ：试衣面具 Mc.(Zoominforgetting 获得 clear 明确 information 信息 . ）请参阅https://raw.githubusercontent.com/FashionMirror/FashionMirror/main/Try-on%20results/visual_comparison.gif以在浏览器中获取时间信息。通过用从人体正面帧检索的衣服替换衣服图像来执行衣服生成任务[43，6，42]。然而，只有FashionVideo数据集[43]与Fashion有联系，并且包含人类的高度变化。因此，我们使用FashionVideo数据集来训练和评估所提出的FashionMirror。有500个视频（191，684帧）用于训练，100个视频（38，838帧帧），分辨率为256 ×256。实施详情。我们分阶段训练网络。首先训练共同注意掩码网络。然后，我们在两个NVIDIA 2080-ti GPU上以批量大小为4的端到端训练整个模型。每次迭代生成6帧，连续帧随机跳过源视频中的0 - 2帧，以使模型学习变化。我们应用 Adam [25] 优化器，学习率为0.0001。基线。我们将提出的FashionMirror与五个基线进行比较，包括三种类型的虚拟试穿作品，在FashionVideo数据集上训练[43]。(I)基于单姿态图像的虚拟试穿：CPVTON [38]和ACGPN [41]，（II）基于多姿态图像的虚拟试穿：FashionOn [19]和VTNCAP [45]，以及（III）基于视频的虚拟试穿：FWGAN [10].为了公平起见，不是直接比较基于单姿态图像的作品与基于视频的作品，而是首先部署基于单姿态图像的虚拟试穿作品，然后将试穿结果馈送到基于视频的人类生成作品GFLA [31]，以用于传输由“+ GFLA”表示的姿态55值得注意的是，我们没有将所提出的方法与[14，9，23]进行比较，因为它们没有发布代码。指标. 我们在基于图像的评价指标和基于视频的评价指标方面评价质量。对于图像结果，我们进行i）感知分数（IS）[34]，测量图像质量和多样性，ii）结构相似性（SSIM）[47]，测量重建结果和地面实况之间的相似性，以及iii）学习感知图像块相似性（LPIPS）[44]，测量重建结果和地面实况之间的感知相似性。对于视频结果，我们进行VideoFre' chetInceptionDistance（VFID）[17]，用于测量视觉质量和时间一致性。我们进行两个预训练的视频识别CNN主干：I3 D [5]和3D-ResNet- 18 [37]来提取时间和空间特征。4.2. 定性结果图4示出了在3种挑战性情况下所提出的方法与5个基线的视觉比较：（I）无袖A字连衣裙的人试穿短袖连体连衣裙，（II）有长袖紧身连衣裙的人试穿无袖露肩A字连衣裙，以及（III）有长袖移位连衣裙的人试穿无袖紧身连衣裙。不同试穿模型的结果总结如下。FashionVideo数据集更复杂，因为com-与常用的试穿数据集相比，例如，[15]，因为后者只包含贴身的衣服。因此，在FashionVideo数据集中，在宽松和紧身之间改变衣服的试穿方法是有挑战性的（如图2中所示的蓝色框）。4）. CPV-TON、ACGPN和VTNCAP未能应对这一挑战。13816G如情况（I）所示，CPVTON、VTNCAP和FWGAN在使衣服翘曲以适合体型方面表现良好（如辅助结果所示）。然而，当CPV-TON通过经由构图掩模融合源人类图像和翘曲的衣服来试穿翘曲的衣服时这是由于在像素级融合了衣服和人体信息此外，在情况（III）中，用于FWGAN的翘曲服装未对准。FWGAN通过网格掩模在像素级进一步细化试穿结果，导致结果不稳定。相比之下，FashionMirror在特征级别重新映射服装信息并避免伪影。另一方面，语义分割引导的工作（例如，ACGPN和FashionOn）严重依赖于语义分割。在情况（I）中，ACGPN经由语义分割将源人类图像的底部预测为裙子然而，为了试穿连体裙，ACGPN没有意识到它需要脱掉裙子，从而导致失败。同时，FashionOn由于情况（I）中的破碎的语义分割而得到破损的衣服。而在情况（II）中，ACGPN和FashionOn都错误地合成了开肩上衣（如图1B中所示的红色框）。4）由于相应的语义切分。相比之下，FashionMirror利用共同注意力面具网络来有效地预测移除的面具和试穿的服装面具。更多定性结果请参见附录B。消融研究。为了验证FashionMirror的基本组件，图5可视化了以下四个模型的结果、特征级光流和选择遮罩：（ I ） FashionMirror ，（ II ） FashionMirror（w/oh sboost），其针对每一帧消除源人类特征增强并且仅依赖于第一帧中的输入源人类，（ III ）FashionMirror（w/oλ ci），其在没有层加权的情况下融合服装特征，以及（IV）FashionMirror（具有多流），其应用流预测网络来替换来自服装的STN特征增强，并对源人体特征进行流预测网络增强，使源人体特征逼近与HT+1相似的分布。图5表明，我们的完整模型的特征级光流集中在人类区域，并合成更详细的结果，特别是面部区域。当FashionMirror消除hs时，光流失去了对特定人体区域的聚焦，将精力放在整个图像上。当FashionMirror引导多个流时，ht的流被其他两个流扰动，并且变成部分条带，使得试穿结果不稳定。至于选择遮罩，在四个模型中有很大的不同。我们的具有和不具有λci的完整模型的选择掩模分布是相似的。然而，前者比后者更有信心，表现出具有λci的选择掩码对何处更有信心。图5.消融研究的可视化。应该提取特征并合成更真实的结果。多流FashionMirror的选择掩码包含明显的人类区域，并使用来自ht-1和hs的平均贡献重新映射人类特征。然而，ht必须包含更多来自ht−1的特征，以及更少来自hs的特征。平均选择遮罩使多流FashionMirror的结果远离现实。FashionMirror w/ohs的选择掩码不显示任何差异，因为没有hs的模型不需要选择应在何处获取特征。4.3. 定量结果为了评估重建结果6，我们从测试数据集中随机合成2000个视频剪辑，而每个视频剪辑包含20帧。表1在基于图像和基于视频的评估度量方面比较了所提出的FashionMirror 与基线，即， IS 、 SSIM 、 LPIPS 和VFID。首先，基于图像和基于视频的评价指标之间的分数分布的差异是有趣的。虽然FashionOn在基于图像的度量中获得比ACGPN + GFLA更好或有竞争力的分数，但FashionOn在基于视频的度量中获得更差的分数，因为 FashionOn 的时间相干性更差。 Fash-ionMirror在基于图像和基于视频的评估指标中优于所有其他基线和消融模型，表现出最高的视觉质量和时间一致性。值得讨论的是，FashionOn获得了最高的IS分数，但它并没有合成如图所示的最高视觉质量。4、在用户研究中。由于IS基于ImageNet评估图像质量，因此无法很好地测量试用数据集的细节[9]。用户研究。我们与120名志愿者进行了用户研究，以评估视觉质量。我们随机抽取了13个输入集，其中包含一个源人物、试穿衣服和一个姿势6每个重建结果由源人（掩蔽服装区域）、目标服装（源人上的相同服装）和目标姿势序列合成。因此，对于重建结果存在相应的基础事实。13817Ci表1.对测试数据集与基于图像的度量和基于视频的度量进行定量比较方法CPVTONACGPN+GFLA +GFLAVTNCAPFashionOn（Gr）FWGAN我们的f我们的h我们 λciOursIS↑1.355±0.0092.2190.0262.134±0.0302.3880.0402.290±0.0282.290±0.0222.1770.0272.187±0.0382.2340.035SSIM↑0.8150.8640.8770.8890.9070.8870.9060.9190.923LPIPS↓0.2280.1090.1190.1110.0740.0920.0730.0600.057VFID↓i3D5.4994.80910.1829.6227.9615.2264.5933.1413.0973D-ResNet5.6151.5437.4963.8022.9021.5511.6901.2061.033NOTE：表示我们的具有多流，表示我们的w/ohsboost，并且表示我们的w/oλ。表2.用户研究结果方法相同Ctype不同Ctype平均CPVTON + GFLA5.28%九点五8.53%ACGPN + GFLA21.67%23.92%23.40%FashionOn（Gr）百分之四点一七5.83%5.45%VTNCAP百分之一点三九2.50%2.24%FWGAN13.33%5.92%7.63%FashionMirror（我们的）54.17%52.33%52.76%从测试数据集提取长度在20到150帧之间的序列。志愿者首先一次显示6个视频（由五个基线和具有相同输入的FashionMirror合成），然后被要求在期望的姿势序列中选择最真实的基线可分为三种类型：（I）基于单姿态图像的虚拟试穿：CPVTON和ACGPN，(II) 基于多姿态图像的虚拟试穿： FashionOn 和VTNCAP ，以及（ III ）基于视频的虚拟试穿：FWGAN。表2总结了结果。FashionMirror获得了52.76%的投票（823票），而五个基线总共获得了47.24%的投票（737票），这验证了FashionMirror优于基线，并且合成了具有时空平滑性的真实试穿结果。结果表明，与基于视频的位姿变换工作相结合的类型（I）虚拟试穿工作比类型（I）虚拟试穿工作更好地解决基于视频的虚拟试穿任务。(II)虚拟试穿工作，因为类型（II）工作不包含相干信息。为了进一步分析结果，我们根据源人和目标试穿衣服之间的衣服类型相关性来分离结果，即，相同的服装类型（相同的C类型）和不同的服装类型（不同的C类型）。结果表明，在不考虑服装类型相关性的情况下，FashionMirror的性能优于所有基线。FWGAN在相同服装类型试穿时优于CPVTON + GFLA，但在不同服装类型试穿时比CPVTON + GFLA差。这是因为处理不同的服装类型更具挑战性。虽然CPVTON和FWGAN的服装变形机制都是在像素级上变形和融合服装信息，但FWGAN会导致更不稳定的结果，因为它操作每一帧。S13818运行时间。由于CMN（Sec. 3.1)旨在取代常用的预处理语义分割[12]，这是耗时的，容易导致错误积累，我们报告的运行时间比较，以验证我们的共同注意掩模网络的有效性。具体而言，我们随机采样40，000个输入集，以报告使用一个NVIDIA 2080-ti GPU的共同注意掩码网络和语义分割的平均运行时间。共同注意掩码网络平均花费0.1983秒，并且语义分割花费0.3469秒。共同注意掩码预测与语义分割的运行时间比率为57.16%，这表明新型共同注意掩码网络有效地加快了虚拟试穿过程。关于整个试戴模型的运行时间比较，请参见附录C。5. 结论本文提出了一个共同注意力特征重映射框架，即FashionMirror，合成真实的虚拟试穿结果在顺序姿势。我们设计了一个共同注意掩码机制，以保持语义分割的优势，为虚拟试穿（提供区域信息的衣服），并减少了42.84%的推理时间。然后，FashionMirror从连续帧中提取特征流，将当前帧的人体特征扭曲到下一个姿势，并在每帧内对源人体和服装特征进行增强，以实现逼真的效果。实验表明，FashionMirror在质量和数量上均优于目前最先进的虚拟试穿作品在未来，我们计划进入现实世界的购物场景，并解决高分辨率的虚拟试穿任务。6. 确认这项工作得到了该部的部分支持台湾科技部（ MOST ）在 MOST-109-2218-E-002-015 、 MOST-109-2221-E-009-114-MY 3、MOST-109-2223-E-009-002-MY 3、MOST-110-2218-E-A49-018和MOST-110-2634-F-007-15.我们感谢国家高性能计算中心提供的计算机时间和设施。13819引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[2] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中给3d人穿衣。IEEE/CVF计算机视觉国际会议（ICCV），2019年。[3] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。Openpose：使用部分亲和字段的实时多人2D姿势估计。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），2019年。[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。[6] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧IEEE/CVF计算机视觉国际会议（ICCV），2019年。[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。[8] 周建龙，陈杰云，谢家伟，帅洪汉，刘佳英，程文煌。通过语义引导优化的无模板试穿图像合成。 IEEETransactions on Neural Networks and Learning Systems（TNNLS），2021。[9] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu ，and JianYin.多位姿导引虚拟试穿网路之研究。IEEE/CVF计算机视觉国际会议，2019年。[10] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BowenWu，Bing-Cheng Chen，and Jian Yin. FW-GAN：用于视频虚拟试穿的流动导航翘曲gan。IEEE/CVF计算机视觉国际会议（ICCV），2019年。[11] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipH¨usser ， CanerHazırbaså ， VladimirGolkov， PatrickvanderSmagt，Daniel Cremers，and Thomas Brox.Flownet：使用卷积网络学习光流IEEE/CVF International Conferenceon Computer Vision（ICCV），2015年。[12] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，and Liang Lin.通过部件分组网络的实例级人工解析。在欧洲计算机视觉会议（ECCV），2018。[13] ErhanGundogdu 、 VictorConstantin 、 AmrollahSeifoddini 、 Minh Dang 、 Mathieu Salzmann 和 PascalFua。GarNet：一个双流网络，用于快速准确的3D布料悬垂。IEEE/CVF计算机视觉国际会议（ICCV），2019年。[14] Xintong Han，Xiaojun Hu，Weilin Huang，and MatthewR. Scott. ClothFlow：一个基于流的服装人物生成模型。IEEE/CVF计算机视觉国际会议（ICCV），2019年。[15] Han Xintong，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S.戴维斯VITON：基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的Gans收敛到局部Nash均衡。神经信息处理系统国际会议（NIPS），2017年。[18] 谢家伟、陈杰云、周建龙、帅洪汉、程文煌。Fit-me：基于图像的虚拟试穿，具有任意姿势。IEEEInternationalConferenceonImageProcessing（ICIP），2019年。[19] 谢家伟，陈杰云，周建龙，帅洪汉，刘佳英，程文煌FashionOn：基于语义引导的图像虚拟试穿，包含详细的人体和服装信息。在2019年第27届 ACM国际多媒体会议（ACM MM）。[20] Ting-I Hsieh ， Yi-Chen Lo ， Hwann-Tzong Chen ， andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测神经信息处理系统国际会议（NIPS）论文集。2019年。[21] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。[22] ThibautIssenhuth、J e're'mieMar y和C le'mentCalau ze`nes。不要掩盖你不需要掩盖的东西：一个无解析器的虚拟试穿欧洲计算机视觉会议（ECCV），2020年。[23] Surgan Jandial、Ayush Chopra、Kumar Ayush、MayurHe-man

下载后可阅读完整内容，剩余1页未读，立即下载