视频虚拟试穿：ClothFormer框架实现时空一致的逼真结果

15 浏览量更新于2023-10-26 收藏 17.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jianbin Jiang1∗, Tan Wang2, He Yan2, Junhui Liu21BIGO 2iQIYI Inc.jiangjianbin@bigo.sg, {wangtan, yanhe, liujunhui}@qiyi.com107990ClothFormer：驯服所有模块的视频虚拟试穿0摘要0视频虚拟试穿的任务旨在以时空一致性的方式将目标服装适应到视频中的人物上。尽管图像虚拟试穿取得了巨大的进展，但是当应用于视频时，它们导致帧之间的不一致性。有限的工作也探索了基于视频的虚拟试穿任务，但未能产生视觉上令人满意和时间上连贯的结果。此外，还存在两个关键挑战：1）在服装区域出现遮挡时如何生成准确的变形；2）如何与复杂的背景和谐地生成服装和非目标身体部位（如手臂、颈部）；为了解决这些问题，我们提出了一种新颖的视频虚拟试穿框架ClothFormer，在复杂环境中成功合成了逼真、和谐和时空一致的结果。具体而言，ClothFormer包括三个主要模块。首先，一个两阶段的抗遮挡变形模块，用于预测身体区域和服装区域之间的准确稠密流映射。其次，一个外观-流跟踪模块利用岭回归和光流校正来平滑稠密流序列并生成时间上平滑的变形服装序列。第三，一个双流变换器提取和融合服装纹理、人物特征和环境信息，生成逼真的试穿视频。通过严格的实验证明，我们的方法在合成视频质量方面在定性和定量上都远远超过了基线方法。01. 引言0视频虚拟试穿的任务旨在合成一个连贯的视频，保留源视频中目标服装的外观以及原始人物的姿势和身体形状。由于其在电子商务和短视频行业的广泛应用前景，这个任务近年来引起了广泛关注。0* 在iQIYI Inc.完成的工作。†代码和所有演示可在https://github.com/luxiangju-PersonAI/ClothFormer获得。0图1.我们在VVT数据集和我们的数据集上的视频虚拟试穿结果示例（第一行）。0以往的虚拟试穿方法通常集中在基于图像的操作上[8, 12,17, 18, 22, 28, 36, 44]。其中，CP-VTON[36]提出了一个几何匹配模块来学习TPS变换的参数，大大提高了变形的准确性。WUTON [22]和PFAFN[13]提出了无解析器的方法来减少使用准确掩码的依赖性，而VITON-HD[8]进一步提高了生成图像的分辨率。这些方法在不同方面取得了巨大的成功。然而，与视频虚拟试穿相比，图像虚拟试穿在沉浸感方面还有很大差距，并且当基于图像的方法应用于视频时，往往会导致帧之间的不一致结果。0有一些尝试设计视频虚拟试穿的方法。FW-GAN[9]是第一个提出的方法，它引入了Video2Video[38]中提出的光流预测模块，将过去的帧进行变形以合成连贯的未来帧。类似地，FashionMirror[7]也预测光流，但它在特征级别而不是像素级别上将过去的帧变形为未来的帧，这使得它能够在不同视角生成衣服。MV-TON[48]进一步添加了一个记忆细化模块来记忆过去帧的特征。尽管上述方法在视频时空一致性方面取得了一些进展，但是它们生成的帧闪烁并且与实现“真实感”还有一段距离。108000时空平滑视频。我们认为存在两个问题：一方面，上述方法只关注试穿模块，而忽视了由变形模块变形的输入不一致。另一方面，图像是以逐帧方式合成的，这导致在时空维度上产生不一致的注意力结果，并且经常导致视频模糊和时间上的伪影。此外，上述方法难以满足实际场景中的需求，因为服装区域存在遮挡（例如头发、手、包等）。最后，上述方法是针对具有纯背景的简单数据集设计的，如VVT[9]。因此，它们无法处理复杂环境，也无法与自然背景协调一致。为了解决上述挑战，我们提出了一种新颖的视频虚拟试穿框架，称为ClothFormer。首先，受到VITON-HD[8]的启发，我们引入了一种与服装无关的人物表示，彻底消除了服装信息，并保留了背景和遮挡。接下来，我们新颖地采用基于帧级TPS的变形方法来预测和遮罩目标服装的遮挡区域，然后将处理后的目标服装输入到基于外观流的方法中，以获得身体区域和服装区域之间准确且抗遮挡的稠密流映射（外观流）。此外，我们在变形模块和试穿模块中强制输出在时空上保持一致。在变形模块中，我们对外观流序列进行两个步骤（岭回归和光流校正），以生成时间上平滑的变形服装序列。在试穿模块中，我们提出了一个多尺度基于补丁的双流变换器（MPDT）生成器，具有多输入和多输出，根据前几个阶段的输出同时优化所有输出帧，以合成最终逼真的视频。最后，MPDT生成器采用MPDT块从变形服装序列中提取服装颜色和纹理时空特征，并从无关服装序列中提取保留的人物特征和环境信息，旨在在无关区域生成服装、非目标身体（包括手臂、颈部等）和填充背景。然后，在MPDT块中采用服装特征和背景内容特征的整合来生成更协调的结果。为了验证我们框架的性能，我们收集了一个具有遮挡和复杂背景的野外虚拟试穿数据集用于研究目的。我们的实验证明，ClothFormer在生成视频方面在定量和定性上都明显优于现有方法。我们的贡献可以总结如下：0• 提出了一种将TPS方法和外观流方法的优点结合起来的新型变形模块。0该方法旨在解决由于服装区域出现遮挡而导致的变形不准确的问题。0•提出了基于岭回归和光流校正的跟踪模块，用于变形平滑的服装序列，为试穿模块生成连贯的视频提供了先决条件。0•在试穿模块中，精心设计了MPDT生成器，它可以提取和融合服装纹理、人物特征和环境信息，以生成逼真的试穿视频。据我们所知，这是首次将Transformer应用于视频虚拟试穿。02. 相关工作0视频处理和生成这里总结的视频处理和生成技术包括视频修复[26,43]、视频实例分割[39]、视频语义分割[27]、视频超分辨率[20]、视频到视频合成[37, 38]和视频虚拟试穿[7, 9,48]。这些工作共享使用时间上一致的视频序列作为输入，并利用时间信息生成时间上平滑的视频的共同过程。受到之前的工作的启发，FW-GAN [9]、FashionMirror[7]和MV-TON[48]采用了各种视频处理方法来进行虚拟试穿任务，并证明了它们的有效性。FW-GAN和FashionMirror预测光流以像素或特征级别对过去合成的帧进行变形，以生成后续帧，这是首次在vid2vid[38]中提出的。MV-TON提出了一种记忆细化模块来重构时空信息，该模块在视频语义分割[27,30]中使用。然而，这些方法忽视了试穿模块的输入，即变形的服装序列在时间维度上不平滑，导致视频模糊和时间上的不一致。相比之下，我们提出了一种基于光流和岭回归的跟踪策略，以获得时间上一致的变形序列作为试穿模块的输入。视觉Transformer Transformer[35]最初用于序列到序列的机器翻译任务，并最近被应用于计算机视觉任务。ViT[10]通过直接将纯Transformer应用于16x16图像块的序列进行图像分类任务，与之前的卷积神经网络（CNN）相比取得了有希望的结果。DETR[3]使用基于Transformer的编码器和解码器构建了一个端到端的目标检测方法，使用双向匹配损失，大大简化了传统的检测流程[32]，并在性能和效率上与基于CNN的方法相当。受到DETR的启发，VisTR[40]构建了一个更简单更快的视频实例108010通过使用变换器进行分割框架。STTN[46]提出了一种基于多尺度基于补丁的联合时空变换器网络（STTN）用于视频修复，并取得了最先进的性能。这些方法证明了变换器在计算机视觉任务中的有效性。然而，据我们所知，以前没有成功将变换器应用于视频虚拟试穿的研究。我们发现变换器不仅可以通过自我注意机制探索补丁之间的空间相关性，还可以提取多个帧之间的时间相关性。基于这个想法，我们提出了一种用于视频虚拟试穿的双流变换器。虚拟试穿现有的方法可以分为基于3D模型的方法[1, 16,23, 29, 31]和基于2D图像的方法[8, 12, 17, 22, 28, 36, 44,45]。由于需要额外的3D测量和高计算复杂性，基于3D模型的方法的适用性有限，而基于2D图像的方法更广泛适用。VITON[18]设计了一种从粗到细的策略，可以将所需的服装项目无缝地转移到相应的区域。CP-VTON[36]中的几何匹配模块很好地保留了生成图像中的服装身份。WUTON [22]和PFAFN[13]提出了无需使用准确掩码的方法来减轻使用准确掩码的需求。VITON-HD [8]通过使用ALIgnment Aware Seg-ment（ALIAS）归一化和ALIAS生成器合成1024×768的图像。与图像虚拟试穿相比，视频虚拟试穿更实用和用户友好。FW-GAN[9]提出了一种在视频虚拟试穿中使用流导航变形GAN来生成连贯的视频流。MV-TON[48]通过建模先前生成的帧来采用内存细化来改善细节。然而，以上所有视频虚拟试穿方法都无法处理扭曲输入序列的时间一致性。在本文中，我们提出使用双流变换器来处理扭曲的输入序列，通过在时空维度上临时聚合和平滑背景和前景信息来合成真实的视频流。03. 提出的方法0如图2所示，给定目标服装图像C ∈ R 3 × H ×W和参考人物视频序列IT1 := {I1, ..., IT} ∈ R 3 × H ×W，其中H和W分别表示图像的高度和宽度，T表示序列的帧长度。ClothFormer旨在合成一个真实的视频序列˜IT1 :={˜I1, ..., ˜IT} ∈ R 3 × H ×W，该序列表示一个穿着目标服装C的人的时空一致性，同时保留IT1的姿势和身体形状以及C的颜色和纹理。使用样本三元组(IT1, C,˜IT1)进行训练是直接的但在实践中是不可取的[36]。相反，我们使用(IT1, C, IT1)，其中服装C已经穿在参考人物视频上0序列IT1。由于直接在(IT1, C,IT1)上进行训练会损害模型在推理过程中的泛化能力，我们构建了一个保留遮挡的服装不可知人物表示，消除了IT1中源服装的影响，详见第3.1节。我们结合了基于TPS的变形方法和基于外观流的方法的优点，解决了由于遮挡导致的不准确变形的问题，并添加了一个跟踪模块来变形一个时间上平滑的扭曲服装序列，详见第3.2节和第3.3节。最后，我们提出了一种新颖的MPDT生成器来合成真实的视频，详见第3.4节。03.1. 预处理0受[8,44]的启发，我们提出构建一个服装不可知的视频序列AT1作为变形和试穿模块的输入，该序列保留了人物身份（例如脸部、手部和下半身）并消除了具有遮挡保留的服装不可知区域。我们通过使用以下四个序列获得AT1，即分割图序列ST1 := {S1, ..., ST}，密集姿势序列DT1 := {D1, ...,DT}，姿势序列PT1 := {P1, ..., PT}和抠图序列MT1 := {M0,M1, ..., MT}。我们使用预训练网络[2，0[14, 15,25]来生成这些序列。具体而言，如图2(a)所示，AT1是通过利用服装无关掩码MaT1从IT1中去除服装相关区域得到的，其中MaT1是通过扩展ST1中预测的臂部、衣服和躯干-皮肤区域，然后去除手部和遮挡区域得到的。手部区域在DT1中预测，遮挡区域定义为MT1中的前景与ST1中预测为标签零的区域的交集，其中ST1中的标签零表示背景或IT1中的其他物品，例如背包带。0(a)最后，DT1、PT1和AT1是变形模块和试穿模块的输入，用于生成具有时间一致性的视频˜IT1。03.2. 帧级别的抗遮挡变形模块0现有的变形方法无法处理出现在服装区域的遮挡。其中大部分方法利用基于外观流的方法或基于TPS的方法来变形服装图像。基于外观流的方法对遮挡非常敏感，当存在遮挡（例如头发、手臂、包包）时，可能会出现像素挤压现象，如图6的第三列所示。基于TPS的方法可以通过估计网格映射来处理部分遮挡，但往往会导致变形服装与身体之间的不对齐[8]。为了解决这些问题，我们提出了一个两阶段的抗遮挡策略。在第一阶段，我们采用基于TPS的变形模块。如图2(b)所示，我们使用(A t, D t, Pt)和参考服装C作为t帧的输入。基于TPS的变形损失函数定义如下：wheret, W(C, θt)Cθtand λsdctis the hyper-parameter for second-order differenceconstraint Lsdct[44].Afterward, we define the region where W(C, θt) over-laps with the location of occlusion in Sot as occluded regionof W(C, θt), as Ioc shown in Fig. 2(b), and the occludedarea shown as Mo. Then we get the target clothes ˆCt thathave masked the occluded area by using θt to reverse map-ping. Finally, AFWM [13] network adopted to learn denseflow mapping between the body regions and the clothing re-gions (appearance-flow ft) with (At, Dt, Pt) and the ˆCt asinputs. The appearance-flow ft is optimized as follows:108020图2. ClothFormer框架。首先，我们获得无关服装的人物图像序列AT1。(b)我们通过基于TPS的变形方法预测t个变形服装W(C, θt)，以推断出一个无遮挡的目标服装C，然后采用基于外观流的变形方法来获取外观流f。(c)设计了基于岭回归和光流校正的外观流跟踪模块，以获得具有时空一致性的变形服装序列。(d)最后，MPDT生成器根据前几个阶段的输出合成最终的输出视频序列˜IT1。0L T P S -warp t = 亮度 I Ct − W(C, θ t)差异 1 + λsdc t L sdc t (1)0L flow − warp t = 亮度 I Ct − W(ˆCt, ft)差异 + λsec t L sec t (2)0其中W(ˆCt,ft)是使用学习到的外观流ft对ˆCt进行变形得到的变形服装，λ sec t是二阶平滑约束L sec t的超参数[13]。03.3. 视频中的外观流跟踪0对于视频虚拟试穿，合成服装的纹理和颜色主要与输入的变形0服装序列。之前的研究[7, 9,48]只关注试穿模块的时间一致性，而忽视了被变形的服装序列的时间一致性。相反，我们提出了一个外观流跟踪模块，通过跟踪第3.2节中学习到的外观流来产生一个时间上平滑的被变形的服装序列，如图2(c)所示。变形模块中学习到的外观流表示输入服装ˆCt中像素的坐标映射到变形服装W(ˆCt,ft)中的位置，从这个角度来看，基于外观流的变形模块类似于面部特征点检测任务[42]，ˆCt和W(ˆCt,ft)类似于面部对齐图像和面部特征点检测任务中不同姿势的面部图像。受[33][11]的启发，我们首先将ft的高度H和宽度W重塑为长度为W×H的一维向量f1Dt，并通过基于岭回归的后处理算法进行跟踪，利用相邻流之间的相关性实现时间上的平滑结果。外观流的优化如下：0ˆf1Dt = X(XTX−µI)XTf1Dt (3)0其中ft是第t帧的外观流，1≤t≤T，I是单位矩阵，µ是超参数，X是补充材料中详细描述的特征矩阵。此外，输入人体序列IT1中服装区域的运动信息至关重要，因为它不仅与人体姿势相关，还与环境因素（如风）相关。因此，我们使用服装区域的光流[21]来校正ˆft，表示为：�ˆft+(4)where ˆft is the tracking result of Eq. (3), �wt−1 is the es-timated optical flow from It−1 to It of input person se-quence. Ω denotes the intersection of the clothing regionon It and the warped clothing region of W( ˆCt, ˆft). By�wt−1( ˆft−1), we warp ˆft−1 based on �wt−1. δt defined as�� ˆft − �wt−1�ˆft−1�� and we set threshold value ε to 0.05.Finally, the warped clothing sequence with temporalconsistency and anti-occlusion obtained as :(6)�qkCT(7)108030...0˜ft=02，δt≤ε且ˆft∈Ω˜ft=ˆft，δt>ε或ˆft不属于Ω03.4.通过MPDT生成器进行试穿合成0˜CT1 = W(ˆCT1, ˜fT1) (5)0qt = convq(pt)�kCt,vCt = (convkC(Ct),convvC(Ct))�kAt,vAt = (convkA(At),convvA(At))0在试穿模块中，我们提出了MPDT生成器，根据前几个阶段的输出合成逼真的视频序列。MPDT生成器可以处理以前的方法[9,48]所遭受的模糊和时间上的伪影。如图3所示，MPDT生成器有三个输入：(1)在第3.3节生成的变形服装序列˜CT1；(2)由DensePose序列DT1和姿势序列PT1在第3.1节生成的人体形状序列DT1⊕PT1连接而成的人体形状序列DT1；(3)与服装无关的序列AT1。对于模型架构，MPDT生成器由三个帧级编码器、MPDT块和一个帧级解码器组成。基于Transformer的MPDT块是核心组件，旨在聚合来自变形服装流和与服装无关流的时空特征。嵌入查询和键-值对的嵌入在Transformer中起着关键作用。对于MPDT块，设计了两组键-值对嵌入和一组查询：0αC i,j =0...0softmax j0√r1×r2×cn0...0，pkCj∈ΩC00，p k C j不属于Ω C0AttCi =0j=1αC i,j.pvCj (8)0其中，p q i表示第i个查询补丁，p k C j和p v Cj表示第j个键-值补丁，ΩC表示可见的服装区域。类似地，查询补丁和与服装无关的补丁之间的注意力值Att Ai的计算方式与公式（8）相同。然后，我们以多头方式应用注意力，并将来自不同头部的注意力值连接起来，得到AttC和AttA。我们通过连接后跟一个1x1卷积来融合这两个流：0o = � Att C ⊕ Att A � W 1 + b 1 (9)0其中，⊕表示连接，W 1和b1是可学习的1x1卷积的参数。当前MPDT块中的结果o和查询q（通过残差连接添加）将作为下一个块的查询。然后，帧级解码器同时渲染人物图像序列I R T1并预测组合掩码序列M C T 1。我们使用M C T 1将I R T1和变形的服装序列˜ C T1融合在一起，以增强生成服装的纹理细节，这对于˜ C T1的时间平滑性至关重要。0I masked T 1 = M C T 1 ⊙ ˜ C T 1 + (1 − M C T 1)0为了重建复杂的背景并专注于虚拟试穿任务，我们使用服装不可知图像和I masked T1使用第3.1节中定义的服装不可知掩码序列M a T1进行融合，合成最终的输出˜ I T 1：0˜ I T 1 = (1 − M a T 1) ⊙ I masked T 1 + M a T 10最后，我们使用时空损失来训练MPDT。在空间维度上，我们包括l1损失和感知损失[24]，以确保逐像素的重建准确性。在时间维度上，我们使用Temporal PatchGAN (TP-GAN) [5,6]作为鉴别器，以提高生成视频的时间一致性。总体目标函数如下：0L try-on = λ 1 L whole l 1 + λ 2 L clothes l 1 + λ 3 L perc + λ 4 L TPGAN (12)0其中，L whole l 1表示整个图像的L1损失，L clothes l1表示服装区域的L1损失。L T P GAN是对抗损失。λ i，i ∈{1, 2, 3, 4}是超参数。108040图3.MPDT生成器的示意图，包括三个帧级编码器，堆叠的MPDT块和一个帧级解码器。MPDT块是核心模块，一方面，MPDT块从变形的服装序列˜ C T 1中搜索和提取纹理和颜色内容，另一方面，MPDT块从服装不可知人物图像序列A T1中借用环境和人物身份信息来合成身体、填充掩码背景并使生成的服装更加和谐地与环境融合。0方法数据集 SSIM LPIPS VFID I3D VFID ResNeXt1010CP-VTON [36] VVT 0.459 0.535 6.361 12.10 ACGPN[44] VVT 0.853 0.178 9.777 11.98 PBAFN [13] VVT0.870 0.157 4.516 8.690 FW-GAN [9] VVT 0.675 0.2838.019 12.15 MVTON [48] VVT 0.853 0.233 8.367 9.702ClothFormer VVT 0.921 0.081 3.967 5.0480CP-VTON [36]我们的 0.682 0.299 13.11 31.19 ACGPN[44]我们的 0.786 0.243 16.21 32.54 PBAFN [13]我们的0.841 0.188 11.15 28.62 FW-GAN [13]我们的 0.7050.344 13.71 28.31 CP-VTON* [36]我们的 0.929 0.0687.463 11.30 ACGPN* [44]我们的 0.936 0.066 10.8913.91 PBAFN* [13]我们的 0.932 0.066 6.132 10.88ClothFormer † 我们的 0.953 0.047 5.071 9.018ClothFormer � 我们的 0.959 0.042 5.140 9.394ClothFormer � 我们的 0.949 0.050 5.653 9.721ClothFormer-tiny 我们的 0.955 0.045 5.208 9.153ClothFormer 我们的 0.958 0.042 5.024 8.9710表1.在VVT数据集和我们的新收集数据集上与之前方法的比较。对于SSIM，数值越高越好。对于LPIPS和VFID，数值越低越好。ClothFormer †，ClothFormer �，ClothFormer�和ClothFormer-tiny是用于消融研究的ClothFormer变体。04. 实验04.1. 实验设置0数据集。在VVT[9]数据集和我们收集的数据集上进行实验。VVT数据集包含791个分辨率为192×256的视频。训练集和测试集分别包含159,170和30,931帧。0然而，在VVT数据集中，背景主要是白色的，人体姿势单调简单。相比之下，我们收集了一个具有复杂环境、复杂姿势和遮挡的野外虚拟试穿数据集，包含3995个视频。训练集和测试集分别包含1799,65和25,710帧。此外，我们的数据集中的每个视频都通过采用镜头转换检测[34]分成几个连贯的子视频。训练和测试。我们分别训练变形模块和试穿模块，并将它们组合起来生成最终的试穿图像。在训练过程中使用成对设置来训练模块。在测试过程中，我们使用一个人物和一个服装图像的配对设置来评估，对于无配对设置，我们像之前的方法一样对服装图像进行洗牌[8][44]。此外，VVT数据集中的视频被分成连贯的子视频来训练和测试方法。04.2. 定性分析0我们首先在VVT数据集上将提出的方法与基于视频的方法FW-GAN [9]，MV-TON [48]和基于图像的方法CP-VTON[36]，ACGPN [44]和PB-AFN[13]进行了全面的实验比较。此外，为了验证我们的模型在复杂环境和人物图像中出现遮挡时的优越性能，我们将ClothFormer与上述所有方法（除了MVTON[48]）在我们的数据集上进行了比较，因为MVTON[48]的测试代码和在VVT数据集上的预训练模型是可用的，但训练代码不可用。（注：需要观看视频以比较定性结果，请参考链接或补充材料）。图4显示了VVT数据集上的一些定性结果。由CP-VTON，ACGPN，FW-GAN和MV-TON生成的衣服显示出许多视觉伪影，包括模糊和混乱的纹理。虽然PB-AFN合成的每一帧都是逼真的，但生成的视频缺乏时间上的连续性。108050图4. 在VVT数据集上与基线方法的视觉比较。 (a) 是参考人物，(b)是目标衣服。ClothFormer产生了一个时间上一致的视频输出，并清晰地保留了目标衣服的细节。0图5. 在我们的数据集上与基线方法的视觉比较，(b)是训练CP-VTON*，ACGPN*，PB-AFN*和ClothFormer时的无关衣服图像组合，如公式（11）所示。第一行显示ClothFormer生成了更协调的结果，第二行显示ClothFormer在衣服区域出现交叉手臂时生成了更令人满意的结果。0具体来说，PB-AFN生成的衣服纹理即使人物静止时也会闪烁不规则。与基线方法相比，ClothFormer产生了一个时间上一致的视频输出，并保留了目标衣服的细节。0为了比较ClothFormer和基线方法在复杂环境和人物图像中出现遮挡的衣服区域的性能，我们在我们新收集的数据集上进行了实验。我们首先根据它们的原始设置训练了基线方法CP-VTON，ACGPN和PBAFN。然而，与VVT数据集不同，基线方法可以重建白色背景；我们数据集中参考人物的背景太复杂，这些方法无法重建。因此，为了公平比较，像ClothFormer一样，在训练过程中我们融合了无关衣服区域和这些方法的输出，分别表示为CP-VTON*，ACGPN*和PBAFN*。从图5的第一行的样本结果可以轻松地观察到，与基线方法相比，我们的方法在视觉一致性方面表现更好。一方面，基线方法生成的衣服和人体看起来不自然。0在复杂环境中，ClothFormer生成的衣服和人体与复杂背景完美协调。另外，ClothFormer可以在视频中填充生成的人体和衣服周围的区域，而基线方法则失败了。从图5的第二行的样本结果可以看出，当人物图像出现交叉手臂等遮挡时，PB-AFN生成的结果不自然，出现像素挤压现象，CP-VTON无法生成手臂，ACGPN生成了虚假和闪烁的手臂。相比之下，我们的ClothFormer即使在遮挡出现时也能准确地将衣服变形到目标人物上。两行FW-GAN的结果甚至没有生成一个类人形体，因为FW-GAN只使用第一帧的RGB信息和后续帧的姿势信息来生成视频，在我们的数据集中，由于复杂的背景和复杂的姿势，它不可避免地实现了令人不满意的性能训练。04.3. 定量分析0如表1所示，我们进行了定量实验，以图像评估指标和基于视频的评估指标为基础。108060图6. 抗遮挡变形模块的效果。0图7. 外观流跟踪模块的效果。0图8. MPDT生成器的效果。0视频评估指标。对于图像结果，我们使用结构相似性（SSIM）[41]和学习的感知图像补丁相似性（LPIPS）[47]在成对设置中评估我们的方法。对于视频结果，我们使用视频Frechet InceptionDistance（VFID）来衡量视觉质量和时间一致性，在非配对设置中提取了两个预训练视频识别CNN骨干网络的时间和空间特征：I3D [4]和3D-ResNeXt101[19]。与基于图像和视频的方法在VVT数据集上相比，ClothFormer在很大程度上优于它们，ClothFormer还在我们新收集的数据集上超过了基线方法，无论是否融合了无关的服装区域，这证明ClothFormer在生成高质量和时空一致的试衣视频方面具有很大优势。为了追求速度改进，我们尝试通过将MPDT的通道数从256减少到96和块的堆叠数从8减少到6（ClothFormer-tiny）来压缩ClothFormer，FLOPs从70.29G减少到10.63G。然而，定量指标仍然优于其他方法。04.4. 消融研究。0我们通过在我们收集的数据集中创建三个变体来进行消融研究，包括抗遮挡变形模块、外观流跟踪模块和MPDT生成器。抗遮挡变形模块的有效性如0如图6所示，ClothFormer†没有抗遮挡变形模块生成的变形衣物序列和生成结果的红框区域存在像素挤压现象的伪影。相反，我们的ClothFormer能够生成令人满意的结果，这证明了抗遮挡变形模块具有对抗遮挡生成准确变形的能力。外观流跟踪的有效性如图7所示。0显示了ClothFormer生成的衣服纹理�没有外观流跟踪模块时会不规则闪烁，验证了外观流跟踪对模块产生了更平滑的时间结果的益处。MPDT生成器的有效性如图8所示，ClothFormer�使用U-Net试衣生成器的结果存在一些弱点，例如，非目标身体部位看起来假，上半身周围的区域模糊，生成的衣服与背景不协调。相反，我们的ClothFormer使用MPDT生成器能够合成更逼真、自然和令人愉悦的结果，这证明了MPDT块中双流结构的优越性。此外，如表1所示，ClothFormer†的VFID分数接近ClothFormer，而SSIM和LPIPS存在差距，相反，ClothFormer�的SSIM和LPIPS值与ColthFormer几乎相同，而ClothFormer在VFID上表现优于ClothFormer，这表明抗遮挡变形模块有助于生成更准确的变形结果以合成更照片逼真的图像，而外观流跟踪模块有助于生成更平滑的视频。表1还显示ClothFormer在所有指标上优于ClothFormer�，这证明了我们的MPDT生成器的有效性。05. 结论。0我们提出了一种新颖的视频虚拟试衣框架，即ClothFormer，旨在生成逼真的试衣视频，同时保留衣服的特征，人物身份的细节（姿势，身体部位，底部衣物）和背景。我们提出了三个精心设计的模块，即帧级别的抗遮挡变形模块，外观流跟踪模块和MPDT生成器。定性和定量实验证明，ClothFormer在现有的虚拟试衣方法中具有较大的优势。0致谢0我们感谢Qinkai Zheng帮助我们修改论文，感谢PeipeiShi和Zhiqiang Qiao在数据集收集方面的帮助。108070参考文献0[1] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll. Multi-garmentnet：从图像中学习给3D人物穿衣。在IEEE/CVF国际计算机视觉会议论文集中，第5420-5430页，2019年。30[2] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.实时多人2D姿势估计：使用部分亲和场。在IEEE计算机视觉和模式识别会议论文集中，第7291-7299页，2017年。30[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测。在欧洲计算机视觉会议论文集中，第213-229页。Springer，2020年。20[4] Joao Carreira and Andrew Zisserman. Quo vadis, actionrecognition?一种新模型和动作数据集。在IEEE计算机视觉和模式识别会议论文集中，第6299-6308页，2017年。80[5] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and WinstonHsu.带有3D门控卷积和时间PatchGAN的自由形式视频修复。在IEEE/CVF国际计算机视觉会议论文集中，第9066-9075页，2019年。50[6] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and Winston Hsu.可学习的门控时间位移模块用于深度视频修复。arXiv预印本arXiv:1907.01131，2019年。50[7] Chieh-Yun Chen, Ling Lo, Pin-Jui Huang, Hong-HanShuai, and Wen-Huang Cheng.FashionMirror：具有顺序模板姿势的共同注意力特征重映射虚拟试穿。在IEEE/CVF国际计算机视觉会议论文集中，第13809-13818页，2021年。1，2，40[8] Seunghwan Choi, Sunghyun Park, Minsoo Lee, andJaegul Choo.Viton-HD：通过对齐感知归一化实现高分辨率虚拟试穿。在IEEE/CVF计算机视觉和模式识别会议论文集中，第14131-14140页，2021年。1，2，3，60[9] Haoye Dong, Xiaodan Liang, Xiaohui Shen, Bowen Wu,Bing-Cheng Chen, and Jian Yin.FW-GAN：视频虚拟试穿的流导航变形生成对抗网络。在IEEE/CVF国际计算机视觉会议论文集中，第1161-1170页，2019年。1，2，3，4，5，60[10] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly等.一幅图像价值16x16个单词：大规模图像识别的Transformer。arXiv预印本arXiv:2010.11929，2020年。20[11] Zhenye Gan, Lizhuang Ma, Chengjie Wang, and YicongLiang.改进的基于CNN的移动设备上150fps的面部关键点跟踪方法。在2017年第10届国际图像与信号处理、生物医学工程与信息学大会（CISP-BMEI）论文集中，第1-9页。IEEE，2017年。40[12] Chongjian Ge, Yibing Song, Yuying Ge, Han Yang, WeiLiu, and Ping Luo. 高度解耦的循环一致性用于0真实虚拟试穿。在IEEE/CVF计算机视觉和模式识别会议论文集中，第16928-16937页，2021年。1，30[13] Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge,Wei Liu, and Ping Luo.无解析器的虚拟试穿：通过蒸馏外观流。在IEEE/CVF计算机视觉和模式识别会议论文集中，第8485-8493页，2021年。1，3，4，60[14] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, MingYang, and Liang Lin.通过部分分组网络实现实例级人体解析。在欧洲计算机视觉会议（ECCV）论文集中，第770-785页，2018年。30[15] Rıza Alp G¨uler, Natalia Neverova, and Iasonas Kokkinos.Densepose: 野外密集人体姿态估计. 在2018年IEEE计算机视

下载后可阅读完整内容，剩余1页未读，立即下载