基于3D先验的虚拟试穿模型(ZFlow)的研究与应用

157 浏览量更新于2023-10-15 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5433ZFlow：基于3D先验的Ayush Chopra*†2，Rishabh Jain*‡3，Mayur Hemani1，and BalajiKrishnamurthy11媒体和数据科学研究实验室，Adobe2麻省理工3位Pilani摘要基于图像的虚拟试穿涉及合成穿着特定服装的模特的感知上令人信服的图像，并且由于其巨大的实用性而引起了重大的研究兴趣最近的方法包括两个阶段的过程：i）使服装翘曲以与模型对准; ii）使翘曲的服装和目标模型纹理融合以生成试穿输出。由于服装的非刚性性质以及缺乏关于模型或服装的几何信息而出现问题。这通常导致颗粒细节的不适当渲染我们提出了ZFlow，一个端到端的框架，旨在减轻这些问题的几何和纹理的完整性（如姿势，深度排序，皮肤和领口再现）通过门控聚集的层次流估计的组合，称为门控App-perance流，和密集的结构先验在网络的各个ZFlow实现了定性观察到的最先进的结果，以及图像质量的定量基准（PSNR，SSIM和FID）。本文提出了与其他现有解决方案的广泛比较，包括详细的用户研究和消融研究，以衡量我们的每个贡献对多个数据集的影响。1. 介绍随着最近的社会文化事件加速向在线商务的转变，人们对提供智能和直观的体验越来越感兴趣[19，27，3，1，6，22]，可以弥补店内互动的缺乏。虚拟试穿涉及在个性化设置中的衣服的可视化，并且对于过多的现实世界应用是非常重要的。虽然很有吸引力*平等贡献†在Adobe MDSR实验室‡在Adobe MDSR实习图1.基于图像的虚拟试穿涉及合成试穿输出，其中目标模特穿着店内服装，同时保留模特和服装的其他特性上面的输出是由我们提出的方法ZFlow在深度学习复兴之前[37，15，8]，生成网络的最新进展激发了研究人员追求基于图像的虚拟试穿[41，19，40，13，43]，仅基于RGB图像，通过将问题公式化为条件图像合成。给定隔离的店内服装和目标模特的图像作为输入，基于图像的虚拟试穿的目的是合成感知上令人信服的新图像（称为试穿输出），其中目标模特穿着店内服装（图1）。最近的方法采用由以下组成的两步法：a）对店内服装进行翘曲以与目标模型的姿势和体型对准，以及b）对翘曲的服装和目标模型图像进行纹理融合以生成试穿输出。成功的试穿体验取决于合成保留服装和模型两者的纹理和几何完整性的清晰、逼真的由于服装的非刚性性质以及缺乏对服装和模型的3D几何形状的理解，不正确的翘曲或不正确的纹理融合会产生问题这导致无法令人信服地呈现颗粒状服装细节。缓解这些担忧是这项工作的重点。最近的研究[14，40，19，41]已被导向-5434面对这些挑战。[14，40]提出了基于薄板样条（TPS）的服装图像的扭曲。[19，41]分别通过多级级联参数估计和二阶差分约束来提高TPS翘曲的稳定性。然而，当需要大的几何变形时，基于TPS的扭曲导致不准确的变换估计，因为每个参数定义了粗糙像素块的空间变形。为了解决这个问题，[13]提出使用密集的每像素外观流[45]预测来使服装图像空间但由于自由度高和缺乏适当的正则化，这种方法往往会导致在翘曲过程中产生严重的变形，从而导致显着的纹理伪影。为了解决这两个问题-TPS无法处理大的变形，以及出现流的过度扭曲 - 我们引入了门控外观流（GAF），其通过聚合跨多个尺度预测的候选流估计来正则化每像素外观流接下来，为了改善纹理融合，特别是出血颜色的问题，[19，41]提出使用目标服装分割的先验估计作为条件，用于试穿输出然而，这种方法的结果在深度感知和身体部位排序，因为没有3D几何先验的歧义。这在领口的产生和处理具有遮挡的情况中是显著可见的。例如，服装的一部分，应该去后面的脖子出现在前面。为了对3D几何信息进行编码，我们将UV投影图与密集身体部位分割（通过Dense- Pose [12]获得）相结合，作为扭曲和纹理融合期间的先验。我们的贡献可归纳如下：• 我们提出了ZFlow，一个端到端的尝试框架，利用门控外观流量估计和密集的几何先验来呈现高质量的尝试结果。• 我们提出了广泛的定量和定性的比较parisons以及详细的用户研究，以显示显着的改进，国家的最先进的方法。• 我们通过消融研究分析ZFlow中不同设计选择的影响。我们进一步加强GAF的功效，通过调整它，以提高国家的最先进的人体姿势转移。2. 相关工作虚拟试穿深度学习的进展促使基于2D图像的试穿成为使用3D扫描仪进行服装项目虚拟试衣的旧方法的可扩展替代方案（[32，28，37，46这些新的基于2D图像的方法[14，40，41，19，13]中的大多数提出了从参考图像和隔离的服装图像合成模型的真实图像的问题VITON [14]使用基于薄板样条（TPS）的扭曲方法来使服装图像变形，并使用编码器-解码器细化模块将扭曲的服装映射到模型图像CP-VTON [40]使用神经网络回归TPS的变换参数，对[14]进行了改进。SieveNet[19]通过在多个互连阶段上估计TPS参数来改进[40，14]，并且还提出了一个条件布局约束，以更好地处理纹理融合期间的姿势变化，出血和遮挡ACGPN[41]利用类似的布局约束，并且还对TPS翘曲施加二阶约束以保留局部图案。然而，这些方法只能模拟有限的几何变化，往往不自然的变形服装，由于有限的自由度，在TPS变换。ClothFlow [13]使用在多个级联级上预测的每像素外观流[45]（而不是TPS），并且还利用如[19，41]中的条件布局约束。外观流[45]用于通过计算逐像素2D变形场来将源场景空间变形为目标场景。这在概念上与光流不同，我们请读者参考[30]以讨论差异。每像素流估计中的高自由度以及有限的（3D）结构信息通常导致几何未对准以及不自然和渗色纹理。我们提出了ZFlow，一个端到端的框架，旨在保持几何和纹理的完整性，通过门控聚合的分层流估计跨像素块级别（门控外观流）和密集的结构先验（密集的几何先验）在网络的各个阶段。3D姿态表示神经网络的3D表示的最佳选择单幅图像3D重建中的最新工作已经探索了体素、点云、八叉树、表面和体积表示[38，25，42，2，44，20，18]。基于表面的表示方法[2，42]使用UV图[10]来建立像素和人体表面之间的密集对应。为了在我们基于图像的设置中保持试穿输出的几何完整性（深度排序，姿势，皮肤和领口重建），我们使用从预训练的DensePose [12]获得的UV映射和身体部位分割掩模形式的密集几何先验。这些先验知识有助于处理复杂的姿势，即使在严重遮挡的情况下。给定一个人的参考图像和一个目标姿势，任务是合成一个所需姿势的模型[26]使用两级引导的图像到图像转换网络来生成目标。最近的工作[35，7，4，13，23，11]结合了从源到目标的空间变形，以获得更好的感知质量。ClothFlow [13]使用堆叠网络来扭曲源服装像素，在多个互连阶段Dense Intrinsic Flow（DIF）[23]引入了流回归模块，以将输入和目标骨架姿势与3D外观流进行映射，然后使用该3D外观流我们验证了EF-5435BP图2.ZFlow包括两个模块：A）服装变形，以使服装Ip变形以与模型Im对准并生成变形的服装（Iwrp），以及B）纹理融合，其具有两个子步骤：i.预测模型Mexpii的试穿后服装分割的条件分割密集融合，其组合扭曲的服装（Iwrp）和分割掩模（Mexp）以生成最终输出（Itryon）。用于服装翘曲的门控外观流通过正则化每像素流估计来改进I试穿的纹理完整性密集几何先验I先验提高了试穿输出的几何完整性。通过将其调整为[23]中的3D流的回归，实现了门控外观流的虚构性我们注意到姿势转移[29]中的后续工作，但强调[23]对于我们验证GAF的功效的目的是理想的。3. 方法ZFlow将目标模特（Im）和隔离的服装产品（Ip）的图像作为输入，以生成试穿输出I试穿，其中目标模特穿着服装。这种转变由两个关键阶段组成：（A）服装翘曲，其使 Ip变形以与Im中的模型的姿势对准并生成Iwrp。（B）纹理融合，其将翘曲的服装Iwrp与Im组合以在两个步骤上生成Itryon：（B-1）条件分割和（B-2）分割辅助融合（如图2所示）。3.1. 服装整经基于目标模型Im的姿态和形状来扭曲Ip，以产生扭曲的服装图像Iwrp。为此，我们提出了门控外观流估计每-通过聚合跨多个尺度（像素块大小）预测的候选估计来确定像素扭曲参数。3.1.1丰富的输入因为训练其中相同模特穿着两件不同服装的三元组是不可用的，所以当代方法使用目标模特（Im）的服装不可知先验连同服装Ip作为输入。我们扩展了传统的二进制（1通道）身体形状，（18通道）姿势图和（3通道）头部区域先前使用的[41，19，13]与额外的密集（11通道）身体部位分割（Mgt），以提供更丰富的结构先验（I先验）。正如我们在第6节中描述的，这种微妙的增强通过网络进行级联，并导致输出中的伪影显著3.1.2门控外观流该模块通过跨多个尺度聚合候选流估计来亲-5436--、MMSMGTMWWRPWRPLCSn我我我LLGTCESS包括首先预测流量估计，然后使用选通机制将它们与确保流量预测的平滑性（和规律性）的损耗一起聚集。多尺度外观流量预测骨干网络是12 层Skip-Unet[31]。给定大小为（H，W）的输入RGB图像，使用最后K个解码层来预测候选流图（对于l∈ {0，…K}）使得预测的映射f1是映射f1 -1的大小的两倍。然后对所有地图进行插值以具有相同的高度和width（H，W）生成对应于结构层次的K个候选使用卷积门控递归网络（Con-vGRU）[34]（在图2（A）中总结），组合候选流以获得聚合的每像素外观流（fagg直观地，这是通过门控（允许或拒绝）对应于不同径向邻域（对于多个尺度）的像素流这通过规则化密集的每像素外观流中的高自由度来防止服装图像的过度扭曲我们证实了这一立场与广泛的烧蚀研究在第6.1节中，我们提出并对比了几种替代的流动聚集机制。接下来，使用聚合外观流图f agg来扭曲服装图像I p和掩模M p，以分别获得扭曲的图像I wrp和扭曲的二进制服装掩模M wrp。另外，对于l ∈0，…，K也用于产生中间扭曲图像和掩模wrpwrp）。损失每个扭曲图像（最终和中间）相对于模型图像的服装区域经受L1损失L1和感知相似性损失L vgg[36]。每个预测的扭曲掩模经受关于Mgt的重构损失。预测的流图经受总变化损失（β4L tv（f 1））以确保流预测的空间平滑性。组合翘曲损失被定义为Lwrp：Lwrp=L w（I wrp，M wrp，f agg）L=K对于GAF用于估计外观流的功效的扩展验证该任务涉及从参考图像产生处于目标姿势我们注意到，与其中GAF用于基于模型姿势使服装翘曲的虚拟试穿相比，这里它使目标模型姿势本身翘曲。DIF [23]是一种最近的姿势转移方法，它首先在3D外观流上回归以将输入映射到目标姿势，然后使用流估计对输入执行特征扭曲。我们交换在我们提出的GAF三维流回归，同时保留DIF的功能扭曲我们在生成的图像中观察到显著的质量改善，并在第6节中讨论结果。3.2. 纹理融合一旦获得翘曲服装（Iwrp），则在两个步骤上生成最终试穿输出（图2B- 1和B-2）：首先，预测条件掩模Mexp，其对应于在试穿中的服装变化之后的目标模型的服装分割。然后，将M exp与翘曲的服装（I wrp）以及纹理和几何先验相结合以产生试穿输出（I tryon）。3.2.1条件分割该模块的输入是服装图像（Ip）和密集服装不可知表示（I先验）。I先验对目标人的几何形状进行编码，并且对模型穿着的特定服装是不可知的。这对于防止过度拟合是重要的，因为流水线是在成对数据上训练的，其中输入和输出是相同的图像（并且因此具有相同的分割掩码）。网络架构是具有六个编码器和解码器层的Skip-UNet [31]，并且输出Mexp是7通道服装分割掩码。该模块利用相对于利用预训练的人类解析器（如在[19，41，13]中使用的）获得的地面实况服装分割掩模（Mgt增加皮肤和背景类的权重（在我们的实验中为3.0），以更好地处理出血和自遮挡，其中人的姿势导致服装或身体的某些部分损失表示为：6（一）+ ΣL（Il，Ml ，f）L=−1Σ Σw Pgt log（Ppred）ni=0时为了Lw（I，M，f）=β1I⊙M，Im⊙Mgt1+β2Lvgg（I⊙M，Im⊙Mm）+β3M，M1+β4Ltv（f）（二）其中wi=[3，1，1，1，3，1，1]，i ∈[0，6]我们观察到，使用密集服装不可知表示改善了深度感知和Mexp中的遮挡处理，这导致具有较少伪影的试穿输出。我们将在6.2节中进一步讨论这一点。（一l=0（三）5437∗BPSBP∇∇expbpuvUV3.2.2分段辅助的密集融合该阶段生成最终的试穿输出。该阶段的网络架构也是具有六个编码器和解码器层的Skip-UNet [31]。网络输入包括先前阶段的输出（Iwrp和Mexp）和表示Im的非服装像素的纹理平移先验（Ittp=Im Mexp）。为了包括模型的3D几何形状，我们还输入由UV图（Iuv）和身体部位分割（Mgt）组成的密集先验（称为IUV先验）。的目标模型。我们注意到，Mgt（身体部位分割）是身体几何形状的函数（特定服装的不可知性），并且不同于随着更换服装而改变的Mexp（或Mgt）（布料试戴输出（Itryon）被定义为：单独地，我们使用以下损失函数优化ZFlow端到端：Ltotal = α1 * Lwrp + α2 * Lcs + α3 * Lfus（7）其中α1，α2，α3是纯量超参数。4. 实验在本节中，我们正式设置我们的实验与虚拟试穿和人体姿势转移。数据集对于基于图像的虚拟试穿，我们使用VI-TON数据集[14]来确保与基线方法的一致性它包含19000个正面女性模型的图像和尺寸为256x192的相应的上衣隔离服装图像。有16253个已清洁的线对，它们被分成14221和2032个线对的列车和测试集我们Itryon=Mout*Iwrp+（1−Mout） *Irp（四）还从序列组中分离出500对，放入专用于定量分析的验证组中。的其中M_out和Irp由网络生成。出去了是试穿输出中的衣服像素的复合掩模，并且Irp是包括试穿输出中的除了衣服之外的所有目标模型像素的渲染人。为了保持试穿输出的结构和几何完整性，我们还约束网络以重建输入服装分割（作为Mpred）和IUV（作为Mpred，Ipred）先验，其在该步骤期间不变。损失I tryon受到关于模型图像I m的L1、感知相似性[36]（L vgg）和边缘（L edge）损失。 L边缘基于Sobel滤波器（x和y）并且提高了再现纹理的质量。Fi-测试集中的图像被重新排列成不成对的组以用于定性评估。对于人体姿势转移，我们使用来自Deep Fashion数据集[24]的店内服装基准按照DIF [23]中的设置，我们分别选择89262对和12000对进行训练和测试。所有实验都是在Tesla V100 GPU上使用Pytorch进行的。对于虚拟试戴，所有模块都使用Adam [21]训练30个epoch，批量大小为4，学习率为1 e-4。我们为门控外观流设置K= 3，预热周期τnally，Mpred，Mpred而我都要接受侦察是5个时期。对于人体姿势转移，我们训练流expbpuv结构损失与其相应的网络输入（分别为Mexp、Mgt和Iuv这种重建损失使用Adam [21]，使用学习率= 1 e-4的40个时期的回归模块，并保留[23]中的配置BP（L重建）组合交叉熵（LCCE ）对于分类特征变形模块其他超参数详细信息masks（Mpred，Mpred）和平滑L1。都在附录里expbpUV对于虚拟试穿，我们使用SSIM [33]，经纱服装和试穿的FID [16]和PSNR [17]Lfus=λ1*Itryon−Im 1+λ 2*Lvgg（Itryon，Im）+λ3 *Ledge（Itryon，Im）+λ4 *L重建其中，Lrecon=L cce（Mpred，M exp）+L cce（Mpred，Mgt）（五）输出.在[5]中提出的考虑之后，我们避免了初始评分（IS）。对于人体姿势转移，我们使用SSIM [33]和PSNR [17]评估性能，以确保与基线的一致性。我们注意到这些指标的选择，以确保与以前的工作一致的比较exp+Ipred−IuvsmoothL1英国石油公司（六）基线对于虚拟试穿，我们将性能与几种最新的最先进的方法进行比较，包括CP-我们观察到，通过L重建与这些几何先验的条件纹理融合通过改善的深度感知和结构一致性提高了试穿输出的质量，并在第6节中用证据解释了这种效果。3.3. 培训在训练翘曲和纹理融合模块的τVTON [40]、SieveNet [19]、ClothFlow [13]、VTNFP [43][41 ][42][43]对于[40，19，41]，我们使用作者提供的实现并进行了广泛的定性和定量比较。5. 结果我们提供了定量（表1）和定性结果（图3）以及用户研究，该研究强调了ZFlow优于强基线。5438方法SSIM↑PSNR↑FID↓VTNFP [43]†ACGPN [41]†0.8030.845----CP-VTON [40]0.78421.0130.50SieveNet [19]0.83723.5226.67ClothFlow [13]0.84323.6023.68ZFlow0.88525.4615.17表1. ZFlow实现了对现有基线的显著改进。t结果可以被推断为指示性的，因为它们是从相应的论文中转移的。定量结果表1将ZFlow的性能与虚拟试穿的最新基线进行了比较。我们使用作者提供的实现报告基于TPS的基线[40，19]的性能。与[40，19]相比，ZFlow实现了显著更好的0.885的SSIM， 25.46的PSNR和15.17的FID ，与次佳值（ SSIM=0.845 ， PSNR=23.60 和FID=23.68）相比我们注意，具有GAF的ZFlow明显优于Cloth- Flow[13]，Cloth- Flow [ 13 ]使用针对服装图像的基于每像素外观流的变形。请注意，ClothFlow [13]的官方代码不可用，我们按照描述实现它并重现所述SSIM值。定性结果图3说明了与SieveNet [19]、CP-VTON [40]和ACGPN [41]的定性比较，这些基线具有可用的代码实现。我们沿着不同的质量维度对比试穿输出。这些因素包括确定所生成的图像作为整体的真实性以及局部几何形状、颜色和图案的因素。行（1-5）展示了几何完整性的改善-目标模型、服装的几何形状的准确表示以及它们在试穿输出中的相互作用具体地，我们观察到ZFlow改进了极端姿势的处理（第1行）、身体部位（特别是手和颈部区域）的深度排序（第2行）、用于目标服装和人类皮肤的正确可见性的皮肤生成（第3行）以及与服装结构一致的领口再现肩部校正我们在第5行中突出了改进的领口再现和深度排序，其中没有基线能够消除服装领口的正面和背面的歧义。行（6-10）表明纹理完整性的改善，其涉及在试穿输出中店内服装的图案和颜色的准确再现以及相关伪影的处理。具体地，我们观察到ZFlow改善了图案和纹理（行6、7中的条纹）、服装的印刷设计（行8中的图形）、写在服装上的文本（行9）的再现，并且防止跨部件边界的渗色（行10）。生成的图像中的阴影和高光，尤其是图3. ZFlow与[40，19，41]的定性比较。行1-5反映了在保持几何完整性方面的改进，行6-10反映了纹理完整性。请注意：（a）复杂姿势（b）身体部位的深度排序（c）皮肤生成（d，e）颈线和肩部校正（f，g）图案（h）纹理，（i）文本，（j）减少跨部位边界的出血。第11行（k）逼真的轮廓线阴影，图像质量更清晰. (Best以变焦观看）。更多结果请参见附录（第3-5页5439基线首选基线首选ZFlowCP-VTON [40]百分之八百分之九十二SieveNet [19]百分之十五百分之八十五ACGPN [41]百分之二十九百分之七十一表2.测量ZFlow相对于竞争基线的人类偏好的调查结果百分比指示被投票为优于比较方法的图像的比率。尤其是沿着身体部位的边界，对于正确地表示实际场景的动态也是重要的。第11行显示了沿该维度的改进。用户研究我们对来自3大洲、5个国家、10个机构的70名志愿者进行了一项调查，涉及不同年龄、性别和职业。与[41]中一样，我们使用成对比较，其中向每个用户显示从2000个测试集结果中随机抽样的100个不同的结果对每对由一个ZFlow结果和从（三个中的一个）基线（[41，19，40]）的结果采样的另一个组成还针对每个结果对示出了每个志愿者被要求在不限时间内从每个结果对中的两个结果中选择最佳输出。表2中的结果显示在所有成对比较中对ZFlow的压倒性的明显偏好6. 消融研究在本节中，我们分析了ZFlow的不同贡献的影响，并在表3中总结了结果。6.1. 门控外观流（GAF）首先，我们通过将GAF与ClothFlow [13]中提出的现有基于每像素外观流的变形技术进行比较，证明了GAF对服装图像变形的影响接下来，为了证明我们选择使用ConvGRU层来聚合分层候选外观流估计，我们提出了替代流聚合方案并报告与ConvGRU的比较。表3的ClothFlow和GAF行1和2将如[13]中所述的用于服装图像扭曲的每像素外观流的使用与所提出的分层流估计（GAF）的门控GAF明显优于香草翘曲方法，证实了我们的立场，即门控聚合产生优异的结果，无论是翘曲阶段，以及为试穿输出。GAF的设计选择在表3、4和5行i）使用残差门控对最后两个解码层的流估计执行残差求和（来自[39ii）使用ConvLSTM用于三个层（3个尺度）上的流估计聚合，以及结果清楚地图4.使用GAF用于姿势转移中的流动回归改善了皮肤生成（行1）并减少了出血（行2）。使用ConvGRU进行门控聚合会产生这是三者中最好的结果，因此在GAF中使用。此外，我们注意到，所有三个聚合方案在翘曲服装和试穿输出两者的度量上都显著优于ClothFlow例如，ConvGRU相对于ClothFlow [13]改进了经纱服装SSIM（从0.835到0.871）我们注意到，这种好处转化为试用输出，其中我们观察到SSIM（从0.843到0.865）、PSNR（从23.60到24.47）和FID（从23.48到18.89）的一致增益人体姿势转移中的GAF作为所提出的外观流聚集的功效的附加测试，我们基于基线DIF [23]将其调整为用于人体姿势转移任务的流回归。这导致姿势转移输出的定性（图4）和定量（表4）改进图4给出了在所生成的图像中显示显著改善的皮肤生成（行1）、纹理（行2）和减少的出血（行1、2）的证据我们用表4中的结果证实了这一点，表4表明SSIM（从0.778和0.791）和PNSR（从18.59到19.26）有相当大的改善。我们还注意到与ClothFlow [13]相比的显著增益，ClothFlow [ 13]也使用流量回归作为GAF功效的验证6.2. 输入先验、损失和培训稠密服装不可知表示（I先验）被提出作为服装翘曲和条件分割的结构先验。图5示出了这改善了试穿输出中的深度感知、皮肤生成（行1）和领口重构（行2）。我们注意到在服装整经期间的类似改进（附录中的定性），这通过经向服装的PSNR的增加得到证实（表3中的第5行对第6行）。5440BP配置经编服装（Iwrp）Try-On输出（Itryon）服装整经纹理融合SSIM↑PSNR↑SSIM↑PSNR↑FID↓ClothFlow [13]BaseFuse0.83520.540.84323.6023.68GAFBaseFuse0.87123.140.86524.4718.89用于流聚合的各种门控方法剩余门控BaseFuse0.85622.090.85524.1121.64LSTMBaseFuse0.86222.560.86024.3318.89ConvGRU（GAF）BaseFuse0.87123.140.86524.4718.89损失函数GAF（有/无先验）BaseFuse +L边缘0.87123.280.87525.0219.39GAF（有/无先验）BaseFuse +L边缘+L重建0.87123.280.87625.1218.74ZFlow（端到端培训）0.87123.280.88525.4615.17表3. ZFlow中服装翘曲和纹理融合的各种设计选择的消融研究。BaseFuse是在没有Ledge和Lrecon的情况下训练的纹理融合网络。.方法SSIM↑PSNR↑DSC [35]0.756-第二十六章0.762-ClothFlow [13]0.771-VUnet [9]0.786-DIF [23]0.77818.59我们0.79119.26表4.使用GAF进行流回归，提高了人体姿态转换图6.纹理融合期间的IUV先验改进了领口（第1行）、深度感知和皮肤生成（第2行）图5.使用用于条件分割的密集服装不可知表示（DGAR）改进深度感知（行1）、皮肤和领口生成（行2）。IUV先验由UV投影图（Iuv）和身体部位分割（Mgt）组成，用于在纹理融合期间对目标模型的3D几何形状进行编码。训练ZFlow网络以重构这些先验以及试戴输出（I试戴）。图6示出了经由重建损失（L重建）对这些IUV先验的调节改善了输出中的领口、皮肤（行1）和深度感知（行2）这通过试戴输出的改善的PSNR（25.02至25.12）和FID（19.39至18.74）得到证实（表3中的第6行与第7行）。基于Sobel滤波器的边缘损失（L边缘）用于在纹理融合过程中更好地保留高频细节。表3示出了这改善了试戴输出的SSIM（从0.865到0.875）和PSNR（从24.47到25.02）。端到端微调整个ZFlow网络（包括翘曲和纹理融合模块）的端到端微调可提高SSIM（0.876到0.885）、PSNR（25.12到25.46）和FID（从18.74到15.17）。试戴输出如表3所示（第7行对第8行）。7. 结论我们介绍ZFlow，一个端到端的试用框架，它利用分层流估计（门控外观流）和密集的几何先验（DGAR和IUV先验）的门控聚合的组合，以减少不必要的输出伪影。我们通过与最新技术水平和详细消融研究的比较，强调了ZFlow的有效性。我们还验证了GAF作为一种通用技术的有效性，通过将其应用于人体姿势转移。5441引用[1] 凯南E.阿什拉夫·阿克Kassim、Joo Hwee Lim和Jo YewTham。学习属性表示与本地化灵活的时尚搜索。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一个[2] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。二个[3] 库马尔·阿尤什嵌入增强视点的上下文感知推荐在v-商务中重新定位消费者。一个[4] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag. 合成人类的图像以看不见的姿势。在IEEE计算机视觉和模式识别会议论文集，第8340- 8348页，2018年。二个[5] 谢恩·巴拉特和里希·夏尔马关于Inception评分的注释。arXiv预印本arXiv：1801.01973，2018。五个[6] Ayush Chopra 、 Abhishek Sinha 、 Hiresh Gupta 、MausoomSarkar、KumarAyush和BalajiKrishnamurthy。强大的时尚检索与信息丰富的功能嵌入。在IEEE计算机视觉和模式识别研讨会会议集，第01[7] 董浩业、梁晓丹、龚克、赖汉江、朱佳、尹建。用于姿势引导的人物图像合成的软门控warping-gan。神经信息处理系统的进展，第474-484页，2018年。二个[8] 江原润和斋藤秀夫。基于轮廓主元分析的虚拟布料纹理叠加在2006年IEEE/ACM混合和增强现实国际研讨会上，第139-142页IEEE，2006年。一个[9] PatrickEsse r，EkaterinaSutte r，andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集，第8857-8866页八个[10] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在欧洲计算机视觉会议（ECCV）的会议中，第534二个[11] 阿图尔·格里戈廖夫，阿特姆·塞瓦斯托波尔斯基，亚历山大·瓦希托夫，维克多·伦皮茨基.用于姿势引导图像生成的基于坐标的纹理内绘。 arXiv 预印本 arXiv ：1811.11459，2018。二个[12] Rı z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。二个[13] Xintong Han，Xiaojun Hu，Weilin Huang，and MatthewR Scott. Clothflow：一个基于流的服装人物生成模型。在IEEE计算机视觉国际会议论文集，第10471-10480页，2019年。一二三四五六七八[14] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：一个基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集，第7543-7552页，2018年。一、二、五[15] StefanHauswiesner ， MatthiasStraka 和 GerhardReitmayr。通过基于图像的渲染进行虚拟试穿。IEEETransactions on Visualization and Computer Graphics，19（9）：1552一个[16] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年五个[17] Alain Hore和Djemel Ziou图像质量指标：Psnr vs. 2010年第20届模式识别国际会议，第2366-2369页。IEEE，2010。五个[18] 亚伦·S·杰克逊，克里斯·马纳法斯，乔治斯·齐米罗普罗斯。通过体积回归从单个图像进行3D人体重建。在欧洲计算机视觉会议（ECCV）的会议记录中，第0-0页二个[19] Surgan Jandial、Ayush Chopra、Kumar Ayush、MayurHe-mani 、 Balaji Krishnamurthy 和 Abhijeet Halwai 。Sievenet：一个基于图像的虚拟试穿的统一框架。在IEEE计算机视觉应用冬季会议上，第2182-2190页，2020年。一、二、三、四、五、六、七[20] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。二个[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。五个[22] 伊宁郎、袁鹤、范阳、董剑锋、回雪。这是抄袭：用于外观设计保护的基于区域表示的服装图像检索。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。一个[23] Yining Li，Chen Huang，and Chen Change Loy.用于人体姿势转移的密集内在外观流在IEEE计算机视觉和模式识别会议论文集，第3693-3702页，2019年二三四五七八[24] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。五个[25] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。ACM图形交易（TOG），34（6）：1-16，2015。二个[26] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统的进展，第406-416页，2017年。二、八[27] Kushagra Mahajan、Tarasha Khurana、Ayush Chopra、Isha Gupta、Chetan Arora和Atul Rai。使用姿势专家的姿势感知第2381-2385页，2018年10月。一个5442[28] Gerard Pons-Moll、Sergi Pujades、Sonny Hu和Michael JBlack。Clothcap：无缝的4d服装捕捉和retargeting。ACM Transactions on Graphics（TOG），36（4）：1-15，2017。二个[29] 任玉瑞，于晓明，陈俊明，Thomas H.李，革离。用于人物图像生成的深度图像空间变换。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。三个[30] 任玉瑞，于晓明，张若楠，Thomas H.李、山柳、革离。结构回流：基于结构感知外观流的图像修复。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。二个[31] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络CoRR，abs/1505.04597，2015。四、五[32] MasahiroSekine ， KaoruSugita ， FrankPerbet ，BjoürnStenger，and Masashi Nishiyama.通过单次拍摄体型估计进行虚拟拟合。在3D身体扫描技术的国际会议上，第406-413页。Citeseer，2014. 二个[33] Kalpana Seshadrinathan和Alan C Bovik。全参考图像质量评估的统一2008年第15届IEEE图像处理国际会议，第1200-1203页。IEEE，2008年。五个[34] Mennatullah Siam、Sepehr Valipour、Martin Jagersand和Nilanjan Ray。用于视频分割的卷积门控递归网络，2016年。四个[35] AliaksandrSiarohin，EnverSangineto，Ste'phaneLathuiliere和Nicu Sebe。用于基于姿态的人体图像生成的可变形gans。在IEEE计算机视觉和模式识别会议论文集，第3408- 3416页，2018年。二、八[36] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络国际学习表征会议，20

下载后可阅读完整内容，剩余1页未读，立即下载