自适应内容生成和保存网络：试穿服装图像的新方法

39 浏览量更新于2023-10-23 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7850通过自适应生成保持图像内容的图像真实韩阳1、2张瑞茂2郭小宝2刘伟3王梦左1罗平41哈尔滨工业大学2商汤科技3腾讯人工智能实验室4香港大学{yanghancv，wmzuo}@ hit.edu.cn，wl2223@columbia.edu，pluo@cs.hku.hk{zhangruimao，guoxiaobao}@ sensetime.com参考分割目标CP-VTONACGPNACGPN†ACGPN2.5倍人结果衣服结果（香草）结果（满）放大视角图1. 我们根据目前的作品将试穿任务的难度定义为容易、中等和困难。给定一个目标服装图像和一个参考图像，我们的方法合成一个人在目标服装，同时保留照片般逼真的细节，如衣服的特点（纹理，标志），姿势的人（非目标身体部位，底部的衣服），和身份的人。ACGPN（Vanilla）指示没有翘曲约束或非目标身体成分的ACGPN，ACGPN t在ACGPN（Vanilla）上添加翘曲约束此外，放大的大大改善的地区是在右边。摘要图像视觉试穿是将目标服装图像传递到参考人身上，近年来成为一个热门话题。现有技术通常集中于描述服装图像的特征（例如，纹理、标志和刺绣）时，将其扭曲成任意的人类姿势。然而，当在参考人中呈现大的遮挡和人类姿势时，生成照片般逼真的试穿图像仍然是一个很大的挑战（图1）。1）。为了解决这个问题，我们提出了一种新的视觉试穿网络，即自适应内容生成和保存网络（ACGPN）。特别是，ACGPN首先预测试穿后将改变的参考图像的语义布局（例如，长袖衬衫→手臂，手臂→夹克），然后根据预测的语义布局确定其图像内容是否需要生成或保留，从而产生照片般逼真的试穿和丰富的服装续费ACGPN通常包括三个主要模块。首先，语义布局生成模块利用参考图像的语义分割来逐步预测试穿后的期望语义布局。第二，服装变形模块根据所生成的语义布局来变形服装图像，其中，二阶介质硬容易7851引入差分约束以稳定训练期间的翘曲过程。第三，用于内容融合的修补模块集成所有信息（例如，参考图像、语义布局和变形的衣服）以自适应地产生人体的每个语义部分。与现有的方法相比，ACGPN可以生成具有更好感知质量和更丰富细节的照片级真实感图像。1. 介绍受图像合成快速发展的推动[16，30，21，22]，近年来，旨在将目标服装项目转移到参考人身上的基于图像的视觉试穿[19，12]虽然已经取得了相当大的进展[40，4，47，2]，但为真实世界场景构建照片级逼真的虚拟试穿系统仍然是一项具有挑战性的任务，部分原因是目标衣服和参考图像之间的语义和几何差异，以及躯干和四肢之间的为了说明现有视觉试穿方法的局限性，我们根据2D参考图像中的人体姿势将VITON数据集[12]分为三个难度级别子集。如图1中，第一行给出了来自VITON数据集[12]的简单样本，其中图像中的个人用标准姿势表示，即，脸朝前手放下在这种情况下，该方法仅需要对准参考图像和目标图像之间的语义区域。一些开创性的基于合成的方法[19，2，32，3，37]属于这一类。从第二行开始，中等难度的图像并提出了几种模式[12，40，4，47]，以保持衣服的特征，如纹理，标志，刺绣等。这样的目标通常通过开发先进的变形算法来实现，以匹配参考图像与衣服变形。图的最后一行。1提出了一个困难的例子，其中躯干和四肢都发生姿势变化，导致服装区域和人体部位之间的空间相互作用，例如，闭塞、干扰和变形。因此，需要适当的算法来理解参考图像中前景和背景对象的空间布局，并且在试穿过程中自适应地保持这样的遮挡关系。然而，在虚拟试穿中，内容生成和针对上述局限性，提出了一种新的自适应内容生成和保存网络（ACGPN），该网络首先预测参考图像的语义布局，然后根据预测的语义布局自适应地确定内容的特别是，ACGPN由三个主要模块如图所示。 2. 第一个是语义生成模块（SGM），它使用身体部位和衣服的语义分割来渐进地生成暴露的身体部位的掩模（即，合成的身体部分掩模）和变形的衣服区域的掩模。与现有技术相反，所提出的SGM以两阶段的方式生成语义掩模，以首先生成身体部位并渐进地合成服装掩模，这使得参考图像中的原始服装形状对网络完全不可知第二部分是服装整经模块（CWM），用于根据生成的语义布局对服装进行整经。除了基于薄板样条的方法[12，40，4]之外，还将二阶差分约束引入到翘曲损失中，以使翘曲过程更加稳定，特别是对于具有复杂纹理的服装最后，内容融合模块（CFM）整合来自合成的身体部位掩模、变形的衣服图像和原始身体部位图像的信息，以自适应地确定合成图像中的不同人体部位的生成或保留。ACGPN采用分割-变换-合并的策略生成空间形态感知的试穿图像。在VITON数据集上的实验[40]表明，我们的ACGPN不仅提高了简单和中等难度水平下生成图像的视觉质量（见图1）。1），而且在以优雅的方式处理具有语义区域交叉的硬试穿情况并产生照片般逼真的结果方面是有效的本文的主要贡献可以概括如下。(1)我们提出了一种新的基于图像的虚拟试穿网络，ACGPN，大大提高了语义对齐、字符保持和布局适应方面的(2)我们首次考虑语义布局，以生成照片般逼真的试穿结果。提出了一种新的自适应内容生成和保存方案。(3)一种新的二阶差分约束使得训练过程更加稳定，并提高了我们的方法处理衣服上复杂纹理的能力。(4)实验结果表明，该方法可以产生照片般真实的图像，优于国家的最先进的方法在定性和定量。2. 相关工作生成对抗网络。生成对抗网络（GAN）极大地促进了图像合成[16，30，21，22]和操作[20，23，5]的改进和进步。一个GAN通常由一个生成器和一个转换器组成。生成器学习生成逼真的图像来欺骗识别器，而识别器学习区分合成图像和真实图像。受益于7852√×√× ×××√√√√√GAN的强大能力，它在风格转换[50，3]，图像修补[43，15，45，46，26]和图像编辑[20，5，23，30]等任务中具有广泛的应用。GANs的广泛应用进一步证明了其在图像合成中的优越性。时尚分析与综合。时尚相关的任务最近受到了相当大的关注，由于其在现实世界中的应用潜力巨大。大部分的前体工程集中在服装兼容性和匹配学习[25，17，39]，服装地标检测[29，44，8，24]和时尚图像分析[14，11，27]。虚拟试穿是服装分析中最具挑战性的任务之一.虚拟试穿。虚拟试穿甚至在深度学习复兴之前就已经是一个有吸引力的话题[49，7，38，13]。近年来，随着深度神经网络的发展，虚拟试穿由于其在实际应用中的巨大潜力而引起了越来越多的关注现有的基于深度学习的虚拟试穿方法可以分为基于3D模型的方法[36，1，10，31，33]和基于2D图像的方法[12，40，4，19]，其中后者可以根据是否保持姿势进一步分类。Dong等人[4]提出了一种基于多姿态引导图像的虚拟试穿网络。类似于我们的ACGPN，大多数现有的试穿方法都专注于保持姿势和身份的任务。VITON [12]和CP-VTON [40]等方法使用粗略的人体形状和姿势图作为输入来生成穿着衣服的人。虽然SwapGAN [28]，SwapNet [32]和VTNFP [47]等方法采用语义分割[48]作为输入来合成穿着衣服的人。表1概述了几种代表性方法。VITON [12]利用基于薄板样条（TPS）[6]的扭曲方法，首先使店内服装变形，并使用构图蒙版将纹理映射到CP-VTON [40]采用与VITON类似的结构，但使用神经网络来学习TPS扭曲的变换参数，而不是使用图像描述符，并实现更准确的对齐结果。CP-VTON和VITON只关注衣服，导致底部衣服和姿势细节粗糙模糊VTNFP [47]通过简单地连接从身体部位和底部衣服提取的高级特征来解决这个问题，从而产生比CP-VTON和VITON更好的结果。然而，模糊身体部位及伪影在结果中仍保持丰富，因为VT-NFP忽略参考图像的语义布局。在表1中，CAGAN使用类比学习将服装转移到参考人身上，但只能保留颜色和粗糙的形状。VITON提出了一种由粗到细的结构，它利用粗糙的形状和姿态图，以确保泛化到任意的衣服。CP-VTON采用与VITON相同的流水线，同时将翘曲模块改为可学习的网络。这两种方法都能很好地保持[40]第47话我的世界使用粗略形状×√√√×使用姿势×√√√广告使用细分××√√纹理×纹理√非目标服装×××√√身体部位语义对齐字符保留×√√√√布局调整××××√表1. 代表性虚拟试穿方法的比较。CA指CAGAN [19]; VI指氟橡胶[12]; CP指CP-VTON [40]，VT指VTNFP [47]。我们将ACGPN与四种流行的基于图像的虚拟试穿方法进行了比较，CAGAN、VITON、CP-VTON和VTNFP，我们从三个方面进行比较：表示作为输入，保存源信息，并解决问题。衣服，但忽略了非目标身体部位和底部的衣服。VTNFP通过添加对原始身体部位以及底部衣服的弱监督来改善这种忽视，以帮助保留更多细节，这比CAGAN、VITON和CP-VTON生成更真实的图像;然而，VTNFP结果由于其伪影而在照片真实感之间仍然存在很大差距3. 自适应内容生成和保存网络拟议的ACGPN由三个模块组成，如图所示。2.首先，语义生成模块（SGM）通过语义分割逐步生成身体部位的掩模和变形服装区域的掩模，从而产生空间布局的语义对齐其次，设计了服装变形模块（CWM），根据变形后的服装掩模对目标服装图像进行变形，在薄板样条（TPS）上引入二阶差分约束[6]，生成几何匹配且特征保持的服装图像。最后，步骤3和步骤4被合并到内容融合模块（CFM）中，该模块集成来自先前模块的信息以自适应地确定输出合成图像中的不同人体部位的生成或保留。非目标身体部位合成能够在试穿任务中灵活地处理不同的场景，而掩模修复充分利用了ACGPN在处理容易、中等和困难级别的图像时的布局自适应能力。3.1. 语义生成模块提出了语义生成模块（SGM）来分离目标服装区域以及保留身体部位（即，手臂），而不改变姿势和其余人体细节。以前的许多作品只关注目标服装，而忽略了人体生成，只将粗糙的身体形状直接输入保存表示问题7853ωωωωCCC图2.ACGPN的整体架构。（1）在步骤I中，语义生成模块（SGM）将目标服装图像Tc、姿态图Mp和融合的身体部位掩模MF作为输入以预测语义布局并输出合成的身体部位掩模MS和目标服装图像T c。服装掩模MS;（2）在步骤II中，服装包装模块（CWM）根据预测的语义布局将目标服装图像包装到TRC c其中引入二阶差分约束以稳定扭曲过程;（3）在步骤III和IV中，内容融合模块（CFM）首先使用原始服装掩模Mc、合成的服装掩模Ms、身体部位掩模Mω和合成的服装掩模M c来产生合成的身体部位掩模Mcωc合成的身体部位掩模MS，然后利用信息TR、MS和身体部位掩模M S，利用融合网络生成试穿图像IS。ωc c来自先前步骤的部分图像Iω网络，导致身体部分细节的丢失。为了解决这个问题，该模块采用了一种面具生成机制，精确地生成人体部位和目标服装区域的语义分割。具体地，给定参考图像I及其相应的掩模M，手臂Ma和躯干Mt首先被融合到不可区分的区域中，从而产生图12所示的融合地图MF。2作为SGM的输入之一遵循两阶段策略，试穿面具生成模块首先合成身体部位的面具MS（ω ={h，a，b}（h：头，a：手臂，b：下装）），这有帮助自适应地保留身体部分而不是粗糙的FEA，在后续的步骤中。如图在图2中，我们训练身体解析GAN G1以通过利用来自融合图MF、姿态图MP和目标服装图像Tc的信息来生成MS。使用生成的身体部位信息及其相应的姿势图和目标服装图像，容易得到服装区域的在第二阶段中，MS、Mp和Tc被组合以通过G 2生成衣服M S的合成掩模。对于SGM的训练，两个阶段都采用了条件生成对抗网络（cGAN），其中U-Net结构被用作生成器，而pix 2 pixHD [41]中给出的一个掩码被部署用于区分生成的掩码与它们的地面真实掩码。对于每个阶段，CGAN损失可以用公式表示为L1=Ex，y[log（ D（x，y））]设定的试穿掩模生成模块被公式化为Lm，Lm=λ1L1+λ2L2，（2）其中，L2是逐像素交叉熵损失[9]，其通过更准确的语义分割结果来改善来自生成器的合成掩模的质量。λ1和λ2是等式中两个损耗项的折衷参数（2），在我们的实验中分别设置为1和10。两级SGM可作为核心部件，准确理解视觉试穿中的身体部位和服装布局我们相信SGM对于其他需要划分语义布局的任务也是有效的。3.2. 服装整经模块（CWM）服装翘曲的目的是根据人体姿态使服装在视觉上自然变形，并保持服装的特征，从而使服装适合目标服装区域的形状。然而，简单地训练空间变换网络（SpaceTransformationNetwork，简称SPT）[18]和应用薄板样条（Thin-PlateSpline，简称TPS）[6]不能确保精确的变换，特别是在处理困难情况时（即，具有复杂纹理和丰富颜色的衣服），导致错位和模糊的结果。为了解决这些问题，我们在服装翘曲网络上引入二阶差分约束，以实现几何匹配和特征保持。如图3、与我们提出的约束条件下的结果相比，目标服装的跨+Ex，z（一）[log（1- D（x，G（x，z）]，没有约束的地层表现出明显的形状扭曲和不合理的纹理混乱。其中x表示输入，y是地面实况掩码。z是作为输入的附加通道的噪声形式上，给定Tc和MS作为输入，我们训练机器人学习它们之间的映射扭曲的布料-从标准正态分布中采样。ing imageTW被学习的参数转换每个阶段的总体目标函数，其中我们引入以下约束L37854x−xωCCSCωωωω ac作为损失术语， Σ网格图像目标服装无约束条件变形的网格带我们的约束变形的网格L3=p∈Pλ r|pp0|+| pp2|（三）+ λ s（|S（p，p0）−S（p，p1）|+|S（p，p2）−S（p，p3）|）的情况下，其中λr和λs是权衡超参数。实际上，我们可以最小化max（L3−k，0）的限制，k是一个超参数。如示于图p（x，y）表示某个采样控制点，p0（x0，y0），p1（x1，y1），p2（x2，y2），p3（x3，y3）分别是整个控制点集P中p（x，y）的上、下、左、右采样控制点;S（p，pi）=yi−y（i= 0，1，2，3）是两点之间的斜率l3为我建议作为TPS转型的约束条件，最小化每个轴上两个相邻区间的度量距离和斜率之间的距离，保持了仿射变换的共线性、平行性和不变性。为了避免被零除的错误，第二项的实际实现是|S(p,pi)−S(p,pj)|（四）为|（y i− y）（x j− x）−（y j− y）（x i−x）|、图3. 有和没有二阶差分约束的双曲结果比较。保存。现有的方法通常采用粗略的身体形状作为线索来生成最终的试穿图像，并且不能重建精细的细节。相比之下，所提出的内容融合模块（CFM）由两个主要步骤组成，即，图3和图4中的步骤2.特别地，步骤3被设计为完全保持非目标身体部分以及适应性地保持可改变的身体部分（即，臂）。步骤4相应地通过利用从先前步骤生成的掩模和图像来填充可变身体部分，图2中的基于修复的融合GAN，G3非目标身体部位成分。合成的身体遮罩MC由原始身体部位遮罩组成Mω，所生成的身体掩模MG，其是用于其中（i，j）∈ {（0，1），（2，3）}。翘曲损失可以是S表示为Lw，其测量变形的服装图像TW与其地面实况Ic之间的损失，生成，并且合成的服装面具Mc 一致到MG=MS <$Mc，（7）a ωLw=L3+L4，（5）其中L4=<$TW− Ic<$1。然后将扭曲的衣服馈送到细化网络中以进一步生成更多细节，其中然后利用学习矩阵α（0 ≤ α ij≤ 1）通过以下方式最终将两个衣服图像组合为细化的衣服图像T R：TR=（1−α）<$TW+α <$TR，（6）MC=（MG+Mω）<$（1− MS），（8）Iω=Iω′（1−Mc），（9）其中，Eq表示逐元素乘法，并且Eq.（9）图中未示出。2为简单;Iω′是原始图像I减去服装区域Mc。请注意，复合体面罩MC始终保持与合成的身体部位掩模MS，C c c其中⊙表示逐元素乘法。α也受正则化项的限制（参见CP-VTON [40]）在TR和TW上也引入了VGG损耗。为ω将未对准的像素命名为 MS。它通过组合两个掩模（即，MS和Mω），其用于完全恢复非c c以下步骤中的目标细节，以完全保留Iω质量更好，GAN损耗也可以用在这里。反因此，细化后的服装图像能够充分保留目标服装的特征。我们认为，CWM公式在保证TPS变形灵活性的同时，有效地增强了局部仿射变换的共线性，有利于产生几何匹配和真实的变形结果。3.3. 内容融合模块（CFM）除了语义对齐和字符保持之外，在视觉试穿任务上实现布局自适应仍然是一个巨大的挑战为此，需要清楚地呈现目标服装区域，并且精细地绘制身体部位的细节（即，手指间隙）需要自适应地均p0p2 pp3p17855一一一并在MG的指导下生成连贯的身体部位。值得注意的是，它可以适应性地处理不同的-耳鼻喉科病例。例如，当将T恤（短袖）转移到穿长袖的人时，仅MG的内部区域将执行生成并且保留所有其他区域，而在相反的情况下，MG=0，将被衣服遮蔽，如等式中所示。(8)和等式（九）、面具修复。为了在训练过程中充分利用网络的布局自适应能力，CFM使用来自不规则掩码数据集[26]的掩码Mk来随机移除身体图像Iω中的部分手臂，因为Iω=（1- Mk <$Ma）<$Iω′用于模仿图像修补，其中Ma是手臂的掩码，类似于Eq.（9）在形式上，使其有可能分离的区域，7856C参考图像参考姿势贴图参考姿势贴图计算实例左（右）肩，躯干。t=（xt，yt）是某个姿势点，N=7表示参考点的数量我们将容易到中等的阈值定义为80，中等到困难的阈值定义为68，在这个意义上，当C68时，<布局交叉变得复杂，当C>80图像倾向于标准姿势，面向前方，图4. 计算复杂度得分C的示例。给定参考图像及其姿态图，选择最后一个图像中所示的连接点来计算参考图像的C保存和生成。把语义结合起来-形成，复合体膜MC和合成举手之劳423、514和1095图像分别被分为难、中和易级别。4.2.实现细节架构ACGPN包含SGM、CWM和CFM。SGM和CFM中的所有生成元都具有相同的结构，服装口罩Mc 与身体部分IM连接在一起，年龄Iω和细化的服装图像TR作为输入。因此，可以通过所提出的方法恢复纹理信息。基于修复的融合GAN，产生照片般逼真的结果。因此，在推理阶段，该网络可以自适应地生成照片般真实的试穿图像与丰富的细节，通过建议CFM。第4节中的大量实验表明，该方法不仅可以解决简单和中等水平的情况下，但也有显着改善困难的情况下。4. 实验4.1. 数据集在数据集上进行实验（即，VI-TON [12]数据集），用于VITON [12]和CP-VITON [40]。它包含大约19，000个图像对，每个图像对包括一个正面女性图像和一个顶部服装图像。在删除无效图像对后，它产生了16，253对，进一步分为14，221对的训练集和2，032对的测试集。将ACGPN与VITON、CP-VTON、VTNFP进行了比较。在没有VTNFP官方代码的情况下，我们比较了VTNFP论文中报告的视觉结果，并复制了它以进行定量比较。广泛的ACGPN试验结果在附录中给出数据集分区。试穿任务的图像表现出不同的难度水平，如图所示。1.简单的情况下，通常显示一个标准的姿势，脸向前，手向下;中等水平的图像呈现身体躯干的扭曲或其中一只手与身体重叠;重案显示躯干扭曲和双手挡在身体前面。肢体交叉和躯干遮挡对语义布局预测提出了很大的挑战为了描述这一点，我们建议使用参考点来表示身体部位，通过利用姿态图，如图所示。4.第一章为了定量地评估每一个图像，我们将特定图像的复杂度定义为真如U-Net [34]，所有判别器都来自pix 2 pixHD [41]。CWM中的卷积层[18]的结构开始于五个卷积层，然后是步幅为2的训练中所有图像的分辨率测试结果为256× 192。然后是图中的步骤。2，我们首先预测参考图像的语义布局，然后决定图像内容的生成和保存。训练我们分别训练提出的模块，并将它们组合起来，最终输出试穿图像。训练过程中使用的目标衣服与参考图像中的相同，因为难以获取试穿结果的地面真实图像通过设置损失的权重λ r = λ s = 0，所提出的方法中的每个模块被训练20个epoch。1，λ1=λ2= 1，批量为8。学习率初始化为0.0002，网络由Adam优化器优化，超参数β1= 0。5和β2= 0。999所有的代码都是由深度学习工具包PyTorch实现的，我们的实验使用了8个NVIDIA试验.测试过程遵循与训练相同的过程，但不同之处仅在于目标衣服与参考图像中的衣服不同我们测试我们的模型在容易，中等和困难的情况下，分别，并定性和定量地评估结果。更多的评估结果将在下面的章节中给出。4.3. 定性结果我们将我们提出的方法与VITON [12]，CP-VTON[40]和VTNFP [47]进行了视觉比较。作为示于图5、从上到下，试穿图像的难度等级由易到难排列。VITON生成的图像在所有的不同层次上都表现出许多视觉伪影，包括颜色混合、边界模糊、纹理杂乱等。与VITON相比，CP-VITON在简单水平上实现了更好的视觉效果，仍然会导致对底部衣服进行不必要的编辑，¨ΣN¨ΣN¨t∈Mp′t<$在中等和较硬的水平上身体部位模糊。坏t∈M′<$t−N<$所生成的图像中的诸如断臂的情况也péC=N¨第1、（10）条当手臂和躯干之间有交叉时，应注意。总之，VITON和CP-VTON扭曲了图像其中Mp′ 将左（右）臂、左（右）臂的点表示到服装区域上，并将纹理和刺绣映射到7857参考图像Target ClothesVITONCP-VTONVTNFPACGPN（我们的）Reference Image Target Clothes VITON CP-VTON VTNFP ACGPN（我们的）图5. 视觉比较四种虚拟试穿方法在容易到难的水平（从上到下）。ACGPN生成照片般逼真的试穿结果，保留了服装纹理和人体特征。利用二阶差分约束，刺绣和纹理不太可能被扭曲（即，第二行）。由于非目标身体部位成分的保存能力，我们的结果中的身体部位在视觉上更加照片般逼真（即，第四行）。特别是不同的地区被标记在红框中。从而可能导致对身体部位和底部衣服的错误编辑VTNFP使用分割表示来进一步保留身体部位和底部衣服的非目标细节，但是仍然不足以完全保留细节，导致模糊输出。VTNFP背后的缺点在于不知道语义布局和布局内的关系，因此无法提取特定区域来保存。与VITON和CP-VTON相比，VTNPF在保持衣服的特征和视觉效果方面更好，但仍然难以生成身体部位细节（即，手和手指间隙）。值得注意的是，所有的方法都无法避免Logo或刺绣的扭曲和错位，与照片般逼真的试穿效果存在相比之下，ACGPN在同时保持衣服特征和身体部位信息方面表现得更好。CWM中提出的二阶空间变换约束，防止了Logo变形，实现了字符的保持，使变形过程更加稳定，保持了纹理和刺绣效果。如图5中的第二行的第一示例所示，在竞争方法的结果中，徽标“WESC”被过度拉伸;然而，在ACGPN中，它是清晰和不失真的。所提出的基于修补的CFM直接指定和保留未改变的身体部位。由于ACGPN具有语义布局预测和身体部位的自适应保存功能，因此能够较好地保留在竞争方法中容易丢失的细节信息ODS，清楚地表明其优于VITON、CP-VTON和VTNFP。4.4. 定量结果我们采用结构相似度（SSIM）[42]来衡量合成图像与地面实况之间的相似性，采用初始评分（IS）[35]来衡量合成图像的视觉质量。两项指标的得分越高，表明结果质量越高。表2列出了VITON [12]、CP-VTON [40]、VTNFP[47]和我们的ACGPN的SSIM和IS评分。SSIM评分随着难度的增加而降低，表明难度与试穿图像质量呈负相关。尽管如此，我们的ACGPN在所有难度级别的两个指标上都大幅优于竞争方法。对于简单的情况，ACGPN 在 SSIM ， re-stability 方面超过 VITON ， CP-VTON和VTNFP 0.067，0.101和0.044。对于中等情况，ACGPN的增益分别为0.062、0.099和0.040。至于硬情况，ACGPN也优于VITON，CP-VTON和VTNFP0.049，0.099和0.040。在IS方面，相对于VITON、CP-VTON 和 VTNFP 的总体增益分别为0.179 、 0.072 和0.045，通过定量度量进一步显示了ACGPN的优越性。4.5. 消融研究进行消融研究以评价表2中ACGPN中主要模块在这里，7858ω方法SSIMIS方法简单中硬平均值表2.[42]和IS [35]的结果。ACGPN†和ACGPN* 是用于消融研究的ACGPN变体。ACGPN†是指直接使用MS而不是MC，GE指示被投票为比所比较的方法更好的图像的比率。ω ωCFM来生成试穿图像，并且ACGPN* 是指使用MC作为输入。两种模型都使用Iω，并移除臂。与ACGPN*、ACGPN* 和ACGPN相比，它表明非目标身体部分组成确实有助于产生更好的视觉效果。我们还注意到，由于对语义布局的准确估计，ACGPN *和ACGPN* 也优于VITON [12]、目视比较结果见图。6、进一步显示身体的有效性适应性保存的部分组成。有了这个组合，人体布局就可以清晰地分层.否则，我们只能得到正确的身体部位形状，但可能会产生错误的细节，如图（f）。六、4.6. 用户研究为了进一步评估VITON [12]、CP-VTON [40]、VTNFP [47]和ACGPN，我们招募了50名志愿者进行用户研究。我们首先分别从简单、中等和困难的情况下用不同的方法测试200幅图像，然后总共对1，800对进行分组（每种方法包含三个级别的600幅测试图像，每对包括来自不同方法的图像）。每个志愿者被随机分配100个图像对，以A/B的方式。对于每个图像对，目标衣服和参考图像也附在用户研究中。每个志愿者被要求选择一个更好的形象目标衣服参考图像Viton结果CP-VTON结果ACGPN†结果ACGPN*结果ACGPN（满）满足三个标准：（a）参考图像的目标服装特征和姿势被保存得如何;（b）整幅图像的真实程度;（c）整个人看起来有多好。我们给用户一个unlim-(a)（b）第（1）款（c）第（1）款（d）其他事项(e)（f）（g）我花了很多时间来选择质量更好的。结果图6. 对我们的非目标身体部位进行视觉对比。（c）产生不正确的目标衣服和模糊的身体部位;（d）产生变形的身体部位;（e）和（f）显示一些扭曲的身体部位;（g）产生令人信服的结果。最后通过实验验证了二阶差分约束在CWM中的有效性。如图7、我们选择目标服装，例如复杂的刺绣。从图在图7（c）中，扭曲模型可以在没有约束的情况下生成失真图像。如表3所示。结果表明，ACGPN算法在处理困难问题时具有明显的优越性。结果表明，该方法在处理视觉试穿任务中的身体部位的交叉和遮挡的有效性。5. 结论目标参考ACGPNACGPNACGPNACGPN衣服图像（无约束）（无约束）（带约束）（带约束）在这项工作中，我们提出了一种新的自适应内容生成和保存网络，称为ACGPN，其目的是生成照片般逼真的试穿结果，同时保留衣服和细节的特征(a)（b）第（1）款(c)（d）（e）（f）人的身份（姿势，身体部位和底部图7.二阶差分约束效应的烧蚀研究。(c)（e）是翘曲的衣服，（d）、（f）是合成的结果。虽然ACGPN消除了扭曲的织物图像（c）中的伪影，但它仍然在很大程度上影响了（d）的逼真度。值得注意的是，由于语义布局预测的有效性，ACGPN在没有约束的情况下仍然可以产生令人满意的结果，并且具有纯色或简单刺绣的目标服装不易受到翘曲退化的影响对于具有复杂纹理的目标7（d）（f））。衣服）。我们提出了三个精心设计的模块，即，掩码生成模块（GMM）、衣服变形模块（CWM）和内容融合模块（CFM）。我们在VITON [12]数据集上评估了我们的ACGPN，其中有三个级别的试穿难度。结果清楚地表明，ACGPN在定量指标、视觉质量和用户研究方面优于最先进的鸣谢本研究获香港大学基础研究及创业基金种子基金及国家自然科学基金项目资助。U19A2073。所有容易介质硬CP-VTON [40]15.4%百分之十一点二4.0%百分之十点二氟橡胶[12]0.783 0.7870.7790.779 2.650ACGPN84.6%88.8%96.0%89.8%CP-VTON [40] 0.745 0.7530.7420.729 2.757氟橡胶[12]百分之三十八点八百分之十八点二13.3%百分之二十三点四VTNFP [47]0.803 0.8100.8010.788 2.784ACGPN百分之六十一点二百分之八十一点八百分之八十六点七76.6%7859引用[1] 我是布鲁埃，阿拉·谢弗，劳伦斯·布瓦西厄，玛丽-保尔·卡尼.设计保留服装转移。 ACM事务处理图表，31（4）：36：1[2] 陈思颖，谢建华，庄永玉。深层虚拟试穿与衣服变换。在ICS中，计算机和信息科学通信的第1013卷，第207-214页。Springer，2018.[3] Yunjey Choi、Min-Je Choi、Munyoung Kim、Jung-WooHa、Sunghun Kim和Jaegul Choo。Stargan：用于多域图像到图像翻译的统一生成对抗网络见 CVPR ，第8789IEEE计算机学会，2018年。[4] Haoye Dong，Xiaodan Liang，Bochao Wang，HanjiangLai，Jia Zhu，and Jian Yin.多位姿导引虚拟试穿网路之研究。CoRR，abs/1902.11026，2019。[5] Haoye Dong ， Xiaodan Liang ， Yixuan Zhang ， XujieZhang，Zhenyu Xie，Bowen Wu，Ziqi Zhang，XiaohuiShen，and Jian Yin.多尺度注意力归一化的时尚编辑。CoRR，abs/1906.00884，2019年。[6] 让·杜雄Sobolev空间中极小化旋转不变半范数的样条在建设性理论的职能的几个变量，第85-100页施普林格，1977年。[7] 江原润和斋藤秀夫。基于轮廓主成分分析的虚拟布料纹理叠加见ISMAR，第139IEEE计算机学会，2006。[8] Yuying Ge，Ruimao Zhang，Xiaogang Wang，XiaoouTang，and Ping Luo. Deepfashion2：服装图像的检测、姿态估计、分割和重新识别的通用基准。在IEEE计算机视觉和模式识别会议论文集，第5337- 5345页[9] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press，2016.[10] 放大图片作者：David A. Hirshberg，Alexander Weiss，and Michael J.黑色.披巾：给任何人穿衣。ACM事务处理图表，31（4）：35：1[11] Xintong Han，Zuxuan Wu，Weilin Huang，Matthew RScott，and Larry S Davis.Finet：兼容多样的时尚图像修复。在IEEE计算机视觉国际会议论文集，第4481-4491页[12] Han Xintong，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S.戴维斯VITON：基于图像的虚拟试穿网络。在CVPR中，第7543-7552页。IEEE计算机学会，2018年。[13] StefanHauswiesner ， MatthiasStraka 和 GerhardReitmayr。通过基于图像的渲染进行虚拟试穿。IEEETrans.Vis. Comput. Graph. ，19（9）：1552[14] Wei-Lin Hsiao ，Isay Katsman ， Chao-Yuan Wu ， DeviParikh，and Kristen Grauman.Fashion++：最小化的服装改进编辑。arXiv预印本arXiv：1904.09261，2019。[15] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM事务处理图表，36（4）：107：1[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译在CVPR中，第5967-5976页。IEEE计算机学会，2017年。[17] 岩田智晴，渡边真司，泽田浩。时尚协调推荐系统使用时尚杂志的照片。在IJCAI中，第2262-2267页。IJ-CAI/AAAI，2011年。[18] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年[19] 尼古拉·杰切夫和乌尔斯·伯格曼条件分析GAN：在人物图像上交换时尚物品。在ICCV研讨会上，第2287-2292页。IEEE计算机协会，2017年。[20] 赵英珠和朴钟佑SC-FEGAN：具有用户草图和颜色的人脸编辑生成对抗网络CoRR，abs/1902.06838，2019。[21] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR。OpenReview.net，2018年。[22] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401计算机视觉基金会/ IEEE，2019年。[23] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan：走向多样化和交互式的面部图像处理。arXiv预印本arXiv：1907.11922，2019。[24] Sumin Lee，Sungchan Oh，Chanho Jung，and ChangickKim.一个用于时尚地标检测的全局-局部嵌入模块。在IEEE计算机视觉研讨会国际会议论文集，第0-0页[25] Yuncheng Li ， Liangliang Cao ， Jiang Zhu ， and JieboLuo.使用端到端深度学习方法在集合数据上挖掘时尚服装组成。IEEE Trans. Multimedia，19（8）：1946[26] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页[27] 刘静媛和卢红。深入的时尚分析与特征地图上采样和地标驱动的注意力。在欧洲计算机视觉会议（ECCV）的Proceedings中，第0-0页[28] Yu Liu ， Wei Chen ， Li Liu ， and Michael S. 卢Swapgan：一种多阶段生成方法，用于人与人之间的时尚风格转移。IEEE Trans. Multimedia，21（9）：2209-2222，2019。[29] Ziwei Liu，Sijie Yan，Ping Luo，Xiaogang W

下载后可阅读完整内容，剩余1页未读，立即下载