基于图像的虚拟试穿网络的研究

19 浏览量更新于2023-10-25 收藏 16.12MB PDF 举报

图像方法

准确性评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

151840基于图像的虚拟试穿网络从非配对数据中0Assaf Neuberger Eran Borenstein Bar Hilleli Eduard Oks Sharon AlpertAmazon Lab1260{neuberg,eran,barh,oksed,alperts}@amazon.com0摘要0本文提出了一种新的基于图像的虚拟试穿方法（Outfit-VITON），可以帮助可视化从各种参考图像中选择的服装组合在查询图像中的人物上形成一个连贯的外观。我们的算法具有两个独特的特点。首先，它是廉价的，因为它只需要一大组单独的（非对应的）人物图像（真实和目录），这些图像中人们穿着各种服装，而不需要明确的3D信息。训练阶段只需要单个图像，无需手动创建图像对，其中一个图像显示一个人穿着特定的服装，另一个图像仅显示同一目录服装。其次，它可以合成多个服装组成的单一连贯外观的图像，并且可以控制最终外观中呈现的服装类型。一旦训练完成，我们的方法可以从穿着衣服的人体模型的多个图像中合成一个连贯的外观，同时适应查询人物的身体形状和姿势。在线优化步骤处理复杂的纹理和标志等细节。在包含大量形状和风格变化的图像数据集上进行的定量和定性评估表明，与现有的最先进方法相比，特别是在处理高度详细的服装时，我们的方法具有更高的准确性。01. 引言0在美国，在线服装销售占总服装和配饰销售的比例正在以比其他电子商务领域更快的速度增长。在线购物提供了从家中舒适地购物、大量选择商品以及获取最新产品的便利。然而，网上购物无法进行实际试穿，从而限制了顾客对服装在自己身上实际效果的了解。这个关键限制促使了虚拟试衣间的发展，通过合成生成顾客穿着所选服装的图像，以帮助比较和选择最理想的外观。0查询图像参考服装结果0图1：我们的O-VITON算法旨在合成显示查询图像中的人物穿着来自多个参考图像的服装的图像。所提出的方法能够生成服装之间自然的边界，并能够填补缺失的服装和身体部分。01.1. 3D方法0传统的合成穿着服装的逼真图像的方法依赖于从深度相机[28]或多个2D图像[3]构建的详细3D模型。3D模型能够在几何和物理约束下实现逼真的服装模拟，以及精确的51850控制视角、光照、姿势和纹理。然而，它们在数据捕获、注释、计算和某些情况下需要专用设备（如3D传感器）方面的成本很高。这些巨大的成本阻碍了规模化到数百万顾客和服装的发展。01.2. 有条件的图像生成方法0最近，更经济的解决方案提出将虚拟试穿问题表述为有条件的图像生成问题。这些方法从两个输入图像生成穿着所选服装的人物逼真的图像：一个显示人物，一个显示服装（称为商店内服装）单独的图像。这些方法可以分为两大类，取决于它们使用的训练数据：（1）成对数据、单一服装方法，使用训练集中描绘同一服装的多个图像对。例如，显示穿着和不穿着该服装的图像对（例如[10,30]），或者在两个不同姿势下呈现特定服装的图像对。（2）单一数据、多个服装方法（例如[25]），将整个外观（由多个服装组成）作为训练数据的一个单一实体。这两种方法都有两个主要限制：首先，它们不允许顾客选择多个服装（例如衬衫、裙子、夹克和帽子），然后将它们组合在一起以适应顾客的身体。其次，它们是在几乎无法大规模收集的数据上进行训练的。对于成对数据、单一服装图像，很难为每种可能的服装收集几个配对。对于单一数据、多个服装图像，很难收集足够的实例来涵盖所有可能的服装组合。01.3. 创新点0在本文中，我们提出了一种新的基于图像的虚拟试穿方法：1）提供了一种廉价的数据收集和训练过程，只使用单个2D训练图像，这比成对的训练图像或3D数据更容易大规模收集。2）通过合成多个服装图像并组合成一个连贯的服装（图2），提供了先进的虚拟试穿体验，并允许用户控制最终服装的类型。3）引入了一种在线优化能力，用于准确合成细致的服装特征，如纹理、标志和刺绣。我们在包含大形状和风格变化的一组图像上评估了所提出的方法。定量和定性结果表明，我们的方法比先前的方法取得了更好的结果。02. 相关工作02.1. 生成对抗网络0生成对抗网络（GAN）[7，27]是训练用于合成与原始训练数据无法区分的逼真样本的生成模型。GAN在图像生成[24，17]和操作[16]方面取得了有希望的结果。然而，原始的GAN公式缺乏有效的控制输出的机制。条件GAN（cGAN）[21]通过对生成的示例添加约束来解决这个问题。GAN中使用的约束可以是类标签[1]、文本[36]、姿势[19]和属性[29]（例如嘴巴张开/闭合、有胡子/无胡子、戴眼镜/不戴眼镜、性别）。Isola等人[13]提出了一种称为pix2pix的图像到图像的转换网络，将一个域中的图像映射到另一个域中的图像（例如从草图到照片，从分割到照片）。这种跨域关系在图像生成方面取得了有希望的结果。Wang等人的pix2pixHD[31]从单个分割图生成多个高清输出。它通过添加一个自动编码器来学习约束GAN的特征图，从而实现更高级的局部控制。最近，[23]建议使用一种空间自适应归一化层，它在图像级别而不是局部地编码纹理。此外，使用GAN进行图像合成已经得到了证明[18，35]，其中将前景图像的内容通过几何变换转移到背景图像，产生具有自然外观的图像。最近的研究[34]表明，在测试阶段对GAN进行微调可以用于面部再现。02.2. 虚拟试穿0深度神经网络的最新进展激发了一些只使用2D图像而没有任何3D信息的方法。例如，VITON[10]方法使用形状上下文[2]来确定如何通过几何变换将服装图像变形以适应查询人物的几何形状，使用了一个组合阶段和几何变换。CP-VITON[30]使用卷积几何匹配器[26]来确定几何变换函数。这项工作的扩展是WUTON[14]，它使用对抗性损失进行更自然和详细的合成，而不需要组合阶段。PIVTONS[4]扩展了[10]以适应姿势不变的服装，MG-VTON[5]用于多姿势虚拟试穿。所有不同版本的原始VITON[10]都需要一组成对图像的训练集，即每个服装都有和没有穿戴它的人体模型的捕捉图像。这限制了可以收集训练数据的规模，因为获取这样的成对图像非常费时。此外，在测试期间，只能将服装的目录（店内）图像转移到人物的查询图像中。SegmentationresultShape generation networkAppearance generation networkQuery imageFeed-forwardappearanceOnline optimized appearanceReference segmentationsShape Auto-encoderShape Auto-encoderShape Auto-encoderAppearance Auto-encoderAppearance Auto-encoderAppearance Auto-encoderAppearance online optimizationsegDensePosesegsegReference imagesQuery SegmentationQuery imageShape feature sliceQuery body modelAppearance feature vector𝐻𝑥𝑊𝑥𝐷&𝐻𝑥𝑊𝑥𝐷&𝐷'𝐻𝑥𝑊𝑥𝐷(𝐻𝑥𝑊𝑥𝐷&𝐻𝑥𝑊𝑥𝐷)Up-scalingInstance-wise broadcast1𝑥𝐷)8𝑥4𝑥𝐷'𝐷&8𝑥4𝑥𝐷'8𝑥4𝑥𝐷'Reference images𝐷&𝑥𝐷)Reference images𝐻𝑥𝑊𝑥3𝐷&𝑥𝐷)Shape feature mapAppearance feature map1𝑥𝐷)𝐻𝑥𝑊𝑥𝐷&𝐻𝑥𝑊𝑥𝐷&51860外观生成形状生成0�0�0�0�0外观细化0图2：我们的O-VITON虚拟试穿流程将查询图像与从参考图像中选择的服装结合在一起，生成一个连贯的服装。该流程有三个主要步骤。第一步形状生成生成一个新的分割图，表示查询图像中的人体形状和所选服装的形状特征图的组合，使用形状自动编码器。第二步外观生成将外观特征图与分割结果一起前馈，生成一个逼真的服装。然后，通过在线优化步骤来改善输出的外观，创建最终的服装。0在[32]中，使用GAN将参考服装变形到查询人物图像上。虽然不需要目录服装图像，但仍需要多个姿势中同一人物穿着相同服装的相应对应对。上述工作仅处理上身服装的转移（除了[4]仅适用于鞋子）。Sangwoo等人[22]应用分割掩码以允许对生成的形状进行控制，例如将裤子变形为裙子。然而，在这种情况下，仅控制翻译服装的形状。此外，每个形状翻译任务都需要自己专用的网络。[33]的最新工作生成了穿着多个服装的人物图像。然而，生成的人体模型仅由姿势控制，而不是身体形状或外观。此外，该算法需要一组成对的完整服装图像进行训练，这在规模上尤其困难。[25]（SwapNet）使用GAN在两个查询图像之间交换整个服装。它有两个主要阶段。首先，它将查询人物的扭曲分割生成到参考服装上，然后叠加服装纹理。该方法使用自我监督学习形状和纹理转移，并不需要成对的训练集。然而，它在服装级别而不是服装级别上操作，因此缺乏组合性。[9，12]的最新工作也通过形状和纹理生成的两个阶段生成时尚图像。03.服装虚拟试穿（O-VITON）0我们的系统使用多个穿着不同形状和风格的服装的参考图像。用户可以在这些参考图像中选择服装以接收一个0算法生成的服装输出显示了他们个人形象（查询）穿着这些选择的服装的逼真图像。0我们对这个具有挑战性的问题的方法受到了pix2pixHD方法[31]在图像到图像转换任务中的成功启发。与这种方法类似，我们的生成器G是根据语义分割图和由编码器E生成的外观图进行条件化的。自动编码器为分割图中的每个语义区域分配一个表示区域外观的低维特征向量。这些基于外观的特征使得能够控制输出图像的外观，并解决了不使用这些特征的条件GAN经常出现的缺乏多样性的问题。0我们的虚拟试穿合成过程（图2）包括三个主要步骤：（1）生成一个分割图，将所选参考服装的轮廓（形状）与查询图像的分割图一致地结合在一起。（2）生成一个逼真的图像，显示穿着从参考图像中选择的服装的查询图像中的人物。（3）在线优化以改善最终输出图像的外观。0我们更详细地描述了我们的系统：第3.1节描述了前馈综合流程及其输入、组件和输出。第3.2节描述了形状和外观网络的训练过程，第3.3节描述了用于微调输出图像的在线优化。518703.1.前馈生成03.1.1 系统输入0我们系统的输入包括一个H×W的RGB查询图像x0，其中有一个希望试穿各种服装的人。这些服装由一组M个附加的参考RGB图像(x 1，x 2，... xM)表示，这些图像以与查询图像x0相同的分辨率包含各种服装。请注意，这些图像既可以是穿着不同服装的人的自然图像，也可以是显示单个服装物品的目录图像。此外，参考服装的数量M可能会有所不同。为了获得时尚图像的分割图，我们训练了一个PSP[37]语义分割网络S，它输出大小为H×W×D c的s m = S(xm)，其中x m中的每个像素都使用独热编码标记为Dc个类别之一。换句话说，s(i, j, c) = 1表示像素(i,j)标记为类别c。类别可以是身体部位，如面部/右臂，也可以是服装类型，如上衣、裤子、夹克或背景。我们使用分割网络S计算查询图像的分割图s0和参考图像(1≤m≤M)的分割图sm。类似地，应用Dense-Pose网络[8]来估计大小为H×W×D b的人体模型b。03.1.2 形状生成网络组件0形状生成网络负责上述第一步：将查询图像x 0中的人的身体模型b与所选服装的形状{sm}M m = 1相结合（图2中的绿色框）。如3.1.1节所述，语义分割图s m0为xm中的每个像素分配一个独热向量表示。因此，通过深度维度s m(∙,∙,c)的s m的W×H×1切片提供了一个二进制掩码Mm,c，表示映射到图像xm中类别c的像素区域。形状自编码器Eshape经过局部池化步骤将该掩码映射到形状特征切片e sm,c = E shape(M m,c)，维度为8×4×D s。每个Dc可能的分割类别的类别c由e sm,c表示，即使图像m中没有类型c的服装。换句话说，它将一个零值掩码M m,c输入到Eshape中。当用户想要从查询图像中为人物穿上类型c的服装时，我们只需将e s 0,c替换为e sm,c的相应形状特征切片，而不管查询图像中是否存在服装c。通过沿深度维度连接所有服装类型的形状特征切片，得到一个粗糙的形状特征图¯ e s，维度为8×4×D s Dc。我们将e s称为¯ e s的上采样版本，维度为H×W×D s Dc。0实质上，将不同类型的服装组合到查询图像中只需用参考图像的相应形状特征切片替换其对应的形状特征切片。将形状特征图e s和身体模型b输入形状生成网络Gshape，生成一个新的、经过转换的查询人物穿着所选参考服装的分割图s y = G shape(b, e s)。03.1.3 外观生成网络组件0我们外观生成网络中的第一个模块（图2中的蓝色框）受到[31]的启发，它接收RGB图像及其相应的分割图(x m, sm)，并应用外观自编码器E app(x m, sm)。外观自编码器的输出表示为H×W×D t的¯ e tm。通过根据掩码Mm,c进行区域平均池化，我们形成一个D t维向量e tm,c，描述该区域的外观。最后，通过将外观特征向量e tm,c区域广播到由掩码Mm,c标记的相应区域，得到外观特征图e tm。当用户从图像xm中选择类型c的服装时，只需将查询图像的外观向量e t0,c替换为服装图像的外观向量e tm,c，然后进行区域广播，生成外观特征图et。外观生成器Gapp以前一阶段形状生成阶段生成的分割图sy为输入，以外观特征图et为条件，生成表示前馈虚拟试穿输出的输出y = G app(s y,e t)。03.2. 训练阶段0形状生成网络和外观生成网络是独立训练的（图3），使用相同的训练集，该训练集包含各种姿势和服装的单输入人物图像。在每个训练方案中，生成器、判别器和自编码器都是联合训练的。03.2.1 外观训练阶段0我们使用了一种条件生成对抗网络（cGAN）方法，类似于[ 31 ] 用于图像到图像的转换任务。在 cGAN框架中，训练过程旨在优化一个表示生成器 G 和判别器 D竞争的极小极大损失 [ 7 ]。给定一个训练图像x，生成器接收一个相应的分割图 S ( x ) 和一个外观特征图e t ( x ) = E app ( x, S ( x ))作为条件。注意，在训练阶段，分割图和外观特征图都是从同一输入图像 x提取的，而在测试阶段，分割图和外观特征图是从多个图像计算得到的。我们在第3.1节中描述了这一步骤。生成器旨在合成LF M(G) = Ex�lλl||φl(G(S(x), et(x))) − φl(x)||2F51880形状特征图0DensePose人体模型0DensePose0生成的分割图0原始分割图0分割图0PSP 分割0生成的图像原始图像0形状自编码器0形状生成器0外观自编码器0外观生成器0图3：训练阶段。（左）形状生成器将人体模型和形状特征图转换为原始分割图。（右）外观生成器将分割图和外观特征图转换为原始照片。这两个训练方案使用相同的非配对时尚图像数据集。0生成 G app ( S ( x ) , e t ( x ))的大小，使得当判别器试图将生成的输出与原始输入（如 x）分离时，判别器会感到困惑。判别器还受到分割图 S ( x )的条件约束。与 [ 31 ] 类似，生成器和判别器旨在最小化LSGAN 损失 [ 20]。为简洁起见，我们在以下方程中省略了外观网络组件的app 下标。0最小化 G L GAN ( G ) = E x [( D ( S ( x ) , G ( S ( x ) , e t ( x ))− 1) 2 ]0最小化 D L GAN ( D ) = E x [( D ( S ( x ) , x ) − 1) 2 ] +E x [( D ( S ( x ) , G ( S ( x ) , e t ( x ))) 2 ] (1) 生成器 G app的架构与 [ 15 , 31 ]中使用的架构类似，包括卷积层、残差块和转置卷积层进行上采样。判别器 D app 的架构是 PatchGAN [ 13 ]网络，如 [ 31 ]中所述，应用于多个图像尺度。判别器的多级结构使其能够在粗略尺度上具有较大的感受野以获得更全局的视图，并且在细节尺度上测量微妙的细节。 E的架构是一个标准的卷积自编码器网络。除了对抗损失外，[31 ]还建议使用额外的特征匹配损失来稳定训练并强制其遵循多个尺度上的自然图像统计。在我们的实现中，我们添加了一个特征匹配损失，由 [ 15 ]提出，直接比较生成图像和真实图像的激活，使用预训练的感知网络（VGG-19）计算。让 φ l成为跨通道的层激活的向量形式，具有维度 C l × H l ∙ W l。我们使用超参数 λ l 来确定层 l对损失的贡献。该损失定义为：0（2）我们将这些损失组合在一起得到损失函数：0外观生成网络的训练数据：0L train ( G, D ) = L GAN ( G, D ) + L F M ( G ) (3)03.2.2 形状训练阶段0形状生成网络的训练数据与外观生成网络使用的训练数据相同，我们也使用类似的条件GAN损失来训练该网络。与3.2.1中描述的将外观与形状解耦类似，我们希望将身体形状和姿势与服装的轮廓解耦，以便在测试阶段将参考图像中的服装转移到查询图像中。我们通过对每个切片s(∙, ∙,c)进行随机仿射变换来鼓励这一点。这受到SwapNet[25]中描述的自监督的启发。此外，我们对Eshape的输出应用平均池化，将H×W×Ds维度映射到8×4×Ds维度。这是为了测试阶段而做的，需要一个对姿势和身体形状都不变的形状编码。G shape和鉴别器Dshape的损失函数与（3）类似，生成器以形状特征es(x)为条件，而不是输入图像的外观特征图et。鉴别器的目标是将s = S(x)与s y = G shape(S(x), es)分开。在（2）中的特征匹配损失被替换为交叉熵损失LCE组件，用于比较语义分割图的标签。03.3. 在线优化0外观网络（自编码器和生成器）的前馈操作有两个主要限制。首先，由于不规则的图案和在训练集中表示较少，纹理属性不重复的罕见服装更具挑战性。图6显示了我们的训练集中各种纹理属性的频率。最常见的图案是纯色（无特征纹理）。其他常见的纹理，如标志、条纹和花卉，非常多样化，属性分布具有相对较长的尾部，包含其他不常见的非重复图案。这构成了一个具有挑战性的学习任务，神经网络旨在准确生成训练集中稀缺的图案。其次，无论训练集有多大，都不足以覆盖所有可能的服装图案和形状变化。因此，我们提出了一种受到风格转移[6]启发的在线优化方法。该优化在测试阶段期间对外观网络进行微调，以将参考服装从参考图像合成到查询图像中。首先，我们使用3.1.3中描述的前馈外观网络的参数。然后，我们通过最小化参考损失来微调生成器Gapp（简称为G），以更好地重建参考图像xm中的服装。形式上，给定参考服装，我们使用其对应的区域二值掩模M m,c，该掩模由sm给出，以定位参考损失（3）：O-VITON (ours) with online optimizationdiverse and the attribute distribution has a relatively long tailof other less common non-repetitive patterns. This consti-tutes a challenging learning task, where the neural networkaims to accurately generate patterns that are scarce in thetraining set. Second, no matter how big the training set is, itwill never be sufﬁciently large to cover all possible garmentpattern and shape variations. We therefore propose an on-line optimization method inspired by style transfer [6]. Theoptimization ﬁne-tunes the appearance network during thetest phase to synthesize a garment from a reference garmentto the query image. Initially, we use the parameters of thefeed-forward appearance network described in 3.1.3. Then,we ﬁne-tune the generator Gapp (for brevity denoted as G)to better reconstruct a garment from reference image xm byminimizing the reference loss. Formally, given a referencegarment we use its corresponding region binary mask Mm,cwhich is given by sm in order to localize the reference loss(3):Lref(G) =�lλl||φml (G(S(xm), etm)) − φml (xm)||2F+ (Dm(xm, G(S(xm), etm))) − 1)2(4)Lqu(G) = (Dm(sy, y) − 1)2(5)Lonline(G) = Lref(G) + Lqu(G)(6)51890查询图像参考服装 CP-VITONO-VITON（我们的方法）使用前馈0查询图像参考服装 O-VITON（我们的方法）使用在线优化0图4：单件服装转移结果。（左）查询图像列；参考服装；CP-VITON[30]；只使用前馈的O-VITON（我们的方法）；使用在线优化的O-VITON（我们的方法）。请注意，仅使用前馈在某些情况下可能令人满意，但在其他情况下可能不足。在线优化可以生成更准确的视觉细节和更好的身体部位完成。（右）生成除衬衫以外的服装，其中CP-VITON不适用。0其中上标m表示通过空间掩码Mm,c定位损失。为了改善查询图像的泛化能力，我们使用GAN损失（1）比较新转换的查询分割图sy及其相应的生成图像y，表示为查询损失：0因此，我们的在线损失结合了参考服装损失和查询损失：0参考损失（4）和查询损失（5）：0请注意，在线优化阶段是针对每个参考服装单独应用的（参见图5）。由于查询图像中的所有区域都不是空间对齐的，我们舍弃了特征匹配损失（2）的相应值。04. 实验0我们的实验是在一个包含各种服装和姿势的人物数据集上进行的，该数据集是从亚马逊目录中获取的，包括男性和女性。数据集被分为训练集和测试集，分别包含45K和7K张图像。所有图像都被调整为固定的512×256像素。我们进行了单个物品（上衣、裤子、裙子、夹克和连衣裙）的合成实验，以及一起合成物品对（例如上衣和裤子）。04.1. 实现细节0设置：我们使用的自动编码器E shape，E app，生成器Gshape，G app和鉴别器D shape，Dapp的架构与[31]中的相应组件类似，但有以下区别。首先，自动编码器的输出具有不同的维度。在我们的情况下，输出维度为D s = 10（对于E shape）和D t = 30（对于Eapp）。分割图中的类别数为D c =20，身体模型的维度为D b =27。其次，我们使用单层生成器G shape，Gapp，而不是两层生成器G 1和G2，因为我们使用的是较低的512×256分辨率。我们使用ADAM优化器对形状和外观网络进行40和80个时期的训练。51900参考服装分割0查询图像分割0外观生成器0在线参考损失0在线查询损失0原始参考图像生成的参考图像0生成的查询图像0外观鉴别器0生成的查询图像0生成的参考图像0前馈初始化在线优化结果早期迭代高级迭代0图5：在线损失将参考损失和查询损失结合起来，以提高生成输出与所选服装之间的视觉相似性，尽管两个图像在空间上并不对齐。当生成的参考服装（用橙色轮廓标记）与参考服装的原始照片相似时，参考损失最小化。当外观鉴别器将生成的查询与参考服装排名为逼真时，查询损失最小化。0和批量大小分别为21和7。其他训练参数为lr = 0.0002，β1= 0.5，β2 =0.999。在线损失（第3.3节）也使用ADAM进行优化，使用lr = 0.001，β1 = 0.5，β2 =0.999。当两次迭代之间的在线损失差异小于0.5时，优化过程终止。在我们的实验中，平均而言，该过程在80次迭代后终止。基准：VITON [10]和CP-VITON[30]是目前最先进的基于图像的虚拟试穿方法，其实现可在网上找到。我们主要关注与CP-VITON的比较，因为它在[30]中已经被证明优于原始的VITON。请注意，除了下面报告的评估差异之外，CP-VITON（和VITON）方法比我们提出的方法更受限制，因为它们只支持在配对数据集上训练的上衣的生成。评估协议：我们采用了先前虚拟试穿方法（如[30，25，10]）使用的相同评估协议，既包括定量指标，也包括人类主观感知研究。定量指标包括：（1）FréchetInceptionDistance（FID）[11]，用于测量生成图像与真实图像之间的Inception-v3激活分布之间的距离。（2）Inceptionscore（IS）[27]，用于测量应用于生成图像的预训练Inception-v3网络（ImageNet）的输出统计数据。0我们还进行了一项成对的A/B测试人工评估研究（与[30]类似），向一个人类受试者（工作者）展示了250对参考图像和查询图像以及它们对应的虚拟试穿结果（对比的两种方法都有）。具体来说，给定一个人的图像和一个目标服装图像，要求工作者在两个虚拟试穿结果之间选择更真实并保留更多目标服装细节的图像。比较（表1）分为3个变体：（1）上衣的合成（2）单件服装的合成（例如上衣、夹克、裤子和连衣裙）（3）从两个不同的参考图像合成两件服装（例如上衣和裤子，上衣和夹克）。04.2. 定性评估0图4（左）显示了我们的O-VITON方法与CP-VITON相比的在线优化步骤有无的定性示例。为了公平比较，我们只包括上衣，因为CP-VITON只训练了转移衬衫。请注意，在线优化能够更好地保留印花、标志和其他非重复图案的细节纹理。此外，CP-VITON严格遵循原始查询服装的轮廓，而我们的方法对查询人物的原始服装不太敏感，生成更自然的外观。图4（右）显示了夹克、连衣裙和裤子的在线优化步骤的合成结果与无在线优化步骤的结果。两种方法都使用相同的形状生成步骤。我们可以看到，我们的方法成功地完成了查询人体模型的遮挡区域，如肢体或新暴露的皮肤。在线优化步骤使模型能够适应训练数据集中没有出现的形状和服装纹理。图1显示，即使建议的方法同时合成两件或三件服装，也保留了详细合成的水平。失败案例图7显示了我们的方法由于不常见的姿势、具有独特轮廓的服装和具有复杂非重复纹理的服装而导致的失败案例，这对在线优化步骤更具挑战性。更多失败案例示例请参见补充材料。04.3. 定量评估0表1对比了我们的O-VITON结果与CP-VITON的结果，并对我们仅使用前馈（FF）和前馈+在线优化（简称为在线）的结果进行了比较。与CP-VITON相比，我们的在线优化FID误差减少了约17％，IS分数提高了约15％。（但请注意，我们仅使用前馈的FID误差高于CP-VITON）。人工评估研究与FID和IS分数都很好地相关，65％的测试中我们的结果优于CP-VITON。FIDIS51910上衣单件两件服装0CP-VITON 20.06 - - FID ↓ O-VITON (FF) 25.68 21.37 29.71 O-VITON16.63 20.47 28.520CP-VITON 2.63 ± 0.04 - - IS ↑ O-VITON (FF) 2.89 ± 0.08 3.33 ± 0.073.47 ± 0.11 O-VITON 3.02 ± 0.07 3.02 ± 0.07 3.02 ± 0.07 3.61 ± 0.093.61 ± 0.09 3.61 ± 0.09 3.51 ± 0.08 3.51 ± 0.08 3.51 ± 0.080人类 ↓ CP-VITON 65％ ± 3％ - - O-VITON vs. O-VITON (FF) 94％ ± 2％78％ ± 3％ 76％ ± 3％0表1：两个定量和一个定性比较：（1）显示了FréchetInception Distance（FID）[30]（2）显示了InceptionScore（IS）[27]和（3）显示了我们的O-VITON（使用在线优化）结果与CP-VITON和我们的前馈O-VITON（FF）方法的A/B测试人工评估研究。这些指标在三个数据集上进行评估：仅上衣服装、单件服装和两件服装。0在线优化的消融研究为了证明在线优化步骤的额外计算成本，我们将我们的方法与具有（在线）和不具有（FF）在线优化步骤（第3.3节）进行比较。与CP-VITON的比较类似，我们使用FID和IS分数以及人工评估。如表1所示，在线优化步骤在上衣的FID分数上显示出显著的改进，并在一件和两件服装上显示出可比较的结果。我们认为上衣的改进是因为上衣通常比裤子、夹克和裙子更复杂（例如纹理、标志、刺绣）。更多示例请参见补充材料。在线优化步骤在所有三种情况下也显示出优势或可比较的IS分数。人工评估清楚地证明了在线与仅前馈方案的优势，上衣上的偏好度为94％，一件服装上的偏好度为78％，两件服装上的偏好度为76％。0在线损失作为合成质量的度量我们测试了合成图像质量与在线优化方案（3.3节中的Eq.6）的最小化损失值之间的关系。我们在一组高纹理上计算了FID和IS分数，并在优化过程中测量了一系列损失值。从大约6.0的高损失值开始，以1.0的固定间隔直到2.0的损失值。图6显示了FID错误（红色）和IS分数（蓝色）的变化情况。随着损失值的降低，FID错误明显减少，IS分数增加。我们认为在线损失值与合成质量高度相关。0图6：（左）纹理属性分布。复杂的纹理较少见，因此在前向操作中更具挑战性。（右）外观生成的在线损失作为FID（虚线）和IS（虚线）的成功度量。0参考服装查询图像结果0参考服装查询图像结果0图7：（左）生成形状的失败案例。（右）生成外观的失败案例。05. 总结0我们提出了一种新颖的算法（O-VITON），可以实现改进的虚拟试穿体验，用户可以选择多种服装组合成逼真的服装。O-VITON直接使用个别2D训练图像，这比成对的训练图像更容易收集和扩展。我们的方法生成了一个几何上正确的分割图，将选定的参考服装的形状改变为符合目标人物的形状。该算法使用在线优化方案准确地合成了细致的服装特征，如纹理、标志和刺绣。定量和定性评估表明，与现有的最先进方法相比，我们的方法具有更好的准确性和灵活性。0参考文献0[1] C. Olah A. Odena and J. Shlens.带有辅助分类器GAN的条件图像合成。在ICML，2017年。 20[2] Serge Belongie, Jitendra Malik, and Jan Puzicha.使用形状上下文进行形状匹配和物体识别。IEEE模式分析与机器智能交易，(4):509-522，2002年。 251920[3] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, and Michael J Black.从单个图像自动估计3D人体姿势和形状。在欧洲计算机视觉会议上，第561-578页。Springer，2016年。 10[4] Chao-Te Chou, Cheng-Han Lee, Kaipeng Zhang,Hu-Cheng Lee, and Winston H Hsu. Pivtons:具有条件图像补全的姿势不变虚拟试穿鞋子。在亚洲计算机视觉会议上，第654-668页。Springer，2018年。 2 , 30[5] Haoye Dong, Xiaodan Liang, Bochao Wang, Hanjiang Lai, Jia Zhu, andJian Yin.多姿势引导的虚拟试穿网络。arXiv预印本arXiv:1902.11026，2019年。 20[6] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络进行图像风格转移。在计算机视觉和模式识别IEEE会议论文集上，第2414-2423页，2016年。 60[7] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio.生成对抗网络。在神经信息处理系统进展中，第2672-2680页，2014年。 2 , 40[8] Rıza Alp G¨uler, Natalia Neverova, and Iasonas Kokkinos.在野外密集的人体姿势估计。在计算机视觉和模式识别IEEE会议论文集上，第7297-7306页，2018年。 40[9] Xintong Han, Zuxuan Wu, Weilin Huang, Matthew RScott, and Larry S Davis. 兼容且多样的时尚图像修复.arXiv预印本arXiv:1902.01096，2019年。30[10] Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, and Larry SDavis. Viton: 基于图像的虚拟试穿网络.在《计算机视觉与模式识别IEEE会议论文集》中，2018年，7543-7552页。2, 70[11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在《神经信息处理系统进展》中，2017年，6626-6637页。70[12] Wei-Lin Hsiao, Isay Katsman, Chao-Yuan Wu, Devi Parikh,and Kristen Grauman. Fashion++: 用于服装改进的最小编辑.arXiv预印本arXiv:1904.09261，2019年。30[13] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. 条件对抗网络的图像到图像翻译.在《计算机视觉与模式识别IEEE会议论文集》中，2017年，1125-1134页。2, 50[14] Thibaut Issenhuth, J´er´emie Mary, and Cl´ementCalauzennes. 用于虚拟试穿的特征图几何变形的端到端学习.arXiv预印本arXiv:1906.01347，2019年。2

下载后可阅读完整内容，剩余1页未读，立即下载