高真实感虚拟试穿：解纠缠周期一致性网络

167 浏览量更新于2024-01-22 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16928CNN自我监督学习（单程）监督服装1一代一代翘曲高真实感虚拟试穿的非纠缠周期一致性葛崇建1宋一兵2葛玉英1韩阳3刘伟4罗萍1香港大学2腾讯AI Lab3ETH苏黎世4T加密数据平台{rettgee，yuyingge}@www.example.comwww.example.comconnect.hku.hkyibingsong.cv@gmail.comhanyang@ethz.chwl2223@columbia.edupluo@cs.hku.hk摘要图像虚拟试穿将人物图像上的衣服替换为期望的店内衣服图像。这是chal-challing，因为人和店内的衣服是不成对的。现有的方法将虚拟试穿制定为绘画或循环一致性。这两个公式都鼓励生成网络以自监督的方式重建输入图像。然而，现有的方法不区分服装和非服装区域。直截了当的一代人阻碍了虚拟输入1面具1服装2CNN 1美国有线电视新闻网2重建1试穿1衣服1循环一致性（香草）由于重耦合图像控制，帐篷在本文中，我们提出了一个解纠缠的周期一致性尝试网络（DCTON）。DCTON能够通过解开虚拟试穿的重要组件（包括衣服翘曲、皮肤合成和图像合成）来产生高度逼真的试穿图像。此外，DCTON可以在循环一致性学习之后以自我监督的方式自然地训练。在具有挑战性的基准测试上的广泛实验表明，DCTON优于最先进的方法。1. 介绍虚拟试穿时装形象的目的是改变一个人的衣服与其他商店的衣服。它在服装匹配、时尚图像编辑、电子商务服装检索等方面有着广泛的应用。现有的方法主要集中在基于2D图像的直接试穿，因为在线可获得的人图像和店内服装图像。然而，这些图像是未配对的，因为收集具有多个模特的图像是不可行的，其中每个模特穿着不同的且像素对齐的衣服。为了处理未配对的图像，现有的方法，如VITON[15]，CP-VTON [35]，CP-VTON+ [24]，和*Y。宋是通讯作者。这项工作是在C.葛是腾讯人工智能实验室的实习生代码可以在 https ： //github 上找到。com/ChongjiangGE/DCTON.CNN1衣服2表面输入1试穿1表面衣服1循环一致性（我们的）翘曲一代美国有线电视新闻网2图1. 虚拟试穿管道的比较。修复方法（例如，CP-VTON [35]和ACGPN [40]）使用一个店内服装来替换相同的输入服装。中间一行中所示的普通CycleGAN [18]引入了两个店内服装以实现周期一致性，代价是生成耦合的图像内容（即，衣服、皮肤和人体姿势）。在最后一行中，我们提出了DCTON来将虚拟试穿分解为衣服翘曲和非衣服生成，这是建立在自监督学习的香草循环一致性基础上的。ACGPN [40]将虚拟试穿制定为修复问题。该算法首先对人体图像中的衣服区域进行掩模处理，然后利用同一件店内衣服进行自监督网络训练，恢复出衣服区域。管线在图1的顶行中示出。它被认为是一个单向重建从损坏的输入图像到其原始图像。由于这些方法在训练期间仅使用一件衣服（即，衣服1与输入1匹配），当人物图像和目标输入1一代一代16929(a) 输入（b）目标（c）ACGPN（d）CP-VTON（e）CA-GAN（f）DCTON图2.虚拟试穿比较。当目标衣服与输入图像中的衣服显著不同时，基于修复的方法（ACGPN [40]和CP-VTON [35]）不能有效地在（c）和（d）中建立准确的同时，重度耦合的内容生成（CA-GAN [18]）带来了显著的伪影，如（e）所示。与现有的方法不同，我们的DCTON在一个循环一致性训练配置中将虚拟试穿分解为衣服翘曲、皮肤合成和图像合成。该网络被学习以产生高度逼真的试穿结果，如（f）所示。商店里的衣服在视觉上有很大的不同。示例如图所示2（c）及（d），长袖衣服会改为短袖衣服。如第一行所示，未准确生成手臂区域。同时，第二排的裙子上也有大型文物。除了这些观察之外，这些方法还利用单独的模块进行虚拟试穿，例如薄板样条（TPS）[9]翘曲和语义预测。由于缺乏针对网络潜力开发的端到端培训，它们的性能有限。除了上述基于inpainting的方法外，CA-GAN [18]还将循环一致性纳入端到端网络训练。如图1的中间行所示，CA-GAN将输入人物图像的衣服（即，输入1）与任意目标店内图像（即，衣服2）。该网络设计提高了人物图像与任意目标服装之间的对应匹配。然而，在一个循环生成的对抗网络（GAN）中同时生成衣服的形状和纹理、人体皮肤和非衣服内容仍然是一个挑战。如图2（e）所示，在手臂和徽标区域周围出现伪影。这表明通过循环一致性训练的直接生成对于高质量虚拟试穿是不够的。在本文中，我们提出了一个解开周期一致性试穿网络（DCTON）解决上述限制。它将虚拟试穿分解为三个子模块。第一个是服装整经模块，其保存服装设计（例如，领型、袖型和商标）。第二个是皮肤合成模块，包括人体部分生成（例如，图2中的衬衫和背心的臂）。第三部分是图像合成模块，用于输出图像的生成.在训练过程中，DCTON将这三个组件从输入图像中分离出来，以构成自监督学习的试用周期。在基准数据集上的大量实验表明，DCTON对最先进的虚拟试穿方法表现良好。2. 相关工作在本节中，我们回顾了虚拟试穿和图像生成周期一致性的文献。2.1. 虚拟试穿对虚拟试穿的研究来自时尚编辑[28，14，48，23]，以实现有效的服装替换。计算机图形模型[46]和降维技术[10]首先被开发用于试穿生成。随着CNN的发展[32，33]，基于学习的方法发生了重大变化。这些方法可以分为基于3D的[12，27，25，41]和基于2D的[18，15，35，40]方法.由于轻量级的数据收集，2D方法适合真实世界的场景，因此变得流行。然而，由于缺乏配对的三元组数据[15，7]（即，参考人、目标店内服装和穿着该服装的人）。受自我监督学习的启发，现有技术以单向回归[15，35，24，44，40，13]或香草循环一致性来解决这个问题。16930111111[18]第二代。对于单向方案，首先使用VITON [15]、CP-VTON [35]和CP-VTON+ [24]遮盖衣服和四肢的区域，然后用相同的输入衣服或生成的皮肤重新填充该区域。当目标衣服与输入图像中的衣服显著不同时，这些方法不能很好地执行。此外，缺乏端到端的培训限制了他们的泛化潜力。在CA-GAN [18]中采用循环一致性结构进行虚拟试穿。通过向生成器提供混洗的训练样本（即，参考人和任意衣服），CA-GAN改进了衣服特征保持，同时在纹理和身体生成中带来了不期望的伪像。这是因为衣服纹理和被遮挡的身体部位的生成都需要一个网络。为此，我们的DCTON在一个循环一致性框架内将虚拟试穿分解为衣服变形、皮肤合成和图像合成，以产生高度逼真的试穿图像。2.2. 图像生成循环一致性的自监督学习引入了用于不成对图像到图像生成的逐像素监督[2，20，34，45]。在[47]中，CycleGAN 框架被提出用于不成对的图像合成。DualGAN在[43]中提出用于图像质量改进。在[20]中基于循环一致性探索了不同域之间的关系。循环一致性学习已应用于许多应用，包括图像风格转换[4，31]，对象跟踪[36，37]和照片增强[5，42]。然而，当处理人物图像生成[22，29]、姿势引导动画[3]、图像恢复[21，38]和虚拟试穿[15]时，循环一致性学习无效。受循环一致性方案[47]的启发，我们将试穿任务重新模拟为条件不成对图像到图像生成问题。试穿结果由参考人和目标衣服的图像有条件地生成直接的周期一致性对于试穿是无效的，因为衣服纹理和被遮挡的人体部分的生成本工作3.1. 解开虚拟试穿我们使用下标1来说明与输入衣服相关的图像内容，并且下标2表示与目标衣服相关的图像内容。具体地，我们将输入图像表示为I1，将店内目标衣服图像表示为C2，将输入图像的皮肤区域表示为S1，re-A。另一方面，将输入图像的店内服装表示为C1，将输出图像的皮肤区域表示为S2，并且将输出图像表示为I2。这些符号将被用来呈现解纠缠的过程。3.1.1服装整经整经模块中有两个顺序连接的编解码器我们使用Densepose描述符[1]来提取输入图像I1的人体表面表示，其表示为D。然后，我们发送D和C2到一个编码器-解码器网络命名为MPN（掩码预测网络）。 MPN将产生服装区域的掩模（即，MCLOTHES）和皮肤区域（即，M皮肤），它们分别用作进一步变形和生成的先验指导。我们训练MPN的监督，从解析标签的I1通过每个相应的掩码区域上的像素级L1注意，与先前的工作不同，我们采用Densepose描述符用于人类表示，因为它提供关键点位置和语义解析结果（例如，身体和手臂形状），而普通2D姿态估计器只能提供关键点位置。语义解析的结果提高了我们的模型变得敏感的周围的人的形状的衣服拟合和特征生成。在获得Mclothes 之后，我们将其与C2一起发送到第二个编码器-解码器网络，该网络被表示为空间Transformer网络[17]。飞行员将根据机长的指导进行C2的飞行. 具体地，首先生成变换矩阵T，通过薄板样条（TPS）[9]（即，T）以扭曲衣服图像C2。在获得扭曲的目标衣服C翘曲和皮肤区域M皮肤，我们使用将试穿分解为多个子模块，以实现高品质2 1成果生产。3. 该方法在循环一致性框架内，我们将虚拟试穿分解为衣服变形、皮肤合成和图像合成。三个编码器用于解开。图3显示了我们的管道的概述。在下文中，我们首先说明在第二节中解纠缠的每个分量。3.1.然后，循环一致性训练将在第二节中介绍。3.2使网络能够生成高度真实的试穿。编码器提取他们的金字塔特征，以进一步协调-nate与其他编码功能的输出生成。在循环一致性训练期间，将循环参数保持固定。我们仅使用店内服装图像C1和输入图像I1对训练器进行预训练. 损失函数可以写成：La=||T（C1）−I1<$Mclothes||1、（1）其中，M衣服是由解析结果给出的输入图像的掩码区域，并且m是逐元素乘法运算。16931221韩国Kin1MPNSTN包装纸2CNN架构你好，2121掩模预测网络图：空间Transformer网络12中文（简体）解纠缠周期一致性221图3. 我们的解纠缠周期一致性框架的管道。我们展示了上面的CNN架构，其中有衣服变形，皮肤合成和图像合成模块。来自这些模块的编码特征被级联以解码输出图像。循环一致性如下所示，其中我们使用具有相同架构的两个CNN。我们将输出图像从一个CNN发送到另一个CNN作为输入，以构成端到端学习的自我监督。由于真实世界试穿场景中的姿势的巨大变化，原始变换矩阵T可能不足以有效地在训练期间产生稳定的T。简单地采用这种方法是无法处理大的错位和变形，从而在被翘曲的衣服C上带来工件翘曲。我们进一步引入正则化项来鲁棒地产生T。在实践中，我们首先引入一个单应矩阵H来减少T的变化。对于第n次训练迭代，我们构造一个目标函数为：R=||H×Tn−1−Tn||二、（二）输入图像（即，S1）通过使用输入表面D。在获得S1之后，利用另一编码器分支来捕获其金字塔特征表示。我们使用的编码器包含与第二节中相同的架构第3.1.1条。S1的编码特征与每个特征级别的其他编码特征级联，以表示CNN特征空间中的输出图像I23.1.3图像合成在获得变形的衣服C变形和皮肤图像S的编码特征表示之后，我们将输入图像S发送给变形的衣服C变形。b21其中Tn−1来自第（n−1）次迭代。我们可以使用SVD[11]来解决齐次线性最小二乘问题以及优化H，并使用优化的H计算Eq.（2）作为正则项。因此，用于预训练的整个损失函数可以写为：L_a=L_a+R_b，（3）其中Rb在训练期间正则化变换矩阵T为此，我们已经成功地通过一个顺序网络去纠缠的衣服翘曲。3.1.2皮肤合成皮肤合成旨在恢复试穿期间被遮挡的人体区域我们提取皮肤区域将图像I1放入编码器中用于全局图像表示。编码器结构与其他两个编码器相同然后，我们将Cwarp、S1和I1的编码特征依次连接起来，并将它们发送到解码器中以生成输出图像I2。为此，我们进行衣服变形，皮肤合成，图像合成在三个-依赖模块并融合它们的特征表示以产生试穿结果。3.2. 周期一致性培训图3显示了循环一致性构造。给定输入图像I1，我们生成试穿结果I2，输入图像I1具有皮肤区域S1、目标衣服C2和密集描述符D。作为回报，我们使用生成的试穿结果I2、目标衣服S2带来的皮肤区域（即， M皮肤的衣服I2），并将目标衣服C1和D作为输入来生成CNN 1美国有线��中文（简体）��16932←逆预测输入图像I1。请注意，在训练过程中，所设计的网络CNN1和CNN2在写为：101..包裹物衣服..图3共享相同的架构。周期一致性Lvgg=（..）φl（C2W H C-M12）.1←将通过强制执行I1和I1来制定自我-l=1..LL l←..监管我们进一步说明循环一致性训练期间的损失函数如下：+.. φl（C1wrap−M2clothesI1）.. ）的情况下，（七）对抗性损失。我们在对抗损失Ladv计算阶段引入两个鉴别器Dp和Ds。学习的生成器将合成目标试穿图像I2，←逆预测输入图像I1、目标皮肤图像I2←S2和逆预测的输入皮肤图像S1。我们←除了I1和I2的外观类似于←I1，而S1和S2的外观都与之类似的S1。损失函数可以写为：←其中φ1表示VGG19 [19]中第1层的特征，并且W1、H1、C1是对应CNN特征的空间参数目标函数我们的最终目标函数由上述所有损失项组成，可以写为：L所有 =Ladv +λcycL cyc+λ vggL vgg+λ preL pre，（8）其中λcyc、λvgg和λpre是平衡这些损失项的贡献Ladv=EE←[log（Dp（I2）·Dp（I1））]+I2，I 1←←[log（Ds（S2）·Ds（S1））]+S2、S1（四）4. 实验在本节中，我们将举例说明基准数据集，EI1，S1[log（（1−Dp（I1））·（1−Ds（S1）））]，← ←其中S1表示I1的生成皮肤。循环一致性损失。除了确保试穿结果和目标图像之间相似外观分布的对抗性损失之外，我们还提出了周期一致性损失来改善像素级自我监督。周期一致性损失项分别基于合成试穿结果和相应皮肤区域的Δ θ1可以这样写：实施细节、评估结果和消融研究-谎言我们使用的数据集是VITON和VITON-HD。氟橡胶。这个数据集中有19k个图像组。每个图像组包含一个正面视图的模型和一个在商店的衣服图像.我们遵循[35]排除了2747个无效图像组，从而保持了由14，221个组组成的训练集和由2，032个组组成的测试集。VITON HD。该数据集中的图像与VITON的图像相同，但分辨率更高，为512×384。VTION-HD数据集更具挑战性，因为.. ←.... ←..结果是在更高的分辨率，其中伪影更明显，Lcyc=.. I1−I1.. 1+.. S1 − S1.. 1 .一、（五）内容保存损失。对于除皮肤和衣服区域之外的人体区域内的内容，我们的目标是在输出试穿结果中相同地保留它们。为此，我们设计了一个内容保持损失项，←测量I1和I2之间的相似性在这个区域内。损失期限可以写为：试穿的结果。4.1. 实现细节建筑。我们的网络由四个独立的编码器，两个解码器和一个预训练的编码器网络组成。编码器和解码器的架构来自Res-Unet [6]，相应的鉴别器来自PatchGAN[16]。有五个卷积层......←..步长数为2，每个步长中有两个残差块L pre=.. M（I2− I1）..1+.. M（I1− I1）..第一条第六款其中，M= 1−Mskin−Mclothes表示编码器。MPN中的解码器和用于生成试穿结果的解码器卷积层的过滤器数量1 1人体，不包括衣服和皮肤。感知损失。我们利用感知损失[30]来确保扭曲衣服之间的相似CNN特征表示。这提高了整经衣物时感知损失可以是116933在每个编码器中是64，128，256，512，512，而在每个编码器中是1536，2048，1024、512、256分别用于输出试穿结果。卷积码是一个编码器-解码器，其中编码器由5个卷积层组成，步幅为2。每个卷积层后面是一个最大池化层。16934基准人目标服装CP-VTON CP-VTONACGPNCA-GAN我们的推荐人目标服装CP-VTON CP-VTONACGPNCA-GAN我们图4. VITON数据集的目视评价。与现有方法[35，24，40，18]相比，我们的DCTON有效地保留了人体特征和衣服纹理，并生成了被遮挡的人体部位。这些优势使DCTON能够产生高度逼真的试穿效果。培训和测试。我们用配对的数据预训练一个神经网络（即，店内服装图像的服装区域和试穿结果）。然后，我们使用模型的输入、分割的皮肤、Densepose描述符和随机的店内服装来训练DCTONDCTON的训练次数不超过100次。λcyc、λvgg和λpre的参数值都被设置为10 。初始学习率设置为0.0002，模型由Adam优化器优化，β1= 0。β2=0。九九九在测试过程中，我们只使用图中所示的CNN23在线推理。网络的输入与训练期间的输入相同4.2. 定性评价我们将 DCTON 与基于修复的单向重建方法CP-VTON [35]、CP-VTON+[24]和ACGPN [40]以及香草循环一致性方法CA-GAN [18]进行了比较。图4示出了评估结果。在第一行中，我们的目的是表明这些方法的服装特征识别能力。目标店内服装和输入图像服装显著不同。现有的方法不注意目标衣服，并且将该衣服适配到输入图像的衣服区域为此，限制发生在衣领，袖子和衣服边界周围。这些限制是解决我们的DCTON的目标店内服装是任意的训练过程中。我们使用不同的衣服来训练具有高泛化能力的DCTON。在第二行中，我们的目的是显示这些方法的纹理传输能力。有模糊和扭曲在CP-VTON和CP-VTON+生成的结果中。虽然这些限制在ACGPN的结果中得到缓解，但整个衣服内容是错误生成的。与香草循环一致性方法CA-GAN相比，DCTON能够保留微妙的刺绣者。此外，由于精确的衣服翘曲从服装，微妙的衣服纹理被很好地保留而不失真在第三行和最后一行中，我们的目标是指示现有方法是否维护非衣服区域。单向修复方法对于细节保留（即，第三排的裙子）。此外，这些方法在生成包括特殊上肢、颈部和手部的被遮挡身体部位时存在局限性从这些例子中，我们得出结论，单向的绘画方法带来了人体和服装边界的模糊。它们不能有效地保存焦油-获取衣服特征（例如，衣领和袖子）。这种限制在CP-VTON+和ACGPN中得到部分缓解。然而，在训练期间不使用任意衣服，在被遮挡的人体周围发生不正确的内容生成。CAGAN使用周期一致性来处理衣服的特征，而忽略了细微的纹理。相比之下，我们在训练过程中使用解缠循环consideration。学习的DCTON能够生成高度逼真的试穿结果。有效地解决了服装纹理变形、特征保持和遮挡人体生成除了对氟橡胶的评价外，我们还展示了视觉结果16935基准人目标服装氟橡胶CP-VTONCP-VTON+ACGPNCA-GAN我们图5.VITON-HD数据集上的目视评价我们的DCTON可以有效地在更高的分辨率下生成试穿结果现有方法的结果在该图中被上采样。VITON-HD上，见图5。VITON-HD数据集对于虚拟试穿更具挑战性，因为细节更明显，伪影更突出。然而，我们的DCTON能够有效地生成高度逼真的试穿结果。与现有的方法相比，DCTON保留了第一行中衣领区域周围所示的目标服装特征同时，DCTON被加速以生成被遮挡的身体部分（即，第二行中的臂区域）。总的来说，我们的DCTON是有效的虚拟试穿在这样的分辨率下，现有的方法不尝试。该图中现有方法的结果被上采样以用于直接视图比较。4.3. 定量评价我们使用Fre'chet初始距离（FID）[8]和结构相似性（SSIM）[39]度量来测量生成的试穿结果和参考图像之间的数据分布的相似性（即，参考人物图像）。为了进行全面的比较，初始分数（IS）[26]也被用来衡量合成图像的感知质量为了进行公平的比较，在相同的配置下，由不同的方法产生的定量结果进行表 3 显示了 CA-GAN [18] 、 VITON [15] 、 CP-VTON[35]、CP-VTON +[24]的SSIM、IS和FID评分，[40]《易经》：IS结果表明，我们的DCTON优于CA-GAN，VITON，CP-VTON，CP-VTON+，ACGPN分别增加0.29、0.56、0.26、0.10和0.16。在SSIM指标中，我们的DCTON超过了这些表1.在IS [26]，SSIM [39]和FID [8]度量下的不同方法的比较。对于IS和SSIM，越高越好。对于FID，越低越好。DCTON表示没有皮肤合成编码器的DCTON我们使用DCTON®以指示DCTON中没有正则化项。方法数据集IS [26] ↑ SSIM [39] ↑ FID [8] ↓CA-GAN [18]VITON2。56± 0。09 0.74 47.34[15]第十五话29± 0。070.7455.71[35]第三十五章：一个人59± 0。130.7224.45[24]第二十四话75± 0。140.7521.04[40]第四十话69± 0。120.8116.64DCTONSPITON 2. 81± 0。140.74 18.12DCTONSPITON 2. 80± 0。230.79 15.70DCTON氟橡胶2.85±0.15 0.83 14.82DCTON VITON-HD2.84±0.10 0.81 15.55方法分别为0.09、0.09、0.11、0.08和0.02。较低的FID分数通常带来更高质量的合成图像。因此，我们的DCTON执行favorably对其他方法。请注意，即使是在对VITON-HD数据集进行分析时，我们的DCTON也带来了可观的改进。这些结果表明我们的方法的有效性除了高质量的视觉性能，DCTON还具有使用较少计算资源的优势。我们在表3中显示了ACPGN [40]和DC-TON的计算成本。在相同的数据集（VITON）和硬-16936基准人目标服装DCTON（w/os-e）DCTON（w/s-e）基准人目标服装DCTON（w/os-e）DCTON（w/s-e）基准人目标服装DCTON（不含R）DCTON（w/R）基准人目标服装DCTON（不含R）DCTON（w/R）图6.皮肤合成编码器的消融效果研究S-e表示皮肤编码器。如果没有皮肤合成编码器提供的先验特征指导，DCTON训练器无法生成逼真的人体皮肤。表2. VITON测试装置的用户研究。比率值指示偏好DCTON的受试者的百分比。图7. 对建议的正则化项的影响的烧蚀研究。我们将R表示为正则化项的缩写。如果不进行正则化，则将无法扭曲详细的纹理。4.5.消融研究我们验证了DCTON的两个组成部分（即，gen-旋转模块和弯曲模块）。方法CA [18] 第六章[15] [40]第二十四话：一个人的世界DCTON 87.68% 80.32% 85.84% 79.82%表3.时间成本和计算复杂度分析。方法数据集训练时间 #参数触发器FPSACGPN [40] Viton139M206G10DCTONViton194G19ware配置（8 Nvidia Telsa V100 GPU），DCTON的训练时间与ACGPN相似。在只有1个V100 GPU的情况下，DCTON的在线推理速度几乎是ACPGN的两倍我们还分析了表3中的模型参数和FLOP。DCTON包含更多的参数，同时采取更少的FLOP。DCTON几乎实时的生成速度（即，1 V100 GPU上19 FPS）适用于在线云服务。4.4.用户研究定量评价指标不足以反映图像的视觉质量，因为它们测量两个图像集的总体分布。为了进一步评估现有方法的性能，我们进行了一项用户研究，其中有超过50个主题。为了进行公平的比较，从VITON测试集中随机选择200个图像共提供了1000组生成的图像用于用户研究五种比较方法。评估指导是考虑整体感知质量以及细粒度纹理细节。每个受试者被随机分配100个图像组，以选择哪个结果更好。每个图像组包含一个参考人，一个目标衣服，从DCTON生成的结果，和另一种方法进行比较。表2中的结果表明，我们的DCTON实现了更高的感知质量和更好的纹理细节。我们使用DCTON表示没有皮肤合成编码器的DCTON，使用DCTON表示没有正则化项的DCTON。我们首先评估皮肤合成编码器的效果。定量结果（单位：Ta）-表3表明，在去除皮肤编码器之后，DCTON的性能将下降，但仍比其它方法好图6所示的视觉比较表明，DCTON光刻倾向于生成具有特殊颜色或模糊的皮肤。最后通过一个实验验证了本文提出的正则化项的有效性。如图7所示，具有明显标志或刺绣的衣服作为示例呈现。从图中的第一行开始。7、在没有正则化项辅助的情况下，训练图7中的第二行示出了正则化项有助于机器人以适当的方式扭曲目标衣服。5. 总结发言虚拟试穿方法通常由单向重建方案或普通循环一致性配置组成。然而，当这些方法产生照片般逼真的试穿结果时，仍然存在局限性。单向重建方案阻碍了现有方法的充分训练，而vanilla循环一致性方法缺乏纹理保持能力。在本文中，我们提出了DCTON解开虚拟试穿的衣服变形，皮肤合成，图像合成。这些模块整合在一个框架内，以实现端到端周期一致的培训。大量的实验结果验证，我们的DCTON实现了良好的性能相比，最先进的虚拟试穿approaches。致谢。本文得到了CCF-腾讯开放基金和香港通用研究基金27208720号的支持。16937引用[1] RızaAlpGuéler 、 Nat a liaN ev er ov a 和 IasonasKokkinos 。Densepose ：在野外进行密集的人体姿势估计。IEEE/CVF计算机视觉和模式识别会议，2018年。[2] Asha Anoosheh，Eirikur Agustsson，Radu Jumfte，andLuc Van Gool. Combogan：图像域转换的无限制可扩展性。IEEE/CVF计算机视觉国际会议，2018年。[3] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家一起跳IEEE/CVF计算机视觉国际会议，2019年。[4] 张惠文，卢静万，余飞，亚当 · 芬克尔 - 斯坦 .Pairedcyclegan：不对称的风格转移，适用于化妆和卸妆. IEEE/CVF计算机视觉和模式识别会议，2018年。[5] 陈玉生，王玉清，高万新，庄永玉深度照片增强器：从具有 gans 的照片中进行图像增强的非配对学习IEEE/CVF计算机视觉和模式识别会议，2018年。[6] FoivosIDiak ogiannis，FrancoisWaldner，PeterCaccetta，and Chen Wu.Resunet-a：一个用于遥感数据语义分割的ISPRS Journal of Photogrammetry and Remote Sensing，2020。[7] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu ，and JianYin.多位姿导引虚拟试穿网路之研究。在IEEE/CVF国际计算机视觉会议上，2019。[8] D.D. O. Wson和BV.Landau。多变量正态分布之间的自由距离多元分析杂志，1982年。[9] 让·杜雄Sobolev空间中极小化旋转不变半范数的样条多元函数的构造理论。一九七七年[10] 江原润和斋藤秀夫。基于轮廓主元分析的虚拟布料纹理叠加IEEE/ACM混合与增强现实国际研讨会，2006年。[11] Gene H Golub和Christian Reinsch。奇异值分解与最小二乘解. 线性代数。1971.[12] Peng Guan ， Loretta Reiss ， David A Hirshberg ，Alexander Weiss，and Michael J Black.穿衣：给任何人穿衣。ACM Transactions on Graphics，2012。[13] Xintong Han，Xiaojun Hu，Weilin Huang，and MatthewR Scott. Clothflow：一个基于流的服装人物生成模型。在IEEE/CVF计算机视觉国际会议上，2019年。[14] Xintong Han，Zuxuan Wu，Weilin Huang，Matthew RScott，and Larry S Davis.Finet：兼容多样的时尚图像修复。IEEE/CVF计算机视觉国际会议，2019年。[15] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：基于图像的虚拟试穿网络。IEEE/CVF计算机视觉和模式识别会议，2018年。[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像的翻译IEEE/CVF计算机视觉和模式识别会议，2017年。[17] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et al. Spatial Transformer networks. 在神经信息处理系统，2015年。[18] 尼古拉·杰切夫和乌尔斯·伯格曼有条件的分析：用人物图片交换时尚文章。IEEE/CVF计算机视觉研讨会国际会议，2017年。[19] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。在2016年欧洲计算机视觉会议[20] Taeksoo Kim，Moonsu Cha，Hyunsoo Kim，Jung KwonLee，and Jiwon Kim.学习用生成对抗网络发现跨域在2017年的机器学习国际会议[21] Hongyu Liu，Bin Jiang，Yibing Song，Wei Huang，andChao Yang.重新思考图像修复通过相互编码器-解码器与特征均衡。在2020年欧洲计算机视觉会议[22] 马丽倩，徐佳，孙倩茹，Bernt Schiele，Tinne Tuyte-laars，Luc Van Gool.姿势引导人物图像生成。在神经信息处理系统，2017年。[23] Yifang Men，Yiming Mao，Yingning Jiang，Wei-YingMa，and Zhouhui Lian.基于属性分解的可控人物图像合成。IEEE/CVF计算机视觉和模式识别会议，2020年。[24] Matiur Rahman Minar ， Thai Thanh Tuan ， HeejuneAhn，Paul Rosin，and Yu-Kun Lai.Cp-vton+：基于图像的服装形状和纹理保留虚拟试穿。在IEEE/CVF计算机视觉和模式识别研讨会上，2020年。[25] Gerard Pons-Moll ， Sergi Pujades ， Sonny Hu ， andMichael J Black. Clothcap：无缝的4D服装捕捉和重新定位。ACM Transactions on Graphics，2017。[26] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。训练甘斯的改进技术在神经信息处理系统，2016年。[27] 我是关根弘，杉田熏，弗兰克·佩尔贝特，比约恩·斯坦格尔，西山正志。通过单次拍摄体型估计进行虚拟拟合。在2014年的3D人体扫描技术国际会议[28] Wu Shi ， Tak-Wai Hui ， Ziwei Liu ， Dahua Lin ， andChen Change Loy. 学习合成时尚纹理。 arXiv预印本arXiv：1911.07472，2019。[29] 阿里·亚历山大·西亚罗欣，恩·维尔·桑吉内托，斯特·埃法恩·拉蒂利埃和尼库·塞贝。用于基于姿态的人体图像生成的可变形gans。在IEEE/CVF计算机视觉和模式识别会议上，2018。[30] 凯伦·西蒙尼扬和安德鲁·齐瑟曼用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014年。[31] Yibing Song，Linchao Bao，Shengfeng He，QingxiongYang，and Ming-Hsuan Yang.风格化的脸图像通过多-16938几个例子。计算机视觉和图像理解，2017年。[32] Yibing Song，Chao Ma，Lijun Gong，Jiawei Zhang，Ryn- son WH Lau，and Ming-Hsuan Yang. Crest：卷积残差学习用于视觉跟踪。IEEE/CVF国际计算机视觉会议，2017年。[33] Yibing Song ， Chao Ma ， Xiaohe Wu ， Lijun Gong ，Linchao Bao，Wangmeng Zuo，Chunhua Shen，RynsonWH Lau，and Ming-Hsuan Yang.Vital：通过对抗性学习进行视觉跟踪。IEEE/CVF计算机视觉和模式识别，2018年。[34] Yaniv Taigman，Adam Polyak，and Lior Wolf.非监督跨域图像生成。arXiv预印本arXiv：1611.02200，2016。[35] Bochao Wang，Huabin Zheng，Xiaodan Liang，YiminChen，Liang Lin，and Meng Yang.基于特征保持图像的虚拟试穿网络。在2018年欧洲计算机视觉会议[36] Ning Wang，Yibing Song，Chao Ma，Wengang Zhou，Wei Liu和Houqiang Li。无监督深度追踪IEEE/CVF计算机视觉和模式识别会议，2019年。[37] Ning Wang，Wengang Zhou，Yibing Song，Chao Ma，Wei Liu和Houqiang Li。用于实时跟踪的无监督深度表示学习。国际计算机视觉杂志，2021年。[38] Yinglong Wang ， Yibing Song ， Chao Ma ， and BingZeng.重新思考通过雨条纹和蒸汽的图像脱轨。在欧洲计算机视觉会议上，2020。[39] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Si-moncelli.图像质量评估：从误差可见性到结构相似性。IEEE图像处理学报，2004年。[40] 韩阳，张瑞茂，郭小宝，刘伟，左旺猛，罗平.通过自适应生成 - 保持图像内容实现真实感虚拟试穿。IEEE/CVF计算机视觉和模式识别会议，2020年。[41] Shan Yang，Tanya Ambert，Zherong Pan，Ke Wang，Licheng Yu，Tamara Berg，and Ming C Lin. 详细的gar-ment恢复从一个单一的视图图像。arXiv预印本arXiv：1608.01250，2016年。[42] Xin Yang ， Ke Xu ， Yibing Song ， Qiang Zhang ，Xiaopen

下载后可阅读完整内容，剩余1页未读，立即下载