视频虚拟试穿：流导航WarpingGAN

45 浏览量更新于2023-10-13 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1161FW-GAN：用于视频虚拟试穿的流导航Warping GANHaoye Dong1，2，刘伟，Xiaodan Liang3，刘伟，Xiaohui Shen4，Bowen Wu1，Bing-Cheng Chen1，Jian Yin1，2，†1中山大学数据与计算机科学学院2广东省大数据分析与处理重点实验室，广州5100063中山大学智能系统工程学院4字节跳动AI Lab.{donghy7@mail2，issjyin @ mail，wubw6@mail2，chenbch9@mail2}.sysu.edu.cnxdliang328@gmail.com，shenxiaohui@bytedance.com摘要除了已经引起越来越多关注的当前基于图像的虚拟试穿系统之外，我们进一步开发视频虚拟试穿系统，该视频虚拟试穿系统精确地将衣服转移到人身上并生成以任意姿势为条件的视觉逼真的视频除了基于图像的虚拟试穿中的挑战（例如，衣服保真度、图像合成），视频虚拟试穿进一步要求时空一致性。直接采用现有的基于图像的方法通常无法生成具有自然和逼真纹理的连贯视频。在这项工作中，我们提出了流导航变形生成的对抗网络（FW-GAN），一个新的框架，学习合成的视频虚拟试穿的基础上，一个人的图像，所需的衣服图像，和一系列的目标姿势。FW-GAN旨在合成连贯和自然的视频，同时操纵姿势和衣服。它包括：（i）一个流引导的融合模块，它将过去的帧进行扭曲以进行asist合成，这也被应用在该算法中，以帮助提高合成视频的连贯性和质量;（ii）变形网，其被设计为变形衣服图像以细化衣服纹理;（iii）解析约束损失，其解释了由来自具有不同姿势和各种衣服的图像的分割图的未对准引起的问题。在我们新收集的数据集上的实验表明，FW-GAN可以合成高质量的虚拟试穿视频，并且在定性和定量上都明显1. 介绍图像合成技术的出现极大地推动了虚拟试衣系统的发展。平等贡献†通讯作者是殷健项目[15，37]，其对于许多应用具有很大价值，例如，网上购物、电影制作和视频编辑。然而，大多数试穿方法都是基于单一的图像，而基于视频的虚拟试穿问题在很大程度上还没有被探索。在这项工作中，我们首次尝试解决这个问题。具体来说，给定一个人的图像，所需的衣服，和一系列的目标姿势，我们合成一个逼真的视频，保留了独特的外观从人和衣服的图像。图1中示出了一些结果，示出了所提出的方法可以生成具有令人信服的细节的高质量虚拟大多数现有方法使用类似编码器-解码器的神经网络[15，37]来合成虚拟试穿图像。它们主要集中于以固定的姿态为条件，通过替换其他衣服来合成人物图像，因此当在无约束场景中进行虚拟试穿时，由于缺乏操纵任意姿态和不同衣服的能力，无法生成逼真的视频。除了2D图像合成，已经开发了各种3D建模技术[22，27，30，43]用于虚拟试穿。然而，这些方法也集中于单个图像，并且尚未扩展到视频生成。此外，它需要巨大的人力成本来收集3D标注和大量的计算来构建3D模型，这限制了虚拟试穿在实际场景中的性能。特别地，在视频序列中，由于不同的姿势，人或衣服图像通常包含各种视觉外观、视点和任意的人布局。目前基于卷积的生成器在没有任何外部结构化知识的帮助下开发纠缠信息是不切实际的。此外，整个人体的不同姿势可能导致一些身体部位的严重遮挡或显著此外，时空一致性对于合成视频的视觉质量至关重要，这在现有的基于图像的合成方法中没有考虑。1162图1. 我们的方法的一些结果。给定一个人的图像，所需的衣服和一系列的目标姿势，我们的FW-GAN学习自动适应所需的衣服到人，重组人的姿势，并输出逼真的视频。输入图像在第一列中，姿势在第一行中，针对每个姿势的虚拟试穿的结果在其他列中。为了解决上述挑战，我们提出了一种FW-GAN，通过操纵不同的姿势和各种衣服来实现用于虚拟试穿的可控视频合成FW-GAN由三个主要组件组成：1) 流导航模块，其强制所述合成视频为时空相干且高质量视觉的;2) -变形网络，其适于估计变形期望衣服以便适合人物图像的对应区域的变换参数的网格; 3）限制主体布局以从全局视图强制一致性的人类解析约束损失。特别地，光流[2]在所提出的FW-GAN中起着关键作用，用于使生成的视频相干，其将先前帧的像素扭曲到新帧，并且还用作流嵌入鉴别器的条件输入，从而产生更逼真的帧和时空平滑视频。此外，为了保留期望的衣服的细节，利用权重掩模从变形的期望的衣服或合成的衣服中自适应地选择像素值。我们在新收集的数据集上进行了广泛的实验，包括定量比较，消融研究和亚马逊机械土耳其人平台上的人类感知研究。所提出的FW-GAN在定性和定量合成具有任意姿态的虚拟试穿视频方面都我们工作的主要贡献包括：• 为了在一系列姿势、人物图像和为了更好地描述服装的细节，我们提出了一种FW-GAN，它将光流与扭曲网络结合起来，分别对帧和服装图像进行扭曲，从而可以保持全局和局部视图中的细节。• 本文提出了一种流嵌入的时空平滑算法，将有效的流输入引入到时空平滑算法中，以提高时空平滑效果。• 我们采用解析约束损失函数作为结构约束的一种形式，该模型用于合成不同姿势和各种服装下的结果，以产生与输入图像的相干部分相似性。2. 相关工作图像合成。生成对抗网络（GANs）[11]最近在图像合成方面取得了令人印象深刻的成果。为了捕获图像分布，GAN能够生成与真实图像无法区分的假图像。条件生成对抗网络（cGAN）[26]可以通过在生成器和SVM的输入上附加条件来生成具有所需属性的样本，并在图像到图像的转换上显示出对于人物图像生成，Lassneret al.[23]建议1163i=1图2. 拟议的FW-GAN的框架。FW-GAN由四个编码器和两个解码器组成。FW-GAN首先预测流量，然后对过去的最后一个合成帧进行变形。我们使用权重掩码和网格掩码来抛光结果。一个全身穿着衣服的人的生成模型。他们首先学会了生成人类解析图，然后学会了一个模型来将结果片段转换为真实的图像，但在这种方法中时尚属性是不可控制的。Zhao等人[44]提出了一种图像生成模型，仅从单视图输入生成多视图布料图像[25，9，33，7]以任意姿势为条件的合成人物图像。虚拟试穿。大多数以前的作品虚拟试穿是基于计算机图形学。Guan等人[12]设计了一个框架，用于在3D人体上合成衣服，忽略了形状和姿势。安娜等人[18]提出了一种用于动态跟踪和重新纹理化衣服的方法，以在虚拟镜像环境中进行实时可视化。Sekine等人[30]开发了一种虚拟试衣方法，用于通过从单个图像建模用户的3D身体形状来为用户调整衣服图像。Pons-Moll等人[27]解决了通过使用穿着衣服的身体的多部分3D模型来捕获运动中穿着衣服的人的多件衣服的问题[42，35]提出了一种用于从单个照片计算人体的真实3D模型的方法也有一些基于图像生成模型的作品，其目的是从真实的2D图像合成感知正确的Jetchev和Bergmann [21]引入了一个条件类比GAN来交换时尚物品。然而，在推理过程中，他们需要原始物品在人身上和目标物品的成对图像，这可能不容易获得。[15]《易经》中有一种说法：具有所需物品的人，并利用细化网络增强合成图像的保真度[37，8]解决了类似的问题，但它也旨在通过学习具有几何匹配模块的薄板样条变换来保持服装特征。视频合成。对视频合成进行了广泛的研究。视频修复[41]，视频抠图和混合[1，6]和视频超分辨率[31，32]被提出来解决特定问题。Chan等人[五]《中国日报》提出了一种方法，如果获取持续几分钟的视频，其中目标对象执行标准动作，则将舞蹈动作从他们的方法基于pix 2 pixHD [39]和最先进的姿态检测器Open-Pose[3，34，40]。vid2vid [38]解决了基于GAN与时空对抗目标相结合的视频到视频合成问题。视频技术有着巨大的应用潜力，但在虚拟试衣中生成视频的研究较少。3. FW-GAN3.1. 问题公式化给定姿势序列、人图像和衣服图像，我们的目标是生成照片真实感视频，其中人穿着期望的衣服，并且人形式上，令Ip、Ic和Pi分别表示人物图像输入、衣服图像输入和姿态序列的第i帧和以精细的框架取代原来的时尚项目上我们用S={Pi}N和1164i=1i=1˜˜i=1i=1视频输出V={Ri}N其中N是帧编号。3.3.2鉴别器是位姿序列的第i帧，Ri是外帧的第i放。我们的目标是学习映射（Ip，Ic，S）→V。我们训练数据集是{Vi，Ii，Ii}n，其中Vi，Ii，Ii是训练数据集的集合。一些工作[39，19，24]表明，使用多个判别器可以减轻GAN中的模型崩溃问题t cp i=1T C P训练与此同时我们的任务需要第i个训练视频、服装图像输入和人物图像输入，n是样本数。3.2. 姿势嵌入图像中的人的姿态由具有M个关节P=（11，...，其中li=（xi，yi）是图像中第i个关节的坐标如[28]中所解释的，坐标li可以被视为随机变量，并且具有由下式形成的概率密度图pi：pi[x，y]=P（li=（x，y））（x，y）∈ U（1）其中U是输入图像的坐标空间然后，姿态P等效于所有概率密度图P =（P1，… pM）。3.3. 网络架构3.3.1发生器我们提出了一个类似残差的生成器，将光流与翘曲网络相结合，用于开发时间信息、个人外观和服装信息模拟。形式上，我们的生成器是基于一个con-contrastGAN框架，其目的是捕捉contrast概率分布。我们将生成元记为G。令Ip表示人物图像输入的变量。Ic是输入的衣服图像的变量，并且每个帧的质量和时间一致性。基于上述观察，我们设计了两个鉴别器：框架鉴别器和流嵌入鉴别器。帧鉴别器负责每个帧的视觉质量。换句话说，它确保每个生成的帧看起来像真实的视频帧。帧鉴别器采用四个输入，姿势序列S={Pi}N，人外观图像Ip、布料图像Ic、生成帧V。元组（S，Ip，Ic）可以看作是框架结构的条件输入.这个函数对于真对（（S，Ip，Ic），v）应该输出1，对于假对（（S，Ip，Ic），v）应该输出0。流嵌入鉴别器负责相邻帧之间的时间一致性我们认为连续生成的帧应该具有具有相同光流的连续实帧的时间就像帧同步器一样，流嵌入鉴别器也需要条件输入，光流。我们表示为O作为K-1个连续帧的光流。这个函数对于真对（O，v）应该输出1，对于假对（O，v）应该输出0。在实验过程中，我们发现这些discriminators以及视频试穿。它使人和衣服在所生成的视频上移动得更平滑。S={Pi}N是姿势序列。然后我们有姿势′嵌入姿态序列S的p。设V={Ri}N表示G的输出。此外，让V代表视频的真相生成器G等价于条件分布，因此我们可以计算概率分布。图3. Warping Net的框架。我们首先输入人物图像、目标姿势和期望的衣服被分别输入编码器以提取特征图。然后，训练匹配层以计算特征图之间的关系福尔-′V的能力关于G（V′|p, Ic, Ip). 我们通过求解来优化G匹配层下面是回归网络，变换映射的扭曲网格。最后，我们用这个标准的minimax优化问题形式上，The目标函数定义为：翘曲网格来翘曲所需的衣服。min maxLgan =EVpdata（V）[logD（V）]G D+EJp（J）[log（1−D（G（V′|p，Ic，Ip）]，（二）3.3.3经编网如图3所示，Warping Net由两个编码器、匹配层和回归网络组成。令Ck表示具有内核大小为4、步幅为2和k个滤波器的卷积层。令Rk表示卷积层其中J =（p，Ic，Ip），D是π。如图2所示，在生成器中，每个输入都有一个对应的编码器来提取特征图。然后将这些特征图连接并输入到两个分别由多个残差块组成的网络中。残差网络的输出被馈送到解码器，解码器将生成光流和照片级真实感图像。内核大小为3，步幅为1，k个过滤器，然后是Batch-Norm 2d Normalization和ReLU激活函数。令Lk表示输出 k 维的线性函数。对于匹配层，我们直接使用GEOCNN [29]的相关图计算。因此，编码器包含：C64、C128、C256、C512、R512、R512。回归网络包括：C512、C256、C128、C64、L32。1165W HC3.4. 学习目标函数在本文中，FW-GAN的目标函数是几个不同的损失的加权和我们将在下面的章节中详细介绍它们。感知损失。为了获得高层次和多样化的特征，我们从预训练的图像我们的网格损失L网格来约束生成器从翘曲的衣服中学习更多的像素。设Lgan为发电机的损耗。总之，FW-GAN目标将所有损失的加权和描述为等式。(5)示出了Lsyn=α1L gan+α2L perceptual+α3L pclVGG网络和我们的对抗网络的鉴别器，如下[39，15]。然后，我们将它们结合起来表示+α4L 流 +α5L 网格（五）、失去了这份工作。其中，超参数αi（i=1，2，3，4，5）控制Lperceptual=i=0Kλiφi（I）−φi（Y）1M（三）每一个损失的重量。4. 实验+ΣΣλkλj（k，j）（I）−（k，j）（Y）1，k=0j =0其中φi（I）描述VGG网络内合成图像I的第i个特征图，而λi控制它们的权重。类似地，λ（k，j）（Iλ）是合成图像Iλ的第k层中的第j层特征图，而λj表示第j层的权重，λk描述权重第k个鉴别器。N表示VGG层的数量K表示鉴别器的数量。M表示层的层数解析约束丢失。然而，上述目标没有考虑来自子部分的局部信息。为了进一步提高生成图像的质量，我们提出了一种新的解析一致性损失，使生成图像的部分配置和地面真实一致。设ψ是一个人类解析器。我们要求合成图像和地面实况图像的解析结果应该是相同的。在本文中，我们-使用一个轻型网络[19]来训练人类解析器。特别地，我们将地面实况图像的解析结果表示为F=F（Y）∈Rn×n×c，其中n是图像的高/宽，c是语义标签的个数。合成图像的输出被定义为P = P（I）。对于每个像素，解析结果应该是相同的，例如，对于像素索引（h，w）的预测解析标签F（h，w）∈Rc等于P（h，w）。由于softmax损失是深度CNN中广泛使用的一种方法，可以量化失真，两个概率之间的相似性。因此，我们将解析一致性损失定义为Lpcl=−ΣF（h，w，l）logP（h，w，l），（4）w=0h=0l =0其中，C表示解析标签的数量，H表示图像的宽度，W表示图像的宽度。4.1.1总体目标函数此外，我们直接采用FlowNet [10]中的流量损失作为L流量我们从pix2pix中获取L1损失[20]，在本节中，我们首先介绍所提出的FW-GAN的实现细节然后，我们描述了评估指标，用于评估所生成的视频的质量。接下来，我们介绍基线方法和我们收集的数据集。最后，我们与基线和消融研究的方法进行了直观的比较，并分析了定量和定性的结果。4.1. 实现细节在训练中，通过随机梯度求解器 Adam 优化器（β1=0. 5，β2=0。999）。我们在优化生成器的1个步骤和优化鉴别器的1个步骤之间交替。初始学习率为0.0002。这些实现是基于Pytorch平台上的四个Titan XPGPU。经过30个时期，可以获得高质量的结果。我们在Amazon Mechanical Turk（AMT）平台上部署了用户研究4.2. 数据集我们构建了一个新的视频数据集，适合视频虚拟试穿，命名为VVT。我们首先收集了791个时装模特走秀的视频，这些视频的背景大多是白色的，确保我们专注于虚拟试穿的任务，并为我们的模特提供令人信服的评价此外，然后我们删除噪声帧没有姿势结果或解析结果。每个视频的帧数主要在250到300之间。我们将视频分为训练集和测试集，分别有661个视频和130个视频。训练集和测试集的总帧数分别为159170和30931。我们还抓取了791张人物图像和791张衣服图像，并将每个视频与人物图像和衣服图像相关联。我们还确保了每个人的图像都与相关视频中的人不同，并且每个衣服图像都与相关人图像中的衣服不同。因此，数据集中的样本由视频、人物图像和衣服图像组成N1166˜√ ˜˜图4. 在VVT数据集上与基线方法和消融方法进行目视比较。前三列从左开始是我们任务的输入它们分别是人物图像、期望服装和目标姿态最后三列是从不同方法生成的帧最后一列的图像由我们提出的算法生成它看起来比其他两个算法更好4.3. 评估指标Fre´chetInceptionDistance（FID）[17]是一个用于评估图像合成质量的指标它在去除网络的最后几层后使用初始模型[36]作为特征提取器，并分别从真实图像和合成图像中提取特征向量然后它计算来自真实图像的特征向量的均值μ和协方差矩阵Σ。它还计算相同的统计量μm和µm用于来自与氟橡胶[15]相比，它们主要处理服装的关键特性。显然，CP-VTON [37]确实产生了具有更多关键特性的布料在我们的实验中，我们在VVT数据集上重新训练CP-VTON和VITON [15]在测试时，我们根据任务调整它们，这意味着我们输入每帧的姿势热图，而不是固定的姿势热图。在实验过程中，我们发现无论我们输入什么姿势热图，它都会生成几乎相同的图像然后，我们看了一下用于训练CP-VTON和VITON的数据集，发现合成的图像。然后FID计算为μ−（掌声）。由于本文关注的是视频合成问题，因此我们在vid2vid [38]之后部署了FID的变体，该变体更适合于评估。视频合成质量比原来的FID。我们使用I3 D [4]和3D-ResNeXt-101 [16]作为预训练的视频识别CNN。具体来说，我们将10帧作为视频剪辑，并利用网络中最后一个平均池化层的输出作为我们的特征向量。4.4. 基线CP-VTON [37]代表Wang等人提出的特征保持虚拟尝试网络。[37]第37段。Com-该数据集的大多数图像处于几乎相同的姿态。4.5. 定性结果图6和图4显示了VVT数据集的一些定性结果。结果表明，流模块和网格模块在合成具有真实感的视频中起到了重要作用没有网格，模块导致合成模糊和低分辨率的视频，并在服装上的图案丢失。如果没有流嵌入，嵌入式网络（W/O）无法获得时空平滑。图6表明，给定人物图像、衣服图像和目标姿势图像，FW-GAN能够合成我们期望的图像结果，其中期望的人物1167图5.翘曲网的一些结果，显示在第4列中。扭曲的网格在第五列。Warping Net预测变换映射参数以使衣服变形，其真实感水平与地面真实感相似。Fre´ chet起始距离i3DResNeXt-101CP-VTON [37]32.35159.50氟橡胶[15]30.05129.74FW-GAN（无网格+流+解析）6.5714.01FW-GAN（不含滤线栅+流量）7.3717.47FW-GAN（无网格+解析）7.4715.88FW-GAN（不带网格）7.0415.31FW-GAN（无解析）7.3019.34FW-GAN（不含DT）7.4520.78FW-GAN（无流量）6.9813.17FW-GAN（我们的）7.05223.94表1.与VVT数据集上以前的方法进行比较就是穿着想要的衣服摆出想要的姿势图7显示了我们的方法由于不常见的服装款式而Warping Net的一些结果如图5所示我们可以观察到，所提出的翘曲网络可以实现有前途的性能。4.6. 定量结果我们使用我们学习的模型和基线来合成验证集中的3000个视频剪辑。每个视频片段由10个连续帧组成。然后利用I3 D和3D-ResNeXt-101分别从合成视频片段和真实视频片段中提取时空特征向量，并基于这些特征向量计算FID。表1报告了我们的方法和基线的FID，表明我们的方法显著优于基线。它还显示了在我们的模型上进行的详细消融研究。尽管表1中的消融结果没有显示出显著的改善，但我们认为这是因为FID使用深卷积层来提取特征图，并且会丢失一些信息。形成重要的评估视频合成质量。如表1所示，最后一行中VITON [15]的FID分数表明，与其他方法相比，所提出的FA-GAN可以生成更多的时空平滑视频数字越小表示性能越好。特别地，w/o流表示没有光流的FW-GAN。w/o解析表示没有解析约束损失的FW-GANw/ogrid deonotes FW-GAN，无翘曲网络。w/o DT表示没有流嵌入鉴别器的FW-GAN。w/o（grid + flow + pars-ing）表示没有扭曲网络、光流和解析约束损失的FW-GAN。w/o（grid + flow）表示没有翘曲网络的FW-GAN和光流。w/o（grid + parsing）表示没有扭曲网络的FW-GAN，并且解析约束丢失。5. 人类感知研究为了实现公平的视觉比较，我们将用户研究部署在Amazon Mechanical Turk（AMT）平台上。AMT是一个平台，为需要人工智能的工作提供市场。我们仔细设计了一个类似于Wang等人的主观A/B测试。[38]第30段。与他们不同的是，我们让图像GIF表示视频。我们显示的工人，包含人的形象，所需的衣服的形象，和目标姿势GIF的图像，其次是两个洗牌选项GIF。所有的图片和动图尺寸为256×192。在AMT研究中，大约有100名工人和大约1000个任务转让─对于有限时间和无限时间的工人，分别示出了两个作业的部分。要求工作人员选择一个选项，该选项很好地捕获姿势序列、期望的衣服和人的外观。结果显示在表2中，其报告了FW-GAN优于其他方法并实现了最高的人类偏好分数。人类偏好评分（限时）人类偏好评分（不限时间）FW-GAN（我们的）/ CP-VTON[37]0.5940 /0.40600.889 /0.111FW-GAN（我们的）/ VITON[15]0.5721 /0.42790.893 /0.107表2.与其他人一起在VVT数据集上进行人类感知研究5.1. 消融研究我们进行了消融研究，以探讨FW-GAN的重要组成部分的影响。结果报告于表中。1.我们的模型没有网格模块，流模块和解析约束丢失在I3 D中获得了最好的FID分数虽然我们的完整模型对1168图6.FW-GAN在VVT数据集上的一些结果另一方面，FID使用最后一个池化层的输出作为特征向量，这丢失了原始图像输入的一些信息，并且我们的消融模型之间的FID分数相差不大。图7.在VVT数据集上进行了一些失败的结果，这些结果是由不常见的衣服引起的。6. 结论我们提出了流导航Warping生成式对抗网络（FW-GAN）用于视频虚拟试穿，它生成任意姿势和各种服装的新颖人物视频。为了实现良好的虚拟试穿质量，我们的FW-GAN主要包含三个组件：1）FW-GAN结合光流和几何匹配分别对帧和衣服图像进行变形，可以保持全局和局部视图中的细节。2）提出了一种嵌入流的改进算法，将有效的流输入引入到改进算法中，以提高时空平滑性，以及3）解析约束损失函数作为结构约束的一种形式，以显式地鼓励模型在不同姿势和各种衣服下合成结果以产生连贯的部件配置。与输入图像的关系。我们的实验结果表明，所提出的FW-GAN显着优于其他国家的最先进的方法合成视频的虚拟试穿通过操纵姿势和衣服。确认本工作得到了国家自然科学基金（U1611264，61472453 ， U1401256 ， U1501252 ， U1711261 ，U1711262，61602530，61836012，国家高层次人才特别支持计划（万人计划）、广东省自然科学基金项目（批准号：61622214）、广东省自然科学基金项目（批准号：61622214）、广东省自然科学基金项目（批准号：61622214）、广东省自然科学基金项目（批准号： 61622214 ）。2017A030312006 、广东省重点 & 研发计划（2018B010107005）。1169引用[1] 薛白，王爵，大卫·西蒙斯，吉列尔莫·萨皮罗。视频截图：使用局部化分类器的鲁棒视频对象剪切。ACMTransactions on Graphics（ToG），2009年。[2] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。在ECCV中，第25-36页。Springer，2004.[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，第7291-7299页[4] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。[5] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 大家跳舞吧 arXiv 预印本 arXiv ：1808.07371，2018。[6] Tao Chen，Jun-Yan Zhu，Ariel Shamir，and Shi-Min Hu.运动感知梯度域视频合成。 IEEE Trans. ImageProcessing，22（7）：2532[7] 董浩业、梁晓丹、龚克、赖汉江、朱佳、尹建。用于姿势引导的人物图像合成的软门控 warping-gan 。在NeurIPS，第474-484页[8] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu ，and JianYin.多位姿导引虚拟试穿网路之研究。在ICCV，2019年。[9] Haoye Dong，Xiaodan Liang，Chenxing Zhou，HanjiangLai，Jia Zhu，and Jian Yin.用于人物图像合成的部分保持姿态操作在ICME，第1234-1239页[10] Alexey Dosovitskiy、Philipp Fischery、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，2015年。[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页[12] Peng Guan ， Loretta Reiss ， David A Hirshberg ，Alexander Weiss，and Michael J Black.披巾：给任何人穿衣。ACM事务处理图表，31（4）：35[13] Xintong Han，Xiaojun Hu，Weilin Huang，and MatthewR. Scott. Clothflow：一个基于流的服装人物生成模型。在ICCV，2019年。[14] 韩欣彤，吴祖轩，黄伟林，Matthew R.Scott和Larry S.戴维斯兼容多样的时尚图像修复。在ICCV，2019年。[15] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：一个基于图像的虚拟试穿网络。在CVPR，2018年。[16] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗。在CVPR中，第18-22页[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。NeurIPS，2017。[18] 安娜·希尔斯曼和彼得·斯伯特。用于实时虚拟服装应用的布料跟踪和纹理化。在内部-11702009年计算机视觉/计算机图形协作技术与应用会议。[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在CVPR中，第5967-5976页。IEEE，2017年。[20] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页[21] 尼古拉·杰切夫和乌尔斯·伯格曼条件类比可以：在人物图片上交换时尚文章。ICCVW，2（6）：8，2017.[22] 佐拉·莱纳丹尼尔·克里默斯托尼·董深皱纹：精确逼真的服装造型。在ECCV，2018。[23] Christoph Lassner ， Gerard Pons-Moll ， and Peter VGehler.穿着衣服的人的生成模型。InICCV，2017.[24] Xiaodan Liang，Lisa Lee，Wei Dai，and Eric P Xing.用于未来流嵌入式视频预测的双运动gan。InICCV，2017.[25] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在NeurIPS，第406-416页[26] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[27] Gerard Pons-Moll、Sergi Pujades、Sonny Hu和MichaelJ Black。Clothcap：无缝的4D服装捕捉和重新定位。ACM Transactions on Graphics（TOG），36（4）：73，2017。[28] Albert Pumarola、Antonio Agudo、Alberto Sanfeliu和Francesc Moreno-Noguer。任意姿态的无监督人物图像合成。在CVPR中，第8620-8628页[29] I. 罗科河 Arandjel o v ic′和J. S i vic. 用于几何匹配的卷积神经在CVPR，第2卷，2017年。[30] 我是关根弘，杉田熏，弗兰克·佩尔贝特，比约恩·斯坦格尔，西山正志。通过单次拍摄体型估计进行虚拟拟合。在3D身体扫描技术中，第406-413页Citeseer，2014.[31] Eli Shechtman，Yaron Caspi，and Michal Irani.时空超分辨率 IEEE Transactions on Pattern Analysis andMachine Intelligence，27（4）：531[32] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz，Andrew P Aitken，Rob Bishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，第1874-1883页[33] AliaksandrSiarohin，EnverSangineto，Ste'phaneLathuilie` re，and Nicu Sebe.用于基于姿势的人类图像生成的可变形gans。在CVPR，2018年。[34] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在CVPR，2017年。[35] Yu Sun，Yun Ye，Wu Liu，Wenpeng Gao，YiLi Fu，and Tao Mei.通过骨架分解表示从单目图像中恢复人体网格。在ICCV，2019年。[36] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，2016年。1171[37] Bochao Wang，Huabin Zhang，Xiaodan Liang，YiminChen，and Liang Lin.基于图像特征保持的虚拟试穿网络。在ECCV，2018。[38] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。NeurIPS，2018。[39] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR，2018年。[40] Shih-En Wei，Varun Ramakrishna，Takeo Kanade，andYaser Sheikh.卷积姿势机器。在CVPR，2016年。[41] Yonatan Wexler，Eli Shechtman和Michal Irani。时空录像完成。载于CVPR，2004年。[42] Shan Yang，Tanya Ambert，Zherong Pan，Ke Wang，Licheng Yu，Tamara Berg，and Ming C Lin. 从单视图图像中恢复详细的 gar-ment 。 arXiv 预印本 arXiv ：1608.01250，2016。[43] Chao Zhang ， Sergi Pujades ， Michael J Black ， andGerard Pons-Moll. 从穿衣服的3d扫描序列进行详细、准确的人体形状估计在CVPR，2017年。[44] 赵波、吴晓、程志奇、刘浩、杰泽群、冯佳石。从单视图生成多视图图像。在ACM MM，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载