基于结构变换的纹理增强网络的人物图像合成

4 浏览量更新于2023-10-08 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13859基于结构变换的纹理增强网络的人物图像合成徐慕南1，陈元奇1，刘珊2，Thomas H.李3、葛李11北京大学电子与计算机工程学院深圳研究生院2腾讯美国3北京大学信息技术高级研究院摘要位姿引导虚拟试穿任务是在位姿转换任务的基础上对服装进行修改。这两项任务属于人物图像合成具有很强的相关性和相似性。然而，现有的方法将它们视为两个单独的任务，并且不探索它们之间的相关性。此外，这两个任务由于大的未对准和遮挡而具有挑战性，因此这些方法中的大多数易于生成不清楚的人体结构和模糊的细粒度纹理。在本文中，我们设计了一个结构转换的纹理增强网络来生成高质量的人物图像，并构建两个任务之间的关系。它由两个模块组成：结构转换渲染器和纹理增强样式器。引入结构变换渲染器将源人物结构变换为目标人物结构，而纹理增强风格器用于增强细节纹理并可控地注入基于结构变换的服装风格通过这两个模块，我们的模型可以生成具有真实感的不同姿态甚至不同服装风格的个人图像。大量的实验表明，我们的ap-proach实现国家的最先进的结果上的两个任务。1. 介绍由于在电影工业、电子商务、人物再识别等方面的各种应用，人物图像合成已经引起了人们的广泛关注。人物图像合成中有两个关键任务：姿势转换[17，22，15，40，20，23]和姿势引导虚拟试穿[39、5、11、27]。如图1所示，姿势转移任务旨在将人图像从一个姿势转移到其他姿势，并且姿势引导的虚拟试穿任务是基于姿势转移来修改服装物品。这两个任务具有很强的相关性和相似性，但现有的方法没有探索它们的相关性。特别是姿势引导虚拟试穿的大多数方法[39，11，27]仅通过学习目标姿势或人类解析图和源的级联姿势转移时尚风格修改人的结构转换+目标姿态源图像姿势引导虚拟试衣图1：两个任务之间的相关性姿势转移对应于人在源图像和目标图像之间的结构变换，而姿势引导的虚拟试穿旨在基于该变换来形象当处理不同姿势之间的大的未对准时，这种隐式变换可能导致模糊和难以置信的问题，这影响所生成的结果的质量。为这两项任务获得高质量结果的关键是生成清晰的人体结构和细粒度纹理（例如，衣服和头发的图案对于结构生成，目标人体结构可以经由从源人体结构的变换来获得，例如从图1中的后结构到前结构。位姿转换仿真是位姿转换任务的主要内容先前的方法利用基于流的翘曲，获得具有有希望的结果的这种变换[8，15，20]。然而，由于准确的流量计算和精确的扭曲操作的挑战，它可能导致结构周围的伪影[28，24]。除了结构生成之外，大多数现有方法采用感知相关的约束（例如，感知损失[14]和对抗性损失[7]）来指导纹理生成并改善结果的视觉质量。然而，这些损失倾向于优化高级感知，其不仅关注纹理，而且还包括其他组件，例如样式信息。因此，在优化过程中不能有效地监督纹理生成例如，可以进一步改进细粒度区域重建[30]。13860为了解决上述问题，在本文中，我们提出了一个结构变换的纹理增强网络的人的图像合成。拟议的模式包括两个关键组成部分：结构转换渲染器和纹理增强样式器。首先，结构变换渲染器旨在使结构变形，明确地解决用于姿势转移和姿势引导的虚拟试穿任务的姿势对准的问题。在这里，我们提出了一个跨模态可变形卷积来处理这种变换，它避免了由基于流的扭曲和融合多模态信息，以更好地捕捉结构运动造成的文物。然后，纹理增强风格器被设计，以进一步增强纹理细节，由于保留细粒度区域的失败具体地，姿势引导的高频注意被引入以利用空间上下文信息来增强高频分量。我们建立了一个多模态的长程依赖关系，很好地处理在源图像中的不可见区域。此外，该组件使用户能够可控地操纵可时尚服装，修改时尚风格以用于姿势引导的虚拟试穿任务。利用这两个新的组件，我们的模型结合了姿势转换任务和姿势引导虚拟试穿任务，可以明确地建模源和目标姿势之间的转换，生成高质量的不同姿势甚至不同时尚风格的人物图像。所提出的方法在DeepFashion [16]和FashionTryOn数据集[39]上表现出优于现有方法的性能。此外，我们进行烧蚀实验，以验证我们的方法中的关键组件的贡献本文的主要贡献概括为：• 我们提出了一个结构变换的纹理增强网络来处理姿势引导虚拟试穿任务与姿势转移任务联合。实验结果表明，我们的模型的优越性，产生高度pho-torealistic和时尚多样化的结果，为人的图像合成。• 我们设计了基于跨模态可变形卷积的结构变换渲染器来处理人• 纹理增强的风格器被提出来增强详细的纹理，并使用户能够操纵的时尚风格，避免模糊的纹理，并产生各种时尚风格。2. 相关作品2.1. 人物图像合成姿势转移。Ma等人[17]首先定义此任务，并设计一个两级GAN以产生粗略结果，然后然后再完善它Siarohin等人[22]通过将局部特征与结构信息对准来进一步改善结果。他们引入可变形的跳跃连接，通过一组局部仿射变换来分解整体变形。Zhu等[40]通过提出姿势注意转移块来改进变换策略，以将条件图像渐进地变换为目标姿势。然而，外观信息可能在多个传送过程中丢失Han等人[8]首先利用光流在像素级将服装物品扭曲到目标结构，然后生成完整的人图像。Ren等人[20]进一步在特征级引入无监督流量估计器然而，难以获得光流的高质量估计，并且基于流的扭曲容易产生伪影。因此，我们的模型使用可变形卷积而不是基于流的扭曲来变换源特征。姿势引导虚拟试穿。单姿态虚拟试穿已经被研究了很多[9，26，36，35]。由于在线顾客希望获得他们自己穿着所需服装的多视图，Zheng等人. [39]呈现姿势引导虚拟试穿任务。他们设计了一个姿势引导的虚拟试穿模型，该模型捕获所需服装的变形，然后产生具有变形服装和目标姿势的人图像。Dong等人[5]用人类解析图设计一个由粗到细的模型。Wang等人[27]设计一个Tree-Block来捕获基于多级网络的图像细节。所有上述方法简单地学习目标结构信息（例如，姿势、解析图）和服装作为结构变换。与这些方法不同的是，我们的模型包含专门处理结构转换的结构转换渲染器。2.2. 变形卷积Dai等人[4]首先提出了可变形卷积，它从输入特征生成内核偏移，以学习远离其常规局部感受野的信息。可变形卷积已被广泛用于若干检测和识别任务中，例如对象检测[1]和动作识别[32，18]。最近，它也被用于其他视觉任务。Yuan等[37]将其与光流一起用于动态场景去模糊。Wang等人[28]和Tianet al. [24]采用它来对准原始帧和参考帧以用于视频超分辨率。受这些方法的启发，我们首先将其应用于解决人的图像合成的任务。2.3. 注意机制注意力机制已被应用于解决许多任务，例如对象检测[12]和语义分割[33，3]。自我注意[25]是神经语言过程中注意机制的一个Wang等人13861Pt偏移偏移估计器变形线形结构变换渲染器R{Δ||}|}Σ（时尚风格注塑变形卷积样式器块样式器块（时尚风格）或（无时尚风格）图2：所提出的模型的概述。偏移估计器模块生成跨模态偏移，而可变形对准模块将这些偏移应用于可变形卷积并变换源图像特征。然后，纹理增强风格器，其中包括PHF的注意力和可控的时尚风格注入，增强纹理和修改的时尚风格灵活。最后，我们得到合成的人的图像和相应的边缘图。通过时尚风格注入，最终的人物图像与期望的服装合成，同时保持没有该注入的原始服装。[29]将其扩展到计算机视觉的非局部注意力模块，对长程依赖性进行编码。在各种任务中有几种基于非本地模块的方法[13，34]。与一般的非局部模块相比，我们的纹理增强风格化器包含姿势引导的高频注意模块，该模块融合多模态信息并增强高频视觉外观。3. 我们的方法给定源图像S、源姿态Ps和目标姿态Pt，我们的模型旨在将源图像S转移到目标姿态Pt以用于姿态转移任务。姿势表示包括由[2]提取的18个人体关键点。如果将服装款式C注入模型中，模型就可以合成一个新的人物形象T_n，并将初始姿态和注入的服装款式合成在一起，实现姿态引导的虚拟试穿任务。我们的网络架构如图2所示，结构变换渲染器基于交叉模态可变形卷积来处理结构变换。在结构转换的渲染器之后，转换的特征被馈送到纹理增强的样式器。我们的模型包括三个stylizer块，其中每一个PHF注意模块被设计成避免模糊的细粒度纹理并且同时保持上下文关系然后，用户可以控制注入时尚风格。它表示图2中的绿线是可选的。在3.1. 结构转换的渲染器结构变换渲染器由两个子模块组成：偏移估计器模块和可变形对准模块。偏移估计器负责学习源姿态和目标姿态之间的结构运动。这里，我们将这些运动定义为坐标偏移Θ，并且从源图像S、源姿态Ps和目标姿态Pt学习它们。令fφ表示具有学习参数φ的网络。估算过程可以定义为：Θ=fΦ（S，Ps，Pt）（1）令ρη表示常规卷积的采样网格中的Θ可以表示为：p nn = 1，2，. . . ，的。它融合了多模态信息（姿态和图像），可以有效地捕获源姿态和目标姿态之间的变形。利用跨模态偏移Θ，可变形对准模块采用可变形卷积来从源图像S学习经变换的特征FSa，从而在特征级处将源图像与目标姿态具体地，我们经由编码器架构从S获得源图像特征FS，然后我们利用可变形卷积从FS学习FS。设f dc是指可变形卷积。F或变换特征FSa上的每个位置p0，我们有：FSa（p0）=fdc（FS，Θ）下面，我们将详细描述我们模型的每个部分。=pn∈Rw（pn）·Fs（p0+pn+Θ）（2）PHF关注样式器块纹理增强风格器13862×⊗··1a2aⓈ×是一个是一个××H⊗⊕··×目标姿态特征（C×H×W）转置（HW×C）（C×HW）softmax(HW×HW）(HW×C）（C×H×W）（C×H×W）（C×H×W）其中（i，j）表示坐标位置，g（），h（）表示11卷积，并且整形操作表示矩阵乘法。姿态和外观信息都被考虑用于亲和度矩阵。在另一分支中，为了增强高频细节，我们设计了高频感知掩模Mc：转化特征（C×H×W）转置高频增强变换特征Mc=σ（fc（FS）−fc（FS））∈RC×H×W（4）其中，fcl和fc2分别表示具有11核的扩张卷积和具有55核的高斯模糊，σ是指Sigmoid函数。高斯模糊fc2可以图3：所提出的PHF注意力模块的框架，其将目标姿态特征FPt和变换后的特征FSa作为输入并学习高频感知上下文依赖性。其中w表示卷积核权重，并且是指卷积运算的增强感受野被认为是过滤的高频成分形象从fc1的结果中减去fc2的结果，这表明保留了高频细节并减少了所有分量中低频细节的影响在Sigmoid函数之后，注意力掩码Mc将更多权重应用于高频分量。然后，高频增强的变换特征FSh被定义为：气区别于一般可变形卷积，后者会产生与原始要素的FSh =McFSa∈RC×H×W（5）为了扩大感受野，我们利用Θ来学习远离规则局部核邻域的结构变形。其中表示逐元素乘法。最终，我们获得高频增强的非局部特征FSe作为注意力模块的输出：3.2. 纹理增强样式器姿势引导高频注意力（PHF Attention）PHF注意力被设计成编码高频感知FSe=f. .Ap，sk（FSh）TΣTΣFSh∈RC×H ×W（六）- 在目标姿态的指导下的上下文依赖性，其中高频分量对应于在这里，我们探索的空间上下文的信息，以减少源图像中的闭塞的痛苦，并生成逼真的纹理。这个模块的框架如图3所示。为了简化符号，我们在本节中使用第一个PHF注意块作为注意过程分为两个分支。我们首先计算亲和度矩阵Ap，s，以在目标姿态的指导下保持注意力过程。在下面的表示法中，我们使用FPt来表示经由编码器架构从目标姿态提取的目标姿态特征。Fsa等于由结构变换渲染器生成的变换特征（在其他两个注意模块中，它表示由前一个样式器块生成的特征）。此外，C、H和W是通道的数量、高度和特征的宽度。A p，s∈RHW×HW定义为：其中 f （）和 k （）是指 11 convolution 和 re-convolution整形操作表示逐元素加法。这里，Ap，sk（FS）T在姿态信息的指导下建立高频感知的非局部上下文，然后以残差的方式计算FSe以优化注意过程。可控风格注入。在PHF关注之后，时尚风格（例如服装图像）被柔性地注入以修改时尚纹理。首先，我们采用TPS变换[26，39]将服装与目标姿势进行几何匹配，然后使用编码器从扭曲的服装最后，我们融合的时尚风格的功能与功能输出的PHF注意模块通过级联和1 1卷积。通过可控风格注入，用户可以控制在生成目标人物图像时是否修改时尚风格。在三个样式器块和上采样层之后，模型输出4个通道的结果我们通过将4通道图像分成3通道RGB合成图像和1通道合成图像来获得合成大小的图像TA（i，j）=exp.G. FPthFjΣΣ（三）边映射合成的边缘图是灰度图图10是合成图像的透视图，并且示出了合成图像的结构p，sΣj exp.G.FPtiΣT h。FjΣΣ我们利用它来进一步约束结构生成。矩阵乘法元素-wsie乘法计算高频注意力掩模138632GJJ11¨¨3.3. 损失函数结构损失。为了准确地生成人体结构，引入了基于均方误差的结构损失.在这里，我们从目标图像中提取边缘图作为我们的地面实况：L型结构=e-Te¨2（七）表1：与DeepFashion上的最先进方法的定量比较。其中，T e和Te分别指合成边缘图和真实边缘图引入该损失项来指导边缘生成并产生准确的结构划分。按照以前的方法[40，15，20]，我们使用其他损失函数如下：对抗性损失。我们应用生成对抗框架来模拟目标图像的分布。鉴别器D用于将由生成器G生成的合成图像与真实图像区分开。因此，对抗性损失Ladv被定义为：模型FID↓LPIPS↓SSIM↑VTOAP [39]21.2050.2080.738VTDC [27]9.3380.1540.779我们6.4010.1380.782表2：在FashionTryOn上与现有技术方法的定量比较。完全损失。总之，我们的方法的总损失可以表示为：Ladv=E[logD（T）]+E[log（1−D（G（S，Ps，Pt，（C））]（八）Ltotal=λstructureLstructure+λadvLadv+λrecLrec+λfeaL fea+λ percL perc+λ styleL style（十三）重建损失。为了在像素级上约束与目标图像相似的合成图像，我们将L1损失定义为：4. 实验4.1. 数据集和评估指标Lrec=¨T¨−T¨（九）数据集。我们在DeepFash上进行实验-特征相似性损失。我们使用余弦相似性和欧氏距离来强制变换后的特征FSa接近地面实况的特征图离子数据集[16]用于姿势转移，FashionTryOn数据集[39]用于姿势引导的虚拟试穿。DeepFash-ion数据集包含52，712个高质量模型图像，其中分辨率为256×256。我们遵循类似的程序，目标图像FT：Lfea=λ1exp（−µ（FSa，FT））+λ2ρ（FSa，FT）（10）其中μ表示余弦相似性，ρ表示欧氏距离，λ1和λ2分别表示它们在该损失中的权重感知和风格损失。除了像素级约束，我们在VGG特征级利用感知损失和风格损失[14]来确保感知上合理的感知损失可以定义为：Lperc=Σφi。（11）T≡Σ−φi（T）我其中φi是视觉感知（预训练的VGG19）网络的第i层的激活图。设为Gram矩阵。样式损失将激活图之间的统计误差计算为：Lstyle=Σ¨Gφ。TΣ−Gφ（T）¨（12）J先前的工作[40]划分训练数据和测试数据以进行公平比较。训练集有101，966对，测试集保留8，750对。FashionTryOn数据集[39]由21，209个训练对和7，520个测试对组成图像分辨率为256 × 176。由于收集具有不同姿势和不同服装的理想数据集是一个挑战，因此目标图像与源人物图像共享相同的服装项目。按照以前的方法[39，5]，我们用一个掩码的源图像训练我们的模型，其中源图像中的服装项目没有被输入到网络中。评估指标。我们遵循以前的方法使用结构相似性（SSIM）[31]作为我们的评估指标。我们还引入了学习感知图像块相似性（LPIPS）[38]和Frechet起始距离（FID）[10]作为我们的度量。LPIPS计算加权L2距离在合成图像和目标地面实况图像在特征级别。FID计算合成图像和目标地面实况图像。1模型FID↓LPIPS↓SSIM↑VU-Net [6]23.7080.2640.763[22]第二十二话18.4620.2330.760PATN[40]20.7490.2530.772GFLA [20]11.8710.1900.770我们9.8880.1820.77413864源图像目标姿势目标图像VUNet Def-GAN PATN GFLA OursDeepFashion源图像目标姿势服装VTOAPVTDC我们的W/O时尚风格FashionTryOn图4：与VUNet [6]，Def-GAN [22]，PATN [40]，GFLA [20]进行姿势转移和VTOAP [39]，VTDC [27]进行姿势引导虚拟试穿的定性比较结果的示例。4.2. 实现细节我们使用PyTorch来实现我们的模型。我们模型中使用的编码器架构与U-Net[21]中的编码器架构相似。我们从头开始训练我们的模型ADAM优化器用于反向传播梯度，其中我们将β1和β2设置为0.9和0.999。生成器的初始学习率为10- 4，鉴别器的初始学习率为10- 6。损失项的权重设置为λedge= 50，λfea= 4，λadv= 2，λrec= 3，λperc= 1，λstyle= 400。特征相似性损失中的 λ1 和 λ2 分别被设置为 1 和0.001。在DeepFashion数据集上，我们在没有时尚风格注入的情况下训练模型，而时尚风格注入FashionTryOn数据集。由于数据集的限制，在训练和测试阶段，注入的衣服与源图像中的衣服相同。对于定性评估，我们随机地改组测试集，并在FashionTryOn上用不同的源图像测试不同的服装项目我们训练模型100个epoch，批量大小为16。4.3. 比较我们将我们的模型与几种最先进的方法进行比较，包括VUNet [6]，Def-GAN [22]，PATN [40]和GFLA[20]用于姿势转移任务。对于姿势引导的虚拟试穿，我们将我们的模型与VTOAP [39]和VTDC [27]进行比较。我们评估我们提出的方法与定性和定量的比较。给出了位姿转移和位姿引导虚拟试穿的定量结果分别列于表1和表2中图4给出了两个任务的典型定性示例。定量结果。所提出的方法优于这些竞争的方法在三个指标。对于姿态转移任务，VUNet不处理源外观信息和目标姿态之间的结构转换，其中它在两个度量上显示相对较弱的结果。Def-GAN和PATN引入了各种策略来组合源外观和目标姿态。可以看出，两者的表现都优于VUNet。此外，GFLA设计了基于流的操作来局部地扭曲源图像特征，这可以进一步处理复杂的结构变换。与GFLA相比，我们的模型在处理遮挡和避免来自基于流的扭曲的伪影方面具有独特的优势除此之外，所有这些方法都忽略了纹理增强的重要性。这就是我们的模型比其他方法取得更好结果的原因对于姿势引导的虚拟试穿任务，注意，VTOAP和VTDC两者都不明确地处理多姿势变换。目标结构信息（诸如姿态或解析图）简单地与服装连接以生成合成图像。在生成过程中，组织和结构都容易弱化。因此，我们的方法在这些最先进的姿态引导虚拟试穿方法中实现了最佳性能。此外，如图5所示，在VTDC中用作输入指导的人类解析图倾向于导致一些不准确的几何划分。13865源图像目标姿势服装解析图合成图像边缘图合成图像图5：合成的人物图像示例，其中VTDC中有人类解析图（左），而我们的图像有边缘图（右）。表3：消融研究的评价结果。上半部分在DeepFashion数据集中，下半部分在FashionTryOn数据集中。PHFA表示PHF注意模块。SL表示结构损失。CDC表示跨模态可变形卷积。源图像目标图像ST-SLSTTEENTE-SLFLTE-SL完整模型比GFLA更真实同时，PHF注意力有助于生成清晰的细节纹理，例如，我们的模型在第三排生成的白色蕾丝。对于姿势引导的虚拟试穿任务，典型的视觉比较在图4的右侧部分中示出。我们的方法和VTDC产生生动的图像，而面部和身体的VTOAP是模糊的。尽管VTDC添加了人类解析图作为输入以增强身体结构，但结果仍然具有一些具有结构混乱的区域，例如第二行中的手臂。与VTDC相比，该方法显式地对结构变换进行建模，处理不同姿势之间的身体区域的位移。因此，我们的结构更加清晰。同时，我们的模型在生成精细-图6：DeepFashion数据集上消融研究的定性结果示例。与人类句法分析图相比，边缘图在结构划分上更加精确因此，我们的模型利用边缘图作为显式监督，并约束姿态的变形，从而提高性能。定性结果。定性比较见图4。左边的部分是在DeepFashion上，这是姿势转移的结果。与其他国家的最先进的方法相比，我们的模型执行的能力，模型的纹理和结构的人的图像合成，其中VUNet，Def-GAN和PATN显然无法生成现实的纹理的脸，头发和衣服。例如，VUNet在第二行（从上到下）中丢失衣服上的圆点纹理。GFLA在生成纹理时更准确。然而，由于基于流的扭曲的限制，GFLA遭受人的结构周围的伪影由于跨模态可变形卷积，我们的模型证明了其在防止伪影方面的实力，这为我们带来了更清晰的身体结构。纹理比其他纹理（例如，第三排的脸和最后一排的裤子）。此外，我们可视化我们的结果，而不编辑时尚风格。结果是用与源图像相同的服装生成的，其可以被认为是姿势转移任务的结果。4.4. 消融研究在本小节中，我们将研究每个组件如何对所提出的方法做出贡献。提供了几个变体来验证结构损失、PHF注意力和结构变换渲染器的有效性。ST-SL。在这个模型中，我们消除了PHF注意力模块的纹理增强风格化从原来的完整模型。STTE。该模型是我们提出的模型没有结构损失。该变体具有完整的结构变换的渲染器和PHF注意模块作为所提出的模型。ENTE-SL。我们用一个典型的编码器架构来替换结构变换的渲染器。在该变型中，编码器的输入被设置为源图像、源姿态和目标姿态的级联。PHFASLCDCFID↓LPIPS↓SSIM ↑ST-SLC×CCC×CC×12.7710.1910.766STTE11.2960.1840.771ENTE-SL15.5030.2110.762FLTE-SL我们CCCCC×11.0549.8880.1880.1820.7670.774ST-SLC×CCC×CC×8.2400.1560.757STTE7.4070.1520.762ENTE-SL14.0040.1820.744FLTE-SL我们CCCCC×7.1466.4010.1580.1380.7600.78213866图7：PHF注意力模块中的高频注意力掩模McFLTE-SL。在这个模型中，我们用基于流的扭曲操作代替了结构变换渲染器的跨模态可变形卷积。完整模型（我们的）。我们在这个模型中使用了全结构转换的渲染器和注意力模块，并使用本文采用的所有损失函数对其进行训练。源图像目标姿势风格形象合成图像风格形象合成图像PHF注意力的有效性。从表3中，我们可以观察到我们的完整模型优于ST-SL。它受益于PHF注意力模块。同时，如定性结果所示，消融PHF注意模块会导致混乱的细粒度细节。例如，第二行中的ST-SL的结果示出了由于缺乏纹理增强而导致的服装区域上的不规则纹理，从而证明了PHF注意模块增强纹理细节的能力此外，PHF注意中的注意掩码在图7中可视化。可以看出，它确实为衣服和脸部中的复杂纹理分配了更高的权重具有平滑纹理的区域（例如，最左边结果中的上部服装）获得较少的关注。结构损失的有效性。我们采用结构损失来指导结构生成。根据定量比较（表3），完整模型在所有指标上均优于STTE。此外，如图6所示，完整模型的结构比STTE更好地展示了自然外观。定量和定性的结果证实了这种拟议的损失的有效性结构转换渲染器的有效性。评价结果示于表3中。完整模型的性能优于ENTE-SL和FLTE-SL，这意味着结构转换渲染器可以有效地解决源和目标之间的转换问题。跨模态可变形卷积还导致稳定的性能增益。在图6中，我们观察到完整模型比ENTE-SL生成更合理的结果。此外，由于基于流的扭曲倾向于具有错误的采样区域，因此其导致不真实的纹理，诸如FLTE-SL的最后一行（从上到下）中的脚附近的腿4.5. 应用所提出的方法可以改善虚拟试衣间的应用程序，客户可以尝试的时尚风格图8：时尚风格转移的示例。模特的形象。图8中示出了应用的几个示例。另一个人的图像代替输入的服装在建议的模型，和时尚风格提取从这个人的图像。具体地说，我们利用[19]提出的Style-Encoder从图8中的样式图像中提取时尚纹理，然后通过纹理增强的样式器将其注入源图像以这种方式，用户能够从其他人物图像中选择各种时尚风格以生成新的人物图像，从而为用户提供更多的选择。5. 结论在本文中，提出了一种新的方法与结构变换渲染器和纹理增强的风格化合成的人的图像，探索姿势转移和姿势引导的虚拟试穿任务之间的相关性。在现有的方法相比，我们强调的结构和纹理生成。具体地，为了消除来自基于流的操作的模糊伪影，我们首先应用可变形卷积来捕获源和目标姿势之间的结构偏移。提出用结构损耗来约束结构生成。同时，PHF注意模块被设计用于增强纹理。几个实验进行了两个任务。实验结果证明了该方法的有效性和通用性。致谢本工作得到了广东省重点领域研究发展计划（No.2019B121204008）的支持。和深圳基础-口语研究计划（ GXWD 20201231165807007 -20200806163656003）。我们感谢所有评论者的宝贵意见。13867引用[1] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第331-346页2[2] 曹哲、托马斯·西蒙、施恩伟和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。2017年3[3] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页2[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。2[5] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu ，and JianYin.多位姿导引虚拟试穿网路之研究。在IEEE计算机视觉国际会议论文集，第9026-9035页，2019年。一、二、五[6] PatrickEsse r，EkaterinaSutte r，andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集，第8857-8866页五、六[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26721[8] Xintong Han，Xiaojun Hu，Weilin Huang，and MatthewR Scott. Clothflow：一个基于流的服装人物生成模型。在IEEE计算机视觉国际会议论文集，第10471-10480页，2019年。一、二[9] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：一个基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集，第7543-7552页，2018年。2[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年5[11] 谢家伟，陈杰云，周建龙，帅洪汉，刘佳英，程文煌。Fashionon：基于语义引导的图像虚拟试穿，包含详细的人体和服装信息。在第27届ACM国际多媒体会议论文集，第275- 283页，2019年。1[12] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。2[13] Wentao Jiang，Si Liu，Chen Gao，Jie Cao，Ran He，Jiashi Feng，and Shuicheng Yan. Psgan：姿势和表情ro-胸围空间感知gan为定制化妆转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第5194-5202页，2020年。3[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。一、五[15] Yining Li，Chen Huang，and Chen Change Loy.用于人体姿势转移的密集内在外观流在IEEE计算机视觉和模式识别会议论文集，第3693-3702页，2019年一、五[16] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议论文集，第1096-1104页，2016年。二、五[17] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统的进展，第406-416页，2017年。一、二[18] Khoi-Nguyen C Mac，Dhiraj Joshi，Raymond A Yeh，Jinjun Xiong，Rogerio S Feris，and Minh N Do.在特征空间中学习运动：用于细粒度动作检测的局部一致性可变形卷积网络。在IEEE计算机视觉国际会议论文集，第6282-6291页，2019年。2[19] Yifang Men，Yiming Mao，Yunning Jiang，Wei-YingMa，and Zhouhui Lian.基于属性分解的可控人物图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第5084-5093页，2020年。8[20] Yurui Ren ，Xiaoming Yu，Junming Chen，Thomas HLi，and Ge Li.用于人物图像生成的深度图像空间变换。在IEEE/CVF计算机视觉和模式识别会议论文集，第7690- 7699页，2020年。一、二、五、六[21] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。6[22] AliaksandrSiarohin，EnverSangineto，Ste´phaneLathuiliere，and Nicu Sebe.用于基于姿态的人体图像生成的可变形gans。在IEEE计算机视觉和模式识别会议论文集，第3408- 3416页，2018年。一、二、五、六[23] 唐昊、宋白、张立、菲利普·HS·托尔和Nicu Sebe。用于人物形象生成的兴感。欧洲计算机视觉会议，第717-734页。Springer，2020年。1[24] Yapeng Tian，Yulun Zhang，Yun Fu，and Chenliang Xu.Tdan：用于视频超分辨率的时间可变形对齐网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3360-3369页，2020年。一、二[25] Ashish Vaswani、 Noam Shazeer 、 Niki Parmar 、 JakobUszko- reit、Llion Jones、Aidan N Gomez、ukasz Kaiser和Illia13868波洛苏欣注意力是你所需要的。神经信息处理系统的进展，第5998-6008页，2017年。2[26] Bochao Wang，Huabin Zheng，Xiaodan Liang，YiminChen，Liang Lin，and Meng Yang.基于特征保持图像的虚拟试穿网络。在欧洲计算机视觉会议（ECCV）的论文集中，第589-604页，2018年。二、四[27] Jiahang Wang，Tong Sha，Wei Zhang，Zhoujun Li，andTao Mei.精确到最后一个细节：虚拟试穿，细节细致入微。第28届ACM国际多媒体会议论文集，第466-474页，2020年。一、二、五、六[28] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：使用增强的可变形卷积网络进行视频恢复。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页，2019年。一、二[29] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议论文集，第7794-7803页，2018年。3[30] Xintao Wang，Ke Yu，Shixiang Wu，Jinjin Gu，YihaoLiu ， Chao Dong ， Yu Qiao ， and Chen Change Loy.Esrgan：增强型超分辨率生成对抗网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第0-0页，2018年。1[31] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Si-moncelli.图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：600-612，2004。5[32] Junwu Weng ， Mengyuan Liu ， Xudong Jiang ， andJunsong Yuan.用于3d动作和手势识别的可变形姿态遍历卷积。在欧洲计算机视觉会议（ECCV）的会议记录中，第136-152页，2018年。2[33] Sanghyun Woo，Jongchan Park，Joon-Young Lee，andIn So Kweon. Cbam：卷积块注意模块。在欧洲计算机视觉会议（ECCV）的会议记录中，第3-19页，2018年。2[34] Kai Xu，Minghai Qin，Fei Sun，Yuhao Wang，Yen-Kuang Chen ， and Fengbo Ren. 在频域中学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第1740-1749页，2020年。3[35] 韩阳，张瑞茂，郭小宝，刘伟，左王梦，罗平.通过自适应生成-保持图像内容实现照片级真实感虚拟试穿在IEEE/CVF计算机视觉和模式识别会议论文集，第7850-7859页，2020年。2[36] Ruiyun Yu，Xiaoqi Wang，and Xiaohui Xie. Vtnfp：一个基于图像的虚拟试穿网络，具有身体和

下载后可阅读完整内容，剩余1页未读，立即下载