密集姿势转移的表面建模与神经合成的组合

124 浏览量更新于2023-10-13 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

密集姿势转移NataliaNeverova1，RızaAlpGuüler2，andIasonasKokkinos11Facebook AI Research，Paris，France，{nneverova，iasonask}@ fb.com2INRIA-CentraleSup′elec，Paris，France，riza. inria.fr抽象。在这项工作中，我们将基于表面的建模与神经合成的思想相结合：我们提出了基于表面的姿势估计和深度生成模型的组合，使我们能够执行准确的姿势转移，即。基于人单个图像和姿势供体的图像来合成人的新图像我们使用一个密集的姿态估计系统，从两个图像的像素映射到一个共同的基于表面的坐标系，允许两个图像被带到彼此对应我们在表面坐标系中修补和细化源图像强度，然后将它们扭曲到目标姿势上。这些预测通过神经合成模块与卷积预测模块的预测融合，从而允许端到端联合训练整个流水线，优化对抗性和感知损失的组合。我们表明，密集的姿态估计是一个更强大的条件输入比地标，或基于掩模的替代品，并报告系统的改进，在最先进的生成器上的DeepFashion和MVC数据集。Fig. 1.我们的姿势转移流水线概述：给定输入图像和目标我们使用DensePose [1]来驱动生成过程。这是通过（a）数据驱动的预测模块和（b）基于表面的模块的互补流来实现的，基于表面的模块将纹理扭曲到UV坐标，在表面上插值，并扭曲回目标图像。混合模块将这两个流的互补优点组合在单个端到端可训练框架中。2N. Neverova，R. A. 居尔岛Kokkinos1介绍深度模型最近在人脸[2]，人类[3这在计算机图形应用中开辟了无数的可能性，包括电影摄影，游戏和虚拟现实设置。与此同时，该技术的潜在恶意使用提出了新的研究问题，包括检测伪造图像或视频[8]，这反过来需要使用多个真实样本训练伪造检测算法此外，合成生成的图像已成功用于数据增强和训练深度学习框架，以完成相关识别任务[9]。在大多数应用中，生成模型与任务的相关性直接关系到可以对生成过程施加的控制量。最近的工作已经显示了通过控制分类属性[10，3]、低维参数[11]或由条件输入[12，6，7，3-5]指示的布局约束来在这项工作中，我们渴望获得一个更强大的图像合成过程中，依靠基于表面的对象表示，类似于在图形引擎中使用的。我们的工作集中在人体上，其中基于表面的图像理解最近已经解锁[13我们建立在最近引入的SMPL模型[13]和DensePose系统[1]的基础上，它们一起使我们能够根据完整的表面模型来解释人的图像，使我们更接近执行逆图形的目标。在这项工作中，我们关闭循环，并通过基于表面的神经合成以新的姿势渲染同一个人来执行图像生成目标姿态由“姿态供体”的图像指示，即指导图像合成的另一个人。DensePose系统用于将新照片与公共表面坐标相关联，并复制在那里预测的外观纯粹基于几何的合成过程本身不足以用于现实图像生成：其性能可能受到DensePose系统的不准确性以及两个图像中的至少一个中的身体表面的自遮挡的损害我们通过引入在表面坐标系中操作的修复网络来解释遮挡，并将其预测与更传统的前馈条件合成模块的输出相结合。这些预测是独立获得的，并且由细化模块复合，该细化模块被训练以便优化重构和重构的组合知觉和对抗性损失。我们在DeepFashion [19]和MVC [20]数据集上进行了实验，结果表明我们可以获得比最新技术水平更好的定量结果。除了姿势转移的具体问题之外，神经合成与基于表面的表示的组合也可以用于虚拟和增强现实的更广泛问题：由于底层的基于表面的表示，生成过程更加透明并且易于与物理世界连接。在不久的将来，姿势转移的任务可以用于数据集增强、训练伪造密集姿势转移3检测器，以及像[1]所展示的那些纹理转移应用，然而不需要获取表面级纹理图。2以前的作品深度生成模型最初被研究为非监督特征学习的一种手段[21用于训练这种网络的损失函数在很大程度上决定了结果输出的真实性。标准重建损失，例如1或2范数通常会导致模糊的结果，但同时增强了稳定性[12]。现实主义可以通过使用与生成对抗网络（GAN）架构[23]中的生成器协同训练的自适应鉴别器损失来实施，以确保生成的和观察到的样本是不可区分的。然而，这种训练通常是不稳定的，需要更强大的变体，例如[26]的平方损失，WGAN及其变体[27]或[7]中的多尺度鉴别器。另一种解决方案是[28，29]中使用的感知损失，用前馈处理代替[25]中基于优化的风格转移。最近在[6]中表明，这比[12]提供了更准确的场景合成结果，而最近通过将这种损失与GAN风格的搜索结合起来获得了令人信服的结果[7]。人与服装的合成在最近越来越多的作品中得到了解决[3，5，4，30]。所有这些工作都通过领域，个人特定的知识来帮助图像生成任务，这既提供了更好的质量结果，又提供了更可控的图像生成管道。人类的条件神经合成已经在[5，4]中显示，以提供对生成过程的输出的强大处理。在[3]中使用人体的可控的基于表面的模型来驱动穿着具有可控颜色组合的衣服的人所生成的图像明显是真实的，但是姿态是通过控制基于表面的模型来确定的，如果想要的话，这可能是限制性的。以基于目标视频呈现源人物。在[4]的姿态转移工作中采取了不同的方法，其中在目标图像中检测到的一组稀疏地标被用作生成模型的调节输入。作者表明，姿势可以生成具有更高的准确性，但往往会丢失源图像的纹理属性，例如布料颜色或纹理属性。在[31]的工作中，多视图监督用于训练可以从多个视图生成图像的两阶段系统。在最近的工作[5]中，作者表明，在GAN架构中引入对应组件可以实现更准确的姿态转移。图像修复有助于估计被遮挡的身体区域上的身体外观。生成模型能够通过在训练期间考虑遮挡模式来填充被标记为遮挡的信息[32]，或者4N. Neverova，R. A. 居尔岛Kokkinos通过优化指示图像质量的评分函数，例如GAN鉴别器损失的负值[33]。[33]的工作通过最小化用完全观察到的面部补丁训练的GAN的鉴别器损失来修复任意遮挡的面部在面部分析领域，最近通过在面部表面的UV坐标系中操作的工作产生了令人印象深刻的结果，旨在逼真的面部修复[34]和姿势不变识别[35]。尽管我们解决了类似的问题，但缺乏完整的紫外线记录（如[35，34]）带来了额外的挑战。3密集姿势转移我们开发了我们的方法来围绕DensePose估计系统[1]进行姿势转移，以将每个人体像素与其在人体的基于表面的参数化上的坐标以有效的自下而上的方式相关联。我们以两种互补的方式利用DensePose输出，对应于预测模块和扭曲模块，如图2所示1.一、扭曲模块使用DensePose表面对应和修复来生成人的新视图，而预测模块是以输入和目标的DensePose输出为条件的通用黑盒生成模型对应于两个并行流的这些模块具有互补的优点：预测模块成功地利用密集调节输出来生成用于熟悉姿势的合理图像，提供优于从稀疏的基于地标的调节获得的那些结果;同时，它不能概括为新的姿势，或转移纹理细节。相比之下，扭曲模块可以保留高质量的细节和纹理，允许我们在统一的规范坐标系中执行修复，并免费推广各种各样的身体运动。然而，它的身体，而不是衣服为中心的建设不考虑头发，挂衣服，和配件。通过将这两个块的输出馈送到混合模块中来获得两全其美，该混合模块被训练成使用端到端可训练框架中的重建、对抗和感知损失的组合来融合和细化它们的DensePose模块对两个流都是通用的，并在图像和人体的基于表面的模型之间提供密集的对应关系它首先将每个像素分配给24个预定表面部分之一，然后回归每个像素的特定于部分的表面坐标该系统的结果被编码在三个输出通道中，包括零件标签和零件特定的UV表面坐标。该系统被区分地训练，并且提供用于从图像到人体表面的密集对应的简单的前馈模块我们省略进一步的细节，因为我们依赖于[1]的系统，在第2节中描述了微小的实现差异4.第一章概述了我们的系统的整体架构，在第二节。第3.1节和第3.3我们更详细地介绍了我们的组件，然后在第二节。3.4在训练中使用的损失函数对体系结构的全面描述密集姿势转移5细节留给补充材料。我们通过呈现预测流的架构开始，然后转向基于表面的流，对应于图1的上行和下1所示。3.1预测流预测模块是利用密集姿态系统结果进行姿态转移的条件生成模型现有的条件模型以来自关键点检测器[4]或部分分割[3]的热图的形式指示目标姿态在这里，我们以输入图像和输入图像和目标图像的密集姿态结果的级联为条件，得到尺寸为256×256×9的输入。这提供了全局（部分分类）和点级（连续坐标）的调节，允许剩余的网络利用更丰富的信息源。剩余的架构包括编码器，随后是残差块的堆栈，并且沿着[28]的线在最后包括解码器。更详细地，该网络包括（a）将256×256×9输入编码为64×64×256激活的三个卷积层的级联，（b）具有3×3×256×256内核的六个残差块的集合，（c）传递与输入相同空间分辨率的输出的两个解卷积层和一个卷积层的级联。所有中间卷积层都有3×3过滤器，然后是实例归一化[36]和ReLU激活。最后一层具有双曲正切非线性并且没有归一化。3.2翘曲流我们的翘曲模块通过在公共表面UV系统上执行输入和目标图像之间的显式纹理映射来执行姿势转移该组件的核心是一个空间Transformer网络（STN）[37]，它根据DensePose将图像观察结果扭曲到每个表面部分的UV坐标系;我们对24个表面部分中的每一个使用具有256×256个UV点的网格，并且执行散射插值来处理回归的UV坐标的连续值。从UV到输出图像空间的逆映射由具有双线性核的第二个卷积器执行。如图3，直接实施此模块通常会产生不佳的结果：在源图像上可见的表面部分通常很小，并且通常可以与在目标图像上可见的身体部分完全不重叠。这只会因零件接缝周围的DensePose故障或系统错误而加剧这些问题促使在扭曲模块内使用修复网络，如下所述修复自动编码器。该模型允许我们从由该节点填充的表面节点到其余节点来推断身体外观的表面。我们的设置需要与其他深度修复方法不同的方法[33]，因为我们在训练期间从未观察到完整的表面纹理我们通过以下方式处理训练信号的部分观察性质：6N. Neverova，R. A. 居尔岛Kokkinos图二、用于变形流上的姿势转移的监督信号：左侧的输入图像通过由DensePose驱动的空间Transformer网络被变形到固有表面坐标根据该输入，修复自动编码器必须从不同的视角预测同一个人的外观，同时也扭曲到固有坐标。右边的损失函数仅对纹理图的观察部分的重建进行惩罚。这种形式的多视图监督就像是人在整个身体表面上的（不可用的）外观的替代物。重建损失，仅惩罚UV图的观察部分，并让网络自由猜测信号的剩余域特别地，我们对自动编码器预测与目标信号之间的差异使用掩蔽的1损失，其中掩码指示目标信号的可见性我们观察到，这本身并不能促使网络成功修复;结果大大改善时，我们伴随着多个监督信号的每一个输入，如图所示。2，对应于同一个人在不同姿势下的UV包裹镜头。这填充了UV空间的较大部分，并且迫使修复网络在整个纹理区域上进行预测如图3，修复过程允许我们获得均匀观察的表面，其捕获皮肤和紧身衣服的外观，但不考虑头发，裙子或服装，因为这些不被DensePose的表面模型容纳我们的修复网络由N个自动编码器组成，对应于原始DensePose系统[1]中使用的身体表面分解为N个这是基于外观属性在身体表面上是非静止的观察将基于上下文的信息从可见部分传播通过融合机制来实现，该融合机制在由各个编码器递送的潜在表示的级别上操作，并且通过级联操作在各个编码特别地，我们用Ei表示由编码器针对第i部分递送的单独编码。融合层将这些获得的编码连接成单个向量，然后通过线性层将其向下投影到256维全局姿态嵌入我们将得到的嵌入传递给密集姿势转移7图3.第三章。翘曲模块结果。对于每个样本，顶行示出了从DensePose预测获得并投影在3D身体模型的表面上的内插纹理底部行显示了在UV空间中修复后的相同纹理。ReLU和实例范数单元的级联，并将其再次变换成由G表示的嵌入。然后，第i部分解码器接收G与Ei的级联作为输入，其组合了由G递送的部分i特有的信息和全局上下文。这通过反卷积操作的堆叠来处理，其最终递送对部分i的纹理的预测。3.3混合模块混合模块因此，它不再涉及编码器或解码器单元，而是仅包含旨在组合预测并改进其结果的两个卷积块和三个残差块。在我们的框架中，预测和扭曲模块首先分别进行通过学习添加到预测流的输出的残差项来获得最终的细化混合模块采用由与目标密集姿态组合的预测模块和扭曲模块的输出组成的输入。8N. Neverova，R. A. 居尔岛Kokkinos13.4损失函数如图1中，我们的网络的训练集分别以输入图像和目标图像对x、y的形式出现，这两者具有相同的性质，但具有不同的性质。如果不是由y∈=G（x）两个网络的概率决定，则由y∈，y构成的差异可以被看作是惩罚不同形式的偏差的多个损失为了完整起见，我们在下面介绍它们，并在第二节中消除它们在实践中的影响4.第一章重建损失。为了惩罚重建错误，我们使用两个信号中的 com-mon1distancetet：y−y1。尽管如此，这种分离的结果是模糊的，但是对于保持总体强度水平是重要的。感知损失。如在Chen和Koltun [6]中，我们使用如在[ 38]中所描述的针对c 1的VGG19网络作为针对b 〇 hy，y的feextract，并且peeiz在5个不同的网络层v = l，. . . ，N：ΣNLp（y，y）=v=1<$Φv（y）−Φv（y<$）<$2。（一）这种损失惩罚了由相应的网络过滤器捕获的低、中和高级别特征统计中的差异风格缺失。与[28]一样，我们使用[25]的Gram矩阵准则作为训练前馈网络的目标。我们首先计算由VGG网络Φ在层v处针对图像X递送的神经元激活的格拉姆矩阵：ΣGv（x）c，c′=Φv（x）[h，w]Φv（x）[h，w]（2）c c′h，w其中h和w是水平和垂直像素坐标，并且c和c’是层v的特征图。风格损失由两个输入的每层格拉姆矩阵GvΣBLstyle（y，y）=v=1Gv（y）−Gv（y（三）对抗性损失。我们使用对抗训练来惩罚生成的样本和真实样本之间的由于全局结构特性在很大程度上取决于DensePose条件反射，因此我们选择patch-GAN [12]鉴别器，它在本地操作并拾取纹理模式之间的差异该方法[12，7]将源图像和目标图像上的密集姿态结果的组合z以及大图像y（real）或输出（fake）yt作为输入。我们不希望模拟与真实的模拟无法区分L甘=Ez2[l（D（z，y）−1）]+1Ez2[l（D（z，y（））]+1E 2z[l（D（G（z）-1））]， ⑷联系我们鉴别器联系我们发生器其中，我们使用l（x）=x2，如[26]的最小二乘GAN（LSGAN）工作中那样密集姿势转移94实验我们在DeepFashion数据集（In-shop Clothes Retrieval Benchmark）[19]上进行了实验，该数据集包含52，712张时装模特的图像，展示了13，029件不同姿势的服装。所有图像都以256×256的分辨率提供，并包含在统一背景上捕获的人物在[5]之后，我们选择了12，029件衣服进行训练，剩下的1，000件用于测试。为了与最先进的基于关键点的方法进行直接比较，我们还删除了[39]的关键点检测器未检测到任何身体关节的所有图像这导致140，110个训练和8，670个测试对。在补充材料中，我们提供了大规模MVC数据集[20]的结果，该数据集由从几个在线购物网站抓取的161，260张分辨率为1920×2240的图像组成，并显示了每个服装项目的前，后，左，右视图。4.1实现细节密集姿态估计器。我们使用一个完全卷积网络（FCN），类似于[1]中用作教师网络的网络。FCN是一个ResNet-101，在COCO-DensePose数据集的裁剪人员实例上进行训练。输出由表示与3D模型的每个语义部分对齐的坐标空间中的身体分段（I）和{U，V}训练参数。我们用Adam optimize z e r训练网络及其子模块，在e2·10−4和β1=0时使用hini i al e arn i g r。5，β2=0。999（现在可以）。对于速度，我们分别预训练预测模块和修复模块，然后在端到端微调整个组合架构的同时训练混合网络;DensePose网络参数保持固定。在所有实验中，批量大小设置为8，训练持续40个epoch。混合步骤中不同损失之间的平衡权重λ（在图1中描述）。3.4）具体地说，λp=1，λp=0。5，λstyle=5·105，λGAN =0。1.4.2评估指标到目前为止，不存在允许从结构保真度和照片逼真度的角度对所生成的图像质量进行充分评估的通用标准因此，我们采用了一些在社区中广泛使用的独立结构和感知指标，并报告了我们在这些指标上的联合表现结构使用感知相关结构相似性度量（SSIM）[40]来评估各代的几何结构。我们还利用其多尺度变体MS-SSIM [44]来估计我们预测的几何形状。从身体结构到精细的服装纹理。图像逼真度。根据以前的工作，我们提供了初始分数（IS）的值[41]。然而，正如文献中反复指出的那样，这种度量与类内对象生成问题的相关性有限，我们不希望从中得出强有力的结论。我们已经经验性地观察到它的不稳定性和高方差方面的感知质量的世代10N. Neverova，R. A. 居尔岛Kokkinos表1.根据结构相似性（SSIM）[40]、初始评分（IS），在DeepFash数据集[19]上与最先进的方法进行定量比较[41]和检测分数（DS）[5]度量。我们的最佳结构模型对应于101损失，最高现实主义模型对应于风格损失训练（见正文和表4）。我们的平衡模型使用损失的完整组合进行训练。模型SSIM是DS[42]第四十二话0.6143.29–VariGAN [43]0.6203.03–G1+G2+D [4]0.7623.09–DSC [5]0.7613.390.966最佳结构（BestStructure）0.7963.170.971最高现实主义（Highest0.7773.670.969平衡（Balanced）0.7853.610.971和结构相似性。我们还注意到，来自DeepFashion数据集的地面真实图像的平均IS为3.9，这表明根据IS度量标准，该数据的真实度较低（作为比较，CIFAR-10的IS为11.2 [41]，最佳图像生成方法实现了8.8的IS [2]）。此外，我们使用检测分数（DS）[5]进行额外的评估，反映世代与人物类别的相似性检测分数对应于PASCAL训练的SSD检测器[45]在所有检测到的边界框上采用的人员类别4.3与最新技术水平的我们首先比较我们的框架的性能，一些最近的方法，ODS提出的关键点引导图像生成或多视图合成的任务。表1示出了我们的流水线在所获得的预测的结构保真度方面的显著优势这适用于整个范围的测试网络配置和训练设置（见表4）。在通过IS表达的感知质量方面，我们模型的输出代具有更高的质量或与现有作品直接可比我们的方法的一些定性结果（对应于表1中的平衡模型）和最佳性能的最先进方法[5]如图所示4.第一章我们还在Amazon Mechanical Turk上进行了一项用户研究，遵循[5]的协议：我们以随机顺序向30名用户展示55张真实图像和55张生成图像，由于[5]的实验是在其他研究人员而不是AMT用户的帮助下完成的，因此我们使用官方公开实现对[5]生成的图像进行了额外的一致性我们进行了三次评估，如表？？现实主义会询问用户图片是真的还是假的。解剖学询问真实或生成的图像在解剖学上是否Pose显示一对目标和生成的图像，并询问它们是否处于相同的姿势。结果（正确性，以%计）表明世代密集姿势转移11目标DSC [4]目标DSC [4]见图4。与[5]的每组显示输入、目标图像、DSC预测[5]、使用我们的完整模型获得的预测。我们观察到，即使我们的布料纹理偶尔不那么清晰，我们也能更好地保留面部、性别和肤色信息。的[5]具有更高程度的感知真实性，但我们的世代显示出改善的姿势保真度和更高的整体解剖合理性概率。4.4不同身体表征为了清楚地测量基于DensePoseTM的调节的有效性，我们首先将“黑盒子”的性能、预测模块与更传统的身体表示（诸如背景/前景掩模、身体部位分割图或身体标志）结合使用时进行比较12N. Neverova，R. A. 居尔岛Kokkinos图五、与密集姿态调节（底部）相比，基于关键点的姿态转移（顶部）的典型失败指示肢体的消失、不连续性、身体的3D几何结构塌陷到单个平面中以及深度排序的混乱表2.论不同身体表征作为姿势转换基础的有效性“密集姿势”（DensePose）表示可产生最高的结构质量。型号SSIM MS-SSIM IS前景掩模0.7470.7103.04身体部分分割0.7760.7913.22主体关键点0.7620.7743.09密集姿势{I，U，V}0.7920.8213.09密集姿势{one-hotI，U，V}0.7820.7993.32作为分割图，我们采用DensePose的索引组件，并使用它将每个像素的独热编码形成一组类特定的二进制掩码。因此，作为背景/前景掩模，我们简单地采用具有正的DensePose分割索引的所有最后，在[5]之后，我们使用[39]来获得身体关键点并对它们进行one-hot在每种情况下，我们通过将源图像与源和目标姿势的对应表示连接来训练预测模块，这导致4个输入平面用于掩模，27个用于分割图，21个用于关键点。表2中所示的相应结果证明了细粒度密集调节相对于稀疏的、基于关键点的表示或粗糙的、基于分割的表示的明显优势。作为对这些定量结果的补充，图5中展示了基于关键点的框架的典型失败案例。我们观察到，这些缺点在很大程度上通过切换到基于密集姿势的条件反射来修复。4.5建筑选择的消融研究表3示出了预测模块、扭曲模块和图像修复自动编码块中的每一个在最终模型性能中的贡献为密集姿势转移13表3.框架各功能块的贡献型号SSIM MS-SSIM IS仅预测模块0.7920.8213.09预测+混合（=自求精）0.7930.8213.10预测+变形+混合0.7890.8143.12预测+变形+修复+混合（完整）0.7960.8233.17图六、不同损失项及其加权组合的训练效果在这些实验中，我们仅使用重建损失L1，排除了由于GAN训练的不稳定性而导致的性能波动。如所预期的，在生成流水线中包括扭曲分支导致更好的性能，这通过在UV空间中包括修复来进一步改进。定性地，利用经修复的表示相对于部分观察到的纹理从源姿态到目标姿态的直接扭曲具有两个优点：首先，其用作融合流水线的附加先验，并且其次，其还防止混合网络生成清晰可见的尖锐伪影，否则这些伪影会出现在部分观察到的纹理段的边界上。4.6监理目标在表4中，我们分析了在训练的最后阶段使用的复合损失函数中所考虑的每个项的作用，同时在图4中提供指示性结果。六、感知损失Lp与图像结构相关性最大，与感知的真实性相关性最小，可能是由于引入的纹理伪影。同时，样式损失L样式产生清晰且正确纹理化的图案，同时在均匀区域上产生幻觉边缘。最后，具有损失LGAN的对抗训练倾向于优先考虑视觉似然性，但通常忽略输入中的结构信息。如表4最后一项所示，这证明了将所有这些补充监督标准结合使用是合理的。14N. Neverova，R. A. 居尔岛Kokkinos表4.在训练的最后阶段使用的不同损失术语的比较感知损失与结构最相关，风格损失与IS最相关。组合模型提供了极端解决方案之间的最佳平衡。型号SSIM MS-SSIM IS{L1}0.7960.8233.17{L1，Lp}0.7910.8223.26{L1，Lstyle}0.7770.8153.67{L1，Lp， Lstyle}0.7840.8203.41{L1，LGAN}0.7710.8073.39{L1，Lp，LGAN}0.7890.8203.33{L1，Lstyle，L GAN}0.7870.8203.32{L1，Lp，Lstyle，LGAN}0.7850.8073.615结论在这项工作中，我们引入了一个双流架构的姿态转移，利用密集的人类姿态估计的权力我们已经表明，密集的姿态估计是一个明显优越的条件信号数据驱动的人体姿态估计，也有利于制定的姿态转移问题，在其自然，身体表面参数化，通过修复。在未来的工作中，我们打算进一步追求这种方法用于真实感图像合成的潜力[2，6]以及更多类别的治疗引用1. Guler，R.A.，Neverova，N.科基诺斯岛：密度：野外密集的人体姿势估计。在：CVPR中。（2018年）2. Karras，T.，Aila，T.萨穆利湖Lehtinen，J.：gans的渐进生长提高了质量、稳定性和变化性。In：ICLR.（2018年）3. Lassner，C. Pons-Moll，G.，Gehler，P.V.：穿着衣服的人的生成模型。In：ICCV. （2017年）4. 马，L.，Jia，X.，太阳，Q.，Schiele，B.，Tuytelaars，T.，Van Gool，L.：姿势引导人物形象生成。在：NIPS。（2017年）5. Siarohin，A.，Sangineto，E.，Lathuiliere，S.，Sebe，N.：用于基于姿态的人体图像生成的可变形gans。在：CVPR中。（2018年）6. 陈昆，Koltun，V.：具有级联细化的摄影图像合成网络. In：ICCV. （2017年）7. Wang T.C. Liu，M.Y. Zhu，J.Y.，Tao，A.，Jan，K.，Bryan，C.：基于条件gans的高分辨率图像合成与语义处理。在：CVPR中。（2018年）8. Rossler，A.，Cozzolino，D.，韦尔多利瓦湖里斯角Thies，J. Niener，M.：面部 - 法医：人脸伪造检测的大规模视频数据集。在： arXiv ：1803.09179v1中。（2018年）9. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，翁，W.，Webb，R.：通过对抗训练从模拟和无监督图像中学习。在：CVPR中。（2017年）密集姿势转移1510. Lample ， G. Zeghidour ， N. ， Usunier ， N. ， Bordes ， A. ，德诺耶湖Ranzato，M.：衰减器网络：通过滑动属性操作图像。在：NIPS。（2017年）11. Shu，Z.，Yumer，E.，Hadap，S.，Sunkavalli，K.，Shechtman，E.，萨马拉斯，D.：具有内在图像解缠的神经人脸编辑。在：CVPR中。（2017年）12. Isola，P.，Zhu，J.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR中。（2017年）13. Loper，M.，Mahmood，N.，Romero，J. Pons-Moll，G.，布莱克，M.J.：SMPL：一个多人皮肤线性模型。ACM Trans. Graphics（Proc. SIGGRAPHAsia）34（6）（2015年十月）248：1- 248：1614. Bogo，F.，Kanazawa，A.，Lassner，C.Gehler，P.Romero，J.布莱克，M.J.：Keep it smpl：从单个图像自动估计3d人体姿势和形状In：ECCV.（2016年）15. Lassner，C. Romero，J. Kiefel，M.，Bogo，F.，布莱克，MJ Gehler，P.V.：团结人民：关闭3D和2D人类表现之间的循环In：ICCV.（2017年）16. Varol，G.，Romero，J.马丁，X. Mahmood，N.，布莱克，MJ拉普捷夫岛Schmid，C.：向人造人学习在：CVPR中。（2017年）17. Kanazawa，A.，布莱克，MJJacobs，D.W.Malik，J.：端到端恢复人体形状和姿势。在：CVPR中。（2018年）18. Guler，R.A.，Trigeorgis，G.，Antonakos，E.，斯内普，P.，Zafeiriou，S.，科基诺斯岛：Densereg：完全卷积的密集形状回归。在：CVPR中。（2017年）19. 刘志，Luo，P.，Qiu，S.，王，X.，唐X：Deepfashion：通过丰富的注释实现强大的在：CVPR中。（2016年）20. Liu，K.H.，Chen，T.Y.，Chen C.S.：用于视图不变服装检索和属性预测的数据集In：ICMR. （2016年）21. 辛顿通用电气Salakhutdinov，R.R.：用新的工作方法降低数据的维数。Science313（5786）（2006）50422. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。 In：ICLR. （2014年）23. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。（2014年）24. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。In：ICLR. （2016年）25. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：艺术风格的神经算法。在：CVPR中。（2016年）26. 毛泽东，李，Q.，谢，H.，Lau，R.Y.，王志，Smolley，S.P.：最小二乘生成对抗网络。In：ICCV. （2017年）27. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络在：ICML。（2017年）28. Johnson，J.，Alahi，A.，Li，F.F.：实时风格转换和超分辨率的感知损失。In：ECCV. （2016年）29. Ulyanov，D.，Lebedev，V.，Vedaldi，A.，Lempitsky，V.：纹理网络：纹理和风格化图像的前馈合成。在：ICML。（2016年）30. Zhu，S.，Fidler，S.，Urtasun河Lin，D. Loy，C.C.：做你自己的Prada：具有结构连贯性的时尚综合。In：ICCV. （2017年）31. Zhao，B.，Wu，X.，中国农业科学院，Cheng，Z.Q.，刘洪，Feng，J.：从单视图生成多视图图像。在：ACM多媒体会议。（2018年）32. Pathak，D. ，Krahenbul，P.，别这样，杰，达瑞尔，T.， Efros，A.A. ：C〇ntexten-coders：通过修复进行特征学习。在：CVPR中。（2016年）33. 是的，R.A.，陈春，Lim，T.，Hasegawa-Johnson，M.，做，M.N.：具有感知和上下文损失的语义图像修复。在：CVPR中。（2017年）16N. Neverova，R. A. 居尔岛Kokkinos34. 斋藤，S.，韦湖，加-地胡，L.，Nagano，K.Li，H.：使用深度神经网络进行真实感面部纹理在：CVPR中。（2017年）35. Deng，J.，郑，S.，Xue，N.，Zhou，Y.，（1996年），中国科学院，Zafeiriou，S.：UV-GAN：用于姿态不变人脸识别的对抗性在：CVPR中。（2018年）36. Ulyanov，D.，Vedaldi，A.，Lempitsky，V.：改进的纹理网络：在前馈风格化和纹理合成中最大化质量和多样性在：CVPR中。（2017年）37. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。在：NIPS。（2015年）38. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。In：ICLR. （2015年）39. Cao，Z.，Simon，T.魏，S.，Sheikh，Y.：利用局部相似场进行多人2d实时姿态在：CVPR中。（2017年）40. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。在：提示。（2004年）41. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：改进的gans训练技术。在：NIPS。（2016年）42. 马，L.，太阳，Q.，Georgoulis，S.，凡古尔湖Schiele，B.，Fritz，M.：分解的人物形象生成。在：CVPR中。（2018年）43. Zhao，B.，Wu，X.，中国农业科学院，Cheng，Z.Q.，刘洪，Feng，J.：从单视图生成多视图图像。在：ACM多媒体会议。（2018年）44. 王志，Simoncelli，E.P.，Bovik，A.C.：多尺度结构相似性图像质量评价。见：ACSSC。（2003年）45. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。In：ECCV. （2016年）

下载后可阅读完整内容，剩余1页未读，立即下载