VariTex：学习神经人脸纹理的变分模型

157 浏览量更新于2023-10-15 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13890VariTex：变分神经人脸纹理马塞尔·CBu¨hler1Abhimitra Meka2Gengyan Li1，2Thabo Beeler2Otmar Hilliges11苏黎世联邦理工学院2谷歌https://mcbuehler.github.io/VariTex图1. VariTex将个人特定的神经纹理推广到变分纹理。这允许通过明确的3D几何形状来控制姿势和表情（图1）。3）和采样新的身份（图。（五）。我们的方法在精细的头部姿势和表情控制下生成图像，同时在这些参数的大范围内保持几何一致性（图1）。4和Tbl. 2）的情况。摘要深度生成模型可以合成具有新颖身份的人脸的照片级真实感图像。然而，对这种技术的广泛适用性的关键挑战是提供对语义上有意义的参数的独立控制：外观、头部姿势、面部形状和面部表情。在本文中，我们提出VariTex -据我们所知，第一种方法，学习神经人脸纹理的变化的潜在特征空间，它允许采样的新身份。我们结合这个generative模型与参数人脸模型，并获得explicit控制头部姿势和面部表情。为了生成完整的图像的人的头部，我们提出了一个添加剂的解码器，增加了合理的细节，如头发。一种新的训练方案实施姿态独立的潜在空间，因此，允许学习潜在代码和姿态调节的外部区域之间的一对多映射。由此产生的方法可以生成几何一致的图像的新身份下细粒度控制头部姿势，面部形状，面部表情。这促进了广泛的下游任务，如采样新身份，改变头部姿势，表达转移等。1. 介绍生成具有用户控制的参数（诸如身份特定的外观、姿势和表情）的图像的能力将在计算机图形学和视觉中具有许多应用最近，通过深度生成对抗网络[17，23，24]或变分自动编码器[26]，可以合成新人脸的真实感图像，这些网络可以学习真实人脸的分布以生成新的身份。然而，这样的方法通常不提供对形状、姿势和面部表情的语义控制这导致跨不同生成的图像的不期望的全局外观改变，例如，当从不同角度观看时身份的改变。为了获得对生成的图像的更多控制，最近的工作条件神经网络显式3D几何形状[12，16，25，27，41，42，43]。通过首先从学习的潜在空间生成2D人脸图像，然后尝试以几何一致的方式使用图形技术对其进行装配，已经显示出有希望的结果[41，42]。这种方法具有固有的缺点：由于仅在2D空间中执行图像合成，因此难以在3D操作下加强一致性。在训练时通过来自单目视频的多视图图像或多姿态数据的强监督可以在一定程度上缓解这一点然而，固有的2D na-13891解决方案的真实性阻碍了用于新颖测试姿势、视图和表情的真正3D一致的解决方案。当合成位于训练数据分布之外的姿势和表情时，这个问题尤其明显（图1）。4）.为了增加几何忠实性，最近的工作已经尝试学习3D中的面部分布，例如通过利用神经纹理来表示纹理空间中的3D场景[32，43，44]。特别是当从视频训练时，已经示出了用神经纹理渲染3D几何形状以针对多个姿势和表情产生高度一致的输出，尽管代价是必须学习每个主体的纹理。我们的工作将特定于主题的神经纹理[18，43，44]推广到变分神经纹理，从而实现新身份的几何感知合成（见图11）。1和5）。神经纹理将3D表面的外观表示为2D特征图。与之前的作品相比，这些作品是按主题训练的，变分神经纹理不需要以多视图图像或分钟长的视频序列作为每个身份的输入的形式进行强有力的监督。相反，它们是通过从神经面部纹理的潜在分布中采样而生成的。重要的是，这个潜在的空间是在一个自我监督的计划，从单目RGB图像学习，而不需要任何注释。我们使用参数化人脸模型[1]与可微分渲染器相结合，以提供对人脸形状、头部姿势和面部表情的细粒度控制。这足以生成在姿势和表情上保留主体身份的面部内部，但不对其他重要细节（诸如耳朵、头发和嘴部内部）进行建模。为了获得人类头部的完整图像，我们提出了一种姿态感知的加法解码器，其生成视觉上合理的细节（例如，面部毛发）。我们设计了一种新的训练机制，其允许加性解码器学习一对多映射，并且因此从相同的潜在代码生成以不同的头部姿势为条件的外部面部区域①的人。我们提出了VariTex：Variational Neural FaceTextures--一种对新身份进行采样并以多种姿势和表情合成一致面孔的方法（图10）。1和3）。我们展示了几何控制的最新技术水平（SoA）照片级逼真结果（图1）。3），新颖的身份图像合成（图.5），和新的姿态合成（图。1和4）。我们的方法实现了更高的视觉身份一致性比相关的工作（图。4）.定量地，我们通过SoA面部识别网络[11]（Tbl.2）的情况。最后，我们进行了一项用户研究（第二节）。5.3），其中参与者评级为一致性构成的脸和整体照片的现实主义。总之，我们做出以下贡献：1. VariTex，第一种用于学习神经人脸纹理的变分潜在特征空间的方法-允许对新身份进行采样。2. 将学习的面部纹理的生成能力与参数化面部模型的显式控制相结合，使得能够对面部表情、头部姿势、面部形状和外观进行细粒度控制。3. 我们为没有3D几何形状可用的困难区域（例如，头发、耳朵和口腔内部）。4. 我们表明，我们的方法是更一致的几何变换下。2. 相关工作我们简要回顾了人脸图像合成的相关工作，特别是那些利用微分渲染和神经纹理。姿态无关采样纹理新恒等式UV-GAN [9]RGB×DNR [44]神经×NVP [43]神经×[27]第27话GIF [16]×✓DiscoFaceGAN [12]我们的神经✓表1.最密切相关方法的概述。基于纹理渲染的方法不被设计为对新的标识进行采样[9，43，44]。更通用的合成方法[12，16，27]在大的姿态变化下遭受不一致性（图12）。4和Tbl. 2）因为它们不提供对面部区域的纹理级控制。我们提出了一个框架的基础上变分神经纹理，可以做到这两点。高质量的面部合成。用于合成自然图像的大多数现代方法利用生成对抗网络（GAN）[17]或变分自动编码器[26]。这些方法已经实现了高水平的光真实性[2，7，8，23，24，31，34，46]。通常，这样的方法学习使用卷积神经网络从低维潜在空间映射到2D面部图像的然而，这些潜在的空间往往纠缠外观和几何[23，24]，使新的姿势或表情合成非常困难。最近的工作开始解开潜在空间并添加越来越多的控制[4，12，14，16，22，27，39，41，42]，例如，通过统计面部模型[1]作为强先验[12，16]来学习解开神经辐射场[30]已显示出渲染非常高质量的面部[13，19，33]。然而，它们的生成变体[3，36]仍然缺乏对表达的控制。总之，具有艺术控制的真实感人脸的生成建模仍然是一个困难的挑战。差异化渲染。通过设计将外观与几何和姿势分开的另一种方法是学习UV空间中的外观[9，18，29，32，38，43，44]。方法13892∈∈∈∈传统的计算机图形渲染流水线需要非常详细的3D几何形状，这是非常昂贵的获得。最近，Thies et al.建议延迟神经渲染[44]。延迟神经渲染展示了深度神经网络如何补偿不完美的3D几何形状并渲染高度照片般逼真的图像。这些方法的关键组成部分是神经纹理。他们没有在预定义的颜色空间中使用传统的纹理，而是利用神经特征的力量来描述纹理。与基于神经纹理的相关工作不同[32，44]，我们的模型是完全生成的，并允许对新身份进行采样。Thies等人[44]训练特定于人模型和Raj等人。[32]从视频中优化我们的模型仅从单眼图像进行训练。面部神经纹理使用神经纹理的先前方法[43，44]从多视图图像或视频学习特定于人的纹理。给定目标每个人的足够数据，它们能够实现在训练期间看到的面部表情的逼真动画高表达保真度和图像质量是以紧密耦合的神经纹理和渲染为代价的此外，训练每个场景的神经纹理需要目标人的多个视图或分钟长的序列在神经纹理的进化中，一个有趣的挑战是将它们推广到单个图像和新的身份。为此，我们框架的问题作为一个变分神经纹理生成任务，其次是一个纹理到图像的翻译任务。这将纹理和图像生成器推广到不可见的身份，给出对头部姿势和面部表情的细粒度控制，并且所生成的图像在这些参数的操纵下保持一致3. VariTex：变分神经纹理3.1. 概述我们解决的问题，控制新的身份合成的面孔，目的是解开姿态和表情的外观。为了做到这一点，我们通过学习可以映射到神经纹理空间的身份上的分布，将特定于人的神经纹理[43，44]推广到变分这允许生成无限数量的神经纹理，其可以被映射到具有任意姿势和表情的面部几何形状上。我们的方法的核心是一个神经纹理解码器，它通过神经渲染以自监督的方式进行训练。解码器学习生成遵循由3D可变形人脸模型的UV参数化给出的预定义布局的神经纹理[15]，然后投影到图像空间并渲染为RGB图像。直观地说，我们的网络可以呈现极端的姿势，尽管在很大程度上是在正面图像上训练的，因为神经网络可以呈现极端的姿势。纹理投影提供空间对准的特征。这种神经渲染网络已被证明可以推广到训练期间看不到的姿势[44]。3.2. 问题陈述我们的目标是学习生成器Gθ，该生成器G θ从身份zR d z的潜在描述和形状αRdα、表达式βRdβ的控制信号中生成面部图像I和e背景面具M 和头部姿态R SO（3）. 给定身份z和对应形状α的代码，生成器应该合成一致的图像，这些图像在不同的表情β和姿势R上保持面部身份。公式1总结了我们的问题陈述：（I，M）=Gθ（z，α，β，R）.（一）z上的分布是从大量的单目人脸图像中学习的形状α和表情β是基于PCA的3D可变形面部模型[1]的系数，从3D扫描的集合中学习[15]。姿态R是3D旋转矩阵。虽然我们也训练了一个图像到潜在空间的编码器，但我们强调这更多的是一个副作用。我们的主要目标是学习潜在的空间，新的identi- ties可以采样和几何控制下渲染，而不是生成现有的身份的新观点。3.3. 体系结构概述图2总结了我们的方法。在训练过程中，我们使用单目RGB图像来学习人脸外观的底层空间。这是在变分自动编码器（VAE）框架[26]中完成的，其中编码器学习将输入面部图像映射到正常分布的参数。然后可以对这些参数进行采样以生成由VariTex生成器Gθ解释的潜在代码。我们在第二节中描述了我们的培训计划。三点五与VAE [26]的传统解码器不同，Vari-Tex生成器以几何感知的方式合成面部图像我们使用具有一致拓扑结构的参数化人脸模型来将任何人脸的3D几何形状映射到2D纹理布局。该2D纹理空间用作可以生成新颖身份的特征图的域然后，面部模型用于在任何期望的姿势和表情下将所生成的神经纹理从该布局重新投影到输出图像空间我们在第2节中更详细地描述了该过程。三点四分。纹理布局只能处理面模型中存在的面几何体我们使用一个addi- tional网络的添加剂解码器-生成的外部区域，如头发，耳朵，嘴内部的功能。最后，神经渲染器将神经特征转换为RGB图像和看似合理的前景遮罩。完整的生成过程在第2节中详细描述。三点四分。13893N∈∈N∈图2.我们的流水线的目标是学习生成器Gθ，该生成器可以合成具有任意新颖身份的面部图像，其表情和姿势可以使用面部模型参数α，β和R来控制（图3）。在训练过程中，我们使用未标记的单目RGB图像（I）使用变分编码器学习自然人脸外观的平滑潜在空间（µz，Σz）。然后将从该空间采样的潜在代码z解码为新的面部图像。在测试时，我们绘制样本以生成新的人脸图像（图1）。（五）。我们的变分生成的神经纹理也可以在风格上插值生成中间身份（补充材料）。3.4. VariTex发生器本节介绍VariTex发生器的组件。该生成器由两个解码器和一个Feature2Image渲染网络组成。解码器产生所需输出的神经描述-神经特征图像。Feature2Image网络将这些特征转化为RGB图像和相应的前景蒙版。生成器允许a）通过对潜在代码z和形状系数α进行采样来生成新的身份，以及b）操纵表达式β和姿态R。用于身份的潜码zR256可以从学习的分布（μz，Σz）中采样或从参考图像中提取。它被分成两半：z 面R128 对于面部内部区域，z加性R128用于面部模型外部的区域（例如，头发）。面部纹理解码器将面部z面部的潜在代码头部其余部分的潜在代码z加性被加性解码器处理成面部其余部分的特征。形状α和表情β的系数可以从通过3D模型拟合[15]从参考图像提取的分布中采样，或者手动指定，这允许艺术控制。面部纹理解码器。面部纹理解码器是经修改的ResNet-18 [20]，其中我们将潜在代码z面部扩展到空间特征图，并沿通道维度堆叠它们。特征图在一系列上采样和残差块中被处理到期望的纹理尺寸。输出是姿势和形状独立的多-UV空间中的三维特征映射，我们称之为神经纹理。我们在辅助材料中提供了详细的结构。UV渲染和纹理采样。为了将纹理投影到图像平面上，我们使用具有UV参数化的3D可变形面部模型[15]。给定形状α、表达式β和旋转矩阵R的模型系数，我们计算所设定的网格。然后，我们将UV参数化投影到图像空间，遵循标准的计算机图形管道，并使用它来从神经人脸纹理中采样特征。该步骤的输出是神经面部特征图像Fface。加法解码器。面部纹理解码器仅针对面部区域产生神经纹理。加性解码器为面部模型中缺失的区域添加特征，例如，头发或口腔内部。这是一项非常具有挑战性的任务，因为即使对于极端的头部姿势，所添加的区域的形状和外观也应该是一致的因此，加性请参阅Sec。3.5和补充材料中了解更多细节。我们的条件下的附加解码器上的潜在的描述身份z添加剂和神经人脸特征图像F脸。潜在代码z添加剂被扩展到空间特征图（类似于面部纹理解码器）并在一系列ResNet层中放大[20]。在每个块中，我们将重新缩放的面部特征图像连接为对几何形状和姿势的调节。加性纹理解码器的输出是加性纹理。传奇学过的DETERM训练块损失损失图形控制神经控制VariTex发生器Gθ输入模型沿通道连接切片通道副本模型拟合z面跳过连接LM神经纹理人脸特征图像F面前景掩模M地面实况面具M输入图像我z加性LKLL2Feature2图像渲染器LVGG仿射变换ALD加性特征图像F添加剂输出图像我地面实况图像A（I），确定性了解到分割编码器N（z，z）UV投影人脸纹理解码器仿射变换A加法解码器样品投影UV13894∈∈∈N∼|·adv22ΣM·HWIJ为了学习正确的前景掩模，我们监督形状、表情和身份。其中交叉熵损失项Lm：Feature2图像网络。 VariTexHW的最后一步生成器的流水线是将特征图像转换为F面和F添加剂RGB输出图像。Feature2图片L=−1ΣΣMlogM我 J网络将堆叠的要素图像转换为RGB图像和前景掩模。与[43，44]类似，Fea-ture 2 Image网络是一个U-Net [35]。3.5. 培训与需要多视图图像或视频形式的强大超级视觉的现有方法相比，我们仅在未配对的单目RGB图像上进行训练。编码器。在训练过程中，我们学习一个潜在空间z（µz，Σz）。ResNet-18 [20]编码器获取前景掩蔽的RGB 图像，并预测平均值 µzR256 和对角协方差ΣzR256×256，从中我们采样潜码zR256并进一步处理，如第2节所述。三点四分。+（1−Mi j）（1−logMij）。我们使用Kullback-Leibler正则化项来平滑潜在空间LKL=DKL（q（z|I）||p（z）），⑷其中q（z）是由编码器预测的分布，并且p（z）是标准高斯分布[26]。为了鼓励现实主义，我们采用具有特征匹配的双尺度补丁判别器D[31对抗性发电机损失项为Ladv=（1 −D（I））2+Σ||D（I||第1条，第（5）项J J扩增方案。而参数化人脸模型j允许几何一致的合成的脸在-对于没有3D几何图形可用的面外部，对面外部做同样的处理更具挑战性。通过重构训练的变分自动编码器[26]将简单地学习复制这样的区域（例如，头发）进入相同的空间位置。其中函数Dj（）e从鉴别器网络提取第j个特征图。发生器和鉴别器的最终损耗为：L生成器=λ2L2+λV GGLV GG+λMLM为了解决这个问题，我们采用了一种增强+λKLLKL+λadvLadv，（六）该方案将我们的输入图像I映射到变换后的输出图像A（I）。映射A由随机仿射L鉴别器=λ1ΣD（I）2+（1−D（A（I）2Σ。变换：平面内旋转、平移、缩放和翻转平. 结果，引导加性解码器学习一对多映射-相同的潜在码z加性必须产生不同的加性特征图像，这由来自面部特征图像的姿势和几何形状确定。请参见图2中的一个可视化的例子和补充更多的细节。目标函数每个训练样本由前景掩蔽的训练图像I、其仿射变换版本A（I）、地面实况分割掩模M（I）和前景掩蔽的训练图像I（I）组成。是─渴望A（I），以及它们相应的重构I而M？We将空间维度表示为H和W。对于自监督重建，我们采用光度量L2损失项和感知损失项LvGG：L2=I−A（I）2，我们根据经验选择λ2= λM= λadv= 1，λVGG=2，并且λKL= 0。1 .一、有关更多培训详情和超级参数，请参阅补充材料。4. 实验装置数据和预处理。我们在来自Flickr-Faces-HQ数据集（FFHQ）的人脸图像上训练我们的方法[23]。为了训练，我们离线拟合巴塞尔人脸模型[15]。在九种情况下，模型拟合失败（<0. 02%）。我们从训练集中删除这些图像，最后得到59，991个训练样本和10，000个测试样本。我们在补充材料中可视化移除的图像。我们的目标是生成具有相应前景掩模的图像。为了得到伪地面实况，我们训练LVGG=vjJVGGj （I）− VGGj （A（I））1，2在CelebAMask-HQ [28]上使用最先进的面部分割网络[5，6]并离线预测分割图。请参阅补充材料，以了解-其中函数VGGj（）从预训练的VGG网络中提取第j个特征图[10，40]，并且vj是每个特征图的权重（在补充中列出）。尾身份一致性度量。为了评估身份一致性，我们从嵌入中IJ（三）13895±∼--图3.在表情和姿势控制下呈现两个身份第1列从中性姿势和表情开始。第2列和第3列通过图形控制单元改变表情和姿势（图2）。2）的情况。对于第4列和第5列，我们使用来自真实参考图像的表情和姿势来渲染面部。顶行示出了对应的面网格和参考图像。最先进的人脸识别网络[11]。对于每种相关方法，我们使用正面头部姿势渲染3，000个身份并计算其嵌入[11]。然后，我们将相同的恒等式重新放置到不同的程度，并计算归一化嵌入之间的余弦相似性。作为读者的参考，我们提供了真实世界多视图数据集的相似性[45]。真实世界的数据集包含具有轻微非正面姿势（约7◦）的面部，因此，我们使用两个最正面的面部的平均嵌入用于正面姿势。5. 结果和讨论本节讨论我们的控制面合成的结果节中 5.1，我们展示了渲染不同几何形状和姿势的定性结果（图5.1）。3）和采样新的身份（图。（五）。在第5.2节中，我们对两者进行了定性比较（图1）。4）和定量（Tbl.（2）相关工作。在第5.3节和第5.4节中，我们进行了用户和消融研究。在第5.5节中，我们讨论了局限性和未来的工作。5.1. 定性结果控制几何体和姿势。VariTex可以采样新的身份，并为不同的几何形状和姿势生成一致的图像图3示出了对两个身份的顺序编辑。我们从正面姿势和中性表情开始（第1列）。我们使用图形控制单元（图2）改变表情和姿势（第2列和第3列）。顶行显示相应的面网格。也可以从参考图像中提取图形控制单元的参数（列4和5）。我们的方法在操作中保持了高度的一致性。取样和鉴别混合。虽然以前的工作仅限于特定于人的面部纹理[43，44]，但VariTex可以通过在潜在空间中进行采样来生成新身份的纹理（图2）。2）的情况。在图5中，我们从测试集中抽取了恒等式j的新变体zjN（µzj，Σzj）。还可以在两个潜在码之间进行内插。我们在补充文件和视频中展示了这些例子5.2. 身份一致性使用带纹理的3D几何体的一个关键好处是，即使对于极端的头部姿势，它们也允许高度一致的渲染。我们的方法利用了从纹理到图像空间的严格映射（Sec.第3.4段）。这有助于渲染极端姿势的身份特定的面部外观我们在补充中可视化训练集和分布外样本的头部姿势分布。我们在图1中直观地比较同一性一致性。4.第一章相关作品[12，16，27，41]实现了正面面部高度一致和照片般逼真的结果，姿势高达30◦（俯仰）和15◦（偏航）。对于更极端的姿势，它们往往会显示严重的伪影[12，16，41]或模糊的结果[27]。对于StyleRig[41]，我们仅显示定性结果，因为我们只有少数样本图像可用。对于其他方法[12，16，27]，我们生成3000个样本，并通过使用同一性一致性度量计算相似性得分来进行定量比较（第12，16，27节）4）. TBL.2列出了所得到的相似性得分（越高越好）。我们的方法实现了最高的相似性，除了对于所评估的姿势之一。5.3. 用户研究我们进行了一项感知用户研究，将我们的方法与三种最先进的技术进行比较，用于沿两个维度进行受控面部图像合成[12，16，271. 由这些方法产生的照片写实主义的一般质量，用于从正面姿势在[45◦，45◦]范围内随机变化的图像。Participants回答了20个随机选择的图像对的以下问题：这两张照片，哪一张看起来更像真人？2. 在3个不同姿势合成的相同身份的三个图像的身份一致性：正面姿势，-45◦和45◦度沿偏航和俯仰轴。每个用户都会看到10对随机选择的由我们和相关作品生成的三重图像。我们问：哪一个集合更一致地表示同一个人？该调查共有128名参与者。我们的方法是在照片写实主义方面，并明显优于竞争的身份一致性标准的基线。在下文中，我们报告了每个相关工作与我们的工作的成对比较的用户研究结果13896↔图4.与相关工作比较。GIF [16]，ConfigNet [27]和DiscoFaceGAN（DFG）[12]实现了令人印象深刻的视觉质量，用于重新设置面部，但距离正面姿势只有15◦。StyleRig [41]渲染真实感输出，但无法渲染强姿势变化，而是回落到较小的姿势变化值，例如在+45◦情况下所见。我们的技术是能够合成更极端的姿态，同时保持高度的身份一致性与正面图像。方法-45◦-30◦相似偏航-15◦0◦15◦30◦45◦-45◦-30相似螺距-15◦0◦15◦30◦45◦0.039表2.不同头部姿势的身份一致性。我们比较了3,000个正面面孔（0◦）与随机抽样的表情及其各自的姿势变体。分数表示计算为来自最先进的人脸识别网络的归一化嵌入之间的点积的相似性[11]（越高越好）。底行（Ref）是对真实世界多视图数据集的引用[45]。有关视觉比较，请参见图10。4.第一章对于照片写实主义， 10% 的参与者投票赞成ConfigNet [27]，35%的人更喜欢GIF [16]，50%的人选择了DiscoFaceGAN [12]。对于身份一致性，0%的参与者更喜欢ConfigNet或GIF而不是VariTex; 8%的参与者更喜欢DiscoFaceGAN。我们提供的结果对其他构成随机选择的例子im-补充文件中的调查年龄。5.4. 消融研究我们分析了消融研究中神经纹理的影响。我们模拟一个传统的RGB纹理限制的纹理3维，并施加额外的控制。↕[27日][16个][12个]0.2080.1330.5300.5090.2640.6900.7900.4850.866---0.7950.4870.8630.5150.2570.6750.2570.1170.521≤00.2700.0140.1640.4610.4590.4000.781---0.4760.4480.8260.0950.1910.581≤00.0950.388LLL3L2c=1图5.取样新身份。每一行从所学习的潜在分布中采样以生成身份的变体请注意，表情和姿势高度一致。变体FID↓一致性（偏航）↑三维纹理，LRGB54.27 0.712± 0.1233-暗纹理w/oLRGB47.87 0.684± 0.13216-dim withLRGB37.96 0.724±0.11916-dim w/oLRGB（Ours）34.35 0.727±0.121表3.消融研究。我们比较了神经纹理与RGB纹理的照片现实主义（FID [21，37]）和身份一致性更高维度的神经纹理可以产生真实感输出，同时还保持高一致性。我们在补充材料中提供了详细的消融结果和可视化示例。使纹理类似于经典RGB纹理：补充材料，我们提供额外的结果和进一步的消融。5.5. 局限性和未来工作所提出的架构允许在训练分布之外然而，我们观察到在超过60◦ 的非常极端的姿势下性能显著下降。此外，面部内的刚性对象由于透视投影而失真，例如，当重新摆出一张戴眼镜的脸我们在补充材料中展示了这两种情况的示例对这项工作的可能扩展可以生成包括背景和躯干的完整图像，并进一步解开潜在的身份空间。6. 结论我们介绍VariTex-a神经人脸纹理生成模型。VariTex框架提供了采样新的身份，同时控制姿势和几何形状。以前的作品在任何一项任务中都表现出色;我们的框架产生了新的身份，并使他们在一个显着更大的范围内控制的姿势和表情。我们的方法实现了这一点，通过学习syn-thesize任意姿态独立的神经纹理从潜在的代码，从分布，从单目人脸图像的完全自我监督的计划学习采样。然后，神经纹理被渲染到具有任何期望的姿势和表情的图像。我们的方法还始终生成具有挑战性的面部外部区域，如头发，耳朵和嘴内部。我们证明了LRGB=1Σ3||二、||2.变量F表示特征图像（图1B）。2）和A（I）表示经掩蔽的仿射变换的训练图像（如在第2节中所描述的）3.5）。下标c = l，… 3表示三个RGB通道。我们训练四种组合：a）具有RGB的3维纹理，b）不具有RGB的3维神经纹理。RGB，c）16维纹理RGB和d）没有RGB（我们的）的16维神经纹理表3比较了照片真实感（FID [21，37]）和头部姿势的身份一致性（如第2节所述）。5.2）。一致性分数是所有姿势的平均值和对应的标准偏差。请注意，FID是在掩蔽到前景的图像上计算的，这些值不能直接与使用背景的相关作品进行比较。三维纹理产生较低的一致性，并且所生成的图像显示伪影-主要在困难区域（如眼睛）中可见结果表明，我们的网络受益于神经纹理的更高表现力。FID分数表明高维纹理提高了真实感。在和感性分析。我们还确定了局限性并讨论这一领域的各种可能性资金的确认和披露。我们感谢张旭聪、埃姆雷·阿克桑、托马斯·朗格拉克、陈旭、穆罕默德·沙赫巴兹、维尔科·韦切夫、李跃和阿尔温德·索马森达拉姆的贡献。我们还要感谢Ayush Tewari提供的StyleRig视觉效果。该项目已获得欧洲研究委员会（ERC）根据欧盟地平线2020研究和创新计划资助协议第717054号的资助我们的方法通过定性，定量，13898引用[1] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。二、三[2] MarcelCBuhle r，Andr e'sRomero和RaduTimofte。Deepsee：深度解缠语义探索极端超分辨率。2020年亚洲计算机视觉会议论文集二个[3] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，和戈登·韦茨坦pi-gan：周期性隐式生成对抗网络用于3D感知图像合成。在IEEE/CVF计算机视觉和模式识别会议的论文集，第5799-5809页，2021年。二个[4] Anpei Chen，Ruiyang Liu，Ling Xie，Zhang Chen，HaoSu，还有俞静怡。一个动态风格的肖像图像生成器. ACM事务处理图表，41（1），2021. 二个[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy和Alan L Yuille。Deeplab：使用深度卷积网络、 atrous 卷积和全连接 crfs 进行语义 IEEETransactionsonPatternAnalysisandMachineIntelligence，40（4）：834-848，2017。五个[6] LiangChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy和Alan L.尤尔。重新思考语义图像分割的混沌卷积。IEEE Transactions on Pattern Analysis andMachine Intelligence，2018。五个[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，金成勋和朱在古Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。二个[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-Woo Ha.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页，2020年。二个[9] 邓建康，程世阳，薛念南，余翔Zhou和Stefanos Zafeiriou. UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在IEEE计算机视觉和模式识别会议论文集，第7093-7102页，2018年。二个[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。五个[11] 建康邓小平说，贾郭、念南薛、关于StefanosZafeiriou. Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页二六七[12] Yu Deng，Jiaolong Yang，Dong Chen，Fang Wen，andXin童三维模拟对比学习之解纠缠与可控人脸影像产生。在IEEE计算机视觉和模式识别，2020年。一、二、六、七[13] Guy Gafni Justus Thies Michael Zollhofer和Matthias尼斯纳用于单目4d面部化身重建的动态神经辐射场。IEEE/CVF论文集计算机视觉和模式识别会议，第8649-8658页，2021年。二个[14] Stephan J Garbin，Marek Kowalski，Matthew Johnson，and杰米·肖顿合成渲染的人脸图像的高分辨率零激发域在European Conference on Computer Vision中，第220-236页。Springer，2020年。2[15] Thomas Gerig，Andreas Morel-Forster，Clemens Blumer，BernhardEgger ， MarcelLuthi ， SandroSchönborn ，andThomas Vetter.可变形人脸模型-一个开放的框架。2018年第13届IEEE自动人脸手势识别国际会议（FG2018），第75IEEE，2018年。三、四、五[16] Partha Ghosh ，Pravir Singh Gupta，Roy Uziel ，AnuragRan-Jan，Michael J.布莱克和蒂莫·博尔卡特。GIF：生成可解释的面孔。在3D视觉国际会议（3DV），2020。一、二、六、七[17] Ian J Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，BingXu ， David Warde-Farley ， Sherjil Ozair ， Aaron CCourville，and Yoshua Bengio.生成性对抗网。在NIPS，2014。一、二[18] Artur Grigorev，Karim Iskakov，Anastasia Ianina，RenatBashirov ， Ilya Zakharkin ， Alexander Vakhitov ， andVictor Lempitsky. 风格人物：一个全身人体化身的生成模型。在IEEE/CVF计算机视觉和模式识别会议论文集，第5151- 5160页，2021年。二个[19] 郭宇东，陈克宇，梁森，刘永进，胡军Bao和Juyong Zhang。Ad-nerf：用于说话头部合成的音频驱动神经辐射场在IEEE/CVF国际计算机视觉会议（ICCV），2021年。二个[20] Kaiming He ， Xiangyu Zhang， Shaoying Ren ， and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，第770-778页，2016中。四、五[21] 马丁·赫塞尔休伯特·拉姆绍尔 Thomas Unterthiner，Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。作者：Isabelle Guyon，Ulrike von Luxburg，Samy Ben- gio，Hanna M.放大图片作者：S.诉N. Vishwanathan和RomanGarnett，编辑，神经信息处理系统进展30：2017年神经信息处理系统年会，2017年12月4-9日，Long Beach，CA，USA，第6626-6637页，2017年。八个[22] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancontrol.在Proc. NeurIPS，2020中。二个[23] Tero Karras Samuli Laine和Timo Aila 基于样式的生成对抗网络的生成器架构在IEEE计算机视觉和模式识别会议论文集，第4401-4410页，2019年。一、二、五[24] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen和Timo Aila。分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页，2020年。一、二[25] Hyeongwoo Kim ， Pablo Garrido ， Ayush Tewari ，Weipeng13899Xu ， JustusThies ， MatthiasNiessne r， Pa t rickPe'rez ，Chris-tianRichardt，MichaelZollhoüfer，andChristianTheobalt.13900深度视频肖像。 ACM Transactions on Graphics（TOG），37（4）：1-14，2018。一个[26] Diederik P. Kingma和Max Welling。自动编码变量国家贝叶斯在Yoshua Bengio和Yann LeCun，编辑，第二届学习表示国际会议，ICLR 2014，Banff，AB，加拿大，2014年4月

下载后可阅读完整内容，剩余1页未读，立即下载