三维人脸生成模型的身份和表情解耦精细控制的能力

54 浏览量更新于2023-10-16 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

826基于形状和外观分离的Fariborz Taherkhani1、2、Aashish Rai1*、Quankai Gao1*、Shaunak Srivastava1*、Xuanbai Chen1、Fernando de la Torre1、Steven Song2、Aayush Prakash2和Daeil Kim21卡内基梅隆大学2Facebook/Meta*（同等贡献）摘要3D人脸建模一直是计算机视觉和计算机图形学中的一个活跃的研究领域，推动了从虚拟化身中的面部表情转移到合成数据生成的应用。现有的3D深度学习生成模型（例如，VAE、GAN）允许生成紧凑的面部表示（形状和纹理两者），其可以对形状和外观空间中的非线性（例如，散射效果、镜面反射性等）。然而，它们缺乏控制微妙表情的生成的能力。本文提出了一种新的三维人脸生成模型，可以解耦身份和表情，并提供粒度控制的表情。特别是，我们建议使用一对有监督的自动编码器和生成对抗网络来生成高质量的3D人脸，包括外观和形状。使用整体表达式标签或动作单元（AU）标签学习的3D人脸生成的实验结果显示了我们如何将身份和表达解耦;在保持身份的同时获得对表达的精细控制11. 介绍逼真的3D人脸生成已经在计算机图形学和计算机视觉领域引起了很多兴趣，由诸如创建虚拟化身[36]、人脸识别[4，19]、3D人脸动画[26，54]等应用推动表情转移[29，50，41]，以及使用生成模型来创建合成训练数据[46]，以提高计算机视觉中下游任务的性能，例如3D人脸重建[20]。计算机图形或机器学习生成模型（或两者的组合）可以1https://aashishrai3799.github.io/3DFaceCAM/创建合成3D面，两者都有自己的优点和缺点[47，57，51]。通常，具有对表达的严格控制的物理和解剖模型（例如，混合形状）、相机位置、皮肤纹理或3D面部的光照辅助产生是使用计算机图形学来完成的。然而，为了使这些计算机图形模型工作良好，需要访问高质量的资产，这通常需要大量的艺术劳动，既昂贵又耗时。然而，基于生成模型的方法（例如，GAN[22]，VAE [30]）可以自动生成3D人脸的实例，并提供具有自然图像统计的照片级逼真模型，可用于许多应用[44，59，15，36]。然而，他们确实需要足够数量的均衡数据来学习，并进行模型训练，以实现对感兴趣的特征（如微妙的表情，肤色或照明）的细粒度控制，这有时更具挑战性。本文讨论了使用生成模型的3D人脸的粒度控制的问题具体来说，这项工作提出了一个新的三维形状和外观生成模型，可以合成高质量的三维人脸与粒度控制的表情。图1说明了模型的功能。该模型可以解耦身份和表达的因素，并产生一个给定的身份在形状和UV纹理域的精细可控的表达式3D生成模型必须克服几个挑战才能实现这些功能。首先，模型必须将身份和表达解耦。在改变表情的同时保持身份对于诸如面部表情转移的应用是至关重要的[39，41]。我们通过在训练集中提供高级别标签作为整体表达标签或动作单元来实现这一点回想一下，一致地手动标记表达强度是非常具有挑战性和耗时的。然而，我们的方法可以在一定强度范围内合成表达（参见图1B）。1.一、（c，d））。第二，数据827图1. 我们的生成器(a)属于同一身份的不同表达的重叠（b）表达特定的生成纹理和对应的渲染面。（c）每行显示表达强度的多视图外推，同时保留同一性。(d)具有不同单调强度的面部表情（微笑）合成。高维输入（例如，数万个顶点，每个网格具有它们的3D坐标）与相对小尺寸的训练数据相结合可能导致过度拟合和缺乏泛化。为了解决这个问题，我们提出了一个监督的自动编码器（SAE），以找到紧凑和区分的表达式和身份的表示在统计上有意义的方式。这种方法在身份和表达潜在空间中构建区域，其中相似的数据点聚集在一起并聚类。这导致用于生成3D面的简化的采样过程。Fig. 1. (a)展示了我们的方法如何解耦身份和表达。第三，对SAE所表示的数据的复杂分布进行我们的框架采用了一个条件GAN（cGAN）[38]，它学习从SAE的解纠缠子空间中采样。在这里，我们选择cGAN，因为我们的目标是在生成新身份时控制表达的类型和强度类似地，我们使用另一个在高分辨率纹理图上训练的cGAN来合成面部外观作为我们对面部纹理的统计表示见图1.一、(b) 以及（c）分别用于所生成的UV纹理图和所渲染的照片般逼真的3D面。2. 以前的工作主动外观[13，21，17]，内核模型[24]，3D变形模型（3DMM）[6]及其深度学习扩展[15]是数据驱动的3D人脸合成的常见模型90年代初，基于3DMM的三维人脸建模是一种常见的实践，因为它具有紧凑表示的能力并且提供了关于其自然因素的形状变化的强先验（例如，身份和表达）。原始的3DMM [6]使用PCA模型解开几何形状，表达式[10]和彩色纹理。这些模型及其变体[9，34，53，7，8，10，34]是独立建模面部纹理和形状的一些最知名的方法。然而，PCA及其变体是线性的，不能有效地捕获高频信号。因此，3DMM很难用线性模型对面部形状和纹理的细微差异进行与线性模型相比，内核和深度学习方法可以对形状和纹理的可变性进行非线性建模。Tan等人。[49]提出了一种基于VAE [49，5，30]的方法，可以有效地压缩和表示几类3D形状。这里的想法是在局部坐标系[35]中对网格的变形进行建模，并使用不同的线性模型重建网格的位置Ranjan等人[43]使用基于卷积网格自动编码器和图形卷积的非线性模型来提高面部几何形状的表现力。即使这些模型可以实现比线性模型更好的重建，解开面部身份和表情被忽视。一些作品[2，5，3，19，27]专注于在网络的在这一研究领域的最先进的作品包括[10，34]。虽然这些方法中的大多数都在学习隐性地解开身份和表达，但其他一些方法明确地包括在风格和建筑设计中的解开[37，41，11，33]。而828EEDL联系我们[11，33]在架构设计方面彼此相似，[11]还在潜在空间中对身份和表达进行了简化，并使用所谓的联合解码器来对身份特定的表达变形进行建模。最近，GAN已被用于3D人脸表示，生成和表达风格转移[39，41]。尽管[39]得到了很好的重建结果，但它不能正确地传递表达式这是因为身份和表达因素由于共享的潜在空间而没有显式地解耦。然而，[41]通过在3D域中使用图像到图像转换网络来解决这个问题[14]首先将3DMM拟合到图像，然后应用GAN来完成从其UV贴图中获得的缺失部分。另一方面，[25，55]将3D人脸作为输入，然后通过GAN使用光度信息学习改进其几何形状。[48，46]通过在UV地图上训练GAN来学习身份变化这些方法忽略了对身份和表达之间存在的非线性变化和相关性进行建模。然而，[2]考虑了非线性变化和这种相关性，然后使用GAN对它们进行了拟合。除了对3D面部形状建模外，GAN还被用于生成3D面部纹理[48]。[20]用GAN代替3DMM来重建纹理，同时保留统计模型来重建形状。[31]使用图像到图像的转换技术，使用GAN从纹理贴图中生成每像素的漫反射和镜面反射分量然而，[39]在参数UV映射中使用GAN建模3D形状虽然[39，43]忽略了形状和纹理之间的相关性，[19]考虑了相关性和法线映射来生成高保真的3D面部图像。另一方面，[45]和[18]使用风格转移GAN来生成3DMM的照片级逼真图像。3. 方法本节描述了所提出的3D形状和外观的生成模型。我们的3D生成模型的概述如图所示。二、3.1. 3D形状建模形状分量在两个步骤中生成，即监督自动编码器（SAE）和GAN。在第一步中，如图2所示，我们训练一个SAE，它将形状投影到两个低维嵌入子空间中，其中一个专用于捕获身份因子，而另一个用于捕获表达因子。SAE包含两个没有共享参数的编码器，允许我们解耦和分离身份和表达因子的表示。然而，SAE共享监督两个编码器的相同解码器，以在重构网格时保持身份和表达因子之间的相关性SAE使用识别/表达类的分类丢失作为监督信号。准确地说，这种监督分离了表达式和身份的类别，并在嵌入空间中将相似的表达式和身份因子聚集在一起。这给了我们一个先验的身份和表达式嵌入空间，并简化了采样过程。设x是原始输入网格，µ exp=e（θ e，x）和µ id=i（θ i，x）是表达式和恒等式编码器，参数为θ e和θi，它们将x作为输入并将其投影到恒等式和表达式子空间req中。设（θ d，µ）为参数为θ d的解码器，以µ为输入，其中µ =（µ id，µ exp）为两个编码器输出的级联该OB-用于训练SAE的目标函数，包括参数θ={θe，θi，θd，we，wi}为：L SAE（θ，x）=||x − D（θ d，µ）||1+ L c（w i E i（θ i，x），y i）+Lc （ weEe （ θe ， x ）， ye ），（1）其中c（. 表示softmax交叉熵，yi和ye分别是独热身份和表达式标签。we和wi分别是身份和表达分类层的参数为了显示我们的SAE的优越性，我们比较了它的身份和表达式嵌入空间对一个无监督的AE，与SAE相同的架构。使用t-SNE [ 52 ]计算身份和表达式嵌入空间，如图所示。3.第三章。如所料，在图。在图3（a）和（c）中，当使用SAE时，可以看到表达嵌入和身份嵌入都是聚类的。在表达式嵌入空间中有20个聚类，每个聚类包括每个表达式的847个不同的身份，如图2所示第3（a）段。图图3（c）示出了身份嵌入空间，其具有847个聚类，并且每个聚类包括每个身份的20个不同表达。然而，当使用无监督AE时，表达和身份嵌入空间都是混合和嘈杂的，如图所示。图3（b）和图3（d）分别。请注意，在本实验中使用的数据集中，847个身份中的每一个都有20个表达式如需查看供试品的t-SNE结果，请参见补充资料的附录1在第二步中，如图所示。2.我们利用条件GAN（cGAN）框架从第一步中获得的嵌入空间中表示的身份和表达因子的分布中进行采样。cGAN学习从输入y和z到输出µ的映射：G（y，z）：y，z µ。在本文中，我们使用cGAN从z学习映射函数，并从SAE学习的分解子空间中学习到真实数据的表达式/身份类标签代码。我们使用cGAN，因为我们希望在生成新身份时控制表达式的类型。具体地，cGAN将vector（zid，zexp，znoise），它是维数nid的身份码zid<$N（0，1）的级联，表达式829N∼|||图2. 我们的3D生成模型概述。第一步包括训练SAE，其将形状投影到两个低维嵌入子空间中，其中一个专用于身份因子，而另一个专用于表达因子。在第二步中，我们利用cGAN网络从身份和表达因子的分布中对形状和纹理进行然后使用渲染器来生成照片级逼真的面部。图3.FaceScape数据集上嵌入空间的可视化[56]通过t-SNE：（a）使用SAE的表达式嵌入，（b）使用无监督AE的表达式嵌入，（c）使用SAE的身份嵌入，以及（d）使用无监督AE的身份嵌入那里和表达式嵌入我们还在对抗性损失中添加了身份和表达分类这种损失鼓励生成器和判别器两者区分两个表达式或标识是否z_id，z_exp）在感知上是相似的。此外，这些损失导致我们的模型进一步解耦身份和表达因素，因为一个因素的分类（例如，同一性）独立于其它因子的标记的选择（例如，表达式）。在我们的例子中，这两个生成器同时采用z噪声和相应的表达式/恒等类标签代码。因此，身份生成器获取z噪声和z id，并返回假身份代码：G（z，z）和表达式每个图中有20种颜色，代表20种表情。IDSion发电机需要ID噪声识别代码zexp pexp，其中pexp表示维度nexp和znoise（0，1）的表达式类的分布。与SAE类似，我们使用两个独立的身份和表达因子生成器（μ′id，μ′exp），因为我们的目标是在生成假样本期间将它们解耦。然而，我们使用一个共享的递归，它将两个生成器的输出（μ ′ =（μ ′id，μ ′ exp））串联起来znoise，zid和zexp，并返回假值表达式代码：μ′exp=G exp（z噪声，z id，z exp）。将zid添加到表达式生成器有助于控制标识特定的细节。另一方面，该函数给出了源数据上的概率分布，即真实的μ =（μ id，μ exp）或虚假的μ′=（μ′id，μ′exp），以及表达式（c exp）和身份（c id）类标签上的概率分布，分别为p（s μ）、p（c idμ）和p（c expμ）。因此，我们用于训练每个cGAN的完整损失函数830正确的源，Ls，以及表达的正确类标签的对数似然，Lexp和身份，Lid。L s=Eµp数据（µ）[log p（s =1|µ）]+E zpz（z）[log p（s =0|µ′）]，（二）其中，s=1和s=0分别表示真实数据和伪数据的标签。这里，z表示z噪声和对应的表达式/身份类标签代码zexp/zid的级联。p data（µ）表示SAE所代表的数据的实际分布：µ=（µ id，µ exp），图4.从我们的方法中随机合成的面孔展示了年龄，性别，肤色，面部特征和脸型的多样性。L id= Eµidp数据（µid）[log p（c = cid|µ id）]+Ezpz（z）[log p（c = c id|µ′id）]，L exp= Eµexp数据（µexp）[log p（c = c exp|µexp）]+Ezpz（z）[log p（c = c exp|µ′exp）]，（三）（四）zexp，我们可以通过改变zid 来固定表达式并改变恒等式，反之亦然。附录1中的图6显示了我们的模型生成的具有不同表达的合成身份的网格和渲染图像的示例图4显示了我们的方法使用随机采样的潜在代码合成的渲染人脸。引人关注的其中，训练表达式生成器以最大化Ls+Lid+Lexp，而训练身份/表达式生成器以分别最小化Ls-Lid和Ls-Lexp。3.2. 纹理生成对于纹理生成，我们使用了渐进式GAN [28]并将其限制在身份和表达式代码上。形状和纹理生成器使用相同的输入代码（zid，zexp，znoise）进行训练这使我们的模型能够将形状和相应的纹理关联起来，并生成它们用于渲染。有关架构的详细信息，请参见图2渐进式生成器的输入是具有三个分量的向量，即（zid，zexp，znoise）。每个z_id是从高斯分布中随机采样的，并且在整个训练过程中对应于特定的身份类是zexp是指定训练样本表达式的独热向量。z噪声是从高斯分布中随机采样的向量，但在训练期间会发生变化z_id和z_exp对于形状生成器和纹理生成器都保持相同。最后一层将被分成三个分支，以获得1）真实或虚假，2）表达式类和3）身份类。我们使用WGAN-GP [23]损失以在渐进设置中训练发生器和除颤器。与cGAN的形状生成类似，交叉熵身份/表达损失被添加到我们的对抗损失中，以便该算法返回属于预定义类别标签的纹理的概率，以提高性能。见附录1图5 用于合成纹理贴图。还存在纹理预处理步骤，包括裁剪面部的前部因此，从我们的模型生成的纹理首先添加到模板纹理渲染之前如图5，z id和z exp允许我们控制纹理的标识和表达。通过固定我们的方法可以在肤色，年龄，性别，面部特征和脸型方面产生多样性。4. 实验在这里，我们描述了实验验证。首先描述数据集、预处理和实现细节第一个实验展示了我们如何生成新的身份和表达。具体来说，我们展示了我们的方法如何生成精细可控的表达式，生成混合表达式，将表达式转移到新的身份，并执行样式编辑。第二个实验使用[1]中描述的定量指标（多样性，特异性）评估3D形状生成模型的质量最后，我们展示了我们的方法可以用来合成控制微妙的3D面部表情。4.1. 数据集FaceScape数据集。我们在FaceScape数据集[56]上进行实验，这是一个大规模的3D人脸数据集，包括16940个（847个身份和20个表情）拓扑均匀的3D人脸模型，具有位移图和4K高质量纹理图。每个网格有26317个顶点，对应3D坐标。BP 4D-自发数据集。为了证明我们的模型与面部动作编码系统（FACS），特别是动作单位（AU）配合良好，并且可以处理高度多样化的数据，我们使用BP4D-自发数据集[58]进行进一步的实验。该数据集是41个不同身份的集合，其中包含8个任务的许多自发视频帧它包含未注册的网格和纹理以及每个帧的2D图像，并有34个标记的AU。我们从每个任务中均匀采样了大约50帧然后，我们使用PRNet [16]来生成每个帧的每个生成的网格有43867个831××顶点与相应的三维笛卡尔坐标。纹理分辨率为256x256。4.2. 实施细节和体系结构形状生成：我们的恒等式生成器G id的输入是（zid，z noise），我们的表达式生成器G exp的输入是（zid，z exp，z noise），使得表达式以恒等式为条件（有关详细信息，请参阅附录1）。我们的身份生成器的输出是ID嵌入向量，我们的表达式生成器的输出是Exp嵌入向量。两个发电机都是完全连接的网络。鉴别器D由一个公共分支和最后一层中的3个分支组成。第一分支是确定输入样本是真的还是假的，第二分支是预测身份类，并且第三分支是预测输入样本属于哪个表达式类。至于自动编码器，我们的身份和表达式编码器的架构都是全连接网络。身份和表达式编码器的输出是2重的：一个是身份或表达式嵌入，另一个是预测身份或表达式类。编码器/解码器和发生器/解码器的架构分别在附录中的表1、2、3、4中详细提供。我们使用开源渲染工具MeshLab[12]纹理生成：纹理生成器的输入是嵌入向量（z id，zexp，z noise）。FaceScape数据集中的大量纹理贴图都有模糊的眼睛来保持身份。眼睛周围的这种模糊导致伪像。为了避免这样的伪影，我们仅使用没有模糊眼睛的那些纹理，这导致359个主体总共约7k个纹理图用于训练。我们逐步[28]训练模型，从16 16的分辨率开始，一直到512 512（每一步的分辨率加倍），以生成可以产生照片般逼真的渲染图像的纹理。我们的生成器和编译器架构类似于ProgressiveGAN [28].唯一的区别是，我们从z噪声为256开始，最大分辨率为512×512。4.3. 三维形状合成在这里，我们描述的实验，从identity，表达空间的样本，并说明我们的嵌入的语义属性，通过插值的表达空间。鉴别合成：所提出的ID生成器Gid的优点之一是，它可以通过改变身份的输入代码而产生不同的身份，同时保持Exp生成器Gexp的输入代码固定。图5示出了由我们的模型生成的不同身份的示例。沿着身份轴，从高斯分布中随机采样不同的身份码z_id连续生成器的选择还允许通过线性地内插它们的恒等码而在两个恒等式之间进行平滑内插表1. 我们的方法的定量度量是Facecape数据集上的归一化多样性（DIV、DIV-ID和DIV-EXP）和绝对特异性（SP）。越高越好，除了特异性。级别1、5、10显示表达式的外推级别One-hot和Gaussian指定zid类型。SP值以mm为单位。DIV↑DIV-ID↑DIV-EXP↑SP↓训练数据111-3DMM [2]0.720.590.572.30MAE[3]0.790.280.752.00CoMA [41]0.690.520.582.47Victoria等人[1]第一章0.960.580.842.01我们的（One-hot）1级0.770.810.370.845级0.760.781.130.8610级0.770.762.030.94我们的（高斯）1级0.750.750.80.845级0.860.743.830.8610级1.260.737.860.94如图8.表达合成：如图所示5，Exp generatorGexp允许我们通过改变表达式代码zexp来合成具有各种表达式的形状，同时保持ID生成器Gid的输入代码固定。请注意，在这些结果中，我们还表明，表达式可以通过改变Gid中的zid代码而从一个身份转换到另一个身份，同时保持所有其他值固定。与恒等空间类似，该模型还允许在两个表达式之间进行平滑插值，而不通过线性插值它们的表达式代码来改变恒等式我们的模型还可以通过外推在语义上控制每个表达的强度，类似于学习其自己的隐式融合变形[32]，并在我们定义的一些范围内产生合理的六、我们的模型也使得不同表达式之间的插值成为可能。图图7示出了叠加两个表达式以产生新的看起来自然的混合表达式的结果此功能还可以用于样式编辑，其中我们的模型可以通过在表达式生成器中将标识代码z id从一个标识转移到另一个标识来转移形状标识中关联的精细细节，更多详细信息和示例见附录1。3D形状合成的定量评估：2D GANs的性能通常使用FID分数来衡量，这对于3D模型来说没有意义。与[1]类似，我们模型的定量指标包括生成的3D形状样本的多样性和特异性。多样性：关于生成模型的重要指标之一是我们可以在多大程度上生成表现出足够多样性的样本，这通过计算n对生成样本的平均顶点距离来衡量我们得到的多样性值越高，我们的模型可以生成的样本就越多样化。这里，我们使用n=10000。特异性：光有多样性是不够的，因为即使是扭曲的形状（不规则的人脸）也会导致差异。832图5.新颖的身份合成：通过从潜在空间采样来合成一组新颖的身份以及所需的表达图6.通过外推改变表情的强度当我们沿着表情维度改变强度时，面部表现出表情的平滑增加图7. 用混合表达式叠加表达式。图8. 跨身份（顶部）和表达（底部）的平滑线性插值。图9.纹理强度随渲染图像的变化versity显著。因此，提供特异性以测量生成的数据和原始训练数据之间的分布偏移理想情况下，生成的图10.我们表明，我们的模型与高度多样化的数据集（BP 4D-自发），并可以与行动单位（AU）也可以使用。前三行显示沿指定AU的外推。我们还可以通过组合不同的AU来合成表达式例如，最后一行示出了作为组合AU-6和AU-12的结果的期望数据尽可能接近原始训练数据的分布。样本是随机生成的，我们计算每个生成的样本和训练集的每个成员之间这里，我们使用n=1000。使用这些指标的比较结果见表。1.一、833表2.在该表中，我们显示了我们的方法与Facewarehouse数据集上的SOTA的定量重建比较4.4. 细微表情我们研究的潜在应用程序中控制的表达和动作单元的强度分别为Facescape和BP 4D-自发数据集，与合成图像使用我们的方法。具体而言，给定属于AU的相同表达式或组合的z_id和z_exp的不同强度，我们可以生成具有对应于z_id和z_exp的不同强度的网格和纹理。这使我们能够在Facescape中获得对合成面部的表达强度的图9示出了纹理图的强度变化以及对应的渲染图像的示例。我们还扩展了该框架，以结合使用BP 4D-自发数据集控制AU的强度，其结果如图所示。10个。为了证明我们的方法的有效性，我们引入了GANimation [42]2进行比较，它在用不同强度的面部表情动画2D图像方面取得了显着的成就。GANimation需要对应于渲染图像的AU强度作为表达式标签。因此，使用常见的面部标志检测工具Openface3来检测每个图像的17个 AU但是，Open- face检测到的面部标志并不总是准确的，特别是对于Facescape中的表情因此，我们在渲染的FaceScape数据集上训练我们的模型对于BP4D-Spontaneous数据集，尽管5个AU标记有强度，但它不符合GANimaging的要求。因此，我们仍然利用来自BP 4D-Spontaneous的渲染图像的Openface来生成AU强度。为了与GANimation进行比较，我们采用了预训练的GANimation模型并对其进行了微调。利用针对两个数据集和对应的生成的AU强度标签的前述渲染图像进行微调。我们从我们的方法中为两个数据集随机生成了20个新身份，并在推理过程中使用渲染的中性图像作为源。在为目标图像生成17个AU强度后，我们使用GANi- mation将新生成的中性面部转换为具有从0到2的不同强度的目标表情，将结果与我们的模型进行了比较。2https://github.com/donydchen/ganimation复制3https://github.com/TadasBaltrusaitis/OpenFace网站(a) 微笑的表情（b）脸颊吹气的表情(c)AU12：唇角拉具（d）AU7：闭眼图11. （a，b）是FaceScape的结果，而（c，d）属于BP 4D-自发。在每个子图中，第一行是GANimation的结果，而第二行是我们的结果。从第一列到第四列，强度水平分别为0、1、1.5和2比较结果如图所示。11个国家。对于Facescape结果，我们的方法可以更好地操纵表达式，特别是当强度水平超过1.例如图11（a），嘴张开比GANimation更大。另一个观察结果是GAN模拟可以产生明显的伪影，如图1B所示。第11条（b）款。对于BP 4D-Spontaneous数据集，我们的方法也可以更好地操纵动作单元的水平从图中可以推断出11（c，d），我们的方法可以沿着AU外推而然而，与FaceScape类似，GANimation会创建伪影，在这种情况下，它有时会创建难以识别为人脸的人脸。性能差异的原因在于我们的方法可以解开身份，并在保持3D一致性的同时从几何上控制5. 结论我们提出了一种新的框架，该框架使用一对监督自动编码器（SAE）和cGAN来合成具有高频细节和形状的高质量纹理SAE明确地使用两个编码器以监督的方式将3D面部网格非线性地映射到两个紧凑的、解纠缠的身份和表达子空间中。这两个编码器没有共享任何参数，允许我们完全解耦身份和表达因素。然而，身份和表达表示之间的相关性是通过共享相同的解码器，同时重建的原始形状。虽然从SAE空间学习的解纠缠子空间的采样不是平凡的，但我们的方法使用cGAN来提供归一化采样方案。同样，该框架使用另一个在高分辨率纹理映射上训练的cGAN作为我们用于渲染图像的面部纹理的统计表示。E平均值（mm）方法平均值↓中位数↓双线性[8]0.9930.998火焰[32]0.8820.905CoMA [41]0.8250.811Jiang等人[25日]0.4720.381Chandran等人[9]第一章0.3760.351834引用[1] 维多利亚·弗尔·纳兹·阿布雷·埃瓦亚、阿德南·布克海马、斯特法尼·乌勒和埃德蒙·博耶。一种基于对抗训练的解耦三维人脸模型。在IEEE/CVF计算机视觉国际会议论文集，第9419-9428页[2] 维多利亚·弗恩·阿南德斯·阿布雷·埃瓦亚、阿德南·布克海马、圣·法尼·乌勒和埃德蒙·博耶。通过对抗训练生成的3d人脸模型2019年。[3] 维多利亚·弗恩·阿南德斯·阿布雷·埃瓦亚、圣芬尼·乌赫雷和埃德蒙·博耶。用于三维人脸模型学习的多线性自动编码器 2018 年 IEEE 计算机视觉应用冬季会议（WACV），第1-9页。IEEE，2018年。[4] Brian Amberg，Reinhard Knothe，and Thomas Vetter.基于变形模型的表情不变三维人脸识别在2008年第8届IEEE自动人脸手势识别国际会议上，第1-6页。IEEE，2008年。[5] Timur Bagautdinov、Chenglei Wu、Jason Saragih、PascalFua和Yaser Sheikh。使用compo- sitional vae进行面部几何建模。在IEEE计算机视觉和模式识别集，第3877[6] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187[7] Timo Bolkart和Stefanie Wuhrer一个鲁棒的三维人脸多线性模型学习框架在IEEE计算机视觉和模式识别会议论文集，第4911-4919页[8] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10，000张面孔中学习的3D变形模型在IEEE计算机视觉和模式识别会议论文集，第5543-5552页[9] Alan Brunton ， Augusto Salazar ， Timo Bolkart ， andStefanie Wuhrer.三维数据统计形状空间的回顾与人脸的比较分析。计算机视觉和图像理解，128：1[10] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413[11] Prashanth Chandran，Derek Bradley，Markus Gross，andThabo Beeler.语义深层人脸模型。在2020年3D视觉国际会议（3DV）中，第345IEEE，2020年。[12] Paolo Cignoni，Marco Callieri，Massimiliano Corsini，Matteo Dellepiane，Fabio Ganovelli，Guido Ranzuglia，et al.Meshlab ：一个开源的网格处理工具。在Eurographics Italian chapter conference，卷2008，第129-136页中萨勒诺，意大利，2008年。[13] 蒂莫西·F作者：Gareth J. Cootes Edwards和Christopher J.Taylor. 活动外观模型。 IEEE Transactions on patternanalysis and machine intelligence，23（6）：681-685，2001。[14] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou.UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在IEEE计算机视觉和模式识别会议论文集，第7093-7102页，2018年[15] BernhardEgger ， William AP Smith ， Ayush Tewari ，Stefanie Wuhrer ， Michael Zollhoefer ， Thabo Beeler ，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，et al.三维可变形人脸模型-过去、现在和未来。ACM Transactions on Graphics（TOG），39（5）：1[16] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou.结合位置映射回归网络的三维人脸重建与密集对齐。在欧洲计算机视觉会议（ECCV）的会议记录中，第534[17] Xinbo Gao，Ya Su，Xuelong Li，and Dacheng Tao.主动外观模型综述IEEE Transactions on Systems，Man，andCybernetics，Part C（Applications and Reviews ），40（2）：145[18] Baris Gecer ， Binod Bhattarai ， Josef Kittler ， and Tae-Kyun Kim.半监督对抗学习从3d变形模型生成新身份的真实感人脸图像。在欧洲计算机视觉会议（ECCV）的会议记录中，第217-234页[19] Baris Gecer ， Alexandros Lattas ， Stylianos Ploumpis ，Jiankang Deng ， Athanasios Papaioannou ， StylianosMoschoglou，and Stefanos Zafeiriou.利用干支生成对抗网络合成耦合三维人脸模型。欧洲计算机视觉会议，第415-433页Springer，2020年。[20] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE/CVF计算机视觉和模式识别会议论文集，第1155-1164页[21] Jose Gonzalez-Mora 、 Fernando De la Torre 、 RajeshMurthi、Nicolas Guil和Emilio L Zapata。双线性活动外观模型。2007年IEEE第11届计算机视觉国际会议，第1-8页。IEEE，2007年。[22] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在proc 神经信息处理系统（NIPS），第2672-2680页。2014.[23] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，30，2017。[24] 董煌和费尔南多·德拉托雷。基于双线性核降秩回归的人脸表情合成。欧洲计算机视觉会议，第364-377页。施普林格，2010年。[25] Loc Huynh，Weikai Chen，Shunsuke Saito，Jun Xing，Koki Nagano，Andrew Jones，Paul Debevec，and Hao Li.使用深度神经网络的介观面部几何推断在IEEE计算机视觉和模式识别会议论文集，第8407-8416页835[26] Alexandru Eugen Ichim，Sofien Bouaziz，and Mark Pauly.从手持视频输入创建动态3d化身ACM Transactions onGraphics（ToG），34（4）：1[27] Zi-Hang Jiang ， Qianyi Wu ， Keyu Chen ， and JuyongZhang.三维人脸形状的解纠缠表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第11957-11966页[28] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[29] Hyeongwoo Kim ， Pablo Garrido ， Ayush Tewari ，WeipengXu ， JustusThies ， MatthiasNiessner ，PatrickPe'rez ， Chris-tianRichardt ， MichaelZollh o'fer ，andChristianTheobalt. 深度视频肖像。ACM Transactionson Graphics（TOG），37（4）：1[30] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[31] Alexandros Lattas、Stylianos Moschoglou、Baris Gecer、Stylianos Ploumpis 、 Vasileios Triantafyllou 、 AbhijeetGhosh和Stefanos Zafeiriou。Avatarm

下载后可阅读完整内容，剩余1页未读，立即下载