3D人脸形状的解耦表示学习

15 浏览量更新于2023-10-17 收藏 14.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

In this paper, we aim to build a disentangled parametricspace for 3D face shape with powerful representation abil-ity. Some classical linear methods [4, 13] have already de-composed expression and identity attributes, while they arelimited by the representation ability of linear models. Al-though deep learning based method is regarded as a poten-tial enhancement way, how to design the learning methodis not straightforward e.g. the neural network structure andthe 3D face shape representation features for deep learning.Besides, another challenging issue is that how to make useof the identity and expression labels in the existing datasetslike FaceWareHouse [13] for the network training.1119570用于3D人脸形状的解耦表示学习0江子航，吴倩怡，陈科宇，张巨勇 �0中国科学技术大学0{jzh0103, wqy9619, cky95}@mail.ustc.edu.cn juyong@ustc.edu.cn0摘要0在本文中，我们提出了一种新的策略来设计解耦的3D人脸形状表示。具体而言，给定一个3D人脸形状，将其分解为身份部分和表情部分，两者都以非线性方式进行编码。为了解决这个问题，我们提出了一个用于3D人脸网格的属性分解框架。为了更好地表示通常在彼此之间非线性变形的面部形状，面部形状通过基于顶点的变形表示而不是欧几里得坐标来表示。实验结果表明，我们的方法在分解身份和表情部分方面比现有方法具有更好的性能。此外，与现有方法相比，我们的方法可以实现更自然的表情转移结果。01. 引言03D人脸模型由身份、表情、外貌、姿态等多个组成部分组成，而3D人脸形状由身份和表情属性确定[19]。将3D人脸形状解耦为这两个组件是计算机视觉中的一个重要问题，因为它可以使许多应用受益，如面部组件转移[42,36]、面部动画[12,35]、头像动画[21]等。本文的目标是为3D人脸形状开发一个属性分解模型，以便给定的面部形状可以通过其身份和表情部分进行良好的表示。一些现有的3D人脸参数模型已经通过身份和表情参数来表示面部形状。Blanz和Vetter提出了3D可塑模型（3DMM）[4]来建模面部形状。3DMM的最流行形式是身份和表情基础的线性组合[2,43]。FaceWareHouse[13]采用双线性模型，并使用身份和表情权重从张量中构建面部形状。最近，FLAME[25]利用带有属性的关节模型，如下颌、颈等，实现了最先进的结果。这些线性和双线性模型的共同特点是每个属性都位于单独的线性空间中，它们的组合也是线性的。线性统计模型具有表达能力和解耦性的局限性。这种局限性来自于线性公式本身[38,31]。然而，面部变化在现实世界中是非线性的，例如不同面部表情的变化。尽管一些最近的工作[7,6,5,27,23]提出了改进统计模型的方法，但它们仍然通过线性组合基础来构建3D人脸形状。0� 对应作者0在本文中，我们的目标是构建一个具有强大表示能力的3D人脸形状的解耦参数空间。一些经典的线性方法[4,13]已经对表情和身份属性进行了分解，但它们受到线性模型表示能力的限制。尽管基于深度学习的方法被认为是一种潜在的增强方式，但如何设计学习方法并不直观，例如神经网络结构和用于深度学习的3D人脸形状表示特征。此外，另一个具有挑战性的问题是如何利用现有数据集（如FaceWareHouse[13]）中的身份和表情标签进行网络训练。0受深度学习技术的快速发展的启发，已经提出了基于学习的方法将3D人脸形状嵌入非线性参数空间中，这些方法的表示能力得到了极大的提高，例如能够表示几何细节[3]，或者使用非常少的参数重建整个面部形状[31]。然而，所有这些方法都将整个面部形状编码为潜在空间中的一个向量，因此无法分别区分身份和表情。另一方面，许多应用程序，如动画[11]、面部重定向[37,35]，以及更具挑战性的任务，如3D人脸识别[30,26]，需要将3D人脸形状分解为身份和表情组件。0为了重新阐述问题，假设身份和表情分别被编码为向量z id和zexp，像3DMM这样的线性模型通过线性变换解码形状，形式为¯ S + A id z id + A exp z exp，其中¯ S是平均形状，Aid和A exp是身份和表情的PCA基。考虑到其非线性特性，我们提出通过非线性解码器恢复形状，形式为F(D id(z id), Dexp(z exp))，其中D id(∙)，Dexp(∙)和F(∙)是由深度神经网络学习的非线性映射函数。对于这个学习任务，我们基于谱图卷积[17]开发了一个通用框架，允许在网格上输入基于顶点的特征，并将3D面部形状解耦为分离的属性分量。考虑到不同的面部形状主要是由变形引起的，我们提出用基于顶点的变形来表示神经网络的输入面部形状，而不是欧几里得坐标。基于顶点的变形表示方法在[20,34,41]中提出，它捕捉局部变形梯度，并定义在顶点上。在我们的实验中，基于顶点的变形表示可以极大地提高表示能力，并使形状变形更加自然。总之，本文的主要贡献包括以下几个方面：• We propose a novel framework for the disentanglingtask deﬁned on 3D face mesh. Vertex-based deforma-tion representation is adopted in our framework, andit achieves better performance than Euclidean coordi-nates.119580•我们提出了一个新的框架，用于在3D面部网格上定义解耦任务。我们的框架采用了基于顶点的变形表示，并且比欧几里得坐标取得了更好的性能。0•我们提出了学习一个解开身份和表情的3D面部形状的分离潜在空间的方法，从而实现在身份和表情领域的语义编辑。0•实验结果表明，我们的方法在解开身份和表情之间的关系方面取得了更好的结果。因此，基于我们的方法的表情转移等应用可以获得更令人满意的结果。02. 相关工作0线性3D面部形状模型自从3DMM[4]的类似工作以来，线性参数模型广泛用于表示3D面部形状。Vlasic等人[40]提出了一个多线性模型，将属性分解为不同的模式，Cao等人[13]采用了一个双线性模型来表示3D面部形状，通过身份和表情参数。最近，还提出了其他方法来进一步改进。例如，通过使用大规模数据集来提高3DMM的能力[5]，或者使用关节模型来更好地捕捉面部的中端[25]。非线性3D面部模型最近，一些工作提出使用基于深度学习的非线性参数模型嵌入3D面部形状。Liu等人[26]提出了一个多层感知器来学习3D面部形状的残差模型。Tran[38]提出了一个编码器-解码器结构来表示3D面部形状，这是3DMM的非线性形式的一部分。Bagautdinov等人0等[3]提出了一个组合变分自编码器结构，用于表示不同级别的几何细节。Tewari等人[3]通过自监督方法生成3D面部。Anurag等人[31]提出了一种基于图卷积自编码器的3D面部形状。这些工作采用深度神经网络学习3D面部形状的新参数潜在空间，但它们都没有考虑面部属性解耦的问题。3D形状分析的深度学习基于深度学习的3D形状分析方法近年来越来越受到关注[9]。Masci等人[28]首次提出了用于测地极坐标中局部补丁的网格卷积操作。Sinha等人[33]使用几何图像表示3D对象的欧几里得参数化。Monti和Boscaini等人[29]引入了d维伪坐标，它们在空间域中使用权重函数定义了每个点周围的局部系统。Tan等人[34]应用空间图卷积来提取网格的局部变形分量。Bruna等人[10]首次利用图拉普拉斯矩阵和傅里叶基之间的联系提出了谱图卷积。Defferrard等人[17]通过截断的切比雪夫多项式进一步提高了谱图卷积的计算速度。在我们的框架中，我们采用快速谱图卷积算子来提取形状属性。据我们所知，这是第一个基于深度学习的用于在3D网格数据上定义解耦任务的方法。03. 解缠结的3D人脸表示03.1. 概述0给定一组3D人脸网格，我们的目标是获得身份和表情的紧凑表示。表情分析[14]中的一个共同观察是，人类表情位于高维流形中，如图1所示，其中表情流形0图1.3D人脸形状空间示例。如[14]所观察到的，人类表情应该位于一个流形中。基于此，我们将每个3D人脸都位于其表情流形中。不同身份的这些表情流形应该是相似的[14, 18]。Spectral Graph ConvolutionLike convolution (correla-tion) operator for regular 2D image, we adopt a graph con-volution operator, spectral graph convolution, for extract-ing useful vertex feature on mesh. We ﬁrst provide somebackground about this convolution, and more details can befound in [10, 17, 22].As we deﬁne our mesh M = (V, A) in graph structure,the normalized Laplacian matrix can be deﬁned as L =E(Ti) =�j∈Nicij∥(p′i − p′j) − Ti(pi − pj)∥2(2)119590每个个体的表情都以黄色渲染。由于不同个体的表情流形相似[18]，一个人的表情可以转化为平均脸上的相同表情。另一方面，每个个体都有自己的中性表情，将其设为流形中的原点，并用其表示其身份属性。同样，平均脸上的相同表情代表其表情属性。这两个网格分别称为身份网格和表情网格。基于这一观察，我们的解缠结的3D人脸表示包括两个部分：分解和融合网络。分解网络通过将输入人脸网格解耦为身份网格和表情网格来解耦属性。融合网络通过身份网格和表情网格恢复原始人脸网格。我们将人脸网格定义为具有一组顶点V和边的图结构，M = (V, A)，其中|V| = n。A ∈ {0,1}^{n×n}表示邻接矩阵，其中A_ij =1表示顶点v_i和v_j之间的边连接，否则A_ij =0。在我们的框架中，训练数据集中的人脸网格具有相同的连接性，并且每个顶点都与一个特征向量R^d相关联。网格M的图特征表示为G ∈R^{|V|×d}。在我们提出的方法中，一个3D人脸网格M与两个网格身份网格M_id和表情网格M_exp配对。这个三元组(M, M_id, M_exp)将用于训练我们的网络。02，其中D是度矩阵，具体而言，是一个对角矩阵，D_i,i =∑_{j=1}^nA_i,j，I表示单位矩阵。在图傅里叶变换域上定义的谱图卷积，即拉普拉斯矩阵L的特征向量U：L =UΛU^T。在傅里叶空间上的卷积定义为x � y = U((U^T x) �(U^Ty))，其中�表示逐元素的Hadamard乘积。由此可得，信号x通过g_θ进行滤波，得到y =g_θ(L)x。在谱卷积的计算中，一种高效的方式是将g_θ参数化为K阶的Chebyshev多项式，如输入x ∈ R^{n×F_in}：0y_j =0F_in0i = 10k = 0，θ_k i,j T_k(˜ L) x_i，(1)0其中y_j是y ∈ R^{n×F_out}的第j个特征，˜L = 2L/λ_max -In是一个缩放后的拉普拉斯矩阵，λ_max是最大特征值，T_k是Chebyshev多项式0k的阶数，可以通过递归计算得到，T_k(x) = 2xT_{k-1}(x) -T_{k-2}(x)，其中T_0 = 1，T_1 = x。每个卷积层都有一个F_in× F_out的Chebyshev系数向量，θ_i,j ∈R^k，作为可训练参数。0变形表示在现有的3D人脸形状表示工作中[4, 13, 25,31]，欧几里得坐标在R^3中是最常用的顶点特征。通过谱图卷积，我们可以使用在顶点上定义的其他特征。正如[24]所指出的，谱图卷积是拉普拉斯平滑的一种特殊形式。由于不同面部网格之间的主要差异主要是由非刚性变形引起的，我们更喜欢与局部变形相关的顶点特征，而不是广泛使用的欧几里得坐标。在这项工作中，我们采用最近的变形表示(DR)[20,41]来建模3D网格。我们选择平均脸的中性表情作为参考网格，其他表情被视为变形网格。我们简要介绍如何为给定的变形网格计算DR特征的细节。设v_i在参考网格上的位置为p_i，在变形网格上的位置为p'_i。从参考模型到变形模型的v_i的1-环邻域中的变形梯度被定义为最小化以下能量的仿射变换矩阵T_i：0其中 N i 是顶点 v i 的1环邻域，c ij是仅依赖于参考模型的余切权重，用于处理不规则镶嵌[8]。通过极坐标分解 T i = R i S i，T i 可以分解为旋转部分 R i和缩放/剪切部分 S i，其中旋转可以表示为绕轴 ω i 旋转 θi角度。我们收集旋转和缩放/剪切分量中的非平凡条目，并将变形网格中第 i 个顶点的变形表示作为 R 9 向量。当 d =9 时，网格的 DR 特征可以视为图特征 G ∈ R |V|× 9。03.2. 分解网络0分解网络的输入是三维人脸网格的变形表示特征G，我们的目标是将其分解为身份和表情属性。相当于将输入网格 M 映射到另外两个三元组元素 ( M id , M exp)。分解部分包括两个具有相同结构的并行网络，一个用于提取表情网格 M exp，另一个用于提取身份网格 Mid。以身份分支为例，输入将通过多个谱图卷积层进行网格特征提取，具有完全连接的瓶颈架构。ϵ~𝑁(0,1)⨂⨁ϵ~𝑁(0,1)⨂⨁𝐷𝑒𝑥𝑝𝐷𝑖𝑑𝐸𝑖𝑑𝐸𝑒𝑥𝑝ϵ~𝑁(0,1)⨂⨁𝐷𝑖𝑑𝐸𝑖𝑑ϵ~𝑁(0,1)⨂⨁𝐷𝑒𝑥𝑝𝐸𝑒𝑥𝑝መ𝒢𝒢መ𝒢𝑒𝑥𝑝መ𝒢𝑖𝑑𝐹𝑧𝑒𝑥𝑝𝑧𝑖𝑑Lid = ∥Gid − Did(zid)∥1Lid kld = KL(N(0, 1)∥Q(zid|Gid))Lexp = ∥Gexp − Dexp(zexp)∥1Lexp kld = KL(N(0, 1)∥Q(zexp|Gexp)),(3)119600融合模块0身份分支0表情分支0身份分支0表情分支0表情网格0身份网格0平均中性网格0图2. 框架概述。我们的网络包括两个部分，分解部分和融合部分。分解部分有两个分支，一个用于提取表情，另一个用于提取身份。融合模块用于将身份和表情网格对 ( M id , M exp )进行重建。该模块进一步保证了我们的分解在某种意义上是无损的。由于网格三元组是同构的，我们可以通过将身份和表情网格的顶点特征连接起来得到一个新的图。新图与原始输入具有相同的边集和顶点集，除了每个顶点上的连接的 2d 维特征。融合模块旨在将具有 R 2d 的顶点特征的新图转换为具有 R d（原始输入）的同构图。我们还应用谱图卷积和激活层来实现这个目标。现在，设 G cat = [ ˆ G id , ˆG exp ] 为连接的新图特征，G ori 为原始网格 M 的特征。这里 ˆ G id , ˆ G exp 分别是身份/表情分支的输出。融合模块的损失函数为：L rec = ∥ F ( G cat ) − G ori ∥ 1，(4)0连接层作为编码器-解码器结构。该结构用于获取潜在身份表示。0输出应接近 M id 的 DR特征。表情分支上应用相同的结构和原理来获取表情网格 Mexp。我们为每个分支的编码器-解码器部分使用瓶颈层作为相应属性的新紧凑参数空间。这两个分支完成了如图2所示的属性解缠任务。0我们将 G id 表示为身份网格 M id 的变形表示，G exp表示表情网格 M exp的变形表示。为了控制潜在空间中的分布，我们在训练每个分支时使用变分策略。设 D id 和 D exp分别为身份和表情提取的解码器，z id 和 z exp为每个分支的潜在表示，损失项定义如下：0其中 L id 和 L id kld分别是身份重建损失和Kullback-Leibler（KL）散度损失，Lexp 和 L exp kld是表情属性的对应损失。KL损失对潜在向量 Q ( z )的分布施加了一个均值为零的单位高斯先验 N (0 , 1)。03.3. 融合网络0作为一种表示，从分解的身份和表情属性中重建原始输入是必要的。因此，我们自然地提出了一个融合模块，将身份和表情网格对 ( M id , M exp )进行合并以进行重建。该模块进一步保证了我们的分解在某种意义上是无损的。由于网格三元组是同构的，我们可以通过将身份和表情网格的顶点特征连接起来得到一个新的图。新图与原始输入具有相同的边集和顶点集，除了每个顶点上的连接的 2d 维特征。融合模块旨在将具有 R 2d的顶点特征的新图转换为具有 Rd（原始输入）的同构图。我们还应用谱图卷积和激活层来实现这个目标。现在，设 G cat = [ ˆ G id , ˆ G exp ]为连接的新图特征，G ori 为原始网格 M 的特征。这里 ˆ Gid , ˆ G exp分别是身份/表情分支的输出。融合模块的损失函数为：Lrec = ∥ F ( G cat ) − G ori ∥ 1，(4)0其中 F 代表融合网络。03.4. 训练过程0我们首先按顺序预训练分解网络和融合网络。然后我们以端到端的策略训练整个网络。在端到端训练步骤中，Ldis = ∥Dexp(Eexp( ˆGid)) − ¯G∥1 + ∥Did(Eid( ˆGexp)) − ¯G∥1,(5)Ltotal = Lrec + Ldis + Lid + Lexp+αid kldLid kld + αexp kldLexp kld.(6)mesh, we compute the average shape of the same expres-sion belonging to 140 subjects and deﬁne the output 47 ex-pressions as the ground-truth meshes on mean face. Theseoperations can also be applied to other 3D face shape datasets.Our algorithm is implemented in Keras [15] with Tensor-ﬂow [1] backend. All the training and testing experimentswere tested on a PC with NVIDIA TiTan XP and CUDA8.0.We train our networks for 50 epochs per step with alearning rate of 1e-4, and a learning rate decay of 0.6 ev-ery 10 epochs. The hyper-parameters αid kld, αexp kld areset as 1e-5.σ(vi) =��|119610我们以以下形式添加解缠损失：0其中 ¯ G 是平均中性脸的特征，如图 2所示。解缠损失确保身份部分不包含表情信息，表情部分不包含任何身份信息。总之，完整的损失函数定义如下：0数据增强我们使用FaceWare-House[13]数据集训练我们的模型，该数据集包括每个身份的150个身份和47个表情。在我们的实验中，由于身份数量非常少，在身份分解分支的训练过程中存在过拟合问题。我们开发了一种新的数据增强方法来解决这个过拟合问题。给定训练集中的 m个身份样本，我们通过在这些身份样本之间进行插值来生成新的3D面部网格。这些身份样本的解缠表示(DR)特征表示为 ( DR 1 , DR 2 , . . . , DR m )。我们生成新的DR特征并从这些新的DR特征重构3D面部网格。我们在极坐标系中创建一个均匀分布向量 ( r, θ 1 , . . . ,θ m − 1 ) ，其中 r 遵循均匀分布 U (0 . 5 , 1 . 2)，其他遵循均匀分布 U (0 , π/ 2)。我们将上述极坐标转换为笛卡尔坐标 ( a 1 , . . . , a m )，并通过 � m i =1 a i DR i 对采样的 m个DR特征进行插值。这些 m个特征是从训练数据集中的自助样本。这种数据增强方法可以通过只使用训练集中的几个样本创建各种3D面部，并且可以解决过拟合问题。在我们的实验中，我们设置 m = 5，并生成 10000个新的3D面部网格（请参见补充材料中的一些示例）进行训练。04. 实验0在本节中，我们首先介绍我们在 4.1中的实现细节。然后我们将介绍用于测量重建和解缠准确性的几个度量标准在 4.2 中。最后，我们将在第 4.3 和 4.4节中展示我们在两个不同数据集上的实验，包括消融研究和与基线方法的比较。04.1. 实现细节0首先，我们介绍生成地面真实身份和表情网格的数据准备过程。以FaceWareHouse为例，主体的中性表情代表他/她的身份网格。至于表情网格，我们计算属于140个主体的相同表情的平均形状，并将输出的47个表情定义为在平均脸上的地面真实网格。这些操作也可以应用于其他3D面部形状数据集。我们的算法在Keras[15]中使用Tensorflow [1]后端实现。所有的训练和测试实验都在一台配备NVIDIA TiTan XP和CUDA8.0的PC上进行。我们以学习率为1e-4，学习率衰减为0.6，每个步骤训练50个时期。超参数 α id kld ， αexp kld 设置为1e-5。01 可在 https://github.com/zihangJiang/DR-Learning-for-3D-Face 上找到04.2. 评估指标0我们方法的主要目标是将给定的3D面部形状分解为身份和表情部分，尽可能准确地实现高3D形状重建精度。因此，评估标准是基于这两个方面设计的。04.2.1 重建测量0我们采用两种度量方法来评估3D形状重建的准确性。平均顶点距离重建网格 M' 和原始网格 M 之间的平均顶点距离 Eavd 定义如下：E avd (M, M') = 1 |V| � |V| i =1 ∥ v i − v ′i ∥ 2 。感知误差由于 E avd 不能反映感知距离[16,39]。在[39]中，提出了空间-时间边缘差异来通过动态网格的局部误差来测量感知距离，而不依赖于其绝对位置。在本工作中，我们采用空间边缘差异误差 E sed来测量感知误差。设 e ij 是原始网格 M 中连接 v i 和 v j的边缘，边缘 e ′ ij 是重建网格 M' 中对应的边缘，则相对0边缘0∥ e ij ∥ | 围绕0� j ∈N i l ij ed ( e ij ,e ′ ij ) � j ∈N i l ij，其中 l ij 是边缘 e ij的边长。因此，顶点 v i 周围的局部偏差可以表示为0j ∈N i l ij ( ed ( e ij , e ′ ij ) − ¯ ed ( v i )) 20j ∈N i l ij . (7)0我们计算所有顶点上的平均局部偏差，并得到空间边缘差异误差：0E sed = 10|V| �0i =1 σ ( v i ) 。 (8)0E sed的值越小，感知结果越好。119620方法 E avd E sed E id E exp0平均误差中位误差平均误差中位误差0双线性[13] 0.993 0.998 0.0243 0.0183 0.477 0.472 0.527 0.484 FLAME[25] 0.882 0.905 0.0144 0.0074 0.329 0.3280.711 0.630 MeshAE[31] 0.825 0.811 0.0151 0.0777 - - - -0我们的无DR和融合 0.981 1.292 0.177 0.0938 0.395 0.380 0.170 0.160 我们的无DR 0.939 0.836 0.447 0.388 0.446 0.4630.0992 0.0750 我们的无融合 0.661 0.579 0.00283 0.0000 0.183 0.178 0.0582 0.0494 我们的 0.472 0.381 0.003330.0000 0.121 0.121 0.0388 0.02670表1. Facewarehouse上的定量结果。所有数字以毫米为单位。DR：变形表示；Fusion：融合模块。04.2.2 分解测量0为了衡量3D人脸形状的分解表示，我们提出了一种度量方法，用于从具有相同身份和不同表情的模型中重建身份网格，以及从具有不同身份和相同表情的模型中重建表情网格。以身份部分为例，我们将{Mi}表示为包含同一人的一系列表情的测试集。一个好的分解方法应该将{Mi}分解为几个相似的身份特征和各种表情特征。此外，从这些身份特征重建的网格应该相互相似，因此重建身份网格{Miid}的标准差适合用于评估分解表示的能力。对于由相同表情和不同身份组成的其他测试集{Nj}也是如此。因此，分解度量定义如下：0E exp = σ({N j exp}), (9)0其中，{M i id}和{N j exp}是测试集{M i}和{Nj}的重建身份和表情网格，σ是标准差运算符。该度量采用顶点距离。04.3. FaceWareHouse上的实验[13]0FaceWareHouse是由Cao等人开发的广泛使用的3D面部形状数据集，包括150个不同身份的47种表情。从Facewarehouse数据集中很容易获得训练三元组。我们对我们的框架进行消融研究，并将我们的方法与广泛使用该数据集的双线性模型进行比较。在这一部分的所有实验中，我们选择了前140个身份及其表情面部形状来构建训练集，剩下的10个身份用于测试。04.3.1 基准比较0双线性模型Cao等人[13]提出了2模张量乘积形式来表示3D面部形状：0M = C r × 2 α id × 3 α exp (10)0其中C r是包含HO-SVD分解产生的原始张量左上角的降维核张量，α id 和α exp是身份和表情权重的行向量。推荐将身份和表情子空间的适当降维维度分别设置为50和25[13]。对于给定的3D面部形状，可以通过将交替最小二乘（ALS）方法应用于张量收缩来优化α id 和α exp。我们像在4.2.2中使用的那样表示为{M i }，并为每个M i优化(α i id, α i exp)。使用身份参数α iid和中性表情参数重建身份网格，并使用平均面部身份和表情参数α i exp重建表情网格。FLAMELi等人[25]通过使用线性混合蒙皮来表示包括身份、表情、头部旋转和偏航运动的3D面部形状，取得了最先进的结果。为了比较，我们使用身份模型和表情模型训练FLAME。MeshAE Anurag[31]提出了一种用于3D面部形状嵌入的谱图卷积网格自编码器（MeshAE）结构。我们还评估了该模型在FaceWareHouse数据集上的重建能力，因为它对整个形状的3D面部进行编码，而不是将身份和表情分离。为了公平比较，我们将我们的潜空间（身份z id 和表情z exp）的维度分别设置为50和25，与双线性模型和FLAME相同。Mesh AutoEncoder（Me-shAE）的潜空间大小设置为75。定量结果见表1。我们的框架在每个评估中都取得了更好的结果。我们还在图3中展示了我们在身份和表情分解方面的视觉结果。视觉结果和数值结果证明，我们的解耦学习不仅实现了更好的重建精度，而且还整洁地解开了表情和身份属性。04.3.2 消融研究0在我们的框架中，我们有两个新颖的设计，包括3D面部形状表示和融合网络，它们极大地提高了我们方法的表示能力。为了研究FLAME [25]2.0011.615119630图3.身份和表情分解的结果。从上到下依次给出原始和提取的身份和表情成分。我们展示了两个主体的样本。0为了评估这两种设计的有效性，表1展示了我们学习方法的变体，其中w/o是without的缩写。接下来，我们将我们设计的框架与其他实现策略进行比较。我们采用了一种新颖的基于顶点的变形表示方法[20]来表示3D面部形状。另一种直接使用欧几里得坐标作为[31]中的方法的简单方法。在表1中报告了不使用DR的结果。我们流水线中的另一个新颖设计是融合网络。融合模块的一个自然替代品是将3D面部表示为像3DMM[4, 26]这样的复合模型：G = ¯G + D id (z id)+ D exp (zexp)，其中¯G是平均面部的特征。不使用融合的结果显示在表1中。我们还报告了不使用这两种设计的错误。从消融研究中可以观察到，DR和融合网络都极大地提高了性能。DR在平均顶点距离误差评估中显著提高了我们模型的性能。融合模块有助于更自然地解开表情，即在Eexp中实现更小的误差。在考虑到所有评估指标时，我们的方法仍然比其他比较测试取得了更令人满意的结果。04.4. 在COMA数据集上的实验[ 31 ]0最近，Anurag等人发布了包含20,466个3D人脸模型的COMA数据集。该数据集是使用多摄像头主动立体系统以60fps捕获的，其中包含12个身份执行12种不同的表情。COMA数据集用于构建非线性的3D人脸表示[ 31]，它将整个3D人脸形状编码和解码为一个潜在空间中的向量，而不考虑身份和表情属性。0平均误差平均误差中位误差0我们的方法 1.643 1.5360表2. COMA数据集上的外推结果。所有结果以毫米为单位。0考虑身份和表情属性。我们通过使用COMA数据集训练我们的模型来评估对表情的外推能力。然而，与FaceWareHouse数据集不同，COMA数据集中的形状模型没有指定表情标签。我们手动选择了12个具有代表性表情的模型，用于所有12个身份。对于剩余的每个形状模型，原始模型与其身份模型之间的DR特征残差在训练过程中用于监督。0为了衡量我们模型的泛化能力，我们对一个表情进行了12次交叉验证。对于我们的方法，我们将潜在向量大小设置为8，其中4个用于身份，4个用于表情。我们将我们的方法与FLAME进行比较，FLAME是一种具有分解属性的最先进的3D人脸模型表示。为了比较，FLAME用于表情模型，并分别获得了8个组成部分的身份和表情。0我们将我们的方法与FLAME在表情外推实验中进行比较，并在表2中报告了所有12个交叉验证实验的平均顶点距离。可以观察到，与最先进的FLAME方法相比，我们的方法在外推实验中获得了更好的泛化结果。所有12个表情外推交叉验证实验的结果见补充材料。04.5. 对较大数据集的讨论0在进行3D视觉学习方法时存在一个长期存在的问题，即缺乏3D数据。最近，越来越多的方法提出了解决这个问题的解决方案，例如通过非刚性配准组合多个数据集。在我们的框架中，我们采用了一种新颖的数据增强策略，通过DR特征的插值/外推来实现。我们还在一个大规模数据集上设计了一个实验。我们通过将Bosphorus [ 32]转换为网格并与FaceWareHouse（FWH）组合来创建一个更大的数据集。我们在三个不同的训练数据集上评估我们的方法：原始FaceWareHouse，FWH和Bosphorus的组合，以及DR增强的FWH。表3显示了比较结果。我们的增强策略在所有方面都获得了最佳分数，这表明它极大地提高了模型的稳定性和鲁棒性。我们希望我们的数据增强策略能够造福3D视觉社区。ℳ𝟎ℳ𝟏 0 mm>8 mm119640数据集 E avd E sed E id E exp0原始FWH 18.3/18.0 0.05/0.03 1.4/1.4 0.5/0.30组合 16.9/16.6 0.06/0.03 1.6/1.6 0.5/0.40DR增强 4.7/3.8 0.03/0.00 1.2/1.2 0.4/0.30表3.更多定量结果。表格给出了我们在不同数据集上的结果：原始FWH，Bosphorus和FWH的组合（Combination）以及我们的DR增强FWH。所有数字以0.1毫米为单位。0表情代码0图4.在潜在空间上探索插值结果。基于我们的方法，我们可以获得两个3D人脸模型M0和M1的身份和表情代码，并且我们分别插值潜在身份和表情向量，步幅为0.25。0源目标双线性真值我们的方法0图5. 表情转换应用. 与双线性模型相比,我们的方法实现了更自然和稳定的视觉效果. 5.应用0基于我们提出的三维人脸形状分解表示,我们可以将我们的模型应用于表情转换和人脸识别等许多应用中. 在接下来的部分中,我们首先展示了我们的方法在表情转换方面比传统方法取得更好的性能,然后展示了我们的模型在训练的身份和表情潜在空间中的形状探索结果.05.1. 表情转换0表情转换的标准解决方案[ 40 , 11 , 36]是将表情权重从源脸部转移到目标脸部.我们随机选择FaceWareHouse测试数据集中的两个身份,比较双线性模型和我们的方法的表情转换结果.对于双线性模型, 我们首先解决参考模型的身份和表情参数,然后将表情参数从源脸部转移到目标脸部. 在我们的方法中,我们直接将源脸部的潜在表情编码应用于目标脸部.图5显示了一些结果.FaceWareHouse数据集中目标对象上的相应表情被视为真值.可以很容易地观察到我们的方法可以实现更自然和准确的性能, 在定量误差评估中, 我们的结果更接近真值.05.2. 潜在空间插值0我们的分解表示包括身份和表情的两个潜在编码.利用学习到的潜在空间,我们可以通过逐渐改变身份和表情来插值模型.插值操作应用于潜在编码,并且模型通过训练好的解码器从生成的编码中恢复.在这个实验中,我们分别在身份和表情上以0.25的步长插值潜在编码,因此我们可以观察到插值结果是有意义和合理的,如图4所示.06. 结论0我们提出了一种用于三维人脸形状的分解表示学习方法.给定一个三维人脸形状,可以准确地将其分解为身份部分和表情部分.为了有效地解决这个问题,我们提出了一个精心设计的框架来训练分解网络和融合网络.为了更好地表示非刚性变形空间,输入的人脸形状被表示为基于顶点的变形表示,而不是欧几里得坐标.我们通过消融研究和广泛的定量和定性实验证明了所提出方法的有效性.基于我们的分解表示的表情转换等应用与传统方法相比展现出更自然和准确的结果. 致谢我们感谢KunZhou等人和ArmanSavran等人允许我们使用他们的三维人脸数据集.作者们得到了中国国家重点研发计划(No.2016YFC0800501), 国家自然科学基金(No.61672481)和中国科学院青年创新促进会(No.2018495)的支持. 本项目由华为公司资助.[29] FedericoMonti,DavideBoscaini,JonathanMasci,Emanuele

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

3D人脸形状的解耦表示学习

人脸表情模型学习

三维人脸模型构建和显示

对抗学习和解耦表示学习之间的关系

decoupled head解耦头的优点

YOLOX解耦检测头

前馈解耦控制simulink

控制过程中，什么时候可以静态解耦，什么时候动态解耦

什么是多模态特征解耦？

yolov7加解耦头

解耦控制算法csdn

yolov5 解耦头

bp神经网络用于解耦

解耦变量中的数据具有周期性变化适合解耦吗

yolov7添加解耦头的作用

vue 父子组件解耦

decoupled head解耦头会增加参数量和计算成本吗

yolov8的解耦头

状态空间方程解耦控制matlab

SMIth前馈解耦模糊PID

解耦检测头decoupled head

最新资源