基于对抗训练的解耦3D人脸模型的生成与多样性优于竞争方法

183 浏览量更新于2023-10-12 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9419一种基于对抗训练的解耦三维人脸模型VictoriaFer na'ndezAbr ev ay a1，AdnaneBoukhaym a2，Ste f anieWuhre r1，EdmondBo ye r11 Inria - Univ.格勒诺布尔阿尔卑斯- CNRS - LJK，法国{victoria.fernandez-abrevaya，stefanie.wuhrer，edmond.boyer}@ inria.fr2英国牛津大学adnane. eng.ox.ac.uk摘要数据驱动的生成3D人脸模型用于将人脸形状数据完整地编码为有意义的参数表示。这些模型的一个理想属性是它们能够有效地分离变异的自然来源，特别是身份和表达。虽然已经为此目的提出了因子分解表示，但它们仍然限制了它们可以捕获的可变性，并且在应用于诸如表达式传输之类的任务时可能会呈现建模工件。在这项工作中，我们探索了一个新的方向与生成对抗网络，并表明他们有助于更好的人脸建模性能，特别是在解耦自然因素，同时也实现了更多样化的样本。为了训练模型，我们引入了一种新的架构，该架构将3D生成器与利用传统CNN的2D生成器相结合，其中两个组件通过几何映射层桥接。我们进一步提出了一个训练方案，基于辅助分类器，明确地解开身份和express- sion属性。通过对标准人脸数据集的定量和定性结果，我们说明了我们的模型的好处，并证明它在解耦和多样性方面优于竞争对手的最先进的方法。1. 介绍3D形状的生成模型由于其提供紧凑表示的能力而被广泛使用，所述紧凑表示允许根据自然因素合成现实形状及其变化这对于其3D形状跨越低维空间的面部尤其如此，并且对于其，生成模型通常用作解决欠约束问题（诸如从部分数据重建）的强先验。鉴于面部形状呈现自然的变化因素（例如，身份和表达），以解耦的方式对这些进行建模是一个重要的方面，因为它允许在执行推理或合成任务时合并语义控制。在中具有可解释的表示变化的预定义因素的术语打开了几个应用程序的大门，例如3D面部动画[41，21]，准确的表情转移[22，38]，识别[1]和人工数据合成[33]。自从Blanz和Vetter [4]的开创性工作以来，已经提出了许多方法来构建3D面部的数据驱动生成模型。最常见的是，不同身份之间的变化通过线性形状统计（如PCA）建模[4，5]。当需要考虑表达式时，身份和表达式子空间通常被建模为两个独立的线性因子，它们被相加组合[1]。在实践中，当在非常不同的面部形状之间传递表情时，这可能产生假象，这是一个必须明确考虑的问题，例如，[38]第30段。多线性模型[40，8，13]通过考虑结合两个空间的张量分解来呈现相对的改进，但是训练需要一个完整的标记数据张量，这在实践中很难获得，并且通过简单地切换潜在系数来传输表达式仍然会呈现伪影[17]。为了放松3D人脸建模中的线性假设，最近提出了具有自动编码器架构的深度生成模型。它们在建模几何细节[3]、面部表情中存在的非线性变形[29]以及增加对不同类型捕获噪声的鲁棒性[13]方面表现出了优势。然而，除了[13]之外，这些方法都没有解耦变化因素，其中需要使用完全标记的数据进行初始化，其大小在所考虑的因素数量中呈指数级增加。在这项工作中，我们研究了生成对抗网络（GAN）[16]在3D人脸建模中的使用，并提供了关于其学习解耦表示能力的见解。特别是，我们与最近基于自动编码器架构的方法的比较[13，29]表明，我们提出的方法可以更好地解耦身份和表达，并在生成的数据中表现出更多的可变性。虽然目前的深度学习技术已经表明，9420虽然在图像领域取得了令人印象深刻的结果，但将这些结果扩展到3D数据并不简单。我们提出了一种新的3D-2D体系结构，其中多层感知器在给定潜在代码的情况下生成3D人脸形状，而常规卷积网络用作2D人脸。这是通过将3D表面网格变换成编码网格顶点位置的几何图像的中间几何映射为了有效地解耦变化因素，我们建立了辅助分类器[27]，旨在正确猜测与每个因素相关的标签，例如。识别和表达，并引入未标记样本的分类器特征的损失。概括起来，我们的贡献是：1. 一个生成的3D人脸模型，捕捉由于表达，以及身份和表达子空间之间的关系的非线性变形。2. 一种新型的3D-2D架构，通过引入一个几何映射层作为两个域之间的桥梁，允许生成3. 一种训练方案，其能够有效地解耦变化因素，导致相对于现有技术的显著2. 相关工作由于3D人脸建模对于许多应用的重要性，已经提出了许多工作来学习生成模型。我们在这里专注于数据驱动的方法，在文献中通常称为 3D 变形模型（ 3DMM ）。 Blanz 和 Vetter [4] 使用主成分分析（PCA）来学习以中性表情扫描的不同身份的面部形状和外观的分布。为了处理其他表达式，后续的工作通过添加线性因子[1]或将PCA扩展为多线性模型[40]来对其进行由于它们的简单结构，这些模型仍然被大量使用，并且最近通过从大型数据集[5]训练，建模几何细节[26，6，7]以及包括其他变体（如骨骼旋转[25]）进行了扩展。用于3D人脸的自动编码器最近的工作利用深度学习方法来克服（多个）线性模型。Ranjan等人[29]提出了一种自动编码器架构，它学习3D人脸的单个全局模型然而，提出了一种名为DeepFLAME的扩展，它将身份的线性模型[25]与在表达式位移上训练的自动编码器相结合。虽然表达式是非线性建模的，但身份和表达式之间的关系没有明确解决。Fern a´ ndezAbr ev ayaetal. [13]开发了一种多线性自动编码器（MAE），其中解码器是多线性十-排序结构。虽然这两个空间之间的关系是占，转移表达仍然呈现人为因素。此外，为了实现收敛，张量需要适当地初始化，这意味着初始化所需的标记训练数据的大小随所考虑的因子的数量呈指数增加。我们将我们提出的方法与DeepFLAME和MAE进行比较，因为它们在解耦身份和表达变化方面取得了最先进的结果。Bagautdinov等人[3]提出了一个多尺度模型的三维人脸在不同层次的几何细节。两个最近的作品[39，37]使用自动编码器来学习3D面部的全局或校正变形模型及其基于2D训练数据的外观。然而，这些方法都不与上述工作不同，我们研究了使用GAN来学习3D人脸的解耦模型。3D人脸的GAN最近的一些工作提出将3DMM与通过对抗学习获得的外观模型相结合。Slossberg等人[35]在对齐的面部纹理上训练GAN，并将其与线性3DMM相结合以生成逼真的合成数据。Gecer等人[15]训练一个类似的模型，并表明GAN可以用作纹理先验，以准确拟合2D图像。Deng等[10]将3DMM拟合到图像中，并使用GAN来完成生成的UV贴图的缺失部分。所有这些方法都依赖于线性3DMM，因此形状空间的表现力有限。虽然重点是改善外观，但我们遵循不同的目标，采用了一种通用的形状模型，将身份和表达结合起来。据我们所知，使用GAN学习3D面部形状变化的唯一工作是[33]，这是[35]的扩展。作者提出通过在几何图像上训练GAN来学习身份变化，但与我们的工作不同，他们没有对由于表达引起的非线性变化以及身份与表达之间的相关性进行建模，因为主要关注的是外观。其他两种方法学习使用GAN用光度信息增强输入3D面部给定一个纹理贴图和一个粗糙的网格，Huynhetal.[20]用精细的尺度细节来增强后者，并给出输入图像和基础网格，Yamaguchi等人。[42]推断出详细的几何形状和高质量的反射率。这两项工作都需要输入条件，与我们不同的是，它们不会构建生成的3D人脸模型。3. 背景生成式对抗网络[16]基于极大极小博弈，其中，针对竞争目标优化了一个生成器D和一个生成器G。鉴别器的任务是学习真实和虚假样本之间的差异，而生成器则经过训练以最大化错误样本。9421C图1：我们提出的架构。MLP生成网格的3D坐标，而由于几何映射层，区分发生在2D空间身份和表达式代码zid，zexp用于控制生成器，并添加分类损失以在两者之间解耦。引入特征丢失以确保具有固定标识或表达式的特征的一致性。鉴别器的使用在收敛时，G近似真实数据分布。培训涉及以下方面的优化最小值最大值LGAN=Ex最大值数据[logD（x）]G D+Ez<$pz[log（1−D（G（z）]，（1）其中p数据表示训练集的分布，并且pz表示G的先验分布，通常为N（0，I）。GAN已经被证明是非常具有挑战性的训练与原始配方和容易在生成的样本低多样性。为了解决这个问题，Arjovskyet al. [2]建议最小化生成的和真实数据分布之间的地球移动器距离的近似值LGAN=Expdata[D（x）]−Ezpz[D（G（z））]。（二）特别地，我们使用[19]中的扩展，其使用梯度惩罚以强制D是1-Lipschitz。当标签可用时，使用它们已被证明有利于GAN性能。 Odena 等人 [27]提出的辅助分类器 GAN （ AC-GAN），其中D被增强，使得它输出图像属于预定义的类标签c_p_c。在这种情况下，G和D的损失函数扩展为：4. 方法我们考虑作为输入的注册和严格对齐的三维面部网格的数据集，其中每个网格由（V，F）定义，3D顶点的集合V∈R3×nv和连接顶点的三角形F∈N3×nf。我们目标是建立一个表达模型，可以解耦基于已知的变化因素的表示。与其中重构误差被优化的经典方法相反，我们依赖于由卷积鉴别器实现的对抗性损失为此，我们引入了一种架构，其中几何映射层作为生成的3D网格和2D域之间的桥梁，可以应用卷积层（第4.1节）。为了学习解耦参数化，我们建立在辅助分类器的思想基础上，并引入特征损失以进一步改善结果（第4.3节）。我们将在这里考虑一个在身份和表达之间相互交织的模型，然而这个原则可以很容易地扩展到更多的因素。Lreal=Exp数据，cpc [log P（C = c|（x）]、（3）Lfake=Ezp，cp[logP（C= c|G（z，c））]。（四）CZ C为了评估模型是否正确解耦，我们需要能够区分共享相同潜在代码的两个标识或表达式是否在感知上相似。因此，我们的工作建立在辅助分类器的思想上，以便学习将形状变化解耦为因子，这将在下一节中解释。（a）几何图像 (b)原始和重建网格图2：虽然GAN可以用于生成几何图像，但从它们恢复网格容易产生伪影，例如2b中的错误边界插值（红色）和精度损失（蓝色）。在这项工作中，我们生成的三维网格，而几何图像只用于歧视。9422CCLCL4.1. 几何图形映射图层虽然深度学习可以有效地用于规则采样的信号，例如2D像素网格，但由于其不规则的结构，将其应用于3D表面更具挑战性在这项工作中，我们建议使用多层感知器生成网格的3D坐标，而在2D图像域中处理判别方面。这允许受益于高效且良好建立的架构，这些架构已被证明在对抗训练下表现良好，同时仍在其自然域中生成3D形状。特别地，网格的2D表示可以通过UV参数化Φ：V-D来实现，该UV参数化Φ：V-D将每个顶点vk∈ V与单位正方形域D中的坐标（u，v）k相关联。连续的图像可以是ob-通过根据2D重心坐标内插（x，y，z）顶点值并将其存储在图像通道中来获得借用[18]中的术语，我们称之为几何图像（见图2a）。注意，尽管我们的方法可以生成几何图像而不是3D网格，但这将引入不必要的额外重建步骤，这可能导致最终网格中的信息丢失和伪影，如图2b所示。这是因为网格的单个平面展开可能会产生诸如三角形翻转的失真[34]，并且由于图像的有限大小，即使使用双射参数化也此外，如[18]中所述，除非边界顶点被预先分配给不同的像素，否则对这些位置进行采样会导致错误的插值，这对于大型网格来说可能是一个挑战。相反，生成3D点坐标允许避免重建伪影，并应用简化和改进学习过程的常见网格正则化技术。我们仅使用几何图像作为通过CNN评估3D生成器的判别组件的表示。映射层的操作如下。给定网格在IU和IV中使用预定义的参数，所有操作都是可微分的，并且梯度可以从被鉴别的图像反向传播到所生成的网格。4.2. 架构图1描述了我们提出的架构。生成器由两个完全连接的层组成，这两个层将潜在代码z映射到包含来自参考面网格的位移的堆叠的3D坐标的大小为3nv输出的顶点位置通过映射层生成一个大小为n×n的几何图像，然后由鉴别器进行处理，以便进行分类生成的网格是真的还是假的。我们还考虑sider辅助分类器的搜索引擎，表示为Cid和Cexp。D的设计显示了与原始AC-GAN的两个主要差异。首先，而不是只对一种类型的标签进行分类，我们在这里使用分类器用于身份和表达。这有利于解耦，因为一个因素的分类独立于其他因素的标签的选择。其次，我们为真/假、身份和表达式块提供不同的卷积层。这是由于观察到对身份和表达进行分类所需的特征不一定相同。4.3. 解耦模型学习我们不仅依赖于生成真实的面孔，而且还解耦变化的因素。为此，我们优化D，使其最大化LD=LGAN+λC（LID+ LEXP）。（六）这里，LGAN表示标准对抗损失（参见等式2），LID、LEXP表示针对数据集提供的标签测量的分类损失，由标量λC加权。这些损耗与等式3类似地定义为：由顶点V={vk/k=1. nv}、目标图像大小n×n和预先计算的UV参数化φ，我们构建了两个维度为n × n的图像I U、I V和三个维度为n× n的图像I U、I V。LID=ExpLEXP=ExEXP数据data，cpid [log P（C = c|X）]，，cpexp[log P（C = c|x）]、（7）Iv1，Iv2和Iv3都是n×n×3对于每个像素其中，p_id和p_exp表示恒等式的分布，C c（i，j），我们考虑φ-投影网格三角形（v？1，v？2，v？3）包含它。然后将三角形（v（1，v（2，v（3））中的像素（i，j）的重心横坐标和纵坐标分别存储在图像IU和IV中，并且将原始面部顶点坐标v1，v2和v3存储在图像Iv1，Iv2和Iv3中。映射层将输出几何图像I计算为：I=IU<$Iv1+IV<$Iv2+（1−IU−IV）<$Iv3，（5）表达式标签。如果没有标记，我们忽略分类损失中的样本一致性。生成器G将随机向量z={z_id，z_exp，z_noise}，其是识别码z_id_exp_id、表达式码z_exp_exp和随机噪声z_noise_exp_noise的级联。它从一个参考网格中产生nv个位移向量的位置，通过最小化训练：其中，n表示逐元素乘法，1∈Rn×n是一的矩阵。因为这一层只是在-.LG=λ1LGAN−λ2id.经验值CL（八）对V的元素进行定向和线性组合+λ3ID壮举exp壮举Σ+λ4L reg，+LL+L94232壮举其中LGAN是标准GAN损耗（等式2）;使用网格连接性的损失函数特别是expCLidexp.L CL 分类损失;L功能关于LFEAT 是旨在进一步增加因素解耦的特征损失; L_reg是正则化子;λ1、λ2、λ3、λ4是不同损失项的权重。我们将在下文中解释其中的每一个。除了对抗性损失之外，生成器还经过训练，通过最大化以下内容来使用正确的标签对其样本进行分类：我们通过以下方式在生成的面部上实施空间一致性：最小化输出位移v=G（z）：Lreg= ||Lv||第二条，第十二条其中L是Laplace- Beltrami算子的余切离散化。5. 结果L id= Ezp，cpid [log P（C = c|G（z））]在本节中，我们提供了使用亲-CLzcLexp=Ezp，cpexp[logP（C = c|G（z））]。（九）提出的框架，这表明其好处，特别是-CLz c为了生成属于特定类别的数据，我们对每个标签采样一个身份/表达代码z_id，z_expr，并在整个训练过程中固定它;每次必须评估分类损失时，这成为G的输入我们表示单位和表达式的固定码的集合分别作为Tid和Texp特征损失分类损失仅限于Tid/Texp中的代码，这些代码具有相关的标签。我们发现，如果我们包括一个损失，可以得到更好的解耦结果分类器的特征。我们通过成对生成共享相同身份或表达向量的样本来测量这一点，并测量误差为：在解耦方面。我们首先通过第5.1节中的实现细节和5.2中使用的数据集来阐明我们的设置。我们在第5.3节中解释了用于评估3D人脸模型的拟议指标，并介绍了一种用于分析所生成样本的多样性的新措施在第5.4节中，我们进行了消融研究，以验证有效训练表达模型所需最后，在第5.5节中，我们将我们的结果与可以解耦潜在空间的最先进的3D人脸模型进行了比较，并表明我们的方法在解耦和多样性方面表现出色其他结果见补充材料。5.1. 实现细节ID壮举2Σ=（1−cos（fNZID1，zid，f2，zid）），（10）我们将权重设置为λC=0。1（等式6），λ1=λ2=1，λ3=0。5且λ4=100（等式8）。分类损失进一步加权，以说明不平衡exp2Σ。标签[23]。对于发电机，我们使用两个完全连接的L特征=Nzexp1−cos（f1，zexp，f2，zexp）.（十一）具有大小为512的中间表示的层，ReLU非线性。对于鉴别器，我们使用一个变体在这里，N是的批size，以及fi，zid=f（G（zid，zexp，i，znoise，i））是通过经由分类器Cid输入样本G（zid，zexp，i，znoise，i）并且从第二层到最后一层提取特征而获得的特征向量。也就是说，给定生成的两个输入DC-GAN [28]的卷积块，其中前两个卷积块在Creal、Cid和Cexpr之间共享，而剩余的卷积块针对每个模块被复制（更多细节可以在补充中找到）。使用ADAM优化器[ 24 ]对模型进行了200个epoch的训练，其中β1=0。9和具有相同的单位向量Lid强制执行其β2= 0。999，学习率为0。0002，批量为64。身份分类器中的特征向量也被对齐。定义类似于fi，zexp和Cexp。同时使用分类和特征进行训练损失，对于每个批量迭代，我们交替使用未标记表达式代码zexpexp对标记身份代码zid∈ Tid进行采样，以及使用标记表达式代码zexp∈ Texp对未标记身份代码zidpid进行采样。分类仅针对标记因子进行评估，而特征损失用于unla。beled码，并且交替允许在训练期间更好地覆盖身份和表达子空间。正则化生成3D网格允许我们在表面级别明确地推理并定义高阶在训练过程中，我们添加实例噪声[36]，其中σ = 0。1至D.每次我们训练生成器时，都会对训练器进行3次迭代。这些模型在NVIDIA GeForce GTX 1080 GPU上训练大约需要2模板网格包含22129个顶点。我们使用调和参数化[12]预先计算UV映射φ，将外边界面顶点设置为单位正方形以确保图像域的充分利用。我们生成了64×64的几何图像;我们对其他图像尺寸进行了实验，但在此分辨率下获得（z_id，z_exp，z_noise）的维度被设置为（65，15，5）以便于与[13]进行比较，并且在等式10和11中使用的特征向量的大小为2048。L9424IDexp噪声IDexp噪声5.2. 数据集所有模型都使用四个公开可用的3D人脸数据集的组合进行训练。特别地，我们使用两个数据集，其包含多个子区域的静态3D扫描：BU-3DFE [44]和Bosphorus[31]，并将其与多个受试者的3D运动序列的两个数据集相结合：BP 4D-自发[45]和BU-4DFE [43]。静态数据集提供身份的可变性，而运动数据集提供表情的可变性和大量的训练样本。我们使用模板拟合方法[30]配准BU-3DFE和Bosphorus，并使用时空方法[14]配准运动数据集。最终的数据集包含30559注册的3D人脸，并通过二次采样的运动序列。我们为所有网格提供标识标签，而表达式标签仅限于出现在两个静态数据集中的七种基本情感表达对于BU-4DFE，表达式标签被分配给每个序列的三个帧：将中性表达用于第一帧和最后一帧，将序列的标记表达用于峰值帧。对于BP4D，每个受试者手动标记一个中性帧（这是与[29]进行比较总体而言，由于使用了运动数据，只有7%的数据被分配了表情标签。5.3. 评估指标我们评估的模型的多样性的生成的样本，解耦的身份和表达空间，和特异性的三维面部形状。我们认为有必要同时考虑所有指标，因为它们提供了关于模型的补充信息。例如，当多样性差时，可以获得良好的解耦值，因为小的变化有助于将样本分类为相反，当解耦差时可以获得大的多样性值，因为共享相同代码的恒等式/表达式可以产生非常不同的形状。我们在下面详细介绍这些。多样性我们认为测量模型生成的3D人脸形状的多样性非常重要，特别是使用已知易于发生模式崩溃的GAN。据我们所知，这尚未在3D人脸模型的上下文中考虑，因此我们提议如下评估。我们对p对随机生成的网格进行抽样，计算每对网格之间的平均顶点距离;然后将分集定义为p对上的距离的平均值。我们希望在这里看到更高的价值更多样化的模式。我们评估了三组采样对：（1）在随机选择的对之间（全局多样性），（2）在共享相同身份码的对之间（身份多样性），以及（3）在共享相同表达码的对之间（表达多样性）。对于所有情况，我们评估10000对。为了进行比较，还通过以下方式在这三个度量上评估训练集：利用标签。解耦为了评估身份和表达空间中的解耦，我们遵循[11]中提出的协议。特别地，我们首先训练两个网络，一个用于身份，一个用于表达，使用三重损失[32]将网格的图像表示转换为n维向量，其中在我们的实验中n=128。经训练的网络允许通过检查两个网格的嵌入之间的距离是否低于阈值τ来测量两个网格是否共享相同的身份或表达。为了测量身份解耦，我们生成n个随机面 xi=G（zi，zi，zi），并且对于每个随机面，我们固定身份码并对m个面进行采样Y（xi）={G（zi，zj，zj），j=l.. m}。然后我们使用EM-bedding网络来评估原始面部xi及其在Y（xi）中的对应样本是否对应于相同的身份，并报告这些对被分类为“相同”的次数的百分比我们以类似的方式处理前-压力解耦我们设n=100，m=100，τ=0。14为同一性，τ = 0。226的表达;更多的实施细节中给出的补充材料。SpecificitySpecificity是一种常用于评估统计形状模型的度量标准[9]，其目标是量化所有生成的样本是否属于原始形状类，在我们的情况下是面部。为此，从模型中随机抽取n个样本，并且对于每个样本，测量到训练集的每个成员的平均顶点距离，保持最小值。然后，度量报告n个值的平均值。这里我们使用n=1000。5.4. 消融试验我们首先证明，每个建议的组件是必要的，以获得国家的最先进的结果，在建议的指标。为此，我们将我们的方法与以下替代方案进行比较：（1）没有网格正则化（等式12）;（2）仅具有身份分类;(3) 仅具有表达式分类;以及（4）没有特征损失（等式10和11）。表1给出了每个选项的评估指标，图3提供了定性示例。从结果中，我们观察到：（1）网格正则化是生成真实人脸形状样本的关键。由于模型从未收敛到真实面孔，这反映在非常大的特异性值以及低多样性上（见图3a）。(2)仅在一个因素中考虑分类显著降低了模型在另一个因素中保留语义属性的能力，如在相应行中获得的非常低的解耦值所这证明了对每个因素使用分类器的合理性。(3)在没有特征损失的情况下，该模型仍能取得较好的效果，但两种表达方式都不一致。9425(a) 无网格正则化(b) 无表情分类(c) 无特征丢失(d) 提出图3：替代方法的定性结果。从左至右：随机生成的样本（深灰色）、具有相同表情代码的随机样本（浅灰色）、具有相同身份代码的随机样本（紫色）。来源目标CoMA MAE Ours表1：关于同一性和表达（Dec-，百分比）、多样性（Div-，以mm计）和特异性（Sp. ，单位为mm）。越高越好，除了特异性。填充和多样性低于完整模型，并且包括特征损失将表达分类提高了几乎10%。请注意，解耦表达式空间比恒等式更具挑战性，因为所提供的标签非常稀疏。图3c展示了这种效果，其中具有相同表情代码的模型可能会导致表情略有不同的面孔。我们的方法提供了更多的相干面，如图3d所示。(a) 将表情转移到目标面部(b) 从转移的表达中抽取新的身份图4：表达转移方面的比较。上图：将表达式代码zexpr传输到目标标识。Bot- tom：使用来自顶行源代码的zexpr，我们对新身份进行采样（从左到右：CoMA、MAE、我们的）。5.5. 比较我们比较所提出的方法对国家的最先进的生成3D人脸模型。我们的目标是建立一个Dec-Id Dec-Exp Div Div-Id Div-Exp Sp.训练数据−−4.第一章893 .第三章。30五、04−不带补片调节器九十九。6九十九。11 .一、410的情况。651 .一、253 .第三章。619426耦合的潜在空间，因此我们将比较集中在明确执行这一点的作品[13]，或者将在表达式上训练的模型与线性恒等式空间相结合[29，1]。我们使用相同的维度训练所有模型（身份为65，表达为20在[13]中提出的模型，在下文中称为MAE，使用相同的数据集和相同的标签信息（第5.2节）训练了200个epoch，其中默认参数在论文中给出我们从公开可用的模型初始化编码器在[29]中提出的模型，在下文中称为CoMA，并不明确支持解耦，因此我们使用DeepFLAME替代方案[25]，我们也训练它方法λ=0λ = 0。01λ=103DMM [1]六、624.第一章64二、46MAE [13]4.第一章464.第一章06二、78[29]第二十九话3 .第三章。053 .第三章。02二、83我们二、62二、55二、42表2：在不同正则化权重（RMSE，以mm为单位）下的稀疏数据的重建。面部模型通过最小化来拟合：Σp阿革米因 ||vi（z）−vi||2+λ||z||第二条，第十三条相同的数据集。这导致了一个由299个身份构建的PCA模型和一个在30330个来自相应中性面部的位移上训练的自动编码器。对于身份空间，我们为BP 4D-自发中的每个序列手动选择一个中性帧，就像这个数据集一样不提供标签。该模型使用公开可用的代码训练200个时期。我们还使用我们的数据集训练了[1]中描述的加性线性模型，并为CoMA选择了相同的中性/表达分离（见上文）。我们将此模型称为3DMM。我们在表1的底部示出了关于解耦、多样性和特异性的定量结果。注意，所提出的方法在表达式解耦方面显著优于其他方法，由于稀疏标记，这比身份更具挑战性这在图4中定性地示出，其中我们通过简单地交换潜在代码zexp来传递表达式。我们可以看到，我们的模型很好地保留了表达式。在身份解耦方面，四种方法表现相似，其中3DMM实现了最高值。注意，在MAE的情况下，大的解耦值与最低的身份多样性（Div-Id）相结合，这表明有限的生成能力（参见补充的定性示例）。我们在多样性方面也优于所有方法。结合最好的特异性值，这意味着我们的模型已经学会生成保持有效面部形状的显著变化。稀疏数据的重建我们还测试了模型的一般化，给出了非常稀疏的约束，重建部分人脸数据为此，我们使用[29]提供的数据集，其中包含12个执行12个极端表达式的受试者。我们取每个序列的中间帧，手动标记85个标志（见补充），得到144个受试者的测试集2 2zi=1其中vi是测试集中p个关键点的3D位置，vi（z）是用代码z生成的面部模型中的对应k个关键点，λ是正则化权重。我们使用梯度下降方法[24]从随机采样的代码z开始进行优化。注意，这是一个具有挑战性的场景，因为训练集不包含这样的表达式，并且对应关系非常稀疏。我们比较我们的结果与3DMM，MAE和CoMA，使用相同的优化所有方法。我们测量重建误差对地面实况表面和报告的RMSE。对于不同的正则化权重λ，可以在表2中找到定量结果。我们的方法在所有情况下都表现出色，包括没有正则化（λ=0）。我们发现，我们的模型在大多数情况下可以产生合理的脸，而MAE和CoMA很容易产生不真实的脸时，regularization不够强（定性的例子可以在补充材料中找到）。5.6. 其他因素的延伸所提出的框架可以很容易地扩展到其他因素的变化，如身份/表达/视位。我们参考补充材料，以了解此类模型的示例。6. 结论在这项工作中，我们探索了使用对抗训练来学习解耦的3D面部模型，并表明我们可以在解耦和生成样本的多样性方面实现最先进的性能。这是通过一种新的3D-2D架构以及一种明确鼓励通过使用分类器进行解耦的训练方案获得的。虽然模型的表现力仍然受到训练数据的多样性及其标签准确性的限制，但我们表明对抗学习有可能更好地利用现有数据来构建高性能的3D面部模型。9427引用[1] Brian Amberg，Reinhard Knothe，and Thomas Vetter.基于变形模型的表情不变三维人脸识别。在自动面部和手势识别会议上，第1-6页，2008年。一、二、七、八[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。3[3] Timur Bagautdinov 、 Chenglei Wu 、 Jason Saragih 、Pascal Fua和Yaser Sheikh。使用组合VAE建模面部几何形状。在计算机视觉和模式识别会议上，第1卷，第1页，2018年。一、二[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型在SIGGRAPH，第187-194页，1999中。一、二[5] James Booth，Anastasias Albersos，Stefanos Zafeiriou，Allan Ponniah，and David Dunaway.从10，000张面孔中学习的3D变形模型计算机视觉与模式识别会议，2016年。一、二[6] Alan Brunton，Timo Bolkart，and Stefanie Wuhrer.多线性小波：人脸的统计形状空间。2014年欧洲计算机视觉会议。2[7] 陈操，德里克布拉德利，周坤，塔博比勒。实时高保真面部表现捕捉。Trans- actions on Graphics，2015. 2[8] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的3D面部表情数据库。IEEETransactionsonVisualizationandComputerGraphics，3：413-425，2014。1[9] Rhodri Davies，Carole Twining，and Chris Taylor. 形状的统计模型：优化和评估。Springer Science BusinessMedia，2008. 6[10] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou. UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在CVPR中，第7093-7102页，2018年。2[11] ChrisDonahue，ZacharyCLipton，AkshayBalsubramani，Julian McAuley，Sepehr Rezvani，NaderMokari ， Moham-mad R Javan ， Maria Henar Salas-Olmedo ， JuanCarlosGarcia-Palomares ， JavierGutierrez，et al.生成对抗网络潜在空间的语义解构.2018年学习代表国际会议。6[12] Matthias Eck，Tony DeRose，Tom Duchamp，HuguesHoppe，Michael Lounsbery，and Werner Stuetzle.任意网格的多分辨率分析。SIGGRAPH，1995年。5[13] VictoriaFerna'ndezAbrevaya ， StefanieWuhrer ，andEdmondBoyer.用于三维人脸模型学习的多线性自动编码器。在计算机视觉应用冬季会议上，第1-9页，2018年。一、二、五、七、八[14] VictoriaFerna'ndezAbrevaya ， StefanieWuhrer ，andEdmondBoyer.动态三维人脸有效配准的时空建模。在3D视觉国际会议上，第371-380页6[15] Baris Gecer，Stylianos Ploumpis，Irene Kotsia，and Ste-fanos Zafeiriou. Ganfit：生成对抗网络拟合-用于高保真度 3D 人脸重建。 arXiv 预印本 arXiv ：1902.05978，2019。2[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。一、二[17] Stella Graßhof，Hanno Ackermann，Sami S Brandt，andJoürnOs termann.Apat hy是一切事物的根源。在2017年第12届IEEE自动人脸手势识别国际会议（FG 2017），第658IEEE，2017年。1[18] 作者：Steven J. Gortler和Hugues Hoppe。风水意象。SIGGRAPH，2002年。4[19] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进WassersteinGAN的训练。神经信息处理系统进展，第5767-5777页，2017年3[20] Loc Huynh，Weikai Chen，Shunsuke Saito，Jun Xing，Koki Nagano，Andrew Jones，Paul Debevec，and HaoLi.使用深度神经网络的介观面部几何推断在计算机视觉和模式识别会议上，第8407-8416页2[21] Alexandru Eugen Ichim ， Sofien Bouaziz ， and MarkPauly.从手持视频输入创建动态3d化身。ACM Transactions on Graphics（ToG），34（4）：45，2015.1[22] Hyeongwoo Kim 、 Pablo Garrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris-tianRichardt 、 MichaelZollhoüfer 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics（TOG），37（4）：163，2018。1[23] Gary King和Langche Zeng。罕见事件数据的Logistic回归。Political analysis，9（2）：137-163，2001. 5[24] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在2015年国际学习代表会议上。五、八[25] Tianye Li，Timo Bolkart，Michael Black，Hao Li，andJavier Romero.从4d扫描中学习面部形状和表情的模型。ACM Transactions on Graphics，36（6）：194：1-17，2017。二、八[26] 托马斯·诺伊曼、基兰·瓦拉纳西、斯蒂芬·温格、马库斯·瓦克、马库斯·马格诺和克里斯蒂安·西奥博尔特。稀疏的局部变形分量。ACM Transactions on Graphics，32：179：1-10，201

下载后可阅读完整内容，剩余1页未读，立即下载