稀疏到密集的3D面部表情生成

62 浏览量更新于2023-10-25 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20385稀疏到密集的动态3D面部表情生成Naima Otberdout大学。里尔，CNRS，Inria，里尔中央，UMR 9189 CRISTAL，F-59000里尔，法国naima. univ-lille.fr克劳迪奥·法拉利意大利帕尔马大学建筑与unipr.it穆罕默德·达乌迪IMT北欧，矿业研究所-Telecom，Univ.里尔，数字系统中心，F-59000里尔，法国。里尔，CNRS，里尔中央，Institut Mines-Te lecom，UMR 9189 CRISTAL，F-59000里尔，法国穆罕默德·达乌迪@ imt-nord-europe.fr斯特凡诺·贝雷蒂意大利佛罗伦萨大学媒体整合与传播中心stefano. unifi.it阿尔贝托·德尔·宾博意大利佛罗伦萨大学媒体整合与传播中心alberto. unifi.it摘要本文提出了一种从中性3D人脸和表情标签生成动态3D人脸表情的任务解决方案。这涉及解决两个子问题：（i）模拟表达的时间动态，以及（ii）扭曲中性网格以获得表达对应物。我们使用一组稀疏的3D地标的运动来表示表达式的速度演变，我们通过训练来学习生成显性值GAN（Motion3DGAN）。为了更好地编码表达式引起的失真及其与身份信息的分离，生成的运动被表示为从中性配置的每帧位移。为了生成富有表现力的网格，我们训练Sparse 2Dense网格解码器（S2 D-Dec），用于将地标位移映射到密集的每顶点位移这使我们能够了解一组稀疏的地标的运动如何影响整个表面的变形，而与同一性无关。 CoMA 和D3DFACS数据集的实验结果表明，我们的解决方案在动态表达式生成和网格重建方面都比以前的解决方案有了显著的改进，同时对不可见数据保持了良好的一般化。代码和模型可在 www.example.com 上获得https://github.com/CRISTAL-3DSAM/Sparse2Dense。图1. 3D动态面部表情生成：GAN从表情标签和噪声中生成3D地标的运动。解码器将动画从地标扩展到密集的网格，同时保持3D中性面的标识，1. 简介合成动态3D（4D）面部表情以生成具有随时间动态演变的变化表情或与语音相关的运动的真实面部实例，从中性表情中的面部开始。它在从3D面部建模到动画电影和计算机游戏的增强和虚拟现实的广泛图形应用中找到了应用。虽然生成式神经网络的最新进展使得开发对2D图像进行操作的有效解决方案成为可能[17，37]，但关于在3D中生成面部动画问题的文献仍然相当有限。为了执行忠实和准确的3D面部动画，20386三大挑战出现了。首先，使用中性面作为序列起点的受试者的身份应随时间保持。第二，应用的变形应对应于作为输入提供的指定表达式/运动，并应适用于任何中性3D面。顺便说一句，这些都是3D面部建模中的主要挑战，需要对与身份相关的结构面部元素进行去镶嵌，例如。鼻子或下巴的形状，来自与可移动面部部分相关的变形，例如嘴开/闭。最后，需要对指定表达式的时间动态进行建模，以获得逼真的动画。一些早期的作品通过逐帧捕捉受试者的面部表情并将其转换为目标模型来解决这个问题。然而，在这种情况下，时间进化没有被显式建模，所以问题归结为将跟踪的表情转移到中性的3D面部。一些其他作品动画3D人脸网格给予任意语音信号和静态3D人脸网格作为输入[13，29]。此外，在这种情况下，时间进化是由外部输入引导的，类似于被跟踪的表达。相反，在这里，我们感兴趣的是动画一个脸只是从一个中性的脸和一个表达式标签开始。在我们的解决方案中，如图1所示，在两个网络架构中分别对TEM-poral演进和网状变形进行去耦合和建模。通过从噪声生成对应于输入标签的3D地标的时间一致的运动来计算表达式动态的显性值 GAN（Motion3DGAN）。使用平方根速度函数（SRVF）对运动地标进行编码，并将其紧凑地表示为超球面上的一个点然后，Sparse 2Dense网格解码器（S2 D-Dec）为序列的每个帧生成由地标运动引导的密集3D面。为了有效地分离身份和表达成分，运动标记被表示为从中性配置的每帧位移。S2 D-Dec不是直接生成网格，而是将地标位移扩展为密集的每顶点位移，这最终用于扭曲中性网格。导致此体系结构的直觉如下：面部肌肉在面部表面上引起的运动在受试者之间是一致的。此外，由于肌肉是光滑的表面，它导致顶点运动局部相关。我们训练解码器来学习稀疏点集的位移如何影响整个曲面的位移。这具有结构面部件的优点，例如不受面部表情影响的鼻子或前额不会变形，有助于保持特征的稳定。此外，网络可以专注于学习表达在一个细粒度的细节水平，并概括为无形的身份。总而言之，我们工作的主要贡献是：（i）我们提出了一种原始的方法来生成动态序列的表现性3D扫描给予中性3D网格和表达标签。我们的方法能够生成强大而多样的表达序列，对看不见的标识和表达具有高度的概括性。（ii）我们采用特定的GAN架构[37]进行动态3D地标生成，并设计了一个解码器，用于从中性网格和地标进行富有表现力的网格重建。与普通的自动编码器不同，所提出的S2 D-Dec学习从几个控制点生成每个顶点位移图，允许在结构面部分保持稳定的地方增加速率的网格变形;（iii）我们设计了一种新的损失重建，根据每个顶点与地标的距离来加权每个顶点的贡献。这被证明可以提高生成精确表达式的去编码能力。2. 相关工作我们的工作涉及3D人脸建模方法、由地标引导的人脸表情生成方法以及3D人脸的动态生成方法。4D人脸生成。3D面部建模。最初在[2]中提出的3D可变形面模型（3DMM）是最流行的3D面建模解决方案。原始模型及其变体[3，6，19，21，34，36，38]基于线性仿真捕获了身份和表达的面部形状变化，这导致了有限的由于这个原因，非线性编码器-解码器体系结构吸引了越来越多的关注。这是以重新表述卷积和池化/解池化为代价的，就像在非规则网格介质上的操作一样[5，33，42]。Ranjan等人 [40]提出了一种自编码器架构，该架构建立在新定义的频谱卷积操作器之上，并将操作池化以向下/向上采样网格。Bouritsas等人 [4]通过提出一种新的图形卷积算子来改进，该算子通过spi-ral算子强制由图形顶点上的局部序组成[32]。尽管他们令人印象深刻的建模精度，最近的工作[19]表明，他们严重遭受从糟糕的概括到看不见的身份。这限制了它们在面部装配或表情转移等任务中的实际使用。最后，我们提到存在用于学习生成的3D面部模型的其它方法，例如[1，35]。然而，他们不处理网格，而是使用3D数据的替代表示，如深度图像或紫外线地图。为了克服上述限制，我们超越了自我重建，并提出了一个网格解码器，与以前的模型不同，该解码器从稀疏的一组地标位移中学习表达式特定的网格形成。由地标引导的面部表情生成。神经网络的最新进展使得面部地标检测在2D [10，15，43]和3D [24，46]中可靠且准确。地标及其运动是可行的途径20387i=1>→→→ ∥ ∥}2C{解释面部变形，因为它们减少了视觉数据的复杂性，并且已经普遍用于几个3D面部相关任务，例如，[21：31]或[18：22]。尽管在开发用于3D面部建模的无标记解决方案方面付出了一些努力[8，9，23]，但最近的一些工作研究了它们在建模表情动态方面的用途。Wang等人 [44]提出了一个框架，该框架使用条件递归网络将面部表情Otberdout等人 [37]提出了一种在中性人脸图像下生成六个基本表情视频的方法。通过使用GAN对地标的运动建模来捕获几何图形，GAN学习表达式动态的分布。这些方法证明了使用地标来建模表情动态和生成2D视频的潜力。在我们的工作中，我们解决了在3D中建模动态的问题，探索使用3D地标的运动来建模表情的时间演变和动画化3D面部。4D人脸生成。虽然许多研究人员一直在努力解决3D网格变形的问题，但3D面部运动合成的任务更具挑战性。少数研究通过利用音频特征[29，45]、语音信号[13]或跟踪面部表情[7]来生成面部运动来解决这个问题。然而，这些研究都没有明确地模拟时间动态，也没有依赖外部信息。据我们所知，[39]中的工作是唯一专门解决动态3D表达式生成问题的方法。在该框架中，使用基于LSTM的时间编码器对运动动力学进行建模，该时间编码器产生每帧的潜在起始代码。鼓励对可移动部件进行精确建模。多亏了这一点，我们能够准确地复制从轻微到强烈的表达，并概括到看不见的运动。3. 拟定方法我们的方法由两个专用网络组成，如图2所示。Motion3DGAN解释时间动态并从噪声生成稀疏的3D地标集的运动，提供表达式标签，例如快乐，愤怒。该运动被表示为每个帧的地标位移，并尊重中性配置。这些位移被馈送到解码器网络S2 D-Dec，该解码器网络从由地标给出的稀疏位移构建密集的点云位移。然后将这些密集位移添加到新的3D面以生成对应于初始表达式标签的3D面的表现性序列。在下面，我们将分别描述这两个网络。3.1. 生成稀疏动态三维表达式面部地标已被证明能很好地编码面部表情的节奏演变[28，37]。受此启发，我们基于3D面部地标的运动生成面部表情动态。给定一组k个三维地标，Z（t）=（x i（t），y i（t），z i（t））k，其中Z（0）是中性构型，它们的运动可以被看作是Rk ×3空间中的轨迹，并且可以被公式化为Rk×3空间中的参数化曲线。设α：I=[0，1]Rk×3表示参数化曲线，其中每个α（t）Rk×3。为了对曲线进行建模和研究，我们采用了[41]中提出的平方根速度函数（SRVF）SRVF q（t）：I→Rk×3定义为：来自每个帧表达式标签。然后将代码馈送到网格解码器，该网格解码器类似于我们的方法，生成α（t）q（t）=√α（t），（一）生成每个顶点位移，该位移被求和为净3D面以获得表现性网格。尽管在[39]中报告了有希望的结果，但我们发现了一些局限性。首先，LSTM是确定性的，并且对于给定的标签，生成完全相同的位移。我们的解决方案通过从噪声中生成来实现输出序列的多样性。此外，在[39]中，网格解码器从潜在代码生成位移，使其依赖于时间编码器。在我们的解决方案中，运动动力学和网格位移生成是分离的，使用地标来链接两个模块。S2 D-Dec独立于Motion 3DGAN，可用于生成静态网格，前提是给定任意一组3D地标作为输入。这允许我们将解码器用于其他任务，如表达/语音传输。最后，如[39]中所指出的，该模型不能很好地执行极端变化。使用地标允许我们改进一种新的重建方法，该方法根据每个顶点与地标的距离来加权每个顶点的误差，例如其中n nv表示q（t）=0，如果α（t）=0。该功能已被证明对人类动作识别[14]或3D人脸识别[16]等任务有效。类似于Otberdout等人的工作。 [37]建议使用SRVF Represen-模拟2D面部地标的时间演变，这使得学习这些点的分布并生成新的2D面部表情运动成为可能。在本文中，我们通过提出Motion3DGAN模型来生成使用（1）中的SRVF编码表示的3D面部地标的运动，从而将这一思想扩展到3D。在[37]之后，我们通过将这些函数的L2-norm缩放到1来消除结果运动的缩放可变性。结果，我们将3D面部地标的运动转换为超球面上的点=问：[0，1]Rk×3，q=1。结果表示是无法处理的显性数据-附加生成模型。为了了解 SRVF 表示的分布，我们建议 Motion3DGAN作为Motion-的扩展。20388我∫C.C.1∥ ∥111MMMM图2. 框架概述。 Motion3DGAN从噪声矢量z生成对应于表达式标签的3D地标的运动q（t）。该模块以重建损失Lr和对手损失Ladv为指导。运动q（t）被转换成地标位移di的序列，该序列被馈送到S2 D-Dec。从每个di，解码器产生密集位移Dg。A然后将中性网格与密集位移相加以生成表现性网格Sg。S2 D-Dec是在位移损失L博士和我们提出的加权重建损失L公关的指导下训练的。GAN [37]，用于显性值数据的Wasserstein GAN的条件版本。它将随机向量z映射到输入类标签上条件的超球面上的一个点。Motion3DGAN由两个反向训练的网络组成：一个学习3D地标运动分布的生成器G，以及一个区分真实和生成的3D地标运动的鉴别器D Motion3DGAN由对手损失L adv和重建损失L r的加权和训练，即L M=α1L adv+α2L r。培训由以下人员提供：tα（t）= q（s）q（s）ds + α（0）。（四）0其中α（0）表示初始配置Z（0）的地标。当然，使用这个等式，我们可以将生成的运动应用于任何地标配置，使其对身份更改具有鲁棒性。3.2. 从稀疏到密集的3D面部表情我们的最终目标是动画的中性网格Sn得到广告 =Eq~ Pq D.logp（q），c⇒ ⇒一个新的3D脸Sg复制一些表情，但主要-n- Ez~Pz⇒D⇒。Lo GP. 经验p（G（z，c⇒））问：Q2（2）S的单位结构。既然如此，我们就指向生成网格垂直线的位移S+ λEP. ∥∇D (q ˆ) ∥ − 1Σ2.要动画化的地标的稀疏位移n. 在在（2）中，q~Pq是来自训练集的SRVF样本，c是下面，我们假设所有网格都具有固定的拓扑，并且是完全点对点的。表达式标签（例如（张开嘴，睁开眼睛），我们...编码为单个热向量并连接到随机噪声设L =... Sn，S>，Z n，Z>，.. .. （Sn，S>，Z>，Zn）设为训练集，其中Sn=（p n，. . .（p n）> RN×3Z=Pz。对手损失的最后期限代表是3D中性面，>IGT1N>RN×3为aWasserstein GAN的梯度处罚[25]具体地说，Si=（p1，. .. .. （P）（N）3D表现面，Zn奏效Rk×3和Z>奏效Rk×3是q是沿直线均匀采样的随机点INIGT从Pq采样的点对之间的线和生成的分布Pg：q=（1−τ）log（q）+τlog（mp（G（z，c），分别对应于Si和Si的3D地标。我们把这个集合变换成一个稀疏和密集位移的训练集合，L′={ （ D1 ，d1），. .. .. （Dm，dm）这样，在哪里P P P P和w.r.t. . .D i=S>-Sn和D i=Z>-Z n。我们的目标是0≤τ≤ 1q我是k×3我是N×3函数日志（. 和经验（。是对数和查找映射h：R→R因此，Di⇒h（di）。p p我们将函数h设计为解码器网络（S2 D-在超球面的特定点p处定义的指数映射它们将SRVF数据前后映射到的切线空间（详见补充材料）。最后，重建损失定义为：12月），其中映射在一组地标的稀疏位移和网格点的密集位移之间。最后，为了获得表现性网格，将密集位移图求和为中性表达式中的 3D 面，即，其中Se=Sn+Di。S2D-DecLr=logp（mpp（G（z，c）−logp（q）1，（3） iii在哪里？1，表示L1-norm，q是对应于条件c的地面真值SRVF。生成器和鉴别器架构类似于[37]。SRVF表示是可逆的，这使得有可能从新生成的SRVFq（t）中恢复曲线α（t），该网络基于[4]中提出的螺旋算子我们的架构包括五个螺旋卷积层，每个层后面是上采样层。有关AR架构的更多详细信息，请参阅补充材料。为了训练这个网络，我们建议使用两个不同的损耗，一个直接作用于位移，另一个控制生成的网格。20389重建-20390mind（pi，Z）j>>×博士N我我 1公关N我我我 11稠密耗散lN的损失为giv inby，L="Dg-D>"，（5）i=1我们对SRVF表示中的子序列中k=68个地标的运动进行编码，并使用它们培训Motion3DGAN。地标是第一个居中的其中Dg和D>是生成的和地面真相分别是密集位移。为了进一步提高重建的准确性，我们增加了一个损耗，以最大限度地减少Sg和地面真值表达式网格Sgt之间的误差。我们观察到，靠近地标的垂直线容易发生更大的变形。其他区域，如前头，则相对稳定。为了更加强调这些区域，我们定义了L1损失的加权版本N并归一化为单位规范。 12个表达式中的每一个贝尔被编码为一个热向量，与大小为128的随机噪声向量串联。为了全面评估S2D概括为其他看不见的身份或表达的能力，我们进行了受试者独立和表达独立的交叉验证实验。对于受试者独立实验，我们使用了4倍交叉验证CoMA协议，9个身份的培训和3个身份的测试L=1άw·p g− p>（6）我们将权重定义为网格中每个顶点p i与其最接近的地标Z j的欧几里得距离的倒数，即。w i=1，j。这提供了一个粗略的暗示，说明每个pi对表达式生成的贡献有多大。由于网格拓扑是固定的，因此我们可以预先计算权重wi并将其用于每个样本。然后重新缩放权重，使其落在[0，1]中。顶点与地标相对应，即对于某个j，pi=Zj，亨斯被分配了最大的重量。我们会展示这个该策略在L1损失标准方面提供了显著改进。训练S2D-12月所用的总损失由L S2D=β1.L dr.+ β2.L Pr给出。4. 实验我们在两个公开可用的基准数据集上进行了一组大型实验，验证了拟定的方法。CoMA数据集[40]：这是其他研究中使用的常用基准[4，40]。它由12个受试者组成，每个受试者表演12个极端和不对称的表情。每个表达式都是网格序列SRN×3（平均140个网格），N = 5，023个垂直线。D3DFACS数据集：我们使用的是此数据集[30]具有与CoMA相同的拓扑结构。它包含10个受试者，每个受试者执行不同数量的面部表情。与CoMA不同的是，该数据集标有所执行面部表情的激活动作单元。值得注意的是，D3DFACS的表达与CoMA中的表达有很大不同。4.1. 培训详情为了保持Motion 3DGAN和S2 D-Dec的解码，它们是分开训练的。我们使用 CoMA 来训练Motion3DGAN，因为这个数据集被标记为面部表情类。我们手动将每个序列从中性帧到顶点帧划分为长度为30的子序列。每个受试者和表达式的第一子序列用作测试集。当我们在测试时间从随机噪声生成时，我们使用所有其他噪声进行训练1. 然后，1对于可重复性，将公开发布用于训练Mo-tion 3DGAN的子序列列表。我们对CoMA使用了4倍交叉验证协议，在每个折叠中训练9个表达式，测试3个表达式。对于D3DFACS，给定每个受试者的不同表达数，使用前11个表达进行测试并对其余表达进行训练。我们使用Adam优化器对Motion 3DGAN和S2 D-Dec进行了训练，学习率为0。0001和0。001和128号和16号的小批量。Mo-tion 3DGAN已训练了8000个纪元，而S2 D-Dec 采用了 300 个纪元。根据经验，Motion 3DGAN 和 S2 D-Dec 损失的超参数设置为α1=1、α2=10、β1=1和β2=0。1.我们选择CoMA数据的平均SRVF作为参考点p，其中我们定义了C的切线空间。4.2. 3D表达式生成为了进行评估，我们通过首先与基于3DMM的标准拟合方法进行比较来建立基线。与之前的工作[20，31]类似，我们使用3DMM组件对目标陆地标记Z的集合进行了Sn由于防御是由地标引导的，我们首先需要从Sn中选择一个匹配的集合，以便与Ze匹配。给定3D面的固定拓扑，我们可以通过索引到网格中来检索地标坐标，即：Zn=Sn（Iz），其中IzNn是对应于地标的垂直线的指数。然后，我们找到最佳变形系数，该最佳变形系数最小化目标地标Ze和中性地标Zn之间的欧几里得误差，并使用该系数来变形Sn。在文献中，已经提出了严重的3DMM变体我们在[20]中测试了基于PCA的3DMM标准和DL-3DMM我们认为这个变体在概念上与我们的建议相似，是通过学习变形位移词典来构建的。为了便于比较，我们使用与S2 D-Dec输入的大小相当的变形组件数量构建了两个3DMM，即，68 3= 204。对于PCA，我们使用了38个分量（保留了99%的方差）和220个，而对于DL- 3DMM，我们使用了220个字典原子。i=1在每个折叠中。在D3DFACS上，我们使用最后7个标识进行训练，并保留3个标识作为测试集。关于20391表达式拆分标识拆分PCA-380. 90± 0。840. 44±0。45DL3DMM[20] 0.86 ± 0.800。73±1。150. 93± 0。82 0. 58± 0。560. 89± 0。79 1. 15± 1。50神经[4]0. 75±0。850. 59±0。863. 74±2。342. 09±1。37熊0. 52±0。590. 28±0。31 0. 55±0。620. 27±0。30表1.表达式独立（左）和身份独立（右）拆分上的重建误差（mm）：与PCA-k 3DMM（k个组件）、DL-3DMM（220个字典原子）和Neural 3DMM的比较。为了与其他深度模型进行比较，我们还考虑了Neural3DMM [4]。它是一种自编码网格，用于学习人脸变化的非线性潜在空间并重建输入的3D人脸。为了将其与我们的模型进行比较，我们修改了架构，并训练模型生成一个富有表现力的网格，并将其中性对应部分作为输入。为了做到这一点，我们将地标位移（大小204）与潜在矢量（大小16）联系起来，并将网络训练到最小化我们模型中使用的相同Lper损失。所有比较方法均在相同数据上进行训练。最后，我们还确定了FLAME模型。不幸的是，训练代码不可用，并且在外部数据上使用预训练的模型将不是公平的比较。生成的网格与其地面真实度之间的平均每顶点欧几里得误差被用作大多数作品中的标准性能测量[4，19，39，40]。请注意，我们在这里排除了Motion3DGAN模型，因为我们没有性别相关地标（它们是从噪声中生成的）的相应基础-真实性。相反，我们利用了地标的地面真实运动。4.2.1与其他方法的表1显示了S2 D-Dec在协议和数据集方面明显优于最先进的方法，证明了其在看不见的标识或表达式的情况下生成接近地面真相的精确表达网格的能力。在图3中，与表达式无关的分割上的累积每顶点误差分布进一步提高了我们方法的准确性，该方法可以识别90%-98%的垂直线，误差小于1mm。虽然其他基于拟合的方法在两种方案中都保持了令人满意的精确度，但我们注意到，当考虑看不见的标识时，Neural3DMM [4]的性能显著下降。这一结果与[19]中报告的结果一致，其中强调了这些模型的低推广性。我们还注意到，身份独立协议的结果从未在原始论文中报告[4，40]。总的来说，我们的解决方案包含了两种方法的优点，既通用又适合解决方案，但更准确。图4按报告显示一些图3.基于PCA的3DMM模型、DL-3DMM、Neural 3DMM和我们提出的模型之间的累积欧几里得逐顶点误差，在CoMA（左）和D3 DFACS（右）数据集上使用表达式无关交叉验证。图4.我们的模型和其他方法的网格重建误差（红色=高，蓝色=低）。与PCA、DL-3DMM [20]和Neural 3DMM [4]相比，用于身份无关分割的热图错误。根据表1中的结果，我们的模型以及PCA和DL- 3DMM在保持地面真实性的同一性方面的能力是显而易见的。相比之下，Neural3DMM甚至对新面孔也显示出很高的误差，这证明了它无法保持看不见面孔的身份。与其他方法不同的是，Neural3DMM在潜在空间中对中性面进行编码，并直接预测点的3D坐标，这会对输入面的身份进行一些更改。这证明了我们的S2 D-Dec的有效性，它不是学习每个点的位移，而是学习点坐标。4.2.2消融研究在这里，我们报告了一项消融研究，以突出S2 D-Dec训练中使用的每种损失的贡献，特别是我们提出的加权L1重建损失的数据。我们使用前三个标识符作为测试集，对CoMA数据集进行了本研究，并对其余标识符进行了培训。该评估基于生成网格和地面真实网格之间的平均每顶点误差。我们评估了三个基线，S1、S2和S3。对于第一个基线（S1），我们仅在（5）中使用位移重建损失训练模型。在S2中，我们将标准的L1损失添加到S1中，这对应于我们在（6）中的损失，没有地标距离权重。为了显示加权每个顶点的贡献的重要性，在S3中，我们将地标记距离权重添加到LPR损失中。显示结果方法CoMAD3DFACSCoMAD3DFACSPCA-2200. 76± 0。730. 42± 0。440. 80± 0。730. 56± 0。5620392⟨⟩sin（θ）方法误差（mm）S1：LDR1. 27± 1。88S 2：S 1 + LPrw/o距离权重0。92± 1。33S 3：S 1 + LPr0。50± 0。56表2. S2 D-Dec重建损失的消融研究在表2中，我们建议的损失相对于标准L1的显著改善明显结束。这可以通过以下事实来解释，即为可移动面部部件分配更大的权重允许网络聚焦于经受强面部运动的区域，最终导致逼真的样本。4.3. 4D面部表情评估由于Motion3DGAN从噪声中生成样本以鼓励多样性，因此生成的地标和网格在每次向前传递时都会略有变化。因此，在这种情况下，计算[39]中所做的关于基本真实形状的平均每顶点误差不能代表一个好的因此，我们通过实现类似于[39]的表达式分类解决方案来评估生成的表达式序列的质量。我们用一个LSTM层训练分类器，然后是一个完全连接的层，以识别CoMA的12个动态面部表情，并提供地标序列作为输入。我们在用于训练Motion3DGAN的相同序列上训练该分类器。每个同一性的第一个表达式样本形成测试集，产生144个测试样本。由于[39]中的数据集或代码都无法进行比较，因此基于那里的信息，我们实现了一个类似的体系结构，该体系结构依赖于LSTM来生成每帧表达式并将其用作基线。LSTM被训练以从指示表达从中性到顶点阶段的时间演变的输入代码生成地标的运动。此外，该模型还在Motion3DGAN使用的相同数据上进行了训练。为了进行测试，我们使用Mo-tion 3DGAN和LSTM生成器生成了 144 个序列。序列与上面列出的Motion3DGAN测试集中的序列一致。然后使用这些网格与我们的S2 D-Dec生成相应的网格。在表3中，我们报告了分类准确度和Frechet Inception Distance（FID）方面的结果 [26] 。度量是使用由 Motion 3DGAN 和LSTM直接生成的地标序列（Gen-LM行）或从生成的网格中提取的地标序列（Det-LM行）计算的。假设Motion3DGAN和LSTM都作为地标生成器，我们还报告了使用"完美"生成器生成的序列获得的结果，这是列）。这代表了accu-racy分类的一种上限。我们注意到，用于计算FID度量的特征由我们的最后一个完全连接的层提取。分类准确度（%）↑FID方法GT Land Mo3DGAN LSTMMo3DGANLSTMLM73. 0065. 2846. 5320岁。45 21. 7673号放款记录。6169. 4452. 0819. 0127. 96表3.使用地面真实性（GT）地标、Mo-tion 3DGAN和LSTM获得的分类准确度（%）和Frechet Inception判断（FID）。使用直接生成的地标（Gen-LM）或通过将S2 D-Dec应用于地标运动（Det-LM）而从网格中提取地标来获得结果。经过训练的分类器，每个序列输出512个特征。在表3中，我们观察到，在所有情况下，Mo-tion 3DGAN在很大程度上优于LSTM的准确性，提供了生成的序列更好地捕获表达式动态的明确证据。这也得到了较低FID的支持，这表明tion3DGAN 样本更好地近似地面真实运动。从Motion3DGAN的最接近识别率到地面真实序列获得的最接近识别率得出了相同的结论。此外，首先生成相应的网格，然后从网格中重新提取地标，从而提高了准确性。这表明S2 D-Dec能够保持特定的运动，这也得到了地面真实地标获得的类似识别率（73%）的支持，其中在使用S2D12月（73日）61%）。4.4. 应用程序如图5所示，我们的解决方案具有一些很好的特性，可以为各种应用铺平道路。4D面部表情生成：在图5的前两行中，我们显示了Motion3DGAN为高度可变的相同表情标签生成序列的能力因此，S2 D-Dec能够概括和重建现实网格。面部表情之间的插值：我们的Motion3DGAN的一个有趣的特性是在SRVF表示的支持下，在生成的运动之间进行插值的能力。G iv ent w o点在球体q1和q2上，表示t w oe表达式的运动序列，它们之间的测地线路径ost （ τ）由下式给出： ost（ τ）=1（ si n（1−τ）θ）q1+si n（θτ）q2，其中，θ=dC（q1，q2）=cos−1（q1，q2）。此路径确定q1和q2之间的所有点q，每个点都是相关的。与一系列地标相对应。使用我们的S2 D-Dec，我们可以将它们转换为4D面部表情。此外，虽然Motion3DGAN仅生成中性到顶点序列，但我们可以利用这种插值来生成混合的4D面部表情，该面部表情通过考虑每个插值序列的最后一帧而在不同表情的顶点相位之间切换。图5显示了两个express-的顶点框架之间的插值面。20393图5. 应用-从上到下：多样性：相同的身份执行相同类别的面部表情（嘴侧）与两个不同的运动由Motion 3DGAN生成。插值：在两个峰值表达式之间插值产生的动态表达式。言语从一个身份到另一个身份的转移。面部中和：对于四个例子中的每一个，我们显示了输入表达性面部、S2 D-Dec中和的面部和给定同一性的地面真实中性面部。（举例说明了从嘴到嘴侧和从嘴唇到裸牙的情况）。面部表情和言语转移：通过使用地标，我们的S2 D-Dec可以在身份之间转移面部表情或言语。这是通过从源面提取地标序列，将其运动编码为SRVF表示，将该运动转移到目标面的中性地标，并使用S2 D-Dec获得跟随第一个地标运动的目标标识来完成的。 VO-CASET数据集[12]上语音传输的一些示例如图5所示（相关动画请参见补充材料）。中性化：给定表情输入，S2 D-Dec可以生成相应的中性面。这是通过在S2 D-Dec引入表情面的陆地标记和中性模板的那些标记之间的位移来实现的，以便生成中和表情所需的位移。图5的最后一行显示，我们的模型可以中和表达式到一个大的exent，即使这样的运动在训练数据中根本没有占据。5. 结论和局限性本文提出了一种从表达式标签生成三维表达式的新框架，其中两个分离的网络分别寻址运动动力学模型并从中性面生成富有表现力的3D面。我们在尊重先前解决方案的情况下演示了该改进，并证明了使用地标在建模表达式的运动和生成3D网格方面是有效的。我们还确定了两个主要限制：首先，我们的S2 D-Dec基因会产生表达特异性变形，因此无法建立模型同一性。此外，虽然Motion3DGAN可以生成各种表达式并允许在球体上插值以获得复杂的面部表达式，但样本具有固定的长度（即，30个网格，从中性到顶点）。正如在应用程序中所示，S2 D-Dec可以处理任何长度的运动，因为它独立于Mo-tion 3DGAN。6. 确认文件这项工作得到了法国政府的支持，由国家研究机构（ANR）在未来项目投资（参考ANR-16-IDEX-0004ULNE）和ANR项目Human 4D ANR-19-CE 23 -0020下管理。本文还得到了欧盟地平线2020研究和创新计划的部分支持，资助20394参考文献[1] 维多利亚·费尔南德斯·阿布雷瓦亚、斯蒂芬妮·武勒和埃德蒙·博耶。用于3D人脸模型学习的多线性自动编码器。IEEE冬季会议计算机视觉应用（WACV），第1-9页，2018年。2[2] 沃尔克·布兰兹和托马斯·维特。用于合成3D面的可变形模型。年度会议。计算机图形和交互式技术（SIGGRAPH），第187-194页，1999年。2[3] 詹姆斯·布斯、阿纳斯塔西奥斯·鲁索斯、斯特凡诺斯·扎菲里奥、艾伦·庞尼亚和大卫·达纳韦。3D可变形模型从10，000个面中学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第5543-5552页，2016年。2[4] 乔治斯·布里察斯、谢尔盖·博克尼亚克、斯蒂利亚诺斯·普卢米斯、斯特凡诺斯·扎菲里奥和迈克尔·布朗斯坦。神经3D mor phable模型：用于3D形状表示学习和生成的卷积螺旋网络。在IEEE/CVF国际计算机视觉会议（ICCV），第7212-7221页，2019年。2、4、5、6[5] 迈克尔·M.布朗斯坦、琼·布鲁纳、扬·勒昆、阿瑟·斯拉姆和皮埃尔·范德海恩斯特。几何深度学习：超越欧几里得数据。 IEEE信号处理杂志。，34（4）：18-42，2017年。2[6] 艾伦·布伦顿、蒂莫·博尔卡特和斯蒂芬妮·武勒。多线性小区：人脸的统计形状空间。欧洲会议计算机视觉，第297-312页。施普林格，2014年。2[7] 陈操、侯志明、周坤。用于实时面部跟踪和动画的移位动态表情回归。ACM Trans. on Graphics，33（4），2014年7月。2、3[8] Feng-Ju Chang、Anh Tuan Tran、Tal Hassner、IacopoMasi、Ram Nevatia和Gerard Medioni。Expnet：无地标、深度、3D面部表情。2018年第13届IEEE自动面部手势识别国际会议（FG 2018），第122-129页IEEE，2018年。3[9] Feng-Ju Chang、Anh Tuan Tran、Tal Hassner、IacopoMasi、Ram Nevatia和Gerard Medioni。Faceposenet：为无标记面对齐提供支持。参见IEEE计算机视觉工作国际会议论文集，第1599-1608页3[10] 陈丽莎、许素、强吉。用于面部地标检测的深度结构化预测《神经训练处理系统（Neurips）进展》，第32卷，2019年。2[11] 达伦·科斯克伊娃·克鲁姆胡贝尔和阿德里安·希尔顿。一个有效的3D动态动作单元数据库，用于3D动态变形面部建模。IEEE国际会议计算机视觉，第2296-2303页。IEEE，2011年。5[12] 丹尼尔·库代罗、蒂莫·博尔卡特、卡西迪·莱德劳、阿努拉格·兰詹和迈克尔·布莱克。3D语音风格的捕捉、学习和计算机视觉和模式识别（CVPR），第10101-10111页，2019年。8.[13] 丹尼尔·库代罗、蒂莫·博尔卡特、卡西迪·莱德劳、阿努拉格·兰詹和迈克尔·J.黑。3D语音风格的捕捉、学习和综合。在IEEE/CVF会议中on Com-电脑视觉和模式识别（CVPR），第10093-10103页，2019年。2、3[14] 马克西姆·德瓦尼、哈齐姆·万努斯、斯特凡诺·贝雷蒂、彼得罗·帕拉、穆罕默德·达乌迪和阿尔贝托·德尔·宾博。通过黎曼Manifold上运动轨迹的形状分析进行三维人的动作识别IEEE控制论学报，45（7）：1340-1352，2014年。3[15] 董玄义、杨易、魏世恩、翁新帅、亚瑟谢赫、余寿一。通过配准和三角定位进行地标检测。IEEE模式分析和机器智能学报，第1-1页，2020年。2[16] 哈桑·德里拉、布尔巴巴·本·阿莫尔、阿努伊·斯里瓦斯塔瓦、莫-哈米德·达乌迪和里姆·斯拉马。3D人脸识别-表情、遮挡和姿势变化。模式分析和机器智能的IEETrans.，35（9）：2270- 2283，2013。3[17] 范丽杰、黄文兵、庄干、黄俊洲、伯庆功。可控制的图像到视频转换：面部表情生成的案例研究。在Conf. 关于人工智能（AAAI）教育广告研讨会，第3510-3517页。AAAI出版社，2019年。1个[18] 克劳迪奥·法拉利、斯特凡诺·贝雷蒂、彼

下载后可阅读完整内容，剩余1页未读，立即下载