跨模态解缠生成高逼真基于语音的3D面部动画方法

182 浏览量更新于2023-10-16 收藏 18.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

adapted to understanding subtle facial motions and expres-sions. Thus, a poorly animated face without realistic co-articulation effects or out of lip-sync is deemed to be dis-turbing for the user.Psychological literature has observed that there is an im-portant degree of dependency between speech and facialgestures. This dependency has been exploited by audio-driven facial animation methods developed in computer vi-sion and graphics [4, 2]. With the advances in deep learning,recent audio-driven face animation techniques make use ofperson-speciﬁc approaches [22, 26] that are trained in a su-pervised fashion based on a large corpus of paired audioand mesh data. These approaches are able to obtain high-quality lip animation and synthesize plausible upper facemotion from audio alone. To obtain the required trainingdata, high-quality vision-based motion capture of the user is11730MeshTalk:使用跨模态解缠生成基于语音的3D面部动画0Alexander Richard 1 Michael Zollh¨ofer 1 Yandong Wen 2 Fernando de la Torre 2 Yaser Sheikh 101 Facebook Reality Labs 2 Carnegie Mellon University0{ richardalex, zollhoefer, yasers } @fb.com yandongw@andrew.cmu.edu ftorre@cs.cmu.edu0摘要0本文提出了一种通用的方法，用于从语音生成完整的面部3D动画。现有的音频驱动面部动画方法存在怪异或静态的上半脸动画问题，无法产生准确和合理的共同发音，或者依赖于限制其可扩展性的特定个人模型。为了改进现有模型，我们提出了一种通用的音频驱动面部动画方法，能够为整个面部实现高度逼真的运动合成结果。我们方法的核心是面部动画的分类潜空间，它基于一种新颖的跨模态损失将与音频相关和与音频无关的信息进行解缠。我们的方法确保了高度准确的唇部运动，同时还能够合成与音频信号不相关的面部部分的合理动画，如眨眼和眉毛运动。我们证明了我们的方法优于几种基准方法，并在定性和定量上获得了最先进的质量。感知用户研究表明，在超过75%的情况下，我们的方法被认为比当前最先进的方法更逼真。我们建议在阅读论文之前观看补充视频：https://github.com/facebookresearch/meshtalk01. 引言0语音驱动的面部动画是一个极具挑战性的研究问题，具有多种应用，如计算机游戏的面部动画、电子商务或沉浸式虚拟现实远程存在感。语音驱动的面部动画的需求因应用而异。例如，语音治疗或娱乐（如Animojies或AR效果）不需要非常逼真的动画。相反，在电影制作、电影配音、电子商务应用的驱动虚拟化身或沉浸式远程存在感中，语音动画的质量需要具有高度的自然性、合理性，并且必须提供与自然说话者相当的可理解性。人类视觉系统已经进化到能够理解微妙的面部运动和表情。因此，一个动画效果不佳、没有逼真的共同发音效果或者唇语不同步的面部动画被认为对用户来说是令人不安的。心理学文献观察到，语音和面部手势之间存在重要的依赖关系。这种依赖关系已经被计算机视觉和图形学中开发的音频驱动面部动画方法所利用[4,2]。随着深度学习的进步，最近的音频驱动面部动画技术利用了个人特定的方法[22,26]，这些方法是基于大量配对的音频和网格数据进行监督训练的。这些方法能够获得高质量的唇部动画，并且能够从仅有的音频中合成出合理的上半脸运动。为了获得所需的训练数据，需要对用户进行高质量的基于视觉的动作捕捉。0图1.给定一个人的中性面部网格和一个语音信号作为输入，我们的方法生成高度逼真的面部动画，具有准确的唇形和逼真的上半脸运动，如眨眼和抬眉毛。11740在真实世界的消费者应用中，这些方法都是不切实际的。最近，Cudeiro等人[8]扩展了这项工作，提出了一种能够概括不同身份的方法，因此能够根据给定的音频流和用户的静态中性3D扫描来为任意用户生成动画。虽然这些方法在真实世界的应用中更加实用，但通常会出现怪异或静态的上半脸动画[8]。原因是音频并不能编码面部表情的所有方面，因此音频驱动的面部动画问题试图学习一对多的映射，即每个输入都有多个合理的输出。这通常会导致过度平滑的结果，特别是在面部区域中，这些区域与音频信号只有弱相关性甚至无相关性。本文提出了一种新颖的音频驱动面部动画方法，能够实现整个面部高度逼真的运动合成，并且适用于未见过的身份。为此，我们学习了一种新颖的面部动画分类潜空间，将与音频相关和与音频无关的信息分离开来，例如，眼睛闭合不应该与特定的嘴唇形状绑定。该潜空间是基于一种新颖的跨模态损失进行训练的，该损失鼓励模型在音频输入独立的情况下具有准确的上半脸重建和仅依赖于提供的音频输入的准确的嘴部区域。这样可以将下半脸区域的运动与上半脸区域分离开来，防止过度平滑的结果。运动合成基于学习的分类潜空间上的音频条件时间模型的自回归采样策略。我们的方法确保了高度准确的唇部运动，同时还能够对与音频信号不相关的面部部分进行合理的动画采样，例如眨眼和眉毛运动。02. 相关工作0基于语音的面部动画在计算机视觉领域有着悠久的历史，从艺术家友好的风格化和音位模型[11，42，19]到2D[29，40，31]和3D[30，22，26]面部的神经合成。接下来，我们将回顾最相关的方法。0基于音位的面部动画。在早期的方法中，音位序列是从输入文本[13，14]或使用基于HMM的声学模型直接从语音中生成的[35]。通过在模板[21，20]或上下文相关的音位模型[9]之间进行混合，实现了视觉合成。由于JALI[11]的成功，一种面向动画师的可驱动下颌和嘴唇模型，Zhou等人[42]提出了一种基于LSTM的近实时方法来驱动下半脸嘴唇模型。由于其通用性和艺术家友好的设计，基于音位的方法在商业应用中特别受欢迎，尤其是在虚拟现实领域[1，19]。0基于语音的2D说话头。早期的2D说话头工作通过在现有视频中搜索相似的话语来替代学习问题[4]。Brand等人[3]提出了一个通用的机器学习模型，用于驱动一个包含语音和面部动态效果（如共同发音）的面部控制模型。Suwajanakorn等人的方法[29]能够通过合成匹配的口腔纹理并将其叠加在目标视频剪辑上，生成具有准确嘴唇同步的单个人的视频。Wav2lip[25]解决了视觉配音的问题，而神经声音木偶术[31]通过神经渲染执行音频驱动的面部视频合成，以生成逼真的输出帧。X2Face[40]是一种用于2D面部动画的编码器/解码器方法，例如从音频中，可以使用大量的视频进行完全自我监督的训练。其他基于生成对抗网络（GANs）的说话面部视频技术[28，7，36，41]都是基于像素空间操作的，不容易推广到3D。0基于语音的3D模型。驱动3D面部模型的方法主要使用视觉输入。早期的工作将运动捕捉或2D视频映射到3D混合形状模型[10，37，15]，而更近期的工作则使用VR头显上的传感器来实现逼真的3D头像动画[23，26，39，6]。这些方法可以实现高度逼真的结果，但通常是个性化的，不是由音频驱动的。大多数完全由语音驱动的3D面部动画技术要么需要个性化模型[5，22，26]，要么映射到较低保真度的混合形状模型[24]或面部特征点[12，16]。Cao等人[5]提出了一种实现逼真纹理个性化3D面部模型的语音驱动动画方法，该方法需要从要动画的人那里获取运动捕捉数据，进行离线处理和运动片段的混合。Richard等人[26]的完全语音驱动方法实现了实时的逼真头像，但是它是个性化的，并且依赖于来自单个主体的几个小时的训练数据。Karras等人[22]从每个主体的3-5分钟的数据中学习了一个语音驱动的3D面部网格，并将其模型与导致面部表情的情绪状态相关联。然而，与我们的方法相比，该模型具有较低保真度的嘴唇同步和上半脸表情，并且不能推广到新的主体。在[30]中，通过重新定位技术将单个说话者模型推广到任意风格化的头像。与我们的方法最接近的是VOCA[8]，它允许从音频中驱动任意中性面部网格，并实现了令人信服的嘴唇同步。尽管生成了吸引人的嘴唇动作，但他们的模型不能合成上半脸动作，并且倾向于生成静音表情。此外，该方法期望将训练身份作为条件输入到模型中。正如作者在其补充视频中所展示的那样，这个身份代码对生成的嘴唇同步质量有很大的影响。因此，我们发现VOCA在大规模数据集上存在困难。11750与拥有数百个训练对象的大规模数据集相比，我们的方法是非个性化的，生成逼真的上半部分面部运动，并实现高度准确的嘴唇同步。03. 方法0我们的目标是仅使用语音来为任意中性面部网格添加动画效果。由于语音并未编码面部表情的所有方面-眨眼是不相关的表达信息的一个简单示例-大多数现有的音频驱动方法会产生不真实或静态的上半部分面部动画[8]。为了解决这个问题，我们学习了一个用于面部表情的分类潜在空间。在推理时，从以语音为条件的时间模型在这个潜在空间上进行自回归采样，以确保准确的嘴唇运动，同时合成与语音不相关的面部部分的合理动画。基于此，潜在空间应具有以下特性：分类的。大多数成功的时间模型在分类空间上操作[33,32,34]。为了使用这样的模型，潜在表情空间也应该是分类的。具有表现力的。潜在空间必须能够编码多样的面部表情，包括像眨眼这样的稀疏事件。语义上解耦。与语音相关和与语音不相关的信息应该至少部分解耦，例如，眼睛闭合不应该与特定的嘴唇形状绑定。03.1. 建模和学习表情空间0设x1:T =(x1,...,xT)，xt∈RV×3是一系列T个面部网格，每个网格由V个顶点表示。进一步设a1:T =(a1,...,aT)，at∈RD是一系列T个语音片段，每个片段有D个样本，与相应的（视觉）帧t对齐。此外，我们将所需的输入模板网格表示为h∈RV×3。为了实现分类潜在空间的高表现力，空间必须足够大。由于这会导致单个潜在分类层的类别数C过大，不可行，我们建模了H个潜在分类头，每个头有C个类别，允许具有相对较小的类别数的大表情空间，因为潜在空间的配置数为CH，因此在H上呈指数增长。在本文中，我们使用C = 128和H =64。从表情和音频输入信号到多头分类潜在空间的映射是通过一个编码器˜E实现的，该编码器将所有音频序列和所有表情序列（即动画面部网格序列）映射到一个T×H×C维的编码中。0enc1:T,1:H,1:C = ˜E(x1:T, a1:T) ∈ RT×H×C. (1)0图2.系统概述。将一系列动画面部网格（表情信号）和语音信号映射到一个分类潜在表情空间。然后使用UNet风格的解码器根据编码的表情来为给定的中性面部模板网格添加动画效果。0然后，使用Gumbel-softmax[18]将这个连续值编码转换为分类表示，应用于每个潜在分类头，0c1:T,1:H = �Gumbel� enc t,h,1:C 01:T,1:H (2)0使得每个时间步t和潜在分类头h上的每个分类组件被分配C个分类标签之一，ct,h∈{1,...,C}。我们将完整的编码函数，即˜E后面的分类，表示为E。输入模板网格h的动画由解码器D实现。0ˆh1:T = D(h, c1:T,1:H), (3)0将编码的表达式映射到提供的模板h上。从而生成一个动画序列ˆh1:T的面部网格，看起来像由模板h表示的人，但根据表达式代码c1:T,1:H移动。请参见图2的概述。0学习潜在空间。在训练时，仅对于模板网格、语音信号和表情信号来自同一身份的情况下才有真实的对应关系，并且所需的解码器输出ˆh1:T等于表情输入x1:T。因此，使用ˆh1:T和x1:T之间的简单ℓ2重建损失进行训练将导致音频输入被完全忽略，因为表情信号已经包含了完全重建所需的所有信息-这是一个问题T�t=1T�t=1T�t=1prevents the network from diverging from the given tem-plate mesh too much. In the bottleneck layer, the expres-sion code c1:T,1:H is concatenated with the encoded tem-plate mesh. The bottleneck layer is followed by two LSTMlayers to model temporal dependencies between frames fol-lowed by three fully connected layers remapping the repre-sentation to vertex space.See the supplementary material for more details.(8)11760导致了较差的口型与语音同步，如第4.1节所示。因此，我们提出了一种跨模态损失，确保两个输入模态的信息在潜在空间中得到利用。设x1:T和a1:T为给定的表情和语音序列。进一步设hx表示信号x1:T中所代表的人的模板网格。我们不再生成单一的重建ˆh1:T，而是生成两个不同的重建0ˆh（音频）1:T =D�hx，E（˜x1:T，a1:T）�和（4）ˆh（表情）1:T =D�hx，E（x1:T，˜a1:T）�，（5）0其中˜x1:T和˜a1:T是从训练集中随机抽样的表情和音频序列。换句话说，ˆh（音频）1:T是在给定正确音频但随机表情序列的情况下的重建，而ˆh（表情）1:T是在给定正确表情序列但随机音频的情况下的重建。然后，我们定义了我们的新型跨模态损失为0LxMod =0v =1 M（上部）v �∥ˆh（表情）t,v−xt,v∥2� +0v =1 M（嘴巴）v �∥ˆh（音频）t,v−xt,v∥2�，（6）0其中M（上部）是一个掩码，将高权重分配给上半脸的顶点，将低权重分配给嘴周围的顶点。类似地，M（嘴巴）将高权重分配给嘴周围的顶点，将低权重分配给其他顶点。跨模态损失鼓励模型在音频输入独立的情况下具有准确的上半脸重建，并且根据音频独立于提供的表达序列准确重建嘴巴区域。由于眼睑闪烁是快速且稀疏的事件，只影响少数顶点，因此我们还发现在训练过程中强调眼睑顶点上的损失至关重要。因此，我们添加了一个特定的眼睑损失。0L眼睑 =0v =1 M（眼睑）v �∥ˆht,v−xt,v∥2�，（7）0其中M（眼睑）是一个二进制掩码，对于眼睑顶点为1，对于所有其他顶点为0。我们优化的最终损失是L = LxMod +L眼睑。我们发现在实践中两个术语的平等权重效果很好。0网络架构。音频编码器是一个四层1D时间卷积网络，类似于[26]中使用的网络。表情编码器具有三个全连接层，后面是一个单独的LSTM层，用于捕捉时间依赖关系。融合模块是一个三层MLP。解码器D具有类似UNet的架构，具有加性跳跃连接，参见图2。这种架构的归纳偏差防止网络过度偏离给定的模板网格。在瓶颈层中，将表情代码c1:T,1:H与编码的模板网格连接起来。瓶颈层后面是两个LSTM层，用于建模帧之间的时间依赖关系，然后是三个全连接层，将表示重新映射到顶点空间。更多细节请参见补充材料。0图3.自回归模型。对于潜在表达空间中的每个位置ct,h，音频条件化的潜在编码被采样，其中模型只能访问先前生成的标签，如方程（8）所定义。03.2. 音频条件自回归建模0仅使用音频输入驱动模板网格时，表情输入x1:T是不可用的。只有给定一个模态时，无法从音频中推断出的缺失信息必须被合成。因此，我们在分类潜在空间上学习了一个自回归时间模型。该模型允许采样一个潜在序列，生成合理的表情，并与音频输入一致。根据贝叶斯定理，给定音频输入a1:T，潜在嵌入c1:T, 1:H的概率可以分解为0p(c1:T, 1:H | a1:T) =0T �0t = 10请注意，我们在分解中假设了时间因果关系，即时间t的类别ct,h仅取决于当前和过去的音频信息a≤t，而不是过去和未来的上下文a1:T。我们使用类似于PixelCNN[33]的自回归卷积网络对这个数量进行建模。我们的自回归时间CNN有四个卷积层，沿着时间轴逐渐增加膨胀率。卷积被掩蔽，以便在预测ct,h时，模型只能访问过去所有分类头部的信息ct

下载后可阅读完整内容，剩余1页未读，立即下载