FaceFormer：基于Transformer的3D面部动画

9 浏览量更新于2023-10-26 收藏 14.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yingruo Fan1Zhaojiang Lin2†Jun Saito3Wenping Wang1,4Taku Komura1∗………187700FaceFormer：基于Transformer的语音驱动3D面部动画01 香港大学 2 香港科技大学 3 Adobe研究院 4 德克萨斯农工大学0摘要0由于人脸的复杂几何形状和有限的3D音频-视觉数据可用性，基于语音的3D面部动画具有挑战性。先前的工作通常专注于学习短音频窗口的音素级特征，上下文有限，有时会导致嘴唇动作不准确。为了解决这个限制，我们提出了一种基于Transformer的自回归模型FaceFormer，它编码了长期的音频上下文，并自回归地预测一系列动画的3D面部网格。为了应对数据稀缺问题，我们整合了自监督预训练的语音表示。此外，我们设计了两种适用于这个特定任务的有偏注意机制，包括有偏的跨模态多头（MH）注意力和有偏的因果MH自注意力，采用周期性位置编码策略。前者有效地对齐音频和动作模态，而后者具有推广到更长音频序列的能力。大量实验证明我们的方法优于现有的最新技术。代码和视频可在以下网址获取：https://evelynfan.github.io/audio2face/。01. 引言0基于语音的3D面部动画已经成为学术界和工业界越来越受关注的研究领域。它在虚拟现实、电影制作、游戏和教育等广泛应用中具有潜在的益处。逼真的基于语音的3D面部动画旨在从任意语音信号中自动为3D角色模型添加生动的面部表情。我们专注于对3D几何形状的动画处理，而不是对2D像素值的处理，例如逼真的说话头部动画[12, 15, 42, 52, 63,67,69]。现有的大部分工作旨在生成2D的说话头部视频，因为大量的2D视频数据集是可用的。然而，生成的2D视频并不直接适用于需要在3D环境中为3D模型添加动画的应用程序，如3D游戏和虚拟现实。一些方法[27, 47,60]利用2D单目视频获取3D面部参数，但这可能导致不可靠的结果。这是因为合成的3D数据的质量受到3D重建技术准确性的限制，无法捕捉到3D的微小变化。在基于语音的3D面部动画中，一些基于3D网格的方法[8, 17,39]将输入形式化为短音频窗口，这可能导致面部表情变化的不确定性。正如Karras等人所指出的[31]，情感状态可以从长期的音频上下文中推断出来。虽然MeshTalk[51]通过对音频序列进行建模考虑了较长的音频上下文，但在数据稀缺的情况下，使用Mel频谱音频特征训练模型无法合成准确的嘴唇动作。收集大量的语音和3D运动捕捉数据对于成本和时间来说也是相当昂贵和耗时的。为了解决长期上下文和缺乏3D音频-视觉数据的问题，我们提出了一种基于Transformer的自回归模型（图1），它（1）捕捉更长期的音频上下文，以实现高度逼真的动画效果。0� 通讯作者 †在香港科技大学完成的工作0原始音频0FaceFormer0图1.FaceFormer的概念图。给定原始音频输入和中性的3D人脸网格，我们提出的端到端Transformer架构FaceFormer可以自动合成一系列具有准确嘴唇动作的逼真3D面部动作。0生成的2D视频不能直接应用于3D游戏和虚拟现实等应用，这些应用需要在3D环境中为3D模型添加动画。一些方法[27, 47,60]利用2D单目视频获取3D面部参数，但这可能导致不可靠的结果。这是因为合成的3D数据的质量受到3D重建技术准确性的限制，无法捕捉到3D的微小变化。在基于语音的3D面部动画中，一些基于3D网格的方法[8, 17,39]将输入形式化为短音频窗口，这可能导致面部表情变化的不确定性。正如Karras等人所指出的[31]，情感状态可以从长期的音频上下文中推断出来。虽然MeshTalk[51]通过对音频序列进行建模考虑了较长的音频上下文，但在数据稀缺的情况下，使用Mel频谱音频特征训练模型无法合成准确的嘴唇动作。收集大量的语音和3D运动捕捉数据对于成本和时间来说也是相当昂贵和耗时的。为了解决长期上下文和缺乏3D音频-视觉数据的问题，我们提出了一种基于Transformer的自回归模型（图1），它（1）捕捉更长期的音频上下文，以实现高度逼真的动画效果。187710整个面部（包括上半部分和下半部分）的表情，（2）有效利用自监督预训练的语音表示来处理数据稀缺问题，以及（3）考虑面部运动的历史以产生时间稳定的面部动画。Transformer[58]在自然语言处理[20, 58]和计算机视觉[13, 21,44]任务中取得了显著的性能。像LSTM这样的序列模型存在一个瓶颈，阻碍了有效学习更长期的上下文[45]。与基于RNN的模型相比，Transformer可以更好地通过注意机制仅基于注意机制捕捉长程上下文依赖关系[58]。最近，Transformer在身体运动合成[1, 4, 46]和舞蹈生成[36, 37,57]方面也取得了令人鼓舞的进展。Transformer的成功主要归功于其设计中融入了自注意机制，该机制通过明确关注表示的所有部分来有效地建模短程和长程关系。尚未在这个方向上探索过以语音驱动的3D面部动画。将纯Transformer架构直接应用于音频序列在语音驱动的3D面部动画任务上表现不佳，因此我们需要解决这些问题。首先，Transformer在本质上是数据饥饿的，需要足够大的数据集进行训练[32]。鉴于有限的3D音频-视觉数据的可用性，我们探索了使用自监督预训练的语音模型wav2vec 2.0[2]。Wav2vec2.0学习了丰富的音素信息，因为它是在大规模无标签语音语料库[43]上进行训练的。虽然有限的3D音频-视觉数据可能无法涵盖足够的音素，但我们期望预训练的语音表示可以在数据稀缺的情况下对语音驱动的3D面部动画任务有所裨益。其次，Transformer的默认编码器-解码器注意力无法处理模态对齐，因此我们为音频-运动对齐添加了一个对齐偏置。第三，我们认为建模语音和面部运动之间的相关性需要考虑长期音频上下文依赖关系[31]。因此，我们不限制编码器自注意力的注意范围，从而保持其捕捉长程音频上下文依赖关系的能力。第四，具有正弦位置编码的Transformer对于超过训练期间所见的序列长度的泛化能力较弱[19,50]。受到Attention with Linear Biases(ALiBi)[50]的启发，我们为查询-键注意力分数添加了一个时间偏置，并设计了一种周期性的位置编码策略来提高模型对更长音频序列的泛化能力。我们的工作的主要贡献如下：0•用于语音驱动的3D面部动画的自回归Transformer架构。FaceFormer编码了长期音频上下文和面部运动的历史，以自回归方式预测一系列0动画化的3D面部网格。它实现了整个面部（包括上半部分和下半部分）高度逼真和时间稳定的动画效果。0•偏置注意模块和周期性位置编码策略。我们精心设计了有偏差的跨模态MH注意力来对齐不同的模态，以及带有周期性位置编码策略的有偏差的因果MH自注意力，以提高对更长音频序列的泛化能力。0•有效利用自监督预训练的语音模型。将自监督预训练的语音模型纳入我们的端到端架构中，不仅可以解决数据限制问题，还可以显著提高对于困难情况下（例如/b/、/m/、/p/音素上嘴唇完全闭合）的口型动作准确性。0•大量实验和用户研究以评估合成面部运动的质量。结果表明，FaceFormer在两个3D数据集[17,24]上在逼真的面部动画和嘴唇同步方面优于现有的最先进方法。02. 相关工作02.1. 语音驱动的3D面部动画0多年来，面部动画[5, 25, 33-35, 55, 62,72]引起了相当大的关注。虽然我们知道了广泛的基于2D的方法[10,11, 16, 18, 23, 29, 49, 59, 66,70]，但我们在这项工作中专注于对3D模型进行动画处理。通常，程序化方法[22, 41, 54,65]建立了一组明确的规则来进行口型动画。例如，支配函数[41]用于表征语音控制参数。Taylor等人提出的动态视音模型[54]利用了音素到唇部运动的一对多映射。Xu等人[65]构建了一个用于建模协同发音效果的规范集。最先进的程序化方法JALI[22]利用两个解剖动作来对3D面部骨骼进行动画处理。上述程序化方法的一个吸引人之处在于系统的明确控制，以确保口部运动的准确性。然而，它们需要大量的手动调整工作。相反，已经提出了各种各样的数据驱动方法[6, 17, 28, 31, 40, 48, 51,53]来生成3D面部动画。Cao等人[6]基于提出的AnimeGraph结构和一种基于搜索的技术来合成3D面部动画。滑动窗口方法[53]需要转录的音素序列作为输入，并可以将输出重新定位到其他动画骨骼上。Karras等人[31]详细介绍了一种端到端的卷积网络，利用线性预测编码方法对音频进行编码，并设计了一个能够消除面部表情变化的潜在代码。Zhou等人[71]采用了一个三阶段网络，将音素组、地标和音频特征结合起来预测视音动画曲线。VOCA[17]是一种无关讲话者的3D面部动画方法，可以捕捉各种讲话风格，但生成的面部动作主要存在于下半部分。最近，MeshTalk[51]学习了一个分类潜在空间，成功地将与音频相关和与音频无关的面部动作分离开来。最相关的工作是使用高分辨率3D数据进行训练，并将输出表示为3D顶点空间中的高维向量的方法[17, 31,51]。前两个模型[17,31]使用短音频窗口进行训练，因此忽略了长期音频上下文。尽管后一种方法[51]实现了高度逼真的面部动画，但它需要大量的高保真度3D面部数据来确保动画质量。The design of our FaceFormer encoder follows the state-of-the-art self-supervised pre-trained speech model, wav2vec2.0 [2]. Specifically, the encoder is composed of an au-dio feature extractor and a multi-layer transformer en-coder [58].The audio feature extractor, which consistsof several temporal convolutions layers (TCN), transformsthe raw waveform input into feature vectors with frequencyfa. The transformer encoder is a stack of multi-head self-attention and feed-forward layers, converting the audio fea-ture vectors into contextualized speech representations. Theoutputs of the temporal convolutions are discretized to a fi-nite set of speech units via a quantization module. Similarto masked language modeling [20], wav2vec 2.0 uses thecontext surrounding a masked time step to identify the truequantized speech unit by solving a contrastive task.We initialize our encoder (Fig. 2) with the pre-trainedwav2vec 2.0 weights, and add a randomly initialized lin-ear projection layer on the top.Since the facial motiondata might be captured with a frequency fm that is differ-ent to fa (e.g., fa = 49Hz while for the BIWI datset [24]fm = 25fps), we add a linear interpolation layer after thetemporal convolutions for resampling the audio features,187720Zhou等人[71]采用了一个三阶段网络，将音素组、地标和音频特征结合起来预测视音动画曲线。VOCA[17]是一种无关讲话者的3D面部动画方法，可以捕捉各种讲话风格，但生成的面部动作主要存在于下半部分。最近，MeshTalk[51]学习了一个分类潜在空间，成功地将与音频相关和与音频无关的面部动作分离开来。最相关的工作是使用高分辨率3D数据进行训练，并将输出表示为3D顶点空间中的高维向量的方法[17, 31, 51]。前两个模型[17,31]使用短音频窗口进行训练，因此忽略了长期音频上下文。尽管后一种方法[51]实现了高度逼真的面部动画，但它需要大量的高保真度3D面部数据来确保动画质量。02.2. 视觉和图形中的变压器0变压器[58]已经成为RNN和CNN的强有力的替代品。与递归处理序列令牌的RNN不同，变压器可以并行处理输入序列中的所有令牌，从而有效地建模长程上下文信息。VisionTransformer(ViT)[21]是第一个探索将变压器直接应用于图像分类任务的工作。在ViT之后，一些后续工作[9, 14,56]已经被引入以提高图像识别问题的性能。此外，基于变压器的模型和变体也已经在目标检测[7]、语义分割[64]、图像生成[30]等领域提出。在计算机图形学中，变压器已经被用于3D点云表示和3D网格，例如PointTransformer[68]、Point Cloud Transformer[26]和MeshTransformer[38]。我们建议读者参考全面的调查[32]以获取更多信息。一些最近关于3D人体运动合成[1, 4,46]和3D舞蹈生成[36, 37,57]的工作已经探索了变压器在建模序列数据方面的能力，并取得了令人印象深刻的结果。与舞蹈生成不同，语音驱动的3D面部动画的任务本质上需要音频和面部动作之间的对齐，以确保唇部动作的准确性。同时，预期考虑到长期音频上下文，这对于动画化整个面部来说是重要的。因此，我们提出了FaceFormer，它融合了语音驱动的3D面部动画问题的理想属性。03.我们的方法：FaceFormer0我们将语音驱动的3D面部动画制作形式化为一个序列到序列（seq2seq）学习问题，并提出了一种新颖的seq2seq架构（图2）来自回归地生成面部动画的序列。0根据音频上下文和过去的面部运动序列，逐步预测面部运动。假设存在一系列的真实3D面部运动YT = (y1, ...,yT)，其中T是视觉帧的数量，以及相应的原始音频X。目标是产生一个模型，可以在给定原始音频X的情况下合成类似于YT的面部运动ˆYT。在编码器-解码器框架（图2）中，编码器首先将X转换为语音表示AT' = (a1, ...,aT')，其中T'是语音表示的帧长度。样式嵌入层包含一组可学习的嵌入，表示说话人身份S = (s1, ...,sN)。然后，解码器在给定AT'、说话人n的样式嵌入sn和过去的面部运动的条件下，自回归地预测面部运动ˆYT = (ˆy1,..., ˆyT)。形式上，0ˆyt = FaceFormerθ(ˆy

下载后可阅读完整内容，剩余1页未读，立即下载