语音驱动的内口动画研究与深度学习的方法相结合，生成逼真的舌头和下巴动画

28 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20406语音驱动的舌头动画萨尔瓦多梅迪纳1，2，丹尼斯托梅2，卡斯滕斯托尔2，马克Tiede3，凯文Munhall4亚历克斯豪普特曼1，伊恩马修斯21卡内基梅隆大学，2史诗游戏，3哈斯金斯实验室，4皇后大学{salvadom，alex} @ cs.cmu.edu，tiede@haskins.yale.edu，munhallk@queensu.ca{denis.tome，carsten.stoll，iain.matthews} @ epicgames.com摘要语音驱动动画技术的进步允许仅从音频数据为虚拟角色创建令人信服的动画许多现有的方法集中于面部和嘴唇运动，并且它们通常不提供内口的真实动画。本文研究了语音驱动的内嘴动画问题。单独从视频中获得舌头和下巴的性能捕获数据是困难的，因为在讲话期间只能部分观察到内口。在这项工作中，我们介绍了一个大规模的语音和mocap数据集，专注于捕捉舌头，下巴和嘴唇的运动。该数据集使研究能够使用数据驱动技术从语音中生成逼真的内口动画。然后，我们提出了一种基于深度学习的方法，用于准确和概括的语音到舌头和下巴动画，并评估了几种编码器-解码器网络架构和音频特征编码器。我们发现，最近的基于自监督深度学习的音频特征编码器是鲁棒的，可以很好地推广到看不见的说话者和内容，并且最适合我们的任务。为了证明我们的方法的实际应用，我们显示动画高品质的参数化三维人脸模型驱动的地标从我们的语音到舌头动画方法。1. 介绍通过面部性能捕获和语音驱动动画的进步，具有惊人逼真面部动画的虚拟人角色成为可能。然而，虚拟人物通常缺乏真实的表示和内部嘴的运动，特别是对于舌头。舌头动画通常是柔和和不自然的，打破了现实主义的幻想，并有助于一个神秘的山谷经验。因为即使当嘴张开时，内口咬合体也只能部分手动动画的舌头和下巴需要一个熟练的艺术家熟悉语音清晰度，是耗时的，由于快速和复杂的运动所需的语音生产。对于任何实时或交互式应用程序来说，手动制作动画显然不是一种选择。在所有情况下，低延迟和实时自动动画解决方案是首选。在实践中，电影和视频游戏的内口动画其结果是广泛地匹配特定声音的发音，例如牙齿辅音、开口元音或将舌头从口底移动到上颚（反之亦然）的发音。在许多情况下，内口区域仅仅是故意地弱照明，而语音清晰度通过将舌头置于中性位置来近似。在本文中，我们考虑的问题，自动语音驱动的舌头和下巴动画使用数据驱动的序列到序列的方法。序列到序列模型在不同的回归和预测问题上显示出令人印象深刻的结果，并且它们已经被应用于各种各样的研究领域。在我们的任务中，输入是流式语音音频波形，并且输出是运动捕获语音发音器的时间上对应的3D地标位置的集合。我们记录并发布了一个新的数据集，包括超过2.5小时的标记语音，其中包括使用电磁关节描记器（EMA）[5]（一种专门的语音运动捕获系统）跟踪的地面实况该数据集可公开用于进一步研究1。我们利用最近在基于深度学习的语音音频特征表示方面的工作，并将基于ML的方法与基于语音或基于频率的表示的传统特征进行比较。我们的实验表明，与传统特征相比，深度学习语音表示大大提高了通用性和对噪声的弹性。精确地动画舌头是一项具有挑战性的任务。典型的光学性能捕获方法失败于-1https://salmedina.github.io/tongue-anim20407由我们的模型预测的地标位置可以用于驱动任何面部动画装备。我们使用专业的FACS启发[11] MetaHu-man面部钻机基于捕获主题演示钻机解决。一般的重新定位显示在更多的超人类角色上，这些角色可以使用超人类创造者工具进行定制[12]。为了使钻机动画化，我们执行优化，该优化最小化预测的地标与其在面部网格上的对应位置之间的距离，并求解动画的参数表示。这种方法意味着结果可以很容易地用于游戏引擎或任何数字内容创建（DCC）软件。本文的主要工作如下：（1）提出了一个语音驱动的舌头动画框架，该框架训练了一个高质量的舌头和下颌的语音到动画模型。(2)我们通过为语音到动画的任务引入自监督深度学习音频特征，全面分析和比较了各种音频（3）提出了一种流水线方法，该方法通过快速优化方法从少量的3D特征点约束驱动高质量的参数化(4)我们发布了代码和一个新的大规模语音到舌头mocap数据集来训练舌头和下巴语音动画模型。2. 相关工作文献中的许多方法集中在嘴唇和面部变形上。由于缺乏数据和一般化的主体独立模型，使嘴内部动画化常常被忽视，因为这一特定任务具有挑战性。最近的基于视觉的生成动画方法已经显示出令人信服的结果，使用生成对抗网络（GAN）[41，51，56]，图像到图像transla。[57]或神经渲染[20，21，46]。然而，这些方法都没有直接输出3D动画，而是隐含地生成说话面部的2D图像帧我们的应用程序是学习合成3D语音和舌头运动，可用于现有的3D计算机动画管道。舌头建模可以追溯到[35]，其在矢状面中对舌头的二维表面投影进行建模，忽略了舌头的内在结构，仅考虑了几何表面变形。[52]的生物力学模型对软组织变形和非线性几何效应进行建模。[15]中提出的2D生理模型使用来自单个受试者的MRI数据的2D有限元模拟来统一舌、颌和喉结构[22]中的参数化模型通过B样条来描述舌头手机形状通过手动设置参数进行匹配舌体模型的参数，并通过音素之间的形状融合实现舌体从那时起，通过符号声音单元（如音素）将音频表示为形状参数是语音动画的一般方法[8，24，29，30，40，48]。例如，JALI [10]是一种从音素生成口型的视位单元的过程方法。视位序列被混合到共同关节运动中，以动画化基于FACS的面部装备模型[33]。从这些方法产生的动画可以被转移到不同的字符，如果他们共享一个共同的索具系统。不同的方法也探讨了不同的输入方式的舌动画。例如，在 [44] 中，舌 3D 模型直接从电磁关节造影（EMA）数据动画。这种方法不包括任何音频处理，因为动画通过其开源框架与EMA捕获会话中记录的音频同步[43]。舌头的动画也可以通过超声波图像实现.在[13]中，作者探索了从由本征舌[18]特征表示的低分辨率图像中动画舌头，并通过高斯混合模型映射到控制参数。稍后在[6]中，使用蛇轮廓提取算法并驱动舌头的有限元模型从超声图像获得更真实的动画，以21 FPS实现动画[42]提出的多模态端到端隐马尔可夫模型与以前的工作不同，他们的方法用舌模型参数代替正中矢状EMA数据作为目标发音表示。后续多模态方法[54]用瓶颈长期递归卷积网络（BTR-CNN）取代HMM该网络在文本和音频上进行训练，以预测EMA位置作为舌头运动的代理，同时在训练模型时考虑嵌入的发音特征。与我们的方法类似，其他工作也只考虑语音音频作为输入。在[27]中，输入语音被表示为通过HMM映射到EMA传感器位置预测的关节运动控制3D舌头模型的变形类似地，在[28]中，堆叠限制玻尔兹曼机从表示为梅尔频率倒谱系数（MFCC）的音频预测EMA传感器位置。通过有限元方法将预测位置拟合到体积保持模型以生成动画。Zhu et. [59]还使用MFCC作为输入特征，使用2层双向LSTM解决EMA位置上的发音反转，然后将音频特征线性投影到 RNN 中。该模型在MNGU0数据集上实现了最先进的结果[37]。然而，在[4]中，他们证明了门控递归单元（GRU）网络20408∈∈{}∈ Y{}∈XD与LSTM架构相比，GRU层的性能略有改善，因为GRU层的参数更少，使它们不太容易过度拟合。在这项工作中，我们通过探索最近的深度学习模型提供的鲁棒和连续的音频特征表示，超越了音素或MFCC等语言动机特征。这些特征使得即使在域外话语上也能够跨说话者进行泛化我们还研究了深度学习架构[19，47，58]，以从发音反转的角度将音频特征表示映射到EMA传感器位置。3. 舌头运动捕捉数据舌头动作捕捉是语音这些数据是由演员在一个8小时的会话中记录的，共阅读2160个句子。从哈佛集合[38]中选取720个句子的子集，以常规和快速的速度重复。剩下的1440个句子来自TIMIT数据集[14]。在我们的实验中，我们使用了1902个裁剪样本的子集，其中排除了阅读错误和非语言手势，总共有2个。55小时的咬合架动作捕捉序列与音频样本配对。我们还从同步到EMA捕获的两个摄像机捕获了HD参考视频，使得未来能够进行基于视觉的分析，因为演员准备有可见标记。表1. EMA传感器位于舌头、嘴唇和下巴上。放置位置为正中矢状（M）或旁矢状（P）。病理一种流行的捕捉舌头运动电磁关节造影（EMA）[17]。传统上，EMA以正中矢状方式捕获，如[49]和[53]所示。我们收集了一个新的舌头运动捕捉数据集的语音动画任务与额外的parasynchronous传感器。[32]中的语言分析证明了添加横向传感器以描述更丰富的舌头运动动力学的重要性。根据机构审查委员会（IRB）批准的伦理和健康指南，使用Carstens AG501 EMA设备[5]十个传感器的配置用于获取运动的EMA传感器位置放置TD舌背MTB舌片MBR舌片右PBL舌片左PTT舌尖MUL上唇MLC中心唇，右角PLL下唇MLI钳口，内侧切牙MLJ钳口，犬第一前磨牙P舌头下巴和嘴唇传感器连接到表面使用医用级氰基丙烯酸酯胶水。虽然不是痛苦或永久性的，但它是一个侵入性的过程。演员位于九个RF发射器下方，产生电磁场，该电磁场激励传感器中的线圈，其电流被处理以恢复每个传感器的五个自由度：三个用于位置（x，y，z），两个用于旋转（方位角和仰角）。EMA传感器以250 Hz采样，单声道音频以48 kHz的采样率同步记录。五个传感器被定位在舌头上：中矢背、刀片和尖端，以及刀片上的左和右舌旁传感器舌尖传感器被定位在顶点后面5mm处，以避免对演员的牙齿造成任何损伤两个传感器位于下颌上：一个位于中切牙的牙龈边缘，另一个位于犬齿和第一前磨牙之间的牙周位置。另外两个以正中矢状的方式放置在上唇和下唇的朱红色边缘。最后一个传感器放置在右唇角顶点。为了能够相对于刚性头部位置稳定语音咬合架界标，定位三个附加传感器：一个在上内侧切牙上，并且在左右下颌突上各一个稳定传感器在六个自由度上捕获刚性颅骨位置和旋转传感器放置的可视化如图1所示，命名约定总结见表1。4. 方法我们提出的基于学习的预测管道由编码器-解码器模型和可选的钻机求解动画步骤组成。首先，输入音频由音频编码器编码成压缩的潜在特征表示。然后，由清晰度解码器预测稀疏界标位置的序列。最后，这些稀疏点成为装备优化器模块的约束，该装备优化器模块识别最佳动画参数以匹配装备的3D模型上的舌头、嘴唇和下巴的对应网格位置。形式上，我们的数据集=（X，Y）被定义为一组对，其中X=x1，x2，.，xn，xi表示音频输入样本的集合，并且Y=y1，y2，.，yn，yi是EMA界标位置的对应序列。每个输入音频xiRT表示由根据音频的持续时间和其被捕获的采样率的T i样本组成的一维波形，而yiRSi× L ×3包含L = 10个3D界标位置的一系列Si连续帧。作为第一种方法，我们专注于找到将输入音频信号编码到潜在音频特征空间Z ∈Ra中的最佳模型E：X →Z，其中a是维数20409∈∈Z → Y∈A Y → MMEMA传感器放置地标可视化装配网格图1.用于捕获舌头、嘴唇和下巴mocap数据集的传感器配置。请注意，在地标可视化中，我们如何使用对称性反映LC和LJ的位置嘴唇、牙齿和上颚是舌头位置的参考的音频特征表示。音频嵌入ziRSi× a随后由发音解码器D：解码，以预测在EMA稳定姿态空间中表达的地标位置序列yiRSi× L×3。最后，通过应用相似性变换将预测的地标位置yi=D（E（xi））映射到面部网格姿态空间中：导致网格约束序列miRSi× L ×3。图2中示出了所考虑的不同编码器和解码器的组合的概要。编码器处理任务并将音频频率转换成可用于表征人类语音的基于感知的对数MEL标度DeepSpeech2 ：我们从神经 ASR 模型 DeepSpeech2（DS2）中提取中间表示[3]。具体来说，我们选择了Bi-LSTM层的输出嵌入作为潜在音频特征表示，以获得具有更高泛化能力的嵌入，并避免偏向于在pre-FC层学习的英语字符分布。Wav 2 Vec-Z和-C：Wav 2 Vec [39]将原始音频波形作为输入，直接由两个因果卷积网络（CCNN）处理它被训练用于学习任何语音音频的一般表示的任务语音信号·强制校准器电话• 信号处理MFCC• 深度语音21024-D• Wav2Vec1024-D• MLP• LSTM• GRU• Transformer预测地标位置下游应用程序，而不是特定的任务，ASR。输入音频被馈送到CCNN中，CCNN预测z特征（W2 V-Z）中的音频的潜在表示图2. 编码器E的配置空间的可视化，潜表示Z和解码器D在这项工作中探索。潜在空间Z由编码器的选择来定义。解码器的架构可以独立于编码器进行选择4.1. 音频编码对于编码阶段，我们探索了五种不同的音频特征表示，从传统方法到最近的基于神经网络的音频特征。音素：我们对语音信号进行语音分割，如[10，25，58]中所用。我们特别使用了包括来自ARPAbet的39个音素表示的allophonic表示，其中包括在数据集中发现的演员措辞的词汇重音变体MFCC ：我们还采用了常见的梅尔频率倒谱系数[36]，它广泛用于语音然后将较大窗口中的z特征序列馈送到第二个CCNN以计算上下文c特征（W2 V-C）。我们尝试使用这两种功能。4.2. 发音解码解码阶段将输入语音特征映射到3D语音发音架界标位置。针对该任务评估了不同的神经网络架构，从简单的方法（如多层感知器（MLP）[47]）到具有更高复杂性的模型（如递归神经网络（ RNN ） [16]和Transformer架构[50]）。MLP：我们实现了一个简单的滑动重叠输入和输出窗口MLP，如[47]所提出的，稍作修改。我们通过输出最近的值而不是预测中间帧来执行因果预测这避免了查看未来的信息，并减少了模型的预测延迟。嘴舌颌ULLCTDTB会BRBLLJTTLI右透视前透视解码器20410×样品s，ls，l我RNN：我们实验中测试的LSTM和GRU的变体是：a）单向的，b）双向的，c）它们对应的一层、两层和五层的多阶段变体Transformer：我们的Transformer模型[50]遵循[9]和[55]的工作，忽略了解码器层。使用具有多头自注意（MSA）的堆叠编码器层。在我们的方法中，通过将最后一个Transformer编码器层通过最终线性层投影到输出空间中来训练Transformer以预测3D地标位置。最后，我们计算类似于我们的MLP配置的重叠滑动预测的输出的平均值。5. 实验我们通过训练编码和解码架构的所有组合来对音频特征编码和清晰度解码架构进行广泛的评估音频编码：在我们所有的实验中，我们将音频下采样到16 kHz，因为DeepSpeech2和Wav2Vec是针对该特定采样率进行训练的。Deep-Speech 2在音频中每20 ms输出一个音频特征表示。因此，对于所有音频编码方法，我们将20 ms视为用于输入信号的编码的公共帧持续时间该帧持续时间也保留在清晰度解码器网络中，并导致以每秒50帧生成动画预测我们使用MontrealForced Aligner [31]通过将录音会话的抄本每20 ms对所得到的72个类别的音位变体标签进行采样，然后进行one-hot en，编码来表示特征。在[2]之后，我们通过在2080 Hz窗口上使用快速傅立叶变换将mel频谱分离为27个bin来计算MFCC特征，从而产生一系列27-D特征向量。从 DeepSpeech 2 中，我们从 5 层双向 LSTM （ Bi-LSTM）中提取了1024-D输出，并丢弃了最终的英文字符分类层。相比之下，Wav 2 Vec为了匹配公共帧持续时间，我们连接了两个连续的特征向量来表示1024-D特征中的20 ms音频。清晰度解码：此环境中的所有网络架构呃。不同参数的搜索空间如下：隐藏层大小[128. . .2048]，学习率[10-10. . . 10-1]和辍学率[0. 01. . . 0的情况。99]。对于MLP网络，我们在范围[1]中搜索隐藏层的数量。- 是的- 是的 4]中。我们使用的均方误差（MSE）超过前，指定3D界标位置作为训练的损失函数。使用Adam优化器[23]（β1=0）优化模型权重。9和β2=0。九十九。初始学习率为10-5，辍学率为0。25，批量为32。这些超参数也是使用Optuna搜索选择的。MLP包括一个具有ReLU激活功能的全连接层，然后是第二个全连接层。每个隐藏层有512个单元。对于RNN模型，LSTM和GRU架构都在单向（时间向前）和双向配置中进行了评估。在所有情况下，我们测试了1层、2层和5层的模型，每个RNN模型都为每个20 ms的输入特征输出一个预测。我们探索了Transformer深度和宽度的不同配置，发现最佳设置是4个编码器层和8个头。Transformer模型使用Adam进行训练，初始学习率为510-8。一场热身使用L1损失的程序被发现可以提高稳定性在最初的训练阶段。然后我们切换到以经验确定的阈值δ=3为条件的L2损失以达到收敛。RNN和MLP模型训练了40个epoch，而Transformer模型训练了多达1000个epoch，提前停止标准为100个epoch。所有训练样本形成为从训练数据中随机采样的长度（300 ms持续时间）为15个音频特征表示的音频输入特征与其对应的EMA输出界标位置对齐，该输出界标位置是从250Hz到50Hz的最近邻下采样。6. 评价在本节中，我们将评估音频特征编码器和清晰度解码器的所有不同配置。我们将样本误差e（i）定义为估计的界标位置相对于整个序列Si上的地面真值的L2范数，如等式（1）所示。1.一、SiLe（i）=1<$1<$y<$（i）−y（i）<$，<$i。（一）使用PyTorch [34]实现了工作模型通过分割1900 UT的数据集进行训练和测试实验分为两组：训练组和测试组，比例为80/20。样品SLs=1l=1s，ls，l2我们微调模型的超参数用Optuna [1]执行Hyperband算法[26]。在我们的实验，我们寻找最佳的隐藏层大小，学习率，辍学率，和隐藏层的数量-其中y（i）表示第l个界标在时间的位置，s用于第i个音频样本，持续时间为S1个音频帧，并且Yi（i）是由规则化解码器在时间s预测的第L个界标的20411表2.使用不同的音频特征表示进行模型架构评估：音素（Phone）、MFCC、DeepSpeech 2（DS 2）、Wav 2 Vec c-（W2 V-C）和z-（W2 V-Z）特征。用300 ms的音频输入窗口训练模型误差是通过测试分割计算的时间平均L2范数，单位为mm报告的参数数量是每个架构设计的可训练参数的数量推理时间是测试分割的平均时间，以每秒音频输入的ms为单位测量。5.27×106LSTM-5L 2.656 2.037 2.264 1.999 1.960 1.16×1075.432 20Bi-LSTM-1L 3.664 2.346 2.375 2.373 3.481 6.33×1062.229 300Bi-LSTM-2L 4.577 2.109 2.844 2.188 3.874 1.26×1074.512 300Bi-LSTM-5L 4.3651.9122.218 1.927 2.929 3.15×107 11.000 300GRU-1L 4.150 2.290 2.250 1.949 2.071 2.38×1061.144 20GRU-2L 2.623 2.117 2.179 1.897 1.980 3.95×1062.193 20GRU-5L 2.661 2.006 2.184 1.916 1.954 8.68×1065.339 20电话：+86-10 - 8888888传真：+86-10 - 88888888B-GRU-2L 3.143 1.953 2.947 1.932 2.513 9.48×1064.439 300电话：+86-510 -8888888传真：+86-510-8888888变压器Transformer 2.368 2.283 2.168 1.935 1.942 5.045×1073.515 300每个模型的整体性能通过整个测试集的平均样本误差来衡量。这些实验的结果示于表2中。6.1. 发音解码器架构：表2总结了性能评估的不同清晰度解码器（行）时，不同的音频特征表示（列）被使用。表中报告的值表示在测试集上评价的平均样本误差（单位：mm）分析的结果，我们看到的MLP架构的性能改善，扩大了输入窗口的上下文，以及输出窗口。该架构版本可与单层GRU和LSTM网络相媲美然而，MLP所需的网络参数的数量是更大的基于RNN的计数器相比。GRU架构比LSTM架构略有改进，如[4]所示，部分原因是每层中的参数数量较少，使其不太容易过度拟合。基于这些结果，我们可以理解我们提出的所有清晰度解码器如何能够学习如何以合理的低误差预测姿势。值得注意的是，LSTM和GRU模型的性能随着我们通过增加层数来增加其复杂性而提高。此外，我们的研究结果还表明，双向GRU和LSTM模型的学习能力得到了提高，因为它们能够在序列中向前看。音频编码：基于深度学习的音频功能和MFCC比基于手机的功能性能更好，架构选择与DS2相比，MFCC音频特征显示出然而，DS 2和W2 V功能显示出更好的定性perfor-曼斯时，一般输入语音从做主扬声器。这在补充视频中进行了演示，该视频显示了所有特征类型的并排预测地标位置。两种Wav2Vec特征变体都显示出类似的行为，尽管分层RNN架构具有c特征的更多优势。此外，在RNN的单向和双向版本中，从2层到5层版本的架构都有很大的改进。从测试集的角度来看，最好的架构包括使用Wav2Vec c特征对音频进行编码，并使用双向5层GRU估计地标位置。用1000 ms的训练输入窗口重复相同的一组实验。结果与表2中描述的结果一致。所有模型的整体性能略有改善，但代价是推理时间、延迟和参数数量更长补充材料中载有进一步的细节。6.2. 定性评价为了直观地验证表2中描述的结果，我们邀请读者观看补充视频，以便对来自 MLP 15 ： 5 、 5 层 Bi-LSTM、5层Bi-GRU和Transformer模型的动画进行视觉比较。所有标志性的可视化都是可见的，在一个罪恶-解码器\功能电话MFCCDS2W2V-CW2V-ZNum. 参数推断[ms]延迟[ms]MLP 15：52.4452.0752.3931.9591.9376.62×1070.232300LSTM-1LLSTM-2L4.2074.2092.3442.1782.2694.2062.0471.9902.1404.2123.17×1061.1502.238202020412yyyΣN−图3.来自测试样品的两个帧的可视化在第一行，我们看到地面实况地标位置。第二行显示预测的地标位置。第三行显示来自视频参考和已求解动画帧的对应帧从侧面看的角度框架。我们发现，所有模型都具有令人信服的性能，同时从训练和测试样本的数据集预测域内音频。然而，基于电话的特征的表现不如具有域外数据（诸如来自其他演员在说话或甚至唱歌时的音频）的其他模型，因为它们需要ASR步骤和依赖于语言和韵律的强制对齐。一般来说，当解码器是多级RNN 或 Transformer 模型时，基于 DeepSpeech2 和Wav2Vec的模型具有相似的性能。我们观察了具有Wav2Vec z特征编码和MLP 15：5解码器由构建网格面F的一组顶点V定义。面部模型通过P维控制参数矢量θ控制，该矢量以可重构的方式对动画中任何给定帧的网格进行在我们的模型中，整个面部的P=173，其中9个参数控制舌头，12个参数移动下巴。我们定义M（θt）为这些控制参数构成的网格t.为了基于舌头、下巴和嘴唇的预测界标来估计网格的姿态，我们首先手动地预定义网格坐标系v（i）上的变换的预测界标位置与网格M上的点集，如Ct={fl，bl}L ，其中fl∈F显示令人信服的舌头运动结果，但表现出TEM-用于颌骨预测的局部抖动，是一个三角形指数，bl=1l重心坐标定义LSTM和GRU模型我们通过跟踪预测的地标运动随时间的变化来可视化表2中描述的误差。结果见补充材料。我们发现，动画嘴唇打开和关闭正确，这是显着的，考虑到只有三个土地标记驱动网格。在下颌和舌头的运动中未观察到重大异常。我们还将地面实况3D地标可视化与预测的地标位置和地面实况视频进行了比较。生成的动画中的帧如图3所示。最后，我们进行了用户研究，以评估虚拟性能。从我们预测的舌头、嘴唇和下巴位置生成的动画有关本研究的更多详细信息，请参见补充材料。7. 参数化人脸模型优化为了演示重定向到最终动画输出装备，我们使用高质量的艺术家设计的基于FACS的3D人脸模型。模型和动画装备符合MetaHuman标准[12]，并且非常类似于演员。输出表示为三角形网格M=（V，F）三角形上的一个点作为第l个界标。在我们的例子中，L=10，因为我们在舌头上有5个传感器，下巴上有2个，嘴唇上有3个。这些位置如图4所示。我们通过计算将点v（N）映射到中性姿态N的对应点C（θN）的最佳相似变换A，用参数θN描述。虽然我们的3D几何人脸模型是基于演员的3D扫描，人脸几何学不是一个完美的重建。牙齿和舌头是由艺术家从一个通用的模型，并不精确对齐。为了解释这些小的差异，我们计算每个之间的相对偏移δ1=A（v（l）v（l））。地标和中性3D模型的表面。帧t并且其在网格上的对应点被定义为：Le pose（θ t）=<$C（θ t）l−（C（θ N）l+ δ l）<$2。（二）l=1我们的输入数据是稀疏和不对称的。嘴唇有三个标记，用于捕捉面部的右侧，下巴有两个标记，用于覆盖左侧。出于这个原因，我们强制对称的两侧，20413e（θ）=|θ|.（3）优先权我们的参数向量。此外，我们在求解器中添加了一个L1正则化，以确保模型参数的稀疏激活：L（吨）Ll=1导致以下组合能量函数：e（θ）= e姿态（θ）+ α e先验（θ）。（四）我们使用L-BFGS优化器最小化e（θ），并使用动画中所有T帧的前一帧θt−1的参数初始化帧t的参数θt先验权重为α = 0。01对于本文中显示的所有结果最后，优化中不包括额外的时间平滑先验图4.优化前基于FACS的人脸模型特征点对应可视化。绿色：网格表面界标C（θt）l;粉色：由articulation解码器生成的目标约束C（N）l+δl8. 动画结果利用本文提出的流水线技术生成了本文所示的动画效果和辅助视频。在视频中，我们包括使用在训练时间内没有听到的域外声音创建的动画，说出与训练语料库非常不同的域外我们还从测试数据中呈现捕获主体说出句子的预测结果，以允许读者与已知的地面真实EMA传感器地标位置进行并排主观比较，从而验证预测运动的正确性在视频中，我们展示了我们的方法是独立于说话者的，概括了内容，说话风格，性别和语言。9. 总结我们的大规模3D发音数据集能够训练深度学习模型，以获得逼真的内部嘴巴动画我们的研究结果表明，最近的基于深度学习的音频特征表示优于语音到动画的transmitted语音特征编码方法，无论清晰度解码架构如何。据我们所知，本文是第一个证明这些现代功能的首选驱动动画。DL音频功能还可以对新的说话者和新的语音内容进行强大的我们的最佳结果将Wav 2 Vec-C功能与双向5层GRU相结合。我们展示了实际的应用程序，通过显示令人信服的语音动画高品质的参数化3D口钻机驱动的几个地标，从我们的发音解码器模型产生的。我们的方法可以为音频驱动的动画和基于性能捕获的管道提供更高的真实感和动画质量。9.1. 局限性和未来工作记录EMA mocap数据是侵入性的，需要专家协助。我们的数据集是有限的语音变异性和表现力，这可以通过多样化的数据与一个以上的扬声器来解决。求解参数化3D人脸模型目前需要手动指定初始界标到网格对应性（每个模型一次）。生成一个更准确的内口动画模型和自动对齐将简化捕捉更广泛的表演者。虽然我们可以使用我们的数据集捕获的地标来制作嘴唇和嘴巴的动画，但这些区域的表现力未来的工作可能会使用从同步视频捕获中提取的额外对应关系来增加重建的保真度并进一步约束3D模型在钻机优化步骤期间。10. 确认我们非常感谢我们的同事们在本文中所展示的工作中的动机，贡献和帮助： Eric Vatikiotis-Bateson ，Rohan Bali ， Wei- rong Chen ， David Corral ， GarethEdwards ， Pablo Garrido ， Gine'sHidalgo ， JaekooKang，BoramKim，KimLibreri，PascalvonLieshout，ReljaLubobrato vic'，VladimirMas-tilo vic，PhilipRubin，BeataSobkow ， NenadSunjka ， NickWhiting ， ThibautWeise和Stephan Veen。引用[1] Takuya Akiba 、 Shotaro Sano 、 Toshihiko Yanase 、Takeru Ohta和Masanori Koyama。Optuna：下一代超参数优化框架。在第25届ACM SIGKDD知识发现数据挖掘国际会议论文集，KDD计算机协会。520414[2] SimonAlexanderson，GustavHenter，TarasKucherenko，and Jonas Beskow.使用规范化流程的风格可控语音驱动手势计算机图形论坛，39（2）：487-496，2020年5月。5[3] Dario Amodei ， Sundaram Ananthanarayanan ， RishitaAnub-hai，Jingliang Bai，Eric Battenberg，Carl Case，Jared Casper，Bryan Catanzaro，Qiang Cheng，GuoliangChen，Jie Chen，Jingdong Chen ，Zhijie Chen，MikeChrzanowski，Adam Coates，Greg Diamos，Ke Ding，Niidong Du，Erich Elsen，Jesse Engel，Weiwei Fang，Linxi Fan ， Christopher Fougner ， Liang Gao ， CaixiaGong ， Awni Hannun ， Tony Han ， Lappi VainoJohannes ， Bing Jiang ， Cai Ju ， Billy Jun ， PatrickLeGresley，Libby Lin，Junjie Liu，Yang Liu，WeigaoLi ， Xi-angang Li ， Dongpeng Ma ， Sharan Narang ，Andrew Ng ， Sher-jil Ozair ， Yiping Peng ， RyanPrenger ， Sheng Qian ， Zongfeng Quan ， JonathanRaiman ， Vinay Rao ， Sanjeev Satheesh ， DavidSeetapun ， Shubho Sengupta ， Kavya Srinet ， AnuroopSriram，唐海源、唐立良、王冲、王继东、王开复、王毅、王志坚、王志谦、吴爽、魏立凯、肖波、谢文、谢岩、Yogatama Dani、Yin Yuan、詹军、Zhenyao Zhu。深度语音2：英语和汉语的端到端语音识别在第33届国际机器学习会议论文集-第48卷，ICMLJMLR.org. 4[4] 比亚苏托·莱尔和斯利姆·乌尼。使用双向门控rnn进行音素到发音映射在IN-TERSPEECH，2018年。二、六[5] Carstens Medizinelektronik GmbH. 3D电磁波记录仪。网址：http：//www.articulograph.de第1、3条[6] Shicheng Chen，Yifeng Zheng，Chengrui Wu，GuoruiSheng，Pierre Denssel，and Bruce Denby.使用非侵入性超声图像的3D舌模型的直接、近实时在2018年IEEE国际声学、语音和信号处理会议（ICASSP）上，第4994-4998页，卡尔加里，AB，加拿大，2018年。IEEE，IEEE。2[7] 杰弗里·F科恩，扎拉Ambadar和保罗Ekman。基于观察者的面部表情测量与面部动作编码系统。情绪诱导与评估手册，1（3）：203-221，2007年。7[8] Zhigang Deng and Ulrich Neumann. efase：表情面部动画合成和编辑与音素isomap控件.在2006年ACMSIG-GRAPH/Eurographics计算机动画研讨会的会议录，SCA瑞士，2006年。欧洲制图协会。2[9] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al.《一张图像值16x16个单词：大规模图像识别的变形金刚》。ArXiv，abs/2010.11929：1-12，2021。5[10] Pif Edwards ， Chris Landreth ， Eugene Fiorge 和 KaranSingh。以动画师为中心的表情唇同步视位模型ACMTransactions on Graphics（TOG），35（4）：1-11，2016。二、四[11] 保罗·埃克曼华莱士五世Friesen，and Joseph C.海格面部动作编码系统手册。保罗·埃克曼集团，旧金山，加利福尼亚州，美国，2002年。二、七[12] Epic Games. 超能力者创造者h t t p s ：/ / www. 虚幻引擎com/zh-CN/transhuman- creator. 二、七[13] Diandra Fabre，Thomas Hueber，and Pierre Badin.基于高斯混合回归的超声图像在第十五届国际语音通信协会年会上，第2293-2297页ISCA。2[14] John S. 洛里？加罗福洛作者： William M. 作者：Jonathan G. Fiscus和David S.帕利特DARPA TIMIT声学语音连续语音语料库光盘。nist语音光盘1-1.1。STIN，93：27403，1993. 3[15] H. 平井描述舌-喉相互作用的言语器官生理模型 JAcoust. Soc. JPN. (J)，52：918，1995. 2[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。4[17] 菲利普·胡尔和安德烈亚斯·齐尔特。五维关节造影。言语运动控制：基础和应用研究，第3312010年，加拿大多伦多，牛津在线奖学金. 3[18] ThomasHueber， GuidoAversano ， Ge'rardChollet ， BruceDenby，Ge' rardDre yfus，YacineOuss ar，PierreRupel和Maureen Stone。基于超声波的无声语音接口的本征舌特征提取

下载后可阅读完整内容，剩余1页未读，立即下载