3D演讲风格的捕捉、学习和合成

108 浏览量更新于2023-10-17 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1捕捉、学习和合成3D演讲风格Daniel CudeiroTimo Bolkart卡西迪·莱德劳·阿努拉格·兰詹Michael J.黑色德国图宾根马克斯·普朗克智能系统研究所{tbolkart，claidlaw，aranjan，black}@ tuebingen.mpg.de输入：语音信号和3D模板输出：3D角色动画图1：给定任意语音信号和静态3D人脸网格作为输入（左），我们的模型VOCA输出逼真的3D角色动画（右）。上图：温斯顿·丘吉尔。下图：演员Karras et al.[33 ]第33段。补充视频。摘要音频驱动的三维人脸动画已经得到了广泛的研究，但如何实现逼真的、类人的效果仍然是一个悬而未决的问题。这是由于缺乏可用的3D数据集、模型和标准评估指标。为了解决这个问题，我们引入了一个独特的4D人脸数据集，其中包含以60 fps捕获的约29分钟的4D扫描和来自12个扬声器的同步音频。然后，我们在我们的数据集上训练一个神经网络，该网络从面部运动中识别身份。学习模型，VOCA（语音操作的字符动画）采取任何语音信号作为输入，甚至在语言以外的英语和现实的动画成人的脸广泛。在训练过程中对主题标签的条件反射VOCA还提供模拟器控制来改变说话风格、身份依赖的面部形状和姿势（即，头、下巴和眼球旋转）。据我们所知，VOCA是唯一一个真实的3D面部动画模型，不需要重定向就可以应用于看不见的对象。这使得VOCA适用于游戏视频、虚拟现实化身或任何事先不知道说话者、语音或语言的场景。我们在www.example.com上提供数据集和模型用于研究目的http://voca.is.tue.mpg.de。1. 介绍教计算机看到和理解人脸对它们理解人类行为至关重要。存在关于从图像和视频估计3D面部形状、面部表情和面部运动的大量文献。较少关注从声音估计面部的3D属性;然而，许多面部运动是由言语的产生直接引起的。因此，理解语音和面部运动之间的相关性提供了广告，*同等贡献†逝世，20181010110102分析人类的有用信息，特别是视觉数据是否有噪声、缺失或模糊。语音和面部运动之间的关系已被成功地用于分离视听语音[22]和音频视频驱动的面部动画[38]。到目前为止，还缺少一种通用而强大的方法，可以将任何语言的任何人的语音与任何面部形状的3D面部运动联系起来。在这里，我们提出VOCA（语音操作角色动画），这需要朝着这个目标迈出一步。虽然语音驱动的3D人脸动画已经得到了广泛的研究，但由于几个原因，说话人无关建模仍然是一个具有挑战性的未解决的任务首先，语音信号和面部运动是强相关的，但在两个截然不同的空间里因此，需要非线性回归函数来将两者联系起来。人们可以利用深度神经网络来解决这个问题。然而，这意味着需要大量的训练数据。第二，音素和面部运动之间存在多对多的映射。这对跨人员和风格的培训提出了更大的挑战。第三，因为我们对脸特别敏感，特别是真实的脸，动画必须真实，以避免落入恐怖谷[39]。第四，将语音与多个说话者的3D面部形状相关的训练数据最后，虽然以前的工作已经表明，模型可以被训练来创建特定于说话者的动画[14，33]，但没有通用的方法可以独立于说话者并捕捉各种说话风格。VOCASET：为了解决这个问题，我们收集了一个新的4D人脸扫描数据集和语音。该数据集有12个主题和480个序列，每个序列约3-4秒，其中句子选自最大化语音多样性的标准协议阵列。4D扫描以60 fps的速度捕获，我们将一个通用的面部模板网格与所有扫描对齐，使它们相互对应。这个名为VOCASET的数据集不同于任何现有的公共数据集。它允许训练和测试可以推广到新数据的语音到动画模型。VOCA：鉴于这些数据，我们训练了一个深度神经网络模型，称为VOCA（图2），它可以推广到新的说话者（见图1）。最近使用深度网络的工作已经显示出令人印象深刻的结果，解决了从语音中回归依赖于说话者的面部动画的问题[33]。然而，他们的工作捕捉了个体的特质，使其不适合在角色之间进行概括。虽然深度学习正在快速推进该领域，但即使是最近最好的方法也依赖于一些手动过程或仅关注嘴巴[53]，这使得它们不适合真正自动的完整面部动画。现有工作的关键问题是面部运动和面部身份混淆。我们的关键见解是从面部动作中识别身份，然后学习一个只与动作相关的语音模型。受试者条件反射训练过程中的标签允许我们在训练过程中组合来自许多主题的数据集成DeepSpeech [29]进行音频特征提取使VOCA具有强大的w.r.t.不同的音频源和噪声。建立在表现力FLAME头部模型[37]之上允许我们i）对全脸的运动（即，包括颈部），ii）动画化大范围的成人面部，因为FLAME可以用于从扫描或图像重建对象特定的模板，以及iii）在动画化期间编辑依赖于身份的形状和头部姿势。VOCA和VOCASET可用于研究目的[58]。2. 相关工作面部动画在文献中受到了极大的关注这一领域的相关工作可分为三类：基于语音的、基于文本的、以及基于视频或性能的。语音驱动的面部动画：由于图像和视频的丰富性，许多尝试真实地动画化面部的方法使用单目视频[7，8，16，23，51、59、62]。Bregler等人[8]使用隐马尔可夫模型（HMM）将语音转录为语音标签，并使用基于范例的视频扭曲来模拟视频中的嘴部区域。Brand [7]使用线性预测编码（LPC）和RASTA-PLP [30]音频特征以及HMM的混合来输出面部运动矢量序列。Ezzat等人[23]对所有图像执行主成分分析（PCA），并在PCA空间中使用音素与嘴形和嘴纹理参数的轨迹之间的基于示例的映射。Xie和Liu [62]使用基于动态贝叶斯网络的模型对面部动画进行建模。Wang等人。[59]使用HMM学习Mel频率倒谱系数（MFCC）和PCA模型参数之间 Zhang等人[67]将在一个演员的音频和视觉数据上训练的[ 59 ]的基于HMM的方法与从数百小时的与说话者无关的语音数据训练的基于深度神经网络的编码器相结合，以计算 MFCC 音频特征的嵌入。Shimba等人[48]使用深度长短期记忆（LSTM）网络从MFCC特征回归主动外观模型（AAM）参数。Chen等人。[16]将音频和图像运动相关联，以合成任意身份的嘴唇运动。Suwajanakorn 等人 [51] 使用递归神经网络（RNN），使用来自奥巴马每周演讲的190万帧音频合成逼真的口腔纹理动画。然而，他们的方法并不能推广到看不见的面或视点。与此相反，VOCA是在共享共同拓扑的对象之间进行训练的，这使得可以从以前看不见的视点动画化新Pham等人[42]回归10103使用LSTM网络从MFCC音频特征进行全局变换和融合变形系数[13]虽然他们的模型是跨主题训练的（类似于VOCA），但它们依赖于从2D视频回归的模型参数，而不是使用3D扫描，这限制了它们的质量。一些方法使用多视图运动捕捉数据[10，14]或高分辨率3D扫描[33]。Busso等人[10] synn- thesize刚性头部运动在表达语音序列。Cao等人[14]将音频分割成音素，并使用基于示例的图形方法来选择匹配的嘴部动画。Karras等人[33]提出了一种卷积模型，用于将LPC音频特征映射到3D顶点位移。然而，他们的模型是对象特定的，并且动画新的面部将需要对数千帧对象数据进行3D捕获和我们的模型VOCA从面部运动中识别身份，并在子空间中进行训练，这允许对各种成人面部进行动画处理一些作品也旨在动画艺术家设计的字符钻机[20，21，31，32，46，52，53，54，70]。Taylor et [53]提出了一种基于深度学习的语音驱动的面部动画模型，使用滑动窗口方法，转录的音素序列，基于LSTM的方法[24，25]。虽然这些模型与VOCA相似，因为它们从音频中动画生成通用面部，但我们的重点是动画生成逼真的面部网格，为此我们在高分辨率面部扫描上训练我们的模型。文本驱动的面部动画：有些方法旨在直接从文本中生成面部动画。Sako等人。[45]使用隐马尔可夫模型从文本中动画化图像中的嘴唇。Anderson等人[4]使用扩展的隐马尔可夫文本到语音模型来驱动特定于主题的主动外观模型（AAM）。在后续的研究中，他们将这种方法扩展到3D中的女演员的面部动画。虽然我们的重点不是从文本中动画面部，但这可以通过使用文本到语音（TTS）系统的输出（例如，[56]与Karras等人相似。[33 ]第33段。基于性能的面部动画：最使数字化身动画化的方法是基于视觉数据的。Alexan-der等[3]，Wu et al.[61]和Laine et al.[35]从高分辨率面部扫描中构建特定于主题的面部装备，并使用基于视频的动画系统来动画这些装备。有几种方法使用来自单眼视频的通用面部模型来构建个性化的面部装备，以在视频之间传输和再现面部表现。基于张量的多线性人脸模型[5，11，12，19，57，63]和线性模型[55]被广泛用于构建个性化的人脸模型。Cao等人[11，12]使用基于回归的面部跟踪器来模拟面部装备和数字化身，而Thies等人。[55]使用基于地标的面部跟踪器和变形转移[50]来重现单眼视频。其他使虚拟化身动画化的方法依赖于RGB-D视频或4D序列来跟踪和重新定位面部表现。Li等人[36] Weiseet al.[60]第六十话基于钻机的离线校准程序，以建立个性化的工作面钻机，Bouaziz等人。[6]使用通用身份模型。Liu等人。[38]结合音频和视频，从RGB-D视频中鲁棒地动画生成通用人脸模型。 Li等人。[37]使用高分辨率扫描仪捕获面部表现，并使用铰接的通用头部模型制作静态面部网格。与这些方法相反，我们的方法仅依赖于音频来动画数字化身。3D人脸数据集：已经发布了几个3D面部数据集，其专注于静态3D面部形状和表情的分析（例如，[13，47，65]）或动态面部表情（例如，[68、2、15、18、44、64、69]）。大多数数据集专注于情绪表达，并且只有少数数据集捕获由语音引起的面部动态。最近发布的4DFAB数据集[17]包含180个子块的4D捕获，但每个主题只有9个单词，并且网格质量低于VOCASET。B3 D（AC）E2 D2数据集[26]包含一个由40个口语英语句子组成的音频-4D扫描对的大集合。相比之下，VOCASET总共包含255个独特的句子。为了能够对大量句子和主题进行训练，一些句子在主题之间共享，并且一些句子仅由一个主题说出原始B3D（AC）122扫描中存在的可见伪影（即，孔和捕获噪声）意味着可能丢失细微的面部运动;而且，所配准的模板仅覆盖面部，而忽略颈部区域中的语音相关运动。相比之下，VOCASET提供更高质量的3D扫描以及整个头部（包括颈部）的对齐。3. 预赛VOCA的目标是很好地推广到训练过程中看不到的任意（i）在音频方面（口音、速度、音频源、噪声、环境等的变化）在不同说话者之间的概括;以及（ii）不同面部形状和运动的概括。DeepSpeech：为了获得对不同音频源的鲁棒性，无论噪声，录音伪影或语言如何，我们将DeepSpeech [29]集成到我们的模型中。Deep- Speech [29]是一种端到端的深度学习模型，自动语音识别（ASR）。DeepSpeech使用一个简单的架构，由五层隐藏单元组成第四层是双向RNN，最后一层是具有ReLU激活的全连接层。网络的最后一层被馈送到softmax 函数，其输出是字符的概率分布。Mozilla [40]提供的TensorFlow实现与原始论文在两个方面略有不同：（i）RNN单元被LSTM单元替换，以及（ii）使用26个MFCC音频特征，而不是直接对频谱图执行推断。10104i=1我类型内核步幅输出激活DeepSpeech--16x1x29-身份联系人--16x1x37-卷积3x12x18x1x32ReLU卷积3x12x14x1x32ReLU卷积3x12x12x1x64ReLU卷积3x12x11x1x64ReLU身份联系人--72-完全连接--128tanh完全连接--50线性完全连接--5023x3线性表1：模型架构。详情请参阅[40火焰：面部形状和头部运动在不同的受试者之间差异很大。此外，不同的人有不同的说话风格。面部形状、动作和说话风格的巨大变化促使使用共同的学习空间。我们解决这个问题，通过使用FLAME，一个公开的统计头部模型，作为我们的动画管道的一部分。FLAME使用线性变换来描述身份和表情相关的形状变化，并使用标准线性混合蒙皮（LBS）来建模颈部、下巴和眼球旋转。给定模板T∈R3N中的关于更多细节，我们请读者参考[37]。4. VOCA本节介绍模型架构，并详细介绍如何处理输入音频。概述：VOCA接收特定于主题的模板T和原始音频信号作为输入，我们使用DeepSpeech [29]从中提取特征。所需的输出是目标3D网格。VOCA充当编码器-解码器网络（参见图2和表1），其中编码器学习将音频特征转换为低维嵌入，解码器将此嵌入映射到3D顶点位移语音特征提取：给定一个输入音频片段在多个主题上进行训练时，可以学习特定于主题的风格对于八个训练子向量，每个主题j被编码为独热向量Ij=（δij）1≤i≤8。这个向量连接到每个D-维语音特征向量（即，导致赢-维数W×（D+8）的卷积层），并连接到最终卷积层的输出。为了学习时间特征并降低输入的维数，每个卷积层使用维度为 3×1 和步幅为 2×1 的内核。由于使用DeepSpeech显示的特征不具有任何空间相关性，因此我们将输入窗口重塑为具有W×1×（D+8）的维度，并在时间维度上执行1D卷积。为了避免过度拟合，我们保持参数的数量很小，前两个卷积层只学习32个滤波器最终卷积层与主题编码的级联之后是两个完全连接的层。第一种有128个单元和一个双曲正切激活函数;第二层是50个单元的线性层。解码器：VOCA的解码器是一个具有线性激活函数的全连接层，输出T.层的权重由在训练数据的顶点位移上计算的50个偏置被初始化为零。动画控制：在推理过程中，改变八维单热向量会改变输出的说话风格。VOCA的输出是一个“零姿态”的表达3D面部，VOCA与FLAME的兼容性允许通过添加来自FLAME的加权形状混合形状来改变身份相关的面部形状。面部表情和姿势（即，头部、下巴和眼球旋转）也可以使用FLAME提供的混合权重、关节和姿势混合变形来更改。5. 模型训练在本节中，我们将描述培训相关细节。训练设置：我们从一个大型的音频数据集开始长度为T秒，我们使用DeepSpeech来提取语音4D扫描对，表示为{（xi，yi）}F.这里xi∈ RW× D功能. 输出是以下各项的非归一化对数概率：长度为0.02 s（每秒50帧）的帧的字符;因此，它是一个大小为50T×D的数组，其中D是字母表中的字符数加上一个空白标签。我们使用线性插值将输出重采样到60 fps。为了整合时间信息，我们将音频帧转换为大小为W×D的重叠窗口，其中W是窗口大小。输出是一个尺寸为60T×W×D的三维数组.编码器：编码器由四个卷积层和两个全连接层组成。语音特征和最终卷积层是有条件的是以第i个视频帧为中心的输入音频窗口，y∈RN×3。进一步，设fi∈RN×3表示VOCA对xi的输出.对于训练，我们将捕获的数据拆分为训练一组（八个受试者），一个验证组（两个受试者）和一个测试组（两个受试者）。训练集由八个主题的所有40个句子组成，即。共320句。对于验证和测试数据，我们只选择不与任何其他主题共享的20个独特句子，即40个句子分别用于验证和测试。请注意，我们所有实验的训练、验证和测试集都是完全不相交的，即不存在主语或句子的重叠10105F模板语音信号模板输入DeepSpeech窗口时间卷积解码器网络输出图2：VOCA网络架构。损失函数：我们的训练损失函数由两项组成，位置项和速度项。该posi-作用项Ep=E yi-fi2计算距离预测输出和训练顶点。该位置术语鼓励模型匹配地面事实，曼斯。速度项Ev=<$（y−y）−（fi−fi−1）<$2i i−1F使用向后有限差分。它计算出在预测输出和训练顶点之间的连续帧的差该速度项引入了时间稳定性。训练参数：我们在保持的验证集上执行超参数调整。我们以 1e−4 的恒定学习率训练 VOCA 50 个epoch。位置和速度项的权重为1。0和10。0，分别。在训练过程中，我们使用批量规格化，批量大小为64。我们使用W=16的窗口大小和D=29的语音特征。实施详情：VOCA使用TensorFlow [1]在Python中实现，并使用Adam [34]进行训练。在一台NVIDIA TeslaK20上训练一个epoch大约需要10分钟。我们使用预先训练的DeepSpeech模型[40]，该模型在训练期间保持固定。6. 语音集本节介绍VOCASET并描述捕获设置和数据处理。VOCASET：我们的数据集包含从6名女性和6名男性受试者捕获的音频- 4D扫描对的集合。对于每一个受试者，我们收集了40个用英语说出的句子这些句子取自一系列标准协议，并使用[27]中描述的方法进行选择以最大化语音多样性。特别是，每个受试者说出TIMIT语料库中的 27个句子 [28]， [33]使用的三个pangram，以及斯坦福问题图3：两个VOCASET主题的样本网格。数据库数据集（SQuAD）[43]。所记录的序列被分布成使得五个句子在所有受试者之间共享，15个句子由三到五个受试者说出（50个独特的句子），并且20个句子仅由一个或两个受试者说出我们使VO-CASET可用于研究社区.捕获设置：我们使用多摄像头主动立体声系统（3dMD LLC，亚特兰大）来捕获高质量的3D头部扫描和音频。捕获系统由六对灰度立体摄像机、六个彩色摄像机、五个散斑投影仪和六个白光LED面板组成。该系统以60 fps的速度捕获3D网格，每个网格约有120K个顶点。彩色图像用于为每次扫描生成UV纹理贴图。与扫描仪同步的音频以22 kHz的采样率捕获。数据处理：使用公开可用的通用FLAME模型，使用[ 37 ]中描述的顺序对齐方法配准原始3D头部扫描。的独热主题编码添加10106在对准期间使用[9]的基于图像的界标预测方法，以在跟踪快速面部运动的同时增加鲁棒性。对齐后，每个网格由5023个3D顶点组成。对于所有扫描，我们测量每个扫描顶点与FLAME对准表面中最近点之间的绝对距离：中位数（0.09 mm）、平均值（0.13 mm）和标准差（0.14 mm）。因此，比对完全忠实地表示原始数据。所有的网格然后unposed;即，消除了围绕颈部的整体旋转、平移和头部旋转的影响。取消姿势后，所有网格都处于“零姿势”。对于每个序列，颈部边界和耳朵是自动固定的，并且眼睛周围的区域使用高斯滤波来平滑以去除捕获噪声。请注意，没有平滑应用于嘴部区域，以便保留细微的运动。图 3 显示了两个VOCASET受试者的样本比对。补充视频显示所有主题的序列。7. 实验定量指标，如预测误差的范数，不适合评估动画质量。这是因为面部视位与语音话语形成多对多映射。对于相同的语音序列，存在广泛的合理的面部运动，这使得定量评估变得困难。相反，我们进行感性和定性的评估。此外，我们的训练模型可用于直接比较的研究目的[58]。7.1. 感知评估用户研究：我们进行了三项 Amazon MechanicalTurk（AMT）盲用户研究：i）在所有训练对象上进行的保持测试序列和我们的模型之间的二元比较，ii）评估DeepSpeech功能有效性的消融研究，以及iii）调查风格、内容和身份之间相关性的研究。所有的实验都是在序列上进行的，并且与我们的训练和验证集完全不相交。对于二元比较，具有相同动画主题和音频剪辑的两个视频被并排示出。对于每个视频对，参与者被要求选择更自然地移动并且根据音频的讲话头部。为了避免任何选择偏差，所有比较方法的顺序（左/右）对每对都是随机的。风格比较被用来评估学习到的说话风格。在这里，Turkers看到三个视频：一个参考和两个预测。任务是确定两个预测中的哪一个更类似于参考视频。为了确保研究的质量并去除潜在的离群值，我们要求Turkers在提交HIT之前通过简单的资格测试。资格鉴定任务是以下用户研究的简化版本在这里我们展示了三个有明显答案的比较，即一个地面实况序列和一个具有完全不匹配的视频和音频的序列与记录性能的比较：我们比较捕获和处理的测试序列与VOCA预测，条件的所有八个扬声器的风格。总的来说，土耳其人-在所有条件下，参与者（400次HIT）认为记录的表现（83±9%）比预测（17±9%）更自然。虽然VOCA的结果是逼真的面部表情，对于看不见的主体，它无法综合这些主体的本我因此，这些微妙的主题特定的细节使记录的序列看起来比预测更语音特征消融：我们将DeepSpeech特征替换为Mel滤波器组能量特征（fbank），并训练50个epoch的模型（与VOCA 相同）。Turkers （ 400次点击）认为VOCA的性能与深度-在所有条件下，语音更自然（78±16%），而不是fbank功能（22±16%）这表明VOCA与DeepSpeech功能更好地推广到看不见的au-dio序列比fbank特征。风格比较：言语驱动的面部表现在受试者之间差异很大。然而，很难区分风格（主体的面部运动）、身份（主体的面部形状）和内容（所说的话），以及这些不同因素如何影响感知。这项用户研究的目标是评估语音驱动的面部运动独立于身份相关的面部形状，以了解人们是否可以识别我们的模型学习的风格。为了实现这一点，我们从所有序列中减去个性化模板（中性面）以获得“位移”，然后将这些位移添加到单个公共模板（从FLAME形状空间随机采样）。然后，对于来自训练数据的几个参考序列，我们比较两个VOCA预测（在来自测试集的音频上）：一个以参考受试者为条件，一个以另一个随机选择的受试者为条件。我们要求Turkers选择哪个预测序列在说话风格上与参考更相似。为了探索内容的影响，我们进行了两次实验，一次是参考视频和预测共享相同的句子（由不同的子用户说出），一次是不同的句子。图4显示了该实验的结果不同条件下的结果差异很大在某些情况下，Turkers可以始终如一地选择具有匹配样式的序列（例如，条件3、4和5）;对其他人来说，他们的选择并不比机会更好或更坏。在大多数情况下，内容的影响并不显著。需要更多的研究来了解哪些因素对人们识别不同的说话风格很重要，并开发新的模型，更有效地解开面部形状和运动。10107同样的句子不同的句子百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十1 2 3 4 5 6 7 8条件图4：AMT风格研究。条形图显示了当同一个句子被显示用于参考和预测时，以及不同的句子时，选择参考条件的Turkers的百分比。7.2. 定性评价跨受试者的泛化：保理通过面部运动来识别身份让我们可以制作各种成人面部的动画。为了显示VOCA的泛化能力，我们从BU-3DFE数据库[66]中选择、对齐和姿势标准化多个神经扫描，具有较大的形状变化。图5显示了静态模板（左）和一些VOCA动画帧，由相同的音频序列驱动。跨语言泛化：视频显示了不同语言的VOCA输出。这表明VOCA可以推广到非英语句子。扬声器样式：在推理过程中对不同主题的条件反射导致不同的说话风格。文体上的差异包括嘴唇发音的变化。图6示出了对于随机音频序列和不同条件的VOCA预测，下唇和上唇之间的距离作为时间的函数。这表明，风格的凸面组合提供了广泛的不同的嘴振幅。我们生成新的中间说话风格的条件的由于解码器的线性，在3D顶点空间或在50维编码空间中执行该凸组合是等效的补充视频显示，组合风格提供动画控制，以合成一系列不同的说话风格。这对于匹配在训练期间未看到的受试者的说话表现模板动画帧图5：VOCA在面部形状上进行概括。每行显示从静态BU- 3DFE人脸数据库[66]中选择的主题模板（左），以及由相同音频输入驱动的三个随机选择的动画帧（右）。图6：以不同受试者为条件的VOCA预测的下唇和上唇之间的距离。阴影区域表示不同条件的凸组合的空间。在未来，这可以通过视频来估计。对噪声的鲁棒性：为了证明对噪声的鲁棒性，我们将语音信号与不同级别的噪声相结合，并使用带噪信号作为VOCA输入。作为噪声源，我们使用一个实际的街道噪声序列[49]，并添加了36dB（低）、24dB（中）、18dB（略高）和12dB（高）的负增益。只有高噪声水平导致阻尼面部运动，但尽管有噪声，面部动画仍然是合理的。与Karras et al.[33]：我们比较VOCA 和Karras 等人。[33]，在现实的主题特定的音频驱动的面部动画的最先进的状态结果所选参考条件的百分比10108图7：动画控件。上图：将第一个标识形状分量改变为正二（第二列）和负二（最后一列）标准差。下图：将头部姿势改变为负30度（第二列）和正30度（最后一列）。在补充视频中显示为了进行比较，作者为我们提供了一个静态网格，我们将FLAME拓扑与之对齐。然后，我们使用八个音频序列，从他们的补充视频（包括唱歌，中文口语，奥巴马演讲的摘录，和演员的不同序列），动画他们的静态网格。补充视频显示，虽然他们的模型产生了更自然和详细的结果，但我们仍然可以在不使用任何特定于主题的训练数据的情况下再现类似的面部动画。此外，Karras et al.使用能够模拟情感演讲的专业演员。这使他们能够通过建模运动（即，眼睛和眉毛）与情绪的相关性比与言语的相关性更大。动画控制：图7展示了在动画期间改变身份相关形状（顶部）和头部姿势（底部）的可能性。两行都由相同的音频序列驱动。尽管形状或姿势不同，但面部动画看起来很逼真。8. 讨论虽然VOCA可以用来逼真地动画各种成人的脸从讲话，它仍然缺乏一些细节需要会话的现实主义。上表面运动（即眼睛和眉毛）与音频没有很强的相关性[33]。因果因素是情绪，这是缺乏在我们的数据由于固有的困难，模拟情绪语音在一个受控的捕获环境。因此，VOCA从语音中学习主要存在于下面部的因果面部运动。非语言交流线索，如头部运动，与音频信号弱相关，因此不能通过音频驱动技术很好地建模。VOCA为动画师和开发人员提供了包括头部运动的可能性一个与语音无关的头部运动模型可以用来模拟真实的结果。特定于应用的技术，例如动画助理和人类之间的二元交互，需要考虑空间特征的注意力机制，例如眼睛跟踪。使用表达体学习更丰富的对话模型[41]是未来的研究。对受试者标签的调节是VOCA的关键方面之一，它允许跨学科培训。这允许用户在推断期间改变说话风格。利用更多的被试数据来增加不同说话风格的数量仍然是未来工作的任务。进一步的实验，减轻或放大不同的说话风格，或结合不同的主题的特点，也仍然是未来的工作。9. 结论我们已经介绍了VOCA，一个简单而通用的语音驱动的面部动画框架，适用于各种身份。给定任意语音信号和静态角色网格，VOCA完全自动输出真实的角色动画。VOCA利用语音处理和3D人脸建模的最新进展，以独立于主题。我们在自己捕获的多主题4D人脸数据集（VOCASET）上训练我们的模型。VOCA的关键观点是从面部运动中考虑身份因素，这使我们能够制作各种成人面部的动画，并以主题标签为条件，这使我们能够在多个主题中训练VOCA，并在测试期间合成不同的说话者风格。VOCA在各种语音源、语言和3D人脸模板上都有很好的通用性。我们提供了可选的动画控制参数来改变说话风格，并在动画过程中改变身份相关的形状和头部姿势。数据集，训练模型和代码可用于研究目的[58]。确认我们感谢T。 Al e xiadis和J. 我是来采集数据的B硬件支持的Pellksman，A。Quiros- Ramires支持MTurk，A. Osman提供Tensorflow支持，S.Pujades帮助完成论文。我们还要感谢Karras等人。为我们提供了一个静态的面部网格进行比较。MJB已经收到了来自英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金虽然MJB是亚马逊的兼职员工，但他的研究完全是在MPI进行的，MJB在亚马逊和Meshcapade GmbH拥有财务权益。纪念丹尼尔·库代罗。10109引用[1] M. Abadi、A. Agarwal，P. Barham，E. Brevdo，Z. ChenC.，马缨丹属西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。5[2] T. 阿拉什卡尔湾Ben Amor，M.Daoudi和S.贝雷蒂一种用于无约束人脸识别的三维动态数据库。2014年国际3D人体扫描技术会议暨展览会。3[3] O. Alexander，M.罗杰斯，W。Lambeth，M. Chiang和P.德贝维克数字艾米丽项目：逼真的面部造型和动画。在SIGGRAPH 2009课程，第12：1-12：15页，2009年。3[4] R.安德森湾Stenger，V. Wan，and R.西波拉使用主动外观模型的表达性视觉文本到语音转换。计算机视觉和模式识别会议，第3382-3389页，2013年3[5] T. Bolkart和S.乌勒三维面的分组多线性对应优化。在International Conference on Computer Vision ，第 3604-3612页，2015年。3[6] S. Bouaziz，Y.Wang和M.Pauly. 实时面部动画在线建模Transactions on Graphics，32（4）：40，2013.3[7] M.品牌声音木偶。SIGGRAPH，第21-28页，1999年。2[8] C. Bregler，M.Covell和M.斯兰尼视频重写：用音频驱动视觉语音。SIGGRAPH，第353-360页，1997年。2[9] A. Bulat和G.齐米罗普洛斯我们离解决2D和3D人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。在国际计算机视觉会议上，第1021-1030页，2017年。6[10] C.布索邓，M.格林大学Neumann和S.纳拉亚南表达性语音动画中的刚性头部运动：分析与合成。Transactionson Audio ， Speech ， and Language Processing ， 15（3）：1075-1086，2007. 3[11] C. Cao，中国粘蝇D.Bradley，K.Zhou和T.比勒实时高保真面部表情捕捉。 Transactions on Graph-ics（Proceedings of SIGGRAPH），34（4）：46：1-46：9，2015. 3[12] C.曹湾，加-地Hou和K.舟用于实时面部跟踪和动画的位移动态表情回归。 Transactions onGraphics（Proceedings of SIG-2005）GRAPH），33（4）：43：1-43：10，2014. 3[13] C. Cao ， Y.Weng 、黄毛菊 S.Zhou ， Y.Tong 和 K. 舟Faceware- house：一个用于视觉计算的三维面部表情数据库。 Transactions on Visualization and ComputerGraphics，20（3）：413-425，2014. 3[14] Y.曹，W. C. Tien，P. Faloutsos，and F.小猪表情语音驱动的面部动画。Transactions on Graphics，24（4）：1283-1302，2005. 二、三[15] Y.张，M。维埃拉，M。Turk和L.好的视频中的自动3D面部表情分析。在面部和手势的分析和建模中，第293-307页，2005年。3[16] L. Chen，Z.利河，巴西-地K. Maddox，Z. Duan和C.徐唇部动作生成一目了然。在欧洲计算机视觉会议上，第538-553页，2018年。2[17] S. 成岛，智 - 地 Kotsia ， M. Pantic 和 S. Zafeiriou.4DFAB：用于面部表情分析和生物识别应用的大规模4D数据库。在CVPR，2018年。3[18] D. Cosker，E. Krumhuber和A. Hilton.一个FACS有效的三维动态动作单元数据库及其在三维动态变形人脸建模中的应用在 International Conference on ComputerVision，第2296-2303页，2011年。3[19] K. Dale，K. Sunkavalli，M. K.约翰逊，D。Vlasic，W.Ma- tusik 和 H. 菲斯特视频脸更换。 Trans-actions onGraphics （ Proceedings of SIGGRAPH Asia ）， 30（6）：130：1-10，2011. 3[20] C.丁湖，澳-地Xie，and P. Zhu.使用深度神经网络从语音合成头部运动。Multimedia Tools and Applications，74（22）：9871-9888，2015。3[21] P. Edwards，C. Landreth，E. Fiorium和K.辛格. JALI：一个以动画师为中心的唇同步视位模型。图形学报（Proc. SIGGRAPH），35 （4 ）：127 ：1-127：11，2016。3[22] A.埃弗拉特岛莫塞里岛朗，T. Dekel，K. Wilson，A.Hassidim，W. T. Freeman和M.鲁宾斯坦在鸡尾酒会上聆听：用于语音分离的非特定人视听模型。Transactionson Graph- ics，37（4）：112：1-112：11，2018。2[23] T. Ezzat，G. Geiger和T.波焦可训练的视频逼真的语音动画。图形学报（Proc. SIG-GRAPH），21（3）：388-398，2002. 2[24] B. 范湖，澳-地Wang，F.K. Soong和L.谢具有深度双向LSTM 的照片真实在 International Conference onAcoustics，Speech and Signal Processing，第4884-4888页，2015年。3[25] B.范湖，澳-地Xie，S.扬湖，澳-地Wang和F. K.宋楚一种用于视频逼真的说话头部的深度双向LSTM方法Multimedia Tools and Applications，75（9）：52873[26] Gabri elleFanelli ， JürgenGall ， HaraldRomsdorfer ，ThibautWeise，and Luc van Gool.情感交流的3D视听语料库。IEEE MultiMedia，12（6）：591- 598，2010。3[27] W. M.费希尔，G。R. Doddington和K. M.古迪-马歇尔。DARPA语音识别研究数据库：规范和状态。DARPA语音识别研讨会，1986年。5[28] J. S. 加罗福罗湖F. Lamel，W.M. Fisher，J.G. Fiscus、D.S. Pallett和N. L.达尔格伦声学语音连续语音语料库光盘，1993。5[29] A.汉南角Case，J. Casper，B.卡坦扎罗湾迪亚莫斯，E.埃尔森河Prenger，S.萨特伊什Sengupta，A. Coates等人深度演讲：扩展端到端语音识别。arXiv预印本arXiv：1412.5567，2014。二、三、四[30] H. Hermansky和N. Morgan.语音的RASTA处理。语音和音频处理学报，2（4）：578-5

下载后可阅读完整内容，剩余1页未读，立即下载