AD-NeRF：音频驱动神经辐射场合成高保真度说话头视频

70 浏览量更新于2023-10-14 收藏 21.32MB PDF 举报

音频驱动

高保真度

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

57840AD-NeRF：音频驱动神经辐射场用于说话头合成0郭宇东*1,2 陈科宇1,2 梁森3 刘永进4 鲍虎军3 张巨勇†101中国科学技术大学2北京迪鲁森科技有限公司3浙江大学4清华大学0摘要0通过与输入音频序列拟合生成高保真度的说话头视频是一个近来受到广泛关注的具有挑战性的问题。在本文中，我们借助神经场景表示网络来解决这个问题。我们的方法与现有方法完全不同，现有方法依赖于2D地标或3D面部模型等中间表示来弥合音频输入和视频输出之间的差距。具体而言，将输入音频信号的特征直接输入到条件隐式函数中，生成一个动态神经辐射场，通过体积渲染使用该辐射场合成与音频信号相对应的高保真度说话头视频。我们框架的另一个优点是不仅合成头部（带头发）区域，还通过两个独立的神经辐射场生成上半身。实验结果表明，我们的新框架能够（1）产生高保真度和自然的结果，（2）支持音频信号、视角和背景图像的自由调整。代码可在https://github.com/YudongGuo/AD-NeRF找到。01. 引言0在许多应用中，合成高保真度的音频驱动面部视频序列是一个重要且具有挑战性的问题，比如数字人类、聊天机器人和虚拟视频会议。将说话头生成过程视为从音频到视觉面部的跨模态映射，合成的面部图像期望在执行自然的说话风格的同时，与原始视频相同地实现逼真的流媒体结果。目前，已经提出了广泛的方法来解决这个任务。早期的方法建立在专业艺术家建模[12, 60]或复杂的动作捕捉系统[6,54]之上，局限于电影和高端领域。0* 郭宇东和陈科宇在迪鲁森实习时完成了这项工作。†通讯作者：juyong@ustc.edu.cn。0游戏行业。最近，许多基于深度学习的技术[35, 42, 10, 58,7, 43, 48, 59, 21,57]被提出来通过生成对抗网络（GANs）学习音频到面部的转换。然而，解决这个问题非常具有挑战性，因为准确地关联音频信号和面部变形，包括表情和嘴唇动作并不容易。因此，大多数这些方法利用一些中间的面部表示，包括重建明确的3D面部形状[55]和回归表情系数[43]或2D地标[41,47]。由于中间表示引起的信息丢失，可能导致原始音频信号和学习到的面部变形之间的语义不匹配。此外，现有的音频驱动方法存在一些限制，比如只渲染嘴部部分[41,43]或被静态头部姿势固定[35, 42, 10,7]，因此不适用于高级的说话头部编辑任务，比如姿势操作和背景替换。0为了解决现有说话头方法的这些问题，我们将注意力转向最近开发的神经辐射场（NeRF）。我们提出了AD-NeRF，一种音频驱动的神经辐射场模型，可以处理跨模态映射问题，而不引入额外的中间表示。与现有方法依赖于3D面部形状、表情系数或2D地标来编码面部图像不同，我们采用神经辐射场（NeRF）[30]来表示说话头的场景。受动态NeRF[16]用于建模人脸的外观和动态的启发，我们直接将相应的音频特征映射到动态神经辐射场中，以表示目标动态主体。由于神经渲染技术可以实现强大的光线分发策略，我们的模型可以很好地表示一些细节精细的面部组件，如牙齿和头发，并且比现有的基于GAN的方法具有更好的图像质量。此外，体积表示提供了一种自由调整动画说话者全局变形的自然方式，这是传统的2D图像生成方法无法实现的。此外，我们的方法考虑了头部姿势和上半身运动，并能够为真实的说话头结果产生生动的效果。57850实际应用。具体而言，我们的方法接收一个包含目标发言人的视频和音频轨道的短视频序列作为输入。给定通过DeepSpeech[ 1]模型提取的音频特征和面部解析图，我们旨在构建一个存储用于说话头部场景表示的神经辐射场的音频条件隐式函数。由于头部部分的运动与上半身部分的运动不一致，我们进一步将神经辐射场表示分为两个组成部分，一个用于前景面部，另一个用于前景躯干。通过这种方式，我们可以从收集到的训练数据中生成自然的说话头部序列。请参阅补充视频以更好地可视化我们的结果。总之，我们提出的说话头部合成方法的贡献包括三个主要方面：0•我们提出了一种音频驱动的说话头部方法，直接将音频特征映射到动态神经辐射场以进行肖像渲染，而不需要可能导致信息丢失的中间模态。消融研究表明，这种直接映射在使用短视频的训练数据时能够产生更准确的唇部运动结果。0•我们将人类肖像场景的神经辐射场分解为两个分支，分别用于建模头部和躯干变形，从而帮助生成更自然的说话头部结果。0•在音频驱动的NeRF的帮助下，我们的方法使得像姿势操作和背景替换这样的说话头部视频编辑成为可能，这对于潜在的虚拟现实应用非常有价值。02. 相关工作0音频驱动的面部动画。音频驱动的面部动画的目标是根据任意输入语音序列与特定人物进行同步。根据应用的目标和技术，它可以分为两类：基于模型和基于数据的方法。基于模型的方法[ 39 , 12 , 60]需要专业工作来建立音频语义和唇部运动之间的关系，例如音素-视音映射[ 14]。因此，除了高级数字创作（如电影和游戏角色）之外，它们对于一般应用来说不方便。随着深度学习技术的兴起，许多基于数据的方法被提出来生成逼真的说话头部结果。早期的方法尝试合成满足静态面部图像训练数据的唇部运动[ 5 ,13 , 8 , 53 , 7 , 46]。后来，通过使用大量奥巴马总统的演讲视频[ 41]，它被改进为生成完整的图像帧。基于发展的3D面部重建[19 , 11 , 50]和生成对抗网络，越来越多的方法通过中间估计3D面部形状[ 22 , 43 , 55 ]或面部0地标 [ 56 , 47]。与我们的方法相比，由于潜在的模态，即先验参数模型或低维地标，他们需要更多的训练数据。视频驱动的面部动画。视频驱动的面部动画是将面部姿势和表情从源演员转移到目标演员的过程。这个任务上的大多数方法依赖于基于模型的面部表现捕捉[ 44 , 45 , 24 , 23 ]。Thies等人[ 44]使用RGB-D相机跟踪动态3D面部，然后将面部表情从源演员转移到目标演员。Thies等人[ 45]通过仅使用RGB相机进一步改进了流程。Kim等人[ 24]利用生成对抗网络合成可以处理基于渲染的皮肤变形的照片逼真的皮肤纹理。Kim等人[ 23]分析面部表情的风格概念，并展示了其对基于视频的配音的重要性。隐式神经场网络。神经场表示是使用神经网络表示场景的形状和外观。神经场表示网络（SRNs）最早由Sitzmann等人[ 40]引入，其中对象的几何形状和外观被表示为可以在空间中的点上进行采样的神经网络。自从去年以来，神经辐射场（NeRF）[ 30]在神经渲染和神经重建任务中引起了很多关注。3D对象的形状和外观的潜在隐式表示可以转化为体积光线采样结果。后续的工作通过使用包括外观插值[ 29]的野外训练数据，引入了可变形神经辐射场来表示非刚性运动的物体[ 31 , 36]，以及优化没有预计算相机参数的NeRF[ 52]。人类的神经渲染。人类头部和身体的神经渲染也吸引了很多关注[ 15 , 28 , 27 ]。借助最近的隐式神经场表示[ 38 ,20 ]，Wang等人[ 51]提出了一个用于学习高质量动态神经辐射场的组合3D场景表示方法，用于上半身。Raj等人[ 37]在NeRF中采用了像素对齐特征[ 38]，以在测试时推广到未见过的身份。Gao等人[ 17]提出了一个从单幅肖像图像估计神经辐射场的元学习框架。Gafni等人[ 16]提出了用于建模人脸动态的动态神经辐射场。Peng等人[33]将视频帧间的观察整合起来，实现了对人体稀疏多视角视频的新视角合成。03. 方法03.1. 概述0我们的说话头部合成框架（图1）是在目标人物的短视频序列和音频轨道上进行训练的。基于神经渲染的思想，我们隐式地对变形的人头和上半身进行建模。C(r; θ, Π, a) =� tf57860训练帧0音频0解析图0�， �0姿势0DeepSpeech特征029维0T0渲染0说话头部0� 0��0神经辐射场0� 0错误0� �0隐式函数0图1.我们提出的说话头部合成方法的框架。给定一个人物的肖像视频序列，我们训练两个神经辐射场来合成高保真度的说话头部，使用体积渲染。0通过神经场景表示，即神经辐射场，来弥合音频信号和视觉面部之间的领域差距。我们提取语义音频特征并学习一个条件隐式函数，将音频特征映射到神经辐射场（第3.2节）。最后，我们使用体积渲染（第3.3节）从神经辐射场中渲染出视觉面部。在推理阶段，我们可以仅从音频输入生成忠实的视觉特征。此外，我们的方法还可以生成目标人物的逼真说话风格。这是通过以分离的方式（第3.4节）估计动态头部和上半身的神经辐射场，并借助自动解析方法[26]对头部和躯干部分进行分割和提取干净的背景来实现的。当我们将体积特征转换为新的规范空间时，头部和其他身体部位将使用各自的隐式模型进行不同的渲染，从而产生非常自然的结果。03.2. 用于说话头部的神经辐射场0基于标准的神经辐射场场景表示[30]，受Gafni等人引入的用于面部动画的动态神经辐射场的启发[16]，我们使用带有额外音频编码输入的条件隐式函数来呈现一个说话头部的条件辐射场。除了视角d和3D位置x，音频的语义特征a将作为隐式函数Fθ的另一个输入添加进去。在实践中，Fθ通过多层感知机（MLP）实现。使用所有连接的输入向量（a，d，x），网络将估计沿着发射射线的颜色值c和密度σ。整个隐式函数可以如下表示：Fθ：（a，d，x）−→（c，σ）。0我们使用与NeRF[30]相同的隐式网络结构，包括位置编码。语义音频特征。为了从声学信号中提取语义上有意义的信息，类似地0与之前的基于音频的方法[10,43]不同，我们采用流行的DeepSpeech[1]模型为每个20毫秒的音频片段预测一个29维特征码。在我们的实现中，连续的几帧音频特征被同时送入一个时序卷积网络，以消除原始输入中的噪声信号。具体而言，我们使用来自十六个相邻帧的特征a ∈ R 16 ×29来表示当前音频模态的状态。使用音频特征而不是回归的表情系数[43]或面部标记[49]有助于减轻中间翻译网络的训练成本，并防止音频和视觉信号之间潜在的语义不匹配问题。03.3. 使用辐射场进行体积渲染0使用上述隐式模型Fθ预测的颜色c和密度σ，我们可以通过沿着通过每个像素投射的射线累积采样的密度和RGB值来进行体积渲染过程，以计算图像渲染结果的输出颜色。与NeRF[30]类似，相机射线r（t）= o +td的预期颜色C，其中o是相机中心，d是视角，tn是近边界，tf是远边界，计算如下：0tnσθ（r（t））∙cθ（r（t），d）∙T（t）dt，（2）0其中cθ（∙）和σθ（∙）是上述隐式函数Fθ的输出。T（t）是从tn到t的沿射线累积的透射率：0T（t）= exp（−t）0t n σ（r（s））ds。（3）0Π是面部的估计刚性姿势参数，由旋转矩阵R∈R3×3和平移向量t∈R3×1表示，即Π={R，t}。与Gafni等人[16]类似，Π用于将采样点转换为规范空间。请注意，在训练阶段，我们仅使用头部姿势信息，而不使用任何3D面部形状来进行网络训练。我们使用Mildenhall等人[30]介绍的两阶段集成策略。具体而言，我们首先使用粗糙网络预测射线上的密度，然后在密度较高的区域中采样更多点进行细化网络。The reason of taking head pose into account for the ren-dering process is that, compared to the static background,the human body parts (including head and torso) are dy-namically moving from frame to frame. Therefore, it is es-sential to transform the deformed points from camera spaceto canonical space for radiance fields training.Gafni etal. [16] try to handle the dynamic movements by decouplingthe foreground and background based on the automatic pre-dicted density, i.e., for dispatched rays passing through theforeground pixels, the human parts will be predicted withhigh densities while the background images will be ignoredwith low densities. However, there exist some ambiguitiesto transform the torso region into canonical space. Sincethe movement of the head part is not consistent with themovement of the torso part and the pose parameters Π areestimated for the face shape only, applying the same rigidtransformation to both the head and torso region togetherwould result unsatisfactory rendering results in the upperbody. To tackle this issue, we model these two parts withtwo individual neural radiance fields: one for the head partand the other for the torso part.As illustrated in Fig. 2, we initially leverage an automaticface parsing method [26] to divide the training image intothree parts: static background, head and torso. We first trainthe implicit function for the head part Fheadθ. During thisstep, we regard the head region determined by the parsingmap as the foreground and the rest to be background. Thehead pose Π is applied to the sampled points along the raycasted through each pixel. The last sample on the ray is as-sumed to lie on the background with a fixed color, namely,the color of the pixel corresponding to the ray, from the57870图2. 两个神经辐射场的训练过程。我们先用Head-NeRF（步骤1）重建头部和上半身，然后用Torso-NeRF（步骤2）重建躯干。0将头部姿势考虑到渲染过程中的原因是，与静态背景相比，人体部位（包括头部和躯干）在帧与帧之间动态移动。因此，将变形点从相机空间转换为规范空间对于辐射场训练至关重要。Gafni等人[16]尝试通过根据自动预测的密度将前景和背景分离来处理动态运动，即对于通过前景像素的分派射线，人体部位将预测为高密度，而背景图像将被忽略为低密度。然而，将躯干区域转换为规范空间存在一些模糊性。由于头部部分的运动与躯干部分的运动不一致，并且姿势参数Π仅针对面部形状进行估计，将相同的刚性变换应用于头部和躯干区域会导致上半身的渲染结果不理想。为了解决这个问题，我们使用两个单独的神经辐射场来模拟这两个部分：一个用于头部，另一个用于躯干。如图2所示，我们首先使用自动面部解析方法[26]将训练图像分为三个部分：静态背景、头部和躯干。在这一步中，我们将由解析图确定的头部区域视为前景，其余部分视为背景。头部姿势Π应用于通过每个像素投射的射线上的采样点。射线上的最后一个样本被假定为位于背景上，具有固定的颜色，即与射线对应的像素的颜色，从而形成了预期的颜色C。03.4. 个体NeRF表示0背景图像。然后我们将F头部θ的渲染图像转换为新的背景，并将躯干部分作为前景。接下来，我们继续训练第二个隐式模型F躯干θ。在这个阶段，躯干区域没有可用的姿势参数。因此，我们假设所有点都在规范空间中（即，没有使用头部姿势Π对其进行变换），并将面部姿势Π添加为另一个输入条件（与点位置x、视角d和音频特征a结合）用于辐射场预测。换句话说，我们隐式地将头部姿势Π视为额外的输入，而不是在F躯干θ内部使用Π进行显式变换。在推理阶段，头部模型F头部θ和躯干模型F躯干θ都接受相同的输入参数，包括音频条件代码a和姿势系数Π。体积渲染过程将首先通过头部模型，累积采样的密度和RGB值用于所有像素。渲染图像预计将覆盖静态背景上的前景头部区域。然后，躯干模型将通过预测躯干区域的前景像素来填充缺失的身体部分。总的来说，这种个体神经辐射场表示设计有助于建模不一致的头部和上半身运动，并产生自然的说话头部结果。03.5. 说话头部视频的编辑0由于神经辐射场都采用语义音频特征和姿态系数作为输入来控制说话内容和说话头部的运动，我们的方法可以通过替换音频输入和调整姿态系数来实现由音频驱动和姿态操作的说话头部视频生成。此外，类似于Gafni等人[16]，由于我们使用背景图像上的相应像素作为每条光线的最后一个样本，如果光线穿过背景像素，则隐式网络学习预测前景样本的低密度值，而对于前景像素则学习预测高密度值。通过这种方式，我们的方法将前景和背景分离开来，实现了背景编辑，只需替换背景图像。我们在第4.4节中进一步展示了所有这些编辑应用。Lphoto(θ) =∥Ir(w, h) − Ig(w, h)∥2,Ir(w, h) = Cw,hΠ, a)(4)We implement our framework in PyTorch [32]. Bothnetworks are trained with Adam [25] solver with initiallearning rate 0.0005. We train each model for 400k iter-ations. In each iteration, we randomly sample a batch of2048 rays through the image pixels. We train the networkswith RTX 3090 and train each model for 400k iterations.For a 5-minutes video with resolution 450 × 450, it takesabout 36 hours to train two NeRFs and 12 seconds to rendera frame.57880区域，并通过替换背景图像来实现背景编辑。我们在第4.4节中进一步展示了所有这些编辑应用。03.6. 训练细节0数据集。对于每个目标人物，我们收集了一个带有音频轨道的短视频序列进行训练。平均视频长度为3-5分钟，帧率为25fps。录制的相机和背景都被假定为静态的。在测试中，我们的方法允许任意音频输入，例如来自不同身份、性别和语言的语音。训练数据预处理。预处理训练数据集有三个主要步骤：(1)我们采用自动解析方法[26]为每个帧标记不同的语义区域；(2)我们应用多帧光流估计方法[18]在近刚性区域（如前额、耳朵和头发）获取稠密的帧间对应关系，然后使用束调整[2]估计姿态参数。值得注意的是，估计的姿态只对面部部分有效，而不对颈部和肩膀等其他身体部位有效，即面部姿态不能代表上半身的所有运动；(3)我们根据所有连续帧构建一个不带人物的干净背景图像（如图2所示）。这是通过根据解析结果从每个帧中去除人物区域，然后计算所有背景图像的聚合结果来实现的。对于缺失区域，我们使用泊松混合[34]来修复具有邻居信息的像素。网络和损失函数。总体上，我们提出的神经辐射场表示网络有两个主要约束。第一个是时间平滑滤波器。在第3.2节中，我们提到使用窗口大小为16的DeepSpeech特征。将连续的16个音频特征送入一个1D卷积网络，以回归每帧的潜在代码。为了确保音频信号的稳定性，我们采用自注意力思想[43]在连续音频代码上训练一个时间滤波器。该滤波器由带有softmax激活函数的1D卷积层实现。因此，最终的音频条件a由经过时间滤波的潜在代码给出。第二个约束是我们的方法的渲染图像与训练groundtruth相同。设I r ∈ R W × H × 3为渲染图像，I g ∈R W × H × 30由于 I r 和 I g之间的光度重建误差被认为是groundtruth，优化目标是减少光度重建误差。具体而言，损失函数的制定如下：0W宽0H高04. 实验04.1. 实现细节0图3.剥离研究，使用直接音频或中间面部表情表示来调节NeRF模型。可以观察到直接音频条件在产生准确的唇部运动结果方面具有更好的能力。0图4. 头部和躯干的个别神经辐射场表示的剥离研究。04.2. 剥离研究0我们验证了我们框架中采用的两个主要组件。首先，我们比较了基于直接音频条件和附加中间条件的神经渲染结果。其次，我们探索了为头部和躯干区域训练分离的神经辐射场的好处。音频条件。如前所述，在第3.2节中，我们的基于NeRF的说话头模型直接以音频特征为条件，以避免附加中间模态中的训练成本和信息损失。在图3中，我们比较了从音频代码和音频估计的表情代码生成的渲染图像。我们使用单目面部跟踪方法[45]来优化表情参数，并使用与Thies等人[43]相同的网络结构来从音频中估计表情代码。从插图结果可以清楚地观察到，音频条件有助于实现精确的唇部同步。57890图5. 与Thies等人[43]和Suwajanakorn等人[41]的基于模型的方法进行比较。我们的方法不仅保留了唇部运动的语义，还支持对视角的自由调整。请观看我们的补充视频以获取视觉结果。0图6.与基于图像的方法进行比较。图像尺寸决定了生成结果的图像质量。请观看我们的视频演示以获取更多结果。0头部和躯干区域的个别训练。我们还将评估的另一个因素是头部和躯干部分的个别训练策略。为了证明为这两个区域训练两个单独的神经辐射场网络的优势，我们进行了一个剥离实验，通过训练一个单独的NeRF网络来进行人体运动。在这种情况下，包括颈部和肩部在内的躯干区域通过估计的头部姿势矩阵进行变换。因此，在上半身边界周围明显存在不准确的不匹配像素。我们可视化了该区域的光度误差图，用于渲染图像和真实图像。从图4中，所示的结果证明了我们的个别训练策略对于更好的图像重建质量是有益的。0我们还计算了生成帧与真实帧在整个测试序列（500帧）上的结构相似性指数（SSIM）。我们的方法和中间表情设置以及单个NeRF的得分分别为0.92、0.88和0.87（分数越高越好）。04.3. 评估0在本节中，我们将我们的方法与两类说话头合成方法进行比较：纯基于图像的方法[53, 7, 46]和中间模型的方法[41,43]。0我们通过定量和定性实验来评估每种方法生成的可视化结果。接下来，我们首先总结了两个类别的比较方法，然后介绍了我们设计的评估指标。与基于图像的方法比较。有一类完全位于图像领域的说话头生成方法[5, 13, 8, 53, 7,46]。最近的基于深度学习的方法是针对多个身份进行训练的，因此可以应用于新的目标人物。然而，这些方法的局限性是显而易见的，因为它们只能产生静止的面部裁剪图像，与我们的方法不同，我们的方法可以生成具有背景和目标人物自然说话风格的全尺寸图像。在图6中，我们展示了我们的方法和三种竞争方法[53, 7,46]生成的基于音频驱动的面部动画结果。可以清楚地观察到，基于图像的说话头方法受到输入图像尺寸的限制，因此无法像我们一样生成高分辨率的图像。与基于模型的方法比较。基于模型的方法是指在生成逼真面部图像时使用先验信息的方法。这类方法的关键组成部分是统计模型，例如用于嘴巴纹理的PCA模型[41]或用于面部形状的3D可变模型[43]。相比之下，我们从两种方法的发布演示中提取音频作为我们框架的输入（我们假设发布演示是它们的最佳结果，因为它们都没有提供预训练模型），分别命名为测试集A（来自神经语音木偶[43]）和测试集B（来自合成奥巴马[41]）。在图5中，我们展示了每种方法中选定的基于音频驱动的说话头帧。请注意，先验模型通常需要大量的训练数据，例如，Suwajanakorn等人[41]报告使用了14小时高质量的奥巴马演讲视频进行训练，Thies等人[43]进行了超过3小时的训练和2-3分钟的视频微调，而我们的方法只需要一个短视频剪辑（3-5分钟）进行训练。尽管存在巨大差距，但57900图7.参与者的评分结果。根据三个不同方面的统计数据，我们的方法与其他两种基于模型的方法取得了可比较的结果。然而，我们的方法只需要一个非常短的视频序列进行训练，而其他两种方法则是在多个大型数据集上进行训练的。0方法 SyncNet分数[9] ▲ AU误差[4] ▼ 姿势全帧背景测试集A 测试集B 测试集A 测试集B0� � [Wiles等人] [53] 4.257 3.976 3.134 3.127 � � [Vougioukas等人] [46] 5.865 6.712 2.156 2.658 � �0� � [Suwajanakorn等人] [41] - 5.836 - 2.176 � �0我们的方法 5.239 5.411 2.133 2.287 可自由调整 � �0原始 5.895 6.178 0 0 - - -0表1.我们对两个测试集（A和B）进行了比较，这两个测试集分别来自神经语音木偶术[43]和合成奥巴马[41]的演示。▲表示SyncNet分数的置信度随着结果的增加而增加。▼表示AU误差随着数字的减小而减小。此外，我们的方法可以合成全帧图像，同时通过音频驱动的神经辐射场实现姿势操纵和背景替换。0与超过0来源 Kim等人。19 我们的方法0图8.与Kim等人的基于视频驱动的方法[23]进行比较。右侧是说话的词语。0尽管训练数据集的规模较小，我们的方法仍能产生与其他两种方法相媲美的自然结果。此外，我们的方法具有自由操纵目标人物的观看方向的优势，这意味着我们可以在训练数据范围内自由调整头部姿势。我们在图10和我们的补充视频中进一步展示了自由观看方向的结果。0与基于视频驱动的方法的比较。除了音频驱动的方法，另一类说话头生成方法是基于视频驱动的，即从源肖像视频驱动目标人物。我们将我们的音频驱动方法与最近的基于样式的视频驱动方法[23]进行比较，如图8所示。我们可以看到两种方法都产生了高保真度的说话头结果。请注意，Kim等人的方法[23]以视频帧作为输入，而我们的方法以相应的音频作为输入。0图9.我们的方法允许来自不同身份、性别和语言的任意音频输入。有关音频驱动的结果，请参阅我们的补充视频。0图10.我们的方法可以生成具有自由调整的观看方向和各种背景图像的说话头帧。每行从左到右：来自视频的原始帧，具有来自原始视频的音频和姿势的重建结果，两个背景替换结果的样本，两个姿势操纵结果的样本。0我们采用多种评估指标来证明我们的方法优于其他方法。作为一种音频驱动的说话头生成方法，我们期望同步的视觉面部与音频输入保持一致，同时保持高图像保真度和逼真度。为此，我们提出了一种综合评估设计，包括SyncNet[9]评分用于音频-视觉同步一致性。Figure 10. Our method can generate talking head frames with freely adjusted viewing directions and various background images. Eachrow from left to right: original frames from a video, reconstructed results with audio and pose from the original video, two samples ofbackground-replacement results, two samples of pose-manipulation results.57910我们的方法通过多种评估指标来展示其优越性。作为一种音频驱动的说话头生成方法，我们期望同步的视觉面部与音频输入保持一致，同时保持高图像保真度和逼真度。为此，我们提出了一种综合评估设计，包括SyncNet[9]评分用于音频-视觉同步一致性，OpenFace[4]检测面部动作单元（AU）以保持源和生成结果之间的面部动作编码一致性，以及对图0SyncNet[9]通常用于验证音频-视觉一致性，用于嘴唇同步和面部动画任务。在这个实验中，我们使用预训练的SyncNet模型计算每种比较方法生成的由语音驱动的面部序列的音频同步偏移和置信度（Tab. 1）。较高的置信度值表示效果更好。0我们使用OpenFace[4]的动作单元（AU）检测模块来计算提供音频信号的源视频和相应生成结果的面部动作单元。该指标旨在评估源面部和驱动面部之间的肌肉激活一致性。理想的说话头应该执行与源面部相似的面部运动。我们选择下半脸和与嘴有关的AU作为活动对象，并计算源面部和驱动面部之间的平均误差。定量结果如表1所示。0最后，我们进行了一项用户研究比较，有30名参与者提供帮助。每个参与者被要求根据三个主要方面对100个视频剪辑（来自Thies等人[43]的9个，来自Suwajanakorn等人[41]的11个，来自三个基于图像的方法[53, 7,46]和我们的方法的20个）的说话头生成结果进行评分：音频-视觉同步质量、图像保真度和图像逼真度。我们的方法生成结果的头部姿势来自训练集之外的一个模板视频剪辑。我们收集了1到10的评分结果（越高越好），并计算每种方法获得的平均分数。处理后的统计数据可见于图7。04.4. 说话头编辑应用0如第3.5节所述，我们的方法可以实现基于音频信号、头部运动和背景图像的说话头视频编辑。首先，我们展示了音频驱动的结果。0在图9中，我们展示了相同视频的不同人的多样音频输入的结果。我们可以看到，我们的方法能够产生合理的结果，支持来自不同身份、性别和语言的任意音频输入。然后我们在图10中展示了我们方法的姿势操作和背景替换结果。我们可以看到，我们的方法允许调整视角和使用训练过的神经辐射场进行高保真度说话肖像合成的各种背景图像替换。我们相信这些功能对于虚拟现实应用，如虚拟会议和数字人类，将非常令人兴奋。05. 限制0我们展示了AD-NeRF高保真度音频驱动说话头合成的方法。然而，我们的方法存在一些局限性。从补充视频中可以看出，对于跨身份音频驱动的结果，合成的嘴部有时看起来不自然，这是由于训练和驱动语言之间的不一致性造成的。从图5和补充视频中可以看出，有时躯干部分看起来模糊不清，这是因为头部姿势和音频特征不能完全确定实际的躯干运动。06. 结论0我们提出了一种基于神经辐射场的高保真度说话头合成的新方法。利用对两个精心设计的NeRF进行体积渲染，我们的方法能够直接从音频信号中合成人类头部和上半身，而无需依赖中间表示。我们训练的模型允许来自不同身份、性别和语言的任意音频输入，并支持自由的头部姿势操作，这些都是虚拟会议和数字人类中非常需要的功能。致谢：本工作得到了国家自然科学基金委员会（62122071，61725204），中国科学院青年创新促进会（No.2018495）和“中央高校基本科研业务费”（No.WK3470000021）的支持。57920参考文献0[1] Dario Amodei, Sundaram Ananthanarayanan, RishitaAnub- hai, Jingliang Bai, Eric Battenberg, Carl Case, JaredCasper, 等. 深度语音2：英语和普通话的端到端语音识别.在ICML中，2016年。2，30[2] Alex M Andrew. 计算机视觉中的多视图几何. Kybernetes ,2001. 50[3] T. Baltruˇsaitis, M. Mahmoud, and P. Robinson.跨数据集学习和个体特定归一化用于自动动作单元检测.在IEEE国际自动人脸和手势识别会议和研讨会（FG）中，2015年。80[4] T. Baltrusaitis，A. Zadeh，Y. C. Lim和L. Morency。Open-face2.0：面部行为分析工具包。在2018年第13届IEEE国际自动面部手势识别会议（FG 2018）上，页码为59-66，2018年。7，80[5] Christoph Bregler，Michele Covell和MalcolmSlaney。视频重写：用音频驱动视觉语音。在SIG-GRAPH，1997年。2，60[6] Yong Cao，Wen C Tien，Petros Faloutsos和Fr´ed´ericPighin。富有表现力的语音驱动面部动画。ACM Transactionson Graphics，第24卷，第4期，2005年。10[7] 陈乐乐，Ross KMaddox，段志尧和徐辰亮。具有动态像素损失的分层跨模态说话人生成。在CVPR，2019年。1，2，6，7，80[8] Joon Son Chung，Amir Jamaludin和AndrewZisserman。你说过那个吗？在BMVC，2017年。2，60[9] J. S. Chung和A.Zisserman。时间外：野外自动化嘴唇同步。在多视角唇读研讨会上，ACCV，2016年。7，80[10] Daniel Cudeiro，Timo Bolkart，Cassidy Laidlaw，AnuragRanjan和Michael JBlack。捕捉、学习和合成3D说话风格。在CVPR，2019年。1，30[11]邓宇，杨交龙，徐思成，陈东，贾云德和童欣。准确的3D人脸重建与弱监督学习：从单幅图像到图像集。在CVPRW，2019年。20[12] Pif Edwards，Chris Landreth，Eugene Fiume和KaranSingh。Jali：面向动画师的表情模型，用于表达性嘴唇同步。ACMTransactions on Graphics，第35卷，第4期，2016年。1，20[13] Tony Ezzat，Gadi Geiger和TomasoPoggio。可训练的逼真视频动画。ACM Transactions onGraphics，第21卷，第3期，2002年。2，60[14] Cletus GFisher。在视觉感知的辅音之间的混淆。言语和听觉研究杂志，第11卷，第4期，1968年。20[15] Ohad Fried，Ayush Tewari，Michael Zollh¨ofer，AdamFinkel- stein，Eli Shechtman，Dan B Goldman，KyleGenova，Zeyu Jin，Christian Theobalt和ManeeshAgrawala。基于文本的说话头部视频编辑。ACM Trans

下载后可阅读完整内容，剩余1页未读，立即下载