建模非确定性二元面部运动

157 浏览量更新于2023-10-25 收藏 27.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

203950学习倾听：建模非确定性二元面部运动0Evonne Ng 1 Hanbyul Joo 2 Liwen Hu 3 Hao Li 3 Trevor Darrell 10Angjoo Kanazawa 1 Shiry Ginosar 101 加州大学伯克利分校 2 首尔国立大学 3 Pinscreen0输入：演讲者输出：听众0生成样本可视化0学习倾听0演讲者运动和音频0图1.合成听众。给定演讲者视频，我们提取演讲者的音频和运动。根据这些多模态的演讲者输入，我们的方法以自回归的方式合成多个逼真的听众三维运动序列（顶部和底部）。我们的方法的输出可以选择性地渲染为逼真的视频。0摘要0我们提出了一个建模二元对话中交互沟通的框架：给定演讲者的多模态输入，我们自回归地输出相应的多个听众运动的可能性。我们使用运动-音频交叉注意力变换器将演讲者的运动和语音音频结合起来。此外，我们通过学习具有新颖的运动编码VQ-VAE的现实听众运动的离散潜在表示来实现非确定性预测。我们的方法有机地捕捉到了非语言二元互动的多模态和非确定性特性。此外，它还产生了与演讲者同步的逼真的三维听众面部运动（见视频）。通过丰富的一系列实验证明，我们的方法在定性和定量上优于基线。为了促进这一研究方向，我们引入了一个新颖且大规模的二元对话数据集。代码、数据和视频可在https://evonneng.github.io/learning2listen/上获得。01. 引言0“因此，演讲者的身体与他的演讲同步舞动。此外，听众的身体也与演讲者的身体同步舞动！”0—康登和奥格斯顿，19660当我们说话时，很少是在一个空虚的环境中——相反，通常在对话的另一端有一个听众。作为演讲者，我们非常清楚听众在做什么。微小的不同步动作或转移的目光可能会让我们感到困惑，表明听众感到无聊或其他事情分散了注意力，让我们感到被误解[36]。事实上，成功的对话依赖于演讲者和听众之间的协调舞蹈，两者向彼此发出信号，表明他们正在相互交流，而不是与其他人交流[36]。这种对话中的非语言模仿的变色龙效应[12]导致了更顺畅的互动，增加了互动伙伴之间的好感，建立了融洽的关系[38]，甚至可能预测心理治疗的长期结果[49]。有趣的是，来自听众的非语言反馈，如头部运动，比基于内容的回复更重要，以保持对话的流畅进行[11]。在这项工作中，我们提出了一个计算框架，可以以情境化和及时的方式对演讲者做出非语言反馈。这种能力203960对于虚拟代理与人类进行有意义的互动来说，非语言交流是至关重要的，因为从婴儿时期起，人类就依赖于非语言交流[54]。在二元互动过程中建模非语言反馈是一个困难的问题，因为听众的反应是非确定性的。此外，演讲者本质上是多模态的，因为他们通过语言（言语）和非语言（面部和身体运动）进行交流。在自然环境中捕捉互动需要解决这两个挑战。建模人类对话的任务有着悠久的历史。然而，与传统的基于规则的方法[5, 10, 22,29]或依赖于建模手动定义的简单运动特征（如微笑[51]或点头[22,29]）的方法不同，我们希望模拟交互的真实复杂性。使用传统的数据库方法通过查找真实运动数据库[35, 52,58]中的运动来生成运动，很难实现这一目标并进行泛化。因此，我们通过直接观察野外视频中的人类对话，以数据驱动的方式隐式地学习建模这些二元对话动态。给定演讲者的视频，我们提取他们的语音音频和面部运动（图1（左））。我们使用运动-音频交叉注意力变换器将两种模态的信息结合起来。从这个多模态的演讲者输入中，我们学习自回归地合成多种运动模式，代表与演讲者同步移动的不同可能的听众的不同反应（图1（右））。建模听众反应的非确定性是捕捉对话动态的关键要素。以前解决这个问题的尝试应用了各种技术，但没有实现逼真的输出[33]。我们提出通过使用一种新颖的序列编码VQ-VAE[56]将听众运动的空间量化为离散格式，从而学习到一个逼真的听众运动流形。我们所学习的离散码本允许我们预测未来运动的多项分布。从这个分布中，我们可以采样一系列可能的运动模式，代表不同的感知合理的听众，捕捉他们固有的非确定性特性。此外，我们通过丰富的实验证明，我们学习到的离散潜在代码可以保持在逼真运动的流形上，确保即使在长期预测中也不会发生运动漂移。同时，我们的方法的自回归性质使我们能够考虑任意长度的演讲者序列。为了支持我们基于数据的人类对话建模方法，需要以视频形式的双向互动数据，其中双方最好是从正面视角拍摄。这种数据很难获得。虽然对话中互动同步性的第一次研究可以追溯到康登和0尽管奥格斯顿在1966年[15]提出了这一观点，但目前的研究仍主要依赖于实验室内的镜头拍摄[13, 19, 24,29]或小规模的运动捕捉数据集[7,33]。值得注意的例外是[17,44]，但这些镜头拍摄的数据尚未公开。我们收集了一个大规模的数据源，以分屏录制的在线采访的形式，其中演讲者和听众以正面视图捕捉。我们的数据集包括72小时的野外对话，可以使用最新的机器学习方法研究二元通信。我们通过广泛的定量研究评估合成的听众动作与基准真实值以及基线方法和消融之间的差异。我们使用各种指标来测试合成动作的逼真性和多样性，以及听众动作与演讲者动作的同步性。尽管逼真性和多样性的测量集中在听众的独立生成动作上，但同步性捕捉了整个二元组的方面。我们还邀请人类观察员评估我们的结果，以支持我们的定性发现。虽然我们使用原始的3D网格输出来评估我们的方法，但我们还将我们的结果通过将3D输出转换为像素来进行说明，仅用于观看目的，因为合成视频提供了更丰富的感知背景。在定量和定性的衡量标准下，我们的方法明显优于所有基线方法。与基准真实值相比，我们的合成听众被人类观察员认为是可信的。这突显了我们的方法能够产生与给定演讲者同步的逼真动作。我们的主要贡献在于我们基于学习的方法，以理解对话中的人类交互通信。我们通过运动-音频交叉注意力将多模态演讲者输入结合起来。我们将矢量量化扩展到运动合成领域，并学习了一个量化的运动空间，其中我们自回归地预测了多种感知逼真的听众运动模式。为了支持未来在这个方向上的努力，我们公开发布了一个新的数据集，其中包含72小时的野外二元对话视频，详细记录了表情和细微的头部运动。02. 相关工作0我们讨论了与对话代理和动作合成相关的相关工作。有关人类交流中的交互动作的综述，请参见补充材料。对话代理中的交互动作。以前的研究在对话化身中手动合并了不同方面的交互动作[5, 10, 22, 29,53]。这些方法设计了基于规则的方法，以生成可以通过适当的面部手势[22, 29,53]、语音[10]或多种模态[5]进行交互的代理。所有这些方法都使用实验室记录的运动捕捉序列。这些方法要么限制了捕捉手势的多样性，要么依赖于为运动生成做出简化假设的方法，这些假设不1111203970对于野外数据，以往的数据驱动方法预测对话中一个人的2D运动作为另一个人运动的函数[17,44]。这些方法需要通过对训练集进行运动频率或2D面部关键点聚类来获得预定义的字典。相反，我们在3D空间中进行推理，并学习了一个离散化的潜在空间，捕捉了面部运动的流形。其他使用3D的方法研究交互动力学，同时关注全身3D运动和轮流[2,34]。其他方法通过简化任务来解决对话中的面部手势问题，例如预测点头[2]、估计头部姿势[23]或生成总结整个演讲者序列的面部表情的单个图像[30,44]。相比之下，我们的方法通过考虑面部表情和头部旋转的全范围，捕捉了交互的自然复杂性。最近的方法开始使用来自听众的其他输入，如文本[14]或语音[32,33]，生成3D面部运动。与我们的方法最相似的是Jonel等人提出的方法[33]，他们提出了一种基于Glow的方法[25,37]。然而，他们的方法将听众音频的完整时间上下文作为输入，并且据报道在没有任何音频输入的情况下表现更好。相反，我们的方法不使用任何听众音频作为额外的输入。此外，我们定量地证明了每个输入模态对其性能的重要性。0条件动作合成。手势动作合成先前依赖于卷积自编码器来学习人体动作的表示[17, 20, 33, 34,43]。一些方法引入了对抗性损失[20,43]，或者尝试使用流模型[33]和其他基于采样的方法[17]来生成更多样化和真实的动作。最近的研究表明，使用Transformer生成具有长期依赖性的多样化动作是成功的[9, 39, 40,48]。这些方法根据动作[48]、场景中的3D人体运动轨迹[9]或音频生成舞蹈动作[39,40]生成可能的动作片段。类似地，我们使用基于Transformer的预测器进行条件动作合成。此外，据我们所知，我们是第一个展示使用向量量化（VQ-VAE[56]）来实现改进的动作合成结果的研究。本质上，我们通过数据驱动的方式学习了真实动作的细节，而不是依赖于添加Perlin噪声[47]来提高逼真度。03. 方法0我们的目标是模拟说话者和听众之间的对话动态。为了测试我们的模型是否捕捉到面对面交流的微妙之处，我们合成了听众的交互动作响应，这被认为对于对话的流畅性至关重要[12, 36, 38]。我们定义了以下任务：给定3D面部动作0t +0z101 s τ+10D0样本0预测0查找听众0未来的动作0K0FINAL 2 - 单列 - 更小！0E 1 7 20过去的动作0t0听众0跨模态Transformer0说话者0动作0音频0s 1:τ0t + 1 + w t +10t +w0�0图2.概述：我们根据说话者的多模态输入预测未来听众的动作分布。我们使用跨模态注意力来融合说话者的音频和动作输入，并使用一种新颖的序列编码VQ-VAE来离散化过去的听众动作。我们的自回归预测器输出K个离散码本索引的分布，我们从中采样下一个时间步的码本。通过解码采样的码本索引，我们得到连续的未来听众动作。0通过说话者的音频和面部动作，我们自回归地预测听众的相应面部动作。为了表示对话的持续流动，我们定义了一个基于Transformer的预测器P，它学习模拟输入序列中的长期时序模式（第3.4节）。该预测器有两个输入：一个对应于说话者，另一个对应于听众（图2）。为了模拟说话者的音频和面部动作，我们引入了一个运动-音频跨模态Transformer，学习融合这两种模态（第3.3节）。为了表示真实听众面部动作的流形，我们将VQ-VAE [56]扩展到运动合成领域，并学习一个离散潜在空间的码本（第3.2节）。这种离散表示使我们能够预测下一个时间步的运动的多项式分布。因此，自回归预测器的输出是可能的同步和真实的听众回应的分布，我们可以从中采样多个轨迹。03.1. 问题定义0假设 F = {f i} T i =1 是一个时间序列的面部动作 f i。我们用F S 和 F L 分别表示说话者和听众的动作。对于每个时间步 t∈ [1, T]，我们将说话者的面部动作 F S 1:t = (f S 1, ..., f St) 和相应的说话者音频序列 A S1:t，以及之前预测的过去听众动作 ˆF L1:t-1（如果有的话）作为输入。然后，我们的预测器 P通过自回归的方式逐步预测相应的听众面部动作：ˆf L t =P(F S 1:t, A S 1:t, ˆF L 1:t-1)，(1)0其中P学习对下一个时间步的听众运动分布进行建模0p(ˆfLt|FS1:t, AS1:t, FL1:t−1). (2)0为了获得仅包含说话者音频，我们使用声源分离技术[45]过滤掉所有听众音频回传。为了203980为了表示运动，我们使用3D形态面模型（3DMM）[4, 8,41,46]从人类对话的视频帧中估计3D面部表情和方向。3DMM是参数化的面部模型，允许我们直接回归与面部表情、头部方向和身份特定形状相对应的解耦系数。这个过程得到的面部表情系数βt∈Rdm，其中dm是表情系数的维度，一个归一化的3D头部姿势Rt∈SO(3)，以及我们舍弃的形状系数，以获得一个与身份无关的表示。我们在时间t的面部表示ft∈Rdm+3是表情和方向（以欧拉角表示）的串联：0ft = [βt, Rt]. (3)0我们通过计算每个视频的平均正面脸方向（即静止姿势时的方向）来对面部方向进行归一化，并将序列中的所有头部姿势与此静止姿势对齐。这使我们能够实现与相机视角无关的表示。与某些先前工作中使用的2D表示不同，我们的3D表示对面部形状、尺度和相机姿势的变化不变，使我们能够在新的面孔和相机视角上进行泛化。03.2. 量化听众运动码本0我们将VQ-VAE[56]的使用扩展到产生多个不同听众反应的真实模式。VQ-VAE最初被提出作为一种方法，可以从中学习图像元素的量化码本，从而可以自动合成图像。学习码本和将离散元素重新组合成图像都使用了卷积架构。尽管后来的合成步骤被能够学习长距离连接的Transformer架构取代，但图像生成方法仍然使用卷积编码器-解码器对。这对于图像来说很合适，但对于时间序列来说并不合适，因为在时间域上进行卷积可能会丢失高频信息。我们设计了一种新颖的序列编码VQ-VAE，其中我们利用Transformer作为编码器-解码器对。据我们所知，我们是第一个将VQ-VAE应用于运动生成领域的人。这种方法的优点有三个：（1）它允许我们预测未来运动的多项式分布，从中我们可以采样出许多可能的输出模式；（2）使用学习到的离散潜在代码可以确保我们保持在真实运动的流形上，确保不会发生漂移（这是直接回归连续输出的方法所面临的问题）；（3）它产生捕捉高频运动的真实运动。具体而言，我们训练了一个VQ-VAETransformer编码器E和解码器D。为了处理输入的时间性质，我们学习将更长的听众运动序列建模为更短的时间组件。与其考虑...0独立地表示静态表情/旋转，潜在嵌入覆盖多个帧，使其能够学习运动动力学。潜在嵌入将时长为w�T的运动段表示为离散码本Z={zk}Kk=1，其中zk∈Rdz，我们与E和D一起学习。Z将K个码本条目中的每一个映射到维度为dz的离散码元。如图3所示，我们可以通过三个步骤近似任何长度为T的原始听众运动段x=FL1:T∈RT×(dm+3)。首先，我们对序列进行编码ˆz=E(x)∈Rτ×dz，其中τ=T0w是逐块编码序列的长度。其次，我们通过逐元素量化函数q(∙)获得量化序列zq，该函数将编码序列ˆz的每个元素映射到最接近的码本条目：0zq = q(ˆz) := argmin zk ∈Z ∥ˆzt - zk∥ ∈ �τ × dz.(4)0最后，重建ˆx ≈ x如下：0ˆx = D(zq) = D(q(E(x))). (5)0我们使用损失函数[56]来训练E、D和码本，0LVQ(E, D, Z) = ∥x - ˆx∥0+ ∥sg[zq] - E(x)∥, (6)0其中∥x -ˆx∥2是重建损失，sg[∙]是一个停梯度操作，∥sg[zq] -E(x)∥22是一种“承诺损失”[56]。在学习听众运动的码本之后，我们使用预训练的编码器将听众运动输入量化为预测器（图2）。03.3. 用于发言者输入的跨模态注意力0从发言者那里，我们输入音频a = AS1:t + w和面部运动m= FS1:t +w。这里，w是我们从发言者那里看到的额外未来上下文的数量。这个上下文作为反馈延迟对提高机器人学习的同步性是有益的[57]。与听众运动相反，我们不对发言者输入进行量化。虽然我们尝试了这两种选择，但我们发现发言者运动量化并没有改善结果，而量化音频则显著恶化了结果。我们得出结论，虽然量化对于预测的运动是有益的，但对于结果的质量以及采样能力来说，对于输入模态并不是有利的。我们学习使用跨模态注意力将音频和运动模态融合在一起。文本和音频的跨模态注意力[1]或语言和视觉的跨模态注意力[31, 42,55]已经证明优于早期或晚期融合。我们将其扩展到成功地融合运动和音频的信息，这是以前的方法[33]难以实现的任务。我们还尝试了一种简单的方法，即将音频和运动连接在一起，但这导致了实证结果较差。̂̂…̂z ∈ ℝτ×dẑzq ∈ ℝτ×dzFINAL - smaller�Vm.(7)203990z0q0w0� x ∈ � T ×（dm +3）0x ∈ � T ×（dm +3）0E D z 8 z 3 z 108 1 3 索引 s 码本：�01 2 K0图3.学习离散听众运动码本的运动VQ-VAE。输入是原始听众面部运动（表情系数和3D头部旋转）的长度为T的序列。变换器序列编码器E将输入压缩为嵌入，该嵌入被映射到最接近的量化码本元素Z。变换器解码器D将量化嵌入解码为输入的近似重建。我们使用重建损失和承诺损失（公式6）进行训练。VQ-VAE不仅使我们能够学习对自回归推断中的漂移具有鲁棒性的表示，还能实现非确定性运动合成。0由于过长的调节序列导致结果较差。沿着时间序列应用跨模态注意力还允许不同的模态发现一些时间重新对齐[1]。这对于编码发言者输入特别有帮助，因为发言者的运动可能不总是与他们的语音对齐（例如，为了戏剧效果而延迟）。我们从音频输入计算跨模态注意力操作的查询Qa，以及从运动中计算的键Km和值Vm。然后，我们在运动模态上应用一系列的跨模态注意力块，其中音频查询总是从原始音频计算得到：0注意力 m → a = softmax � Q a K � m √ d k0这里，d k是Transformer的隐藏维度。跨模态Transformer输出一个中间嵌入，其中包含来自说话者的音频和运动的信息。附加的卷积层在时间上对序列进行下采样，以匹配量化听众序列的大小。最终的说话者编码是一个嵌入 m ′ ∈ R ( τ +1) × dk 。我们通过实验证实，这种融合方法优于其他方法。03.4. 听众运动预测器0我们设计了一个基于Transformer的预测模块 P ，以捕捉输入数据中的长程相关性。借鉴[40]，我们在输入上使用全注意力掩码，这在以自回归方式生成长程运动方面显示出有希望的结果。然而，由于我们的离散潜在码表示，我们的模型还能够通过预测可能的下一个运动的分布来捕捉多个输出模式。此外，我们通过交叉注意力实现了多模态输入。P接受多模态说话者嵌入 m ′ 作为输入。0以及先前预测的听众运动序列。为了进行预测，我们不再将听众量化运动表示为码本向量序列 z q，而是使用相应码本索引序列的并行表示，即 s = s 1: τ ∈{ 1 , ..., K } τ。具体而言，我们对过去的连续听众运动进行离散化处理。0通过使用预训练的编码器 E 和量化 q (Section 3.2 )对 F L 1:t 进行编码，我们获得了最近码本条目的索引序列。通过 I (∙ ) ，一个逐元素的逆查找函数，返回给定码本元素的索引。0s 1: τ = I ( q ( E ( x ))) . (8)0给定说话者输入 m ′ 和听众输入 s 1: τ，预测器输出下一个听众码本索引的多项式分布 p ( s τ +1 )∈ R K ，其中 K 是条目数：0p ( s τ +1 ) = P ( m ′ , s 1: τ ) . (9)0然后，我们可以从 p ( s τ +1 ) 中进行采样，以获得码本 Z中的索引 k。我们执行码本查找，以检索相应的量化元素 z k的听众运动，并将其通过解码器 D传递。输出是预测的连续未来听众运动 ˆ y = ˆ F L t +1: t+1+ w ，长度为 w 。我们使用码本索引 s τ +1上的交叉熵损失来训练我们的网络。0L P = E y � p ( y ) [ − log( p ( s τ +1 )] , (10)0在这种设置中，目标码本索引在 τ + 1时刻是根据真实未来的面部运动 y = F L t +1: t +1+ w计算得出的。在训练时，我们采用教师强制法，并使用真实的听众运动 y作为过去的听众输入。我们随机屏蔽先前的时间步长 ∈ [1 ,τ]，以促进自回归学习。在测试时，我们对没有先前听众预测的时间步长输入零，并调整屏蔽以忽略这些时间步长。这使我们能够自回归地预测任意长度输入的未来听众运动。在测试时，网络不会看到任何真实的过去听众运动。04. 野外对话数据集0由于最近的COVID-19大流行，录制的面试已经转向了具有分屏面板的远程会议平台，其中主持人位于屏幕的一侧，受访者位于另一侧。这种设置对于研究面对面交流特别有优势，因为(a)(a)(b)OursGTPearson rPearson rFramNNGTa + mGTmGT204000)0)0T0eroero0T0(a) (b)0(a)0(b)0OursGT0PearsonrPearsonr0Frame Fram0NNGT0a + mGT0mGT0(a) (b)0(a)0(b)0Ours GT0PearsonrPearsonr0Frame Frame0NNGT0a +m GT0mGT0图4.通过PCC测量说话者和听众之间表情的同步性。我们根据[21]将表情序列转化为1D唇弯曲时间序列。Ours与地面真值中观察到的同步性最匹配。NN产生的序列与说话者过于同步。a+m和m未能跟随地面真值中的主要趋势，例如（a）当听众和说话者都在笑时的高度同步，以及（b）当说话者说话而听众继续微笑时的低/无同步。0两个人都直接面向摄像头。为了涵盖不同环境和人的广泛表情范围，我们从6个YouTube频道的72小时视频中提取面部运动和音频。每个频道都有大量的受访者和主持人，来自不同的背景。我们利用一种先进的面部表情提取方法DECA[18]，从野外视频中恢复3D头部姿态和表情系数。DECA根据FLAME 3DMM[41]定义的姿态、表情和形状参数来估计。3DMM定义了50个表情系数，以及一个3D下颌旋转（dm =53）和Euler角度中的3D头部旋转，如第3.1节所述。对于音频，我们使用声源分离[45]来隔离说话者的声音。我们将这些表情、姿态和仅包含说话者的音频作为伪地面真值来训练我们的码本（公式6）和预测模型（公式10）。详见补充材料。我们发布了这个大规模的新颖数据集。05. 实验0我们评估我们的模型将说话者的音频和运动有效地转化为相应的听众运动的能力。我们使用一系列定量指标来衡量听众面部运动的逼真性、多样性和同步性。此外，我们进行了感知研究来证实定量结果。所有评估都是针对原始的真实听众运动y进行的。关于人不可知的听众模型，我们在补充材料中进行了讨论。0实现细节。我们使用w = 8，T = 64，K = 200，dz = 256，t =32。我们对输入的过去听众运动进行随机掩蔽。虽然我们在训练过程中使用了许多不同的输入说话者身份，但每个码本和预测模型都是针对特定的听众进行训练的（例如，任何说话者输入的特定个人化听众行为）。对于所有模型，我们使用70% / 20% /10%的训练/验证/测试分割。定量结果是对所有听众模型进行聚合的。在测试时，我们使用核心抽样[28]。为了提高结果的视觉可感知性，我们还训练了一个特定个人的网格到像素可视化模块。0直接将3DMM的预测转化为听众的图片（图1）。请参见补充材料和视频。然而，由于逼真的生成不是我们工作的主要关注点，所有评估都是在3D网格重建上进行的，这些重建是我们模型的直接输出。05.1. 实验设置0评估指标。量化运动逼真性是一个复杂的问题，不能简化为一个单一的指标。因此，我们根据先前的工作，沿着多个轴线评估我们的预测结果。我们的评估套件基于以下概念：好的听众应该展示出（1）逼真和（2）多样的运动，这些运动应该（3）与说话者的运动同步。我们根据这三个支柱分别评估表情和旋转：0• L2：与地面实况表情系数/姿势的距离。0•真实性的Frechet距离：根据[40]中生成的运动序列与真实运动序列之间的分布距离来衡量运动的真实性。我们直接计算表情空间RT × dm或头部姿态空间RT ×3上的Frechet距离（FD）[27]。0•多样性的变化：序列中运动的方差。我们计算表情系数或3D旋转的时间序列序列的方差。0•多样性的SI：预测的多样性。与[59]中一样，我们经验性地运行k-means对训练集中的所有听众表情/旋转进行聚类。我们计算预测序列的聚类ID直方图的平均熵（香农指数）。分别对应k=15，9的表情和旋转。0•同步的配对FD：通过听众-说话者对上的分布距离来衡量听众-说话者动力学的质量（P-FD）。在连接的听众-说话者表情RT × (dm + dm) / 姿势RT × (3 + 3)上计算FD [27]。0•同步的PCC：皮尔逊相关系数（PCC）是一种用于量化心理学中全局同步的流行度量标准[6, 50]。它衡量听众与说话者的协变性。204010表情旋转0L2 ↓ FD ↓ variation SI P-FD ↓ PCC L2 ↓ FD ↓ variation SI P-FD ↓ PCC (10^3) (10^3) (10^2) (10^2)0GT 2.90 2.61 0.09 0.81 1.96 0.008 NN运动 45.76 20.66 2.79 2.36 21.94 0.02 6.44 2.78 0.90 1.91 4.06 0.006 NN音频 52.67 31.98 2.70 2.41 33.810.02 7.61 5.54 0.93 2.01 6.87 0.007 随机 54.58 43.53 2.76 2.49 45.25 0.01 8.14 6.51 0.90 1.94 7.83 0.005 中位数 43.18 64.48 0.00 0.00 64.77 -6.35 15.50 0.00 0.00 15.50 - 镜像 53.90 43.56 3.73 2.99 75.30 1.00 7.80 6.01 1.22 1.99 16.88 1.000 延迟镜像 53.95 43.79 3.78 2.88 76.72 0.987.82 5.99 1.31 1.93 16.96 0.999 LFI [33] 50.07 43.63 1.15 1.33 54.34 0.89 9.00 9.80 0.17 1.07 12.36 0.034 随机表情 129.34 524.69 62.23 1.17526.46 0.00 27.67 257.06 62.39 1.06 257.16 0.0020我们的随机游走 52.68 40.45 1.99 2.26 42.55 0.01 7.14 5.74 0.60 1.37 7.79 0.0010我们的 33.16 3.55 2.01 2.48 5.15 0.07 4.75 0.81 0.62 1.82 0.87 0.0080表1.基线。与野外数据中的地面实况注释（GT）进行比较。↓表示较低为较好；对于没有箭头的情况，越接近GT越好。我们加粗显示具有统计显著性的最佳性能。对于FD和P-FD，结果以上面指示的单位显示。0在1D时间序列上。我们计算唇部曲率[21]来衡量微笑的同步性（图4）。对于旋转，我们测量上下头部运动（点头）的同步性。0•同步的TLCC：我们通过计算时滞交叉相关（TLCC）[6]来进一步分析我们生成的听众与输入说话者之间的领导者-跟随者关系。对于x∈[0,60]帧（最多2秒），我们将说话者向前移动x帧，并计算延迟说话者和相应听众之间的相关性。峰值相关性表示两个时间序列最为同步的时刻。我们还使用此分析来找到下面的Mirror Delay基线的最佳延迟。0基线。我们与以下基线进行比较：0•NN运动：在图形合成中常用的一种分段搜索方法。给定输入的说话者动作，我们从训练集中找到其最近邻，并使用其对应的听众段作为预测结果。我们发现在完整的64帧序列上使用NN比在较小的子序列上使用NN再进行插值效果更好。0• NN音频：与上述相同，但我们通过预训练的VGGish[26]模型获得的音频嵌入来找到NN。0• 随机: 返回训练集中随机选择的64帧听众运动序列.0• 中位数: 利用听众通常静止的先验知识的简单但强大的基线.从训练集中选择中位数表情/姿势.0• 镜子: 返回平滑的说话者运动.0• 延迟镜子:在这里，我们延迟平滑的说话者运动17帧（≈0.5秒）.而[17]延迟90帧，我们通过时间滞后交叉相关分析找到了最佳滞后.0• Let's Face It (LFI) [33]:在我们的数据上重新训练的SOTA面向对话者的3D头像生成方法. 详见补充材料.0• 随机表情:沿着3DMM空间行走；在每个时间步骤返回一个随机的面部.0• 我们的随机行走: 沿着码本索引行走.05.2. 定量结果.0表1显示，我们提出的方法在各种指标上优于所有其他竞争方法.总体而言，我们的方法在各种指标上实现了最佳性能平衡.我们的完整指标套件提供了对良好听众质量的全面观察，而不仅仅评估L2性能.例如，虽然中位数在L2上与我们的方法竞争，但在运动多样性（变化，SI）方面表现不佳.因此，该基线产生了较不真实的听众，正如我们的真实性指标（FD，P-FD）所指出的那样.然而，面部表情的更多变化并不一定更好.虽然NN运动，NN音频和随机产生了与真实运动类似的多样性，但这些基线的表达同步性（PCC）严重不足.不协调的听众妨碍了整个对话的真实性（P-FD）.也就是说，像镜子和镜子延迟这样的模仿者由于过多的变化和同步性而显得不真实.我们的方法巧妙地平衡了真实性，多样性和同步性. LFI[33]的性能较差表明了我们方法的优势. LFI[33]在我们的野外数据上重新训练时远不如我们的方法稳健.无法学习到真实的听众运动，LFI[33]默认模仿说话者，导致同步性（PCC）过高，真实性（FD，P-FD）更差. 即使在LFI[33]数据集上评估，我们的方法也优于其它方法.这些结果和补充材料中的视觉比较进一步证明了我们方法的优势.此外，我们定量地证明了我们方法的VQ-VAE在学习稳健和真实的听众运动方面的重要优势.我们的随机行走与随机方法相比具有竞争力，我们从训练集中采样完整的真实运动序列.它明显优于随机表情，我们在每个时间步骤随机采样静态表情和旋转.这表明沿着码本的随机行走仍然能够产生真实的运动，尽管可能与说话者不同步.最后，我们计算了GT和我们方法的平均TLCC.. GT2.902.610.090.811.960.008NoVQ a + m✓✓✗✓36.0616.600.551.6918.490.054.993.640.171.213.780.006m✗✓✓-38.324.101.912.465.690.125.470.960.571.801.020.009a✓✗✓-39.374.111.932.475.860.065.800.910.611.780.980.007a + m✓✓✓✗38.054.011.932.455.670.115.500.870.581.840.930.009Full✓✓✓✓33.163.552.012.485.150.074.750.810.621.820.870.008204020表情旋转.0音频运动 VQ CA L2 ↓ FD ↓ 变化 SI P-FD ↓ PCC L2 ↓ FD ↓ 变化 SI P-FD ↓ PCC ( 10 3 ) ( 10 3 ) ( 10 2 ) ( 10 2 )0表2. 切除实验. 我们方法关键组件的切除效果. ↓ 表示数值越小越好；没有箭头表示越接近GT越好. CA表示交叉注意力.我们用粗体标出具有统计显著性的最佳性能. 对于FD和P-FD，结果以上面指示的单位显示.0两者的延迟都约为17帧，都反映了平均听众反应时间约为0.5秒.如上所述，我们将这个响应时间作为镜子延迟基线的最佳延迟. 详见补充材料中的完整分析.0模型消融。表2量化了我们方法的每个组成部分的贡献。在NoVQa+m中，我们去除了VQ-VAE，并使用原始听众运动作为输入和输出表示。NoVQa+m产生了不真实、过度平滑的序列。添加VQ-VAE可以显著提高性能，进一步证实了代码本在生成真实运动中的重要性。此外，我们证明了同时利用音频和运动作为输入a+m通过连接略微改善了性能，而不仅仅使用其中之一（a和m）。然而，当通过交叉注意力（CA）结合两种模态时，我们的方法实现了更大的改进。有关消融架构的详细信息，请参见补充材料。05.3. 定性结果0为了证实我们的定量结果，并了解我们合成的听众与真实运动的感知比较，我们在亚马逊机械土耳其进行了A/B测试。由于所有定量趋势在所有听众身份上都是一致的，我们随机选择了一个身份进行评估。我们使用灰度3D面部网格的视频来可视化听众的运动。参与者观看了一系列视频对。在每对中，一个视频是由我们的模型生成的；另一个是由消融或基线产生的。然后，参与者被要求识别那个视频，其中的听众看起来像是在倾听并更加关注说话者。每个视频长达8秒，分辨率为849×450（从1132×600降采样以适应在不同屏幕尺寸上垂直堆叠的两个视频），每对视频后，参与者有无限的时间来回答。由于一个听众真正倾听的最明显的时刻是在定义时刻（说话者讲笑话，分享悲伤的故事等）引起强烈反应的时刻，我们从我们的保留测试数据中手动策划了这些显著时刻的序列。然后，我们从这些序列中随机抽取了50个，并使用每种方法预测了相应的听众3D面部运动序列。对于每个测试0每个A/B比较由3个评估者进行。我们将我们最强的基线NNmotion和消融a+m与我们的提出模型进行比较，并记录了我们的方法优于基线模型或反之的次数的百分比。我们的方法明显优于。75.3%的总共150个评估者更喜欢我们的方法而不是NN，71.1%的评估者更喜欢我们的方法而不是a+m。这些统计数据反映了表2中的定量趋势。此外，在与从真实听众渲染的头像进行比较时，评估者50.1%的时间更喜欢我们的方法。这突显了我们预测的听众运动的感知逼真性。06. 讨论0在这项工作中，我们探索了演讲者和听众之间的运动同步性。为此，我们使用了一个运动-音频交叉注意力变换器来处理演讲者输入的多种模态。此外，我们使用VQ-VAE实现了非确定性运动合成。在一个新颖的野外对话数据集上进行训练，我们的方法自回归地输出与给定演讲者相关的令人信服的3D听众面部运动。虽然录像会议数据适合数据收集，但它具有固有的局限性（例如，没有眼神接触，远程连接引入的时间延迟等）。未来的方向是将这项研究应用于面对面的对话，这将使我们能够融入注视。此外，由于我们只模拟听众对演讲者的反应，模拟完整的来回效果的双向循环仍然是未来的工作。虽然我们的目标是理解对话动态，但我们在补充材料中讨论了对这项技术的滥用的担忧。请参见补充材料以获取结果视频、每个听众的结果、实现细节、消融架构、多模式输出评估等。0致谢。作者感谢Facebook FRL团队，Justine Cassell，AlyoshaEfros，Alison Gopnik，Jitendra Malik，Dave Epstein，KarttikeyaMangalam，Ruilong Li和EthanWeber的深入交流和支持。Ng和Darrell的工作得到了BAIR工业联盟计划以及DoD DARPA的Machine CommonSense和/或SemaFor计划的支持，该计划还支持Hu和Li。Ginosar的工作由NSF在CIFellows项目下的2030859号资助的计算机研究协会资助。204030参考文献0[1] Chaitanya Ahuja，Dong Won Lee，RyoIshii和Louis-PhilippeMorency。不要忽略任何手势：学习口语和自由手势之间的关系。在2020年经验方法在自然语言处理中的会议论文集上，第1884-1895页，2020年。4,50[2] Chaitanya Ahuja，Shugao Ma，Louis-PhilippeMorency和YaserSheikh。是否反应：端到端的视觉姿势预测用于双人对话中的个性化化身。在2019年国际多模态交互会议上，第74-84页，2019年。30[3] Emre Aksan，Manuel Kaufmann和OtmarHilliges。结构化预测有助于3D人体运动建模。在IEEE /CVF国际计算机视觉会议论文集上，第7144-7153页，2019年。40[4] Volker Bl

下载后可阅读完整内容，剩余1页未读，立即下载