大规模自发会话的多模态数据集及手指运动合成

58 浏览量更新于2023-10-13 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Talking With Hands 16.2M：一个用于会话运动分析和合成的大规模同步体指运动和音频数据集Gilwoo Lee†Zhiwei Deng†Shugao Ma‡TakaakiShiratori‡悉达多S.Srinivasa† YaserSheikh华盛顿大学-西蒙弗雷泽大学-Facebook Reality Labs{gilwoo，siddh}@cs.uw.eduzhiweid@sfu.ca {tshiratori，shugao，yasers}@fb.com图1：通过我们的捕获设置（左），我们收集了50人（右）的大规模对话运动和音频数据集当提到一个地方或问一个问题时，参与者经常会做出尖锐的手势，并进行高音强调。摘要我们提出了一个1620万帧（50小时）的多模态数据集的两个人面对面的自发会话。我们的数据集具有同步的身体和手指运动以及音频数据。据我们所知，它代表了迄今为止最大的自然对话的动作捕捉和音频数据集。统计分析验证了手臂，手和语音特征的强大的人内和人间协方差，可能使数据驱动的社会行为分析，预测和合成的新方向。作为说明，我们提出了一种新的实时手指运动合成方法：一个时间神经网络创新地训练与逆运动学（IK）的损失，增加了骨骼结构信息的生成模型。我们的定性用户研究表明，我们的方法产生的手指运动被认为是自然和会话增强，而定量消融研究表明IK损失的有效性。1. 介绍实时运动合成在会话设置正变得越来越重要的需求增加通过虚拟/增强现实的远程呈现以及在3D动画和社交游戏中的应用。运动合成通常通过基于物理的轨迹优化[17]、数据驱动生成模型[20，16]或两者的组合[24]来完成。在后两种方法中，高质量数据的可用性对于合成运动的质量至关重要。深度学习的最新进展提供了许多先进的时间生成模型[11，5，23]。在利用这些强大的模型时，训练数据集的规模很重要。然而，当涉及到对话设置时，由于以整体方式捕获面对面对话所涉及的挑战，高质量，大规模运动捕获数据集不可用：数据集必须捕获复杂的多模态交互，包括自发的言语和非言语的手势和声音，并且必须跨许多主题捕获以获得多样性。我们介绍了一个大规模的，多模态（身体，手指和音频）的两个人的对话数据集。我们的数据集包括50小时的两人对话数据的运动捕捉据我们所知，我们的数据集是最大的会话动作和语音数据集，并且具有独特的内容：1)与随意交谈763764我们CMU Mocap [1]全景[14]MMAC [2][33]第三十三话FM [15][13]第十三话受试者数量50108-251023小时数50-5.515200.520帧数16.2M-1.5M6.3M2.2M54K3.6M序列数200260565125-56Seq.长度（min）7-200.1-10.5-253-10-2-4-音频是的没有是的-没有没有没有捕获部件身体、手身体身体、手身体手身体、手身体内容谈话慢跑，走路跳舞，游戏库克有计划的，随机的谈话聊天，吃饭多学科是的几是的没有没有没有没有表1：我们的数据集与公开的运动捕捉数据集的比较我们的研究在规模、内容和多形式方面都是独一无二的对于其他数据库，当无法直接获得时，我们根据序列数和长度估计小时数和帧数请注意，内容行仅显示每个数据集中的几个示例运动类型没有任何脚本动作，2）全身以及手指动作，和3）同步音频数据，用定向麦克风为每个参与者单独捕获（即，无音频溢出）。我们的数据集将使许多未来的研究在多模态分析，建模和社会沟通行为的合成，特别是在利用先进的深度学习模型。我们的数据集与一些广泛使用的运动捕获数据集的比较见表1。我们的数据集在多个维度上表现出色：在规模上，它比[13]比其他人大很多倍;在完整性方面，它同时捕获两个人的身体和手指运动，而不是仅捕获一个人[ 2，8，25，13 ]，仅捕获身体[ 1，2，8，25，13 ]或不捕获音频[ 1，8，25，13 ]。我们的数据集是90 fps，比[13]（50 fps）高1.8倍。高帧速率对于细粒度运动预测特别有益。此外，每个捕获序列的长度为7-20分钟，比大多数比较的数据集长得多。这样的长度更接近于现实世界的对话，因此可以自然地出现更多样化和自发的人类行为。此外，为了促进对特定于个人的模型和通用模型的未来研究，我们有意包括深度捕获如图1所示，我们的数据集捕获了对话期间出现的表情手势和语音变化基于统计分析，我们发现配对的参与者会改变他们的声音或动作，以同意对方的陈述或回答问题。此外，我们的数据揭示了参与者自己的双手之间的强协方差这些研究结果表明，我们可以利用各种自我和人际功能，以产生丰富和现实的姿态在会话设置。为了展示我们的大规模数据集的使用情况，我们训练深度时间神经网络模型，以实时地从上身关节角度和音频合成自然手指运动我们选择手指运动作为合成目标，因为它包含了丰富的社会信号，在社会互动环境中至关重要然而，它很少使用深度学习模型进行研究我们在本文中解决了这个问题，以证明我们的数据集的好处。为了确保表达性手势的合成（例如，指向食指），我们建议使用逆运动学（IK）损失，它将运动学约束纳入时间神经网络的训练。IK损失可以与输出关节角度的任何生成模型一起使用。它是使用正向运动学操作形成的，因此其上的梯度根据其对目标姿态的影响程度来惩罚每个关节角度，指尖姿势尽管IK损失通常用于运动合成和重构[27，28]，但其在时间神经网络的端到端训练中的使用是不可见的。我们将IK损失应用于时间神经网络，例如长短期记忆（LSTM）[11]，变分递归神经网络（VRNN）[5]和时间卷积网络（TCN）[23]。我们所有的模型都满足实时约束：它们在不到0.002秒的时间内生成每一帧我们的定性用户研究表明，我们的模型可以生成自然的外观和信息丰富的手指运动过程中，ING对话。我们的定量消融研究表明，与IK损失的训练导致较小的指尖位置误差与关节角度误差的影响可以忽略不计。本文的主要贡献概括为：• 目前最大的面对面多模态会话数据集，包含身体和手指动作以及音频;• 在面对面交谈期间，对身体、手和听觉特征的组合进行统计分析，以验证先前在手势合成中使用的手势学;• IK损失的创新应用，训练时间神经网络合成逼真的手指运动。7652. 相关工作2.1. 人体运动捕捉数据集存在许多使用基于标记、无标记和基于深度传感器的跟踪系统的3D人体运动数据集。我们的数据集包含50小时，两个人，面对面的社交对话互动，捕捉身体和手指动作以及语音。这种独特的关注点和大规模的数据集将我们的工作与现有的数据集区分开来。单人运动数据集CMU运动捕获数据集[1]是研究界使用最广泛的运动捕获数据集之一。它包含单人和双人互动，其多样化的运动范围从运动到体育活动。虽然规模很大，但其每种运动类型的序列数量相对较小。这与我们的数据集形成对比，我们的数据集提供了大量的一种序列：两个人的对话动作CMU多模态活动数据库（MMAC）[2]，在精神上更接近我们，捕获了大量的多模态人体运动序列，所有这些都与厨房活动有关。在HumanEVA数据集[25]中，3D运动捕捉数据伴随着同步的视频剪辑，这可能对视频中的人体姿势估计有用。在Hu- man3.6M数据集[13]中，捕获了人类的日常活动，如在[22]中使用光学运动捕捉系统、多个相机、深度传感器、IMU和麦克风捕捉多模态人类动作。爱丁堡大学交互数据库[3]包括身体和手指运动，但它只关注人与物体的交互。一些数据集专用于3D手部姿势捕获[7，33]。手指运动（FM）[15]数据集在内容方面与我们的数据集最接近，因为它包含对话设置中的全身然而，该数据集仅包含演员的脚本动作，并且仅具有没有音频的单人数据。多人交互数据集类似于我们的方法，Lu等人。[18]还使用了基于标记的动作捕捉系统来捕捉两个人的互动。他们的动作类别包括对象交换和对话。然而，这些活动都是有脚本的。Ye等人[32]使用三个手持Kinect捕捉他们的捕捉设置比我们的简单得多，允许在自然环境中进行交互乌得勒支多人运动数据集[29]提供多人交互的同步视频和3D运动捕获数据最近，Joo等人[14]在一个名为Panoptic Studio的复杂圆顶中捕捉人类的社会互动，该圆顶安装了许多RGB摄像头，深度传感器和麦克风。虽然可用的数据类型相似，但我们的数据集比这些数据集大得多。2.2. 手指运动合成基于物理的方法结合了各种运动学、特定任务和样式约束。Liu [17]使用物体-手交互的接触和运动学约束来优化轨迹。Pollard等人[24]和Zhaoet al. [34]将小数据集与物理模拟相结合，以生成抓取动作。这些方法在任务特定约束或外部接触约束明确时是有效的，但不能立即应用于言语和非言语手势合成。数据驱动的手部运动合成的关键是运动库中最近邻轨迹间的插值。这些方法的质量和计算易处理性在很大程度上取决于运动列表的质量、运动查询算法和目标函数。所收集的轨迹通过一些预定义的手势阶段被分段[19，15，21，20，26几个成本项的组合用于插值，例如姿势与数据的接近度[15]，运动的平滑度[19]或片段之间的过渡可能性[26]。另一种常见的方法是学习手部运动的概率生成模型生成模型在实时运动合成中很Levine等人[16]使用隐马尔可夫模型（HMM）来生成给定语音的手臂运动，尽管在这项工作中没有考虑手指运动。穆萨和al. [20]使用HMM来生成给定表演者手腕姿势的手指运动类似于基于插值的方法，这些方法需要将数据库聚类到相似的状态，以便训练离散HHT。我们鼓励感兴趣的读者参考调查报告[31]以获得更全面的概述。2.3. 时间生成模型深度学习的最新进展产生了许多具有高容量的模型。Oord等人[23]提出了一种用于生成原始音频的扩展时间卷积网络。Holden等人[12]使用自动编码器找到人体运动的低维流形Walker等人[30]使用变分自动编码器（VAE）来编码过去的姿势并解码未来的姿势，同时使用生成对抗网络来生成完全渲染的图像。Habibi等人[9]将VAE与LSTM [11]相结合来生成人体运动。通过我们的大规模数据集，这些方法中的许多可以很容易地应用于手指运动合成。3. 数据集构建我们的数据集由50个两人对话的会话组成。每个会话大约一个小时，有4-6个子会话，自由交谈或视频复述（第3.2节）。我们提供身体和手部姿势，原始音频数据，766图2：24个摄像头的位置：在参与者的每一侧放置了14个摄像头，以最好地捕捉手指。和声学特征。除原始音频外，所有数据均以90 fps处理3.1. 捕获系统我们的捕获系统包括24个OptiTrack Prime 17W摄像头，围绕大约3m×3m的捕获区域（图2）和两个定向麦克风耳机。24台摄像机中有10台位于1。6米高。剩下的14个摄像机分别放置在两名参与者的两侧，10个用于从下到上的视图，4个用于从上到下的视图，以获得手指运动的最佳捕获。参与者穿着附有标记的套装和手套。我们遵循OptiTrack提供的用于身体捕获的标准标记布置和Han等人建议的手套标记布置。[10 ]第10段。在实际的数据捕获之前，每个参与者被要求跟随手势和大的身体移动的记录视频记录的身体和手指运动用于校准每位参与者的骨长度和平移。所有的运动捕捉数据被转换为关节角度表示。所有关节都由相对于父关节的局部变换表示;相对于固定框架提供骨盆的全局姿态，该全局姿态可用于跟踪对象的全局运动以及测量两个对象之间的距离。我们使用Han等人的方法处理手指动作捕捉数据。的方法[10]，该方法自动标记手指标记并通过基于反向运动学的优化计算关节角度。我们提供每个人的原始音频，这些音频与Ephone56脉冲发生器的运动数据同步，并由OctaMic XTC记录。此外，我们还提供了 Geneva Minimalistic AcousticParameter set（GeMAPS）[6]，这是一套全面的声学特征，可以捕捉到声乐表达的各个方面特征包括频率（例如，音调，抖动），能量，幅度（例如，微光、大声）和光谱特征。3.2. 会话任务为了激发自发的对话，我们尝试了各种各样的对话任务，从中我们学到了两个教训。首先，会话任务应该提供足够的上下文来吸引参与者。其次，为了适应各种各样的参与者，任务不应该要求太多的背景知识。因此，我们为参与者选择了两个主要任务：围绕给定主题的自由对话和视频复述。自由对话主题是从一个综合性的集合中选择的，该集合最初是为英语课堂上的随意对话而设计的[4]。以下是一些示例主题• 你下一个假期打算去哪里？• 你知道这附近有什么好餐馆吗？在每个捕获会话中，这对参与者进行2-3次这样的对话。我们告诉参与者自由地转移话题，类似于人们在随意谈话中转移话题的方式此外，参与者还参与了两个视频复述分会议。首先，一名参与者观看了一段5分钟的视频，而另一名参与者在房间外等待。然后，观看视频的参与者将故事讲述给另一个参与者，在此期间，另一个人可以打断以澄清问题。在讲述之后，听到故事的参与者向第一个参与者复述故事，在此期间，第一个参与者可以打断以纠正复述。这种设计是为了让参与者参与自发的对话行为，如解释，积极倾听，打断和提问。如果参与者非常投入，我们会让对话继续，直到它自然结束。因此，谈话的时间从7分钟到20分钟不等。3.3. 捕获数据分析首先，我们通过评估上半身、手指关节和声学特征的协方差来研究人们如何说话和如何使用手之间的相关性图3a和3b示出了人内和人间协方差。我们取每个手指的平均关节角度。为了视觉上的简单性，我们将手指分组为左手和右手，并将腕关节、肘关节和肩关节分组为左臂和右臂。在可能的协方差对中，我们使用最大值来表示每个单元：例如，左食指和右手腕的协方差可以对应于图3a中的单元（LHand，RAm）。我们的统计结果是连贯的启发式在以前的手势合成工作。Jörg等人[15]经验指出，腕关节与手指运动密切相关实际上，76743 .第三章。53-0。4- 0。200。2040的情况。190的情况。180的情况。17(a) 人内协方差（b）人间协方差0的情况。16-0。4- 0。200。204时滞τ（s）(c)时间相关性图3：（a）关节和音高之间的单人协方差两个手臂和手关节之间的强非对角协方差(b)强协方差被发现之间的间距的一个参与者和间距和手臂运动的其他。(c)声学特征和近端关节在时间上是相关的。同侧的手臂和手指关节。我们的分析进一步表明，两只手是密切相关的，这意味着人们经常一起移动双手。Levine等人[16]注意到音高、响度和持续时间是影响手势的关键特征。同样，我们观察到俯仰与左右臂关节都有协变（图3a）。我们的分析进一步指示音频特征与另一个人的手臂共变定性地，我们观察到，当一个人说话和做手势时，另一个人经常口头回应，例如回答问题或同意对方图3c示出了近端手指关节的速度与两个音频特征在时间上相关：响度和音高。我们使用Pearson互相关系数1测量时间相关性。4. 实时手指运动合成为了说明我们的数据集在数据驱动的运动合成上的使用我们还建议使用逆运动学损失，如下所述。形式上，生成模型学习概率函数p（rt|<其中rt是手指在时间t的关节角度，并且y

下载后可阅读完整内容，剩余1页未读，立即下载