动视频中的全局遮挡感知人体网格恢复

72 浏览量更新于2023-10-25 收藏 32.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110380GLAMR：具有动态摄像机的全局遮挡感知人体网格恢复0Ye Yuan 2 * Umar Iqbal 1 Pavlo Molchanov 1 Kris Kitani 2 Jan Kautz 101 NVIDIA 2 卡内基梅隆大学0https://nvlabs.github.io/GLAMR0GLAMR（我们的方法）标准人体网格恢复方法0来自动态摄像机的输入视频0起始帧结束帧0遮挡漏检超出视野0填充的姿势0填充的姿势填充的姿势0图1. GLAMR（左）在一致的全局坐标系中恢复人体网格，并填充由于各种遮挡（遮挡、漏检、超出视野）而缺失的姿势（透明），而标准的人体网格恢复方法（右）无法做到这一点。0摘要0我们提出了一种从使用动态摄像机记录的单目视频中恢复全局人体网格的方法。我们的方法对严重和长期的遮挡具有鲁棒性，并且可以在人体超出摄像机视野时仍然跟踪人体。为了实现这一点，我们首先提出了一个深度生成的运动填充器，它根据可见运动自回归地填充被遮挡的人体运动。此外，与之前的工作相比，我们的方法即使在使用动态摄像机的情况下也能在一致的全局坐标系中重建人体网格。由于人体运动和摄像机姿态的联合重建是不确定的，我们提出了一个全局轨迹预测器，根据局部身体运动生成全局人体轨迹。使用预测的轨迹作为锚点，我们提出了一个全局优化框架，以优化预测的轨迹并优化摄像机姿态，以匹配视频证据，如2D关键点。在具有动态摄像机的具有挑战性的室内和野外数据集上的实验表明，所提出的方法0* 本工作是在NVIDIA实习期间完成的。0在运动填充和全局网格恢复方面，我们的方法明显优于之前的方法。01. 引言0从单目视频中恢复细粒度的3D人体网格对于理解人类行为和互动至关重要，这可以成为包括虚拟或增强现实、辅助生活、自动驾驶等众多应用的基石。许多这些应用使用动态摄像机来捕捉人类行为，但也需要在与周围环境一致的全局坐标系中估计人类动作。例如，辅助机器人和自动驾驶车辆需要对世界中的人类行为和互动有全面的理解，以安全地规划它们的行动，即使它们在移动时也是如此。因此，本文的目标是解决通过动态摄像机捕捉的单目视频中恢复全局人体网格的重要任务。然而，这个任务有两个主要的挑战。首先，动态摄像机使得在一致的全局坐标系中估计人类动作变得困难。现有的人体网格恢复方法估计的是人类网格在110390摄像机坐标[67, 114]甚至是相对于根的坐标[45,68]。因此，它们只能通过使用SLAM估计摄像机姿态来从动态摄像机中恢复全局人体网格。然而，由于移动和动态物体的存在，SLAM在野外视频中经常失败。它还存在尺度模糊的问题，这经常导致与人体运动不一致的摄像机姿态。其次，由动态摄像机捕捉的视频通常包含人类的严重和长期遮挡，这可能是由于漏检、物体和其他人的完全遮挡，或者人离开摄像机视野（FoV）造成的。这些遮挡对于依赖于检测或可见部分来估计人体网格的标准方法构成了严重的挑战。只有少数工作尝试解决人体网格恢复中的遮挡问题，然而，这些方法只能处理人的部分遮挡，并且无法处理当人在一段时间内完全不可见时的严重遮挡。0为了解决上述挑战，我们提出了全局遮挡感知人体网格恢复（GLAMR）方法，可以处理严重的遮挡，并在与动态相机录制的视频中以一致的全局坐标估计人体网格。我们首先使用现成的方法（例如KAMA [34]或SPEC[47]）在相机坐标中估计可见人的形状和姿势序列（动作）。这些方法还依赖于多目标跟踪和重新识别，提供遮挡信息，而遮挡帧的运动没有被估计。为了解决潜在的严重遮挡，我们提出了一个基于深度生成的运动填充器，它根据可见运动自动回填被遮挡人的局部身体运动。运动填充器利用从大型运动数据库AMASS[62]中学习到的人体动力学。接下来，为了获得全局运动，我们提出了一个全局轨迹预测器，可以根据局部身体运动生成全局人体轨迹。它的动机是全局人体的根轨迹与局部身体运动高度相关。最后，使用预测的轨迹作为锚点来约束解空间，我们进一步提出了一个全局优化框架，共同优化全局运动和相机姿势以匹配2D关键点等视频证据。0本文的贡献如下：（1）我们提出了第一个方法来解决长期遮挡问题，并从动态相机捕获的视频中估计全局3D人体姿势和形状；（2）我们提出了一种新颖的基于生成的Transformer的运动填充器，自回归地填充长期缺失的运动，明显优于最先进的运动填充方法；（3）我们提出了一种从局部身体运动生成全局人体轨迹的方法，并使用生成的轨迹作为锚点来约束全局运动和相机0优化；（4）在具有挑战性的室内和野外数据集上进行了大量实验，结果表明我们的方法在处理遮挡和估计全局人体网格方面明显优于先前的最先进方法。02. 相关工作0相机相对姿态估计。从RGB图像或视频中恢复3D人体网格是一个不适定的问题，因为存在深度模糊。大多数现有方法通过估计相对于人体骨盆（根部）的人体姿势来简化问题[1,6, 9-11, 21, 38, 40, 41, 45, 48-52, 57, 60, 68, 69, 71-73,79, 82, 86, 88, 89, 95, 97, 104, 108, 111,116]。这些方法假设正交相机投影模型，并忽略了人体相对于相机的绝对3D平移。为了解决平移的缺失，最近的方法开始在相机坐标中估计人体网格[34, 37, 53, 58, 75, 78, 85,96, 105, 107,109]。一些方法使用优化框架恢复人的绝对平移[64-66, 81,106]。一些方法在优化过程中利用各种场景约束来改善深度预测[94,105]。另外，最近的方法使用基于物理的约束来确保估计姿势的物理合理性[12, 35, 85, 96,103]。Iqbal等人利用肢体长度约束利用2.5D表示恢复人的绝对平移。一些方法使用边界框大小来近似人的深度[37,67,109]。HybrIK和KAMA利用逆运动学在相机坐标中估计具有绝对平移的人体网格。一些方法直接使用热图表示预测每个人的绝对深度。最近，SPEC学习从图像中预测相机参数，用于在相机坐标中进行绝对姿势回归。THUNDR也采用类似的策略，但使用已知的相机参数。虽然这些方法显示了令人印象深刻的结果，但它们不能从动态相机捕获的视频中估计全局人体动作。相比之下，我们的方法可以在一致的全局坐标中恢复人体网格，适用于动态相机并处理严重和长期的遮挡。全局姿势估计。大多数现有的在世界坐标中估计3D姿势的方法依赖于校准、同步和静态的多视图捕获设置[5, 13,15, 29, 39, 77, 78, 112, 113,115]。Huang等人使用未校准的相机，但仍然假设时间同步和静态相机设置。Hasler等人处理不同步的移动相机，但假设多视图输入，并依赖音频流进行同步。最近，Dong等人提出从未对齐的不同演员执行相同活动的互联网视频中恢复3D姿势，但他们假设视频中有相同姿势的多个视点。??110400多目标跟踪和重新识别03D人体姿势和形状估计器0生成式运动插值器0全局轨迹预测器0全局优化0带遮挡的运动插值后的身体运动带全局轨迹的运动全局运动0时间0第一阶段第二阶段第三阶段 0: 根位置 : 根方向 : 身体运动 : 身体形状0视频0(遮挡)身体运动和形状0: 第1人0: 第2人0预处理0图2.GLAMR概述。在第一阶段，我们通过多目标跟踪、重新识别和人体网格恢复对视频进行预处理，以提取每个人在相机坐标系中的遮挡运动�Qi。在第二阶段，我们提出了一种生成式运动插值器，将遮挡的身体运动�Θi插值为无遮挡的身体运动�Θi。在第三阶段，我们提出了一个全局轨迹预测器，使用插值的身体运动�Θi生成每个人的全局轨迹(�Ti，�Ri)，并获得他们的全局运动�Qi。在第四阶段，我们0共同优化所有人的全局轨迹和相机参数，以产生与视频一致的全局运动qQi。0与这些方法不同，我们的方法从使用动态相机记录的单目视频中估计全局坐标下的人体网格。几种方法依赖于额外的IMU传感器或预扫描环境来恢复全局人体运动[22,93]，这在大规模采用中是不切实际的。最近，另一类工作开始关注估计准确的人-场景交互[26, 30, 61,99]。刘等人[58]首先使用SLAM算法COLMAP[83]从动态相机中获得相机姿态和场景的密集重建。相机姿态用于相机到世界的转换，而重建的场景用于鼓励人-场景接触。然而，SLAM在野外视频中经常失败，并且容易出现错误传播。相比之下，我们的方法不需要SLAM，而是使用全局轨迹预测来约束人体运动和相机姿态的联合重建。此外，我们的方法还可以处理动态相机设置中常见的严重和长期遮挡。0考虑遮挡的姿势估计。大多数现有的人体姿势估计方法假设人在图像中完全可见，并且对强遮挡不具有鲁棒性。只有少数方法解决了姿势估计中的遮挡问题[17, 46, 79, 80,111]。虽然这些方法在部分遮挡下显示出令人印象深刻的结果，但它们没有解决当人完全被遮挡或长时间在相机视野之外时的严重和长期遮挡问题。相比之下，我们的方法利用深度生成式人体运动模型来解决严重和长期遮挡问题。0人体运动建模。广泛的研究已经研究了包括运动预测和合成在内的各种任务的3D人体动力学[2, 4, 8, 18, 19, 25, 36, 56,63, 74, 76, 92, 98,100-102]。最近的人体姿势估计方法开始利用学习到的人体动力学模型来改进0估计运动的准确性[45, 79,110]。还提出了几种运动插值方法，用于从部分观测到的运动生成完整的运动[23, 28, 42,43]。此外，最近的运动捕捉工作表明，全局人体平移可以从3D局部关节位置预测[84]。与以前的工作相比，我们的轨迹预测器不需要GT根方向，而是可以预测全局根位置和方向。此外，我们还提出了一种新颖的生成自回归运动插值器，可以使用噪声姿势作为输入，而不是高质量的GT姿势，并且我们证明了它在解决人体姿势估计中的长期遮挡问题方面的有效性。03. 方法0我们的框架的输入是一个视频I=（I1，...，IT），其中T帧，由动态摄像机拍摄，即摄像机姿势可以每帧变化。我们的目标是在一致的全局坐标系中估计视频中N个人的全局运动（姿势序列）{Qi}Ni =1。每个人i的全局运动Qi =（Ti，Ri，Θi，Bi）由根平移Ti =（τis i，...，τiei），根旋转Ri =（γis i，...，γie i），以及身体运动Θi =（θis i，...，θie i）和形状Bi=（βis i，...，βiei）组成，其中运动从第一个帧si到最后一个帧ei，当人i在视频中相关时。特别地，每个身体姿势θit ∈ R23×3和形状βit ∈ R100对应于SMPL模型[59]的姿势参数（不包括根旋转）和形状参数。使用根平移τ ∈ R3和（轴角）旋转γ ∈R3，SMPL将人体网格表示为线性函数S（τ，γ，θ，β），将全局姿势q =（τ，γ，θ，β）映射到关节化的三角网格Φ∈ RK×3，其中K =6980个顶点。因此，我们可以通过SMPL从全局运动Qi恢复每个人的全局网格序列4h. . .. . .. . .. . .??????????????Motion InfllerMotion Infller. . .??1236h???? . . .123h-1. . .54h123h-15 . . .. . .110410Transformer解码器0Transformer编码器0滑动窗口0填充0上下文预测0AR步骤10AR步骤20输入0输出0自回归（AR）运动填充生成式运动填充网络0选择可见帧0基于时间的编码0上下文序列0基于时间的编码0附加潜在编码0逐令牌的MLP0后验网络0先验网络0真实值0训练测试0输出输入0解码器网络上下文网络0潜在编码0图3.左：我们使用滑动窗口自回归地填充运动，其中前hc帧已经填充作为上下文，最后hl帧是向前看以指导结束运动。上下文和向前看之间的帧是填充的。右：基于CVAE的运动填充器采用基于Transformer的seq2seq架构，我们仅将遮挡的身体运动�Θ编码为上下文序列，与潜在编码z一起由解码器网络生成无遮挡的运动�Θ0如图2所示，我们的框架包括四个阶段。在第一阶段，我们首先使用多目标跟踪（MOT）和重新识别算法获取每个人的边界框序列，然后将其输入到人体网格恢复方法（例如，KAMA [34]或SPEC [47]）中进行提取0每个人的运动�Qi（包括平移）在0相机坐标。由于各种遮挡（例如，遮挡、漏检、超出视野范围等），运动 � Q i可能不完整，其中MOT中的边界框在某些帧中丢失。在第二阶段（第3.1节）中，我们提出了一个生成式运动填充器来解决遮挡问题0在估计的身体运动�Θi中引入遮挡0自由体运动 � Θ0tionΘi，以生成每个人的全局轨迹（根位置和旋转）并获得其全局运动Qi。在第IV阶段（第3.3节）中，我们联合优化所有人的全局轨迹和相机参数，以生成：0生成与视频证据一致的全局运动qQi。03.1.生成性运动填充器0填充每个人的遮挡身体运动Θi，以生成：0生成无遮挡的身体运动Θi。在这里，我们不使用运动填充器M来填充其他组件。0估计的运动Qi，即根轨迹（Ti，Ri）和形状Βi。这是因为填充根轨迹是困难的。0（Ti，Ri），因为它位于相机坐标系中，而不是由于动态相机而导致的一致坐标系。在第3.2节中，我们将使用提出的全局轨迹预测器生成无遮挡的全局轨迹（Ti，Ri）。0无遮挡的全局轨迹（Ti，Ri）从填充的运动中。0身体运动Θi。姿势估计器的轨迹（T i，Ri）不会被丢弃，而是将用于全局优化。0优化（第3.3节）。我们使用线性插值来生成：0无遮挡形状Βi，可以是随时间变化的，以与逐帧姿势估计器（如KAMA）兼容。给定一个包含h帧的一般遮挡人体运动Θ = （θ1，...，θh）和其可见性掩码V =（V1，...，Vh），运动填充器M输出一个完整的无遮挡运动Θ =（θ1，...，θh）。可见性掩码V编码了遮挡运动Θ的可见性，其中Vt = 1表示帧t中的身体姿势θt可见，Vt =0表示不可见。由于遮挡帧的人体姿势可能高度不确定和随机，我们使用条件变分自编码器（CVAE）[44]来构建运动填充器M：0Θ = M（Θ，V，z），（1）0其中，运动填充器M对应于CVAE解码器，z是一个高斯潜变量。通过改变z，我们可以获得不同的无遮挡运动Θ。0自回归运动填充。为了确保运动填充器M能够处理比训练运动更长的测试运动，我们在测试时提出了一种自回归运动填充过程，如图3（左）所示。关键思想是使用一个滑动窗口，其中我们假设运动的前hc帧已经是无遮挡或填充的，并作为上下文，同时使用最后hl帧作为前瞻。前瞻对于运动填充器来说是必要的，因为它可能包含可见的姿势，可以指导最终的运动并避免生成不连续的运动。除了上下文和前瞻帧之外，只有中间ho = h - hc -hl帧的运动被填充。我们使用滑动窗口迭代地填充运动，并在每一步中将窗口向前移动ho帧。0运动填充网络。CVAE（基于变分自编码器）的运动填充的整体网络设计如图3（右）所示。具体而言，我们采用了基于Transformer的seq2seq架构，包括三个部分：（1）上下文网络，用于将可见姿势从遮挡的运动中编码为上下文序列，作为其他网络的条件；（2）解码器网络，使用潜变量z和上下文序列通过Transformer解码器和多层感知机（MLP）生成无遮挡的运动Θ；（3）先验网络和后验网络，生成潜变量z的先验分布和后验分布。在网络中，我们采用基于时间的编码，用时间索引替换原始位置编码中的位置。与之前基于CNN的方法不同，我们的基于Transformer的运动填充器不需要填充缺失帧，而是将注意力限制在可见帧上，以实现有效的时间建模。Network and Training. The trajectory predictor adopts asimilar network design as the motion inﬁller with one maindifference: we use LSTMs for temporal modeling insteadof Transformers since the output of each frame is the lo-cal trajectory change in our egocentric trajectory represen-tation, which mainly depends on the body motion of nearbyframes and does not require long-range temporal modeling.We will show in Sec. 4.2 that the egocentric trajectory anduse of LSTMs instead of Transformers are crucial for accu-rate trajectory prediction. Please refer to the supplementarymaterials for the detailed network architectures. We use the110420该网络使用Transformer编码器将遮挡运动Θ中的可见姿势编码为上下文序列，作为其他网络的条件；（2）解码器网络使用潜变量z和上下文序列通过Transformer解码器和多层感知机（MLP）生成无遮挡运动Θ；（3）先验网络和后验网络生成潜变量z的先验分布和后验分布。在网络中，我们采用基于时间的编码，用时间索引替换原始位置编码中的位置。与之前基于CNN的方法不同，我们的基于Transformer的运动填充器不需要填充缺失帧，而是将注意力限制在可见帧上，以实现有效的时间建模。0训练。我们使用大型运动捕捉数据集AMASS[62]训练运动填充器M。为了合成遮挡的运动Θ，对于任何GT训练运动Θ'的h帧，我们随机遮挡连续的Hocc帧运动，其中Hocc均匀采样自[Hlb，Hub]。注意，我们不遮挡前hc帧，这些帧被保留为上下文。我们使用标准的CVAE目标来训练运动填充器M：0LM =0t=1 ∥θ t − θ' t∥22 + LzKL, (2)0其中LzKL是CVAE潜在编码z的先验分布和后验分布之间的KL散度。03.2.全局轨迹预测器0在使用运动填充器获取每个人的无遮挡身体运动Θ之后，仍然存在一个关键问题：0人的估计轨迹(�Ti,�Ri)仍然被遮挡且不在一致的全局坐标系中。为了解决这个问题，我们提出了学习全局轨迹预测器T，它生成一个人的无遮挡全局0给定输入的一般无遮挡身体运动Θ = (θ 1, . . . , θm)，轨迹预测器T输出其对应的全局轨迹(T,R)，包括根部位移T = (τ 1, . . . , τ m)和旋转R = (γ 1, . . . ,γm)。为了解决全局轨迹中的任何潜在歧义，我们还使用CVAE制定了全局轨迹预测器：0Ψ = T(Θ, v), (3)0(T, R) = EgoToGlobal(Ψ), (4)0其中全局轨迹预测器T对应于CVAE解码器，v是CVAE的潜在编码。在公式(3)中，全局轨迹预测器T的直接输出是一个自我中心的轨迹Ψ = (ψ 1, . . . , ψ m)，0通过设计，可以使用转换函数EgoToGlobal将其转换为全局轨迹(T, R)。0自我中心轨迹表示。自我中心轨迹Ψ只是全局轨迹(T,R)的另一种表示形式。它将全局轨迹转换为相对局部差异，并以朝向坐标系（y轴与朝向对齐，即人的面向方向）表示旋转和平移。这样，自我中心轨迹表示对于长期轨迹的预测更合适，因为网络只需要输出每帧的局部轨迹变化，而不是潜在的大型全局轨迹偏移。全局轨迹到自我中心轨迹的转换由另一个函数给出：Ψ = GlobalToEgo(T,R)，它是函数EgoToGlobal的逆过程。特别地，时间t的自我中心轨迹ψ t = (δx t, δy t, z t, δφ t, η t)的计算如下：0(δx t, δy t) = ToHeading(τ xy t − τ xy t − 1), (5)0z t = τ z t, δφ t = γ φ t − γ φ t − 1, (6)0η t = ToHeading(γ t), (7)0其中τ xy t是位移τ t的xy分量，τ z t是位移τt的z分量（高度），γ φ t是旋转γt的朝向角，ToHeading是一个将平移或旋转转换为由朝向γφ t定义的朝向坐标的函数，η t是局部旋转。作为例外，(δx0, δy 0)和δφ 0用于存储初始的xy位移τ xy 0和朝向τ φ0。这些初始值在训练期间设置为GT，在推理期间设置为任意值（因为轨迹可以从任何位置和朝向开始）。方程(5)-(7)的逆过程定义了方程(4)中使用的逆转换EgoToGlobal，它累积自我中心轨迹以获得全局轨迹。在第3.3节中，为了纠正轨迹中的潜在漂移，我们将优化每个人的全局轨迹以匹配视频证据，这也解决了轨迹的起始点(δx 0, δy 0, δφ0)。有关自我中心轨迹的更多详细信息，请参见补充材料。�∥τ t − τ ′t∥22 + ∥γt ⊖ γ′t∥2a�+ LvKL ,(8)E({Ψi}Ni=1, C) = λ2DE2D + λtrajEtraj+ λregEreg + λcamEcam + λpenEpen ,(9)i=1 t=1qxit = Π�|Xit, Ct, K�,|Xit = J (qτ it, qγit, qθit, qβit)(11)(12)+1(14)110430m �0t =103.3. 全局优化0其中 τ ′ t 和 γ ′ t 表示真实的平移和旋转， � 计算相对旋转， ∥ ∙ ∥ a 计算旋转角度，而L v KL 是CVAE潜变量 v 的先验分布和后验分布之间的KL散度。我们再次使用AMASS [0运动 � Q i = ( � T i , � R i , � Θ i , � B i )代表视频中每个人的运动和形状。然而，全局轨迹预测器独立地为每个人生成轨迹，这可能与视频证据不一致。为了解决这个问题，我们提出了一个全局优化过程，同时优化所有人的全局轨迹和外部相机参数，以匹配视频证据，如二维关键点。全局优化的最终输出是：0我们使用生成式运动填充器和全局轨迹预测器后，我们得到0( q Θ i , q B i ) = ( � Θ i , � B i )，即我们直接使用前几个阶段的无遮挡身体运动和形状。0优化变量。我们优化的第一组变量是0的自我中心表示 { q Ψ i } N i =1 。0轨迹 { ( q T i , q R i ) } N i =1。我们采用自我中心的表示方式，因为它允许在一个帧中对平移和朝向进行修正，并将其传播到所有未来的帧。因此，它可以优化遮挡帧的轨迹，因为它们会影响到未来可见的帧。我们将在第4.2节中通过实验证明其有效性。第二组优化变量是外部相机参数 C = ( C 1, . . . , C T ) ，其中 C t ∈ R 4 × 4 。0是视频的第 t 帧的相机外参矩阵。0能量函数。我们要最小化的能量函数定义如下：0其中我们使用了五个能量项及其对应的系数 λ 2D , λ traj , λ reg , λ cam , λ pen。第一个项 E 2D 衡量了优化后的三维关键点的二维投影 q x i t 与真实二维关键点 | X it ∈ R J × 3 之间的误差。0和估计的二维关键点 � x i t 来计算：0其中 V i t 是第 t 帧中人物 i 的可见性， Π是相机投影，具有外参 C t 和近似内参0K，并且|X i t是使用SMPL关节函数J计算的0从阶段I中优化的全局姿势q q i t = (qτ i t, qγ i t, qθ i t, qβi t) ∈ qQ i。第二项E traj衡量了0优化的全局轨迹(qT i, qR i)在相机中的视图-0估计器(例如KAMA[34])在阶段I中输出的相机坐标系和轨迹(� T i, � Ri)之间的差异：0E traj = 10N0t =1 V i t ∥ Γ(qγ i t, C t) � γ i t ∥ 2 a0+ w t ∥ Γ(qτ i t, C t) − τ it ∥ 2 2 ,0其中函数Γ(∙, C t)将全局旋转qγ i t或平移qτ i t转换为由Ct定义的相机坐标系，wt是平移项的加权因子。第三项Ereg使自我中心轨迹qΨ i保持接近轨迹预测器的输出�Ψ i：0E reg = 10N0T0wψ ◦ qψ i t − ψ i t 20其中◦表示逐元素乘积，wψ是自我中心轨迹中每个元素的加权向量。作为例外，我们不对每个人进行正则化。0第四项Ecam衡量了相机参数C的平滑性和相机的垂直性，这取决于人的初始xy位置和朝向(δqx i0，δqy i0，δqφ i0) � qψi0，因为它们需要从视频中推断出来。0E cam = 10t =1 � C y t ,Y �0T − 10T −10C γ t +1 � C γ t 2 a + C τ t +1 − Cτ t 2 2 ,0其中�∙, ∙�表示内积，Cy t是相机C t的+y向量，Y是全局向上方向。Cγ t和Cτ t表示相机C t的旋转和平移。最后一项E pen是基于有符号距离场(SDF)的人与人之间的穿透损失，采用自[37]。04. 实验0数据集。我们在实验中使用以下数据集：(1) AMASS[62]，这是一个包含11000多个人体动作的大型人体动作数据库。我们使用AMASS来训练和评估运动填充器和轨迹预测器。(2) 3DPW[93]，这是一个野外人体动作数据集，使用视频和可穿戴IMU传感器获取GT姿势，即使人体被遮挡。VEbal110440我们使用3DPW的测试集来评估我们的方法。(3) DynamicHuman3.6M是一个使用动态相机进行人体姿势估计的新基准，我们从Human3.6M数据集[32]创建了这个基准。我们通过将每一帧裁剪为一个小的视窗，围绕着人体进行振荡来模拟动态相机和遮挡(见图5)。更多细节请参见补充材料。0评估指标。我们使用以下指标进行评估：(1)G-MPJPE和G-PVE，它们扩展了平均每个关节位置误差(MPJPE)和每个顶点误差(PVE)，通过计算全局坐标中的误差。由于在我们的动态相机设置中，估计的全局轨迹的误差会随时间累积，因此我们遵循标准的开环重建评估(例如SLAM[87]和惯性测距[27])，使用滑动窗口(10秒)计算误差，并将根部平移和旋转与窗口开始时的GT对齐。(2)PA-MPJPE，用于评估估计的身体姿势的Procrustes对齐MPJPE。对于不可见的姿势，由于GT旁边可能有许多合理的姿势，我们遵循之前的工作[3,101]，为我们的概率方法计算多个样本中最佳的PA-MPJPE。(3)Accel，计算每个关节的平均加速度误差，通常用于测量估计运动中的抖动[45, 103]。(4) FID，是原始FrechetInceptionDistance的扩展，计算估计运动与GT之间的分布距离。FID是运动生成文献中评估生成运动质量的标准指标[31, 54, 55,90]。我们按照之前的工作[55]，使用fairmotion库[20]中设计良好的动力学运动特征提取器计算FID。04.1. GLAMR的评估0基准。由于没有先前的方法可以从动态相机中估计全局运动并解决长期遮挡，我们通过结合最先进的人体网格恢复方法（KAMA [34]或SPEC[47]）、运动填充方法和基于SLAM的相机估计（OpenSfM[70]）设计了各种基准。特别地，我们使用估计的相机参数将估计的运动从相机坐标转换到全局坐标。对于运动填充，我们使用（1）线性插值，（2）最后一个姿势，即复制最后一个可见姿势，和（3）最先进的基于CNN的运动填充方法ConvAE [42]。在DynamicHuman3.6M和3DPW上的结果分别总结在表1和表2中。我们只报告DynamicHuman3.6M上的G-MPJPE和G-PVE，因为它们需要准确的GT轨迹，而3DPW没有提供。显然，我们的方法GLAMR在几乎所有指标上都优于基准。特别是，GLAMR实现了显著较低的G-MPJPE和G-PVE，这表明它重建全局人体运动的能力很强。此外，GLAMR实现了明显更低的0方法（全部）G-MPJPE（全部）G-PVE（不可见）FID（不可见）PA-MPJPE（可见）PA-MPJPE（全部）加速度0KAMA [42] + 线性插值 1735.2 1744.1 30.2 74.8 47.4 8.0 KAMA [42] + 最后一个姿势 1318.1 1330.3 36.788.8 47.4 12.3 KAMA [42] + ConvAE [42] 1737.8 1748.9 28.9 77.4 56.9 7.5 SPEC [47] + 线性插值 2113.32119.5 29.7 78.7 55.7 14.2 SPEC [47] + 最后一个姿势 1782.5 1790.9 36.2 92.6 55.7 18.8 SPEC [47] +ConvAE [42] 2113.3 2119.0 28.5 80.1 59.9 11.90我们的（GLAMR w/ SPEC）899.1 913.7 8.2 72.8 55.0 6.6 我们的（GLAMR w/ KAMA）806.2 824.1 11.467.7 47.6 6.00表1. DynamicHuman3.6M上的基准比较。我们报告可见、不可见（遮挡）和所有帧的结果。0方法（不可见）FID（不可见）PA-MPJPE（可见）PA-MPJPE（全部）加速度0KAMA [42] + 线性插值 30.7 87.5 50.8 24.2 KAMA [42] + 最后一个姿势 40.3 96.3 50.825.4 KAMA [42] + ConvAE [42] 32.0 84.5 56.4 19.6 SPEC [47] + 线性插值 33.6 85.653.3 33.1 SPEC [47] + 最后一个姿势 39.5 92.4 53.3 34.2 SPEC [47] + ConvAE [42] 35.486.9 59.3 24.00我们的（GLAMR w/ SPEC）24.8 79.1 54.9 9.5 我们的（GLAMR w/ KAMA）22.6 73.651.1 8.90表2.3DPW上的基准比较。由于3DPW没有提供准确的GT全局人体轨迹，因此不报告G-MPJPE和G-PVE。另请参阅表1的标题。0对遮挡（不可见）姿势的FID和PA-MPJPE（使用十个样本）。较低的FID意味着GLAMR可以填充更接近人类动作的运动，较低的PA-MPJPE也显示GLAMR的概率运动样本可以更好地覆盖GT。最后，虽然GLAMR对于可见姿势几乎达到了最佳方法的PA-MPJPE，但它产生了更平滑的运动（加速度误差更小）。这是因为我们的运动填充器利用了从大型运动数据集中学习到的人体动力学来生成运动。0定性结果。图4和图5显示了GLAMR与强基准KAMA +线性插值的定性比较。此外，我们在项目页面上提供了丰富的定性结果。04.2. 关键组件的评估0运动填充器基准评估。我们在AMASS数据集[62]的测试集上评估了提出的生成式运动填充器。我们与三个运动填充基准进行比较：线性插值、复制最后一个姿势和ConvAE[42]。如表3所示，我们的生成式运动填充器在采样的运动（使用五个样本）和填充帧的重建运动方面都取得了显著更好的PA-MPJPE。我们的方法还实现了更好的FID，将ConvAE[42]的FID减少了一半，这表明我们的方法填充的运动更接近真实的人体运动。0轨迹预测器的基准测试。我们还对AMASS测试集上的全局轨迹预测器进行评估：（1）“Transformer”，它用Transformer替换了轨迹预测器中的LSTM；（2）“我们没有自我轨迹”，它不使用自我中心轨迹，而是直接输出6自由度的轨迹偏移量。SS.M.110450输入视频0GLAMR（我们的方法）0KAMA +线性插值0t=10 t=15 t=20 t=65 t=70 t=75 . . . 左髋关节0右髋关节0关节角度0帧0关节角度0图4.GLAMR与强基准在3DPW上的定性比较。GLAMR的填充动作（透明）更加自然，特别是腿部，而基准由于在一个较大的窗口（帧10到75）中进行插值，腿部动作非常缓慢。在右侧，我们绘制了GLAMR和基准的左右髋关节的x轴关节角度随时间的变化。0输入视频0GLAMR（我们的方法）0KAMA +线性插值0t=10 t=18 t=26 t=34 t=42 t=500图5. GLAMR在DynamicHuman3.6M上的定性比较。GLAMR可以为不可见帧生成自然的手部动作，而不仅仅是线性插值。0全局轨迹。如表4所示，这两个变体导致全局轨迹预测变差（最佳五个G-MPJPE和G-PVE更高）。我们认为原因是：（1）Transformer中的位置编码可能不如我们方法中的LSTM对较长的动作泛化得好；（2）直接预测6自由度的全局轨迹偏移量而不是根据局部身体动作预测自我中心轨迹也很难泛化，因为全局偏移量可能很大。0全局优化的消融研究。我们进一步对我们的全局优化中的关键组件进行消融研究。具体来说，我们设计了两个变体：（1）“我们没有轨迹预测器”，它不使用我们的轨迹预测器生成全局人体轨迹，并使用OpenSfM [ 70]的相机参数来获取全局轨迹；（2）“我们没有优化自我轨迹”，它不使用自我中心轨迹表示，而是直接优化6自由度的根轨迹。如表5所示，这两个变体导致全局轨迹重建明显恶化，G-MPJPE、G-PVE和加速度大幅增加。这表明全局轨迹预测器和自我中心轨迹表示对我们的方法至关重要。0方法（采样）PA-MPJPE（重建）PA-MPJPE（采样）FID0线性插值 83.5 83.5 35.3 最后姿势 104.4 104.4 41.6 ConvAE [ 42] 72.8 72.8 31.4 我们 61.4 36.1 16.70表3. 在AMASS上对运动填充器进行基准测试。0方法 G-MPJPE G-PVE 加速度0Transformer 660.1 678.6 121.9 我们没有自我轨迹 763.0780.6 8.7 我们 466.9 472.5 5.80表4. 在AMASS上对轨迹预测器进行基准测试。0方法 G-MPJPE G-PVE 加速度0我们没有轨迹预测器 1750.8 1761.4 12.6我们没有优化自我轨迹 877.3 895.0 15.5 我们（GLAMR）806.2 824.1 6.00表5. Dynamic Human3.6M上的全局优化消融研究。05. 讨论和限制0在本文中，我们提出了一种从动态相机拍摄的视频中以一致的全局坐标恢复3D人体网格的方法。我们首先提出了一种基于Transformer的生成式运动填充器，以解决动态相机常见的严重遮挡问题。为了解决全局人体运动和相机姿态的关节重建的歧义性，我们提出了一种新的解决方案，通过从局部身体运动预测全局人体轨迹。最后，我们提出了一种全局优化框架来优化预测的轨迹，这些轨迹作为相机优化的锚点。我们的方法在具有挑战性的数据集上取得了SOTA结果，并在全局人体网格恢复方面迈出了重要的一步。作为这个新问题的第一篇论文，我们的方法有一些局限性：多个阶段中的误差传播、有限的身体形状估计、非实时性、不包括场景信息等。详细的讨论请参见补充材料。我们相信这些限制是未来研究的有趣方向。110460参考文献0[1] Ijaz Akhter和Michael J.Black。姿势条件下的关节角度限制用于3D人体姿势重建。在CVPR，2015年。20[2] Emre Aksan，Manuel Kaufmann和OtmarHilliges。结构化预测有助于3D人体运动建模。在

下载后可阅读完整内容，剩余1页未读，立即下载