VIBE：基于对抗性学习的准确人体姿态估计

158 浏览量更新于2023-10-23 收藏 4.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SOTA方法VIBEVIBE：用于人体姿态和形状估计的1，2，1，3，1，4，1，5，1，6，1，7. 黑11德国图宾根马克斯·普朗克智能系统研究所2马克斯·普朗克ETH学习系统{mkocabas，nathanasiou，black}@ tue.mpg.de图1：鉴于具有挑战性的野外视频，最近最先进的视频姿势估计方法[30]（顶部）无法产生准确的3D身体姿势。为了解决这个问题，我们利用一个大规模的运动捕捉数据集来训练一个运动鉴别器使用对抗的方法。我们的模型（VIBE）（下图）能够产生真实和准确的姿势和形状，超过了以前在标准基准测试上的工作。摘要人体运动是理解人体运动的基础。尽管在单图像3D姿态和形状估计方面取得了进展，但由于缺乏用于训练的地面真实3D运动数据，为了解决这个问题，我们提出了我们的主要新颖性是一个对抗性学习框架，它利用AMASS来区分真实的人体运动和我们的时间姿态和形状回归网络产生的运动。我们定义了一种新的具有自注意机制的时间网络架构并表明，对抗训练，在序列水平上，产生运动学上合理的运动序列，在野外地面真实的3D标签。我们进行了大量的实验来分析运动的重要性，并证明了VIBE在具有挑战性的3D姿态估计数据集上的有效性，实现了最先进的性能。代码和预训练模型可在https://github.com/mkocabas/VIBE获得1. 介绍在从单个图像估计3D人体姿势和形状方面已经取得了巨大的进展[11，21，25，29，35、36、38、45、48]。虽然这对许多应用都很有用，但正是身体在世界上的运动告诉我们人类的行为。正如约翰逊所指出的那样[28]，52535254运动中的人体上的几个移动点光告诉我们行为。在这里，我们解决如何利用节奏信息，更准确地估计从单目视频的身体的3D运动。虽然这个问题已经得到了30多年的研究，我们可能会问，为什么可靠的方法仍然没有现成的。我们的见解是，由于训练数据不足，我们解决这个问题，在这里与一个新的时间神经网络和训练方法，并表明它显着提高了3D人体姿态估计从单目视频。用于视频姿态和形状估计的现有方法[30，53]通常不能产生如图1所示的准确预测。1（顶部）。这背后的一个主要原因是缺乏野外地面实况3D注释，即使对于单个图像，获得这些注释也是非常重要的。先前的工作[30，53]将室内3D数据集与具有2D地面实况或伪地面实况关键点注释的视频相结合。然而，这有几个限制：（1）室内3D数据集在对象数量、运动范围和图像复杂度方面受到限制;（2）标记有地面实况2D姿态的视频的量仍然不足以训练深度网络;以及（3）伪地面实况2D标签对于建模3D人体运动是不可靠的。为了解决这个问题，我们从金泽等人那里得到灵感。[29]他们使用对抗训练方法仅使用2D关键点和静态3D人体形状和姿势的未配对数据集来训练单图像姿势估计器。对于视频序列，已经存在具有2D关键点注释的野外视频。接下来的问题是如何以足够的质量获得逼真的3D人体运动，以进行对抗训练。为此，我们利用了名为AMASS [41]的大规模3D运动捕捉数据集，该数据集足够丰富，可以学习人们如何移动的模型。我们的方法学习从野外视频中估计3D身体形状姿势的序列，使得机器人无法区分估计的运动和AMASS数据集中的运动之间的差异。与[29]一样，我们也使用3D关键点。我们的方法的输出是SMPL身体模型格式[40]中的姿势和形状参数序列，这与AMASS和最近的文献一致。我们的方法了解人们如何出现在图像中的丰富性，并以AMASS为基础，以产生有效的人类运动。具体来说，我们通过训练基于序列的生成对抗网络（GAN）来利用两个不成对信息的来源[18]。在这里，给定一个人的视频，我们训练一个时间模型来预测每个帧的SMPL身体模型的参数，而一个运动模型试图区分真实序列和回归序列。通过这样做，鼓励回归器输出表示通过以下各项的合理运动的姿势：最小化对抗性训练损失，而判别器充当弱监督。运动建模隐式地学习使用地面实况运动捕获（mocap）数据来解释运动中的人体的静态、物理和我们称我们的方法为VIBE，它代表在训练过程中，VIBE将野外图像作为输入，并使用针对单图像身体姿势和形状估计[36]预训练的卷积神经网络（CNN）预测SMPL身体模型参数，然后使用[29]中使用的时间编码器和身体参数回归器。然后，运动跟踪器将预测的姿态与从AMASS数据集采样的姿态一起，并为每个序列输出真/假标签我们使用门控递归单元（GRU）[14]实现时间编码器和运动编码器，以捕获人体运动的运动识别器采用一种学习注意机制来放大不同帧的贡献。整个模型由对抗损失以及回归损失监督，以最小化预测关键点与地面实况关键点、姿态和形状参数之间的误差。在测试时，给定一个视频，我们使用预训练的CNN[36]和我们的时间模块来预测每个帧的姿势和形状该方法适用于任意长度的视频序列。我们在多个数据集上进行了广泛的实验，并优于所有最先进的方法;见图1（底部）的一个例子，VIBE的输出。重要的是，我们证明了我们的基于视频的方法在具有挑战性的3D姿态估计基准3DPW [61]和MPI-INF-3DHP [42]上始终优于单帧方法。这清楚地证明了在3D姿态估计中使用视频的好处。总之，本文的主要贡献是：首先，我们利用AMASS运动数据集进行VIBE的对抗训练。这鼓励回归器产生真实和准确的运动。其次，我们在运动估计中使用注意力机制来加权不同帧的贡献，并表明这改善了我们的结果。第三，我们量化比较不同的时间架构的三维人体运动估计。第四，我们在主要的3D姿态估计基准上取得了最先进的结果。代码和预训练模型可在https://github.com/mkocabas/VIBE上用于研究目的。2. 相关工作3D姿势和形状从一个单一的图像。参数化3D人体模型[4，40，47]被广泛用作人体姿势估计的输出目标，因为它们捕获了人体形状的统计数据并提供了可用于许多任务的3D网格。早期的工作探索5255图2：VIBE架构。VIBE使用与运动鉴别器一起训练的时间生成网络来估计视频序列中的每个帧的SMPL身体模型参数。鉴别器可以访问SMPL格式的大型人体运动语料库。“自上而下”回归方法、“自上而下”优化方法以及使用关键点和轮廓作为输入的这些方法是脆弱的，需要人工干预，或者不能很好地推广到野外的图像。Bogo等人[11]提出了SM-PLify，这是第一种端到端方法之一，它将SMPL模型拟合到CNN关键点检测器的输出[50]。Lassner等人[38]在拟合过程中使用轮廓和关键点。最近，深度神经网络被训练为直接从像素回归SMPL身体模型的参数[21，29，45，48，55，57]。由于缺乏野外3D地面实况标签，这些方法使用从2D关键点重投影损失获得的弱监督信号[29，55，57]，使用身体/部位分割作为中间表示[45，48]，或者在循环中使用人[38]。Kolotouros等人[36]通过在训练循环中使用SMPLify，以协作方式组合基于回归和基于优化的方法在训练的每个步骤中，深度网络[29]采用SM-PLify优化方法，将身体模型拟合到2D关节，产生用于监督网络的改进拟合。或者，已经提出了几种非参数体网格重建方法[37，51，59]。Varol等人[59]使用体素作为输出身体表示。Kolotouros等人[37]使用图形卷积网络直接回归模板体网格的顶点位置[33]。Saito等人[51]使用像素对齐的隐式函数预测身体形状，随后是网格重构步骤。尽管从单个图像中捕捉人体，但当应用于视频时，这些方法会产生抖动，不稳定的结果。3D姿势和形状视频。从视频中捕捉人体运动有着悠久的历史。在早期的工作中，Hogget al. [23]使简化的人体模型适合于行走的人的图像特征。早期的方法还利用PCA和GPLVM等方法从mocap数据中学习运动先验[46，58]，但这些方法仅限于简单的运动。最近的许多深度学习方法一种两阶段的方法，将现成的2D关键点“提升”到3D关节位置。相比之下，Mehtaet al. [43，44]采用端到端方法直接回归3D关节位置。尽管在Human3.6M [26]等室内数据集上表现令人印象深刻，但它们在3DPW [61]和MPI-INF-3DHP [42]等野外数据集上表现不佳。最近的几种方法通过随时间扩展SMPLify来从视频中恢复SMPL姿势和形状参数，以计算一致的身体形状和平滑运动[6 ， 25]。特别地，Arnabet al. [6] 表明，使用SMPLify版本注释的互联网视频在用于微调时有助于改进HMRKanazawa等人[30]通过预测过去和未来帧来学习人体运动学1.他们还表明，使用2D关键点检测器注释的互联网视频可以减轻对野外3D姿势标签的需求。Sun等人[53]建议使用基于变换器的时间模型[60]来进一步改进性能。他们提出了一种无监督的对抗训练策略，可以学习对洗牌帧进行排序。用于序列建模的GAN。生成式对抗网络GAN [5，18，27，39]具有显著的不能影响图像建模和合成。最近的工作已经将GAN纳入到循环架构对序列到序列任务进行建模，如机器翻译[54，62，63]。运动建模的研究表明，结合顺序架构和对抗训练可用于基于先前的运动序列预测未来的运动序列[9，20]或生成人类运动序列[2]。相比之下，我们专注于以序列输入数据为条件的逆向改进预测姿势遵循该方向，我们采用了一种运动编码器，该运动编码器使用递归架构和对抗目标对潜在空间中的姿态和形状参数进行编码，从而利用3D mocap数据[41]。3. 方法VIBE的总体框架总结在图中。二、给定输入视频V={It}T长T，一个sin，从视频中估计人类姿势[15，24，43，49，44]t=1仅在关节部位使用几种方法[15，24，49]使用1注意，它们将随时间变化的运动学称为动力学。CNNGRU运动鉴别器积累Motion Capture现实运动？Generator（）5256作为一个人，我们使用预训练的CNN提取每个帧的特征。我们训练了一个由双向门控递归单元（GRU）组成的时间编码器，其中每一项计算为：ΣT包含从过去和未来帧合并的信息的潜在变量。然后，这些特征用于在每个时刻回归SMPL身体模型的参数。SMPL通过Θ表示身体姿势和形状，L3D=L2D=t=1ΣTt=1<$Xt−X<$t <$2，xt−xΣT由姿态和形状参数θ∈R72组成，L=β−β+θ−θβ∈R10。姿态参数包括整体旋转和23个关节的相对旋转SMPL2t t2t=1轴角格式。形状参数是PCA形状空间的前10个系数;在这里，我们使用性别中立的形状模型在以前的工作[29，36]给定这些参数，SMPL模型是一个可微函数，作用，M（θ，β）∈R6890×3，输出一个有一定姿态的三维网格。在视频序列中，VIBE计算其中Ladv是下面解释的对抗性损失。为了计算2D关键点损失，我们需要SMPL3D关节位置X_（Θ）=W_M（θ，β），其是从具有预训练线性表示的身体顶点计算的gressor，W. 我们使用弱透视相机模型具有尺度和平移参数[s，t]，t∈R2.与ˆ ˆ ˆ ˆ=我们计算3D关节X的2D投影，如[（θ1，···，θT），β]，其中θt是时间上的姿态参数步骤t和βt是序列的单个体型预测具体地，对于每个帧，我们预测身体形状参数。然后，我们应用平均池化来获得整个输入序列中的单个形状（β）。我们参考到目前为止描述的模型，时间生成器G. 然后，从G和来自AMASS的样本输出ΘΘreal，被赋予一个运动矢量，DM，以便区分假的和真实的例子。3.1. 时间编码器使用循环架构背后的直觉是未来帧可以受益于过去的视频姿态信息。当人的姿势不明确或身体在给定帧中被部分遮挡时，这是有用的。在这里，过去的信息可以帮助解决和约束姿态估计。时间编码器充当生成器，给定帧序列I1，. - 是的- 是的，IT，输出每个帧中的对应姿态和形状参数。T帧序列被馈送到卷积网络f，其函数为：作为特征提取器，并输出向量fi∈R2048对于每个帧f（11），. - 是的- 是的，f（IT）. 这些被发送到一个门控x<$∈Rj×2=s<$（RX<$（Θ））+t，其中R∈R3是全局旋转矩阵，<$表示正投影。3.2. 运动鉴别器[29]中使用的身体扭曲和重投影损失迫使生成器产生与2D关节位置对齐的可行的真实世界姿势。然而，单图像约束不足以说明姿势的序列。当运动的时间连续性不确定时，多个不准确的姿势可以被识别为有效的。被忽略了。为了缓解这一点，我们采用了一个运动判别器，DM，告诉是否产生的姿态是否符合现实的序列的输出，发电机作为多层GRU模型f图中所示的M。图3中示出的方法，其在每个时间步长i处估计潜在码hi，其中hi=fm（θ i）。为了聚集隐藏状态[hi，···，hT]，我们使用自我注意力[7]，如下所述。最后，一个线性层预测一个值∈[0，1]，表示θ∈属于流形的概率合理的人类动作。反向传播到G的对抗性损失项为：递归单元（GRU）层[14]，产生一个潜在的特征对于每个帧，g（f1），. . .，g（fT），基于Ladv =EθpG[（DM（θ）-1）2]（2）以前的框架。然后，我们使用gi作为T回归器如[29]中的迭代反馈。回归变量是初始的-DM的目标是：并将当前参数Θk与每次迭代中的特征gi一起作为输入LDM =EθpR[（DM（Θ）-1）2]+Eθp[DM （Θπ）2]（3）K.根据Kolotouroset al.[36]，我们使用6D连续旋转表示[65]而不是轴角。总的来说，所提出的时间编码器的损失由 2D（X）、3D（X）、姿态（θ）和形状（β）损失（当它们可用时）组成。这与对抗性DM损失相结合。具体来说，G的总损失为：LG=L3D+L2D+LSMPL+Ladv（1）G5257其中PR是来自AMASS数据集，而pG是生成的运动序列。由于DM是在地面实况姿势上训练的，它还学习了令人愉快的身体姿势配置，因此减轻了对单独的单帧训练的需要[29]。运动先验（MPoser）。除了DM，我们实验与运动先验模型，我们称之为MPoser。5258假的还是真的？我们比较我们的动态特征加权与静态池模式。具体地，对表示每个帧处的隐藏状态的特征hi进行平均和最大池化。然后，这两个表示r_avg和r_max被级联以构成用于D_m假/真判定的最终静态向量r3.3. 训练过程我们使用ResNet-50网络[22]作为在单帧姿态和形状估计任务 [29 ， 36] 上预训练的图像编码器，输出fi∈R2048。与[30]类似，我们预先计算每个帧50.我们使用T=16作为序列长度，小批量大小为32，这使得在单个Nvidia RTX2080ti GPU上训练我们的模型成为可能尽管我们使用T=[8，16，32，64，128]进行实验，但我们选择T=16，因为它产生最佳结果。对于时间编码器，我们使用隐藏大小为1024的2层GRU。SMPL回归器具有2个完全连接的层，具有1024个神经元每个层之后是输出Θ∈R85的最终层，图3：运动跟踪架构DM由GRU层和自我关注层组成。DM输出-为每个输入序列提供真/假概率它是变分身体姿势先验模型VPoser [47]对时间序列的扩展。我们在AMASS数据集上将MPoser训练为顺序VAE [32]，以学习合理人体运动的潜在表示。然后，我们使用MPoser作为正则化器来惩罚不可信的序列。MPoser编码器和解码器由GRU层组成，GRU层为每个时间步长i输出潜在向量zi∈ R32。当我们使用MPoser时，我们禁用DM并将先验损失LMPoser=z2添加到LG。自我注意机制。循环网络在顺序处理输入时更新其隐藏状态。因此，最终隐藏状态保存序列中信息的摘要。我们使用自注意机制[7，10]来放大最终表示中最重要帧的贡献，而不是使用最终隐藏状态ht或整个序列的隐藏状态特征空间的硬选择池。通过采用注意力机制，输入序列的表示r是隐藏状态的学习的卷积x组合权重ai由线性MLP层φ学习，然后使用softmax进行归一化以形成概率分布。形式上：设定姿势、形状和相机参数。的输出作为伪样本连同作为真实样本的地面真实运动序列一起作为输入被提供给DM运动控制器架构与到时间编码器。对于自我注意力，我们使用2个MLP层，每个1024个神经元和tanh激活来学习注意力权重。最后的线性层预测每个样本的单个假/真概率。我们还使用Adam优化器[31]，学习率为5×10- 5，1×10−4分别为G和DM最后，每个学期在损失函数中具有不同的加权系数。我们请读者参阅《苏Mat.以获取更多详细信息。4. 实验我们首先描述用于训练和评估的数据集。接下来，我们将我们的结果与以前的基于帧和基于视频的最先进的方法进行比较。我们还进行了烧蚀实验，以显示我们的贡献的效果最后，我们在图中给出了定性结果。4.第一章训练根据以前的工作[29，30，36]，我们使用了一批混合的2D和3D数据集。PennAction [64]和PoseTrack [3]是我们使用的唯一地面实况 2D 视频数据集，而InstaVariety [30]和Kinetics-400 [13]是使用2D关键点检测器注释的伪地面实况数据集[12，34]。对于3D注释，我们采用来自MPI-INF-3DHP [42]和Human3.6M[26]的3D关节标签。使用时，3DPW和Human3.6M提供SMPL参数，我们使用这些参数计算LSMPL。AMASS[41]用于对抗训练，以获得3D人体eφiφi=φ（hi），ai=Nt=1，r=eφtΣNi=1爱喜岛（四）议案我们还使用3DPW [61]训练集进行消融实验;这证明了我们的模型在野外数据上的优势。自我注意RGRUGRUGRUGRUGRUGRU52593DPWMPI-INF-3DHPH36M模型PA-MPJPE↓MPJPEPVE↓加速↓PA-MPJPE↓MPJPEPCK↑PA-MPJPE↓MPJPEKanazawa等人[29日]76.7130.0-37.489.8124.272.956.888Omran等人[45个]-------59.9-Pavlakos等人[48个]-------75.9-Kolotouros等人[37]第三十七届70.2------50.1-Arnab等人[6]美国72.2------54.377.8Kolotouros等人[36个]59.296.9116.429.867.5105.276.441.1-Kanazawa等人[30个]72.6116.5139.315.2---56.9-Doersch等人[16个]74.7--------Sun等人[五十三]69.5------42.459.1TeVIBE（直接压缩）56.593.5113.427.163.497.789.041.565.9VIBE51.982.999.123.464.696.689.341.465.6表1：3DPW、MPI-INF-3DHP和Human3.6M数据集上最新模型的评价。 VIBE（直接压缩）是我们提出的模型在类似于[30，53]的视频数据集上训练，而VIBE是用来自3DPW训练集的额外数据训练的。VIBE在具有挑战性的野外数据集（3DPW和MPI-INF-3DHP）上优于所有最先进的模型，包括SPIN [36]，并在Human3.6M上获得了相当的结果评价为了进行评价，我们使用3DPW [61]、MPI-INF-3DHP [42]和Human3.6M [26]。我们报告了有和没有3DPW训练的结果，以便与以前不使用3DPW进行训练的工作进行直接比较。我们报告了Procrustes对齐的平均每个关节位置误差（PA-MPJPE），平均每个关节位置误差（MPJPE），正确关键点的百分比（PCK）和每个顶点误差（PVE）。我们比较VIBE与最先进的单图像和时间的方法。对于3DPW，我们报告加速度误差（mm/s2），计算为地面实况和预测3D关节之间的加速度4.1. 与最新技术水平结果的表1将VIBE与先前最先进的基于帧的方法和时间方法进行了比较。VIBE（直接压缩）对应于我们使用与Temporal-HMR [30] 相同的数据集训练的模型，而VIBE也使用3DPW训练集。作为标准实践，以前的方法不使用3DPW，但是我们想证明使用3DPW进行训练可以提高我们模型的野外性能。我们在表1中的模型使用来自SPIN [36]的预训练HMR作为特征提取器。我们观察到，我们的方法改善了SPIN的结果，这是以前的最先进的。此外，VIBE在具有挑战性的野外3DPW和MPI-INF-3DHP数据集上的表现明显优于所有基于帧的方法和时间方法，同时在Human3.6M上获得与SPIN相当的结果。请注意，Human3.6M是一个室内数据集，具有有限数量的受试者和最小的背景变化，而3DPW和MPI-INF-3DHP包含在野外拍摄的视频。我们观察到MPJPE和PVE指标的显着改进，因为我们的模型鼓励时间姿势和形状一致性。这些结果验证了我们的假设，即人体运动的开发是重要的，以提高姿态和形状估计从视频。除了重建度量之外，例如，MPJPE，PA-MPJPE，我们还报告了加速误差（表1）。虽然与基于基线帧的方法[29，36]相比，我们实现了更平滑的结果，但时间HMR [30]产生了更平滑的预测。然而，我们注意到Temporal-HMR应用了积极的平滑，这导致具有快速运动或极端姿势的视频的准确性较差。在准确性和平滑性之间存在权衡。我们在VIBE和Temporal-HMR之间的定性比较中证明了这一发现。五、该图描绘了时间HMR如何在牺牲准确性的同时过度平滑姿态图中的另一种视角的可视化。4表明，我们的模型能够恢复正确的整体身体旋转，这是一个显着的问题，以前的方法。MPJPE和PVE错误的改进进一步定量地证明了这一点有关视频结果，请参阅GitHub页面。4.2. 消融实验表2显示了模型的性能，有和没有运动阻尼器，DM。首先，我们使用[29]提出的原始HMR模型作为特征提取器。一旦我们添加生成器G，我们就会获得比基于帧的模型稍差但更平滑的结果，因为缺乏足够的视频训练数据。在时间-HMR方法中也观察到这种效应[30]。使用DM有助于提高G的性能，同时产生更平滑的预测。当我们使用[36]中的预训练HMR时，我们观察到使用DM时比仅使用G时有类似的提升。我们还试验了MPoser作为一个强大的基线，姆波拉尔基于帧52603DPWDM- attention [2层，512节点]54.286.6DM- attention [2层，1024节点]51.982.9DM- attention [3层，512节点]53.685.3DM- attention [3层，1024节点]52.482.7表2：使用运动识别器DM的消融实验。我们使用HMR [29]和SPIN [36]作为预训练的特征提取器来实验几个模型，并添加我们的时间生成器G和DM。DM在所有基线上提供一致的改进DM.MPoser在损失函数中充当正则化器，以确保有效的姿势序列预测。尽管MPoser比仅使用G执行得更好，但比使用DM执行得更差。对此的一个直观解释是，尽管AMASS是最大的mocap数据集，但它无法涵盖了野外视频中所有可能发生的人体动作。由于KL发散项[56]导致的过度正则化，VAE无法捕获AMASS中表现不佳的真实运动。相比之下，GAN不会遇到这个问题[17]。注意，当在AMASS上训练时，MPoser在保持的测试集上给出4.5mm PVE，而基于帧的VPoser给出6.0mm PVE误差;因此对运动建模很重要。总体而言，表1中所示的结果表明，引入DM在所有情况下都改善了性能。尽管人们可能认为运动平滑度可能会强调运动平滑度而不是单个姿势的正确性，但我们的姿势实验只有，只有运动，这两个模块显示，运动的姿态是能够完善单一的姿态，同时产生平稳的运动。与静态池化（DM）相比，DM中的动态特征聚合显著改善了最终结果- concat），如表3所示。自注意机制使DM能够学习帧如何在时间上相关，而不是硬池化它们的特征。在大多数情况下，使用自我注意力会产生更好的结果。即使MLP隐藏大小为512，增加一层也优于静态聚合。注意力机制能够产生更好的结果，因为它可以学习通过对来自每个单独帧的特征进行加权来更好地表示运动序列。相比之下，平均和最大池的功能产生一个粗略的表示的序列，而不考虑每一帧的细节。自注意涉及学习每帧的系数，以在最终向量（r）中重新加权其贡献，从而产生更细粒度的输出。这验证了我们的直觉，即注意力有助于模拟时间的变化，表3：自我注意力的消融实验。我们的实验与几个自我注意力配置和比较我们的方法静态池的方法。我们报告了具有不同隐藏大小和MLP网络层数的3DPW数据集人体运动序列中的悬垂性。5. 结论虽然目前的3D人体姿势方法工作良好，但大多数方法都没有经过训练来估计视频中的人体运动。这种运动对于理解人类行为至关重要。在这里，我们探索几种将静态方法扩展到视频的新方法：（1）我们引入了随时间传播信息的循环架构;（2）介绍了利用AMASS数据集对运动序列进行区分训练的方法;（3）我们在训练器中引入了自我注意力，使其学会关注人体运动的重要时间结构;（4）我们还从AMASS中学习了一种新的运动先验（MPoser），并表明它也有助于训练，但不如训练器强大。我们仔细评估了我们在消融研究中的贡献，并展示了每个选择如何有助于我们在视频基准数据集上的最新性能。这为视频培训的价值提供了明确的证据。未来的工作应该探索使用视频通过微调HMR特征来监督单帧方法，检查密集运动线索（光流）是否可以帮助，使用运动来消除多人情况的歧义，以及利用运动来跟踪遮挡。此外，我们的目标是实验与其他注意力编码技术，如变压器，以更好地估计身体运动。鸣谢：我们感谢Joachim Tesch帮助Blender渲染。我们感谢所有感知系统部门成员的反馈和富有成效的讨论。这项研究得到了马克斯·普朗克ETH学习系统中心和马克斯·普朗克计算机与信息科学研究生中心的部分支持披露：MJB已经收到了来自英特尔，英伟达，Adobe，Facebook和亚马逊的研究礼物基金。虽然MJB是亚马逊的兼职员工，但他的研究完全在MPI进行，并完全由MPI资助MJB在亚马逊和Meshcapade GmbH拥有财务权益模型DM- concatPA-MPJPE↓ MPJPE↓53.785. 9PA-MPJPE ↓MPJPE ↓PVE↓Accel ↓Kanazawa等人[29日]73.6120.1142.734.3基线（仅G）75.8126.1147.528.3G+DM72.4116.7132.427.8Kolotouros等人[36个]60.1102.4129.229.2基线（仅G）56.990.2109.528.0G+ MPoser优先级54.187.0103.928.2G+DM（VIBE）51.982.999.123.45261替代视点替代视点替代视点图4：VIBE对挑战性野生序列的定性结果。对于每个视频，顶行显示一些裁剪的图像，中间行显示来自相机视图的预测的身体网格，并且底行显示来自替代视点的预测的网格。图5：VIBE（上）和Temporal-HMR [30]（下）之间的定性比较。这个具有挑战性的视频包含快速运动，极端姿态和自我遮挡。VIBE产生比Temporal HMR更精确的姿势。5262引用[1] Ankur Agarwal和Bill Triggs。从单目图像恢复3D人体IEEETransactiononPatternAnalysisandMachineIntelligence，2006。3[2] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构预测有助于三维人体运动建模。在2019年国际计算机视觉会议上。3[3] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议，2018年6月。5[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。Scape：人物的形状完成和动画。SIGGRAPH，2005年。2[5] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络2017年国际机器学习会议。3[6] Anurag Arnab，Carl Doersch，and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在IEEE计算机视觉和模式识别会议上，2019年。三、六[7] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上。四、五[8] Alexandru Balan和Michael J Black。赤裸裸的事实：在衣服下估计自己的体形.2008年欧洲计算机视觉会议。3[9] Emad Barsoum ， John Kender ， and Zicheng Liu. HP-GAN：通过GAN进行概率3D人体运动预测。在IEEE计算机视觉和模式识别会议上，2018年6月。3[10] Christine Baziotis ， Athanasiou Nikolaos ， AlexandraChronopoulou，AthanasiaKolovou，GeorgiosParaskevopou-los ， NikolaosEllinas ， ShrikanthNarayanan ， and Alexandros Potamianos.NTUA-SLP 在SemEval-2018任务1：使用深度专注RNN和迁移学习预测推文中的情感内容。国际语义评估研讨会论文集。计算语言学协会，2018年。5[11] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。第1、3条[12] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2D姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。5[13] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议上。5[14] Kyunghyun Cho，Bart van Merrienboer，aglar Glehre，Dzmitry Bahdanau，Fethi Bougares，Holger Schwenk，and Yoonge Bengio.学习短语表示使用RNN编码器-解码器，用于统计机器翻译。在EMNLP，2014年。二、四[15] Rishabh Dabral ，Anurag Mundhada， Uday Kusupati ，Safeer Afaque和Arjun Jain。从结构和运动中学习3D人体姿势。欧洲计算机视觉会议，2018。3[16] Carl Doersch和Andrew Zisserman。用于3D姿态估计的Sim2real迁移学习：请求救援在神经信息处理的进展，2019。6[17] Partha Ghosh，Mehdi S. M. Sajjadi，Antonio Vergari，MichaelBlack，andBernhardSch o？l k opf. 从可变到确定性自动编码器。在2020年国际学习代表会议上。7[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理进展，2014年。二、三[19] 克里斯汀·格劳曼，格雷戈里·沙赫纳洛维奇，和特雷弗·达雷尔.用基于统计图像的形状模型推断3D结构。2003年国际计算机视觉会议. 3[20] Guiang-Yan Gui，Yu-Xiong Wang，Xiaodan Liang，andJoseM. F.莫拉对抗性几何感知人体运动预测。2018年欧洲计算机视觉会议。3[21] Riza Alp Guler和Iasonas Kokkinos。HoloPose：野外整体3D人体重建。在IEEE计算机视觉和模式识别会议上，2019年6月。第1、3条[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。2016年欧洲计算机视觉会议。5[23] 大卫·霍格。基于模型的视觉：一个能看见会走路的人的节目。图像和视觉计算，1983年。3[24] Mir Rayat Imtiaz Hossain和James J Little。利用时间信息进行三维人体姿态估计。2018年欧洲计算机视觉会议。3[25] 黄英豪， Federica Bogo ， Christoph Lassner ， AngjooKanazawa ， Peter V. Gehler ， Javier Romero ， IjazAkhter，and Michael J.黑色.随着时间的推移，朝向准确的无标记人体形状和姿势估计。在3DVision国际会议上，2017年。第1、3条[26] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的 3D 人体感知在 IEEETransactiononPatternAnalysisandMachineInteligence，2014中。三五六[27] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。2017年在IEEE计算机视觉和模式识别会议上发表。3[28] 贡纳·约翰森生物运动的视觉感知及其分析模型。《知觉与心理物理学》，1973年。1[29] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上，2018。一、二、三、四、五、六、七5263[30] 作者：Jason Y.张，潘纳·费尔森，和吉滕德拉·马利克.从视频中学习3D人体动力学。在IEEE计算机视觉和模式识别会议上，2019年。一二三五六八[31] Diederik P. Kingma和Jimmy Ba。亚当：一种方法用于随机优化。在学习代表国际会议，2014。5[32] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。2014年，在学习代表国际会议上。5[33] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在2017年国际学习代表会议上3[34] Muhammed Kocabas 、 Salih Karagoz 和 Emre Akbas 。Mul-tiPoseNet：基于姿态残差网络的快速多人姿态估计。欧洲计算机视觉会议（ECCV），2018年。5[35] Muhammed Kocabas、Salih Karagoz和Emr

下载后可阅读完整内容，剩余1页未读，立即下载