视频三维人体姿态估计方法中的时间卷积和半监督训练的效果

183 浏览量更新于2023-10-18 收藏 734KB PDF 举报

时间卷积

视频数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7753基于时间卷积和半监督训练的视频三维人体姿态估计达里奥·帕夫略（DarioPavllo）ChristophFeichtenhoferFacebook AI ResearchDavidGrangier为Google Brain工作Michael AuliFacebook AIResearch摘要在这项工作中，我们证明了视频中的3D姿态可以有效地估计与完全卷积模型的基础上，在2D关键点的扩张时间卷积我们还引入了反投影，一种简单有效的半监督训练方法，利用未标记的视频数据。我们从未标记视频的预测2D关键点开始，然后估计3D姿势，最后反向投影到输入的2D关键点。在监督设置中，我们的全卷积模型在Human3.6M上的平均每个关节位置误差为6 mm，超过了文献中先前的最佳结果，对应于11%的误差减少，并且该模型在HumanEva-I上也显示出显着的改进。此外，反投影实验表明，它舒适地优于以前的国家的最先进的结果，在半监督设置标记的数据是稀缺的。代码和模型可在https://github.com/facebookresearch/VideoPose 3D上获得1. 介绍我们的工作主要集中在视频中的三维人体姿态估计我们建立在最先进的方法的方法上，该方法将问题表述为2D关键点检测，然后是3D姿态估计[41，52，34，50，10，40，58，33]。虽然拆分问题可以说降低了任务的难度，但它本质上是不明确的，因为多个3D姿势可以映射到相同的2D关键点。以前的工作通过使用递归神经网络对时间信息进行建模来解决这种模糊性[16，27]。另一方面，卷积网络在建模传统上由RNN领导的任务中的时间信息方面非常成功，例如神经机器翻译[11]，语言建模[7]，语音生成[57]和语音识别[6]。卷积模型可以并行处理多帧，这在递归网络中是不可能的在Facebook AI Research工作期间完成的工作图1：我们的时间卷积模型将2D关键点序列（底部）作为输入，并生成3D姿态估计作为输出（顶部）。我们采用扩张的时间卷积来捕获长期信息。在本文中，我们提出了一种完全卷积的架构，它在2D关键点上执行时间卷积，以实现视频中准确的3D姿态预测（见图1）。我们的方法与任何2D关键点检测器兼容，并且可以通过扩张卷积有效地处理大上下文。与依赖于RNN的方法相比[16，27]，它提供了更高的准确性，简单性以及效率，无论是在计算复杂度还是在计算复杂度方面。参数的数量（§3）。配备了一个高度准确和高效的架构，我们转向设置标记的训练数据是稀缺的，并引入了一个新的计划，利用未标记的视频数据进行半监督训练。低资源设置对于需要大量标记训练数据的神经网络模型来说尤其具有挑战性，并且收集用于3D人体姿势估计的标签需要昂贵的运动捕捉设置以及冗长的记录会话。我们的方法受到无监督机器翻译中的循环一致性的启发，其中往返翻译到中间语言并返回到原始语言应该接近恒等函数[46，26，9]。具体来说，我们用现成的2D关键点检测器预测未标记视频的2D关键点，预测3D姿势，然后将它们映射回2D空间（§4）。7754总之，本文提供了两个主要贡献。首先，我们提出了一个简单而有效的方法，在视频中的三维人体姿态估计的基础上，扩大的时间卷积的2D关键点轨迹。我们表明，我们的模型比基于RNN的模型更有效，在相同的精度水平，无论是在计算复杂性和模型参数的数量。其次，我们介绍了一种半监督的方法，利用未标记的视频，是有效的标记数据时，稀缺。与以前的半监督方法相比，我们只需要相机的内部参数，而不是地面实况2D注释或多视图图像与外部相机参数。与现有技术相比，我们的方法在监督和半监督设置中表现出先前最好的性能方法。我们的监督模型比其他模型表现得更好，即使这些exploit额外的标记数据进行训练。2. 相关工作在深度学习成功之前，大多数3D姿态估计方法都是基于特征工程的-关于骨骼和关节活动性的研究和假设[48，42，20，18]。使用卷积神经网络（CNN）的第一种神经方法通过直接从RGB图像估计3D姿态而无需中间监督来关注端到端的rebraction [28，53，51，41两步姿态估计。通过首先预测图像空间中的2D关节位置（关键点）（随后提升到3D），在2D姿态估计器的基础上构建了一系列新的3D姿态估计器[21，34，41，52，4，16]。这些这种方法的效果优于端到端方法，因为它们受益于中间监督。我们遵循这种方法。最近的研究表明，预测3D姿势在给定地面实况2D关键点的情况下相对简单，并且困难在于预测准确的2D姿势[34]。早期的方法[21，4]简单地在3D姿态确定所针对的2D关键点的大集合上对2D关键点的预测集合执行k-最近邻搜索。可用，然后简单地输出相应的3D姿态。一些方法利用图像特征和2D地面实况姿态两者[39，41，52，54]。或者，可以通过简单地预测其深度[60]从给定的一组2D关键点预测3D姿态。一些作品强制执行关于骨骼长度和投影一致性的先验知识与2D地面事实[2]。视频姿态估计。大多数以前的工作在一个单帧设置，但最近一直在努力利用时间信息，从视频产生更强大的预测，并对噪声不太敏感[53]从时空体积的HoG特征（定向梯度的直方图）推断3D姿态。LSTM已经被用于细化从单个物体预测的3D姿态。图像[30，24]。然而，最成功的方法是从2D关键点轨迹学习。我们的工作属于这一类。最近，已经提出了LSTM序列到序列学习模型，该模型将视频中的2D姿势序列编码为固定大小的向量，然后将其解码为3D姿势序列[16]。然而，输入和输出序列具有相同的长度，并且2D姿势的确定性变换是更自然的选择。我们的seq2seq模型的实验表明，输出姿态往往漂移在漫长的序列。[16]通过每5帧重新初始化编码器来解决这个问题，以时间一致性为代价。也有关于RNN方法的工作，该方法考虑了身体部位连接的先验[27]。半监督训练已经有多任务网络[3]的工作，用于联合2D和3D姿态估计[36，33，54]以及动作识别[33]。一些作品将为2D姿态估计学习的特征转移到3D任务[35]。未标记的多视图记录已用于3D姿态估计的预训练表示[45]，但这些记录并不容易获得在无人监督的环境中。[55]利用具有统一端到端架构的标记多视图记录。生成对抗网络（GAN）可以在只有2D注释可用的第二个数据集中区分现实姿态和不现实姿态[58]，从而提供了一种有用的正则化形式。[56]使用GAN从未配对的2D/3D数据集学习，并包括2D投影consideration项。类似地，[8]在将它们随机投影到2D之后辨别生成的3D姿势。[40]提出了一种基于顺序深度注释的弱监督方法，该方法利用了用深度比较增强的2D姿势数据集，例如，三维形状恢复。虽然本文和所讨论的相关工作集中在重建准确的3D姿态，但研究的平行线旨在从图像中恢复人的完整3D形状[1，23]。这些方法通常基于参数化的3D网格，并且对姿态精度的重要性较小。我们的工作。与[41，40]相比，我们不使用热图，而是使用检测到的关键点坐标来描述姿势。这允许在坐标时间序列上使用有效的1D卷积我们的方法还使计算的复杂性独立于关键点的空间分辨率。我们的模型可以用更少的参数达到高精度，并允许更快的训练和推理。与[34]提出的单帧基线和[16]提出的LSTM模型相比，我们通过在时间维度上执行1D卷积来利用时间信息，并且我们提出了几种优化，这些优化导致了更低的分辨率。7755图2：我们的全卷积3D姿态估计架构的实例输入由具有J=17个关节的243帧（B=4个块）的接收场的2D关键点组成卷积层是绿色的，其中2J，3dl，1024表示2·J个输入通道，大小为3的内核具有膨胀1，以及1024个输出通道。我们还在括号中示出了样本1帧预测的张量大小，其中（243，34）表示243帧和34通道。由于有效卷积，我们切片残差（左和右，对称）以匹配后续张量的形状操作错误。与[16]不同，我们学习了确定性映射而不是seq2seq模型。最后，与本节中提到的大多数两步模型（使用流行的堆叠沙漏网络[38]进行2D关键点检测）相反，我们表明Mask R-CNN [12]和级联金字塔网络（CPN）[5]检测对于3D人体姿势估计更鲁棒。3. 时间扩张卷积模型我们的模型是一个具有残余连接的完全卷积架构，它将一系列2D姿势作为输入，并通过时间卷积对其进行变换。卷积模型能够在批次和时间维度上并行化，而RNN不能随时间并行化。在卷积模型中，输出和输入之间的梯度路径具有固定的长度，而不考虑序列长度，这减轻了影响RNN的消失和爆炸梯度。卷积架构还提供了对时间接收场的精确控制，我们发现这有利于为3D姿态估计任务建模时间依赖性此外，我们采用扩张卷积[15]来建模长期依赖性，同时保持效率。具有扩张卷积的架构已经成功用于音频生成[57]，语义分割[59]和机器翻译[22]。输入层采用每个帧的J个关节的级联（x，y）坐标，并应用速度，卷积核大小为W和C的输出通道。接下来是BResNet风格的块，由跳过连接包围[13]。每个块首先执行具有内核大小W和膨胀因子D=WB的1D卷积，然后执行具有内核大小的卷积1. 卷积（除了最后一层）如下[17][18][19][1每个块增加的感受野exponentially由W的一个因素，而参数的数量滤波器超参数W和D，使得任何输出帧的感受野形成覆盖所有输入帧的树（见§1）。最后最后一层使用过去和未来的数据输出输入序列中所有帧的3D姿态的预测，以利用时间信息。为了评估实时场景，我们还尝试了因果卷积，即。卷积只能访问过去的帧。附录A.1说明了扩张卷积和因果卷积。卷积图像模型通常应用零填充以获得与输入一样多的输出。然而，早期的实验表明，当仅执行未填充卷积，同时用左右边界帧的副本填充输入序列时，结果更好（参见附录A.5，图9a）。图2示出了针对具有B=4个块的243帧的感受野大小的我们的架构的实例化对于卷积层，我们设置W= 3，C = 1024个输出通道，并且我们使用丢弃率p=0。二十五4. 半监督方法我们引入了一种半监督训练方法，以提高在标记的3D地面实况姿态数据的可用性有限的情况下的准确性。我们利用未标记的视频与现成的2D关键点检测器相结合，以扩展具有反向投影损失项的监督损失函数。我们解决了未标记数据的自动编码问题：编码器（姿态估计器）根据2D关节坐标执行3D姿态估计，并且解码器（投影层）将3D姿态投影回2D关节坐标。当来自解码器的2D关节坐标远离原始输入时，训练惩罚。图3表示我们的方法，该方法将我们的监督组件与作为正则化器的无监督组件相结合。这两个目标是优化的联合，与标记的数据占据一批的前半部分，和未标记的数据占据后半部分。对于标记的数据，我们使用地面真实3D姿势作为目标，并训练监督损失。未标记的数据用于实现自动编码器丢失，其中预测的3D姿态被投影回2D，然后检查是否存在3D姿态。与输入一致。弹道模型。由于透视投影，(241、1024）(235、1024）(235、1024）(217、1024）(217、1024）(163、1024）(163、1024）（1，1024）切片切片切片切片(243、34）（1，51）2J，3d1，1024BatchNorm1D ReLU辍学率0.251024、3d3、1024BatchNorm 1DReLU辍学率0.251024，1d1，1024BatchNorm1D ReLU辍学率0.251024、3d9、1024BatchNorm 1DReLU辍学率0.251024，1d1，1024BatchNorm 1DReLU辍学率0.251024、3d27、1024BatchNorm 1DReLU辍学率0.251024，1d1，1024BatchNorm 1DReLU辍学率0.251024、3d81、1024BatchNorm 1DReLU辍学率0.251024，1d1，1024BatchNorm1D ReLU辍学率0.251024，1d1，3J7756轨道模型WMPJPE损失姿态模型MPJPE损失3D姿态全球定位位置骨长度L2损失轨道模型姿态模型投影3D姿态标签2D姿势未标记的2D姿势全球定位位置2D MPJPE损失地面实况地面实况在自我监督中的重要作用，正如我们在§6.2中所展示的那样。讨论我们的方法只需要相机的内部参数，这是经常可用于商业凸轮-时代1该方法不依赖于任何特定的网络架构，并且可以应用于任何将2D关键点作为输入的3D姿态检测器在我们的实验中，我们使用§3中描述的架构来将2D姿势映射到3D。为了将3D姿态投影到2D，我们使用一个简单的投影层其考虑线性参数（焦距、主点）以及非线性透镜畸变系数（正切和径向）。我们发现Human3.6M中使用的相机的镜头失真对姿态估计度量的影响可以忽略不计，但我们仍然包括这些术语，因为它们总是提供真实相机投影的更准确图3：使用3D姿势模型进行半监督训练，该模型将可能预测的2D姿势序列作为输入。我们回归人的3D轨迹，并添加软约束以将未标记预测的平均骨长度与标记预测的平均骨长度相匹配。一切都是共同训练的。WMPJPE代表屏幕上的2D姿态取决于轨迹（即，人体根关节的全局位置）和3D姿态（所有关节相对于根关节的位置）。如果没有全局位置，主体将总是以固定比例重新投影在屏幕的中心。因此，我们还回归了人的3D轨迹，使得可以正确地执行到2D的反向投影。为此，我们优化了第二个网络，该网络在相机空间回归全局轨迹。在将姿势投影回2D之前，将后者添加到姿势这两个网络具有相同的架构，但不共享任何权重，因为我们观察到，当以多任务方式训练时，它们会相互产生负面影响。由于如果受试者远离相机，则回归精确的轨迹变得越来越困难，因此我们优化了轨迹的加权平均每关节位置误差（WMPJPE）损失函数：E=1f（x）−y（1）yz也就是说，我们使用相机空间中的地面实况深度（yz）的倒数来对每个样本进行加权。对于我们的目的，回归远对象的精确轨迹也是不必要的，因为对应的2D关键点倾向于集中在小区域周围。L2骨长度丢失。我们希望激励人们预测合理的3D姿势，而不仅仅是复制输入。为此，我们发现添加软约束以使未标记批次中的亚骨平均骨长度与标记批次的受试者的平均骨长度大致匹配是有效的（这个术语起作用5. 实验装置5.1. 数据集和评估我们对两个运动捕捉数据集进行了评估，即Hu-man3. 6 M [20，19]和HumanEva-I [47]。Human3.6M包含11个主题的360万个视频帧，其中7个带有3D姿势注释。每个受试者执行15个动作，使用四个同步摄像机以50 Hz记录。根据以前的工作[41，52，34，50，10，40，58，33]，我们采用了一个17关节的骨架，在五个子节点（S1，S5，S6，S7，S8）上训练，并在两个受试者（S9和S11）上测试。我们为所有动作训练一个模型。HumanEva-I是一个小得多的数据集，具有以60 Hz从三个相机视图记录的三个子帧。在[34，16]之后，我们通过为每个动作（单个动作- SA）。我们还报告了为所有动作（多动作我们采用了15个关节的骨架，并使用提供的训练/测试拆分。在我们的实验中，我们考虑三种评估方案：协议1是以毫米为单位的平均每关节位置误差（MPJPE），其是预测关节位置和地面实况之间的平均欧几里得距离联合立场和以下[29，53，61，34，41]。议定书2报告与地面实况对齐后的错误在平移，旋转和缩放（P-MPJPE）[34，50，10，40、58、16]。对于半监督实验，方案3将预测的姿态与仅在尺度（N-MPJPE）上的地面真实值对齐，遵循[455.2. 用于2D姿态估计的实现细节大多数先前的工作[34，60，52]从地面实况边界框中提取主题，然后应用堆叠沙漏检测器来预测地面实况边界框内的2D关键点位置[38]。我们的ap-1即使是低端设备通常也会将此信息嵌入到图像或视频的EXIF元数据中。7757方法（§3和§4）不依赖于任何特定的2D关键点检测器。因此，我们研究了几种不依赖于地面实况框的2D检测器，在野外使用我们的装置除了堆叠的沙漏检测器之外，我们还研究了具有ResNet-101-FPN [31]主干的Mask R-CNN[12]，使用其在Detectron中的参考实现，以及代表FPN扩展的级联金字塔网络（CPN）[5]CPN实现需要外部提供边界框（我们在这种情况下使用Mask R-CNN框对于Mask R-CNN和CPN，我们从COCO [32]上的预训练模型开始，并在Human3.6M的2D投影上微调检测器，因为COCO中的关键点与Human3.6M不同[20]。在我们的消融中，我们还尝试将我们的3D姿态估计器直接应用于预训练的2D COCO关键点，以估计3D人类3.6M的关节对于Mask R-CNN，我们采用了一个ResNet-101骨干，使用“拉伸1x”时间表训练2在Human3.6M上微调模型时，我们重新初始化关键点网络的最后一层，以及对热图进行回归以学习一组新关键点的deconv层。我们在4个GPU上训练，学习率逐步下降：1 e-3用于60 k次迭代，然后1 e-4用于10 k次迭代，1 e-5用于10 k次迭代。在推断时，我们在热图上应用softmax，并提取所得 2D 分布的预期值（ soft-argmax ）。这导致比硬argmax更平滑和更精确的预测[33]。对于CPN，我们使用分辨率为384×288的ResNet-50骨干网。为了进行微调，我们重新初始化最后的图层GlobalNet 和 RefineNet （卷积权重和批量归一化统计）。接下来，我们在一个GPU上训练32张图像的批次和逐步衰减的学习率：对于6 k次迭代为5e-5（初始值的1/10），然后对于4k次迭代为5e-6，最后对于2k次迭代为5e-7。我们在进行微调时保持批处理规范化的启用状态我们使用地面实况边界框进行训练，并使用微调的Mask R-CNN模型预测的边界框5.3. 3D姿态估计的实现细节为了与其他工作保持一致[34，29，53，61，34，41]，我们通过根据相机变换旋转和平移地面实况姿势，而不使用全局轨迹，在相机空间中训练和评估3D姿势（除了半监督设置，§4）。作为优化器，我们使用Amsgrad [43]并训练80时代对于Human3.6M，我们采用从η = 0开始的指数下降的学习率时间表。001，收缩因子α = 0。95个应用于每个时期。2https://github.com/facebookresearch/Detectron/blob/master/pcs/12_2017_baselines/e2e_keypoint_rcnn_R-101-FPN_s1x.yaml所有的时间模型，即。具有大于1的感受野的模型对姿态序列中的样本的相关性敏感（参见图1）。§3）。这会导致批量归一化的有偏统计，其中假设独立样本[17]。在初步实验中，我们发现，在训练期间指示大量相邻帧产生的结果比不利用时间信息的模型（其在批次中具有良好随机化的样本）更差我们通过从不同的视频片段中选择训练片段来减少训练样本中的相关性剪辑集大小设置为我们架构的感受野的宽度，以便模型预测每个训练剪辑的单个3D姿势。这对于推广很重要，我们在附录A.5中详细分析了它。我们可以通过用步幅卷积代替膨胀卷积来极大地优化这个单帧设置，其中步幅被设置为膨胀因子（参见Ap-定理A. 6）。这避免了计算从未使用过的状态，并且我们仅在训练期间应用此优化。在推理时，我们可以处理整个序列并重用其他3D帧的中间状态以实现更快的推理。这是可能的，因为我们的模型在时间维度上不使用任何形式的池为了避免在有效卷积中丢失帧，我们通过复制进行填充，但仅在序列的输入边界处进行填充（附录A.5，图9a显示了一个示例）。我们观察到，批量归一化的默认超参数导致测试误差的大波动（±1 mm）以及用于推断的运行估计值的波动。为了实现更稳定的运行统计，我们对批量归一化动量β使用了一个时间表：我们从β = 0开始。1，并指数衰减，使其达到β=0。001最后一个时代最后，我们在训练和测试时执行水平翻转增强我们在附录A.4中展示了这一点的影响。对于HumanEva，我们使用N=128，α=0。996，并使用27帧的感受野训练1000个时期。HumanEva中的一些帧因传感器丢失而损坏，我们将损坏的视频拆分为有效的连续块并将其视为独立视频。6. 结果6.1. 时间扩张卷积模型表1显示了我们的卷积模型的结果，其中B=4个块和两种评估协议的243个输入帧的感受野（§5）。该模型具有较低的平均误差比所有其他方法下的两个协议，并且不依赖于诸如许多其他方法的附加数据（+）。在方案1（表1a）下，我们的模型在平均值上优于先前的最佳结果[27] 6 mm，对应于11%的误差减少。值得注意的是，[27] 使用了地面实况框而我们的模型没有7758Dir. Disc.吃迎接电话照片 Pose Purch.坐SitD. 吸烟等待散步。 WalkT.AvgPavlakos等人[41]2017年 CVPR67.471.9 66.769.172.077.0 65.068.3 83.796.571.7 65.874.959.163.2 71.9Tekin等人[52]2017年 ICCV54.261.4 60.261.279.478.3 63.181.6 70.1 107.369.3 70.374.351.863.2 69.7Martinez等人[34] ICCV51.856.2 58.159.069.578.4 55.258.1 74.094.662.3 59.165.149.552.4 62.9Sun等人[50]第17届ICCV52.854.8 54.254.361.867.2 53.153.6 71.786.761.5 53.461.647.153.4 59.1Fang等人[10]第18届 AAAI50.154.3 57.057.166.673.3 53.455.7 72.888.660.3 57.762.747.550.6 60.4Pavlakos等人[40]第48.554.4 54.452.059.465.3 49.952.9 65.871.156.6 52.960.944.747.8 56.2Yang等[58]第58届中国51.558.9 50.457.062.165.4 49.852.7 69.285.257.4 58.443.660.147.7 58.6Luvizon等人[33]第18届中国国际汽车工业展览会（CVPR49.251.6 47.650.551.860.3 48.551.7 61.570.953.7 48.957.944.448.9 53.2[16]第18届欧洲理事会（ECCV48.450.7 57.255.263.172.6 53.051.7 66.180.959.0 57.362.446.649.6 58.3Lee等[27] ECCV40.249.2 47.852.650.175.0 50.243.0 55.873.954.1 55.658.243.343.3 52.8我们的，单帧47.150.6 49.051.853.661.4 49.447.4 59.367.452.4 49.555.339.542.7 51.8我们的，243帧，因果转换。（†）45.948.5 44.347.851.957.8 46.245.6 59.968.550.6 46.451.034.535.4 49.0我们的，243帧，全转换。（†）45.246.7 43.345.648.155.1 44.644.3 57.365.847.1 44.049.032.833.9 46.8我们的，243帧，全转换。（f）（f）45.147.4 42.046.049.156.7 44.544.4 57.266.147.5 44.849.232.634.0 47.1(a) 方案1：重建错误（MPJPE）。Dir. Disc.吃迎接电话照片Pose Purch。坐下吸烟等待散步。 WalkT.AvgMartinez等人[34] ICCV39.543.2 46.447.051.056.0 41.440.6 56.569.449.2 45.049.538.043.1 47.7Sun等人[50]第17届ICCV42.144.3 45.045.451.553.0 43.241.3 59.373.351.0 44.048.038.344.8 48.3Fang等人[10]第18届 AAAI38.241.7 43.744.948.555.3 40.238.2 54.564.447.2 44.347.336.741.7 45.7Pavlakos等人[40]第34.739.8 41.838.642.547.5 38.036.6 50.756.842.6 39.643.932.136.5 41.8Yang等[58]第58届中国26.930.9 36.339.943.947.4 28.829.4 36.958.441.5 30.529.542.532.2 37.7[16]第18届欧洲理事会（ECCV35.739.3 44.643.047.254.0 38.337.5 51.661.346.5 41.447.334.239.4 44.1我们的，单帧36.038.7 38.041.740.145.9 37.135.4 46.853.441.4 36.943.130.334.8 40.0我们的，243帧，因果转换。（†）35.137.7 36.138.838.544.7 35.434.7 46.753.939.6 35.439.427.328.6 38.1我们的，243帧，全转换。（†）34.136.1 34.437.236.442.2 34.433.6 45.052.537.4 33.837.825.627.3 36.5我们的，243帧，全转换。（f）（f）34.236.8 33.937.537.143.2 34.433.5 45.352.737.7 34.138.025.827.7 36.8(b) 方案2：与地面实况刚性对准后的重建误差（P-MPJPE）（如适用）。表1：Human3.6M上的重建误差。图例：⑴使用时间信息。（*）地面实况边界框。（+）额外数据[50，33]每64帧评估一次[16]为我们提供了正确的结果在最初公布的结果3.越低越好，最好用粗体，第二好用下划线。该模型显然利用了时间信息，因为与我们将所有卷积核的宽度设置为W=1的单帧基线相比，协议1的误差平均高出约5 mm。对于高动态动作，例如“Walk”（6.7 mm）和“Walk Together”（8.8 mm），间隙较大具有因果卷积的模型的性能大约是单帧基线和我们的模型之间的一半;因果卷积通过预测最右侧输入帧的3D姿态来实现在线处理。有趣的是，地面实况边界框与使用Mask R-CNN的预测边界框具有相似的性能，这表明预测在我们的单主题场景中几乎是图4显示了预测姿态的示例，包括预测的2D关键点，我们在补充材料（附录A.7）以及https://dariopavllo.github.io/VideoPose3D中提供了视频插图。3本文[16]的所有后续结果都是由我们使用其公共实现计算接下来，我们评估2D关键点检测器对最终结果的影响。表3报告了我们的模型的准确性，其中包括地面真实2D姿势，沙漏网络预测[34]（在MPII上预训练并在Human3.6M上微调），Detectron和CPN（在COCO上预训练并在Human3.6M上微调Mask R-CNN和CPN都比堆栈沙漏网络提供更好的性能这种改进可能是由于更高的热图分辨率，更强的特征组合（Mask R-CNN的特征金字塔网络 [31，44]和CPN的RefineNet），以及它们预训练的更多样化的数据集。COCO [32].当在2D地面真实姿势上训练时，我们的模型通过以下方式提高了[34]的下限：8.3 mm，以及Lee等人的基于LSTM的方法。[27]对于方案1为 1.2mm因此，我们的改进不仅仅是由于更好的2D检测器。绝对位置误差不测量预测随时间的平滑度，这对于视频很重要。为了评估这一点，我们测量关节速度误差（MPJVE），其对应于关节速度的一阶导数的MPJPE7759图4：两个视频的定性结果顶部：具有2D姿态覆盖的视频帧底部：3D重建。Dir. Disc.吃迎接电话照片姿势购买。坐下吸烟等待散步。WalkT.Avg单帧12.812.6 10.314.210.211.3 11.811.3 8.210.210.3 11.313.113.412.9 11.6时间3.03.12.23.42.32.72.73.1 2.12.92.32.43.73.12.82.8表2：由考虑时间和单帧基线的卷积模型生成的3D姿态上的速度误差方法P1P2方法P1P2我们的27f8.56M17.09M40.6Ours 81f12.75M25.48M38.7我们的243f16.95M33.87M37.8表3：在方案1（P1）和方案2（P2）下2D检测器对最终结果的影响图例：地面实况（GT）、堆叠沙漏（SH）、检测器（D）、级联金字塔网络（CPN）、预训练（PT）、微调（FT）。走慢跑框S1S2S3S1S2S3S1S2S3Pavlakos等人[41]（马）22.3 19.5 29.7 28.9 21.9 23.8–––Martinez等人[34]（南非）19.7 17.4 46.8 26.9 18.2 18.6–––Pavlakos等人[40]（+）（硕士）18.8 12.7 29.2 23.5 15.4 14.5–––Lee等[27]（马）18.6 19.9 30.5 25.7 16.8 17.7 42.8 48.1 53.4Ours（SA）14.5 10.5 47.3 21.9 13.4 13.9 24.3 34.9 32.1Ours（MA）13.9 10.2 46.6 20.9 13.1 13.8 23.8 33.7 32.0表4：方案2下单作用（SA）和多作用（MA）模型的HumanEva-I 错误。最好用粗体，其次是下划线。（+）使用额外的数据。S3的“Walk”上的高错误3D姿势序列。表2示出了我们的时间模型将单帧基线的MPJVE平均降低了76%，从而产生了非常平滑的姿势。表4示出了HumanEva-I的结果，并且我们的模型推广到较小的数据集;结果基于预训练的Mask R-CNN 2D检测。我们的模型超越了以前的最先进技术。最后，表5在复杂度方面比较了卷积模型与[16]的LSTM模型我们报告的表5：在地面实况2D姿态上训练的根据协议1的各种模型的计算复杂度。结果没有测试时间增加。模型参数的数量和浮点运算（FLOP）的估计值，以在推断时间预测一帧（详见附录A.2）。对于后者，我们只考虑矩阵乘法，并报告无限长的假设序列的摊销成本（忽略填充）。MPJPE结果基于在地面真实2D姿势上训练的模型，而没有测试时增强。我们的模型实现了显着降低的误差，即使计算的数量减半。我们的最大模型具有243帧的感受野，其复杂性与[16]大致相同，但误差低3.8 mm。该表还突出了扩张卷积的有效性，其仅相对于感受野对数地增加复杂性由于我们的模型是卷积的，因此它可以在序列数量和时间维度上并行化。这与RNN形成对比，RNN只能在不同的序列上并行化，因此对于小批量来说效率要低得多为了推断，我们在单个长序列上在单个NVIDIAGP100 GPU上测量了大约150k FPS，即，批量大小1，假设2D姿势已经可用。由于并行时间处理，速度在很大程度上独立于批量大小。模型参数≈浮点数MPJPE[16]第十六话16.96M33.88M41.6我们的27 f无扩张29.53M59.03M41.1Martinez等人[34]（GT）45.5 37.1 我们的（GT）37.2 27.2Martinez等人[34]（SHPT）67.5 52.5 我们的（SH PT来自[34]）58.6 45.0Martinez等人[34]（SHFT）62.9 47.7 我们的（SH FT来自[34]）53.4 40.1比利时（GT）[16]41.6 31.7 我们的（D PT）54.8 42.0Lee等[27]（GT）38.4– 我们的（D FT）51.6 40.377601851751651551451351251151059585756555450.1%S1491%S14965% S12.48k10%S14.97k50%S124.8kS149.7kS15129kS156179k所有312k非常小的子集，S1的1%和5%，我们使用3帧，并且我们对S1的0.1%使用单帧模型，其中只有49帧可用。我们只在标记数据上微调CPN，并通过只在la上迭代来预热训练几个时期的数据（≥S1的1个时期，较小子集的20个时期）。图5a显示，随着标记数据量的减少，我们的半监督方法变得更有效。对于小于5 K标记帧的设置，我们的方法实现了约9-10.4 mm N的改进。12511510595857565554535训练数据（下采样至10 FPS）(a) 根据协议3，下采样至10 FPS。MPJPE超过我们的监督基线。我们的监督基线比[45]强得多，并且远远优于他们所有的结果。虽然[45]在所有实验中使用单帧模型，但我们的发现仍然保持在S1的0.1%（我们也使用单帧模型）。图5b显示了我们的方法在更常见的协议1下针对数据集的非下采样版本（50 FPS）的结果。这种设置更适合我们的方法，因为它允许我们利用视频中的全部时间信息。在这里，我们使用27帧的感受野，除了在1%的S1中，我们使用9帧，和0.1%的S2中，我们使用27帧的感受野。0.1% S12451%S12.42k5% S112.4k10%S124.8k50%S1124kS1248kS15645kS156895k全部1.56MS1，其中我们使用一个帧。我们的半监督方法12511510595857565554535训练数据(b) 一号协议下的全帧速率在监督基线上的增益高达14.7 mm MPJPE。图5c将CPN 2D关键点切换为地面真实2D姿态，以测量我们是否可以使用更好的2D关键点检测器来更好地执行。在这种情况下，改进可以高达 22.6 mmMPJPE（S1的1%），这证实了更好的2D检测可以提高性能。同一图表显示，骨长度项对于预测有效姿势是至关重要的，因为它迫使模型考虑运动学约束（线删除这一项会大大降低半监督训练的效率：对于1%的S1，误差从78.1 mm增加到91.3 mm，0.1%S12451%S12.42k5% S112.4k10%S124.8k50%S1124kS1248KS15645kS156895k个所有1.56M100.7 mm为监督基线。训练数据(c) 全帧速率下协议1与地面实况2D构成。图5：顶部：与方案3上的[45]进行比较，使用数据集的下采样版本以保持一致性。中间：我们的方法下协议1（全帧速率）. 底部：我们在协议1下的方法，当在地面实况2D姿势（全帧速率）上训练时。小十字架（系列）表示骨长度项的消融。6.2. 半监督方法我们采用[45]的设置，将Human3.6M训练集的各个它们的设置通常也会将所有数据的采样率降低到10FPS（从50 FPS）。通过首先减少受试者的数量，然后通过对受试者1进行下采样来创建标记的子集由于数据集是下采样的，我们使用9帧的感受野，相当于45帧上采样。为7. 结论我们已经介绍了一个简单的全卷积模型，用于视频中的3D人体姿势估计我们的架构利用2D关键点轨迹上的膨胀卷积来开发时间信息。这项工作的第二个贡献是反向投影，这是一种半监督训练方法，可以在标记数据稀缺时提高性能。该方法适用于未标记的视频，只需要内在的相机参数，使其在运动捕捉具有挑战性的场景中变得实用（例如，户外运动）。我们的全卷积架构将流行的Human3.6M数据集上的最佳结果提高了6

下载后可阅读完整内容，剩余1页未读，立即下载