多视角图像下的弱监督3D人体姿态学习

83 浏览量更新于2023-10-23 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15243基于多视角图像的弱监督3D人体姿态学习Umar Iqbal Pavlo Molchanov Jan KautzNVIDIA{uiqbal，pmolchanov，jkautz}@ nvidia.com摘要在野外进行单目3D人体姿态估计的一个主要挑战是获取包含用准确3D姿态注释的无约束图像在本文中，我们通过提出一种弱监督方法来解决这一挑战，该方法不需要3D注释，并学会从未标记的多视图数据中估计3D姿态，这些数据可以在野外环境中轻松获取。我们提出了一种新的端到端学习框架，该框架使用多视图一致性实现弱监督训练。由于多视图一致性容易退化的解决方案，我们采用了2.5D姿态表示，并提出了一种新的目标函数，只有当训练模型的预测在所有相机视图中是一致的和合理的时，该目标函数才能最小化。我们在两个大规模数据集（Human3.6M和MPII-INF-3DHP）上评估了我们提出的方法，其中它在半/弱监督方法中实现了最先进的性能1. 介绍学习从单个RGB图像估计3D身体姿势对于许多实际应用是非常感兴趣的。该领域的最先进方法[6，16，17，28，32，39-虽然这些方法的性能已经显著提高，但由于缺乏具有丰富多样性的训练数据，它们在野外环境中的适用性受到限制。常用的训练数据集，如Human3.6M [10]和MPII-INF-3DHP [22]，是使用复杂的多摄像头运动捕捉系统在受控的室内环境中收集的。虽然将这样的系统缩放到不受约束的户外环境是不实际的，但是手动注释难以获得并且易于出错。因此，当前的方法诉诸于现有的训练数据，并试图通过将额外的弱监督以各种2D注释的形式结合到野外图像中来提高训练模型的泛化能力[27，39，52]。虽然2D注释可以被容易地获得，然而，它们不能提供关于3D身体姿势的足够信息，尤其是因此，这些方法严重依赖于地面实况3D注释，特别是深度预测。在这项工作中，我们建议使用未标记的多视图数据进行训练，而不是使用3D注释。我们认为这个数据是没有外部相机校准。因此，它可以很容易地在任何野外环境中收集。与2D注释相比，使用多视图数据进行训练具有几个明显的优点，由于身体关节遮挡以及透视缩短或运动模糊而产生的模糊可以通过利用来自其它视图的信息来解决。只有少数作品[14，29，33，34]利用多视图数据来学习单目3D姿态估计模型。虽然方法[29，33]需要外部相机校准，[33，34]要求至少部分训练数据标记有地面实况3D姿态。然而，这两个要求都很难获得无约束的数据，因此，限制了这些方法的适用性，以控制室内设置。在[14]中，从多个相机视图获得的2D姿态用于生成用于训练的伪地面实况然而，该方法使用在训练期间保持固定的预先训练的姿态估计模型，这意味着2D姿态误差保持未解决并且可以传播到生成的伪地面实况。在这项工作中，我们提出了一个弱监督的方法，单目3D姿态估计，不需要任何3D姿态注释。对于训练，我们只使用未标记的多视图数据的集合和用2D姿势注释的图像的独立集合该方法的概述可以在图中看到1.一、给定RGB图像作为输入，我们训练网络来预测2.5D姿态表示[12]，从中可以以完全可区分的方式重建3D姿态给定未标记的多视图数据，我们使用多视图一致性损失，其强制从不同视图估计的3D姿态直到刚性变换都是然而，天真地强制多视图一致性可能导致退化的解决方案。因此，我们提出了一个新的目标函数，15244约束，使得仅当从所有相机视图正确预测3D姿态时才能最小化所提出的方法可以完全端到端的方式进行训练，它不需要外部相机校准，并且对未标记的多视图数据中的身体部分遮挡和截断具有鲁棒性。此外，它还可以通过在训练期间利用多视图一致性来改进我们在两个大规模数据集上评估了我们的方法，在这些数据集上，我们的方法大大优于现有的半/弱监督方法。我们还表明，我们提出的方法可以有效地利用MannequinChallenge数据集[18]，该数据集提供静态姿势的人的野外视频，以提高训练模型的通用性，特别是当训练和测试环境之间存在显著的领域差距时。2. 相关工作我们讨论了现有的方法，单目3D人体姿态估计不同程度的监督。全监督方法旨在学习从2D信息到3D的映射，给定2D-3D对应对作为监督。最近的方法在这方面-采用深度神经网络直接从图像中预测3D姿势[16，17，41，53]。然而，训练为此，[5，35，45]中的方法尝试使用合成图像来增强训练数据，然而，仍然需要真实数据来获得良好的性能。最近的方法试图通过将广告数据与弱监督相结合来提高性能，2D姿态注释[6，28，32，39，40，52]，布尔几何关系身体部位之间[27，31，37]，动作标签[20]和时间一致性[2]。训练[50]或测试[44]期间的连续损失也被用来提高在完全监督数据上训练的模型的性能。其它方法通过直接将2D姿态提升到3D而不使用任何图像信息来减轻对3D图像注释的需要，通过学习从2D关节到3D的回归网络[9，21，24]或通过使用2D投影作为查询在大型数据库中搜索最近的3D姿势[3，11，31]。由于这些方法不将图像信息用于3D姿态估计，因此它们易于发生重新投影模糊，并且还可能在2D和3D姿态之间具有差异。相比之下，在这项工作中，我们提出了一种方法，结合了这两种范式的好处，即，它从图像输入中估计3D姿态，因此可以处理重新投影模糊性，但不需要任何具有3D姿态注释的图像。半监督方法只需要一小部分带有3D注释的训练数据，其余部分不需要或只需要很弱的监督方法[33，34，51]假设相同2D姿势的多个视图可用，并使用多视图约束进行监督。在这一类别中与我们的方法最接近的是[34]，因为它也使用多视图一致性来监督姿势估计模型。然而，他们的方法是容易退化的解决方案，其解决方案的空间不能很容易地约束。因此，对带有3D注释的图像的要求是其方法不可避免的。相反，我们的方法是弱监督的。我们约束我们的方法的解决方案空间，使得3D姿势可以在没有任何3D注释的情况下学习。与[34]相比，我们的方法可以很容易地应用于野外场景，正如我们将在实验中展示的那样。方法[43，48]使用2D姿态注释和重新投影损失来提高使用合成数据预训练的模型的性能。在[19]中，通过使用时间信息改进其预测，然后将其用作后续步骤的监督，来迭代改进预训练模型[30]中的方法使用2D姿态序列作为输入来估计3D姿态，并使用在整个序列上累积的重投影损失进行监督。虽然所有这些方法都展示了令人印象深刻的结果，但它们的主要限制因素是需要地面实况3D数据。弱监督方法不需要成对的2D- 3D数据，并且仅使用运动捕获数据[42]、具有2D注释的图像/视频[25，47]、2D姿势的集合[4，7，46]或多视图图像[14，29]形式的弱监督。我们的方法也在于这种范式并学习从未标记的多视图数据中估计3D姿态。在[42]中，使用运动捕获数据学习的概率3D姿态模型被集成到多阶段2D姿态估计模型中，以迭代地改进2D和3D姿态预测。该方法[25]使用重投影损失来使用仅具有2D姿势注释的图像训练姿势估计模型。由于单独的重投影损失不足以进行训练，因此他们将问题分解为视点和形状参数的估计，并通过规范化损失提供归纳偏差。在精神上类似，方法[4，7，46]使用具有重新投影损失的2D姿势的集合进行训练，并使用对抗损失来区分合理和不合理的姿势。在[47]中，来自运动的非刚性结构用于从具有2D姿态注释的视频中学习3D姿态估计器。我们工作中最重要的是[14，29]的方法，因为它们也使用未标记的多视图数据进行训练。然而，[29]的方法需要校准的相机视图，这在无约束环境中非常难以获取该方法[14]从多视图图像估计2D姿态，并使用Epipo- lar几何重建相应的3D姿态。然后将重建的姿势用于15245带有2D姿势注释的样本仅损失未标记的多视图样本CNN潜深度图JJJ训练数据监督2Dsoftmax归一化元素乘法求和2.5D姿势回归重建的3D姿势对齐的3D姿势损失损失仅对多视图数据进行监督刚性对准图1.一种端到端的方法，用于学习没有3D注释的3D姿态估计模型对于训练，我们只使用未标记的多视图数据以及具有2D姿势注释的独立图像集合给定RGB图像，该模型被训练以生成2D热图H2D和潜在深度图Hz-为了简单起见仅针对I2示出。使用soft-argmax将2D热图转换为2D姿态坐标。相对深度值λzr是通过对以下各项的乘积进行通道求和而获得的：归一化的热图H<$2D和潜深图Hz。通过利用比例，以完全可区分的方式重构3D姿态规范化约束（Sec. 第3.1节）。具有2D姿态注释的图像用于热图损失L H。3D监督经由多视图一致性损失L MC来提供，该多视图一致性损失L MC强制从不同视图生成的3D姿态应该是相同的直到刚性变换。给定来自不同视图和相机本质的2D姿态估计，目标被设计为使得网络使其最小化的唯一方式是产生正确的相关深度值z_r（第二节）。 3.3）。我们还对每个预测的3D姿态强制骨骼长度损失L_B以进一步约束搜索空间。以完全监督的方式进行培训。该方法的主要缺点是3D姿态在整个训练过程中保持固定，并且3D重建中的误差直接传播到训练模型。如果在2D姿态估计可能容易失败的具有挑战性的室外环境中捕获多视图数据，则这尤其是有相比之下，在这项工作中，我们提出了一个端到端的学习框架，它对野外场景中它使用一种新的目标函数进行训练与[14]相比，我们的方法还可以使用未标记的多视图数据来改进2D预测。我们在两个具有挑战性的数据集上评估了我们的方法，在这些数据集上，我们的方法大大优于现有的半/弱监督学习方法。将[12]的方法应用于手部姿态估计，并将其推广到人体。这种2.5D姿态表示具有几个关键特征，使我们能够利用多视图信息并为弱监督训练设计损失函数。在下文中，我们首先回顾2.5D姿态表示（第二节）。3.1）和方法，以重建绝对三维姿态从它（第3.1节）。3.1.1）。然后，我们描述了一种完全监督的方法，使用卷积神经网络回归2.5D姿势（第2节）。3.2）其次是我们提出的方法弱监督训练在第二节。三点三所提出的方法的概述可以在图1中看到1.一、3.1. 2.5D姿势表示用于3D身体姿态估计的许多现有方法[27，39，40]采用2.5D姿态表示P2。5D={p2。5D =（uj，vj，zr）}j∈J其中uj和vj是2D3. 方法我们的目标是训练由权重θ参数化的卷积神经网络F（I，θ），给定RGB图像I作为输入，估计由J个身体关节相对于相机的3D位置pj=（xj，yj，zj）∈R3组成的3D身体姿势P ={pj}j∈J我们不假设任何具有成对2D-3D注释的训练数据，并使用未标记的多视图图像和具有2D姿态注释的独立图像集合以弱监督方式学习网络的参数θ为此，我们建立在2.5D姿态表示上，身体关节j在相机平面上的投影，并且z r=zroot− z j表示其相对于根关节的度量深度。这种将3D关节位置分解成它们的2D投影和相对深度的优点在于，来自仅具有2D姿态注释的野外图像的自适应监督可以用于训练模型的更好的泛化然而，这种表示不考虑图像中存在的尺度模糊性，这可能导致预测中的模糊性。然而，[12]的2.5D表示在3D姿势的尺度归一化方面与其他表示具体地，它们缩放标准化3D姿态P，使得空间可微分3D重建soft-argmax15246JJJJJCWSHgtMCBPgtgtgtgtroot j根j一对身体关节有一个单位距离：P=，（1）每个关节的相对尺度归一化深度值zr然后可以被获得为以下元素的总和H2D和潜在深度图Hz的明智乘法：S其中，s=pk−pl2是对每个z=J JΣH2DHz.（五）pose.对（k，l）对应于用于尺度归一化的关节的索引。由此产生的尺度正常-j j ju，v化的2.5D姿态表示p. 5D=（uj，vj，z<$r）是ag-给定2D姿态坐标{（uj，vj）}j∈J，相对对人的尺度有敏感的认识。这不仅使得更容易从裁剪的RGB图像中估计，而且还允许以完全可区分的方式重建人的绝对3D姿态，直到缩放因子，如深度zr={zr}j∈J和内部相机参数K，可以如第2节中所解释的那样重建3D姿态。3.1.1.在全监督（FS）设置中，可以使用以下损失函数训练网络：下一篇LFS=LH （H2D，H2D）+Lz（z<$r，z<$r），（6）3.1.1可微三维重建给出2.5D姿态P_2 。5D，我们需要找到深度zwhere H2D and zˆr 是地面实况2D热图，根以使用透视投影来重建身体关节的比例归一化的3D位置P1uj ujp=z<$K−1<$v<$=（z<$+z<$r）K−1<$v<$。（二）地面实况尺度归一化的相对深度值，活泼地我们使用均方误差作为损失函数LH（·）和Lz（·）。我们对原来的输注做一个修改学习预测的置信度得分。具体来说，与[12]相反，我们不会在一个la中学习2D热图去11号帐篷。相反，我们选择明确地监督2Dzrot的值可以通过标度法线计算化约束：通过Gaus的地面实况热图进行热图预测-在真实的关节位置上的正弦分布我们将依靠（xk−xl）+（yk−yl）+（zk−zl）=1，（3）在置信度分数上设计一个弱监督损失，该损失对2D姿态估计中的不确定性具有鲁棒性，如去这导致在[12]中导出的解析解。由于3D重建的所有操作都是可微的，因此我们可以设计直接对重建的3D姿态进行操作的损失函数。在本文的其余部分，我们将使用比例归一化的2.5D姿态表示。我们利用在下一节中列出。3.3.弱监督训练我们描述了我们提出的方法，用于在没有任何3D注释的情况下以弱监督的方式训练回归网络为了训练，我们假设一个集合M =颈部和骨盆关节，以计算比例因子s。{{In}c∈Cn }n∈N个样本，其中第n个样本为3.2. 2.5D姿势回归由于3D姿态可以从2.5D姿态解析重建为此，我们采用[12]的2.5D热图回归方法。具体地，给定RGB图像作为输入，网络产生2个J通道作为输出，其中J通道用于2D热图（H2D），而剩余的J通道用于2D热图（H2D）。在相同的身体姿势中的人的Cn个多视图图像可以使用多个相机同时拍摄，或者使用单个相机随着时间的推移呈现静态身体姿势我们不假设外部相机参数的知识此外，我们使用了一组独立的图像注释，仅与2D姿态，这是丰富的可用或可以注释的人，甚至在野生数据。对于训练，我们优化了以下弱监督（WS）损失函数：通道被视为潜在深度图Hz。所述2D热图通过以下方式转换为2D姿态坐标（u，v）L=L（H2D，H2D）+αL （M）+βL（L，μL），（7）J J首先使用空间s的tmax对它们进行归一化，即，H<$2D=22215247JJJJ其中LH是2D热图损失，LMC是多视图softmax（Hj ，λ），然后使用soft-argmaxopera-一致性损失，LB是肢体长度损失。问题：uJΣ=u，v∈Uu·H<$2D（u，v）;vΣ=u，v∈Uv·H<$2D（u，v），（4）回想一下，给定RGB图像，我们的目标是估计尺度归一化的2.5D姿态P_2 。5D={p2. 5D=（uj，vj，z<$r）}j∈J，从中我们可以重建尺度其中U是根据网络的有效步幅大小采样的2D网格，λ是控制归一化热图的温度的常数。归一化的3D姿态P_n，如在第12节中所解释的。 3.1.1.虽然LH提供了对2D姿态估计的监督，但是损失LMC监督相对深度分量（z_r）。的J152482GTC2Dj，cj，jCCC肢体长度损失LB进一步确保重建的3D姿态PB具有合理的肢体长度。在接下来的时间里，我们然而，我们假设它不可用，并使用预测的3D姿势和Procrustes分析来估计它，如下所示：详细解释这些损失函数热图损失（LH）测量2D′Σc= argminCRφj，cφj，c普什j，c-Rp j，c2002年。（十）预测的2D热图H和地面实况热图j∈J在真实关节位置处具有高斯分布的H2D 它只对标注了2D姿势的图像进行操作，并且对于所有其他图像都假定为零。多视图一致性损失（LMC）强制要求从不同视图获得的3D姿态估计在刚性变换之前应该相同。从形式上讲，鉴于一个多-视图训练样本M ={Ic}c∈C，具有C个相机视图，我们将多视图一致性损失定义为3D关节位置之间的差异的加权和，刚性对齐后的不同视图：在训练期间，我们遵循 [34] 并且不通过变换矩阵（10）的优化进行反向传播，因为它会导致由于奇异值分解而产生的数值不稳定性。请注意，LMC不仅影响深度估计，而且由于（3）中的zωt的计算而影响热图预测。因此，LMC还可以修复2D姿态估计中的误差，如我们将在实验中所示。肢体长度损失（LB）测量的是LMC= Σ′c，c∈CΣj∈J′φj，cφj，c′·d（p<$j，c，Rcp<$j，c′），（8）根据平均骨骼预测的3D姿势的肢体长度长度：Σc/=c′L2哪里LB=φjφj′（pj−pj′−µj，j′），（11）j，j′∈Eφj，c= H2D（uj，c，vj，c）和φj，c′= Hj，c′（uj，c′，vj、c′）其中，E对应于所使用的人体运动学结构，而μL′是尺度归一化的平均肢体是摄像机视图中第j个关节的置信度分数点Ic和Ic′，关于iv el y。pj，c和pj，c′是估计的第j个关节的关节对（j，j′）的长度。由于所有人的肢体长度在尺度归一化（1）之后将大致相同这种损失确保了预测的姿势具有合理的肢体′分别从Ic和Ic′Rc E ∈R3×4是长度在训练中，我们发现，一个刚性变换矩阵，最好地对齐两个3D姿态，并且d是用于测量对准姿态之间的差异的距离度量。在这项工作中，我们使用L1-范数作为距离度量d。为了更清楚地理解LMC的贡献，我们可以根据2.5D姿态表示来重写（8）中的距离项使用（2），即：′d（pj，c，Rcpj，c′）=损失导致更快的收敛。我们发现，如果多视图数据中的大量样本具有恒定的背景，则网络学习识别这些图像并开始预测这些图像的相同2D姿态和相对深度值。有趣的是，它预测了其他样本的正确值。为了防止这种情况，我们为这些样本引入了额外的正则化损失。具体来说，我们运行一个预训练的2D姿态估计模型，r−1uj,c布拉奇r−1uj，c′通过选择联合估计来d（（zroot，c+zj，c）Kcvj，c，Rc（z<$root，c′+z<$j，c′）Kc′1vj，c′1）的情况。（九）置信度得分大于阈值τ= 0。五、然后，这些伪地面实况被用于强制执行2D热图损失LH，这防止模型预测退化的解。我们生成伪让我们假设由于损失L H而准确地预测2D坐标（u j，c，v j，c）和（uj，c′，vj，c′），并且相机本征Kc和Kc′是已知的。为了简单起见，让我们也假设地面真值变换Rc′这两种观点之间的区别是已知的。那么，R′15249j，cj，cC网络最小化差d（.，- 是的）是预测相对深度zr的正确值和zr′。因此，损失LH和LMC的联合优化允许我们仅使用形式上的弱监督来学习正确的3D姿态。多视图图像和2D姿态注释。如果没有损失LH，该模型可能导致退化的解决方案。虽然在许多实际场景中，′矩阵Rc可以通过外部校准先验已知在训练开始时使用地面实况，并在整个过程中保持固定。具体而言，我们使用来自Human3.6M [10]和MPII-INF- 3DHP [22]的图像的正则化损失，这两个图像都是在受控的室内设置中记录的。虽然正则化可以减少LMC对2D姿势的影响，来自LMC的梯度仍将影响未被高置信度检测（见图1）。2）。4. 实验我们评估了我们提出的弱监督3D身体姿势学习方法，并将其与15250最先进的方法其他培训和实施细节可参见补充材料。4.1. 数据集我们使用两个大规模数据集Human3.6M [10]和MPII-INF-3DHP [22]进行评估。对于弱监督训练，我们还使用MannequinChallenge数据集[18]和MPII Human Pose数据集[1]。每个数据集的详细信息如下。Human3.6M（H36M）[10]提供了演员从四个视图执行各种动作我们遵循标准方案，使用五名受试者（S1、S5、S6、S7、S8）进行训练，并对两名受试者（S9和S11）进行测试。MPII-INF-3DH（3DHP）[22]提供了使用无标记运动捕捉系统获得的地面真实3D姿态。按照标准协议[22]，我们使用五个胸高相机进行训练。测试集由六个序列组成，演员执行各种活动。MannequinChallenge Dataset（MQC）[18]提供了人们在静态姿势下的野外视频，而手持摄像机则在场景周围平移。这些视频没有任何地面实况注释，但是，这些数据对于我们提出的使用多视图一致性的弱监督方法来说是该数据集由三个用于培训、验证和测试。在本文中，我们使用了来自[ 18 ]提出的训练和验证集的3300个视频，但在实践中，人们可以从 YouTube 下载大量这样的视频（#Mannequin- Challenge）。我们将在实验中证明，在训练期间，这些野外视频产生更好的泛化，特别是当在训练集和测试集之间存在显著的域间隙时。由于视频可以在每个帧内具有多个人，因此它们必须跨帧关联以获得所需的多视图数据。为此，我们采用[49]的基于姿态的跟踪方法，并从每个视频中生成人物轨迹。对于姿态估计，我们使用在MPII Pose数据集[1]上预训练的HRNet-w32 [38]模型为了避免在噪声数据上进行训练，我们丢弃了明显被遮挡或截断的人。我们通过丢弃具有置信度分数低于阈值τ=0的估计身体关节的一半以上的所有姿势来做到这一点。五、我们还丢弃颈部或骨盆关节置信度低于τ=0的姿势。因为两个接头对于使用（3）的Z轴重建都很重要最后，我们丢弃所有长度小于5帧的轨迹。这给了我们11,413个多视图轨迹，总共有241 k个图像tracklet的最小MPII姿态数据集（MPII）[1]为28k野外图像提供2D姿态注释。2D监督3D误差方法MV二维像素三维毫米FSH+M5.955.5WS +RH+M-H6.157.2WSH+M-H6.159.3仅二维M--8.9-WS +RM-H8.362.3WSM-H8.469.1WSM-我9.0106.2WSM-I+Q9.193.6WSM-H+I+Q8.467.4WS +RM-H+I+Q8.460.3表1. 消融研究：我们提供的结果时，不同层次的监督用于训练所提出的弱监督的方法。FS：完全监督，WS：弱监督，MV：多视图，H：H36M， M：MPII，I：3DHP，Q ：MQC。无3D显示-除FS外，所有实验均使用透视。4.2. 评估指标对于H36 M的评估，我们遵循标准原型，并使用MPJPE（平均每关节位置误差）、N-MPJPE（归一化MPJPE）和P-MPJPE（Procrustes对齐MPJPE）进行评估。MPJPE测量根部对齐后3D关节的地面实况和估计位置之间的平均欧几里得误差。虽然NMPJPE [34]也将预测的规模与地面事实相一致，但 PMPJPE 使用Procrustes分析来调整规模和旋转。对于3DHP数据集的评估，我们遵循[22]并报告PCK（正确关键点百分比）和标准化PCK，如[34]中所定义。PCK测量位于距离地面实况150 mm半径3DHP评价方案使用14个关节进行评价，不包括用于姿势对齐的骨盆关节。4.3. 消融研究选项卡. 1评估了不同层次的监督对培训的影响。我们使用H36M进行评估。我们从一个完全监督的集合（FS）开始，它使用来自H36M和MPII（2D=H+M）数据集的2D监督和来自H36M（3D=H）的3D姿势监督。在这种情况下不使用多视图（MV）数据。完全监督模型分别针对2D和3D姿态估计产生5.9px和55.5mm的MPJPE。然后，我们删除了3D监督，而是使用所提出的弱监督学习（WS+R）方法来训练网络。MV数据取自H36M（MV=H）。对于该实验，我们假设MV数据的2D姿态注释可用（2D=H+M）并且相机外参数R已知。该设置基本上类似于完全监督的情况，因为来自不同视图的2D姿态可以使用已知的R进行三角测量。火车-15251图2.使用MQC数据集的影响我们在从MQC数据集获取的轨迹上运行训练好的模型，并对齐估计的3D姿态使用（10）。由于MQC数据集中的人不移动，因此对齐的姿势应该非常相似。添加MQC数据集进行训练（右）与仅使用H36M（左）进行多视图一致性损失时相比，产生更一致的3D姿态估计。请注意，我们提出的方法还可以修复未标记的多视图数据中的2D姿态估计中的错误。然而，在这种设置下对网络进行检查，作为所提出的弱监督方法按预期工作的合理性检查如果R是未知的（WS）并且是使用（10）从估计的3D姿态获得的，则误差略微增加到59.3mm。所有上述设置都假设MV数据用2D姿态注释，这对于大量收集是不可行的。因此，我们设计了建议的方法，甚至没有2D注释MV数据。接下来，我们从MV数据中删除2D监督，仅使用MPII数据集进行2D监督（2D=M）。作为参考，我们还报告了在MPII数据集上训练的仅2D模型的误差，该模型产生的2D姿态误差为8.9px。对于具有和不具有地面实况R的MV数据，不具有2D姿态注释的训练分别产生62.3mm（WS+R）和69.1mm（WS）的误差，相比之下，当2D姿态注释可用时，误差为57.2mm和59.3mm。虽然使用地面实况R总是会产生更好的性能，但为了更容易适用，在本文的其余部分，我们假设它是未知的，除非另有说明还有趣的是，当使用多视图一致性损失（8）时，2D在2D姿态的改进的一些定性的例子可以在图中看到。二、我们还评估了训练数据记录在与测试数据不同的设置中的情况。为此，我们使用 3DHP 进行训练（MV=I）并在H36M上进行测试。由于3DHP的图像与H36M的图像有很大的不同，这导致了106.2mm的非常高的误差添加生成的MQC数据集（MV=I+Q）的训练数据显著地将误差减小到93.6mm，这证明了来自MQC的野外数据结合所有三个数据集（ MV=H+I+Q ）将误差进一步降低到67.4mm，而仅使用H36M数据集进行训练时的误差为69.1mm 我们还提供了当 H36M 和 3DHP 数据集（MV=H+I+Q）的地面真实值R已知（WS+R）时的结果，其显示出类似的行为并将误差从62.3mm减小到60.3mm。在我们的实验中，我们发现仅在MQC数据集上进行训练这可能是因为MQC数据集中的大多数视频从非常不同的视角捕获不到相同的图像，而H36M和3DHP等数据集提供了来自具有足够大基线的相机的图像。4.4. 与最新技术选项卡. 2比较了我们提出的方法与H36M数据集上最先进的方法的性能。我们将所有方法分为三类：全监督，半监督和弱监督，并比较我们的方法在每个类别下的性能。全监督方法使用H36M的完整训练集进行3D监督，而半监督方法仅使用一个主题（S1）的3D监督，并使用其他主题（S5，S6，S7，S9）进行弱监督。弱监督方法不使用任何3D监督。一些方法还在推断期间使用地面实况信息15252方法MPJPE↓ NMPJPE↓ PMPJPE↓方法MPJPENMPJPE ↓ PCK ↑NPCK ↑完全监督方法Rogez等人[36]（CVPR87.7-71.6Mehta等人[23日]--76.6-Habibie等人[8]（ICCV-65.7-Rohdin等人[34个]n/a101.5n/a78.8Rhodin等人[34]（CVPR66.863.351.6Kocabas等人[14]*109.0106.477.578.1Zhou等[52]（ICCV64.9--我们110.898.980.282.3Martinez等人[21]（ICCV62.9-47.7我们的 *99.297.283.083.3Sun等人[39]（ICCV59.6--Yang等[50]（CVPR58.6--半监督方法Rhodin等人[34个]n/a121.8n/a72.7Kocabas等人[14个]n/a119.9n/a73.5我们102.2 79.1 81.5弱监督方法RPavlakos等人[26]（ICCV110.797.674.5Kocabas等人 [14]*+ R126.8125.764.771.9Li等[19]（ICCV88.880.166.5我们的 *+R109.3107.279.580.0Rhodin等人[34]（CVPRKocabas等人[14]第19届中国国际纺织品展览会我们的-H+I+Q不适用60.2表3.与3DHP数据集上的最新技术进行比较62.8 59.6 51.4 *在推断期间使用根关节的地面实况3D位置。59.7 56.2 50.6从69.1mm到67.4mm。弱监督方法-无3D监督与最先进的方法[14]相比，表2. 与H36M数据集上的最新技术进行比较。*在推断期间使用根关键点的地面实况深度。[14，39，40].为了与这些进行公平的比较，我们还报告了在相同设置下的性能。重要的是要注意，许多方法，如[4，7，21，33，34，36，50]估计根相对3D姿态。另一方面，我们的方法估计绝对3D姿势。虽然我们的全监督基线（Ours-H-baseline）表现更好或与最先进的全监督方法相当，但我们提出的弱监督学习方法在半监督和弱监督类别下都明显优于其他方法。为了与其他方法进行公平的比较，我们在两种设置下报告了我们方法的结果：i）使用H36 M和MPII数据集进行训练（Ours-H），以及ii）使用来自3DHP和MQC 的多视图数据作为额外的弱超视（ Ours-H+I+Q）。在完全监督的情况下，使用额外的弱监督会略微提高每平方米（55.5 mm vs 56.1 mm），这并不奇怪在像H36M这样的数据集上，H36M严重偏向于室内数据，并且具有以相同背景记录的训练和测试图像。然而，我们的方法，特别是来自MQC的数据，是为野外泛化而设计的。然而，额外的多视图数据的重要性在半/弱监督设置中可以明显看出，它将误差从62.8mm降低到59.7mm，使用多视图信息进行弱监督，我们的方法表现得更好，即使两种方法的完全监督基线表现相似。这证明了我们的端到端训练方法的有效性虽然我们的弱监督方法的性能并不优于全监督方法，但它的性能与许多最近的全监督方法相当。选项卡. 3比较了我们提出的方法与最先进的3DHP数据集的性能。如上所述，我们使用我们的H +I+Q设置训练的模型。我们不使用来自3DHP数据集的任何3D姿态监督，而是使用用于H36M数据集评估的相同模型。我们提出的方法优于所有现有的方法，在所有三个类别下，这也证明了我们提出的方法的跨数据集的一般化的大利润率。补充材料中载有拟议办法的一些定性结果5. 结论我们已经提出了一种弱监督的方法，用于在野外进行3D人体姿态估计。我们提出的方法不需要任何3D注释，可以学习估计3D姿态从未标记的多视图数据。这是通过一个新的端到端学习框架和一个新的目标函数来实现的，该目标函数被优化以预测不同相机视图中一致的3D姿态所提出的我们在两个chal-challening数据集上展示了最先进的性能致谢：我们感谢Kihwan Kim和Adrian Spurr进行了有益的讨论。Kanazwa等人[13个国家]169.5-59.6-半监督方法-仅受试者-1用于训练Kolotouros等人。[第十五条]Ohdin等[33]（ECCV124.8122.4-110.166.876.5-79.4Pavlakos等人[29]（CVPR118.4--Kanzawa等人[13]（CVPR106.8-67.5Wandt等人[46]（CVPR89.9--Tome等人[42]（CVPR88.4--Kocabas等人[14]（CVPRn/a77.7570.67Chen等人[4]（CVPR--68.0Drover等人[7]（--64.6Kolotouros等人[15]（ICCV--62.0Wang等人[47]（ICCV83.0-57.5我们的-H69.166.355.9我们的-H+I+Q67.464.554.5Pavlakos等人[27]（CVPR56.2--Sun等人[40]（ECCV49.6-40.6Kocabas等人[14]（CVPR51.851.645.0我们的- H -基线55.551.441.5我们的 *- H -基线50.249.936.9我们的-H+I+Q56.152.745.915253引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。6[2] Anurag Arnab，Carl Doersch，and Andrew Zisserman.野外三维人体姿态估计的时间背景开发。在CVPR，2019年。2[3] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。2[4] Ching-Hang Chen，Ambrish Tyagi，Amit Agrawal，Dy-lan Drover，Rohith MV，Stefan Stojanov，and James M.瑞格具有几何自监督的无监督三维姿态估计在CVPR，2019年。二、八[5] W. Chen ， H.Wang ，Y.Li ，H. 苏， Z.Wang ， C.Tu ，D.Lischin- ski，D.Cohen-Or和B.尘合成训练影像以提升人体三维位姿估计。在3DV，2016年。2[6] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在ECCV，2018。 1、 2[7] 放大图片作者：Dylan Drover. V，Ching-Hang Chen，Amit Agrawal，Ambrish Tyagi，and Cong Jingoc Huynh.3d姿势可以从2d投影中学习吗？在ECCV工作-商店，2018年。二、八[8] Ikhsanul Habibie ， Weipeng Xu ， Dushyant Mehta ，Gerard Pons-Moll，and Christian Theobalt.在野生人类姿态估计使用显式的2d特征和中间的3d表示。在ICCV，2019年。8[9] 作者：Mir Rayat Imtiaz Hossain和James J.点利用时间资讯进行三维位姿估测。在ECCV，2018。2[10] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知TPAMI，36（7）：1325-1339，2014. 一、五、六[11] UmarIqbal ， AndreasDoering ， HashimYasin ， B joürnKrüger，Andreas Weber，and Juergen Gall.一种在单幅图像中进行三维人体姿态估计CVIU，2018年。2[12] Umar Iqbal，Pavlo Molchanov，Thomas Breuel，JuergenGall，and Jan Kautz.通过2.5D潜在热图回归的手部姿势估计。在ECCV，2018。一、三、四[13] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR，2018年。8[14] Muhammed Kocabas、Salih Karagoz和Emre Akbas。使用多视角几何学的 3d人体姿势的自监督学习。在CVPR，2019年。一二三八[15] Nikos Kolotouros ， Georgios Pav

下载后可阅读完整内容，剩余1页未读，立即下载