3D人体姿势估计的多视图一致半监督学习

186 浏览量更新于2023-10-23 收藏 12.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1690703D人体姿势估计的多视图一致半监督学习0Rahul Mitra �0IIT Bombay0rmitter@cse.iitb.ac.in0Nitesh B. Gundavarapu �0UC San Diego0nbgundav@ucsd.edu0Abhishek SharmaAxogyan AI0abhisharayiya@gmail.com0Arjun Jain IIScBangalore0arjunjain@iisc.ac.in0摘要0从单目图像中进行3D人体姿势估计的最佳方法需要大量的野外2D和受控3D姿势注释数据，这些数据是昂贵的并且需要复杂的系统来获取。为了减少对注释的依赖性，我们提出了一种多视图一致半监督学习（MCSS）框架，该框架利用未注释、未校准但同步的多视图人体运动视频中的姿势信息相似性作为额外的弱监督信号来指导3D人体姿势回归。我们的框架基于多视图视频中的时间关系进行硬负样本挖掘，得到一个多视图一致的姿势嵌入。当与有限的3D姿势注释一起进行联合训练时，我们的方法将基线性能提高了25％，将最先进的方法提高了8.7％，同时使用了更小的网络。最后但同样重要的是，我们在两个流行的公开多视图人体姿势数据集Human3.6M和MPI-INF-3DHP上展示了学习嵌入的优势，并建立了视角不变的姿势检索基准，以促进未来的研究。01. 引言0多年来，由于越来越复杂的CNN模型[55, 35, 46, 45, 30,49]，单目3D人体姿势估计的性能显著提高。对于训练，这些方法依赖于大规模的3D姿势注释数据的可用性，这在实际环境中获取是昂贵且具有挑战性的，特别是对于关节姿势的野外设置。两个最受欢迎的3D姿势注释数据集，Human3.6M [15]（3.6M个样本）和MPI-INF-3DHP[29]（1.3M个样本），在室内环境中具有均匀的背景和照明，因此在真实场景中不具有很好的泛化能力[8,55]。有限的训练数据或昂贵的注释会带来严重的问题。0� - 相等贡献0过去，半监督方法[10, 22, 24,14]已被广泛应用于利用大规模未标记数据集和小规模标记数据集来提高性能。半监督方法试图利用数据中的结构/不变性为训练生成额外的学习信号。与使用固定特征表示的经典机器学习模型不同，深度学习模型也可以在训练过程中从数据中学习适当的特征表示。这种独特的能力需要半监督方法从大规模未标记数据中鼓励更好的特征表示学习以实现泛化。直观上，利用与最终应用更相关的半监督训练信号更具吸引力。因此，鉴于计算机视觉任务的广泛多样性，创新新的半监督信号仍然是一个令人兴奋的研究领域。0为此，我们利用投影多视图一致性创建了一种基于度量学习的新型半监督框架，用于3D人体姿势估计。多视图一致性在计算机视觉领域已经有40多年的历史，产生了一些最常用的算法，如立体视觉[42]，运动结构[20]，动作捕捉[32]，同时定位和映射[4]等。从人体姿势估计的角度来看，人体的内在3D姿势在多个不同视图中保持不变。因此，一个深度CNN理想情况下应该能够将来自不同视角的对应于公共3D姿势的2D图像映射到嵌入空间中的附近点。直观上，这样的深度CNN正在学习对人体姿势的不同视图不变的特征表示。因此，我们认为它可以学习将来自不同视角的2D图像投影到R^N中的规范3D姿势空间。在图1b中，我们展示了来自Human3.6M数据集[15]的不同图像之间的一些嵌入距离，并通过一种新颖的跨视图姿势检索实验证明了上述假设。不幸的是，来自这样一个空间的嵌入向量x不能直接转换为69080因此，我们学习了另一个从嵌入到姿势空间的转换函数，并在训练过程中进行了小规模的3D姿势监督回归。由于嵌入在姿势监督和半监督度量学习之间共享，因此可以为3D姿势估计提供更好的泛化特征。我们将我们提出的框架命名为多视图一致半监督学习，简称MCSS。所提出的框架非常适合我们问题的实际需求，因为相对容易获得来自多个视点的实时同步人类现实世界视频流，而不是在野外设置捕获设备进行3D注释数据。另一种方法可能是在野外设置校准的多摄像头捕获设备，并使用来自2D姿势注释图像的三角测量来获得3D姿势。但是，它仍然需要手动注释的2D姿势或自动生成的2D姿势生成系统。在[19]中，使用预训练的2D姿势网络生成了伪3D姿势标签，用于训练3D姿势网络。另一种方法通过潜在嵌入[39]利用相对相机外参进行交叉视图图像生成。而我们，不假设这样的要求，以更实际的方式解决有限数据挑战。我们使用MCSS来改进有限3D监督下的3D姿势估计性能。在第5节中，我们展示了3D监督减少时的性能变化。第6节通过在Human3.6M和MPI-INF-3DHP上进行精心设计的跨视图姿势检索任务，展示了视图不变MCSS嵌入捕捉人体姿势结构的丰富性，为未来研究在这个方向上提供了一个基准。总结我们的贡献，我们0•提出了一种新颖的多视图一致半监督学习框架，用于3D人体姿势估计。• 在Human3.6M数据集上实现了最先进的性能，仅使用有限的3D监督。•在Human3.6M和MPI-INF-3DHP数据集上制定了一个跨视图姿势检索基准。02. 相关工作0本节首先回顾了学习人体姿势嵌入的先前方法，然后讨论了先前的弱监督方法用于单目3D人体姿势估计，以突出其与我们的方法的区别。02.1. 人体姿势嵌入0从历史上看，人体姿势嵌入已经被用于人员跟踪[50,25]。通过学习从输入轮廓中的3D人体姿势和视点估计0在[9]中展示了一个低维流形。[23,33]展示了通过姿势相似性嵌入进行2D姿势回归和检索，但需要2D姿势标签。在[44]中，通过使用人体运动视频和时间顺序作为弱监督，消除了对2D姿势标签的需求。与上述方法不同，我们通过利用同步多视图视频中的内在3D姿势一致性来学习3D姿势嵌入。在[47]中，使用过完备自编码器学习3D姿势嵌入以实现更好的结构保持，但仍需要3D姿势注释。02.2. 弱监督的3D人体姿势估计0大多数监督的3D姿势估计算法[30, 28, 49, 37, 46, 54, 45,55,43]需要与2D姿势标签或预训练的2D姿势估计器结合使用3D姿势标签，以从图像或预测的2D姿势到3D姿势学习深度卷积神经网络映射。一些方法使用时间线索、人体测量约束、几何约束或附加监督来改进这些姿势估计[8, 53, 52, 3,26,12]。[52]中提出了一种完全解耦的2D和3D姿势估计方法，该方法使用生成的提升网络，然后使用反投影约束来实现泛化。另一种方法是使用网格表示[16, 17, 3, 21,34]或密集姿势表示[1,11]来增强2D/3D姿势标签，以改进姿势估计。所有上述方法都需要大量的2D和/或3D标签，而我们的方法仅适用于有限的3D姿势标签。强2D和有限/无3D监督近年来，使用有限的3D姿势标签和野外2D姿势标签的弱监督方法变得流行，因为标注2D姿势比标注3D姿势更容易[36, 19, 40, 6, 51,5]。[36]提出了一种在预测的3D姿势上使用投影约束的弱监督方法。大多数这样的方法在训练过程中利用多视图图像，通过几何约束[40, 19,5]、领域自适应和对抗约束[5]或交叉视图重投影约束[6]来进行训练。在[6]中，通过在不同视图中从嵌入中重构2D姿势，学习了一个潜在的3D姿势嵌入。从嵌入中回归3D姿势的浅层网络进行了有限的3D姿势监督学习。在[40]中，使用预训练的2D姿势估计权重进行3D姿势估计，然后进行多视图几何一致性损失。在[19]中，生成了伪3D姿势标签进行训练，而在[5]中，使用2D骨架和预测的3D姿势在不同视图上的重投影之间的对抗损失进行学习。在[51]中，从2D姿势输入开始，通过对来自多个视图的嵌入进行siamese损失的训练，学习了一个用于3D姿势的弱监督。与我们不同，[40, 5,19]需要强2D-HardNegative SamplingSharedWeightSharedWeightSharedWeightSharedWeight0.290.210.221.421.401.291.3369090度量学习0(b) 图1：(a) 学习我们的姿势嵌入和随后的规范姿势估计的框架。x anchor 和 x positive是从不同相机视角拍摄的一批锚点和正样本图像对。x supervise 是带有3D姿势监督的图像批次。F -基于ResNet的特征提取器。G 将从 F 提取的特征映射到嵌入 φ。Hard Negative Sampling模块执行批内硬挖掘，如公式1所示。模块 H 从我们的嵌入 φ 中回归姿势 ˆ p。详见第3.1节和第3.2节。 (b)我们学习的嵌入空间中几个图像之间的距离。每列表示来自不同视角的相同姿势的图像。行之间的图像具有不同的姿势。图像对之间的数字表示其嵌入距离。具有相同姿势的图像无论视点如何距离都很小，而具有不同姿势的图像距离很大。0姿势估计系统训练在MPII或COCO数据集上，而[36，51，6]直接处理2D姿势检测。另一方面，我们不需要任何2D姿势标签或预训练的2D姿势估计系统。有限/无2D和有限3D监督-为了减少对大量2D姿势标签的需求，[39，38]学习了一种无监督的几何感知嵌入，并通过有限的3D监督从嵌入中估计3D姿势。利用多视角同步视频进行新视角合成，以学习具有几何感知的嵌入。然而，这些方法仍然需要相机外参和背景提取，并且性能比我们的方法差。我们的方法属于同一类别，因为我们不使用任何2D姿势标签。我们利用来自多个视角的同步视频学习具有有限3D姿势标签的姿势嵌入，使相似的姿势样本在嵌入空间中相互靠近。与[39]不同，我们不需要相机外参或背景提取。03. 提出的方法0我们提出的MCSS方法包括两个模块- i) 从时间同步视频中进行多视角一致度度量学习 (第3.1节) 和ii) 有限3D监督下的3D姿势回归(第3.2节)。这两个模块都是联合训练的，如图1a所示，并在第3.1节和第3.2节中进行了解释。度量学习作为半监督信号，减少了对大规模3D姿势标签的依赖，同时姿势估计系统在MPII或COCO数据集上训练，而[36，51，6]直接处理2D姿势检测。另一方面，我们不需要任何2D姿势标签或预训练的2D姿势估计系统。有限/无2D和有限3D监督-为了减少对大量2D姿势标签的需求，[39，38]学习了一种无监督的几何感知嵌入，并通过有限的3D监督从嵌入中估计3D姿势。利用多视角同步视频进行新视角合成，以学习具有几何感知的嵌入。然而，这些方法仍然需要相机外参和背景提取，并且性能比我们的方法差。我们的方法属于同一类别，因为我们不使用任何2D姿势标签。我们利用来自多个视角的同步视频学习具有有限3D姿势标签的姿势嵌入，使相似的姿势样本在嵌入空间中相互靠近。与[39]不同，我们不需要相机外参或背景提取。0回归鼓励网络学习特定于姿势的特征。03.1. 多视角一致度度量学习0我们利用Hardnet框架[31]来学习姿势嵌入。用于训练的数据集被分为属于S = {S1，S2，...Sn}一组主题的图像。P � IR16 × 3是所有可能姿势的集合，每个姿势都从V ={v1，v2，...vq}视角观察。对于训练hardnet，每个批次包含来自主题Si的具有相同姿势p ∈ P的配对锚点(Xvap(Si) ∈X)和正样本(Xvbp(Si) ∈X)图像，从两个不同的视角va和vb拍摄，这里X � IR 3 ×256 ×256是图像集合。我们将锚点和正样本图像都通过特征提取器(FθF：X → Ψ; Ψ � IR 512 × 4 ×4)生成特征{ψvap，ψvbp} ∈Ψ。特征提取器网络由θF参数化。然后，将特征最终通过嵌入生成网络(GθG：Ψ → Φ; Φ � IR dim φ;其中dimφ是我们嵌入的维度)。假设我们以m的批次将锚点和正样本图像馈送给F。一旦计算出对应的特征{φva1p1，...，φvampm}和{φvb1p1，...，φvbmpm}，我们创建一个大小为m×m的距离矩阵D，其中D(i, j) = ∥φvaip i − φvbjpj∥2。然后从当前批次中与φvaip i和φvbipi在嵌入空间中最接近的φvjmin p jmin和φvkmin pkmin中采样负样本s。从数学上讲，采样过程为̸̸(1)69100在公式1中，β表示嵌入空间中负样本和锚点/正样本之间的最小距离。阈值β对于稳定训练和避免相似姿势作为负样本是必要的。0j min = arg min j ≠ i δ(D(i, j)) * D(i, j);0k min = arg min k ≠ i δ(D(k, i)) * D(k, i)0δ(x) = 1 if x > β, 0 otherwise0D i min = min(D(i, j min), D(k min, i))0平均对比损失由公式2给出，其中α是边界。0L cnstr = 1m0i = 1 D(i, i) + max(0, α - D i min) (2)0注意，上述学习框架具有以下两个目标，即a）使锚点及其正样本更接近，b）将负样本与锚点和正样本分离。直观地说，目标是学习捕捉3D姿势信息的嵌入，同时忽略与主体外观或背景无关的信息。为此，我们提出了以下小批量选择机制来促进上述目标的实现：03.1.1 小批量选择0我们使用同一主体的锚点和正样本组成每个小批量，在许多情况下，它们具有重叠的背景，负样本也来自同一主体，因为Hardnet从同一小批量中选择最难的负样本。所提出的小批量选择方案鼓励生成的嵌入在分离最难的负样本和锚点/正样本时捕捉姿势信息，同时丢弃主体外观和背景特征。这是因为负样本和锚点/正样本中都包含相同的个人外观和背景，不能用于分离负样本。我们通过子采样和适当选择β来确保不在一个小批量中包含时间上接近的图像。具体的超参数选择在补充材料中详细说明。在第6节中，我们展示了学习嵌入的姿势检索能力，以表明它确实成功地捕捉了3D姿势信息。03.2. 姿势回归0大多数3D姿势估计方法都专注于在局部相机坐标系中回归姿势。然而，在我们的框架中，从不同视角捕获的2D图像如果其内在的3D姿势相同，则都被映射到附近的嵌入位置。0因此，使用我们的嵌入进行3D姿势回归是有歧义的，因为局部相机坐标系丢失了。此外，从我们的嵌入到视角特定的3D姿势的关系是一对多的。为了解决这个问题，我们使用MoCap系统的全局坐标来表示3D姿势，而不是视角特定的3D姿势。因此，从不同视角捕获的同步帧被标记为一个全局坐标3D姿势。然而，不同的帧可能包含相互之间具有相同2D投影的刚性变换的姿势。在这种情况下，从我们的嵌入到3D姿势的映射再次是一个不适定的一对多映射。在图2中，说明了这种歧义的一个例子。0X0Y0Z0右髋0根0左髋0右髋0右膝0左膝0根0左髋0右髋0右膝0左膝0全局姿势（时间T1，视角V1）0全局姿势（时间T2，视角V2）0规范姿势（时间T1，T2）0根 - Root, 左髋 - Left Hip, 右髋 - Right Hip,左膝 - Left Knee, 右膝 - Right Knee0图2：从两个不同的时间点和视点拍摄的人体骨架的底部的俯视图。左边和中间的图像显示了两个姿势，当以全局姿势呈现时，它们具有不同的关节坐标，但在各自的摄像机中具有相同的投影。相反，它的规范姿势提供了一种统一的表示。03.2.1 规范姿势表示0为了解决上述的歧义，我们制定了一种多视图一致和刚性旋转不变的3D姿势表示，并称之为规范姿势。规范姿势通过约束连接骨盆和左髋关节的骨骼始终平行于XZ平面来获得。在Human3.6M数据集中，向上的方向是+Z轴，而XY平面形成水平面。因此，我们围绕+Z轴旋转骨架，直到上述骨骼平行于XZ平面。我们不需要任何平移，因为关节位置是相对于骨盆的。数学上，从全局到规范的变换由公式3给出，0ˆu = p g0∥ p glb lh − p glb root ∥；ˆu xy =0θ = cos − 1 (ˆu xy ∙ ˆi)；p can = R z θ � p glb (3)0其中，p glb root和p glblh分别是全局表示中的根部和左臀关节。沿着(p glb lh − pglb root)的单位向量表示为ˆu，θ是所需的69110旋转角度沿着+Z轴旋转，以获得规范姿势表示。规范姿势表示相对于视角的变化不改变方向，这是与特定视图表示相比的一个积极的副作用。为了实现旋转不变的姿势，也可以使用类似的地平面旋转，如[49]中所示。请注意，规范姿势直接从MoCap系统的坐标构建，不需要相机外参。最后，我们使用浅层网络（H θ H: Φ →P）从潜在嵌入Φ中回归规范姿势，如图1a所示。损失函数是预测的规范姿势ˆp与目标姿势p ∈ P之间的L1范数：Lpose = ∥ p − ˆp ∥ 1。04. 实现和训练细节0我们使用ImageNet[41]预训练的ResNet-18的前4个残差块作为我们的主干网络。此外，我们根据[31,48]的建议，通过关闭批归一化（BN）层的仿射参数来修改批归一化层。对于大小为224 ×224像素的输入图像，ResNet的输出是一个512 × 7 ×7的blob，通过使用最大池化操作进一步下采样2次以获得Ψ。嵌入网络G是FC层，后面是L2归一化，它将Ψ映射到维度为dim φ（我们的情况下为128）的嵌入，遵循[31,48]的方法。对于3D姿势回归，对每个关节的输入数据进行归一化。姿势回归网络G由FC层FC(128, 48)组成，其中Φ �IR 128。Lconrst的边界α设置为0.6，β设置为0.3。使用Adam[18]优化器，初始学习率为10^-3。模型训练40个周期，每20个周期学习率下降0.1。在我们的联合训练框架中，度量学习的批大小与姿势回归的批大小的比例保持在3:1，回归的批大小为22。我们的网络架构示意图如图1a所示。04.1. 数据集0我们使用流行的Human3.6M [15]和MPI-INF-3DHP[29]数据集进行实验。0• Human3.6M [ 15 ]包含了从一个室内MoCap系统中捕获的360万帧，该系统配备了4个摄像头（V）。它由11个主体（S）组成，每个主体执行16个动作，每个动作有2个子动作。根据标准Protocol 2 [ 46]，我们使用主体（S1、S5、S6、S7、S8）进行训练，使用主体（S9、S11）进行测试。与其他几种方法一样，我们还使用了数据集中提供的裁剪主体，并且分别对训练和测试阶段进行了每5帧和每64帧的时间子采样。0• MPI-INF-3DHP[29]是由一个具有12个同步摄像头的MoCap系统在室内和室外环境中生成的。它包含8个具有不同服装的主体(S)。我们使用5个胸部高度的摄像头(V)进行训练和测试。由于测试集不包含注释的多视图数据，我们使用S1-S6进行训练，S7-S8进行评估。05. 姿势估计的定量评估0我们进行与[39]中所述的相同的定量实验，以评估在Human3.6M数据集上学习的嵌入在3D姿势估计中的好处。我们使用三个广泛采用的指标进行评估，即MPJPE、PA-MPJPE和归一化MPJPE(N-MPJPE)（在[40]中介绍），它包含了一个尺度归一化，使评估与人的身高无关。我们将我们提出的方法及其变体与仅使用L姿势的基线进行比较。此外，我们将我们的方法与Rhodin等人提出的方法[39]和[40]进行比较，尽管它们在相机坐标系中估计人体姿势。我们还报告了Rhodin等人使用ResNet-18作为特征提取器而不是ResNet-50的性能。值得注意的是，[39]在训练时使用了相对相机旋转和背景提取的附加信息，这需要精密、校准良好的设置。我们承认在Human3.6M上存在更准确的方法，如[5、19、7]，当有丰富的2D和有限的3D标签可用时。然而，为了与这些方法进行比较，我们报告了来自[6]的结果，该方法需要有限的3D监督和来自Human3.6M和MPII[2]数据集的完整2D监督。由于我们的重点是在没有使用2D标签的有限3D姿势标签下推进单目3D姿势估计的研究，我们将比较限制在同时具有有限2D和3D标签监督的情况下。我们不包括[36]的结果，因为它在推理阶段需要多个时间上相邻的帧，并使用从大规模2D姿势注释数据集中学习的预训练2D姿势估计模型。注意：我们不预测从规范姿势到相机姿势的旋转。因此，在本节的所有评估中，我们在MCSS(我们的方法)中使用规范表示，而在其他方法中使用相机坐标表示。为了显示作为3D姿势监督函数的性能变化，我们报告了使用不同数量的3D姿势标签进行训练的模型的N-MPJPE值，如图3所示。在这个实验中，逐渐减少使用所有5个主体的3D姿势监督，直到只使用S1进行监督。当只使用S1进行监督时，MCSS明显优于基线37.34N-MPJPE。此外，随着3D姿势监督的减少，MCSS的性能逐渐下降，这验证了Lconrst在提供弱监督以捕捉3D姿势方面的重要性。我们的方法与其他方法的定性比较105254516569120监督方法 N-MPJPE MPJPE PA-MPJPE0全部0Rhodin [40]* 63.30 66.80 51.60 Chen[6]* NA 80.20 58.20 基线 95.07 97.9077.18 Rhodin [40] 95.40 NA NA Rhodin[39] 115.00 NA NA MCSS(我们的方法)92.60 94.25 72.480S10Rhodin [40]* 78.20 NA NA Chen [6]*NA 91.90 68.00 基线 149.28 154.78113.69 Rhodin [40] NA 153.30 128.60Rhodin [39] 122.60 131.70 98.20Rhodin [39]-Res18 136.00 NA NA0MCSS(我们的方法) 111.94 120.95 90.760表1：在Human3.6M数据集上，当对所有5个主体和仅对S1进行监督时，比较不同方法之间的N-MPJPE和MPJPE值。注意：所有方法都使用预训练的ImageNet权重来初始化网络。带有“*”标记的方法或其变体在训练过程中使用了来自MPII[2]数据集的大量野外2D注释，或者通过预训练的2D姿势估计器进行监督。所有其他方法通过假设没有2D注释来使用更弱的监督，而MCSS在这种设置中优于最先进的方法[39]。如果作者没有报告相应的结果，则对应的方法被标记为NA。05%S1（2.5k） 10%S1（5k） 50%S1（25k） S1（49k） S1+S5（100k）All（320k）训练数据0N-MPJPE（毫米）0基准模型 Rhodin[37] Rhodin[36] MCSS（我们的）0图3：在Human3.6M的测试集（S9，S11）上，N-MPJPE与3D姿势监督进行比较。我们提出的模型优于基准模型和当前最先进的Rhodin等人[39]。0在图3中显示了与基准模型和[39]相比的结果。在表1中，我们将我们的方法与基准模型和[39]的MPJPE、N-MPJPE和PA-MPJPE值进行了比较。显然，我们的方法优于[39]22.4。0完全有监督的3D数据时的N-MPJPE为10.7，仅在S1上进行3D姿势监督时为10.75。然而，如[39]中所述，当不使用来自强2D姿势监督的预训练模型时，[40]的性能显著下降（在表1中报告为Rhodin [40]*和Rhodin [40]）。0监督方法 N-MPJPE0S1 MCSS 111.94 MCSS-global 157.30MCSS-ResNet34 115.850表2：当进行姿势估计时，使用Mocap的（MCSS-global）和规范（MCSS）表示时的N-MPJPE值，仅使用主体S1进行监督。使用ResNet-34作为后端的性能与MCSS-ResNet34进行了比较。0作为消融研究的一部分，我们还将我们的学习框架在目标姿势以MoCap的（全局姿势）表示与我们的规范表示进行比较。我们观察到性能显著下降，45MPJPE，这验证了规范表示的重要性。我们还展示了更深的ResNet-34[13]后端网络的结果。我们观察到性能略微下降，3MPJPE点，可能是由于过拟合。我们提出的框架的另一个好处是使用比Rhodin等人[39]使用的ResNet-50更小的ResNet-18特征提取器。在NVIDIA 1080TiGPU上，推理时间为24.8毫秒，而[39]为75.3毫秒。请注意，Rhodin等人[39]在使用更小的ResNet-18骨干网时显示性能下降。我们将其归因于直接潜在嵌入相似性学习而不是需要更多表示能力的生成建模。从新视角进行姿势估计我们研究了我们的半监督框架在从未见过的视角回归规范姿势时的影响。为此，我们在Human3.6M[15]数据集的不相交视角集上训练和测试我们的模型。在表3中，该模型使用我们的无监督损失Lcnstr训练，并使用我们的有监督损失Lpose在视角1、2和3的图像上进行测试（详见表2标题中的详细信息）。在测试时，我们仅使用Human3.6M测试集中来自视角4的图像。即使姿势监督仅来自两个视角，我们观察到错误增加了4.5毫米。06.学习嵌入的分析0在本节中，我们通过展示我们学到的嵌入在捕捉3D人体姿势方面的质量来展示我们的学习框架的优势，包括姿势30354045505569130输入我们的基准模型0图4：我们提出的MCSS框架与我们的基准模型在Human3.6M测试集（S9，S11）上进行的规范姿势估计的定性结果。这两个模型都是使用主体S1的标签进行训练的。我们的方法即使对于像“坐着”和“弯腰”这样具有挑战性的姿势，也能产生更准确的估计。0监督方法 N-MPJPE PA-MPJPE0S10MCSS-V1234 111.7 91.9MCSS-V123 112.4 92.1Baseline-V123 158.6 116.1MCSS-V12 116.6 95.1 Baseline-V12159.4 122.50表3：当在未见过的视角上进行姿势估计时，N-MPJPE和PA-MPJPE的值。仅使用主体S1的姿势监督，视角数量不同。我们的弱监督损失Lcnstr应用于所有视角。MCSS-V1234表示在所有视角上使用Lpose（有监督损失）训练的模型。在MCSS-V123和Baseline-V123中，有监督损失来自视角（1,2, 3）等。测试始终在来自视角4的图像上进行。0通过检索任务在我们的嵌入空间中基于聚类形成，ii）嵌入和姿势距离之间的相关性。我们还在补充材料中提供了我们学习到的嵌入空间的T-SNE[27]图和视角不变姿势检索的定性结果。06.1. 跨视角和跨主题姿势检索0我们学习到的嵌入试图将相似的姿势样本投影到彼此附近，而不考虑主题、视角和背景。为了验证这一观点，我们从[44]、[23]中寻求动机，并提出Mean-PA-MPJPE@K来衡量来自不同视角的K个最近邻的Procrustes对齐平均每个关节位置误差（PA-MPJPE）。由于在人体固有姿势方面相似的姿势仍然可能具有不同的方向，我们使用Procrustes对齐MPJPE来消除这种伪影。我们将我们的模型与Oracle进行比较，Oracle使用地面实况3D姿势标签。给定一个查询图像，我们确保0检索数据库包含从与查询图像不同视点拍摄的图像。这样做是为了清楚地展示所提出的嵌入的视角不变性属性。首先，我们报告了查询姿势与其在嵌入空间中的K个最近邻之间的平均PA-MPJPE@K。在图5中，我们展示了从具有以下特征的图像进行检索时检索到的姿势的平均PA-MPJPE@ K的比较：Case1：包括查询的所有测试主题。Case2：除了查询的主题之外的所有测试主题-交叉。我们相对于Oracle报告我们的结果。具有低误差的几乎水平的图表表明我们的模型选择与Oracle类似的姿势，而不考虑K的大小。对于K = 1，2，误差率略高，因为我们的模型01 2 5 10 20 检索数量（K）0平均PA-MPJPE（毫米）0cnstr + 姿势0cnstr0交叉：cnstr + 姿势0交叉：cnstr0图5：在Human3.6M数据集上，随着检索数量K的增加，Mean-PA-MPJPE。前缀“交叉-”表示从与查询不同的主题进行检索。所有报告的值都是相对于Oracle的。低值表示我们检索到的姿势与Oracle的类似。PAMPJPE以毫米为单位。69140从聚类中检索图像，并不总是选择具有最低误差的图像，就像由oracle所做的那样。由于查询数据库中存在与查询具有相同姿势但来自不同视点的图像，因此Case1的误差低于Case2。我们还可以注意到，在从S1中提取L姿势时，聚类和平均MPJPE在相同主题（Case 1）和跨主题（Case2）设置中都有所改善，符合我们的预期，即少量的姿势监督改善了聚类。0方法 K=1 K=5 K=10 K=200L cnstr 48.40 62.46 56.29 55.63 交叉- L cnstr 82.2983.53 80.65 76.000表4：在MPI-INF-3DHP数据集上，通过使用L cnstr进行微调的检索数量（K）的Mean-PA-MPJPE（毫米）。前缀Cross-表示在与查询不同的主题上进行检索。所有值都是相对于Oracle报告的。06.2. 嵌入和姿势之间的相关性0在本节中，我们展示了我们学习到的嵌入在人体姿势变化时的变化。为此，我们绘制了查询图像与具有与查询的姿势差异逐渐增加的图像堆栈之间的平均嵌入距离。查询和图像堆栈都属于同一主题。可以观察到嵌入距离与相应的姿势差异之间存在明显的正相关关系。此外，相同视角和不同视角显示出与姿势相似的相关性，证明了我们学习到的嵌入是多视角一致的。06.3. 泛化和限制：0为了测试跨数据集的泛化性，我们在Human3.6M数据集上训练了一个模型，并在MPI-INF-3DHP数据集上进行了跨视角姿势检索。对于K = 10和K =20，我们得到了平均MPJPE分别为119.6mm和101.9mm。进一步使用MPI-INF-3DHP的多视图图像进行Lconrst的微调，将性能提高到62.46mm和56.29mm，见表4。在跨数据集上性能下降的原因是我们的特征提取器和嵌入生成网络已经学习到了从Human3.6M图像到姿势空间的映射，而相同的映射不适用于MPI-INF-3DHP图像的领域，因为外观差异巨大，姿势变化更具挑战性。然而，通过添加Lconrst，如表4所示，弱监督方法可以泛化到新的数据集。0图6：随着姿势变化的增加，嵌入距离的变化。我们使用在（S9，S11）上训练了Lcnstr（S1，S5，S6，S7，S8）和Lpose（S1）的模型展示结果，并将图像堆叠在基于其对应姿势与查询姿势的MPJPE差异的箱中。在Y轴上，绘制了查询和图像堆栈之间的平均嵌入距离。在“相同视角”中，查询图像和图像堆栈属于相同的视角，而在“不同视角”中，属于不同的视角。结果是对每个主题的200个随机查询进行平均。07. 结论和未来工作0在本文中，我们展示了一种新颖的多视图一致半监督学习方法，用于捕捉3D人体结构以进行姿势估计和检索任务。借助我们的半监督框架，减少了对3D姿势的需求。即使使用较小的网络，也能使我们的方法胜过当代的弱监督方法。此外，我们还为公开可用的数据集提供了强大的视角不变姿势检索基准。0未来，我们计划使用在野外从更多视角捕获的多视图同步视频来进一步改善泛化能力。我们还计划通过使用有限的3D注释来学习姿势变化的分布，以捕获非常细粒度的姿势变化。0致谢：本工作得到了梅赛德斯-奔驰研发印度（RD/0117-MBRDI00-001）的资助。我们还要感谢AnuragMundhada和RishabhDabral对初步讨论和可视化的帮助。69150参考文献0[1] Rıza Alp G¨uler，Natalia Neverova和IasonasKokkinos。Denseospe：野外密集人体姿势估计。在CVPR中，页码7297-7306，2018年。20[2] Mykhaylo Andriluka，Leonid Pishchulin，PeterGehler和BerntSchiele。2D人体姿势估计：新的基准和最新分析。在CVPR中，页码3686-3693，2014年。5，60[3] Anurag Arnab，Carl Doersch和AndrewZisserman。利用时间上下文进行野外3D人体姿势估计。在CVPR中，页码3390-3399，2019年。20[4] Raja Chatila和Jean-PaulLaumond。移动机器人的位置参考和一致世界建模。在ICRA中，页码138-145，1985年。10[5] 陈青航，Ambrish Tyagi，Amit Agrawal，DylanDrover，Rohith MV，Stefan Stojanov和James MRehg。无监督的几何自我监督3D姿势估计。在CVPR中，页码5707-5717，2019年。2，50[6]陈锡鹏，林坤义，刘文涛，钱晨，林亮。弱监督下发现几何感知表示用于3D人体姿势估计。在CVPR中，页码10887-10896，2019年。2，3，5，60[7]陈锡鹏，林坤义，刘文涛，钱晨，林亮。弱监督下发现几何感知表示用于3D人体姿势估计。在CVPR中，页码10887-10896，2019年。50[8] Rishabh Dabral，Anurag Mundhada，UdayKusupati，Safeer Afaque，Abhishek Sharma和ArjunJain。从结构和运动学习3D人体姿势。在ECCV中，第679-696页，2018年。1, 20[9] Ahmed Elgammal和Chan-SuLee。使用活动流形学习从轮廓推断3D身体姿势。在CVPR中，2004年。20[10] Rob Fergus，Yair Weiss和AntonioTorralba。在庞大的图像集合中进行半监督学习。在NIPS中，第522-530页，2009年。10[11] Riza Alp Guler和IasonasKokkinos。Holopose：野外的整体3D人体重建。在CVPR中，第10876-10886页，2019年。20[12] Ikhsanul Habibie，Weipeng Xu，DushyantMehta，Gerard Pons-Moll和ChristianTheobalt。使用显式2D特征和中间3D表示进行野外人体姿势估计。在CVPR中，第10897-10906页，2019年。20[13] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR中，第770-778页，2016年。60[14] Seunghoon Hong，Hyeonwoo Noh和BohyungHan。用于半监督语义分割的解耦深度神经网络。在NIPS中，第1495-1503页，2015年。10[15] Catalin Ionescu，Dragos Papava，Vlad Olaru和CristianSminchisescu。Human3.6m：大规模数据集和自然环境中3D人体感知的预测方法。在T-PAMI中，第1325-1339页，2013年。1, 5,60[16] Angjoo Kanazawa，Michael J Black，David W Jacobs和JitendraMalik。端到端恢复人体形状和姿势。在CVPR中，第7122-7131页，2018年。20[17] Angjoo Kanazawa，Jason Y Zhang，Panna Felsen和JitendraMalik。从视频中学习3D人体动力学。在CVPR中，第5607-5616页，2019年。20[18] Diederik P Kingma和JimmyBa。Adam：一种用于随机优化的方法。在arXiv中，2014年。50[19] Muhammed Koca

下载后可阅读完整内容，剩余1页未读，立即下载