RICH:一个包含真实场景和3D人体的新数据集和推断人体场景接触的回归器

2 浏览量更新于2023-10-26 收藏 26.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

_1Understanding human actions and behaviors has longbeen studied in computer vision, with applications inrobotics, healthcare, virtual try-on, AR/VR, and beyond.Remarkable progress has been made in both 2D human posedetection [7,28,32,42,67,82] and 3D human pose and shapeestimation (HPS) from a single image [5, 36, 39, 40, 44, 56,81, 95], thanks to realistic datasets annotated with 2D key-points [1,33,46] and 3D data [30,34,49,66,77]. Despite thisprogress, something important is missing. Even the mostbasic human activities, such as walking, involve interaction132740捕捉和推断密集的全身人体场景接触0Chun-Hao P. Huang 1 Hongwei Yi 1 Markus H¨oschle 1 Matvey Safroshkin 1 Tsvetelina Alexiadis 10Senya Polikovsky 1 Daniel Scharstein 2 Michael J. Black 101 Max Planck Institute for Intelligent Systems, T¨ubingen, Germany 2 Middlebury College0e, black } @tuebingen.mpg.de, schar@middlebury.edu0MultiIOI_201019_ID03585_parkingLot_0Calibration06_Settings09_OverFence_0a b c0图1.RICH是一个包含自然场景和标准服装中人物视频以及地面真实的3D身体姿势和形状的新数据集（a-b）。RICH的一个关键创新是它还包含了3D场景扫描，从而实现了对人体场景接触的密集和准确标注（c，绿色）。我们利用这一点来学习一个名为BSTRO的回归器，它接受一张图像并推断人体场景接触。0摘要0推断人体场景接触（HSC）是理解人类与周围环境互动的第一步。虽然检测2D人体物体交互（HOI）和从单个图像重建3D人体姿势和形状（HPS）取得了显著进展，但从单个图像推理出3D人体场景接触仍然具有挑战性。现有的HSC检测方法只考虑了少数预定义的接触类型，通常将身体和场景简化为少量基元，甚至忽视了图像证据。为了从单个图像预测人体场景接触，我们从数据和算法的角度解决了上述限制。我们捕获了一个名为RICH的新数据集，用于“真实场景，互动，接触和人体”。RICH包含以4K分辨率捕获的多视角室内/室外视频序列，使用无标记运动捕捉技术捕获的真实3D人体，3D身体扫描和高分辨率3D场景扫描。RICH的一个关键特点是它还包含了身体上准确的顶点级接触标签。利用RICH，我们训练了一个网络，可以从单个RGB图像预测密集的身体场景接触。我们的关键洞察是接触区域总是被遮挡的，因此网络需要具备探索整个图像的能力。我们使用一个transformer来学习这种非局部关系，并提出了一种名为BSTRO（Body-Scene contactTRansfOrmer）的新方法。很少有方法探索3D接触；那些探索3D接触的方法仅关注脚部，将脚部接触作为后处理步骤，或者根据身体姿势推断接触而不考虑场景。据我们所知，BSTRO是第一个直接从单个图像估计3D人体场景接触的方法。我们证明了BSTRO明显优于现有技术。我们的代码和数据集可供研究目的使用：https://rich.is.tue.mpg.de0长期以来，计算机视觉领域一直在研究理解人类的行为和动作，应用于机器人技术、医疗保健、虚拟试穿、增强现实/虚拟现实等领域。在2D人体姿势检测[7, 28, 32, 42, 67,82]和从单个图像中估计3D人体姿势和形状（HPS）[5, 36,39, 40, 44, 56, 81,95]方面取得了显著进展，得益于用2D关键点[1, 33,46]和3D数据[30, 34, 49, 66,77]注释的逼真数据集。尽管取得了这些进展，但仍然缺少重要的东西。即使是最基本的人类活动，如行走，也涉及互动。01. 引言132750与周围环境的互动。从根本上讲，人体场景交互（HSI）涉及3D人体与3D场景之间的接触关系，即人体场景接触（HSC）。然而，现有的HPS方法在很大程度上忽视了场景，并且在孤立地估计人体姿势和/或形状时，往往会导致物理上不合理的结果。由于从单个图像重建完整的3D场景具有挑战性，最近的HPS方法通过对场景和/或人体进行几个简化假设来解决这个问题。许多方法只考虑脚和地面之间的接触[61, 64, 83, 89, 90, 93,101]，或者假设地面是一个平面[60]，但这经常被违反，例如上楼梯。为了推断接触，许多最先进的方法使用MoCap数据集[48, 50]来训练接触检测器[61, 93,101]。其他方法利用物理模拟[64,89]或受物理启发的目标[83]，但将身体表示减少到一小组基元。令人惊讶的是，这些方法中没有一个使用图像证据来预测人体场景接触。这主要是由于缺乏具有图像和3D接触地面真实值的数据集。许多方法确实从图像中估计人体物体交互（HOI），但将推理限制在2D图像区域[37, 58, 78, 85,100]。也就是说，它们估计图像中与接触相对应的边界框或热图，但不将其与3D身体相关联。在这项工作中，我们通过一个从单个图像直接估计3D接触的框架来解决这个问题。我们做出了两个主要贡献。首先，我们创建了一个新的数据集，通过将无标记的MoCap方法扩展到无标记的HSC捕获来准确捕获人体场景接触。具体而言，我们在室内和室外环境中以4K分辨率捕获多视角视频序列。我们还使用激光扫描仪捕获场景的精确3D几何形状。此外，我们使用高分辨率的3D扫描仪对所有被试进行了最少衣物的高分辨率3D扫描，并将SMPL-X身体模型[56]与扫描结果匹配。我们的无标记HSC方法使我们能够计算出准确的顶点级场景接触，如图1c所示。与使用单目RGB-D输入捕获HSC的PROX数据集[25]相比，多视图数据具有两个优势：（1）它可以有效解决遮挡问题，从而得到更好的重建身体和更准确的场景接触；（2）它适用于室外环境，如图1所示。得到的数据集称为RICH（“真实场景，互动，接触和人体”），提供：（1）与扫描的3D场景进行交互的单个或多个主体的高分辨率多视图图像，（2）密集的全身场景接触标签，（3）高质量的室外/室内场景扫描，（4）高质量的3D人体形状和姿势，以及（5）动态背景和移动相机。为了从单个彩色图像估计顶点级HSC，我们开发了一种名为BSTRO（Body-Scene contactTRansfOrmer）的方法。0并使用RICH进行训练。我们在构建BSTRO时的关键洞察是，由于遮挡，图像中无法直接观察到接触；因此，为了推断接触，网络架构必须能够在整个图像中寻找证据。变压器架构使BSTRO能够学习非局部关系并使用场景信息来“虚构”未观察到的接触。我们使用多层变压器[ 75]，该变压器已成功应用于自然语言处理[ 11]和具有遮挡的HPS估计[ 44]。总之，我们的主要贡献是：（1）我们提出了RICH，这是一个捕捉人与复杂场景互动的新型数据集。它是第一个既提供室外场景扫描又提供单目HSC估计图像的数据集，而现有方法[ 24 ， 25]则缺少其中之一。（2）我们提出了BSTRO，一种单目HSC检测器。它以身体为中心，因此不需要3D场景重建来推断接触。与也以身体为中心的POSA [ 26]不同，BSTRO直接从输入图像中估计密集的场景接触，而无需重建身体。（3）我们评估了最近的HSC方法，并展示了BSTRO的SOTA结果。（4）由于RICH具有伪地面真实身体拟合，我们还评估了SOTAHPS方法，并分析了它们在场景接触方面的性能，而现有的HPS数据集[ 30 ， 55 ， 77]不支持场景接触。我们确认了一种SOTA HPS方法[ 17]在存在场景接触时性能下降。02. 相关工作0我们回顾了考虑人与场景之间接触的现有方法。由于其中许多方法在流程中采用了3D身体重建方法作为骨干，我们首先简要讨论了最近的HPS趋势，然后重点关注先前的艺术如何融入场景接触。02.1. 人体姿势和形状估计（HPS）0单目HPS方法从单个彩色图像中重建3D人体。许多方法输出统计3D人体模型的参数[ 2 ， 35 ， 47 ， 56 ， 86]。SMPLify [ 5 ]将SMPL模型拟合到2D关键点检测器[ 57]的输出上，我们在此基础上进行了改进。相反，深度神经网络直接从像素中回归身体模型参数[ 10 ， 16 ， 17 ， 23， 36 ， 38 – 40 ， 62 ， 68 ， 69]。为了处理野外缺乏3D真实地面实况的问题，一些方法使用2D关键点[ 36 ， 71 ， 74 ]或语言属性[ 9]作为弱监督，而一些方法则直接在测试时根据输入图像微调网络[ 34 ]。Kolotouros等人[ 40 ]将HMR [ 36 ]和SMPLify[ 5]结合在训练循环中以获得更好的3D监督。另一方面，非参数或无模型方法直接估计3D顶点位置而不使用身体参数[ 8， 12 ， 41 ， 44 ， 45 ， 52 ， 91 ]。我们将读者引用到[72 ， 99 ]进行全面回顾。以上方法都没有估计HSC。132760方法场景接触身体接触线索0身体/场景训练/测试0Zan�r等人[ 90 ]0网格 - / 距离0Zou等人[ 101 ]同时关节2D速度0Rempe等人[ 61 ]0速度和距离 /速度和距离0PhysCap [ 64 ]部分0HuMoR [ 60 ] 8个关节 / 地面网格LEMO [ 93]足部顶点 / 地面0SimPoE [ 89 ]脚部部分 / 地面部分物理模拟Xie等人[ 83]HolisticMesh [ 80 ]0- / 距离0PROX [ 25 ] - / 距离0PHOSA [ 92 ] - / 距离0Zhang等人[ 97 ]距离 / -0PLACE [ 94 ]距离0POSA [ 26 ]距离 / 姿势0BSTRO（我们的）与上述网格分布相同。/图像0数据集接触标签图像场景0MTP [53]自身接触�N/A0GRAB [70]手-物体�N/A0ContactHands [54]手-X‡�N/A0Fieraru等人[18]人-人�N/A0Fieraru等人[19]自身接触�N/A0PiGraph [63]关节-场景�RGBD扫描0i3DB [51] N/A�CAD0GPA [79]N/A�立方体0Guzov等人[24]脚-地面�¶激光扫描0PROX [25]身体-场景�RGBD扫描0RICH（我们的）身体-场景�激光扫描0表1.接触相关方法和数据集的比较.‡:X可以是自身、人或物体.¶:自我中心图像.顶点:vertex;速度:velocity;距离:distance.0无标记MoCap利用多个校准相机的同步视频，并且在商业解决方案中有着悠久的历史，但这些解决方案侧重于估计3D骨架。为了建模HSC，我们需要提取完整的3D人体形状，因此在这里我们专注于这样的方法。早期的方法，无论是自底向上[4, 22, 65]还是自顶向下[3, 20,76]，都很脆弱，需要特定于主体的模板和手动输入，并且在野外图像中的泛化能力不强。最近的方法利用CNN来提高关键点检测的多视图一致性[27, 31, 59,73]，在视图之间重新识别主体[14]或在视图和时间之间重新识别主体[13,96]，但它们只估计关节，而不是人体网格。Dong等人[15]重建了多个主体的SMPL身体，Zhang等人[98]还估计了手部和面部表情。他们展示了实验室场景的结果，而我们在第3.1节中的HSC捕捉方法适用于不受限制的室外场景。上述所有方法都在孤立地重建人体，而没有考虑与场景的交互。因此，结果通常包含物理上不可信的伪影，例如脚滑和地面穿透。02.2.人体场景交互（HSI）02D人物-物体交互（HOI）方法通过HOI定位2D图像区域并识别语义0其中的交互。大多数方法将人和物体粗略地表示为边界框[37,100]；只有少数方法使用人体网格和物体球体[43]。3D接触。了解身体和场景的哪个部分接触提供了紧凑而丰富的信息，可以实现许多应用，例如HSI识别[6]或将虚拟人放入场景[26]。表1的上半部分总结了不同目标和任务的方法中如何将身体-场景接触合并。早期的工作将场景接触作为HSI特征的一部分[51,63]，但将人体粗略地表示为棍人。最近的HPS方法[25, 60,61,101]利用接触来改善估计的身体姿势。理想情况下，当身体和场景都“完美重建”时，将它们之间的3D欧氏距离应用阈值就足以推断出准确的接触。先前的工作采用这种阈值方法来注释接触[24, 25, 53, 70]。在测试时，PROX[25]假设场景扫描是先验已知的；PHOSA[92]估计3D物体、3D人物和它们之间的接触，但仅适用于有限类别的物体。由于以正确的布局和空间排列高质量重建3D场景仍然是一个未解决的挑战[87]，单眼HSC检测方法采用其他启发式方法。最常见的方法是零速度假设；即，接触的表面不应相对于彼此滑动。这种假设被广泛应用于减少脚滑动伪影[60, 61, 64,101]。其中一些在测试时使用单独的神经网络检测接触，将2D/3D关节在时间窗口内作为输入[61, 64,101]，而其他方法将其整合到身体运动先验中[60,93]。这些方法使用MoCap数据集，如AMASS[48]和Mixamo[50]来构建训练数据，其中接触通过将距离地面和/或速度阈值化来自动标记。POSA[26]观察到场景接触与身体姿势相关，并引入了一个生成模型来在给定姿态网格的情况下采样接触。一些方法[64, 83,89]应用物理学来鼓励脚地接触并确保物理上合理的运动。然而，它们必须将身体近似为一组盒子、圆柱体或球体。MOVER[87]利用人体场景接触来改善对3D场景布局的单眼估计。所有这些方法首先重建身体（2D或3D），然后推理接触，实际上忽略了宝贵的图像信息。为了更进一步，我们需要一个由自然图像和3D身体-场景接触标签组成的数据集。如表1的下半部分所总结的，许多现有的接触相关数据集考虑自身接触[19,53]或人-人接触[18]，但不考虑HSC。对于HSC来说，最相关的数据集是[24]和PROX[25]。前者提供了用于定位的自我中心图像，不适合从图像中检测HSC。PROX[25]可以用于我们的任务，但它只包含室内场景。reprojection error132770并且质量较低。PROX中的真实身体是通过拟合RGBD数据计算得到的，这对遮挡非常敏感。这不仅限制了数据集中HSI的类型（主要是行走、坐着、躺着），还影响了身体拟合的质量。03. 方法：RICH数据集0概述和预备知识。与[61, 64, 83,88]将身体表示为一组粗略的几何基元不同，我们遵循[25,26]使用参数化的SMPL-X身体模型[56]来捕捉逼真的人体-场景接触。SMPL-X网格M(θ, β, ψ) �R3上的顶点位置由姿势θ、形状β和面部表情ψ的参数控制。θ由身体姿势θ b和手部姿势θ h组成。手部姿势θh是一个关于PCA潜在向量Z h∈R12的函数θ h(Zh)。给定由C个同步摄像头捕获的视频，我们首先使用[14,84]在视图和时间上识别每个主体。对于每个识别出的主体，我们通过鲁棒的多视角拟合方法重建一个SMPL-X身体，并将其放置在一个预扫描的场景中计算身体-场景接触（第3.1节）。通过这种方法，我们构建了一个单眼身体-场景交互数据集（RICH），其中包含540K张图像，配对的SMPL-X参数和场景接触标签（第5节）。03.1. 捕捉密集的身体-场景接触0我们首先使用AlphaPose[84]在每个视频中对主体进行时间上的跟踪，然后使用MvPose[14]在视图之间匹配轨迹。也可以应用其他构建这种4D关联的方法[13,96]。在时间t，我们现在最多有C个相同人物的边界框，我们的目标是重建身体。为此，我们改进了SMPLify-X[56]以适应多视角数据。SMPLify-X通过最小化以下目标函数来优化SMPL-X的姿势θ、形状β和面部表情ψ以匹配观察到的2D关键点[7]：0E(β, θ, ψ) = E J + E reg E reg = λ θ b E θ b + λ α E α+ λ β E β + λ E E E + λ C E C, (1)0其中E J是数据项，E reg包括几个正则化项：θb是身体的姿势向量，是一个关于Z b的函数，其中Zb∈R32是VAE的潜在表示，E θ b是定义在Zb上的L2先验。E α(θ b)惩罚肘部和膝盖的过度弯曲。Eβ(β)是身体形状的L2先验，EC是惩罚网格交叉的项。λ表示每个相应项的权重。有兴趣的读者可以参考[56]了解详细信息。每个人的多视角重建。对于每个人，我们在每个摄像头c中计算2D关键点[7]。我们不是在每个视图中使用SMPLify-X来拟合它们，而是将所有2D关键点组合成一个多视角能量项：�0c E c J . 与[56]不同，这里不需要先估计相机平移。0(a) 关节项 vs. 骨骼方向项0(b)多视角一致性0图2.骨骼方向术语和多视角一致性的示意图。ρ是Geman-McClure鲁棒估计器[21]。更多讨论详见正文和补充材料。0透视投影在这里由预校准的内参和外参明确定义。为了追求高质量的拟合，我们预先通过将SMPL-X模板注册到最少衣物的3D扫描中来估计身体形状β，遵循[29]。因此，在方程1中，β不再是一个自由变量，我们设置λ β =0。除了衡量关节误差的EJ之外，我们还使用衡量“骨骼方向”误差的EO。图2(a)说明了这个术语背后的直觉。由于对人体进行姿势设置需要遍历一个运动链，关节项E J中父关节的误差�1在子关节的误差� 2中累积。当∥�2∥变得太大时，影响会减小，因为我们的鲁棒损失将其视为异常值。相反，EO将祖先的误差分离出来，专注于关节本身的误差。我们的最终目标是E mv(θ, ψ) = �0c E c O + E reg .由于嘈杂的2D检测，每个视图中的关键点经常彼此不一致。我们可以依靠鲁棒性估计器来识别异常值并减少其贡献。然而，这取决于优化中当前估计的身体，因此它假设有良好的初始化。相反，我们检查标记点的多视图一致性，如图2（b）所示。对于每个关节，我们获取两个视图中的检测结果（蓝色），三角化为一个3D点，并将其投影到第三个视图（绿色）。如果投影点（红色）与第三个视图中的检测（绿色）之间的距离很大，那么这意味着这三个检测结果不一致，至少有一个是错误的。我们不是对异常值和内点进行硬决策的分离，而是穷举计算所有三元组的视图，累积重投影误差并降低其贡献0对于具有高误差的视图，我们使用多视图一致性（multiviewconsensus）来处理。它的行为类似于软多数投票机制。只要正确的检测比错误的检测多，它就可以减少嘈杂的标记点的影响，而与当前的身体估计无关。为了进一步避免局部最小值，我们使用最先进的野外身体回归器（PARE[39]）来初始化θ。我们在每个视图的边界框上运行PARE，通过对姿势进行平均来融合结果，并将融合的身体从SMPL转换为SMPL-X。SMPL-X身体姿势给出了SMPL template mesh0...10...0010Binary Cross Entropy lossper-vertex image featurepositional encodingrandom mask-out.........0: no contact1: in contact132780为最小化 E mv ，我们首先独立地解决每个时间步长 t 的 Emv ，然后使用运动平滑项 E smooth [93]共同优化一批 T帧：E batch ( θ 1 , ∙ ∙ ∙ , θ T ) = � T t =1 E t mv + λsmooth E smooth。我们将重建的身体放入预扫描的3D场景中以估计身体-场景接触。场景网格和HDR纹理是使用工业激光扫描仪LeicaRTC360获取的。为了将身体放入场景中，我们解决了相机坐标和扫描坐标之间的刚性变换，并手动确定了对应关系。为了自动注释人-场景接触，我们的方法与POSA[26]类似。具体而言，对于身体网格上的每个顶点，我们计算其与场景扫描的点到表面的距离。如果距离低于阈值并且法线兼容，则接受其在接触中的假设。考虑到鞋底的厚度，底部顶点的阈值为5cm，其余身体的阈值为2.5cm。这与POSA不同，POSA使用5cm的阈值来从PROX[25]收集训练数据。此外，PROX中的伪地面真实身体姿势是通过将SMPL-X模板拟合到单目RGBD数据中获得的。如图5底部所示，PROX的准确性受到遮挡的影响，有时会导致与场景的严重穿透。身体拟合中的错误会传递到POSA的地面真实HSC数据中。相比之下，在RICH中，身体是从多视图数据中恢复的，这减少了由遮挡和深度模糊引起的问题。04. 方法：BSTRO0在这里，我们介绍了一种从单个图像中进行密集HSC估计的BSTRO方法。这依赖于在第5节中详细描述的RICH方法。现有的HSC方法通常采用多阶段方法。给定输入图像，它们首先重建身体网格并将其用作推断接触的代理。形式上，令 f表示从输入图像 I 中恢复身体网格 M 的函数，M = f(I)。f可以是能量最小化过程，如[56]，也可以是神经网络，如[36,39]。为了估计接触，SOTA方法在以下两个方面不同：（1）从 M中提取的特征，例如到3D场景的欧氏距离、速度和身体姿势（参见表1）；（2）预测函数，例如简单的阈值、神经网络或物理引擎。为了简化表示，我们将这些特征提取和接触估计过程统称为 g，它以身体 M作为输入并预测一个接触向量 c = g(M)。c中的每个元素如果对应的身体部位（顶点、关节或身体部分）与场景接触则为1，否则为0。例如，g表示POSA中条件VAE的解码器，它以 M的顶点位置作为输入，而在[60, 61, 64]中，g 是在 M的运动上操作的MLP。通过这个公式，身体-场景接触c，无论是否0HR-Net0多层Transformer0预测的场景接触0地面真实场景接触0图3.BSTRO模型架构。给定输入图像，BSTRO通过利用图像信息而无需重建3D姿势或3D人体来预测密集的顶点接触标签。0在稠密网格或一组稀疏关节/部位上定义的c是g和f的复合函数：c = g ◦f(I)，其中g对输入图像是不可知的。相反，我们的目标是直接从输入I中检测到密集的身体-场景接触：c =g(I)。据我们所知，这仅在自我接触[19]和人-人接触[18]方面进行了探索，并且仅在粗略区域级别上进行了探索，而不是顶点级别。我们使用SMPL作为BSTRO的身体表示，因此c∈{0，1}V，其中V = 6890是SMPL网格上的顶点数，而V=10475是SMPL-X网格上的顶点数。之所以选择这个，是因为SMPL-X网格上的顶点中有近50%位于头部，而头部很少参与自然的身体-场景接触，所以我们希望减少输出空间的维度。有关此设计选择的更多讨论，请参见补充材料。我们将g建模为神经网络，并使用从RICH中采样的(I，c)对以监督方式对其进行端到端训练。BSTRO的网络架构是基于我们的关键观察而设计的。也就是说，由于遮挡，接触区域不直接可见。然而，图像中有丰富的信息可以告诉我们身体的哪些部分与场景接触。因此，从图像中估计HSC本质上是一项“幻觉”任务。在没有真正“看到”接触区域的情况下，网络需要自由地探索图像并关注它认为有信息的区域。我们使用多层Transformer[11]从数据中学习这种非局部关系，并提出了Body-Scene contactTRansfOrmer（BSTRO）。图3可视化了BSTRO的架构。它以一个人的图像作为输入，使用CNN骨干提取特征X∈R2048，并将SMPL模板的顶点位置作为位置编码附加。连接后的特征表示为q∈R2051。变换器的输入查询是一组q：Q={qv}Vv=1。变换器输出一组逻辑值lv，经过sigmoid函数处理后得到元素pv∈[0，1]，编码了顶点v处接触的概率。最后，通过将pv阈值设为0.5，得到密集的场景接触向量c。注意，BSTRO是一个132790非参数方法，与[44]类似的精神，直接为每个顶点进行预测，而不通过参数模型。训练。我们应用二元交叉熵损失来计算地面真实接触和预测接触概率pv之间的损失。可以将其视为多标签分类问题，其中每个类别（顶点）都有自己的真实（接触）或非真实概率。为了增加对遮挡的鲁棒性，我们采用了Masked VertexModeling（MVM）[44]。具体而言，在每次迭代中，我们随机屏蔽一些查询Q，并要求变换器估计所有顶点的接触。为了预测缺失查询的输出，模型必须探索其他相关查询。这模拟了仅部分可见的身体遮挡和鼓励网络产生接触的幻觉。05. RICH数据集0我们在5个静态3D场景中使用6-8个静态相机捕捉了22个主体进行各种人-场景交互，并在一些场景中使用了额外的（未跟踪）移动相机（图4最右侧的场景）。主体事先书面同意将其数据用于研究目的的捕捉、使用和分发。该实验方法已经经过图宾根大学伦理委员会的审查，没有任何异议。RICH总共有134个单人或多人多视角视频，共有85K个姿势3D人体网格，以及85K个SMPL-X和SMPL网格拓扑的密集全身接触标签，以及540K个高分辨率（4K）图像。与PROX相比，RICH主要由室外环境组成，大约60平方米。RICH中的图像是真实的，不限于单个主体，具有动态背景和多样的视角。所有这些特点使其适用于训练和评估单目HSC方法。图4显示了RICH的几个示例。此外，由于RICH提供了SMPL-X拟合，即伪地面真实人体姿势和形状，它也可以作为单目或多视角HPS基准。它包含的主体比3DPW[77]更多，比AGORA[55]的身体形状更准确，并且与Human3.6M[30]不同，具有真实的人-场景交互。在我们的实验中，我们分析了SOTAHPS方法在身体-场景接触方面的性能。这样的分析在现有的HPS数据集中是不可行的。06. 实验06.1. 数据集划分0我们将RICH中的134个多视角视频划分为57个用于训练、27个用于验证和50个用于测试。测试集包含多个子集，用于不同的评估协议。每个子集的定义取决于是否0每个训练集中的三个属性是否被观察到：场景、人-场景交互和主体。最具挑战的子集是当它们在RICH-train中都没有被看到时。划分确保测试集中有一个完全保留的场景和7个未见过的主体。有关3D身体和图像的更多细分，请参见补充材料。06.2. 评估指标和基线0我们应用标准的检测指标（精确度、召回率和F1分数）来评估估计的密集HSC。由于SMPL模板上的顶点密度不同，例如在手掌和大腿上的相同数量的误报对应于身体表面上的不同区域，但这在上述分数中没有反映出来。为了更好地了解HSC方法估计接触的效果如何，我们另外考虑了一种将基于计数的分数转化为度量空间误差的度量方法。具体而言，对于每个预测接触的顶点，我们计算它到接触的地面真实顶点的最短测地距离。如果是真正的正样本，这个距离为零；如果不是，这个距离表示身体上的预测误差量。我们在RICH-test上评估了三个HSC基线。Zou等人[101]使用双脚上的4个2D关键点的速度来预测接触；HuMoR[60]在重建人体动作时估计8个关节的接触。这两种方法估计的是稀疏关节的接触，而不是密集顶点，因此当方法预测关节接触时，我们将与关节对应的所有顶点标记为接触。POSA[26]需要一个在规范空间中的3D身体网格作为输入来采样密集的身体接触。我们对POSA的3D身体选择了两种方式进行评估：（1）使用SOTA身体回归器PIXIE[17]的结果，或者（2）使用真实身体来评估估计的身体姿势误差的影响。06.3. 主要结果0RICH-test的结果在表2中报告。我们可以看到HuMoR的检测分数最低，地理误差最高。这部分是因为它只考虑与平坦地面的接触，而RICH-test包含了更多多样的真实场景交互。POSA总体上具有较高的召回率，但代价是精确度较低，也就是说存在许多误报。比较行(c)和行(d)，我们可以看到使用真实身体的召回率明显更好。BSTRO的精确度比POSA高，但召回率较低。然而，它具有最高的F1分数和最低的地理误差，这表明它在精确度和召回率之间取得了良好的平衡。图6显示了一些视觉示例。RICH准确地拟合了SMPL-X身体和身体-场景接触。给定输入图像，BSTRO估计的场景接触更接近于地面真实情况，而POSAPIXIE经常产生误报（红色圆圈）和2_Drill_1, 4352021-06-15_Multi_IOI_ID_00176_PhoneSitEat, 350aSettings_4_greetingChattingEating_1, 158Guitar, cam0, 158viewing frame wipingTable, cam0, 472132800图4.RICH数据集。在每个场景中，我们使用6-8个静态相机和1个额外的移动相机捕捉主体的动作。顶部行：三个示例室外场景的扫描和示例3D身体网格。底部行：这些场景的RGB图像。颜色边框与相同颜色的相机图标相匹配。0(a) 足地接触在遮挡下 (th=5cm)0没有脚-地接触0（b）坐姿的场景接触（th=2.5cm）0图5. RICH（顶部）和POSA[26]（底部）中HSC注释的比较。PROX[25]中的嘈杂的身体拟合导致POSA中不理想的HSC标签：（a）遮挡下没有脚-地接触；（b）与椅子严重穿透。0有时会错过手部的接触。虽然训练数据集有限，BSTRO也适用于野外图像，如图6右侧所示。06.4. 泛化0为了分析BSTRO的泛化能力如何，我们将RICH-test分成几个子集。每个子集代表BSTRO是否观察到了相似的三个属性的图像：场景、人-场景交互（HSI）和主体。这使我们能够检查每个属性的重要性，并了解未来方法应该关注哪个方面。请注意，这是RICH的一个独特特点，因为现有的来自MoCap [48, 50]的HSC数据集和来自HPS数据集[30, 34,77]不支持这样的分析。在表3中，�表示BSTRO在训练期间看到了该属性的相似图像，而�表示没有看到。例如，第（a）行的图像与训练数据共享相同的场景和类似的HSI，但主体是新的。直观地说-0总的来说，这是一个简单的子集，确实在这种情况下得分最高。一旦HSI被保留，性能就会下降（第（b）行）。这种下降比保留场景（第（c）行）引起的下降更为明显。将每一行（b、c、d）与行（e）进行比较，我们观察到在训练中看到相似的HSI对帮助最大。看到相同的场景或相同的主体并不能保证性能的提升。最后，行（e）代表最具挑战性的子集，其中场景、HSI和主体在训练期间都没有见过。我们看到BSTRO仍然产生了与其他子集可比较的结果。子集（b）包含许多具有人-人遮挡的图像，例如图6左下角，这在一定程度上解释了为什么它是最具挑战性的。06.5. RICH-test上的HPS评估0除了评估人-场景接触，RICH还可以作为单目HPS方法的基准。与现有的使用真实图像的HPS基准（如3DPW[77]或Human3.6M[30]）不同，RICH中的真实场景接触为分析HPS方法的性能提供了一种新的方式。特别地，我们使用最近的单目HPS方法PIXIE[17]从RICH-test中回归SMPL-X身体。我们将估计的SMPL-X身体与第3.1节中的伪地面真实SMPL-X拟合进行比较，并比较在存在或不存在身体-场景接触时的误差。我们使用平均关节位置误差（MPJPE）和顶点对顶点误差（V2V）来衡量关节和身体网格之间的差异。对于自由移动的相机，我们在计算这两个误差之前应用Procrustes对齐（PA），因此得到PA-MPJPE和PA-V2V。Procrustes对齐消除了旋转、缩放和平移的差异，侧重于测量“纯身体姿势”的差异。PA隐藏了许多错误的来源，因此仅在没有可用的地面真实相机外参数时使用它。另一方面，对于校准的相机，我们仅通过对齐估计和-Multi-IOI_ID03126_Scene_ParkingLot_Calibration_03_CameraSettings_2_overFence_2, 00081_01.bmp000_00497, 1MultIOI_ID03553_Calib_02_Dips_1, 00445_00.bmp, 000_00238, 4MultIOI_ID03452_Calib_02_Pushup_2, 00323_03.bmp00_00769, 12021-07-08_Multi-IOI_03436_03594_LectureHall_YogaScene_ReparingProjector_1, 2068000_00896, 4132810输入SMPL-X拟合 GT HSC BSTRO POSA PIXIE0BSTRO在野外图像上的结果0图6. 左：RICH-test上的定性结果。GT HSC代表从SMPL-X拟合和场景扫描中计算出的地面真实人-场景接触。BSTRO比POSAPIXIE估计出更准确的场景接触。右：野外图像上的定性结果。0方法的精确度↑ 召回率↑ F1值↑ 几何误差↓0a. Zou等人[101] 0.277 0.609 0.359 17.48cm0b. HuMoR [60] 0.248 0.527 0.314 25.35cm0c. POSA [26] GT 0.311 0.809 0.418 23.68cm0d. POSA [26] PIXIE 0.312 0.699 0.399 21.16cm0e. BSTRO 0.640 0.552 0.559 9.94cm0表2. RICH-test的评估。POSAGT表示将真实的人体作为输入，而POSA PIXIE则使用PIXIE[17]估计的人体。0将真实的人体对齐到骨盆位置，用“TR”前缀表示。我们忽略了普遍存在的脚-地接触，并比较了有意义的场景接触与没有场景接触时的结果。平均而言，包含有意义的场景接触的图像的TR-MPJPE/TR-V2V误差为214.0mm/172.81mm，高于仅有脚-地接触的图像的161.81mm/121.71mm。这部分是因为场景接触通常伴随着场景遮挡，这显示了单目HPS方法可以改进的方向。移动相机的相应误差为84.15mm/83.16mmPA-MPJPE/PA-V2V，有意义的接触图像和无接触图像分别为63.67mm/64.37mm。我们再次观察到，场景接触的存在使得HPS更具挑战性，导致更高的误差。这表明场景接触影响问题的各个方面：从纯粹的身体姿势到全局方向和平移。07. 结论0虽然从图像中估计3D人体姿势和形状取得了快速进展，但这项工作大部分忽略了场景以及身体与场景的互动。然而，捕捉和分析身体-场景接触对于详细理解人类行为至关重要。为了解决这个问题，并帮助研究社区研究这个问题，0场景HSI主题p. ↑ r. ↑ F1 ↑ 几何误差 ↓0a. � � � 0.835 0.623 0.685 3.69cm0b. � � � 0.537 0.304 0.358 10.02cm0c. � � � 0.709 0.686 0.677 3.61cm0d. � � � 0.

下载后可阅读完整内容，剩余1页未读，立即下载