遮挡下的3D人体网格恢复方法：OCHMR

37 浏览量更新于2023-10-25 收藏 21.73MB PDF 举报

文件链接

自上而下方法

身份认证购VIP最低享 7 折!

30元优惠券

17150遮挡人体网格恢复0Rawal Khirodkar 1 Shashank Tripathi 2 Kris Kitani 101 卡内基梅隆大学 2 马克斯普朗克智能系统研究所，图宾根0https://rawalkhirodkar.github.io/ochmr0图像中心图（我们的）OCHMR（我们的）ROMP0图1。为了处理严重的人与人之间的遮挡，我们提出的方法OCHMR使用预测的身体中心图将深度网络条件化。与自下而上的ROMP[58]相比，自上而下的OCHMR为遮挡下的每个个体输出像素对齐的网格估计。0摘要单目人体网格恢复的自上而下方法有两个阶段：（1）检测人体边界框；（2）将每个边界框视为独立的单人网格恢复任务。不幸的是，单人假设在存在多人遮挡和拥挤的图像中不成立。因此，自上而下方法在严重的人与人之间遮挡下恢复准确的3D人体网格存在困难。为了解决这个问题，我们提出了Occluded Human MeshRecovery（OCHMR）-一种新颖的自上而下网格恢复方法，它通过图像空间上下文来克服单人假设的局限性。该方法在概念上很简单，可以应用于任何现有的自上而下架构。除了输入图像外，我们还将自上而下模型与图像中的空间上下文（以身体中心热图的形式）进行条件化。为了从预测的身体中心图中推理，我们引入了上下文归一化（CoNorm）块，以自适应调节自上而下模型的中间特征。上下文条件有助于我们的模型区分严重重叠的人体边界框，使其对多人遮挡具有鲁棒性。与最先进的方法相比，OCHMR在具有挑战性的多人基准数据集（如3DPW、CrowdPose和OCHuman）上实现了卓越的性能。具体而言，我们提出的上下文推理架构应用于具有ResNet-50骨干的SPIN模型，结果为75.2PMPJPE。03DPW-PC，CrowdPose上的23.6AP和OCHuman上的37.7AP，相对于基线分别提高了6.9 mm、6.4AP和20.8 AP。1.引言0从单个图像中准确估计3D人体网格在建模人-场景交互、理解人类行为、增强现实/虚拟现实和机器人技术等方面具有广泛的应用。尽管最近的方法[4, 11, 25, 32, 43, 48, 50,66]在包含单个人的图像中表现出色，但在包含多个遮挡人物的复杂现实场景中进行人体网格恢复仍然是一项具有挑战性的任务。这部分原因可以归因于现有方法所做的简化假设。例如，大多数自上而下的方法期望输入图像中只有一个主体，这会影响在包含严重的人与人之间遮挡（如拥挤场景）的野外场景下的鲁棒性。在本文中，我们通过减轻自上而下方法中单人假设的局限性来解决多人场景中的人体网格恢复问题。当前的人体网格恢复方法可以分为自上而下方法和自下而上方法。自上而下方法[7, 10, 12, 24, 31, 35–37,67]通过依赖于人体检测器来检测图像中每个人的个体边界框，将问题简化为单个人体网格恢复的更简单任务。由于每个边界框被缩放到相同的大小，自上而下方法对尺度变化不敏感。17160以适应主体之间的尺度变化，并且可以实现像素精确的网格对齐[10, 67]。相反，自下而上的方法[58, 64,68]同时预测输入图像中所有主体的网格，但由于计算约束，限制了固定的输入分辨率。例如，ROMP[58]是一种自下而上的方法，从调整大小的512×512输入中恢复有限数量的人体网格，而SPIN[32]是一种自上而下的方法，将每个边界框缩放到224×224，保留每个人的更高输入分辨率（见图1）。这一观察结果也已经在Cheng等人的研究中讨论过[6]，尽管是在2D人体姿态估计的背景下。因此，自上而下的方法目前是各种多人基准测试中的最佳表现者[18, 21, 23, 46, 55,61]。尽管具有这些优势，由于单人假设，当面对拥挤场景等多人输入时，自上而下的方法被迫选择单个合理的网格来进行检测边界框。自下而上的方法没有这个限制，通常在遮挡下表现更好。一个通用的方法应该具备这两个特点-对尺度变化和人与人之间的遮挡具有鲁棒性。为此，我们通过从输入边界框预测多个网格来重新思考自上而下的人体网格恢复。我们将自上而下模型与图像的空间上下文（以身体中心图的形式）进行条件化，参见图2。我们选择使用中心图来表示遮挡下的人类是受到人群计数文献[44, 56,62]和最近的检测工作[8, 71,72]的启发。我们的方法OCHMR从输入图像中的感兴趣人物的特定局部中心图中预测输出网格。与自下而上的方法类似，我们还使用全局中心图的信息来理解整体场景上下文，这对于遮挡推理是有帮助的。通过这种策略，我们获得了两全其美的效果-OCHMR实现了类似自上而下方法的像素精确的网格对齐，并且对遮挡具有类似自下而上方法的鲁棒性（见图1）。为了设计一种能够使用中心图进行上下文条件化的自上而下架构，我们采用特征归一化的机制[9, 16,51]，并提出了一种新颖的上下文归一化（CoNorm）块来处理全局和局部中心图。CoNorm块用于在深度特征骨干网络的多个深度上注入上下文信息。空间上下文对于3D遮挡推理是必要的，而CoNorm块允许对网络的中间特征进行自适应归一化，而不改变骨干网络。我们表明，与将中心图与输入图像I进行早期融合（例如通道级串联）相比，CoNorm可以有效利用图像的上下文信息。OCHMR是通用的，可以轻松扩展到其他自上而下的人体网格恢复方法。虽然使用空间上下文使我们的方法能够推理遮挡，但我们的方法还必须推理一组3D人体网格的交集。为了解决这个问题，0图像局部中心图A 人体网格A0全局中心图局部中心图B 人体网格B0图2.OCHMR通过预测身体中心图来利用图像的空间上下文进行遮挡推理。深度网络使用输入图像，主体特定的局部中心图和场景特定的全局中心图来预测网格输出。0根据CRMH[19]，我们使用相互渗透损失来惩罚重建网格之间的交叉，并使用可微分的深度排序损失进行深度一致的人体网格恢复。此外，我们还使用了训练时的数据增强，如缩放和裁剪，这使得OCHMR能够从各种身体中心位置预测网格。我们展示了我们的方法在严重遮挡下估计的身体中心存在误差时也具有鲁棒性。我们的实证结果表明，OCHMR不需要与实际身体中心对应的精确中心图，而是可以与其附近的任何点一起工作。总体而言，OCHMR在各种数据集上优于自上而下和自下而上的方法。对于具有更多重叠人物的混乱场景的具有挑战性的数据集，如3DPW-PC[70]，CrowdPose[34]和OCHuman[69]，OCHMR在3D重建误差（PMPJPE）和2D关键点平均精度（AP）方面取得了新的最先进水平，分别在验证集上达到77.1 PMPJPE，21.4 AP和24.8AP，超过了自下而上的方法（表1）。此外，在使用真实边界框进行评估时，OCHMR在OCHuman和CrowdPose数据集上分别将SPIN[32]提高了20.8 AP和6.4 AP。总之：0•OCHMR通过解决由单人假设引起的限制，推进了自上而下的人体网格恢复方法。我们的方法利用中心图的空间上下文来从输入图像中预测多个网格输出。17170•我们引入了新颖的上下文归一化（CoNorm）块，以在自上而下的网络的多个深度上注入全局和局部中心图信息。0•我们的方法在遮挡的3DPW-PC，CrowdPose和OCHuman数据集上取得了最先进的结果。从经验上讲，我们还展示了OCHMR对嘈杂的身体中心估计具有鲁棒的3D推理能力，使用多人损失。02. 相关工作0深度学习已经显著推动了3D人体网格恢复[7, 10, 12, 24,29-32, 35-37, 60,67]，促进了在严重多人遮挡下的网格恢复这一更具挑战性的任务[19, 34, 58, 69,70]，这也是本文的主要关注点。偏向人体网格恢复基准数据集。大多数用于学习人体网格恢复的基准数据集[18, 21,23, 46, 55, 61,63]都专注于单个人，不能准确地代表现实世界中可能出现的遮挡分布。Human3.6M[18]，HumanEva[55]和TotalCapture[23]是使用运动捕捉（mocap）系统和光学标记收集的流行数据集。虽然提供了准确的注释，但由于缺乏背景变化，图像中只有一个主体，图像复杂度有限。相比之下，像MPI-INF-3DHP[46]，PanopticStudio[21]和3DPW[61]这样的数据集包含多人注释，但人与人之间的遮挡有限-不到27%的所有注释都有拥挤（在IoU0.5下）。尽管以前的方法[24, 29, 30, 32, 35, 36,67]利用了来自COCO[39]，MPII[1]，LSP-Extended[20]等数据集的2D关键点注释，但已知2D数据集也包含类似的偏见[28, 53,69]。这些偏见影响了最先进方法中的关键设计决策，导致在严重遮挡下的泛化能力较差[19,58]。最近，提出了一些具有严重遮挡的具有挑战性的数据集，如OCHuman[69]，CrowdPose[34]和3DPW-PC[70]，以捕捉这些偏见。OCHMR在这些具有挑战性条件下显著改进了现有的工作。自上而下的人体网格恢复。自上而下的方法[7, 10, 12, 24, 31, 35-37,67]在人体边界框内估计单个人的3D人体网格。边界框通常使用人体检测器[3, 5, 14, 38, 41,52]生成。由于输入边界框被裁剪和缩放到相同的大小，自上而下的方法对图像中的人体尺度变化不太敏感。相比之下，自下而上的方法必须处理尺度变化，这会影响重建结果中的像素对齐。因此，大多数最先进的2D姿态估计方法[40,45, 57,65]也是自上而下的。然而，自上而下的方法本质上假设只有一个人0在输入图像中，它们经常在多人场景中的遮挡下失败。最近的工作，如[4, 7, 22, 47, 54,60]，使用2D/3D姿势作为输入，以及用于人体网格恢复的边界框。然而，在遮挡下获得准确的2D姿势是困难的，并且姿势错误，如关节交换[53]在3D重建[22]期间被放大。CRMH[19]通过使用每个人的RoI对齐[14]特征来处理多人场景，以预测SMPL[43]参数。然而，依赖于边界框级别的特征使得在两个重叠的边界框之间有效区分变得困难。OCHMR通过将自上而下的模型置于图像上下文中来解决这些问题，以体-中心的形式表示，这种表示有助于在多人遮挡下解决歧义。自下而上的人体网格恢复。与自上而下的方法不同，只有少数方法使用自下而上的范式进行人体网格恢复。Zanfir等人[64]使用中间3D姿势以自下而上的方式估计每个人的3D网格。ROMP[58]使用固定分辨率的体-中心图来消除遮挡下的多个人之间的歧义。由于固定的输入尺寸，512×512，ROMP仅能预测少量网格。相比之下，OCHMR是自上而下的，可以利用将主体边界框的输入调整为更高分辨率以进行像素精确的形状估计。作为自上而下的方法，OCHMR可以应用于输入图像中检测到的所有人。03. 方法0OCHMR充分利用了自上而下和自下而上方法在严重的人-人遮挡/拥挤下的多人网格恢复中的优势。在本节中，我们简要描述了作为基线架构在我们方法中使用的自上而下方法。然后，我们提供了我们的上下文表示，即本地和全局中心图以及上下文估计网络的详细信息。最后，我们描述了以Context Normalization(CoNorm)块和多人损失的形式提出的架构改进。自上而下的人体网格恢复。自上而下的人体网格恢复旨在从输入图像 I∈ R H × W × 3预测3D人体网格。大多数自上而下的方法将此问题转化为估计人体模型（如SMPL [43]）和相机参数的参数。我们通过Θ = [θ pose, θ shape, θ camera]表示身体姿势、形状和相机参数，其中 θ pose ∈ R 24 × 6，θ shape ∈ R 10 ，θ camera ∈ R 3 。姿势参数 θ pose是24个身体关节的6D表示[73]，包括SMPL身体的全局根方向。形状参数 θ shape表示PCA形状空间的前10个系数。相机参数 θ camera描述2D尺度 s 和平移 t = (t x, ty)。SMPL是线性且完全可微分的，使其成为适合学习方法的表示形式。17180卷积0卷积0卷积0尺度 �0偏差 �0X0尺度 �0偏差 �0图像0共同规范0图像0图像0图像0共同规范0共同规范0全局中心地图+本地中心地图03D网格0上下文0图3. 上下文规范化（CoNorm）块（蓝色）学习中间特征 X（红色）的空间仿射变换的尺度 σ 和偏差 β参数，从图像上下文中。左：我们以通道方式连接2D全局和本地中心图以表示图像上下文。右：我们在深度神经架构的各个深度插入多个CoNorm块 - 在整个网络中注入高分辨率的上下文信息对于在遮挡下预测准确的3D网格至关重要。0类似于[26,32]，我们将深度回归模型P定义为人体网格恢复的基线自顶向下架构。训练和推理中的边界框被缩放为H×W，并作为输入提供给P。设Θ_gt表示与输入图像I中的人体对应的地面真实SMPL和相机参数。深度回归模型P将输入I转换为单个3D网格M，使得Θ =P(I)。P被训练以最小化各种2D/3D姿势和形状损失的总和（使用2D姿势注释和分割掩码，如果有的话），表示为L(Θ_gt, Θ) [32]。03.1. 遮挡人体网格恢复0我们提出修改自顶向下的深度回归模型P来预测多个网格。设N为图像I中存在的地面真实主体数量。N被设置为图像中至少有5个可见2D关键点的主体总数。设Θ_gt0, Θ_gt1, ...,Θ_gtN−1为相应的地面真实网格参数。我们修改后的深度回归模型P为输入I预测N个实例，Θ0, Θ1, ...,ΘN−1。这是通过将网络P分别对每个主体个体地以空间上下文C_i进行条件化来实现的。P接受I和C_i作为输入，并预测Θi = P(I, C_i)，其中i ∈ {0, 1, ...,N−1}。我们将OCHMR的单人损失L_single定义如下，0L_single =1/N0i = 0 L(Θ_gt i, Θ_i) (1)0在推理过程中，我们改变空间上下文C_i，从同一输入图像I中提取多个网格预测。在严重重叠的人群情况下，基线自顶向下方法很难从相似的图像块I中估计出多样的身体网格M。OCHMR使用空间上下文C来解决这种多人情况下边界框输入表示的隐含模糊性。03.2. 全局和局部中心图估计0我们的自顶向下框架在很大程度上依赖于空间上下文C的表示。定义一个明确且对遮挡具有鲁棒性的表示是至关重要的。受[8,58]的启发，我们选择身体中心来编码图像的空间上下文C。具体而言，我们将第i个实例的上下文信息表示为C_i =(C_global,C_local-i)，其中C_global是图像I中所有N个实例的身体中心热图，C_local-i是第i个实例的身体中心热图（见图2）。通过对C_global中的像素位置进行阈值处理和迭代，计算得到C_local-i。C_local-i向网络提供了关于感兴趣主体的信息，而C_global将主体放置在邻居的上下文中，从而帮助网络区分遮挡的人物。身体中心被定义为可见躯干关节（颈部、左/右肩膀、骨盆和左/右髋部）的中心点。当所有躯干关节都不可见时，中心点是可见关节的平均值。根据[58]的方法，我们根据地面真实2D姿势计算出地面真实身体中心。所有地面真实2D身体中心位置都被转换为C_gt_global，它是一个大小为H×W的热图，表示任意空间位置上身体中心的概率[57]。在推理过程中，我们使用全卷积[42]神经网络F从输入图像I中预测C_global。F被训练以最小化均方误差损失L_context= MSE(C_gt_global,C_global)。最后，第i个实例的上下文C_i是C_global和C_local-i的逐通道连接，即C_i ∈ R H × W × 2。03.3. 上下文归一化块0一个关键的挑战是设计一个能够将空间上下文作为条件输入的架构。一个朴素的早期融合方法是简单地将输入图像I与空间上下文C进行连接。类似地，晚期融合会将网络中后面的层的特征图与适当下采样的上下文C进行连接。然而，Lcollision≠17190这两种方法都无法提高性能。我们描述了上下文归一化（CoNorm）块，可以很容易地引入到任何现有的特征提取骨干中，以解决这个问题（见图3）。关键思想是CoNorm允许使用条件输入 C 对中间特征图进行归一化。深度回归模型 P使用CoNorm块利用上下文信息从输入图像 I预测多个网格。类似于批归一化[17]，CoNorm通过对基于C的网络中间特征应用仿射变换来学习影响神经网络输出的能力。设 X ∈ R H' × W' × D 为深度网络 P中的中间特征。CoNorm块由上下文 C 上的操作 Φlatent、Φ scale 和 Φ bias 组成。C 被空间下采样到与 X相同的2D分辨率 H' × W'。0λ = Φ latent ( C ) , (2)0σ = Φ scale ( λ ) , (3)0β = Φ bias ( λ ) , (4)0X' = σ * X + β . (5)0Φ latent 将 C i 映射到 V 维的潜空间 λ 中，即 λ ∈ R H' ×W' × V。Φ scale 和 Φ bias 使用潜向量 λ 分别预测 σ 和β。σ，β ∈ R H' × W' × D。我们使用预测的 σ 和 β对中间特征 X进行逐元素操作，通过元素操作将其归一化为输出 X'。03.4. 多人损失0在多人场景中，回归模型 P通常可以预测出相互交叉且深度排序不一致的网格。我们采用了两种多人损失方法，即互穿损失和深度排序损失，参考图4。这里我们简要描述了这些损失，详细信息请参考[19]。互穿损失。令 Ω 为修改后的三维空间中的有符号距离场（Signed DistanceField，SDF）[13]。对于人体网格 M 内的所有点，Ω取正值，与网格表面的距离成正比，其他地方为0。我们计算一个单独的距离场 Ω i0互穿损失深度排序损失0图4.互穿损失防止网格相交。深度排序损失有助于深度一致的网格输出。0对于图像 I 中的每个人体网格 M i ∈ {0, 1, ...,N}，我们定义网格 M i 与网格 M j 之间的成对互穿损失 L ijcollision 如下，0Ω SDF ( x, y, z ) , 0) , (6)0L ij collision =0v ∈ M j Ω i ( v ) , (7)0N∈0i =0N∈0j = 1 i≠ j0L ij collision . (8)0L collision是有效的成对网格碰撞的总和（图4）。深度排序损失。我们现在定义深度排序损失 Ldepth。关键思想是利用COCO数据集[39]中提供的地面实例分割图。我们使用可微分渲染器[27]将所有网格及其对应的深度图渲染到图像平面上，并根据与图像 I的地面实例分割图的一致性优化顶点位置（图4）。最后，我们训练网络 P 来最小化损失 L，其中 w single、w collision和 w depth 是损失权重，0L = w single L single + w collision L collision + w depth L depth(9)04. 实验04.1. 实现细节0OCHMR。为了与其他方法[32,58]进行公平比较，我们将ResNet-50[15]作为网格回归模型 P 的默认骨干，将HRNet-W32[57]作为上下文估计器 F的骨干。我们在骨干的每个ResNet块之后插入CoNorm块。我们将CoNorm的潜空间维度 K设置为128，用于所有实验。输入图像被调整为224×224，保持相同的长宽比并用零填充。按照[57]的方法，使用大小为6像素的高斯函数生成局部/全局中心热图。训练时的数据增强、训练计划和所有其他超参数设置与[32]相似。损失权重设置为 w single = 1，w collision = 0.2，w depth =0.4，以确保加权损失项具有相同的数量级。局部/全局中心热图的阈值设置为0.3。训练数据集。与[32]类似，我们使用MPI-INF-3DHP[46]、COCO[39]、MPII[1]、LSP-Extended[20]进行训练（由于许可问题，我们不使用Human3.6M[18]）。只使用训练集，遵循标准的分割协议。我们使用MPI-INF-3DHP的SMPL标注和COCO、MPII和LSP-Extended的2D标注。使用COCO的实例分割掩码计算 Ldepth。评估基准。3DPW-PC[70]被用作评估3D网格/关节误差的主要基准DSD-SATN [59]-69.5-SPIN [32]96.959.2116.4I2L-MeshNet* [47]93.258.6-EFT* [22]-54.2-VIBE* [30]93.556.5113.417200方法额外 3DPW-PC ↓ OCHuman ↑ CrowdPose ↑0数据 MPJPE PMPJPE PVE AP AP 50 AP 75 AP M AP L AP AP 50 AP 750SPIN [ 32 ] � 129.6 82.6 157.6 12.7 46.8 19.4 17.8 26.2 16.4 40.1 10.60PyMaf [ 67 ] � 126.7 81.3 154.3 14.3 48.7 21.5 18.0 28.7 17.4 42.7 13.0 ROMP � [ 58 ] � 115.6 75.8 147.5 19.8 56.2 25.0 19.3 32.928.5 58.8 24.70SPIN [ 32 ] � 132.7 83.7 162.3 11.1 41.4 18.6 15.6 25.9 14.8 38.5 9.5 ROMP [ 58 ] � 119.7 79.7 152.8 15.6 55.0 23.6 18.7 30.018.9 44.6 13.80OCHMR-SPIN � 117.5 (-2.2) 77.1 149.6 24.8 (+9.2) 60.7 28.6 22.3 34.2 21.4 (+2.5) 48.3 16.50使用真实边界框0SPIN [ 32 ] � 128.4 82.1 155.7 16.9 56.1 25.4 20.0 31.4 17.2 42.4 11.2 PyMaf [ 67 ] � 123.6 80.4 153.8 19.3 58.0 27.2 21.3 32.720.8 46.5 15.70OCHMR-SPIN � 112.2 75.2 145.9 37.7 76.4 33.0 25.0 37.7 23.6 51.1 18.70OCHMR-PyMaf � 105.8 (-17.8) 72.6 142.0 39.1 (+19.8) 78.5 35.1 27.2 39.8 26.3 (+5.5) 52.9 20.10表1. 使用FasterRCNN[52]和真实边界框对最先进方法进行严重遮挡的比较。OCHMR在所有基准上明显优于自顶向下和自底向上的方法。ROMP�在CrowdPose上进行训练。0因为它包含了野外多人视频以及丰富的2D/3D注释。3DPW-PC是3DPW[61]的人体遮挡子集。我们还在Crowdpose[34]和OCHuman[69]上评估了OCHMR在严重遮挡下的性能，这些是拥挤的野外2D姿势基准。为了完整起见，我们还在3DPW和COCO等常规数据集上对我们的方法进行了基准测试。评估指标。我们报告了平均关节位置误差（MPJPE）、经过Procrustes对齐的MPJPE（PMPJPE）和顶点误差（PVE）在3D数据集上的结果。MPJPE和PMPJPE评估了3D关节旋转的准确性，PVE评估了3D表面误差。此外，为了评估遮挡下的姿势准确性，我们报告了各种对象关键点相似度的标准度量，如AP、AP 50、AP 75、APM、AP L、AR[34, 39]。我们还报告了使用FasterR-CNN[52]检测器获得的边界框的结果。4.2.与最先进方法的比较0遮挡基准。为了验证在遮挡情况下的稳定性，我们在多个遮挡基准上评估OCHMR。首先，在人体遮挡的3DPW-PC、OCHuman和Crowdpose上的结果如表1所示，表明OCHMR在性能上明显优于之前的最先进方法[32, 58,67]。此外，在图5中，我们定性地展示了OCHMR在严重遮挡下与自顶向下的SPIN[32]和自底向上的ROMP[58]相比的鲁棒性。除了SPIN，我们还采用自顶向下的PyMaf[67]用于OCHMR。此外，当使用真实边界框时，OCHMR相对于基线的提升是显著的。OCHMR与PyMaf一起在遮挡下实现了新的最先进的网格恢复。这些结果表明，使用高分辨率的输入图像以及全局/局部中心图对于遮挡推理至关重要。常规基准。我们还将OCHMR与其他方法在3DPW（表2）和COCO（表3）等常规基准上进行了比较。OCHMR在所有基准上都优于自顶向下和自底向上的方法。ROMP�在CrowdPose上进行训练。0事实上，OCHMR在非遮挡情况下改进了基线SPIN的MPJPE误差5mm。在不使用额外监督的情况下，我们的方法在具有ResNet-50骨干的情况下实现了可比较的性能。我们在COCO数据集上也超过了其他方法。04.3. 分析0我们在具有真实边界框的3DPW-PC数据集上进行了所有分析评估。CoNorm块架构。我们在表4中将CoNorm块与早期融合和后期融合进行了比较。在早期融合中，我们对输入图像、全局中心图和局部中心图进行了逐通道连接。在后期融合中，我们将第三个ResNet块后的中间特征与下采样的上下文信息进行了连接。我们观察到在多个高分辨率上下文信息注入时的效果。0方法 H3.6M MPJPE ↓ PMPJPE ↓ PVE ↓0HMR [ 25 ] � 130.0 76.7 - Kanazawa等人 [ 26 ] � 116.5 72.6 139.30Arnab等人 [ 2 ] � - 72.2 - GCMR [ 33 ] � - 70.2 -0ROMP（ResNet-50）[ 58 ] � 91.3 54.9 108.30PyMaf* [ 67 ] � 92.8 58.9 110.1 ROMP（ResNet-50）* [ 58 ] � 89.353.5 105.60SPIN [ 32 ] � 94.7 60.2 111.4 OCHMR（我们的方法） � 89.7 (-5.0) 58.3 (-1.9)107.1 (-4.3)0表2. 在3DPW测试集上使用协议2 [ 58]与最先进的方法进行比较。*表示与SPIN [ 32]相比的额外训练数据。OCHMR不使用Human3.6M [ 18]，并且实现了与使用额外监督的先前方法相当的结果。115.376.2148.7113.675.6147.0112.275.2145.9ult17210方法 AP ↑ AP 50 ↑ AP 75 ↑ AP M ↑ AP L ↑ AR ↑0SPIN [ 32 ] 11.3 28.6 5.8 10.2 11.4 22.8 CRMH � [ 19 ] 12.6 33.8 7.613.2 12.8 25.00PyMaf � [ 67 ] 13.8 35.8 9.7 14.8 14.2 28.9 ROMP [ 58 ] 14.7 36.79.8 15.3 14.8 29.00OCHMR（我们的方法）15.3 (+0.6) 38.7 10.2 16.7 15.9 29.40使用真实边界框0SPIN [ 32 ] 13.0 33.8 7.0 13.6 12.9 26.8OCHMR（我们的方法）17.4 (+4.4) 41.9 11.8 18.2 17.4 32.40表3.在COCO验证集上与最先进的方法进行2D关键点投影的比较。�表示与OCHMR相比的额外训练数据。0以CoNorm块的形式在多个深度中注入上下文对于准确的人体网格恢复在遮挡下非常重要。此外，我们改变了OCHMR骨干网络中四个CoNorm块的潜在空间维度K。我们展示了增加K可以改善在遮挡下的性能，相比基线SPIN，K =128可以实现参数开销和性能之间的最佳平衡。多人损失的影响。为了理解多人损失（如相互穿透损失Lcollision和深度排序损失L depth）的影响，我们在OCHMR框架中使用损失权重进行剔除研究，结果见表5。当同时使用这两个损失时，我们实现了最佳性能，然而使用有监督的L depth 损失比自监督的L collision损失获得更好的收益。值得注意的是，即使只使用L single，OCHMR仍然明显优于基线SPIN。上下文的选择。CoNorm块允许将网络P与空间上下文C的各种表示进行条件化。表6显示了使用真实和预测（使用F）的局部和局部+全局中心图以及2D关键点作为C的效果。我们使用在COCO数据集上训练的现成姿势估计网络HRNet-W48 [ 57 ]作为我们的F。在2D关键点的情况下，C是一个对应于关键点位置的17通道热图。与局部相比，使用全局中心图和2D关键点作为C 的效果更好。0方法 MPJPE ↓ PMPJPE ↓ PVE ↓0SPIN 128.4 82.1 155.7 OCHMR，早期融合 115.8 76.4150.10OCHMR，晚期融合 119.8 80.2 151.80OCHMR，K = 16 116.8 76.9 150.20OCHMR，K = 32 114.2 76.2 148.6 OCHMR，K = 64113.0 75.0 146.40OCHMR，K = 128 112.2 75.2 145.9 OCHMR，K = 256113.1 74.7 146.10表4.CoNorm块与上下文的早期和晚期融合以及CoNorm块潜在空间维度K的变化的比较。在多个深度注入上下文信息优于早期/晚期融合。 K的增加导致更好的上下文归一化，在遮挡下性能更好。0L single L collision L depth MPJPE ↓ PMPJPE ↓ PVE ↓0表5. OCHMR中多人损失的消融实验. 我们将wsingle默认设置为1以确保模型收敛. 我们发现Ldepth的相对重要性大于L collision.0中心图的添加有助于改善在遮挡下的性能. 有趣的是,使用地面真实2D关键点进行条件化优于所有其他选择. 然而,当地面真实关键点不可用时, 身体中心优于估计的2D关键点,因为在遮挡下估计准确的2D姿势比估计身体中心更具挑战性.0上下文 C 地面真值由网络F估计0MPJPE ↓ PMPJPE ↓ MPJPE ↓ PMPJPE ↓0本地中心 113.0 76.4 114.8 77.10本地+全局中心 111.4 74.7 112.2 75.2 2D关键点 109.5 73.9116.8 78.90表6. OCHMR中各种上下文选择的比较. 当由网络F估计时,本地+全局中心图的表现优于其他选择.0局限性. OCHMR是一种多阶段的自上而下方法,因此在推理过程中不是实时的.尽管OCHMR改善了多人遮挡下的性能,但在截断和极端裁剪下仍容易失败, 这是由于物体遮挡引起的.此外, OCHMR无法处理极端姿势和形状,这是由于缺乏训练数据, 如补充材料中所示. 在未来,OCHMR可以扩展并与最近的进展结合,以处理各种类型的遮挡[31, 49, 70].05. 结论0大多数用于人体网格恢复的自上而下方法假设输入中只有一个人, 这导致它们在严重的人-人遮挡下失败. 在这项工作中,我们引入了OCHMR, 一种新颖的自上而下方法,用于处理拥挤场景中的多个被遮挡人物.我们的关键思想是将自上而下模型与图像的空间上下文进行条件化, 以本地和全局中心图的形式,这使得OCHMR能够有效地区分重叠的人体.我们提出了上下文归一化(CoNorm)块,这是一种新颖的架构改进,可以轻松扩展到任何现有的自上而下方法.虽然OCHMR从自下而上方法中汲取灵感,但我们保留了自下而上和自上而下方法的优点,从而实现了一种能够处理多人遮挡并实现像素对齐重建结果的方法.17220图5. OCHuman验证集上的定性结果. 每个图像(从左到右)显示RGB图像, SPIN [32]的预测结果, ROMP [58]的预测结果和OCHMR的预测结果.由于遮挡, SPIN经常错过背景中的人物, 而OCHMR可以恢复. 与ROMP相比, OCHMR输出具有正确深度排序的像素对齐网格.请参见补充材料中的其他结果.17230参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, andBernt Schiele. 2D人体姿势估计: 新的基准和最新技术分析.在IEEE计算机视觉和模式识别会议论文集中, 第3686-3693页,2014. 3 , 50[2] Anurag Arnab, Carl Doersch, and Andrew Zisserman.在野外利用时间上下文进行3D人体姿势估计.在IEEE/CVF计算机视觉和模式识别会议论文集中, 第3395-3404页,2019. 60[3] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-YuanMark Liao. Yolov4: 目标检测的最佳速度和准确性.arXiv预印本arXiv:2004.10934, 2020. 30[4] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, and Michael J Black. Keep itsmpl: 从单张图像自动估计3D人体姿势和形状.在欧洲计算机视觉会议上, 第561-578页. Springer, 2016. 1 , 30[5] Bowen Cheng，Yunchao Wei，Honghui Shi，RogerioFeris，Jinjun Xiong和ThomasHuang。重新审视rcnn：唤醒更快的rcnn的分类能力。在欧洲计算机视觉会议（ECCV）论文集中，第453-468页，2018年。30[6] Bowen Cheng，Bin Xiao，Jingdong Wang，HonghuiShi，Thomas S Huang和LeiZhang。Higherhrnet：面向尺度感知的表示学习用于自下而上的人体姿势估计。在2020年IEEE/CVF计算机视觉和模式识别会议论文集中，第5386-5395页。2，30[7] Hongsuk Choi，Gyeongsik Moon和Kyoung MuLee。Pose2mesh：用于从2D人体姿势恢复的图形卷积网络。在欧洲计算机视觉会议上，第769-787页。Springer，2020年。1，30[8] Kaiwen Duan，Song Bai，Lingxi Xie，HonggangQi，Qingming Huang和QiTian。Centernet：用于目标检测的关键点三元组。在2019年IEEE/CVF国际计算机视觉会议论文集中，第6569-6578页。2，40[9] Vincent Dumoulin，Jonathon Shlens和ManjunathKudlur。艺术风格的学习表示。arXiv预印本arXiv:1610.07629，2016年。20[10] Sai Kumar Dwivedi，Nikos Athanasiou，MuhammedKocabas和Michael JBlack。使用可微分的语义渲染从图像中回归人体。在2021年IEEE/CVF国际计算机视觉会议论文集中，第11250-11259页。1，2，30[11] Peng Guan，Alexander Weiss，Alexandru OBalan和Michael JBlack

下载后可阅读完整内容，剩余1页未读，立即下载