多人身体网格估计的单级模型及其效率和准确性

130 浏览量更新于2024-01-22 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

546实体网格作为点张建锋1于东东2刘俊浩1聂学诚3冯佳时11新加坡国立大学2字节跳动AI Lab3依图科技{zhangjianfeng，liewjunhao}@ u.nus.eduyudongdong@bytedance.comelefjia@nus.edu.sg摘要在这项工作中，我们认为具有挑战性的多人三维人体现有的方法大多是基于两个阶段的--一个阶段用于人定位，另一个阶段用于个体身体网格估计，这导致了具有高计算成本的冗余流水线和用于复杂场景（例如，被遮挡的人实例）。在这项工作中，我们提出了一个单级模型，身体网格作为点（BMP），以简化流水线和提高效率和性能。BMP采用了一种新的方法，将多个人物实例表示为空间深度空间中的点，其中每个点与一个人体网格相关联。基于这种表示方法，BMP可以通过并行地局部化人体实例点并估计相应的人体网格，在单阶段中直接预测多个人体的人体为了更好地推理同一场景中所有人的深度顺序，BMP设计了一种简单而有效的实例间顺序深度损失，以获得深度一致的人体网格估计。BMP还介绍了一种新的关键点感知增强，以提高模型的鲁棒性，以闭塞的人的情况。在基准Panoptic、MuPoTS- 3D和3DPW上的综合实验清楚地证明了BMP用于多人身体网格估计的最新效率，以及出色的准确性。代码可以在https://github.com/jfzhang95/BMP上找到。1. 介绍三维人体网格重建的目的是从图像中重建出人体实例的三维全身网格或者视频作为一项基本但具有挑战性的任务，它已被广泛应用于动作识别[63]，虚拟试穿[41]，运动重定向[35]等。随着最近在单人全身网格恢复方面的无表进展[24，27，3，25]，更现实和更具挑战性的设置引起了越来越多的关注，即。从单个图像估计多个人的身体网格。用于多人网格恢复的现有方法是图1. 我们的单级解决方案。该模型将每个人实例表示为其身体的中心点实例定位和人体网格恢复，然后直接预测从中心点的功能，使多个人在一个单一的阶段同时reproxec-tion。最好用彩色观看。主要是两个阶段的解决方案，包括自上而下[20]和自下而上[69]的方法。前者首先通过人检测器定位每个实例，然后在此基础上单独恢复3D网格;自底向上方法首先估计人关键点，然后通过约束优化联合重建图像中的多个3D人体[69]。虽然具有显著的准确性，但上述范例由于计算冗余而效率低下。例如，前一种方法单独估计每个人的身体网格，因此总计算成本随着图像中的人的数量线性增长，而后者需要将关键点分组到对应的人中并迭代地推断身体网格，导致高计算成本。为寻求更有效及更精简的管道，我们考虑探索单阶段解决方案。尽管单阶段方法在2D关键点估计[43]和对象检测任务[75，59]上的近期流行和有前途的性能，但用于多人网格恢复的单阶段流水线几乎没有探索，因为仍然不清楚如何在单个阶段内有效地整合人员定位和网格恢复步骤。在这项工作中，我们提出了一个新的实例表示多人身体网格恢复，代表多个人的实例作为点的空间深度空间，其中每个点是关联的一个身体网格。这样的表示允许人定位和身体网格恢复的有效并行性。在此基础上，我们开发了一个新的模型架构，利用共享功能的本地化和网格恢复，从而实现一个单阶段的解决方案。特别地，该模型具有两个并行分支，一个547例如定位，另一个用于身体网格恢复。在定位分支中，我们将每个人的存在建模为三维空间中的单个点，即。空间（2D）和深度（1D），其中每个定位点（检测到的人）与SMPL参数模型[36]表示的人体网格分支中的人体网格相关联。这反过来又将多人网格恢复转换为单次回归问题（图1）。具体地，空间位置由离散坐标w.r.t.在输入图像上的规则网格。类似地，我们将深度离散为几个级别以获得深度表示。为了学习更好的特征表示来区分不同深度的实例，出于靠近相机的人在图像中看起来更大的现象的动机，我们采用特征金字塔网络（FPN）[30]来提取多尺度特征，并使用较低尺度的特征来表示更接近（和更大）的实例。以这种方式，每个实例被表示为一个点，其关联特征（从其对应的空间位置和FPN尺度提取）被用于有效地估计其身体网格。我们将这种生物网状物称为点（BMP）。应用BMP模型来同时估计多人身体网格在现实场景中面临两个挑战：如何以正确的深度排序连贯地重建实例，以及如何处理常见的遮挡问题（例如，重叠实例和部分观察）。对于第一个挑战，我们考虑显式地使用场景中所有人之间的顺序关系来监督模型学习以正确的深度顺序输出人体网格。然而，获得这样的顺序关系对于在野外捕获的场景是不平凡的，因为没有可用的3D注释。受最近人体关节深度估计成功的启发[42，73]，我们建议将在具有深度注释的3D数据集上预训练的模型预测的每个人（中心点）的深度作为用于在野外数据上进行模型训练的伪序关系，这已被实验证明有利于深度一致的体网格重建。此外，为了解决常见的遮挡问题，我们提出了一种新的关键点感知的遮挡增强策略，以提高模型的鲁棒性被遮挡的人的实例。与之前随机模拟图像中遮挡的方法[55]不同，我们根据骨架关键点的位置生成合成这种关键点感知的遮挡明确地迫使模型关注身体结构，使其对遮挡更鲁棒。对 3D 姿态基准 Panoptic [23] ， MuPoTS-3D [38] 和3DPW [64]的综合实验明显证明了所提出的模型的高效率。此外，它在Panoptic和MuPoTS-3D数据集上实现了最新的技术水平，并在3DPW数据集上实现了具有竞争力的性能。我们的贡献概括如下：1）据我们所知，我们是第一批探索多人补片恢复的单阶段解决方案。我们引入了一个新的人的实例表示，使同时的人定位和身体网格恢复的所有人的实例在一个单一的阶段内的图像2)我们提出了一个简单而有效的实例间顺序关系监督，以鼓励深度一致的重建。3)我们提出了一种关键点感知的遮挡增强策略，考虑到身体结构，以提高模型的鲁棒性遮挡。2. 相关工作单人3D姿势和形状先前的作品以身体骨架的形式估计3D姿势[37，40，60，74，49，47，58，71，15]或非参数3D形状[13，56，62]。在这项工作中，我们使用3D网格来表示全身姿势和形状，并采用SMPL参数模型[36]进行身体网格恢复。在文献中，Bogo等人 [5]提出了SMPLify，这是第一种基于优化的方法，用于迭代地在检测到的2D关节后来的作品通过使用更密集的参考点来替换稀疏的关键点（如轮廓和体素ocuplify网格）以进行SMPL拟合[28，62]，或者拟合更具表现力的模型（例如，[46]第46话最近的一些工作通过深度神经网络以两阶段的方式直接从图像中回归SMPL参数。它们首先估计中间表示（例如，关键点，轮廓等），然后将其映射到SMPL参数[48，44，61，27]。其他一些人直接从图像中估计SMPL参数，使用复杂的模型训练策略[24，16]或隐藏时间信息[3，25]。虽然在单人情况下实现了高准确性，但仍不清楚如何将其扩展到更一般的多人情况。多人3D姿态和形状对于多人3D姿态估计，大多数现有方法采用自上而下的范例[53，9，54]。他们首先检测每个人的实例，然后回归身体关节的位置通过估计额外的绝对深度[42]，考虑多人交互[17，29]或扩展到全身姿势估计[66]来进行后续改进。或者，一些方法也探索自下而上的范例。SSMP3D [39]和SMAP [73]从遮挡感知姿态图中估计3D姿态，并使用部件亲和字段[7]来推断它们的关联。LoCO [12]将图像映射到体积热图，然后通过编码器-解码器框架从它们估计多人3D姿势。PandaNet [4]是一个基于锚点的模型，其中每个锚点位置的3D姿势都是回归的。与多人3D姿态估计的繁荣相比，针对多人的人体网格恢复的工作数量有限 Zanfir等人 [69]首先估计图像中人的3D关节，然后优化548{}∈×∈√--它们的3D形状与多个约束一起。他们还提出了一种基于两阶段回归的方案，该方案首先估计所有人的3D关节，然后基于这些3D关节回归其3D形状[70]。代替从中间表示（例如， 3D关节），Jiang et al. [20]将SMPL头附加到Faster R-CNN框架[51]，以便以自顶向下的方式直接从输入图像中估计SMPL参数。尽管取得了令人鼓舞的结果，但这些方法都是基于间接的多阶段框架，效率较低。不同于以往的所有方法，该方法是一种具有计算冗余的多级流水线，将人体定位和人体网格统一起来，并能够实现无盒和（ad hoc）无优化的单级解决方案来恢复多人人体网格。基于点的表示基于点的方法[10，75，59]通过中心的单个点表示实例。这种方法被认为是基于锚点的表示的简单替代，基于锚点的表示已被广泛用于许多任务，包括对象检测[10，75，59]，2D关键点估计[43]和实例分割[65]。然而，这些方法不能直接应用于人体网格恢复。在这项工作中，我们将基于点的表示扩展到多人身体网格恢复。一个并行的工作[68]采用了类似的解决方案，以身体网格重新制定。我们的模型在两个重要方面与之不同1)BMP旨在更连贯地重建场景中的人物。它通过利用顺序深度损失和关键点感知增强策略来处理具有挑战性的空间布置和遮挡问题，这些在[68]中没有考虑。2)BMP采用了一种新的基于点的3D表示来区分不同深度的实例，因此对重叠实例更具鲁棒性;而[68]仅使用2D表示，并且在这种情况下会失败。3. 实体网格作为点3.1. 建议的单级解决方案给定图像I，多人身体网格恢复的目标是恢复I中的所有人实例的身体网格。现有的方法[70，69，20]通过顺序地定位和估计人体网格来解决这个任务，多阶段的方式，导致计算冗余。因此，这项工作的目的是统一的实例本地化和身体网格恢复到一个单阶段的解决方案，使一个更有效和简洁的框架。我们将每个person实例表示为单个点（i，j，k）在3维空间（由2D空间和1D深度维度跨越）中。通过将输入图像均匀地划分为G-G网格，其空间维度可以容易地在这样的网格坐标内表示。如果人体中心落在网格单元（i，j）内，则赋予其空间坐标（i，j）。同样，对于深度维度，我们将深度值离散到K个级别，得到k值每一种情况下，根据其深度。这种离散化的深度值对于处理遮挡实例是有益的，特别是当多个实例的身体中心落入相同的空间网格坐标时。鉴于这种表示，我们将多人网格恢复重新表述为两个同时预测任务：1）物体定位和2）身体网格恢复。实例定位对于第一个任务，我们使用实例映射C=C1，. . .，CK，其中CkRG× G ×1，以定位图像中的每个人实例，其中G表示沿着一侧的网格单元的数量，而K是指总深度级别的数量。对于每个深度级别，网络被训练为回归指示包含人的每个网格单元的概率的标量。为了构造用于训练的地面实况（GT），我们首先确定每个实例的深度值k我们观察到，当站得离相机更近（远离相机）时，一个人在图像中似乎更大（更小）。换句话说，实例的深度与其规模大致成反比。受其启发，我们采用了具有K个金字塔级别的特征金字塔网络（FPN）[30]来捕获K个不同的尺度，每个尺度都用于表示具有相应深度的物体。更具体地说，对于每个实例，我们计算其规模s=其中（h，w）表示GT车身尺寸，并将其与相应的金字塔等级k，根据表1。金字塔P2P3P4P5P6步幅88163232网格数G4036241612实例规模% s<6432∼12864∼256128∼512≥256表1.我们采用五个金字塔层次的FPN P k+1用于预测实例Ck和人体网格图Pk，其中k= 1，. . .、5.接下来，我们在Ck中定位网格单元（i，j），该人的中心区域位于该网格单元中。受[75，10]的启发，中心区域被定义如下：给定每个人的GT身体中心（xc，yc）、身体尺寸（h，w）和可控比例因子ε，中心区域的位置和尺寸被定义为（xc，yc，ε w，ε h）。在这项工作中，我们设置骨盆的位置为身体中心，并且θ=0。二、一旦被识别，第k个金字塔级别的网格单元（i，j），即，Ck（i，j）被标记为正的（标号1）。对图像中的所有实例重复上述步骤体网格表示与实例局部化并行，我们使用体网格映射P= P1，. . . ，PK，用于体网格恢复，其中PkRG× G × S和S是体网格表示的维数。具体地说，给定C中的正响应，表明存在个体，我们使用来自相应网格单元的特征回归身体网格表示，如图所示。二、在这项工作中，我们使用SMPL参数模型[36]进行体网格表示，其使用姿态参数θ∈R72和形状参数来β∈R10。为了提高训练的稳定性，我们采用了549{}∈∈×∈∈××∈/sαz图2. 我们的BMP框架的插图。在该示例中，输入图像被均匀地划分为G= 5的G×G网格。该模型采用K层FPN（这里K= 4因此，每个人实例由其驻留的网格单元和其相关联的FPN级别（根据其深度）表示BMP使用来自网格单元和FPN级别的特征来定位所包含的人（顶部）并同时估计身体网格（底部）姿态参数的6D旋转表示[76]，θR144。人体网格图还预测摄像机参数π=s，t x，t y R3用于将身体关节从3D投影回2D空间，这使得能够在野外2D姿势数据集上进行训练[21，32，2]以改善模型泛化[24]。我们进一步引入标量置信度分数c，定义为投影和GT 2D关键点之间的OKS [ 14 ]，以反映SMPL预测的置信水平;并且我们还提出了用于相应人员实例的绝对深度变量d，其将用于惩罚具有不相干深度的身体网格估计，或者投影因此，由于缺乏先验，训练模型将产生为了缓解这样的问题，我们使用顺序的深度关系的所有人在输入作为监督，指导推理的深度排序在训练过程中。更具体地说，给定图像中的任何两个人（pm，pn），我们将它们之间的顺序深度关系定义为R（pm，pn），取值为：如果dn−dm>T，（参见第二节）详情见3.2因此，总渠道人体网格图S的编号是159。网络架构我们采用ResNet-50 [18]作为R（pm，pn）=n−1，如果dm−dn> T，100，如果|d m− dn|≤ T，（一）骨干 FPN构建在主干的顶部，以提取特征图的金字塔（256-d）。为了进行人体网格恢复，我们在特征金字塔的每一层都附加了两个特定任务的头，一个用于实例定位，另一个用于相应的人体网格恢复，负责获得实例映射CkRG×G ×1和人体网格映射PkRG×G ×159。如图2所示，每个头由7个堆叠的3 × 3卷积和一个特定于任务的预测层组成。然而，直接从整个图像估计相机参数是不平凡的，因为它是敏感的实例位置。受CoordConv [34]的启发，我们在网格恢复头的开始处将归一化像素坐标连接到输入特征图，以将位置信息编码到网络中，以便更好地估计相机参数。此外，在两个预测头中使用组归一化[67]以促进模型训练。为了匹配大小H W到G G的特征，我们在实例和身体网格恢复分支之前应用双线性插值。3.2. 实例间有序深度监督由于多个3D预测可能对应于相同的2D，因此多人身体网格恢复本身就是其中d mR1表示人p m的深度，T是用于确定顺序关系的预定义阈值。顺序关系R（pm，pn）=0意味着两个实例大致处于相同的深度;否则其中一个比另一个更接近相机利用（pm，pn）的顺序关系，我们将该对的顺序深度损失定义为<$log（1+exp（zm−zn）），如果R=+1，L（pm，pn）=<$log（1 + exp（zn−zm）），如果R=−1，如果R= 0，（二）其中，z m=2f表示根据具有焦距f、尺度s m和图像的长边宽度α的预测相机参数计算的第m个人的身体网格深度。如果R（pm，pn）=0，则顺序深度损失在zm和zn之间强制执行大的裕度，即，它们中的一个被测量为比另一个更接近，否则强制它们相等。然而在实践中，由于缺乏3D注释，这种顺序深度关系很少可用于野外捕获的场景。为了解决这个问题，我们提出使用伪序关系对野外数据进行模型训练。具体来说，我们首先在具有深度注释的3D数据集上训练模型[19，38]，以学习估计550--∗∗×−我我我×每个人在图像中的深度我们将每个人的深度d定义为身体中心的深度（即，骨盆关节）。通过最小化深度损失L深度来训练模型，深度损失L深度被定义为预测深度和GT深度之间的均方误差（MSE）。在此之后，给定未标记的数据，我们首先利用预训练的模型，其中Linst 是修改的两类焦点损失[31] ，例如定位;Ldepth是深度损失（Sec.3.2）;L网格是用于体网格估计的损失。身体网格分支的训练细节与HMR[24]中的训练细节相似。具体来说，我们将L网格公式化为估计深度，然后使用该深度来获得图像中所有人的伪序关系最后，L网格=L姿态+L垂直+λ3DL3D+λ2DL2D+λshapeLshape + λconf Lconf + λadvLadv.（五）在给定伪序关系的情况下，我们采用OKS得分加权序深度损失来监督模型在野外的训练。图像I的总损失被计算为所有实例对的平均损失：这里，L姿态、L形状、L3D、L vert分别表示预测的和GT姿态和形状参数以及3D关键点和顶点之间的MSE。L2D是2D关键点的损失，最大限度地减少2D亲之间的距离L=1秩NΣ（pm，pn）cmcnL（pm，pn），（3）从3D关键点和GT 2D关键点的投影 L conf是预测置信度和GT置信度的MSE，其中GT置信度被计算为前置信度和后置信度之间的OKS [ 14 ]。其中N表示im中的配对实例的数量。表示第m个人的OKS分数。直观地，利用这种实例间顺序深度监督来训练模型可以帮助模型建立对输入场景中的深度布局的全局理解，从而确保更连贯的重建。3.3. 关键点感知遮挡增强基于SPL的人体网格恢复是高度敏感的到（部分）闭塞（例如，重叠的人，截断）[72，52]。为了提高模型对遮挡的鲁棒性而不需要额外的训练数据和注释，我们在训练过程中提出了一种关键点感知的遮挡增强策略。所提出的增强策略旨在生成合成遮挡以合成和GT 2D关键点。此外，我们使用了一个判别器，并在回归的姿势和形状参数上应用对抗性损失Ladv，以鼓励输出依赖于真实人体的分布。λ3D=4，λ2D=4，λ shape=0. 01，λ conf=1且λ adv=0。01是相应损失项的权重损失L网格是独立地施加到每个正网格单元。在Eqn中示出的常规深度损失L等级。当图像包含多个实例时，采用（3图2中示出了BMP的整个推断过程。给定图像，BMP首先从预测中获得实例映射C和身体网格映射P头。然后进行最大池化操作，找到C上的局部最大值，从而获得中心点位置C c cNC c c真正具有挑战性的情况下，如部分观察模型训练。与之前在图像上随机模拟遮挡的工作[55]相比，这可能会产生简单的训练样本，对提高模型性能的帮助较小，我们的方法直接基于骨架关键点的位置生成合成遮挡，这可以迫使模型更加关注身体结构，从而显著增强。更具体地说，给定J个关键点的集合{j1，. . . ，j，j}，我们首先随机选择关键点j，i。然后我们从PASCAL VOC [11]数据集随机采样非人类对象，并在所选择的关键点的位置处将其合成。我们随机调整采样对象的大小到[0. 1A，0. 2A]，其中A=wh表示该人的面积。此外，我们将关键点位置随机移位偏移δ以避免过度拟合。在训练过程中，我们将遮挡增强的概率设置为0.5。3.4. 训练和推理训练为了训练我们提出的BMP模型，我们定义损失函数L如下：L= Linst + Lmesh + Ldepth +0. 1个特等军衔，（4）（xi，yi，ki）i=1，其中ki和（xi，yi）表示金字塔第i个人的水平和身体中心位置，N是估计的人数。然后，BMP通过Pkc（x c，y c）提取每个人p i的人体网格参数。最后，BMP通过使用预测的参数使SMPL模型变形来输出人体网格估计应用基于关键点的NMS [14]来移除冗余预测（如果存在）我们将预测的OKS得分与实例映射的概率得分相乘作为NMS的置信度得分3.5. 实现细节我们使用 PyTorch [45] 和 mmdetection 库 [8] 实现BMP，并使用Rectified Adam [33]作为优化器，初始学习率为1e4。我们将所有图像的大小调整为832 512，同时保持原始COCO训练方案的相同长宽比[57，65，20]。在训练过程中，我们通过水平翻转和关键点感知遮挡来增强样本3.3）。在测试期间进行翻转增强。此外，由于BMP模型直接提取用于估计的图像级特征而不是来自裁剪的边界框的特征，因此它可以将具有较小分辨率（512 512）的图像作为输入。我们将这种设置称为BMP-Lite。其他培训和测试551×BMP-Lite和BMP之间的设置相同。详情请参阅补充资料。4. 实验在本节中，我们旨在回答以下问题。1）BMP能否提供高效且准确的多人网格恢复？2）BMP是否能够以正确的深度顺序为多个人提供连贯的网格3)BMP对于人的实例被遮挡或部分观察到的情况是否鲁棒？为此，我们在几个大型基准上进行了广泛的实验。4.1. 数据集Human3.6M[19]是在室内环境中收集的最广泛使用的单人3D姿势基准它包含360万个3D姿势和15个主题的相应视频。由于其高质量的注释，我们将其用于训练和测试[20Panoptic[23]是Panop- tic工作室捕获的大规模数据集，为参与各种社交活动的多人提供3D姿势注释我们使用该数据集进行评估，方案与[69]相同。MuPoTS-3D[38]是一个多人数据集，具有室内和野外场景的3D姿势注释。我们遵循[38]并将其用于评估。3DPW[64]是一个多人野外数据集，具有不同的运动和场景。它包含60个带有全身网格注释的视频序列（24个训练，24个测试，12个验证）。为了验证所提出的模型对具有挑战性的野外场景的通用性，我们使用其测试集进行评估，遵循与[25]相同的协议。MPI-INF-3DHP[40]是一个单人多视图3D姿态数据集。它包含8个演员表演8个活动，从14台摄像机拍摄。Mehta等人，[38]通过混合分割的前景人类外观，从MPI-INF- 3DHP生成称为MuCo-3DHP的多人数据集。我们使用这两个数据集进行训练。COCO[32]，LSP[21]， [22]第二十二话Track[1]、MPII[2]是具有2D关节注释的野外数据集。我们使用它们来训练弱监督训练策略 [24] （ Eqn.（5））。4.2. 与最新技术水平的比较单人设置我们首先在单人设置上评估我们提出的BMP模型，以验证BMP在分解实例定位和网格方面方法HMR [24]CRMH [20]BMPPA-MPJPE56.852.751.3表2. 关于Human3.6M 我们使用Procrustes对线（PA-MPJPE）后每个关节的平均位置误差（mm）作为度量。多人设置然后我们评估我们的BMP模型的多人身体网格恢复。我们首先在室内Panop- tic Studio [23]中捕获的多人数据集上对其进行评估，并与最具竞争力的方法[69，70，20]进行比较。如表3所示，我们的BMP模型在所有情况下都实现了最佳性能总的来说，它比最先进的自上而下模型CRMH [20]提高了5.4%（135.4mmvs. MPJPE中为143.2 mm同时提供更快的推理速度1.此外，它显着优于CRMH的最后通牒和比萨sce- narios与拥挤的场景和严重的遮挡，验证了它的鲁棒性的遮挡情况。此外，其精简版BMP-精简版甚至更快，仅需0.038秒处理图像的速度比CRMH快2倍，但性能相当。这些结果证明了BMP在一个阶段中估计多个人的身体网格的有效性和效率方法哈格尔黑手党终极披萨是说时间[s]Zanfir等人[69]第六十九届140.0165.9150.7156.0153.4-MubyNet [70]141.4152.3145.0162.5150.3-CRMH [20]129.6133.5153.0156.7143.20.077BMP-Lite124.2138.1155.2157.3143.70.038BMP120.4132.7140.9147.5135.40.056表3. 全景摄影的结果。我们使用MPJPE作为评估指标。越低越好。最好用粗体。另一个流行的3D姿态估计基准是MuPoTS-3D数据集[40]。我们将我们的方法与两个强基线进行比较，1）OpenPose [6]与单人网格恢复方法（SMPLify- X [46]和HMR [24]）的组合，以及2）最先进的自上而下方法CRMH [20]。我们在表4中报告了结果。正如我们所看到的，BMP在两种评估方案上都明显优于以前的方法。方法所有匹配时间[s]SMPLify-X [46]62.8468.046.4HMR [24]66.0970.900.26CRMH [20]69.1272.220.083BMP-Lite68.6371.920.038BMP73.8375.340.056表4. MuPoTS-3D的结果。数字是3DPCK。我们报告总体准确度（All），以及仅与预测匹配的人员注释的准确度最好用粗体。恢复不会牺牲性能。具体而言，我们评估并比较了BMP在大规模Human3.6M数据集上的性能，其中最具竞争力的方法[24，20]共享相似的回归目标和学习策略。结果示于表2中。我们可以观察到BMP优于所有这些方法。最后，我们将我们的BMP模型与最先进的方法在具有挑战性的野外3DPW数据集上进行了比较。一些方法使用自我训练策略1我们以秒为单位计算每个图像的推理时间。对于所有方法，时间是在GPU Tesla P100和CPU Intel E5-2650 v2@2.60GHz上计算的，不使用测试时间增强。552×（即，SPIN [26]）或时间信息（即，VIBE [25]），他们依赖于现成的人员探测器[6，50]。如表5所示，我们的BMP在3DPCK方面优于CRMH [20]和SPIN [26]，同时保持了吸引人的效率，并且在不依赖任何时间信息的情况下实现了与VIBE [25]相当的结果。此外，BMP-Lite获得了与最先进的CRMH模型二、1更快的推理速度。这些结果进一步证实了我们的单阶段解决方案的有效性超过现有的多阶段策略，具有非常有竞争力的效率。方法PCKAUCMPJPEPA-MPJPEPvE时间[s][26]第二十六话30.853.499.468.1-0.31VIBE [25]33.956.694.766.1112.7-CRMH [20]25.851.6105.362.3122.20.09BMP-Lite26.251.3108.564.0126.20.038BMP32.154.5104.163.8119.30.056表5. 3DPW的结果。我们使用3DPCK、AUC、MPJPE、PA-MPJPE和逐顶点误差（PVE）作为评估指标。定性结果我们在具有挑战性的PoseTrack、MPII和COCO数据集上可视化BMP的一些人体网格重建，如图3所示。可以观察到，BMP对严重遮挡和拥挤的场景具有鲁棒性，并且可以以正确的深度顺序重建人体。4.3. 消融研究我们对Panoptic、3DPW和MuPoTS-3D数据集进行了定性和定量的消融分析，以证明我们的设计选择。所提出的方法的定性分析四、人实例表示我们首先评估人实例的基于点的3D表示。拟议代表之间的主要区别和之前的2D空间表示[43，75，68]是我们使用额外的深度维度来通过FPN区分然后我们将BMP与基线模型（即，使用2D空间表示的BMP）。为了进行公平比较，我们将基线模型中FPN金字塔所有级别的特征进行聚合，具体来说，我们研究了三种聚合方法：我们将所有特征pyra-缩放到1/8比例，然后通过1）元素加法（Baseline-Add），2）串联（Baseline-Concat）或3）在串联后采用卷积层（Baseline-Conv）来结果示于表6中。我们可以看到我们的BMP模型在所有数据集上都比基线模型有很大的改进，证明了它对人体网格恢复的有效性。此外，从图。4（第1行），我们观察到具有所提出的表示的BMP在处理遮挡实例时更鲁棒，特别是当多个实例的身体中心落在相同的空间网格坐标时，而基于2D的表示将通常会失败。关于金字塔K层的分析，请参见补充资料。方法Panoptic （↓）3DPW（↓）MuPoTS-3D （↑）基线-添加159.1120.468.03基线一致性150.3114.668.52基线转换145.6110.869.34BMP135.4104.173.83表6. 个人实例表示的消融。我们报告了Panoptic和3DPW的MPJPE以及MuPoTS-3D的3DPCK为了研究有序深度损失L秩是否可以帮助产生具有正确深度排序的更一致的结果，我们在MuPoTS-3D数据集上进行实验。具体来说，我们评估场景中所有实例对的顺序深度关系，并在表7中报告正确估计的顺序深度关系的百分比。用L秩训练的模型在基线（BMP训练的w/oL秩）上显著改善（从91.42%到94.50%）。这种改进也可以从图4（第2行）中观察到。此外，通过将我们的方法与Moon等人 [42]和CRMH [20]进行比较，我们观察到BMP相对于. r. t.相对深度排序比CRMH只考虑重叠对的顺序损失（94.50%vs.93.68%）。这表明我们的完全成对顺序损失可以对场景的深度布局提供更全面的监督，从而训练模型以给出更连贯的结果。方法月亮[42]CRMH [20]BMP，无L级BMP精度百分之九十点八五93.68%91.42%百分之九十四点五表7. 消融治疗有序深度损失。显示了MuPoTS-3D上的相对深度排序结果。我们评估场景中所有实例对的顺序深度关系，并报告正确估计的顺序深度关系的百分比。关键点感知遮挡增强最后，我们研究所提出的关键点感知遮挡增强策略的影响。我们将我们的BMP模型与表8中未使用遮挡增强训练的模型（BMP-NoAug）和使用随机合成Oc- clusion训练的模型[55]（BMP-RandOcc）进行了比较。我们可以看到BMP在所有数据集上的表现都远远优于它们。值得注意的是，它在Panoptic和3DPW数据集上分别比BMP-NoAug提高了9.1%和17.3%，这些数据集的特征是具有严重重叠和部分观察的拥挤场景。相比之下，随机增强损害了MuPoTS-3D上的模型性能（71.71vs.70.78）。这验证了我们提出的遮挡增强可以迫使模型专注于身体结构，从而提高其对遮挡的鲁棒性。5. 结论在这项工作中，我们提出了第一个单阶段模型，身体网格作为点（BMP），多人身体网格553图3. 定性结果。我们从不同的视角分别在PoseTrack（第一行），MPII（第二行）和COCO（第三行）上可视化我们的方法的重建：正面（绿色背景），顶部（蓝色背景）和侧面（红色背景）。更多定性结果请参见补充资料。输入图像基线我们的图4. 拟议方法的定性效果。基线1（使用2D表示的BMP）（中间第1行）、基线2（BMP训练w/oLrank）（中间第2行）和BMP（右侧）的结果。错误以黑色箭头突出显示。如预期的那样，所提出的方法对产生更好的结果（即，对于重叠实例是鲁棒的，对于所估计的身体网格是更一致的深度排序- 是的BMP显着改善了传统的两阶段范例，并提供了出色的效率和准确性，通过对多个实验的广泛验证。表8. 消融术用于闭塞增强。我们对前两个数据集使用MPJPE，对最后一个数据集使用3DPCK作为度量。复苏BMP引入了一种新的表示方法来实现这样一个紧凑的管道：每个人的实例表示为空间深度空间中的一个点，该点与参数化的人体网格相关联。有了这样的表示，BMP可以充分利用共享的功能，并执行人的定位和人体网格恢复模拟。多个基准。此外，BMP开发了几种新技术，以进一步提高恢复的人体网格的一致性和鲁棒性，这对其他应用（如人体姿态估计和检测）具有广泛的意义。在未来，我们将探索如何使模型更紧凑，并进一步提高其效率，以及扩展到人与人之间的交互建模。致谢本研究得到AISG-100 E-2019-035、MOE 2017-T2-2-151、NUS ECRA FY 17 P08和CRP 20 -2017-0006的部分支持。方法Panoptic （↓）3DPW（↓）MuPoTS-3D （↑）BMP-NoAug148.9125.971.71BMP-随机发生率144.6110.370.78554引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在CVPR，2018年。[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿势估计：新基准和最先进的分析。在CVPR，2014年。[3] Anurag Arnab，Carl Doersch和Andrew Zisserman。野外三维人体姿态估计的时间背景挖掘。在CVPR，2019年。[4] Abdallah Benzine、Florian Chabot、Bertrand Luvison、Quoc Cuong Pham和Catherine Achard。Pandanet：基于锚点的单镜头多人3D姿态估计。在CVPR，2020年。[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持简单：从一张图像自动估计3d 人体姿势和形状。在ECCV，2016年。[6] 曹哲、吉恩斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。arXiv，2018年。[7] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行多人2d实时位姿估计。在CVPR，2017年。[8] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MMDetection：打开mmlab检测工具箱和基准测试。arXiv，2019年。[9] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在ECCV，2018年。[10] 段凯文，白松，谢灵犀，齐宏刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在ICCV，2019年。[11] Mark Everingham和John Winn pascal visual object classeschallenge 2012 （ voc2012 ）开发包。 IEEE Trans. onPattern Analysis and Machine Intelligence，2011年8月。[12] 马特奥·法布里，法比奥·兰齐，西蒙娜·卡尔代拉拉，斯特凡诺·艾尔莱托，丽塔·库奇亚拉.用于多人3d姿态估计的压缩体积热图。在CVPR，2020年。[13] 在加布，让-塞巴斯蒂安佛朗哥，Xa vier马丁，科迪莉亚施密德和格雷戈里罗杰斯。塑造人类：从单个图像进行非参数3D人体形状估计。在CV

下载后可阅读完整内容，剩余1页未读，立即下载