单目多人3D网格回归方法的简化展示及其在遮挡情况下的鲁棒性

114 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11179多个3D人的单眼、一阶段、回归孙宇1*钱宝2刘武2†伊利富1†迈克尔J.黑3陶梅21哈尔滨工业大学2京东AI研究3德国图宾根马克斯·普朗克智能系统研究所yusun@stu.hit.edu.cn，baoqian@jd.com，liuwu@live.cn，meylfu@hit.edu.cnblack@tuebingen.mpg.de，tmei@live.com摘要本文重点研究了从单个RGB图像回归多个3D现有方法主要遵循多阶段流水线，其首先检测边界框中的人，然后独立地回归他们的3D身体网格。相比之下，我们建议回归所有的网格在一个阶段的方式为多个3D人- ple（称为ROMP）。该方法在概念上是简单的，无边界框，并且能够以端到端的方式学习每像素我们的方法同时预测身体中心热图和网格参数图，它们可以在像素级别上共同描述3D身体网格。通过一个身体中心引导的采样过程，图像中的所有人的身体网格参数很容易从网格参数图中提取。配备了这样的细粒度表示，我们的一阶段框架是免费的复杂的多阶段的过程和更强大的遮挡。与最先进的方法相比，ROMP在具有挑战性的多人基准测试中实现了卓越的性能，包括3DPW和CMU Panoptic。在拥挤/遮挡数据集上的实验证明了该算法在各种遮挡情况下的鲁棒性。代码发布于https：//github。com/Arthur 151/ROMP是单目多人3D网格回归的第一个实时实现。1. 介绍最近，在单目3D人体姿态和形状估计方面取得了很大进展，特别是在具有单个人的图像中[20，22，23，48，51]。然而，对于具有多个人的更一般的场景，处理由图像帧截断、人-人遮挡和环境遮挡是至关重要的。对这种遮挡的鲁棒性对于现实世界的应用是至关重要的。现有的方法[15，22，52，53]遵循多-*这项工作是在Yu Sun在JD AI Research实习时完成的†通讯作者。图1.给定像（a）的具有挑战性的多人图像，现有技术的方法，例如，VIBE [22]（左），无法处理截断、场景遮挡和人与人之间的遮挡。原因在于多阶段设计（b），其中在多人情况下，边界框级别的特征通常是隐含的、模糊的和不可分割的。我们建议在一个单一的阶段回归多个3D人的所有网格具体地，我们开发了用于细粒度一阶段估计的显式像素级表示（c），其增加了对截断和遮挡的鲁棒性，同时显著降低了计算复杂度。舞台设计，为单人方法配备2D人物检测器，以处理多人场景。一般来说，他们首先检测人的区域，然后提取边界框级特征，这些特征用于回归每个单个3D人体网格[11，20，21，22，23，24，39，47，51，60]。然而，如图1、此策略易发11180在多人遮挡和截断的情况下失效。具体地说，如图如图1（b）所示，当两个人重叠时，多阶段方法难以从相似的图像块估计不同的身体网格。隐式边界框级表示的模糊性导致这种不可分割的多人情况下的失败。对于多人2D姿态估计，该问题已经通过微妙且有效的自下而上的框架来解决。该范例首先检测所有身体关节，然后通过对身体关节进行分组将它们分配给不同的人。这种像素级身体关节表示使其在拥挤的场景中具有令人印象深刻的表现[7，8，40]。然而，将这种自下而上的单阶段过程扩展到关节之外并非易事[15]。与预测数十个身体关节的2D姿势估计不同，我们需要回归具有数千个顶点的人体网格，这使得很难遵循身体关节检测和分组的范例。相反，我们引入ROMP，一个单阶段的网络回归多个3D人在每像素预测时尚。它直接从整个图像中估计出多个可微映射，从中我们可以很容易地解析出所有人的3D网格具体地说，如图在图1（c）中，ROMP预测分别表示身体中心的2D位置和对应3D身体网格的参数向量的身体中心热图和网格通过一个简单的参数采样过程，我们从热图描述的身体中心位置处的网格参数图中提取所有人的3D身体网格参数向量然后，我们将采样的网格参数向量放入SMPL身体模型[33]中以导出多人3D网格。在训练过程中遵循身体中心的指导，在拥挤的多人场景中回归目标的模糊性被大大减轻此外，与通过传统方法学习的局部边界框级特征相比，从整个图像的端到端学习迫使模型从整体场景学习这种整体方法捕捉了现实世界场景的复杂性，使得能够对复杂的多人情况进行泛化和鲁棒性。此外，由于严重重叠的人的身体中心可能会在相同的2D位置发生碰撞，我们进一步开发了一种先进的碰撞感知表示（CAR）。其关键思想是构建一个排斥场的身体中心，其中接近的身体中心是类似的正电荷被推开的相互排斥。以这种方式，重叠的人的身体中心更容易区分。特别是在严重重叠的情况下，人体的大部分是不可见的。相互排斥将中心推到可见身体区域，这意味着模型倾向于对从可见身体部位上居中的位置估计的3D网格参数进行采样。它提高了在严重的人-人遮挡下的鲁棒性。与先前用于多人[15，52，53]和单人[22，23] 3D网格回归的最先进方法相比，ROMP在具有挑战性的基准测试中实现了卓越的性能，包括3DPW [49]和CMUPanoptic [18]。人-人遮挡数据集（Crowdpose [28]和3DPW [49]的为了在一般情况下进一步评估它，我们在来自互联网和网络摄像头视频的图像上测试ROMP。ROMP具有与多级对应物相同的主干，在1070Ti GPU上实时运行（超过30 FPS）。这些贡献概括如下：（1）据我们所知，ROMP是第一个单目多人3D网格回归的一步方法，以及开源实时实现。其简单而有效的框架导致卓越的准确性和效率。(2)所提出的显式身体中心引导的表示有利于像素级的人体网格回归的端到端的方式。(3)我们开发了一个碰撞感知的表示来处理严重重叠的情况。2. 相关工作单人3D网格回归。参数人体模型，例如，SMPL [33]已被广泛采用，以将复杂的3D人体网格编码为低维参数向量，其可以从图像回归[32]。使用各种弱监督信号实现了令人印象深刻的性能，例如2D姿势[9，20，25]，语义分割[51]，几何先验和判别训练[20]，运动动力学[21]，节奏一致性[22，47]，纹理一致性[39]，循环中的优化[6][23]等。然而，所有这些方法都采用边界框级表示，这对于多人/遮挡情况是隐式和模糊的。为了处理遮挡对象，Zhang et al.[55]使用2D UV贴图来表示3D人体网格。将物体遮挡的身体部位视为局部UV贴图中的空白区域，对局部UV贴图进行补绘以弥补遮挡信息。然而，在一个人的身体部分被另一个人的身体部分遮挡的人-人遮挡的情况下多人3D姿态估计。主流方法可分为两类：单级和多级。许多多阶段方法遵循Faster R-CNN [42]的自顶向下设计，例如LCR-Net ++ [43]和3DMPPE [36]。从基于锚点的特征建议中，他们通过回归来估计目标。其他作品探索了一个单阶段的解决方案，在一个单一的向前传递中对所有人进行推理。他们估计所有的身体关节位置，然后将它们分组为个体。梅塔等人[35]提出遮挡鲁棒的姿势图，并利用身体部位关联来避免边界框预测。11181图2.ROMP的概述给定输入图像，ROMP预测多个图：1）身体中心热图预测每个位置是身体中心的概率，2）相机图和3）SMPL图分别包含每个中心处的人的相机和SMPL参数[33作为相机贴图和SMPL贴图的连接，网格参数贴图包含预测的3D实体网格及其位置的信息。通过设计的参数采样过程，我们可以通过解析Body Center热图和对Mesh Parameter图进行采样来获得最终的3D网格结果。第PandaNet [5]是一个基于锚点的单阶段模型，它依赖于大量预定义的锚点预测和正锚点选择。为了处理人-人遮挡，Zhen等人。[56]扩展部分亲和性字段[7]以实现深度感知。ROMP通过简洁的身体中心引导的像素级表示将端到端的一阶段过程扩展到关节之外，并且不需要部件关联或大量的锚点预测。多人3D网格回归。只有少数几种方法用于多人3D网格回归。赞菲尔等[53]根据每个人的中间3D姿态估计来估计每个人的3D网格。Zanfir等人[52]进一步采用多个场景约束来优化多人3D网格结果。Jiang等人[15]提出了一个多人相干重建（CRMH）网络。基于Faster-RCNN [42]，他们使用每个人的RoI对齐特征来预测SMPL参数。此外，它们通过相互渗透和深度排序损失来学习多个人之间的相对位置。所有这些方法都遵循多阶段设计。复杂的多步骤过程需要重复的特征提取，这在计算上是昂贵的。此外，由于它们依赖于检测到的边界框，边界框级特征的模糊性和有限的局部视图使得难以有效地从人-人遮挡和截断中相反，我们提出的一个阶段的方法学习一个显式的像素级表示与整体视图，这显着提高了准确性和效率，在多人在野外场景。像素级表示已被证明在无锚点检测中是有用的，例如 CornerNet [27]，Center-Net [10， 57]和 ExtremeNet[58]。它们以热图的方式直接估计边界框的角点或中心点，这避免了密集的基于锚点的提议。受这些启发，我们开发了一个像素级的细粒度表示的多人三维网格。与[57]中使用的边界框中心不同，我们的身体中心是确定的。由身体关节开采，如第二节所介绍的三点三最近的工作BMP [54]使用多尺度网格级表示进行多人3D网格恢复，其将目标人定位在网格单元的中心1与这些方法相比，ROMP采用了简洁的基于体中心的表示，并进一步将其发展为碰撞感知版本，以处理固有的中心碰撞问题。消歧是ROMP的关键目标，使其能够处理拥挤的多人场景。相关技术已经在许多其他领域中被研究。例如分割，Adaptis [45]分别学习引导点选择的每个实例的分割掩码。为了减轻相似样本的嵌入之间的模糊性，分别针对姿势估计、面部识别和跟踪开发了关联嵌入[38]、三元组损失[44]和姿势引导关联[4在本文中，一个强大的和可区分的表示开发，以帮助模型明确地从拥挤的场景中学习。3. 我们的方法3.1. 概述总体框架如图所示。二、它采用了一个简单的多头设计，有一个主干网和三个头网络。给定单个RGB图像作为输入，它输出身体中心热图、相机图和SMPL图，描述所估计的3D人体网格的详细信息在身体中心热图中，我们预测每个位置是人体中心的概率。在摄像机/SMPL图的每个位置处，我们预测以该位置为中心的人的摄像机/SMPL参数。为了简单起见，我们将相机贴图和SMPL贴图合并到网格参数贴图中。在推断期间，我们在从身体中心热图解析的2D身体中心位置处从网格参数图采样3D身体网格参数结果。最后，我们把1ROMP的arXiv版本，称为CenterHMR [46]，早于BMP。11182××∈∈∈^···∈−^∈∈^k^k∈∈^^将采样的参数导入SMPL模型中以生成3D人体网格。3.2. 基本表示法在本节中，我们将介绍每个映射的详细表示。每个输出映射的大小为nHff，其中n是通道的数量。这里，我们设置H=W=64。身体中心热图：CmR1×H×W 是热图表示图像中的2D人体中心。每个身体中心在“身体中心”热图中表示为高斯分布。为了更好地表示学习，身体中心热图还集成了2D图像中身体的比例信息。具体来说，我们根据图像中的2D身体尺度计算每个人中心的高斯核大小k给定人边界框的对角线长度dbb和身体中心热图的宽度W，k被导出为图3. 冲突感知表示。重叠的人的身体中心被视为正电荷，如果它们在排斥场中靠得太近，就会被推开。每个身体部分相对于其父体的表示，dbb2k=kl+（√2W）kr，（1）其中kl是最小核大小，kr是变化k的范围。我们默认设置kl=2和kr=5网格参数贴图：PmR145×H×W 包括两个部分，相机地图和SMPL地图。假设这些地图的每个位置是人体的中心，我们估计其相应的三维人体网格参数。在[20，47]之后，我们采用弱透视相机模型来投影K个3D身体关节J=（xk，yk，zk），k =（xk，yk，z k）。1K的估计的3D网格返回到图像平面上的2D关节J=（x，y）。这有助于使用野外2D姿势数据集训练模型，这有助于鲁棒性和通用性。相机图：AmR3×H×W包含描述图像中的人的2D尺度s和平移t =（tx，t y）的3-dim相机参数（s，t x，ty）。尺度s在一定程度上反映了个体的大小和深度在（1，1）中变化的tx和ty分别反映了人体相对于x和y轴上的图像中心的归一化平移3D身体关节J的2D投影J可以被导出为xk=sxk+tx，yk=syk+ty。平移参数允许比身体中心热图更准确的位置估计。SMPL图：SmR142×H×W包含142-dim SMPL参数，其描述人体网格的3D姿态和形状。SMPL建立从姿态θ和形状 β 参数到人类 3D 身体网格 M 的有效映射R6890×3。形状参数βR10是SMPL统计形状空间的前10个PCA系数姿态参数θR6×22包含6D表示中22个身体关节的3D旋转[59]。代替使用原始SMPL模型的全部24个关节，我们放弃了最后两个手关节。第一关节的3D旋转表示相机坐标系中的身体3D取向，而其余部分是相对3D取向。运动链3D关节J经由P M导出，其中PRK×6890是描述从身体网格M的6890个顶点到K个身体关节的线性映射3.3. CAR：碰撞感知表示整个框架是基于一个简洁的身体中心引导表示。定义一个明确的和鲁棒的身体中心是至关重要的，这样模型就可以很容易地估计在各种情况下的中心位置在这里，我们介绍的基本定义的身体中心的一般情况下，其高级版本的严重闭塞。身体中心的基本定义。现有的基于中心的方法[10，57]将边界框的中心定义为目标中心。这对于一般对象（例如，球或瓶子），其缺乏语义上有意义的关键点。然而，边界框中心不是人体上的对于稳定的参数采样，我们需要一个显式的身体中心。因此，我们从地面真实2D姿势计算每个身体中心考虑到在一般情况下任何身体关节都可能被遮挡，我们将身体中心定义当所有躯干关节都不可见时，中心仅由可见关节的平均值确定。以这种方式，鼓励模型从可见部分预测身体位置。然而，在严重重叠的人的情况下，人的身体中心可能非常接近或甚至在Cm上的相同位置处。这种中心碰撞问题使得中心模糊，并且在拥挤的情况下难以识别为了解决这个问题，我们开发了一个更强大的表示来处理人与人之间的遮挡。为了减少模糊性，重叠的人的中心点应保持在最小距离，以确保他们可以很好地区分。11183∈∈∈MCΣ∈∧∧^求和×迪岛Lpos=log（Cp）（1−Cp）2Ipos，Ipos=Cgt≥1，MMM被骗了此外，为了避免对同一个人的多个参数进行采样，网络应该为每个人分配一个基于这些原则，我们开发了一种新的碰撞感知表示（CAR）.为了确保身体中心彼此足够远，我们构造了一个排斥场。在这个领域中，每个身体中心被视为一个正电荷，其排斥半径等于其高斯核大小由方程。（一）.以这种方式，物体中心越近，相互排斥越大，它们将被推离得图3示出了CAR的原理。假设c1r2，c2R2是两个重叠的人的身体中心。如果它们的欧氏距离dcm和高斯核大小k1，k2sat-kisfydcmk1+k2+1，斥力被触发推动<这些闭合中心通过c1=c1+γdp，c2=c2−γdp，在训练期间，根据L2距离将估计的c与最近的地面实况身体中心匹配此外，我们近似的深度顺序之间通过使用来自Cm的中心置信度和来自Am的相机参数的2D身体尺度s来多个人。对于不同s的人，我们认为s较大的人位于前面。对于相似的人，具有较高中心自信的有关详细信息，请参阅SuppMat。3.5.损失函数为了监督ROMP，我们为不同的映射开发了单独的损失函数。总的来说，ROMP由主体中心损失Lc和网格参数损失Lp的加权和来监督。Body Center损失。L。鼓励在身体中心热图Cm的身体中心c处dp= k1+k2+ 1−dcmdcm（c1−c2），（二）在其他地方信心不足。为了解决我国城市中心区与非中心区发展不平衡的问题Cm，我们基于焦点训练身体中心热图其中dpR2是从C2到C1和γ的排斥矢量“强度系数”是调整强度的强度系数当有多个重叠的人时，我们取Eq。（2）生成第i对中心的互斥矢量di[29]第29话给定预测的身体中心热图p并且地面实况Cgt，Lc被定义为L阳性+L阴性p对于受影响的中心NN个排斥力，我们Lc=−ΣIposWc，计算这些力的组成，作为数值Lneg=log（1−Cp）（Cp）2（1−Cgt）4（1−Ipos），（三）中心，并使用它们来监督“身体中心”热图。通过这种方式，鼓励模型估计保持可区分距离的中心。对于“身体中心”热图，它有助于模型有效地定位被遮挡的人。对于“网格参数”贴图，从这些偏移位置采样参数使模型能够为每个人提取不同的个体特征使用CAR训练的模型更适合火车站、食堂等人与人之间遮挡明显的拥挤场景。3.4.参数采样为了从估计的地图中解析3D人体网格，我们需要首先从Cm中解析2D人体中心坐标cRK×2，其中K是检测到的人的数量，然后使用它们对SMPL参数进行采样Pm在这一部分中，我们介绍了中心的解析，匹配和采样的过程。Cm是一个概率图，其局部极大值被视为身体中心。局部最大值通过Mp（Cm）Cm导出，其中Mp是最大池化操作，并且是逻辑合取操作。令c是置信度得分大于阈值t。的局部最大值的2D坐标。我们对每个c处的置信度得分进行排名，并将前N个作为最终中心。在推理过程中，我们直接在c处从Pm中采样参数。MMM其中Ipos是在身体中心位置处具有正值的二元矩阵，并且w。是损失重量。网格参数丢失。正如我们在第二节介绍的。3.4中，参数采样过程将每个地面实况体与预测的参数结果进行匹配以用于监督。网格参数损失推导为：Lp=w位置L姿势+w形状L形状+wj3dLj3d⑷+w pj 3 d L pj 3 d + w pj 2 d L pj 2 d + w prior L prior.L姿态是3× 3旋转矩阵格式中姿态参数的L 2损失。L形是形状参数的L2损失。 Lj3d是从身体网格M回归的3D关节J的L2损失。Lpaj3d是在Procrustes对准之后的3D关节J的L2损失。 Lpj2d是投影的2D接头J的L2损失。L先验是混合高斯[ 6，33 ]中采用的SMPL参数的先验损失，用于监督3D关节旋转和体型的合理性。最后，w（. ）表示相应的损失权重。4. 实验4.1. 实现细节网络架构。为了与其他方法进行公平比较，我们使用ResNet-50 [12]作为默认主干。由于我们的方法不限于特定的主干，我们还在实验中测试了HRNet-32 [8]通过Mi=1p在训练中，我们使用CAR来推开紧密的身体11184∈∈∈×^方法MPJPEPMPJPEPCK↑ AUC↑ MPJAE↓ PMPJAE↓[23]第二十三话95.866.433.355.023.924.4YOLO + VIBE [22]94.766.133.956.625.220.46CRMH [15]105.971.828.551.426.422.0BMP [54]104.163.832.154.5--ROMP（ResNet-50）87.062.034.457.621.920.1ROMP（ResNet-50）80.156.836.460.120.819.1ROMP（HRNet-32）82.760.536.559.720.518.9表1.与遵循协议1的3DPW上的最先进方法的比较（在推断期间不使用任何地面实况⋆意味着使用额外的数据集进行训练。方法MPJPEPMPJPEPVE↓HMR [20]130.076.7-Kanazawa等人[21日]116.572.6139.3Arnab等人[3]第一章-72.2-GCMR [24]-70.2-DSD-SATN [47]-69.5-[23]第二十三话96.959.2116.4ROMP（ResNet-50）91.354.9108.3I2L-MeshNet [37]93.258.6-EFT [19]-54.2-[22]第二十二话93.556.5113.4ROMP（ResNet-50）89.353.5105.6ROMP（HRNet-32）85.553.3103.1表2.使用方案2（仅在测试集上），在VIBE [22]后与3DPW的最新方法进行比较。意味着使用额外的数据集（与SPIN相比）进行训练。骨干，从单个RGB图像中提取特征向量fbR32×Hb×Wb此外，我们采用Coord-Conv [31]来增强空间信息。因此，主干特征fR34×Hb×Wb是坐标索引映射ciR2×Hb×Wb和fb的组合。接下来，根据f，开发三个头部网络以估计身体中心、相机和SMPL图。有关该架构的更多详细信息，请参见SuppMat。设置详细信息。输入图像的大小调整为512512，保持相同的纵横比和填充zeros。主干特征的大小为Hb= Wb= 128。最大检测次数N = 64，手动设置。损失权重被设置为wc=160、wj3d=360、wpaj3d=400、wp j2d=420、wpose=80、wshape=1以及wprior= 1。6，以确保加权损失项目的幅度相同。“身体中心”热图的阈值t。为0.2。CAR的排斥系数γ为0.2。训练数据集。为了与以前的方法[15，20，23，47]进行公平比较，我们在实验中使用的基本训练数据集包括两个3D姿势数据集（Hu-man 3. 6 M [14]和MPI-INF-3DHP [34]），一个伪标签3D数据集（UP [26]）和四个野外2D姿势数据集（MS COCO [30]，MPII[2]，LSP [16，17[50]和AICH）。我们还使用来自[23]的伪3D注释。为了进一步探索性能的上限，我们还使用了额外的训练数据集，包括两个3D姿势数据集（MuCo-3DHP [34]和OH [55]），[19]提供的2D姿势数据集的伪3D标签，以及两个2D姿势数据集（PoseTrack [1]和Crowdpose [28]），以训练高级模型。评价基准。3DPW [49]被用作评估3D网格/关节误差的主要基准，因为它包含具有丰富2D/3D注释的野外多人视频特别地，我们将3DPW分成3个子集，包括用于人-人遮挡的3DPW-PC，用于物体遮挡的3DPW-OC和用于非遮挡/截断情况的3DPW-NC，以评估不同场景下的此外，我们还评估了室内多人3D姿势基准CMUPanop tic [18]。此外，我们评估了在Crowdpose [28]上的遮挡下的稳定性，Crowdpose [28 ]是一种拥挤的人在野外2D姿势基准。评估指标。我们采用逐顶点误差（PVE）来评估三维表面误差。为了评估3D姿态准确性，我们采用每关节位置误差的平均值（MPJPE）、Procrustes对齐的MPJPE（PMPJPE）、正确关键点的百分比（PCK）和PCK阈值曲线下的面积（AUC）。我们还采用平均每关节角度误差（MPJAE），和普罗克鲁斯特对齐的MPJAE（PA-MPJAE），以评估三维关节旋转精度。此外，为了评估拥挤场景中的姿态精度，我们计算平均值。年龄精度（AP0. 5）在2D投影J与Crowdpose上的地面实况2D姿势之间。4.2. 与最新技术水平的3DPW。我们采用了三种评价方案，它们显示了不同的性质。为了验证在实际场景中的性能，我们遵循来自3DPW挑战的协议1来评估整个3DPW数据集，而不使用任何地面实况，特别是边界框。以整个图像作为输入，我们为每个单人方法[22，23]配备了人体检测器（OpenPose [7]或YOLO [41]）。为了公平比较，ROMP使用与竞争方法相同的主干（ResNet-50）和训练数据集[23]。我们获得了OpenPose + SPIN的结果11185∗分裂CRMH [15] ROMP ROMP+CAR测试33.954.159.7验证32.9五十五点六58.6表3.与遵循方案3的3DPW上的最先进方法的比较（在训练集上微调）。意味着使用额外的数据集（与EFT相比）进行训练。方法讨价还价黑手党最终。披萨是说赞菲尔等al. [五十三]141.4152.3 145.0 162.5 150.3MSC [52]140.0一百六十五点九一百五十点七一百五十六点零153.4CRMH [15]129.6133.5 153.0 156.7 143.2ROMP（ResNet-50） 111.8一百二十九点零一百四十八点五一百四十九点一134.6BMP [54]120.4132.7 140.9 147.5 135.4ROMP（ResNet-50） 107.8一百二十五点三一百三十五点四一百四十一点八127.6ROMP（HRNet-32）110.8122.8 141.6 137.6 128.2表4.与CMU Panoptic [18]基准的最新方法的比较。评估指标为根部接头居中后的MPJPE。所有的方法都是直接评估，没有任何微调。这意味着使用额外的数据集进行训练。方法3DPW-PC 3DPW-NC 3DPW-OCCRMH [15]103.568.778.9VIBE [22]103.957.365.9ROMP不带CAR79.756.767.0- w/ CAR（γ= 0. 第一章77.655.666.6- w/ CAR（γ= 0.（二）75.857.167.1- w/ CAR（γ= 0. 第三章77.056.466.5表5.与3DPW的人闭塞（3DPW-PC）、物体闭塞（3DPW-OC）和非闭塞/截断（3DPW-NC）子集的最新方法进行比较。我们还消融CAR并改变排斥系数。γ。评估度量是PMPJPE。[13]。YOLO + VIBE的结果是使用官方发布的代码获得的，该代码已经包含了用于人体检测的YOLO部分BMP采用多尺度网格级表示，其结果可从[54]中获得。在选项卡中。1中，ROMP显著优于所有这些方法，特别是在MPJPE、PMPJPE和MP-JAE中。这些结果验证了学习一个鲁棒的像素级表示与整体的看法，有助于提高实际场景中的鲁棒性和泛化能力使用额外数据集（）的训练表明可以进一步提高ROMP的准确性。作为健全性检查，我们还将ROMP与评估协议中的单人方法进行比较，所述评估协议允许他们使用裁剪的单人图像作为输入，而ROMP仍然将整个图像作为输入。关注-方法MPJPEPMPJPEPVE↓EFT [19]-52.2-[22]第二十二话82.951.999.1ROMP（ResNet-50）84.251.9100.4ROMP（ResNet-50）79.749.794.7ROMP（HRNet-32）78.848.394.311186表6.与Crowdpose [28]基准测试中最先进的方法进行比较。评估度量是AP0。五、方法VIBE [22] CRMH [15]ROMPROMPFPS↑10.914.120.830.9骨干ResNet-50 ResNet-50 HRNet-32表7.在1070Ti GPU上的运行时间比较图4. ROMP和YOLO+VIBE [22]在处理不同人数的图像时的FPS变化。在VIBE [22]中，方案2使用3DPW测试集进行评估，而不对训练集进行微调，而方案3对3DPW训练集上的模型进行微调，并使用测试集进行评估。在选项卡中。2，ROMP优于协议2上的这些多阶段方法，进一步证明了我们的一阶段设计的优点。在选项卡中。3，ROMP实现了与现有技术方法相当的结果如果我们使用HRNet-32作为主干，则精确度在微调后显着提高。CMU Panoptic 遵循CRMH [15]的评估方案，我们在多人基准CMU Panoptic上评估ROMP，而不进行为了公平比较，我们使用与CRMH相同的主干和类似的训练集如Tab.所示4，ROMP在所有活动中的表现都大大优于现有的多阶段方法[15，52，53]。这些结果进一步表明，学习像素级表示与整体视图提高了多人场景的性能。闭塞基准。为了验证在遮挡下的稳定性，我们在多个遮挡基准上评估ROMP。首先，在人遮挡的3DPW-PC和Crowdpose[28]上，产生Tab. 图5和图6示出了ROMP显著优于先前的最先进的方法[15，22]。此外，在图在图5中，与CRMH的一些定性比较也证明了ROMP对人-人遮挡的鲁棒性。这些结果表明，像素级表示是重要的，以提高性能下的人-人遮挡。最后，在物体遮挡的3DPW-OC上，ROMP也取得了良好的性能。这些结果表明，细粒度像素级表示对于处理各种遮挡情况是有益的。11187图5.与CRMH [15]在人群姿势和互联网图像上的定性比较。运行时比较。我们比较ROMP与国家的最先进的方法，在处理由网络摄像头捕获的视频。所有运行时比较均在配备GTX 1070 Ti GPU、Intel i7- 8700 K CPU和8 GB RAM的台式机上执行。如Tab.所示7、ROMP实现了实时性能，明显快于竞争方法。此外，如图所示。4，与多阶段方法[15，22]相比，ROMP的处理时间大致恒定，与人数无关。4.3. CAR消融研究如Tab.所示。在图5和图6中，CAR分别将3DPW-PC和Crowdpose数据集上的PMPJPE度量提高了4.8%和10.3%。此外，图图6定性地示出了消融CAR的影响。在拥挤的场景中加入CAR可以提高性能，这表明CAR有效地缓解了中心碰撞问题。CAR的强度系数γ。为了设置γ，我们在3DPW-PC上进行消融研究。在选项卡中。5，设γ=0的情况。2在拥挤的场景中表现得更好（3DPW-PC）及其在正常情况下（3DPW-NC/3DPW-OC）与最佳产品相当。对于群体姿态的一般野外情况，设置γ=0。2比表2中的γ=0提高了10%的性能。六、因此，我们建议使用γ=0训练模型。2、所有案件在正常情况下性能下降的原因可能是推开身体中心影响身体中心引导表示的一致性。4.4. 讨论为了了解我们的性能增益的来源，我们对3DPW子集的不同子集进行了消融研究。选项卡中的结果。5显示我们的主要收益来自图6.人群姿势上CAR的定性消融研究从人遮挡和非遮挡/截断的情况。实验结果表明，该方法在提高拥挤场景下的消歧效果方面具有很好的效果。我们的实验表明，ROMP和最先进的[15，22，23]之间ROMP从整体视图学习像素级表示，而多阶段方法在局部视图中学习边界框级表示。我们的一阶段框架使ROMP能够学习更多的判别特征，这些特征对边界框外的丰富干扰具有鲁棒性，有助于泛化。5. 结论我们介绍了一种新的单阶段网络，ROMP，单眼多人三维网格回归。对于像素级估计，我们提出了一个显式的身体中心引导表示，并进一步将其开发为碰撞感知版本，CAR，使人-人遮挡下的鲁棒预测。ROMP是第一个开源的单阶段方法，在多个基准测试中实现了最先进的性能以及实时推理速度。ROMP可以作为相关多人3D任务的简单而有效的基础，例如深度估计，跟踪和交互建模。鸣谢：本课题得到了国家重大科技攻关项目“重大&科技攻关项目”的资助。2020AAA0103800。我们感谢彭程对中心地图培训的讨论。披露：MJB已收到Adobe，Intel，Nvidia，Facebook和Amazon的研究资金。虽然MJB是亚马逊的兼职员工，但他的研究仅在马克斯普朗克进行。MJB在Ama-zon、Datagen Technologies和Meshcapade GmbH拥有财务权益。11188引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. PoseTrack：人体姿态估计和跟踪的基准。在CVPR，2018年。6[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。6[3] Anurag Arnab，Carl Doersch，and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在CVPR，2019年。6[4] 钱宝，刘武，程宇浩，周伯彦，桃梅。姿态引导的检测跟踪：鲁棒的多人姿态跟踪。IEEE Transactions onMultimedia，23：161-175，2020。3[5] Abdallah Benzine、Florian Chabot、Bertrand Luvison、Quoc Cuong Pham和Catherine Achard。PandaNet：基于锚点的单次拍摄多人3D姿势估计。在CVPR，2020年。3[6] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。二、五[7] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2D姿态估计。在CVPR，2017年。二、三、六[8] 程博文，肖斌，王敬东，石红辉，Thomas S.黄和张磊。HigherHRNet：自下而上人体姿势估计的尺度感知表示学习。在CVPR，2020年。二、五[9] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在ECCV，2020年。2[10] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在ICCV，2019年。三、四[11] Riza Alp Guler和Iasonas Kokkinos。HoloPose：野外整体3D人体重建。在CVPR，2019年。1[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[13] Kissos Imry，Fritz Lior，Goldman Matan，Meir Omer，Oks Eduard和Kliger Mark。超越单目3D人体姿态估计的弱视角。在ECCVW，2020年。 7[14] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知TPAMI，2014年。6[15] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，Xiaowei Zhou，and Kostas Daniilidis.从单个图像相干重建多个人。在CVPR，2020年。一二三六七八[16] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。6[17] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。CVPR，2011。6[18] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。二六七[19] Hanbyul Joo，Natalia Neverova，and Andrea Vedaldi.针对3D人体姿势拟合的示例性微调朝向在ECCV，2020年。六、七[20] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR，2018年。一、二、四、六[21] Angjoo Kanazawa、Jason Zhang、Panna Felsen和JitendraMalik。从视频中学习3D人体动力学。在CVPR，2019年。一、二、六[22] Muhammed Kocab

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

单目多人3D网格回归方法的简化展示及其在遮挡情况下的鲁棒性

复杂网络的鲁棒性度量R的高效计算

逻辑回归 提升鲁棒性

深度学习人脸遮挡情况的人脸识别

介绍下 鲁棒性 的概念

Matlab怎么使用鲁棒性分析

提高对抗鲁棒性有什么方法

pid方法鲁棒性怎么样

stable diffusion鲁棒性

帮我写一段介绍基于单目/立体图像的3D目标检测方法的发展（用文献的形式呈现出其一步步发展点）要求具备全面详细概括性、关键重要性

2000字介绍基于回归和基于检测的方法的单人人体姿态估计

特征提取鲁棒性 matlab

在计算机视觉中，鲁棒性问题表现在哪些方面？

深度卷积网络中鲁棒性是什么

时间序列预测模型的鲁棒性测试方法

如何由loss分析模型的鲁棒性

基于matlab的lsb算法的五种鲁棒性攻击方法，并测试算法的鲁棒性

算法的鲁棒性和稳定性

yolov5提高模型鲁棒性

复杂网络鲁棒性 python代码

matlab鲁棒性代码

最新资源

逻辑回归提升鲁棒性

介绍下鲁棒性的概念