没有合适的资源?快使用搜索试试~ 我知道了~
14750学习从野外拥挤场景中估计稳健的3D人体网格0Hongsuk Choi 1 Gyeongsik Moon 1 JoonKyu Park 1 Kyoung Mu Lee 1, 201 电子与计算机工程系&ASRI,2 IPAI,首尔国立大学,韩国0{redarknight,mks0601,jkpark0825,kyoungmu}@snu.ac.kr0摘要0我们考虑从野外拥挤场景中恢复单个人的3D人体网格的问题。虽然在3D人体网格估计方面取得了很大进展,但是现有方法在测试输入具有拥挤场景时遇到困难。失败的第一个原因是训练和测试数据之间存在域差异。运动捕捉数据集提供了准确的3D标签用于训练,但缺乏拥挤数据,阻碍了网络学习目标人物拥挤场景下的稳健图像特征。第二个原因是特征处理,即对包含多个人的局部边界框的特征图进行空间平均。整个特征图的平均使目标人物的特征与其他人不可区分。我们提出了3DCrowdNet,首次明确针对野外拥挤场景,并通过解决上述问题来估计稳健的3D人体网格。首先,我们利用不需要运动捕捉数据集的3D人体姿态估计进行训练,不受域差的影响。其次,我们提出了一种基于关节的回归器,可以区分目标人物的特征和其他人。我们的基于关节的回归器通过从目标的关节位置采样特征并回归人体模型参数来保留目标的空间激活。因此,3DCrowdNet学习到了以目标为中心的特征,并有效地排除了附近人物的无关特征。我们在各种基准测试上进行实验证明了3DCrowdNet对野外拥挤场景的稳健性,无论是定量还是定性。代码可在此处获取1。01. 引言0为了从单张图像中重建准确的3D人体网格,已经进行了大量的研究,这些网格代表了人的姿势和形状。然而,在野外拥挤场景中,从3D人体网格估计中缺乏拥挤场景的研究,尽管这种场景很常见。因此,大多数先前的工作在没有人与人之间遮挡的场景中展示结果,并在拥挤场景中提供不准确的结果。人与人之间的遮挡是野外拥挤场景的主要挑战,许多实际应用,包括异常行为检测[8]和人员重新识别[35]都会遇到这种情况。本文研究了当前文献的局限性,并提出了一种从野外拥挤场景中稳健估计3D人体网格的新方法。01 https://github.com/hongsukchoi/3DCrowdNet_RELEASE0(MoCap训练数据)(野外拥挤测试数据)0(a)域差异(遮挡/姿势/外观等)0输入SOTA 3DCrowdNet(我们的方法)0(b)定性比较0图1.3DCrowdNet解决了从野外拥挤场景中估计3D人体网格的域差问题。由于运动捕捉数据和野外拥挤数据之间存在较大的域差,现有的最先进方法(如SPIN[19])在存在严重的人与人之间遮挡的情况下产生不准确的结果,而3DCrowdNet则能够给出准确的3D人体网格。为了遵守道德政策,我们在本文中对人脸进行了遮挡。0尽管野外拥挤场景中的人体网格估计非常常见,但几乎没有对此进行研究。因此,大多数先前的工作在没有人与人之间遮挡的场景中展示结果,并在拥挤场景中提供不准确的结果。人与人之间的遮挡是野外拥挤场景的主要挑战,许多实际应用,包括异常行为检测[8]和人员重新识别[35]都会遇到这种情况。本文研究了当前文献的局限性,并提出了一种从野外拥挤场景中稳健估计3D人体网格的新方法。14760当前主流的人体网格恢复训练策略是混合批次训练。它由一个mini-batch组成,其中一半数据来自运动捕捉(MoCap)3D数据集[13,26],另一半来自野外2D数据集[22]。为了使用2D数据进行监督,从预测的网格回归出的3D关节被投影到图像平面上,并计算与2D标注的距离。这种混合3D和2D数据的方式被广泛认为可以提高准确性和泛化性[17,19],通过隐式地使神经网络从3D数据的准确3D标注和2D数据中的多样化图像外观中受益。最近的研究工作[5, 9,19]的主要方法是使用全局特征向量的基于模型的方法,它使用深度卷积神经网络(CNN)获得特征向量,并从中回归出人体模型参数(例如SMPL[24])。首先,他们使用现成的人体检测器[10]检测到的目标人物的边界框裁剪图像。然后,他们使用深度CNN处理目标裁剪图像,并进行全局平均池化以获得全局特征向量。全局特征向量被馈送到基于多层感知器(MLP)的回归器中,回归出网格参数。通过将参数传递给人体模型层,可以获得3D网格。0尽管最近的研究在标准基准测试中展示了合理的结果[13,46],但在野外拥挤场景中仍然存在以下两个原因导致难以克服。首先,训练数据来自MoCap数据集,测试数据来自野外拥挤场景,训练数据与测试数据之间存在较大的领域差距,这阻碍了深度卷积神经网络从图像中提取目标人物的适当特征。领域差距来自于人群的存在,其中包括多样的人际遮挡、相互作用的身体姿势和难以区分的服装外观(图1a)。仅仅通过混合批次训练是不足以克服领域差距的,现有方法难以从野外拥挤场景中获取到稳健的图像特征,并产生不准确的网格(图1b)。直观地说,这告诉我们需要对领域差距具有鲁棒性的外部指导,以获得适应拥挤场景的图像特征,除了混合批次训练之外。0接下来,对深度卷积神经网络的全局平均池化会使区分目标人物特征与其他人物特征的空间信息消失。在野外拥挤的场景中,经常出现人物重叠和不准确的人体边界框。因此,目标的边界框不可避免地包含非目标人物。深度卷积神经网络的特征保留了这些非目标人物的特征,而全局平均池化使得目标人物的特征与其他人物的特征无法区分。这使得回归器产生困惑,难以捕捉到目标人物的准确3D姿态。例如,回归器可能会错过被其他人遮挡的人体部位,或者预测出不同人物的姿态。0在这方面,我们提出了3DCrowdNet,这是一种新颖的网络,可以从野外拥挤场景中学习估计单个人的稳健3D人体网格。这项研究是最早明确解决拥挤场景中目标人物的3D人体网格估计的工作之一。3DCrowdNet通过两个方面解决了以前工作的两个问题。首先,我们通过使用现成的2D姿势估计器明确指导深度卷积神经网络提取适应拥挤场景的图像特征来解决领域差距问题。与针对3D几何的方法不同,2D姿势估计器不需要深度监督,并且不是在MoCap数据集上训练的。相反,它仅在包含人群的野外数据集[21,41]上进行训练,并且在处理拥挤场景的推理时领域差距较小。因此,2D姿势估计器的输出为目标人物提供了强有力的证据,并帮助3DCrowdNet在野外拥挤场景中关注目标的特征。其次,我们提出了一种基于关节的回归器,它不会通过全局平均池化使目标人物在特征图中的空间激活消失。基于关节的回归器首先预测关节的空间位置,然后使用这些位置从深度卷积神经网络的特征图中采样图像特征。特别地,我们将采样区域保持较小,以排除非目标人物的特征。目标人物的特征与其他人物的特征有所区别,并且从采样的图像特征中回归出人体模型参数。基于关节的回归器与以前的回归器不同,以前的回归器无论目标如何均匀聚合人物的特征。图2描述了3DCrowdNet的概述。请注意,3DCrowdNet与直接将2D估计输出提升到3D的先前工作[6,25]存在显著差异-(a)我们专注于生成和利用人群中目标人物的图像特征,(b)这些图像特征帮助3DCrowdNet解决目标人物的深度和形状模糊性问题,而2D估计输出本质上存在这些问题。因此,我们认为这项工作通过区分密集互动人群中目标人物的图像特征,迈出了从野外拥挤场景中准确估计3D人体网格的一步,这是非常具有挑战性但重要的。实验证明,3DCrowdNet在野外拥挤场景中明显优于以前的3D人体网格估计方法。此外,它在多个3D基准测试中实现了最先进的准确性[16, 28,46]。主要文稿和补充材料中还提供了大量的定性结果。我们的贡献可以总结如下:0•我们提出了3DCrowdNet,这是第一个从野外拥挤场景中恢复3D人体网格的方法。它有效地处理拥挤场景中目标人物的图像特征,这对于准确的3D姿势和形状重建至关重要。14770• 它通过使用2D姿势估计器解决领域差距,提取了拥挤场景鲁棒的图像特征。0• 它使用基于关节的回归器区分目标人物的图像特征与其他人。0•3DCrowdNet在野外拥挤场景中在定量和定性上显著优于先前的方法,并在多个3D基准测试中实现了最先进的3D姿势和形状准确性。02. 相关工作0拥挤场景中的2D人体姿势估计。早期的2D人体姿势估计工作并没有明确针对拥挤场景。然而,他们的方法与野外拥挤场景的各种挑战相关,如重叠的人体边界框、人体检测错误和人际遮挡。有两种主要方法,即自下而上和自上而下方法。自下而上方法[2, 36,40]首先检测所有人的关节,然后将它们分组到每个人身上。自上而下方法[3, 10,37]首先检测所有人的人体边界框,然后对每个人应用单人2D姿势估计方法。与自下而上方法相比,自上而下方法通常在传统的2D姿势基准测试(如MSCOCO[22])上获得更高的准确性,但在拥挤场景基准测试[21,52]上表现不佳,这是由于人体检测问题。最近,一些工作明确解决了拥挤场景的2D姿势估计,并在拥挤场景基准测试上报告了良好的准确性。[21]结合了自上而下和自下而上方法,使用关节候选单人姿势估计和全局最大关节关联。[4]提出使用高分辨率特征金字塔学习尺度感知表示。[15]使用图神经网络对自下而上方法的分组过程进行了差分。[41]使用图像引导的渐进图卷积网络改进了不可见关节的预测。拥挤场景中的3D人体几何估计。一些方法[29, 47,53]在多人3D基准测试上显示出合理的结果[16,26]。然而,它们的重点是每个人的绝对深度估计,很少有工作从野外拥挤场景中解决人际遮挡以估计鲁棒的3D几何,如3D人体姿势(即3D关节坐标)和网格。XNect[27]提出了一种抗遮挡的方法,可应用于拥挤场景。然而,它没有专注于解决领域差距。它将2D/3D分支集成到单一系统中,并在MoCap数据集[28]上进行训练,该数据集几乎不包含人际遮挡。此外,它要求特定的关节(即颈部)必须对人体检测可见。相反,我们的关键思想是利用不是在MoCap数据上训练的外部2D姿势估计器,以减轻MoCap训练数据和野外拥挤测试数据之间的领域差距。此外,03DCrowdNet从拥挤场景中部分不可见的人身上重建完整的3D人体姿势和形状。ROMP[45]引入了一种自下而上的方法,用于多人3D网格恢复,可应用于拥挤场景。它估计了一个身体中心热图和一个网格参数图,并使用从热图回归的中心位置从参数图中采样每个人的网格参数。虽然该方法在拥挤场景上提供了比以前的方法更好的结果,但仍可能受到MoCap训练数据和野外拥挤场景测试数据之间的领域差距的影响。此外,仅依靠身体中心估计来区分目标与其他人在身体中心遮挡的情况下可能不稳定。另一方面,3DCrowdNet通过拥挤场景鲁棒的2D姿势明确解决了领域差距问题。此外,我们利用目标的多个2D关节位置的线索,并从这些位置中提取的图像特征来处理不同的人际遮挡,包括身体中心的遮挡。2D几何到3D人体网格估计。[6, 42, 43,51]提出了一些只使用2D几何而不使用图像(如2D关节位置)的方法,用于SMPL参数回归。虽然这些方法可以从适应野外拥挤场景的2D估计器中受益,但它们有两个限制。首先,它们无法纠正与图像中实际人物相比的不准确的2D输入。相反,它们为给定的2D输入产生最合理的输出,而不是最能描述图像中人物的3D姿势和形状。其次,它们无法从具有丰富深度和3D形状线索的图像特征中受益。这些线索包括微妙的光反射和阴影。2D几何几乎不包含此类线索,可能导致不准确的3D人体网格估计。相反,3DCrowdNet利用图像特征从可能不准确的2D姿势中重建准确的3D人体网格。此外,我们专注于使用2D姿势提取目标人物的拥挤场景鲁棒图像特征,而不是直接将2D提升到3D,这是以前的工作的先验知识。03. 3DCrowdNet03.1. 3DCrowdNet架构0如图2所示,我们的架构包括一个特征提取器和一个基于关节的回归器。特征提取器基于ResNet-50[11],基于关节的回归器基于[23,33]。我们网络的输出是SMPL[24]参数,通过将参数输入到SMPL层获得单个人的3D网格。特征提取器。特征提取器以2D姿势和图像作为输入。2D姿势是由自下而上的现成2D姿势估计器[2,4]预测的2D关节坐标P 2D∈RJ×2。J表示人体关节的数量,不同的2D姿势估计器之间可能会有所不同。在训练过程中,我们根据[6,30]在地面真实(GT)2D姿势上添加真实误差,以模拟测试时的错误2D姿势输出,并将嘈杂的2D姿势用作我们的输入P 2D。我们通过在2D关节坐标上制作高斯斑点,将2D姿势P 2D表示为热图H 2D∈R Js×64×64,并将其提供给特征提取器。J s =30表示多个数据集定义的关节集合的超集中的关节数量。我们为未定义的关节和推断时间中置信度较低的关节预测分配不关心的值,通过将零乘以相应关节的热图。基于关节和热图的不关心值建模使得3DCrowdNet能够使用单个网络从各种人体关节集合进行推断,并处理由于截断和遮挡导致的缺失关节的2D姿势等多样输入。特征提取器使用目标人的2D姿势热图H2D作为引导,并关注人群中目标的空间区域。首先,它从裁剪图像I∈R3×256×256中获得ResNet的早期阶段图像特征F∈R C×64×64。C = 64是通道维度,I是根据2D姿势P2D裁剪和调整大小得到的边界框区域。然后,它沿通道维度连接F和H2D。连接的特征通过一个3x3的卷积块处理,保持特征的高度和宽度,但将通道维度更改为C。最后,具有C个通道的特征被反馈到ResNet的剩余部分,其中输出是适应拥挤场景的图像特征F'∈R C'×8×8。C' =2048是通道维度。基于关节的回归器。基于关节的回归器首先从F'中恢复3D关节坐标P 3D∈R J c×3。J c =15concatenationforward passimage feature samplingpixel space Y-axiselement-wise sum14780图像特征(F)02D姿势热图(H 2D)2D姿势(P 2D)0裁剪图像(I)0早期阶段0图像特征03D姿势(P 3D)03D网格特征0右肘的图像特征0右脚踝的图像特征0F M0特征提取器0F0基于关节的回归器0ResNet卷积块0卷积/640重塑和软最大值0图卷积块/1280最大池化/ 20卷积/640x40x40MLP/ 60图卷积块/1280图卷积块/1280MLP/21x3MLP/10MLP/ 30重塑/15x1280全局旋转。0SMPL0姿势参数。0SMPL0形状参数。0相机参数0图2.3DCrowdNet概述。它通过明确引导深度卷积神经网络使用现成的2D姿势估计器提取适应拥挤场景的特征来解决领域差距问题。然后,它通过保留目标人物的空间激活与基于关节的回归器区分目标人物与其他人,并回归SMPL[24]参数。这些参数被输入到SMPL层以获得3D网格。为简单起见,我们只展示了对两个关节进行图像特征采样。网络层中的数字表示输出通道维度。最大池化层中的数字表示步幅大小。图卷积块的通道维度是按关节定义的。0在训练过程中,我们根据[6,30]在地面真实(GT)2D姿势上添加真实误差,以模拟测试时的错误2D姿势输出,并将嘈杂的2D姿势用作我们的输入P2D。我们通过在2D关节坐标上制作高斯斑点,将2D姿势P2D表示为热图H 2D∈R Js×64×64,并将其提供给特征提取器。J s =30表示多个数据集定义的关节集合的超集中的关节数量。我们为未定义的关节和推断时间中置信度较低的关节预测分配不关心的值,通过将零乘以相应关节的热图。基于关节和热图的不关心值建模使得3DCrowdNet能够使用单个网络从各种人体关节集合进行推断,并处理由于截断和遮挡导致的缺失关节的2D姿势等多样输入。特征提取器使用目标人的2D姿势热图H2D作为引导,并关注人群中目标的空间区域。首先,它从裁剪图像I∈R3×256×256中获得ResNet的早期阶段图像特征F∈RC×64×64。C = 64是通道维度,I是根据2D姿势P2D裁剪和调整大小得到的边界框区域。然后,它沿通道维度连接F和H2D。连接的特征通过一个3x3的卷积块处理,保持特征的高度和宽度,但将通道维度更改为C。最后,具有C个通道的特征被反馈到ResNet的剩余部分,其中输出是适应拥挤场景的图像特征F'∈R C'×8×8。C' =2048是通道维度。基于关节的回归器。基于关节的回归器首先从F'中恢复3D关节坐标P 3D∈R J c×3。J c = 150表示多个数据集定义的关节集合的交集中的关节数量。(x,y)值的P3D在2D像素空间中定义,而P3D的z值表示根关节相对深度。一个1×1的卷积层从F′输出一个3D热图H3D∈RJc×D×8×8,该热图预测了一个JcD维的2D特征图,并将其重新调整为3D热图。D=8决定了深度的离散化大小。P3D0是通过使用软最大化操作[44]从H3D计算得出的。由于软最大化从离散化网格中计算连续坐标,我们观察到像H3D这样低分辨率的热图与上采样的热图相比具有相似的准确性,同时需要更少的计算成本。接下来,基于关节的回归器估计一个人的全局旋转θg∈R3,SMPL身体旋转参数θ∈R21×3,SMPL形状参数β∈R10和相机参数k∈R3进行投影。首先,使用P3D的(x,y)像素位置从F′中对每个关节进行图像特征采样。我们使用双线性插值,因为(x,y)像素位置不是离散化的值。P3D的预测置信度以相同的方式从H3D中进行采样。其次,我们将采样的图像特征、P3D和P3D的预测置信度连接起来,得到FM∈RJc×(C′+3+1)。最后,我们使用图卷积网络(GCN)处理FM,并使用单独的MLP层从GCN的输出特征中预测θg、VPoser[39]潜在代码z、β和k。θ从z解码。GCN在训练过程中显示出更快的收敛速度,我们认为原因在于θ的特性。θ是父关节相对关节的旋转,GCN可以利用与MLP不同的人体运动学先验知识。例如,GCN可以隐式学习有效范围的tively. ˆNj is defined as Nj ∪ {j}, where Nj denotes neigh-bors of a vertex j. ˜aji is an entry of the normalized adja-3DPW-CrowdMuPoTSCMU-Panoptic3DPW14790每个父关节相对关节利用人体关节之间的关系。对于图卷积网络,我们使用关节特定的图卷积[23],为每个图顶点学习单独的权重。我们为每个图卷积层的所有关节定义可学习的权重矩阵{Wj∈RCout×Cin}Jcj=1,其中Cin和Cout分别表示输入和输出通道的维度。然后,关节j的输出图特征被推导为Foutj=σReLU(�02.A∈{0,1}Jc×Jc是基于人体骨骼层次结构构建的邻接矩阵,在训练和测试阶段保持不变。人体骨骼层次结构的定义见补充材料。03.2. 网络训练0特征提取器和基于关节的回归器被整合并进行端到端的训练。我们使用通过拟合框架[32,39]获得的伪GTSMPL拟合和训练数据集的GT注释进行监督,遵循[19]。我们的总体目标定义如下:0L = L pose + L mesh,(1)0其中Lpose计算预测的P3D与(伪)GT之间的L1距离,Lmesh表示预测的SMPL参数的损失函数。Lmesh定义为0L mesh = L param + L pose ′,(2)0其中Lparam计算预测的θg、θ和β与伪GT参数之间的L1距离;Lpose′表示从预测的网格回归的关节的L1距离损失。为了使用2D注释[1,22]进行监督,通过相机参数k对预测的关节进行投影。03.3. 实现细节0使用PyTorch[38]进行实现。我们使用预训练的ResNet[11]权重从[48]初始化权重。它在训练过程中显示出更快的收敛速度。我们使用批量大小为64的Adam优化器[18]。初始学习率为10^-4。模型训练了6个epochs,在第3个和第5个epochs之后学习率降低了10倍。我们使用四个NVIDIA RTX2080 TiGPU进行训练,平均需要约9小时。我们将发布更多详细信息的代码。0图3。我们策划了3DPW-Crowd,这是3DPW的一个子集,其边界框IoU和CrowdIndex[21]比其他3D基准要高得多。CrowdIndex衡量了边界框中其他人关节与每个人关节的比例。04. 实验04.1. 数据集0训练集。我们使用Human3.6M [13]、MuCo-3DHP[28]、MSCOCO [22]、MPII [1]和CrowdPose[21]进行训练。只使用数据集的训练集,遵循标准的拆分协议。测试集。我们在MuPoTS [28]、CMU-Panoptic[16]、3DPW[46]和3DPW-Crowd上报告准确性。MuPoTS是一个从室内和室外环境中捕获的多人测试基准,主要由3到4个人组成。CMU-Panoptic是一个从Panoptic工作室捕获的大规模多人数据集。根据[14,50]的做法,我们选择了四个序列,每个序列中有3到7个人相互社交,用于评估。3DPW是一个广泛使用的从野外环境中捕获的3D基准,我们使用3DPW的测试集,遵循官方的拆分协议。3DPW-Crowd是3DPW的一个子集,用于评估方法对野外拥挤场景的鲁棒性。有关其必要性的更多细节,请参见下面的说明。04.2. 评估协议0在拥挤场景上的评估:3DPW-Crowd和CrowdPose。正如CrowdPose[21]所指出的,从拥挤场景中进行姿势估计的主要障碍不是人数,而是人群中的人际遮挡。因此,MuPoTS[28]和CMU-Panoptic[16]在野外拥挤场景的评估上存在限制,不仅因为它们不是野外数据,而且因为它们显示的互动有限。为了克服这些限制,我们提出了3DPW-Crowd来数值化地衡量方法在野外拥挤场景中的鲁棒性。它包含了拥抱和跳舞的序列,这些序列的边界框和CrowdIndex[21]的平均交并比(IoU)要高得多。14800输入 输0基线(仅使用图像特征而没有引导)0遮挡的人0(男性)的特征图0输入 输出0遮挡的人0(男性)的特征图0图4。基线只关注遮挡人(女性),而不是被遮挡人(男性),并产生了错误的3D网格。3DCrowdNet关注目标男性并恢复了准确的3D网格。0输入特征MPJPE ↓ PA-MPJPE ↓0仅使用图像特征 109.6 63.30拥挤场景鲁棒的图像特征 85.8 55.80表1。输入图像特征的消融研究。0如图3所示,在3D基准测试中,我们将子集命名为3DPW-Crowd,因为它展示了野外拥挤场景的挑战,例如重叠的边界框和严重的人际遮挡。关于3DPW-Crowd的更多细节请参见补充材料。我们还在本文和补充材料中对CrowdPose[21]的测试集上提供了广泛的定性比较。评估指标。我们报告3D姿势和3D形状评估指标。对于3D姿势评估,我们使用平均每关节位置误差(MPJPE)、Procrustes对齐的平均每关节位置误差(PA-MPJPE)和[26]中提出的3DPCK。根据SPIN[19]的做法,我们使用从3D网格回归得到的3D关节坐标作为预测。对于3D形状评估,我们使用平均每顶点位置误差(MPVPE)。所有误差都是在对齐GT和估计的人体网格的根关节之后测量的。04.3. 消融研究0我们在3DPW-Crowd上进行了消融研究。我们在表2、表3和表4中使用了HigherHRNet[4]的2D姿势输出。拥挤场景鲁棒的图像特征。表1显示了0参数 回归器类型 MPJPE ↓ PA-MPJPE ↓0SPIN风格的回归器 89.0 59.50基于关节的回归器(我们的方法)85.8 55.80表2. 回归器类型的消融实验。0采样区域 MPJPE ↓ PA-MPJPE ↓0整个特征图 89.1 57.80围绕点的5×5网格 88.2 57.6点(我们的方法)85.8 55.80表3. 对图像特征采样区域的消融实验。0验证拥挤场景鲁棒图像特征的有效性。第一行的基准网络使用GT边界框裁剪图像,并提取图像特征,不像先前的方法那样有任何指导。表中的显著误差降低证明了2D姿势可以产生拥挤场景鲁棒的图像特征,并且图像特征对于从野外拥挤场景中准确估计网格至关重要。我们在图4中进一步验证了2D姿势可以产生拥挤场景鲁棒的图像特征的论述。与基准网络不同,3DCrowdNet激活了被遮挡目标男性的空间区域,并成功将其与其他人区分开来。因此,3DCrowdNet能够准确估计被遮挡目标男性的网格,而基准网络则预测了遮挡女性的网格。我们得出结论,在野外拥挤场景中进行3D网格估计时,MoCap训练数据的域差异是瓶颈,而我们利用不使用MoCap训练数据的2D姿势估计器的鲁棒性的想法是有效的。基于关节的回归器。表2显示,基于关节的回归器在3DPW-Crowd上优于当前文献中占主导地位的基于模型的方法SPIN[19]风格的回归器。结果证明,保留深度CNN特征图中目标人物的空间激活是至关重要的。SPIN风格的回归器显示较低的准确性,因为它通过全局平均池化将目标人物的特征与其他人的特征混合在一起,使其无法区分。我们在表3中进一步验证了我们的论点。最初,我们的基于关节的回归器从预测的3D姿势的(x,y)位置采样深度图像特征。当我们扩大采样区域时,误差增加。特别是,当基于关节的回归器使用从整个特征图中采样的特征时,这些特征与SPIN风格的回归器相同,MPJPE变得类似于SPIN风格的回归器。这表明,表2中的大部分准确性提升不是来自更好的网络架构(如GCN),而是来自目标人物空间激活的保留。保持适当的采样区域以减少非目标人物的图像特征的参与对于从野外拥挤场景中估计出鲁棒的人体网格是重要的。我们还验证了从2D姿势而不是2D姿势估计的有效性。14810估计目标 MPJPE ↓ PA-MPJPE ↓02D姿势 88.3 56.43D姿势(我们的方法)85.8 55.80表4.在训练和测试过程中,基于关节的回归器的中间估计目标的消融实验。0方法 MPJPE ↓ PA-MPJPE ↓ MPVPE ↓0SPIN [19] 121.2 69.9 144.10Pose2Mesh [6] 124.8 79.8 149.5 I2L-MeshNet [31]115.7 73.5 162.00ROMP [45] � 104.8 63.9 127.83DCrowdNet(我们的方法)86.8 56.1 109.703DCrowdNet(我们的方法)� 85.8 55.8 108.50表5.3DCrowdNet与先前方法在3DPW-Crowd上的比较。我们使用它们的代码和预训练模型来评估其他方法。�表示使用CrowdPose[21]进行训练。0表4中使用3D姿势而不是2D姿势。明显的准确性提高证明了可以可靠地从2D姿势和图像特征中估计深度信息,并且这对于最终网格估计的准确性是有益的。04.4. 与最先进的方法的比较0除非另有说明,我们的3DCrowdNet在表5、6和7中未在CrowdPose[21]的训练集上进行训练。此外,我们使用的训练数据少于或类似于其他方法,并且详细信息请参见补充材料。3DPW-Crowd。我们在表5中将我们的3DCrowdNet与[6, 19, 31,45]进行比较。它们是3DPW上最新的3D人体网格估计方法,并公开发布了用于评估的代码。我们得出几个观察结果。首先,我们的方法优于只使用图像特征作为输入并在深度CNN特征图上执行全局平均池化的SPIN[19]。这个结果与我们的消融研究的表1和表2中的结果一致。接下来,3DCrowdNet优于ROMP[45],这是一种用于多人3D网格估计的自底向上方法。虽然ROMP的准确性高于其他方法,但我们认为它仍然存在领域差距的问题。例如,它需要学习如何区分不同人之间的身体中心,而它们使用的MoCap数据集很少包含这样的数据。另一方面,3DCrowdNet使用2D姿势输入明确解决了领域差距问题,并产生准确的3D网格。最后,3DCrowdNet击败了Pose2Mesh[6],这是一种也可以从拥挤场景鲁棒的2D姿势中受益的方法。我们使用了[4]的相同2D姿势预测用于Pose2Mesh和3DCrowdNet。结果验证了3DCrowdNet相对于Pose2Mesh的两个优势。首先,3DCrowdNet使用图像中丰富的深度和形状线索恢复最能描述目标人物的3D网格。相反,Pose2Mesh为给定的2D姿势生成最合理的3D网格,并且准确性取决于它。图6显示了3DCrowd-0方法3DPCK ↑0全部 匹配0SMPLify-X [39] / OpenPose [2] 62.8 68.00HMR [17] / OpenPose [2] 66.0 70.9 HMR [17] /Mask R-CNN [10] 65.6 68.60Jiang等人 [14] 69.1 72.2 3DCrowdNet (我们的方法) /OpenPose [2] 70.2 70.903DCrowdNet (我们的方法) / HigherHRNet [4] 72.7 73.30表6. MuPoTS[28]上3DCrowdNet和先前方法的比较。数字表示所有注释(All)和与预测匹配的注释(Matched)的3DPCK,并从[14]中获取。[2,4, 10]旁边的方法名称表示边界框和2D姿势输入的来源。0方法 Haggl. Mafia Ultim. Pizza Mean0Zanfir等人 [49] 140.0 165.9 150.7 156.0 153.40Zanfir等人 [50] 141.4 152.3 145.0 162.5 150.3 Jiang等人[14] 129.6 133.5 153.0 156.7 143.20ROMP [45] 111.8 129.0 148.5 149.1 134.6 3DCrowdNet(我们的方法) 109.60 135.9 129.8 135.6 127.60表7. 在CMU-Panoptic[16]上的比较。数字表示MPJPE。我们遵循Jiang等人 [14]的评估协议。0即使2D姿势不准确,Net也能恢复准确的3D网格。其次,3DCrowdNet可以处理由于遮挡和截断导致的2D姿势预测中缺失的关节,这是由于基于2D姿势的热图的不关心建模引入的。Pose2Mesh将2D姿势作为坐标,无法处理在野外拥挤场景中常见的缺失关节。请参考补充材料中的定性比较。MuPoTS。表6比较了我们的3DCrowdNet与恢复3D网格的方法。它优于所有先前的方法。请注意,第二行和第五行证明3DCrowdNet在拥挤场景中的高准确性不仅仅归因于从底部向上的2D姿势导出的更好的定位。虽然3DCrowdNet和HMR使用相同的OpenPose[2]的2D姿势,但HMR仅使用2D姿势获取边界框,而3DCrowdNet还使用2D姿势指导特征提取器提取拥挤场景鲁棒的图像特征。利用给定输入中的更多信息是自然的,并且可以提高准确性。CMU-Panoptic。表7显示我们的3DCrowdNet在CMU-Panoptic上明显优于先前的3D人体姿势和形状估计方法。结果表明,所提出的3DCrowdNet可以在日常社交活动的拥挤场景中具有竞争力。请注意,没有使用CMU-Panoptic的数据进行训练。3DPW。表8显示3DCrowdNet在一般野外场景中达到了最先进的准确性。结果验证了3DCrowdNet对野外场景的多样挑战具有鲁棒性,尽管我们的方法旨在针对拥挤场景。图5的第二行支持148203DCrowdNet(我们的方法) SPIN输入图像 3DCrowdNet(我们的方法) ROMP输入图像0图5. 在CrowdPose [21]测试集上与SPIN [19]和ROMP[45]的定性比较。我们用红色圆圈突出显示它们的代表性失败案例。3D网格的顺序是手动分配的。0输入图像 2D姿势 正视图 不同视图 输入图像 2D姿势 正视图 不同视图0图6. 不同视角下的3D网格可视化。3DCrowdNet利用2D姿势输入和图像特征的线索有效地解决了深度模糊问题。0方法 MPJPE ↓ PA-MPJPE ↓ MPVPE ↓0HMR [17] 130 76.7 -0GraphCMR [20] - 70.2 - SPIN [19] 96.9 59.2 116.40I2L-MeshNet [31] 93.2 57.7 110.1 Pose2Mesh [6] 89.556.3 105.30宋等人。[43] - 55.9 - 方等人。[7] 85.1 54.8 -0TUCH [34] 84.9 55.5 - ROMP [45] 91.3 54.9 108.303DCrowdNet(我们的方法) 81.7 51.5 98.30表8. 在3DPW[46]上3DCrowdNet和单张图像中3D人体网格估计的最先进方法之间的比较。我们比较了在训练过程中不使用3DPW训练集的方法,以进行公平比较。0我们的陈述显示了3DCrowdNet在野外图像中对截断和遮挡的鲁棒性。我们在图5中与SPIN [19]和ROMP[45]进行了定性比较。显然,3DCrowdNet在野外拥挤场景中产生了更稳健的3D网格。SPIN预测了一个交换的腿姿势(顶部),无法区分重叠边界框中的不同人(中间),并且由于人与人之间的遮挡而错过了右腿的姿势(底部)。ROMP为具有相似外观的被遮挡人物产生了不准确的姿势(顶部),0当目标的身体中心(即躯干)不可见(中间),并且由于附近具有相似外观的人的遮挡而估计目标的全局旋转不准确(底部)。请还参考附加材料中与[6, 19, 31,45]的更广泛的定性比较以及3DCrowdNet的失败案例。05.结论我们提出了3DCrowdNet,这是第一个专门针对野外拥挤场景的基于单张图像的3D人体网格估计系统。它提取目标人物的拥挤场景鲁棒的图像特征,并有效地将目标与其他人区分开来。我们使用2D姿势引导深度卷积神经网络注意目标,这对于MoCap训练数据和人群测试数据之间的领域差距具有鲁棒性。基于关节的回归器保留了目标的空间激活,并有效地排除了非目标人物的图像特征。我们展示了3DCrowdNet在野外拥挤场景中在定量和定性上都明显优于先前的方法。由于其简单而有效的实现,3DCrowdNet可以成为未来针对拥挤场景的基于图像的方法的基准。致谢。本工作部分得到了韩国政府(MSIT)资助的IITP项目的支持[编号2021-0-01343,人工智能研究生院计划(首尔国立大学)]。14830参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, andBernt Schiele. 2D human pose estimation: New benchmarkand state of the art analysis. In CVPR, 2014. 50[2]曹哲,西蒙托马斯,魏世恩,谢亚瑟。使用部分关联场的实时多人2D姿态估计。在CVPR,2017年。3,70[3] Yilun Chen, Zhicheng Wang, Yuxiang Peng, ZhiqiangZhang, Gang Yu, and Jian Sun. Cascaded pyramid networkfor multi-person pose estimation. In CVPR, 2018. 30[4]郑博文,肖斌,王京东,史洪辉,黄托马斯,张磊。HigherHRNet:面向自底向上人体姿态估计的尺度感知表示学习。在CVPR,2020年。3,6,70[5] Hongsuk Choi,Gyeongsik Moon,Ju Yong Chang和Ky-oung MuLee。超越静态特征的时间一致的3D人体姿势和形状从视频中恢复。在CVPR,2021年。20[6] Hongsuk Choi,Gyeongsik Moon和Kyoung MuLee。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功