基于摄像机距离感知的三维多人姿态估计方法

149 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10133基于摄像机距离感知的Top-Down单RGB图像庆植文1朱永昌2庆穆李11ECE ASRI，首尔国立大学，韩国2ECE，Kwangwoon大学，韩国{mks0601，kanju}@ snu.ac.kr，juyong. gmail.com图1：将我们的3D多人姿势估计框架应用于COCO数据集[20]的定性结果，该数据集由野外图像组成。以往的3D人体姿态估计研究主要集中在根相关的3D单人姿态估计。在这项研究中，我们提出了一个通用的三维多人姿态估计框架，考虑到所有因素，包括人体检测和三维人体根部定位。摘要虽然近年来三维人体姿态估计技术已经取得了很大的进步在这项工作中，我们首先提出了一个完全基于学习的，相机距离感知自顶向下的方法，从一个单一的RGB图像的三维多人姿态估计。提出的系统的管道由人体检测，绝对三维人体根定位，根相对三维单人姿态估计模块。我们的系统实现了与最先进的3D单人姿势估计模型相当的结果，而无需任何地面实况信息，并且在公开可用的数据集上显著优于以前的3D多人姿势代码在1、 2中可用。1https://github.com/mks0601/3DMPPE_ROOTNET_释放2https://github.com/mks0601/3DMPPE_POSENET_释放1. 介绍三维人体姿态估计的目标是在三维空间中定位单个或多个人体的语义关键点。它是人类行为理解和人机交互的基本技术。最近，许多方法[21，32，37，38，43，46]利用深度卷积神经网络（CNN），并在大规模公开数据集上实现了显著的性能改进[14，23]。大多数先前的3D人体姿态估计方法[21，32，37，38，43，46]是针对单人情况设计的。它们使用地面实况边界框或从人体检测模型预测的边界框来裁剪输入图像中的人体区域[9]。人体的裁剪块被馈送到3D姿态估计模块中，该3D姿态估计模块然后估计每个关键点的3D位置。由于他们的模型采用单个裁剪图像，因此很难估计每个关键点的绝对相机中心坐标。为了处理这个问题，许多方法[21，32，37，38，43，46]估计相对于身体中的参考点的相对3D姿态，例如，中心接头（即，、骨盆）10134一个叫根的人通过将根部的3D坐标添加到所估计的根部相对3D姿态来获得最终3D姿态。关于骨长度[32]或地面实况[38]的先前信息通常用于牙根的定位最近，用于2D多人姿势估计的许多自上而下的方法[5，11，41]已经显示出显著的性能改进。这些方法首先通过使用人检测模块来检测人，然后通过2D单人姿态估计模块来估计每个人的2D姿态虽然它们在2D情况下使用时很简单请注意，对于3D多人姿势的估计，我们需要知道每个人从相机到2D边界框的绝对距离。然而，现有的人体检测器仅提供2D边界框。在这项研究中，我们提出了一个通用的框架，三维多人姿态估计。据我们所知，这项研究是第一个提出一个完全基于学习的相机距离感知自上而下的方法，其中的组件是兼容的大多数以前的人体检测和3D人体姿态估计方法。拟议系统的管道由三个模块组成。首先，人体检测网络（DetectNet）检测输入图像中的人体边界框。其次，提出的 3D 人类根部定位网络（RootNet）估计检测到的人类根部的以相机为中心的坐标第三，根相对3D单人姿态估计网络（PoseNet）估计每个检测到的人的根相对图1和图2分别显示了我们框架的定性结果和整体流程。我们表明，我们的方法在几个公开的3D单人和多人姿态估计数据集[14，24]上的性能优于以前的3D多人姿态估计方法[24，34]。此外，即使没有任何地面实况信息（即，边界框和根的3D位置），我们的方法实现了与在推理时间中使用地面实况的最先进的3D单人姿势估计方法相当的性能。请注意，我们的框架是新的，但遵循以前的公约，目标检测和三维人体姿态估计网络。因此，以前的检测和姿态估计方法可以很容易地插入到我们的框架，这使得所提出的框架非常灵活和通用。我们的贡献可归纳如下。• 我们提出了一个新的通用框架，从一个单一的RGB图像的三维多人姿态估计的框架是第一个完全基于学习的、摄像机距离感知的自上而下的方法，其组成部分与大多数先前的人体检测和3D人体姿态估计模型兼容。• 我们的框架输出多个人类关键点的绝对相机中心坐标。为此，我们提出了一个三维人体根定位网络（RootNet）。该模型使得很容易将3D单人姿态估计技术扩展到多人的绝对3D姿态估计。• 我们表明，我们的方法显着优于以前的3D多人姿态估计方法在几个公开的数据集。此外，它还实现了与最先进的3D单人姿态估计方法相比，性能相当，而无需任何地面实况信息。2. 相关作品2D多人姿态估计。在多人姿态估计中有两种主要方法。第一种是自顶向下的方法，部署了一个人体检测器，用于估计人体的边界框每个检测到的人体区域被裁剪并馈送到姿势估计网络中。第二种是自底向上的方法，首先定位输入图像中的所有人体关键点，然后使用一些聚类技术将它们分组[2019 - 05 - 15][2019 - 05]帕潘德里欧等[29]每个关节的预测2D偏移向量和2D热图。他们将估计的矢量和热图融合在一起，生成高度局部化的热图。Chen等人[5]提出了一种级联金字塔网络，其级联结构通过聚焦于硬关键点来细化初始估计的姿态。Xiao等[41]使用了一个简单的姿态估计网络，该网络由一个深层骨干网络和几个上采样层组成。[2，12，17，28，33]基于自下而上的方法。Cao等人[2]提出了人体关键点之间的关联模型的部分亲和场（PAF）。他们通过使用估计的PAF对输入图像Newell等人[28]引入了一个逐像素的标签值来为某个人分配局部关键点。Kocabas等人[17]提出了一种姿态残差网络，用于将检测到的关键点分配给每个人。3D单人姿态估计。当前的3D单人姿态估计方法可以被分类为单阶段和两阶段方法。单阶段方法直接从输入图像定位3D身体关键点。两阶段方法利用2D人体姿态估计的高精度。它们最初在2D空间中定位身体关键点，并将其提升到3D空间。[18，32，37-39]是基于单级方法。Li等[18]提出了一个多任务框架，联合训练姿势回归和身体部位检测器。Tekin等人[39]通过采用自动编码器结构来建模高维关节依赖性。帕夫拉科斯和101353D多人姿态JyzRootNetDetectNetX3D绝对人体根PoseNet输入图像作物人类三维根相对位姿图2：从单个RGB图像进行3D多人姿势估计的拟议框架的整体流程。所提出的框架可以恢复多个人的关键点的绝对相机中心坐标al. [32]扩展了U形网络，以估计每个关节的3D热图他们使用了一种从粗到细的方法来提高性能。Sun等人[37]引入复合损耗来考虑节点连接结构。Sun等人[38]采用soft-argmax运算，以可微的方式获得人体关节的三维坐标。[3，4，6，21，30，43，46]基于两阶段方法。Park等人[30]估计初始2D姿态并利用它来回归3D姿态。Martinez等人[21]提出了一个简单的网络，直接从2D坐标回归人体关节的3D坐标Zhou等[46]提出了几何损失，以促进弱监督关键点的2D图像坐标和根相对深度值。由于他们的方法不输出关键点的相对于根的相机中心坐标，因此不能使用这样的距离最小化策略。此外，由于没有考虑图像特征，因此无法利用上下文信息例如，它无法区分靠近相机的儿童和远离相机的成人，因为他们在2D图像中的比例是相似的。3. 拟议模式我们的系统的目标是恢复多个人的关键点的绝对相机中心坐标学习深度回归模块中的图像{Pabs}J，其中J表示接头的数量。到野外Yang等[43]利用对抗性损失来处理野外的3D人体姿态估计3D多人姿态估计。很少有研究已经进行了3D多人姿态估计从一个单一的RGB图像。Rogez等人[34]提出了一种自顶向下的方法，称为LCR-Net，它由定位，分类和回归部分组成。定位部分从输入图像中检测人，并且分类部分将检测到的人分类为若干锚姿势。锚姿势被定义为一对2D和根姿势。j j=1为了解决这个问题，我们构建了我们的系统，自上而下的方法，包括 DetectNet ， Root-Net 和PoseNet。 DetectNet检测输入图像中每个人的人类绑定框。RootNet从DetectNet获取裁剪的人类图像，并定位人类的根R=（x R，y R，Z R），其中x R和y R是像素坐标，Z R是绝对深度值。相同的裁剪的人类图像被馈送到PoseNet，PoseNet估计根相对3D姿态Prel=（xj，yj，Zrel），其中xj和yj是像素坐标。相对3D姿势。它是由聚类构成的jj训练集然后，回归部分细化锚点-在裁剪的图像空间中，Zrel是根相关的深度值我们通过添加ZR将Zrel转换为Zabs，摆姿势Mehta等人[24]提出了一种自下而上的办法j j系统他们引入了一个遮挡鲁棒的姿势图-将xj和yj变换到原始输入图像空间。然后，最终的绝对3D姿态{Pabs}J通过简单的支持多个姿势推断的仿真通过PAFs的人[2]。三维多人姿态估计中的三维人体根部定位。Rogez等人[34]第34话反投影4. DetectNetj j=1图像坐标空间和相机中的3D姿态-坐标系同时他们通过最小化估计的2D姿态和投影的3D姿态之间的距离来获得人体根部的3D位置，类似于Mehta等人。[23]做了然而，这种策略不能推广到其他3D人体姿态估计方法，因为它需要2D和3D估计。例如，许多作品[32，38，43，46]估计我们使用Mask R-CNN [9]作为检测的框架Net. Mask R-CNN [9]由三部分组成第一个是主干，通过使用深度残差网络（ResNet）[10]和特征金字塔网络[19]从输入图像中提取有用的局部和全局特征基于提取的特征，第二部分，区域建议网络，提出人类边界框候选。RoIAlign层提取每个建议的特征，并将其传递给101368000700060005000400030002000100000 2000 4000 6000 8000 10000 12000k值（mm）图3：k与人体牙根实际深度值之间的相关性。使用人3.6M [14]和MuCo-3DHP [24]数据集。r表示Pearson相关系数。第三部分，分类头网络。的(a) 不同区域，相同距离(b)相同的区域，不同的距离图4：由于A img不正确，k无法表示人与摄像机之间的距离的示例。（像素2）。在给定相机参数的情况下，k使用其实际面积与成像面积的比率来近似从相机到对象的绝对深度。通过考虑针孔相机投影模型，可以容易地导出等式1摄像机和物体之间的距离d（mm）可以计算如下：头部网络确定给定的提议是否是人，并估计边界框细化偏移。它实现了最先进的性能在酒吧-d=αlx，实数xlx，img=αly，实数yly，img、（二）licly可用的对象检测数据集[20]。由于其高性能和公开可用的代码[7，22]，我们使用Mask R-CNN [9]作为我们管道中的DetectNet。5. RootNet5.1. 模型设计RootNet从裁剪的人类图像估计人类根的以相机为中心的坐标 R= （ xR ， yR ， ZR ）。为了获得它们，RootNet分别估计2D图像坐标（x R，y R）和深度值（即，人的根部距摄像机的距离ZR）。使用估计的深度值将估计的2D图像坐标反投影到以相机为中心的坐标空间，其成为最终输出。考虑到图像提供了关于人的根部在图像空间中位于何处的相比之下，仅从裁剪的人类图像估计深度是困难的，因为输入不提供关于相机和人类的相对位置的信息。为了解决这个问题，我们引入了一个新的距离测度k，定义如下： .其中lx，real，lx，img，ly，real，ly，img分别是对象在实空间（mm）和图像空间（像素）中在x和y轴上的长度。通过将等式2中d的两个表示相乘并取其平方根，我们可以在等式1中得到深度测量k的2D扩展版本。假设A实数是常数，使用α x 和αy，可以从边界框的面积测量相机和对象之间的距离。由于我们只考虑人类，我们假设A是真实的。2000mm×2000mm。人体边界框的面积在将其扩展到固定长宽比（即，、高度：宽度= 1：1）。图3示出了这种近似提供了k与3D人体姿态估计数据集中人体根部的真实深度值之间的有意义的相关性[14，24]。虽然k可以表示人离相机有多远，但在某些情况下它可能是错误的，因为它假设 A img 是 A real 的区域（即，，2000mm×2000mm）。然而，由于Aimg是通过扩展2D边界框，根据其外观，它可以具有不同的值，尽管到相机的距离相同。例如，如图4（a）所示，两个人虽然处于相同的距离，但具有不同的Aimgk=αxαAreal，（1）yAimg对着镜头另一方面，在某些情况下，一个img可以相同，即使与相机的距离不同例如，在图4（b）中，儿童和成人具有相似的其中，αx、αy、Areal和Aimg是焦距除以x轴和y轴的每像素距离因子（像素）、真实空间中的人体面积（mm2）和图像空间然而，孩子比成人更接近相机。为了解决这个问题，我们设计了RootNet，人体中心关节深度值（mm）人3.6M（r=0.50）MuCo-3DHP（r=0.71）1013711JimgJimgJ通过将k乘以kγ得到。在实践中，我们将-扩展RootNet以输出γ′ =γ 直接和多-图5：RootNet的网络架构。根网络估计三维人体根坐标。图像特征以校正 Aimg，最终k。im-age 特性可以为RootNet提供关于Aimg必须更改多少的线索。例如，在图4（a）中，左边的图像可以告诉RootNet增加区域，因为人类处于蹲伏姿势。此外，在图4（b）中，右侧图像可以告诉RootNet增加区域，因为输入图像包含子图像。具体而言，RootNet从图像特征输出校正因子γ。估计的γ乘以给定的将其与k相乘以获得绝对深度值Z R（即，、ZR=γ′k）。5.4.损失函数我们通过最小化估计坐标和地面实况坐标之间的L1距离来训练RootNet损失函数Lroot定义如下：Lroot=<$R−R<$<$1，（3）其中<$表示地面真值。6. PoseNet6.1. 模型设计PoseNet从裁剪的人类图像估计根相对3D 姿态Prel=（xj，yj，Zrel）许多作品Aimg，它变成了Aγ. 关于Aγ，k被计算已提交了本主题[21，23，32，37，38，43，46]。其中，我们使用Sun等人的模型。[38]其中并且它成为最终深度值。5.2.相机归一化我们的RootNet仅从输入图像输出校正因子γ。因此，来自任何相机固有参数（即，，αx和αy）可以在训练和测试期间使用。我们称这个属性为相机归一化，这使得我们的RootNet非常灵活。例如，在训练阶段，来自不同αx和αy的数据可以被一起使用。此外，在测试阶段，当αx和αy不可用时，可以使用RootNet，可能是针对野外图像。是目前最先进的方法该模型由两部分组成。第一部分是主干，它使用ResNet [10]从裁剪的人类图像中提取有用的全局特征。其次，姿态估计部分从主干部分获取特征图，并使用具有批量归一化层[13]和ReLU激活函数的三个连续的去卷积层将1乘1卷积应用于上采样的特征图，以产生每个关节的3D热图。使用soft-argmax操作来提取2D图像坐标（xj，yj）和根相对深度值Zrel。在这种情况下，可以将αx和αy设置为ny值αx′和αy′，分别然后，估计ZR表示距离be-6.2.损失函数在物体和相机之间，其αx和αy是αx′αy′，相对于ively。5.3. 网络架构和我们通过最小化估计坐标和地面实况坐标之间的L1距离来训练PoseNet损失函数Lpose定义如下：RootNet的网络架构，它包括-L姿势=1ΣJPrel−Prel包含三个组件，如图5所示。一是骨干网络使用ResNet [10]提取输入人体图像的有用全局特征。其次，2D图像坐标估计部分从主干部分获取特征图，并使用具有批归一化层[13]和ReLU激活函数的三个连续的去卷积层对其进行上采样然后，应用1乘1卷积来产生根的2D热图。Soft- argmax [38]从2D热图中提取2D图像坐标xR，yR第三部分是深度估计部分。它还从主干部分获取特征图，并应用全局平均池化。然后，池化特征图经历1乘1卷积，其输出单个标量值γ。最终的绝对深度值ZR为Jj jj=1其中，“”表示地面实况。7. 实现细节在COCO数据集[20]上预训练的公开发布的Mask R-CNN模型[22]用于DetectNet，而无需对人体姿势估计数据集进行微调[14，24]。对于RootNet和PoseNet，PyTorch [31] 用于实现。它们的主干部分使用在ImageNet数据集[36]上预先训练的公开发布的ResNet-50 [10]初始化，其余部分的权重通过高斯分布初始化，σ = 0。001。101382525权重由Adam优化器更新[16]，小批量大小为128。初始学习率设置为1×10−3，在第17个epoch时减少10倍。我们使用256×256作为根的输入图像的大小Net和PoseNet。我们在训练中执行数据增强，包括旋转（±30°）、水平翻转、颜色抖动和合成遮挡[45]。水平翻转增强是在PoseNet测试中进行的，al. [38]第30段。我们使用四个NVIDIA 1080 Ti GPU对RootNet和PoseNet进行了20个epoch的训练，分别花费了两天时间。8. 实验8.1. 数据集和评估指标Human3.6M数据集。Human3.6M数据集[14]是最大的3D单人姿势基准。它包括3.6数以百万计的视频帧。从4个摄像机视点捕获执行15个活动的11个主体。地面实况3D姿态使用运动捕捉系统获得。两个评价指标被广泛使用。第一个是平均每个关节位置误差（MPJPE）[14]，它是在对齐估计的和地面实况3D姿态的人类根之后计算的。第二个是进一步对齐后的MPJPE（即，，Procrustes分析（PA）[8]）。这个指标被称为PA MPJPE。为了评估绝对3D人根的定位，我们引入了在人根的估计坐标之间的欧几里得距离的平均值。root R和 groundtruth R，即，根位置误差的平均值（MRPE），作为新的度量：1ΣN设置MRPEMPJPE时间联合学习138.2116.70.132Disjointed Learning（英语：Disjoint Learning）120.057.30.141表1：在Human3.6M数据集上联合学习和不联合学习之间的 MRPE 、 MPJPE 和每帧秒数比较。DetectNet RootNet APboxAProotAUC rel3DPCK abs转轴-50K43.85.239.29.6转轴-50我们43.828.539.831.5X-101-32 我们45.031.039.831.5GT我们100.031.439.831.6GTGT100.0100.039.880.2表2：MuPoTS-3D数据集上不同DetectNet和RootNet设置的总体性能比较。当估计坐标与地面真值坐标之间的欧氏距离小于25cm时，考虑预测的3D人体根定位（AP根8.2. 实验方案Human3.6M数据集。两个实验方案被广泛使用。方案1在培训中使用6名受试者（S1、S5、S6、S7、S8、S9），在测试中使用S11。PA MPJPE用作评估指标。方案2使用5名受试者（S1、S5、S6、S7、S8）进行培训，2名受试者（S9、S11）进行测试。MPJPE被用作评估指标。我们使用视频中的每第5帧和第64帧进行训练和测试，分别如下 [37 ， 38]。在训练时，除了Human3.6M数据集之外，我们还使用了其他MPII 2D人体姿势估计数据集[1]，随后[32，37，38，46]。每个MRPE=N i=1||第二条，第（五）项||2,(5)minibatch由一半Human3.6M和一半MPII数据组成对于MPII数据，z轴的损失值变为零，其中上标i是样本索引，N表示测试样本的总数。MuCo-3DHP和MuPoTS-3D数据集。这些是Mehta等人提出的3D多人姿态估计数据集。[24]第10段。通过合成现有MPI-INF-3DHP 3D单人姿态估计数据集生成训练集MuCo-3DHP [23]。测试集MuPoTS-3D数据集是在户外捕获的，它包括20个真实世界场景，最多三个主题的地面真实3D姿势。地面实况是用多视图无标记运动捕捉系统获得的。对于评估，在与地面实况进行根对齐之后，使用正确关键点的 3D 百分比（3DPCKrel）和来自各种阈值的3DPCK曲线下面积（AUCrel）。它对待如果关节位于距地面实况关节位置15cm内，则关节的预测是正确的。我们还定义了3DPCKabs，它是没有根对齐的3DPCK，用于计算绝对相机中心坐标。为了评估绝对3D人体根的定位，我们使用RootNet和PoseNet都遵循Sun等人。[38]第30段。MuCo-3DHP 和 MuPoTS-3D 数据集。按照之前的协议，我们合成了400K帧，一半是背景增强的。为了增强，我们使用COCO数据集[20]中的图像，除了人类图像。我们在Mehta等人之后在MuCo-3DHP数据集上训练我们的模型时，使用了额外的COCO 2D人体关键点检测数据集[20]。[24]第10段。每个小批次由一半MuCo-3DHP和一半COCO数据组成。对于COCO数据，RootNet和PoseNet的z轴损失值均为零。[38]第30段。8.3. 消融研究在这项研究中，我们展示了我们提出的框架的每个组件如何影响3D多人姿势估计的准确性。为了评估Detect-Net的性能，我们使用COCO对象检测基准的边界框（AP框）的平均精度[20]。1013925方法Dir.Dis.吃格雷电话构成Pur.坐SitD.Smo.Phot等走WalkD。WalkP.Avg在推理时间内使用地面实况信息亚辛[44]88.472.5108.5110.297.181.6107.2119.0170.8108.2142.586.992.1165.7102.0108.3陈[4]71.666.674.779.170.167.689.390.7195.683.593.371.255.785.962.582.7莫雷诺[27]67.463.887.273.971.569.965.171.798.681.393.374.676.577.774.676.5周[47]47.948.852.755.056.849.045.560.881.153.765.551.650.454.855.955.3马丁内斯[21]39.543.246.447.051.041.440.656.569.449.256.045.038.049.543.147.7阳光[37]42.144.345.045.451.543.241.359.373.351.053.044.038.348.044.848.3方[6]38.241.743.744.948.540.238.254.564.447.255.344.336.747.341.745.7太阳[38]36.936.240.640.441.934.935.750.159.440.444.939.030.839.836.740.6我们的（PoseNet）31.030.639.935.534.830.232.135.043.835.737.630.124.635.729.334.0在推理时间内没有地面实况信息[35]第三十五话-----------42.7我们的（满）32.5 31.5 41.5 36.736.331.933.236.544.436.738.731.225.637.130.535.2表3：使用方案1在Human3.6M数据集上与现有技术方法的PA MPJPE比较。使用额外的合成数据进行训练。方法Dir.Dis.吃格雷电话构成Pur.坐SitD.Smo.Phot等走WalkD。WalkP.Avg在推理时间内使用地面实况信息陈[4]89.997.690.0107.9107.393.6136.1133.1240.1106.7139.2106.287.0114.190.6114.2[40]第四十话65.073.576.886.486.368.974.8110.2173.985.0110.785.871.486.373.188.4莫雷诺[27]69.580.278.287.0100.876.069.7104.7113.989.7102.798.579.282.477.287.3周[47]68.774.867.876.476.384.070.288.0113.878.098.490.162.675.173.679.9贾汉吉里[15]74.466.767.975.277.370.664.595.6127.379.679.173.467.471.872.877.6梅塔[23]57.568.659.667.378.156.969.198.0117.569.582.468.055.376.561.472.9马丁内斯[21]51.856.258.159.069.555.258.174.094.662.378.459.149.565.152.462.9方[6]50.154.357.057.166.653.455.772.888.660.373.357.747.562.750.660.4阳光[37]52.854.854.254.361.853.153.671.786.761.567.253.447.161.663.459.1太阳[38]47.547.749.550.251.443.846.458.965.749.455.847.838.949.043.849.6我们的（PoseNet）50.555.750.151.753.946.850.061.968.052.555.949.941.856.146.953.3在推理时间内没有地面实况信息罗热斯[34]76.280.275.883.392.279.971.7105.9127.188.0105.783.764.986.684.087.7梅塔[24]58.267.361.265.775.862.264.682.093.068.884.565.157.672.063.669.9罗热斯[35]55.960.064.556.367.471.855.155.384.890.767.957.547.863.354.663.5我们的（满）51.556.851.252.255.247.750.963.369.954.257.450.442.557.547.754.4表4：使用方案2在Human3.6M数据集上与最先进方法的MPJPE比较使用额外的合成数据进行训练。管道脱节。为证明脱节管道的有效性（即：分离的DetectNet、RootNet和PoseNet），我们在表1中比较了RootNet和PoseNet的MRPE、MPJPE以及联合和分离学习的运行时间。运行时间包括DetectNet，并使用单个TitanX Maxwell GPU进行测量。对于联合学习，我们将 RootNet 和 PoseNet 组合成一个共享主干部分（即，，ResNet [10]）。主干中的图像特征以并行方式馈送到RootNet和PoseNet的每个分支。与联合学习相比，在相同的运行时间下，我们的分离我们认为这是因为RootNet和PoseNet的每个任务都不是高度相关的，因此联合训练所有任务会使训练变得更加困难，从而导致准确率降低。DetectNet的影响。为了显示人体检测的性能如何影响最终3D人体根定位和3D多人姿态估计的准确性，我们使用各种骨干中的 DetectNet （即，、 ResNet-50 [10] 、ResNeXt-101-32 [42]）和groundtruth框分别在表2的第二、第三和第四行中。该表显示，基于相同的RootNet（即，，Ours），更好的人体检测模型改进了3D人体根部定位和3D多人姿态估计性能。然而，与其他检测网络模型相比，地面实况框并没有显著提高整体准确性。因此，我们有足够的理由相信，给定的盒子覆盖了具有如此高检测AP的大多数人我们还可以得出结论，边界框估计精度对3D多人姿势估计精度没有很RootNet的影响。为了显示3D人体根部定位的性能如何影响3D多人姿势估计的准确性，我们使用表2中的各种RootNet设置比较AUCrel和3DPCKabs第一行和第二行显示基于相同的DetectNet（即，，R-50），我们的RootNet显示出显著的10140方法S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S17 S18 S19 S20平均所有地面实况的准确性罗热斯[34]67.7 49.8 53.4 59.1 67.5 22.8 43.7 49.9 31.178.1 50.2 51.0 51.6 49.3 56.2 66.5 65.2 62.9 66.1 59.1 53.8梅塔[24]81.0 60.9 64.4 63.0 69.1 30.3 65.0 59.6 64.183.9 68.0 68.6 62.3 59.2 70.1 80.0 79.6 67.3 66.6 67.2 66.0罗热斯[35]87.3 61.9 67.9 74.6 78.8 48.9 58.3 59.7 78.189.5 69.2 73.8 66.2 56.0 74.1 82.1 78.1 72.6 73.1 61.0 70.6我们94.4 77.5 79.0 81.9 85.3 72.8 81.9 75.7 90.290.4 79.2 79.9 75.1 72.7 81.1 89.9 89.6 81.8 81.7 76.2 81.8准确度仅适用于匹配的地面实况罗热斯[34]69.1 67.3 54.6 61.7 74.5 25.2 48.4 63.3 69.078.1 53.8 52.2 60.5 60.9 59.1 70.5 76.0 70.0 77.1 81.4 62.4梅塔[24]81.0 65.3 64.6 63.9 75.0 30.383.9 72.4 69.9 71.0 72.9 71.3 83.6 79.6 73.5 78.9 90.9 70.8罗热斯[35]88.0 73.3 67.9 74.6 81.8 50.1 60.6 60.8 78.289.5 70.8 74.4 72.8 64.5 74.2 84.9 85.2 78.4 75.8 74.4 74.0我们94.4 78.6 79.0 82.1 86.6 72.8 81.9 75.8 90.290.4 79.4 79.9 75.3 81.0 81.0 90.7 89.6 83.1 81.7 77.3 82.5表5：在MuPoTS-3D数据集上与现有技术方法的逐序列3DPCK相对使用额外的合成数据进行训练。方法HD. 嗯。昭 Elb. Wri.髋Kn. 谢谢 Avg明显的3D多人姿态估计方法[20，24]。罗热斯[34] 49.4六十七点四57.1 51.4 41.3 84.6 56.3 36.3 53.8MuCo-3DHP和MuPoTS-3D数据集。我们来-梅塔[24]62.1八十一点二77.9 57.7 47.2 97.3 66.3 47.6 66.0采用最先进的3D技术，我们79.1九十二点六85.1 79.4 67.0 96.6 85.7 73.1 81.8MuPoTS-3D上的多人姿态估计方法表6：在MuPoTS-3D数据集上与现有技术方法的关节式3DPCK相对所有的事实都用于评估。数据集[24]见表5和表6。建议的系统标志-在大多数测试序列和关节中，icantly都优于它们。较高的AP根和3DPCK与中的设置相比，9. 结论25个绝对值其中k直接用作深度值。我们使用x当k用作深度值时，RootNet的y。该结果表明RootNet成功地校正了k值。第四行和最后一行显示groundtruthhuman root提供了类似的AUCrel，但与我们的RootNet相比，3DPCKabs这一发现表明，需要更好的人根定位，以实现更准确的绝对3D多人姿态估计结果。PoseNet的影响。表2中的所有设置提供了相似的AUC相对值。特别是，表的第一行和最后一行显示，使用groundtruth box 和 human root 不会提供显著更高的AUCrel。作为结果这些表格基于相同的PoseNet，我们可以得出结论，AUCrel（其是根相对3D人体姿态估计的评估）高度依赖于PoseNet的准确性。8.4. 与现有技术方法的Human3.6M 数据集。我们将我们提出的系统与Human3.6M数据集[14]上最先进的3D人体姿势估计方法进行了比较，见表3和表4。由于大多数先前的方法使用地面实况信息（即，边界框或3D根位置），我们使用groundtruth 3D根位置报告PoseNet的性能。请注意，我们的完整模型在推理时间内不需要任何地面实况信息。这些表表明，尽管在推理时间内没有使用任何地面实况信息，但我们的方法实现了相当的性能。此外，它大大优于前，我们提出了一个新颖的和一般的框架，从一个单一的RGB图像的三维我们的框架包括人体检测，三维人体根定位，根相关的三维单人姿态估计模型。由于任何现有的人体检测和3D单人姿势估计模型都可以插入我们的框架，因此非常灵活且易于使用。所提出的系统优于以前的3D多人姿态估计方法的一个很大的利润，并实现了可比较的性能与3D单人姿态估计方法没有任何地面实况信息，而他们使用它在推理时间。据我们所知，这项工作是第一个提出一个完全基于学习的相机距离感知自上而下的方法，其组件与大多数以前的人体检测和3D人体姿态估计模型兼容。我们希望这项研究提供了一个新的基础，三维多人姿态估计，这只是刚刚被探索。致谢这项工作得到了韩国科学和信息通信技术部视觉图灵测试项目（IITP-2017-0-01780）的引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。10141[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。CVPR，2017年。[3] 朱永昌和李庆武。基于二维-三维姿态一致性的条件随机场三维人体姿态估计。CVIU，2018年。[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR，2018年。[6] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。在AAAI，2018。[7] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[8] 约翰·C·高尔广义procrustes分析。心理治疗，1975年。[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔

下载后可阅读完整内容，剩余1页未读，立即下载