用于多人3D姿态估计的高分辨率热图压缩方法

27 浏览量更新于2023-10-25 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于多人3D姿态估计的Matteo Fabbri1* Fabio Lanzi1 Simone Calderara1 Stefano Alletto2 Rita Cucchiara11摩德纳和雷焦艾米利亚{name.surname}@ unimore.it2Panasonic R D Company of America{name.surname}@ us.panasonic.com摘要本文提出了一种新的方法，用于从单眼RGB图像中自底向上估计多人三维人体姿态。我们建议使用高分辨率的体积度量热图来模拟关节位置，设计一种简单有效的压缩方法来大幅减少这种表示的大小。所提出的方法的核心是我们的体积热图自动编码器，这是一个全卷积网络，负责将地面实况热图压缩成密集的中间表示。然后训练第二个模型，代码预测器，以预测这些代码，这些代码可以在测试时解压缩以重新获得原始表示。我们的实验评估表明，我们的方法执行有利，abably相比，最先进的多人和单人3D人体姿态估计数据集，由于我们的新的压缩策略，可以处理全高清图像在恒定的运行时间为8 fps的场景中的主题的数量无关。代码和模型是公开的。1. 介绍图1：通过我们的LoCO方法估计的3D姿势的示例。特写镜头显示，即使在非常复杂和清晰的场景中，3D姿势也能正确在本文中，我们提出了一个简单的解决方案来解决上述问题，使我们能够直接预测高分辨率的体积热图，同时保持存储和计算量小。这一新的解决方案使我们的方法能够在一个单一的环境人体姿态估计（HPE）近年来取得了重大进展，这主要归功于深度卷积神经网络（CNN）。在2D HPE上表现最好的方法都是利用热图来预测身体关节位置[3，49，43]。热图也已扩展到3D HPE，在单人环境中显示出有希望的结果[38，29，41]。尽管这些方法具有良好的性能，但它们并不容易推广到多人3D HPE，这主要是因为它们对存储器和计算的高要求。该缺点还限制了那些映射的分辨率，其必须保持较小，从而导致量化误差。使用更大的体积热图可以解决这些问题，但代价是额外的存储，计算和训练复杂性。* 在Panasonic R D Company of America实习期间完成的工作自下而上拍摄此外，由于我们的高分辨率输出，即使在单人环境中，我们也能够产生细粒度的绝对3D预测。这使得我们的方法能够在最流行的单人基准上实现最先进的性能[11]。我们的建议的核心依赖于创建一个alter- native地面实况表示，保留原始地面实况的最翔实的内容，但减少其内存足迹。实际上，这种新的压缩表示在我们的网络训练期间被用作目标地面实况。我们将这个解决方案命名为LoCO，即Learning on Compressed Output。通过利用稀疏信号上的压缩和降维之间的类比[47，39，1]，我们凭经验遵循3D身体姿势可以在数据冗余的替代空间中表示的直觉。72047205被开发成紧凑的表示。这是通过在保持表示的空间性质的同时最小化信息损失来完成的，卷积架构特别适合于该任务。与此同时，W.R.T.我们提出的基于压缩的方法已经有效地用于数据集提取和输入压缩[48，46]，但是，据我们所知，这是第一次将它们应用于地面实况重映射。为此，深度自监督网络（如自动编码器）代表了以数据驱动的方式搜索中间表示的自然选择。具体而言，我们的HPE管道由两个模块组成：首先，使用预先训练的体积热图自动编码器来获得体积热图的更小/更密集的表示。然后，这些总而言之，我们提案的创新之处在于：• 我们提出了一种简单有效的方法，将高分辨率的体积热图映射到一个紧凑和更易于处理的表示。这节省了内存，计算资源，同时保留大部分信息内容。• 这种新的数据表示方式使体积热图能够以自下而上的方式解决多人3D HPE，这是一个棘手的问题。在真实环境[12]和模拟环境[8]（见图1）上的实验显示，即使在100米宽的场景中，超过50人也有很好的效果。我们的方法只需要一个单一的向前传递，可以应用于恒定的运行时间，无论场景中的主题数量。• 我们进一步证明了泛化能力的LoCO将其应用到一个人的情况下。我们精细的预测建立了一个新的艺术状态在自下而上的方法中，人类3.6m [112. 相关工作单人3D HPE在过去几年中，通过单目摄像机拍摄的单人3D HPE变得非常流行文学可以分为三个不同的类别：（i）首先估计2D关节然后将它们投影到3D空间的方法，（ii）联合估计2D和3D姿态的方法，（iii）直接从RGB图像学习3D姿态的方法。大多数关于单人3D HPE的工作首先计算2D姿态并利用它们来估计3D姿态，或者使用现成的2D HPE方法[15，10，19，20，2，24，4]或通过在3D HPE流水线中具有专用模块[26，28，16，51]。2D和3D姿态的联合学习也被证明是有益的[22，6，50，54，44，27，14，30]，通常与仅提供2D姿态地面实况的大规模数据集结合并利用解剖或结构先验。最后，最近的工作直接估计3D姿态信息[38，29，41，18，25，34，35]。其中，Pavlakos等人。 [29]是第一个通过以端到端的方式学习粗到细预测方案来提出目标周围3D空间的精细离散化的人。多人3D HPE据我们所知，很少有作品从单目图像处理多人3D HPE。我们可以把它们分为两类：自上而下和自下而上的方法。自上而下的方法首先使用第三方检测器识别可能包含人的边界框，然后对检测到的每个人执行单人HPE。其中，Rogez等人。 [37]将边界框分类为一组K姿势。这些姿势由分类器评分并使用回归量进行细化。该方法使用边界框进行隐式推理，并为每个主题生成多个需要累积和融合的建议。Zanfir等人。 [52]将一个包含前馈初始化和语义反馈的单人模型与诸如地平面估计、相互体积排除和联合推理等自适应约束相相反，Dabral等人 [6]提出了一种两阶段方法，首先估计每个感兴趣区域中的2D关键点，然后将估计的关键点提升到3D。最后，Moon等人。 [23]预测绝对3D人体根定位，以及每个人独立的根相对3D单人。然而，这些方法严重依赖于人员检测器的准确性，并且在面对具有数十人的场景时不能很好地缩放与自上而下的方法相比，自下而上的方法在单个镜头中产生多人关节位置，即使在强遮挡下也可以从中推断出3D姿态Mehta等人。 [21]，预测2D和3D姿态的所有科目在一个单一的向前通过，无论人数的场景。它们利用在每个关节2D像素位置处存储3D坐标的遮挡鲁棒姿态图。然而，他们的3D姿态读出策略强烈依赖于2D姿态输出，这使得其受到2D模块的精度的限制。他们的方法也很难解决多人重叠的场景，因为在他们的联合与人的关联过程中缺少3D推理。 Zanfir等人[53]，另一方面，利用多任务深度神经网络，其中人分组问题基于由2D和3D信息参数化的学习的身体部位分数被公式化为整数规划。与后者类似，我们的方法直接学习一个7206DFeed+×fdJeDD“×H”×W"D“×H”×W"N×D“×H”×W"D“×H”×W"N×D“×H”×W"+×e-c3dd-c3de-c2dL2d-c2dN×D ×H'×W'N×D ×H'×W'F特征提取器e编码器解码器VHA（培训和评估）f-c2dF代码预测器代码预测器（列车）concat.解压缩代码预测器（评估）3×高 ×宽图2：拟议的LoCO管道示意图在训练时间，编码器e产生压缩的体积热图e（H），其用作来自代码预测器f的基础事实。在测试时间，由代码预测器计算的中间表示f（I）被馈送到解码器d以用于最终输出。在我们的例子中，H′= H/8，W ′= W/8从图像特征到3D关节位置的映射，无需显式边界框检测或2D代理姿势，同时对严重遮挡和多个重叠的人具有鲁棒性。在自顶向下的框架中，最简单的3D姿态表示可以由关节的向量来表示。通过将3D HPE铸造为坐标回归任务，Rogez等人[37]和Zanfir等人。[52]实际上利用人体关节的x、y、z坐标w.r.t.已知的根位置。另一方面，自下而上的方法需要其编码不依赖于人的数量的表示（例如，图像地图）。在最近的方法中，Mehta et al. [21]和Zan- fir等人。 [53]两者都利用由关节特定特征通道组成的姿势表示，该关节特定特征通道存储关节/肢体2D像素位置处的3D坐标x、y或z。然而，当场景中存在多个重叠的人时，这种表示会受到影响与所有这些方法相比，我们采用了Pavlakos等人提出的体积热图表示。[29]，克服了面对多人上下文时出现的所有限制3. 该方法以下小节总结了LoCO的关键要素。第3.1节给出了chosen体积热图表示的初步定义，并阐述了其优点。第3.2节说明了我们提出的数据映射，它通过生成一个紧凑且更易于处理的表示.接下来，在第3.3节中，我们将描述如何轻松利用我们的策略，以单次自下而上的方式有效解决多人3DHPE最后，第3.4节说明了我们简单的改进方法，可以防止姿势变得不可信。3.1. 体积热图通过考虑RGB-D体积空间的体素化[7，29]，我们将体积热图h称为大小为D×H×W的3D置信度图，其中D表示深度维度（适当量化），而H和W分别表示图像平面的高度和宽度给定具有伪3D坐标uj=（u1，j，u2，j，u3，j）的身体关节j，其中u1，j∈ {1，.，D}是关节j距相机的量化距离，以及u2，j∈ {1，.， H}和u3，j∈ {1，.， W}分别是其像素在图像平面上的行索引和列索引，在通用位置u处的hj的值通过在u j中居中固定方差高斯来获得：u−uhj（u）=e− σ2（1）在多人背景下，在同一图像中，我们可以同时具有相同种类的若干关节（例如，在这种情况下，我们将这些K个体积热图hj（k）聚合成具有最大运算的单个热图hjhj（u）=maxk{hj（k）（u）}（2）最后，考虑N种不同类型的接头和K7207阻挡层在CH。外海峡步幅Conv2D + ReLUDD/d1S1e-c2d Conv2D + ReLUD/d1D/d2S2Conv2D + ReLUD/d2D/d3S2e-c3dConv3D + ReLUN41Conv3D + ReLU411表1：体积热图自动编码器（VHA）的编码器部分的结构。解码器未示出，因为其完全镜像到编码器。 VHAv1 ：（ d1 ， d2 ， d3 ）=（ 1， 2 ， 2 ）和（s1，s2，s3）=（1，2，1）;对于VHA v2：（d1，d2，d3）=（2，4，4）和（s1，s2，s3）=（2，2，1）;VHA v3：（dl，d2，d3）=（2，4，8）和（si，s2，s3）=（2，2，2）热图{h1，...， hN}独立地用2D卷积块（e-c2 d）处理，其中内核不沿D方向移动。为了捕获关节位置之间的相互影响，然后将所获得的图沿着第四维堆叠，并通过随后的一组3D卷积（e-c3d）进行处理最终通过其mir来解码所得到的编码表示e（H）结构d（e（H））=H。的一般结构该模型在图中被概述。2顶。因此，VHA的目标是学习保留其信息内容的输入体积热图的压缩表示，这导致原始中各种关节的高斯峰的位置的保留。最终地图为此，我们最大限度地F1得分，F1QH，QH，在地面实况集合对于人，我们有一组N个体积热图（每个与关节类型相关联），H ={hj，j = 1，...， N}的各个热图的聚合而产生的。峰值（QH）和解码的映射的集合（QH）。我们将峰组定义如下：舞台上的人。注意，给定伪3D坐标u =（u1，u2，u3）和相机内参数，即焦距f=（fx，fy）和主点（cx，cy），[QH=n=1，…N{u：hn（u）>u′u′∈Nu<$（3）凸轮中的对应3D坐标x=（x，y，z）时代参考系统可以通过直接应用针孔相机模型的方程。选择体积热图表示而不是直接3D坐标回归的好处在于，它将高度非线性问题转换为离散化空间中更易于处理的预测配置。事实上，联合预测不会估计唯一的位置，而是每个体素的置信度，这使得网络更容易学习目标函数[29]。在2D HPE的背景下，预测每个像素而不是图像坐标的置信度的好处是众所周知的[31，45]。此外，在多人环境中，当事先不知道人数时，直接回归关节坐标是不可行的，这使得体积热图成为解决自下而上的多人3D HPE的自然选择。这种表示的主要缺点是它对内存和计算的要求很高，在实现过程中需要一些妥协，这限制了它的全部潜力。其中一些妥协包括利用引入量化误差的低分辨率热图或复杂的训练策略，这些策略涉及通过迭代优化网络输出进行粗到细预测[29]。3.2. 体积热图自动编码器为了克服上述局限性，没有介绍-其中Nu<$是u <$的6连通邻域，即在距离u=1}。由于用于从体积热图提取坐标集的过程是不可微的，前一个目标不能直接优化为用于训练VHA的损耗分量。为了解决这个问题，我们建议使用H和H之间的均方误差（MSE）损失作为训练损失。请注意，我们提出的映射有意降低了体积热图的第四维度，使其形状与2D卷积的输出一致，因此可由常规CNN主干利用。更多的建筑细节可以在补充材料中找到。3.3. 代码预测器和身体关节协会代码预测器的输入由RGB图像I表示，而其输出f（I）的目的是预测用VHA获得的代码，图1。二、建筑，Fig.2 bottom，受到[49]的启发，因此由一个预先训练的特征提取器（Inception v3的卷积部分[42]）和一个由四个卷积组成的完全卷积块（f-c2 d）组成。我们通过最小化f（I）和e（H）之间的MSE损失来训练代码预测器，其中H是与图像I相关联的体积热图。在推断时，从解码的体积数据获得身体关节的伪3D坐标。引入量化误差或训练复杂度，我们产生热图H=d（f（I））。将体积热图映射到更易于处理的表示，sentation.受[17]的启发，我们提出了一种多分支体积热图自动编码器（VHA），它将一组N个体积热图H作为输入。首先，体积最终，如果相机参数可用，针孔照相机方程恢复所检测的关节的真实三维坐标。补充材料中的其他详细信息。7208nn1F1 on JTA F1 on Panoptic F1 on Human3.6m2 2 24 4 48 8 8表2：不同阈值@0、@1和@2体素下F1评分方面的VHA瓶颈/代码大小和JTA、Panoptic和Human3.6m（方案P2）测试集的性能;@t表示如果与相应地面真实关节的距离小于t，则预测关节被视为如在几乎所有最近的2D HPE自下而上方法[3，9，5]（即，不需要人检测步骤的方法）中，检测到的关节必须被链接在一起以获得人骨架表示。在一个人的情况下，联合联想是微不足道的。另一方面，在多人环境中，链接关节明显更具挑战性。为此，我们依靠模拟-其中，从检测到的头部（即，最高的信任度），我们相信，通过选择在3D欧几里得距离方面最接近的关节，对剩余的（N−1）个协会通过拒绝违反解剖约束的那些（例如，大于某个阈值的肢体长度）。尽管其简单性，但是当身体关节的3D坐标可用时，特别是在其中近距离动力学经常调节不同个体之间的空间关系的监视场景中，该方法是特别有效的。补充材料中报告了更多细节。3.4. 姿态调整器预测的3D姿态随后通过训练的MLP网络进行改进，以考虑未检测和定位误差。姿态调整器的目标实际上是确保检测到的姿态是完整的（即，所有N个关节总是存在）。为了更好地理解Pose Refiner的工作原理，我们定义了3D姿势和旋转姿势的概念。Giv enap，ersonk，其3D姿态是集合因此，使用MSE损失来训练姿势细化器，将具有随机移除的关节的3D姿势的根相对版本作为输入，并且将附加的高斯噪声应用于坐标。给定根关节的3D位置和细化的姿态，通过使用等式（1）来重新获得对应的3D姿态是直接的（四）、4. 实验已经在两个多人数据集上进行了一系列实验，即JTA[8]和CMU Panoptic [12，40，13]，以及一个完善的单人基准：人类3.6m [11]。JTA是一个大型综合数据集，用于城市场景中的多人HPE它由512个30秒长的全高清视频组成，每个视频平均每帧包含20人。由于其最近的出版日期，该数据集没有公开排行榜，并且在其他可比的HPE作品中没有提及。尽管有这样的限制，我们认为在JTA上测试LoCO是至关重要的，因为它比旧的基准测试更复杂，更具挑战性。CMU Panoptic是另一个大型数据集，包含单人和多人序列，共65个序列（5.5小时的视频）。它比JTA挑战性小，因为每帧的人数要有限得多，但它是目前最大的具有3D注释的真实世界多人数据集。为了进一步展示LoCO的泛化能力，我们还提供了与其他HPE的直接比较p（k）=x（k），n=1，.，N的3D坐标，一个人的任务。没有任何修改-N个关节。相应的根相对姿态则由下式给出：阳离子到多人流水线，我们实现了状态在流行的Human3.6m数据集上的艺术结果。对于每个数据集，我们还显示了获得prr（k）=.Σx（k）−x（k），n = 2，…，NLn（四）通过使用GT体积热图，以突出这种数据表示的优势在以下所有表格中，我们将用LoCO（n）表示完整的HPE流水线，包括代码预测器、其中X1是根关节（在我们的实验中为“头顶”）的3D坐标VHA（ n ）和随后的后处理。 LoCO（ n ）+是添加了Pose Refiner的相同系统。对于本文中的所有实验，我们都使用了学习率为10−4的Adam优化器。我们在训练VHA时采用批量1，在训练模型瓶颈尺寸@0vx@1vx@2vx@0vx@1vx@2vx@0vx@1vx@2vx′ ′VHA（1） D×H ×W97.198.498.5------′ ′VHA（2） D×H ×W92.597.097.197.198.698.9100.0100.0100.0′ ′VHA（3） D×H ×W56.590.392.991.998.799.699.7100.0100.07209PRREF1PRREF1PRREF1@0.4 m@0.8 m@1.2 m[21，22]5.805.335.4224.0621.6522.2941.4336.9638.26位置图[21，22] +参考。5.825.895.7723.2823.5123.0838.8539.1738.49[33] +[19]75.8828.3639.1492.8534.1747.3896.3335.3349.03未压缩体积热图25.3724.4024.4745.4043.1143.5155.5552.4453.08LoCO（1）48.1042.7344.7665.6358.5861.2472.4464.8467.70LoCO（1）+。49.3743.4545.7366.8759.0262.0273.5465.0768.29LoCO（2）54.7646.9450.1370.6760.4864.6277.0065.9270.40LoCO（2）+。55.3747.8450.8270.6360.9464.7676.8166.3170.44LoCO（3）48.1841.9744.4966.9658.2261.7774.4364.7168.65LoCO（3）+。49.1542.8445.3667.1658.4561.9274.3964.7668.57[21，22]第二十一话76.0764.8369.5976.0764.8369.5976.0764.8369.59GT体积热图99.9699.9699.9699.9999.9999.9999.9999.9999.99表3：我们的LoCO方法与JTA测试集上其他强基线和竞争对手的比较在PR（精确度）、RE（召回率）和F1中，@t表示如果与相应的地面真实关节的距离小于t，则预测关节被认为是最后两行包含分别代码预测器。我们采用Inception v3 [42]作为代码预测器的骨干，然后是3个卷积，其中ReLU激活具有内核大小4，分别具有1024，512和256个通道。执行最后的1×1卷积以匹配压缩的体积热图的通道数。补充材料中的其他培训详情。4.1. 压缩级别为了了解VHA中不同的代码大小如何影响我们的代码预测器网络的性能，我们测试了多个具体来说，我们设计了三个VHA版本，减少瓶颈大小。每个版本都首先在 JTA 上进行了训练，然后在 CMU Panoptic 和Human3.6m上进行了微调。VHA每个版本1个如Tab.所示。2，随着瓶颈尺寸的减小，F1分数也相应减小。直观地说，我们压缩得越多，保存的信息就越少VHA（1）仅在使用JTA时考虑，因为VHA（2）和VHA（3）已经在Panoptic和Human3.6m上获得几乎无损的压缩，这是由于它们在场景中的人数较少。所有实验都是考虑形状为14 × D ×H′× W ′的14个关节的体积热图表示进行的，其中H′和W ′是高度和宽度降低8倍，而D固定为316个箱。注意，我们的表示所覆盖的真实世界深度网格对于JTA是在[0，100] m中的均匀离散化，对于Panoptic是在[0，7] m中的均匀离散化，并且对于[1. 八八1]m代表人3.6m。因此，每个仓具有近似为0的深度大小。JTA为32米，0. 02米的全景和人类3.6米。4.2. HPE在JTA数据集上的实验在JTA数据集上，我们将LoCO与[21，22]的基于位置图的方法进行了比较。目前，位置图表示是体积热图的最相关替代方案，以自下而上的方式接近3D HPE任务，因此代表了我们的主要竞争者。位置映射是一个每关节特征通道，用于存储关节2D像素位置处的3D坐标x、y或z。每个关节有三个位置图和2D热图。2D热图将关节的像素位置编码为图像平面中的置信度图。然后可以从关节的2D像素位置处的为了公平比较，我们使用相同的网络（Inception v3 +f-c2 d）直接预测位置图。非常低的F1分数表明，位置地图不适合多人重叠的图像，无法有效地处理拥挤监控场景特有的挑战性情况（3）第三章。此外，我们报告了与使用YOLOv3 [33]进行人员检测部分和[19]作为单人姿势估计器的强大自上而下基线[19]，像几乎所有的单人方法一样，提供根相对关节坐标，而不是绝对3D位置。因此，我们根据[37]通过最小化2D姿态和重新投影的3D姿态之间的距离来在F1分数方面，我们的表现远远优于这种自上而下的流水线，同时速度也明显更快; LoCO能够在Tesla V100GPU上以8 FPS的速度处理超过50人的全高清图像，而自上而下的基线平均运行速度为0.5 FPS（慢16倍）。再-7210图3：LoCO（2）+在JTA和Panoptic数据集上的定性结果。我们展示了两个3D姿势（JTA：2个卓尔精灵，全景：4掷）和重新投影在图像平面上的相应2D版本（JTA：1 strow，Panoptic：第3行）呼叫间隙主要是由于自顶向下方法中的检测阶段通常错过拥挤的JTA场景上的重叠或部分被遮挡的人的事实。最后，我们将其与经过训练的端到端模型进行了比较，以直接预测体积热图，而无需压缩（“Uncompr.选项卡中的“体积热图”。（3）第三章。具体来说，我们堆叠了代码预测器和VHA（2）我们的技术优于此版本在每个压缩率。事实上，目标的稀疏性使得难以有效地利用地面实况注释中的身体姿势的冗余，从而导致更复杂的训练阶段。我们指出，LoCO（2）+获得了迄今为止最好的结果，与所有评估的方法和基线相比，F1分数，从而证明了我们的方法的有效性。而且，VHA（2）同样有趣的是，体积热图的上限比位置图的上限高得多（标签的最后两行）。3）突出了体积热图在拥挤场景中的优越性。最后值得注意的是，LoCO（1）+和LoCO（3）+获得了非常接近的结果，表明前过度有损压缩可能导致与利用太稀疏和过大的表示一样差的解决方案。根据[8]中的协议，我们在JTA训练集的256个序列上训练了我们所有的模型（以及具有位置图的模型），并仅在128个测试序列的每第10帧上测试了我们的完整管道。定性结果如图所示。3 .第三章。4.3. HPE在Panoptic数据集上的实验在这里，我们提出了在CMU Panoptic上按照[52]中定义的测试协议比较LoCO和三种强大的多人方法[53，52，32结果显示在选项卡中。4，按动作类型划分，并以平均每关节位置误差（MPJPE）表示。MPJPE是通过首先关联预测和地面实况姿态，通过一个简单的匈牙利算法计算。在标签中。4我们还报告了F1分数：单独的MPJPE度量没有意义，因为它没有考虑缺失检测或假阳性预测。所获得的结果示出了将体积热图用于3D HPE的优点，因为LoCO（2）+在Panoptic测试集上的平均MPJPE方面实现了最佳结果。为了公平起见，我们还测试了不再维护的然而，旧版本7211MPJPE [mm]哈格尔黑手党终极披萨是说F1[32个]218187194221203-[五十二]140166151156153-[五十三]7279679472-LoCO（2）+459558796989.21LoCO（3）+4810563917787.87GT9129910100表4：CMU Panoptic数据集的比较结果以MPJPE [mm]和F1检测评分表示最后一行：使用地面实况体积热图方法NP1 P1（a）P2 P2（a）Rogezet al.[36] 13 63.2 53.4 87.7 71.6Dabral等人[6] 16---65.2Rogez等人[37] 13 54.6 45.8 65.4 54.3Moon等人[23] 1735.2 34.0 54.4 53.3Mehta等人[22] 17--80.5-Mehta等人[21] 17--69.9-LoCO（2）+14 84.0 75.4 96.6 77.1LoCO（3）+14 51.1 43.4 61.049.1GT Vol.热图14 15.6 14.9 15.0 14.3表5：在平均MPJPE [mm]方面对人类3.6m数据集的比较“（a）”表示在试验方案中增加刚性对准;N是该方法考虑的接头数量。最后一行：使用地面实况体积热图的数据集使用不同的约定的关节位置。事实上，这仅由该序列中的最差性能反映。再一次，由于VHA（3）的映射部分信息丢失，使用VHA（2）获得了最佳折衷表中的GT上限。4进一步展示了我们代表性的潜力。定性结果如图所示。3 .第三章。4.4. HPE在Human3.6m数据集上的实验与之前的实验类似，我们在 Human3.6m 上测试了LoCO。与大多数现有的方法不同，我们应用我们的多人方法，而不利用数据集的单人性质的知识，因为我们想证明它的有效性，即使在这个简单的上下文中。结果，有和没有刚性固定，报告在MPJPE以下的P1和P2原型。在P1协议中，六个受试者（S1、S5、S6、S7、S8和S9）用于训练，受试者S11/摄像机2的每第64帧用于测试。对于P2方案，来自受试者S9和S11的所有帧均用于测试，仅S1、S5、S6、S7和S8用于训练。选项卡. 5显示了与最近的最先进的多人方法的比较，表明我们的方法是很好的图4：Hu-man 3. 6 m数据集上LoCO（3）+即使在单人环境中也是合适的，因为LoCO（3）+在自下而上的方法中实现了现有技术的结果。尽管Moonetal.报告了更好的数值性能，他们利用额外的数据进行训练，并在包含骨盆、躯干和颈部的更多冗余关节集上进行评估。值得注意的是，LoCO（3）+的性能明显优于LoCO（2）+，这表明当保留相同量的信息时，更小的表示是优选的（在VHA（3）和VHA（2）上分别为99.7和100.0 F1@0vx）。定性结果如图所示。4.第一章5. 讨论和结论总之，我们提出了一种用于多人3D HPE的单发自下而上方法，该方法适用于拥挤的监控场景和更简单的、甚至单人的场景，而无需任何更改。我们的LoCO方法使我们能够利用体积热图作为3D HPE任务的地面实况表示。相反，在没有压缩的情况下，这将导致稀疏和极高维的输出空间，从而影响网络大小和训练过程的稳定性。与自上而下的方法相比，我们消除了对人员检测器阶段的依赖性，因此在鲁棒性方面都有所提高实验表明，所有考虑的数据集上的最先进的性能。我们还相信，这种新的简单压缩策略可以通过在以前难以处理的环境中实现体积热图表示的全部潜力来促进未来的研究。致谢这项工作得到了松下公司和意大利教育、大学和研究部在COSMOS PRIN 2015项目201548C5NT下的支持。自底向上自顶向下7212引用[1] H. Arai，Y. Chayama，H. Iyatomi和K.大石使用3d卷积自动编码器的3d脑mri的显著降维。在2018年第40届IEEE医学和生物学工程学会（EMBC）年度国际上，第5162-5165页1[2] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议（ECCV），2016。2[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年。一、五[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。2[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR），2018。5[6] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV），2018年。二、八[7] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合 3d多视图预测。在欧洲计算机视觉会议（ECCV），2018年。3[8] Matteo Fabbri、Fabio Lanzi、Simone Calderara、AndreaPalazzi、Roberto Vezzani和Rita Cucchiara。学习在虚拟世界中检测和跟踪可见和遮挡的身体关节。在欧洲计算机视觉会议（ECCV），2018。二、五、七[9] Mihai Fieraru，Anna Khoreva，Leonid Pishchulin，andBernt Schiele.学习改进人体姿势估计。在IEEE计算机视觉和模式识别会议上，2018年。5[10] Mir Rayat Imtiaz Hossain和James J Little。利用时间资讯进行三维人体姿态估测。在欧洲计算机视觉会议（ECCV），2018年。2[11] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2014。一、二、五[12] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。 IEEEInternationalConference on Computer Vision （ ICCV ）， 2015 年。二、五[13] Hanbyul Joo，Tomas Simon，Xulong Li，Hao Liu，LeiTan，Lin Gui，Sean Banerjee，Timothy Scott Godisart，Bart Nabbe ， Iain Matthews ， Takeo Kanade ， ShoheiNobuhara，and亚瑟·谢赫Panoptic Studio：用于社会互动捕捉的大规模多视图系统。IEEE Transactions on Pattern Analysis andMachine Intelligence，2017。5[14] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议，2018年。2[15] Kyoungoh Lee，Inwoong Lee，and Sanghoon Lee. 基于联合相关性的三维姿态估计在欧洲计算机视觉会议（ECCV），2018。2[16] Mude Lin，Liang Lin，Xiaodan Liang，Keze Wang，andHui Cheng.循环3d姿态序列机器。在IEEE计算机视觉和模式识别会议（CVPR），2017年。2[17] Wenjie Luo，BinYang，and Raquel Urtasun.快速和激烈：实时端到端的3D检测，跟踪和运动预测与一个单一的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3569-3577页4[18] Diogo C Luvizon，David Picard，and Hedi Tabia.使用多任务深度学习的2D/3D姿态估计和动作识别在IEEE计算机视觉和模式识别会议（CVPR），2018年。2[19] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一种简单而有效的三维人体姿态估计基线。2017年国际计算机视觉会议。二、六[20] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。国际3D视觉会议（3DV），2017年。2[21] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计2018年国际3D视觉会议（3DV）。二三六八[22] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d 人体姿势估计。 ACM Transactions on Graphics（TOG），2017年。二、六、八[23] 文京植，张朱勇，李京武。从单幅rgb图像估计三维多人姿态的摄像机距离感知自顶向下方法。在IEEE计算机视觉国际会议的Proceedings中，第10133-10142页，2019年。二、八[24] 弗朗切斯克·莫雷诺·诺格尔通过距离矩阵回归从单个图像估计3D人体姿态在IEEE计算机视觉和模式识别会议上，2017年。2[25] 艾登·尼巴利，何震，斯图尔特·摩根，卢克·普利德-加斯特.使用2d边缘热图的3d人体姿势估计。IEEE计算机视觉应用冬季会议，2

下载后可阅读完整内容，剩余1页未读，立即下载