单幅图像的三维人体姿态预测及体积表示方法的研究

182 浏览量更新于2023-10-16 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1单幅图像三维人体姿态的粗到精体积预测作者：Georgios Pavlakos1，Xiaowei Zhou1，Konstantinos G.Derpanis2，KostasDaniillei11宾夕法尼亚大学2瑞尔森大学摘要本文解决了从一个单一的彩色图像的三维人体姿态估计的挑战。尽管端到端学习范式取得了普遍成功，但顶级执行方法采用两步解决方案，包括用于2D关节定位的卷积网络（ConvNet）和随后的优化步骤以恢复3D姿态。在本文中，我们将3D姿势的表示确定为当前ConvNet方法的关键问题，并为验证端到端学习对该任务的价值做出了两个重要贡献首先，我们对受试者周围的3D空间进行精细离散化，并训练ConvNet来预测每个关节的每个体素可能性这为3D姿态创建了一个自然的表示，并大大提高了关节坐标直接回归的性能其次，为了进一步改善初始估计，我们采用了一个由粗到细的预测方案。该步骤解决了大的维度增加，并且使得能够对图像特征进行迭代细化和重复处理。所提出的方法优于所有国家的最先进的方法在标准的基准，实现了平均大于30%的相对误差减少此外，我们研究在相关架构中使用我们的体积表示，与我们的端到端方法相比，这是次优的，但具有实际意义，因为它能够在没有具有相应3D地面实况的图像可用时进行训练，并允许我们为野外图像呈现令人信服的结果1. 介绍从单目图像估计人体的全身3D姿态是一个开放的挑战，自计算机视觉早期以来，这一挑战已经引起了人们的极大关注[18]。鉴于其不适定性质，研究人员通常在简化设置中接近3D人体姿态估计，例如假设背景减除是可行的[1]，依赖于地面实况2D关节位置来估计3D姿态[26，43]，采用额外的摄像机视图[7，15]，以及利用时间一致性来改进单帧预测[38，3]。这个迪-图像ConvNet体积输出图1：我们的三维人体姿势的体积表示的插图。我们离散化主题周围的空间，并使用ConvNet预测每个像素的可能性为每个关节从一个单一的彩色图像。假设的多样性和额外的信息来源增加了任务所带来的挑战。随着更强大的判别方法的引入，如卷积网络（ConvNets），许多限制性假设已经放松。端到端学习方法试图通过将其作为坐标回归[19，35]、图像和姿势之间的最近邻[20]或一组姿势类的分类[27]来直接从单个图像估计3D姿势。迄今为止，这些方法已经被更传统的两步流水线（例如，[45，6]。在这些情况下，ConvNets仅用于2D关节定位，并且在后处理优化步骤期间生成3D姿态。将精确的2D关节定位与强大且有表现力的3D先验相结合已被证明非常有效。在这项工作中，我们证明了ConvNets能够提供比简单的2D关节位置更丰富的信息。为了充分利用ConvNets在3D人体姿势背景下的潜力，我们提出了以下项目，并根据经验对它们进行合理化。首先，我们将3D姿态估计作为离散3D空间中的关键点定位问题。代替直接回归关节的坐标（例如，[19，35]），我们训练ConvNet来预测该体积中每个关节的每个体素可能性。这种体积表示（如图1所示）对我们问题的3D性质更敏感，并改善了学习。70257026实际上，对于每个关节，体积监督为网络提供3D空间中每个体素的基础实况这提供了比一组世界坐标更丰富的信息。实证结果也验证了我们提出的监管形式的优越性。其次，为了处理体积表示的维数增加，我们提出了一个由粗到细的预测方案。如在2D姿态情况下所示，中间监督和迭代估计是特别有效的策略[40，8，21]。然而，对于我们的体积表示，如经验所示，天真地堆叠越来越多的组件并细化估计不是有效的解决方案相反，我们在处理过程中逐渐增加最具挑战性的z这种由粗到细的监督，如图2所示，允许在每个步骤之后进行更准确的估计。我们通过经验证明了这种做法的优势，天真地堆叠更多的组件在一起。我们提出的方法在标准基准测试中获得了最先进的结果，优于仅ConvNet和对ConvNet的2D输出进行后处理的混合方法。此外，我们调查使用我们的体积- ric表示在相关的架构，decouples-2D关节定位和3D关节重建。特别是，我们使用两个独立的网络（一个的输出作为另一个的输入）和两个不对应的数据源，即，2D标记图像以训练第一组件和独立的3D数据源（例如，MoCap）单独训练第二个。虽然这种体系结构具有实际益处（例如，预测野外图像的3D姿态），我们凭经验表明，当具有相应3D地面实况的图像可用于训练时，它的性能低于我们的端到端方法。这一发现进一步强调了直接从图像预测3D姿态的好处，只要这是可能的，而不是使用2D关节定位作为中间步骤。总之，我们做出了以下四项贡献：• 我们是第一个使用端到端学习范例将3D人体姿势估计转换为体素空间中的3D关键点定位问题;• 我们提出了一个由粗到细的预测方案来处理我们的表示的大维度，并使迭代处理能够实现进一步的好处;• 我们提出的方法在标准基准上实现了最先进的结果，超过了使用 ConvNet 进行 2D 姿态估计的ConvNet和混合方法，平均相对误差减少超过30%;• 我们展示了在端到端训练不是一种选择的情况下我们的体积表示的实际使用，并在野外图像上呈现令人信服的结果。2. 相关工作关于3D人体姿态估计的文献是大量的，其中有在各种设置中解决该问题的方法。在这里，我们调查了与我们最相关的工作，重点是基于ConvNet的方法;我们建议读者参考最近的一项调查[29]，以获得更完整的文献综述。大多数最近的仅ConvNet方法将3D姿态估计作为坐标回归任务，目标输出是人类关节相对于已知根关节（诸如骨盆）的空间x、y、z坐标Li和Chan [19]用二维联合分类的地图预训练他们的网络。Tekin等人[35]在网络中包括一个预训练的自动编码器，以加强对输出的结构约束。Ghezelghieh等人[13]采用视点预测作为副任务来为网络提供全局关节配置信息。Zhou等[44]为保证姿态回归的正确性，嵌入了运动学模型。Park等人[22]将2D关节预测与图像特征连接以改进3D关节定位。Tekin等人[36]通过从帧序列中提取时空特征将时间信息包括在联合预测与所有这些方法相比，我们采用人体姿势的体积表示，并分别回归每个关节的每体素可能性。这被证明对网络性能具有显著的优势，并且与关节坐标的低维向量相比提供了更丰富的输出。Li等人提出了一种替代经典回归范式的方法。[20 ]第20段。在训练过程中，他们学习彩色图像和3D姿势之间的共同嵌入在测试时，将测试图像与每个候选姿态耦合并通过网络转发;将具有最大网络分数的候选姿态分配给输入图像。这是最近邻分类的一种形式，由于需要多个前向网络通路，其效率非常低。另一方面，Ro-gez和Schmid [27]将姿态估计作为分类问题。给定姿态类的预定义集合，每个图像被分配给具有最高分数的类。这保证了有效的全局姿态预测，但该方法受到原始类中的姿态的约束，因此仅返回粗略的姿态估计。与不充分的最近邻方法和粗分类方法相比，我们的体积回归允许更准确的3D关节定位，同时也是有效的。尽管对端到端学习感兴趣，但仅ConvNet的方法不如那些采用ConvNet进行关节2D定位并通过后续优化步骤产生3D姿态的方法。Zhou等[45]利用标准的2D姿态ConvNet来定位关节，并使用单目图像序列上的优化方案来检索3D姿态类似地，Duet al. [10]包括人体的高度图，以改善2D关节7027GTPR图2：从单个图像中进行3D人体姿势估计的由粗到细的体积方法的图示输入是单色图像，并且输出是针对每个关节具有单独的每体素似然性的密集3D体积。该网络由多个完全卷积的组件[21]组成，这些组件以粗到细的方式进行监督，以处理我们表示的大维度。通过在每个分量之后增加最具挑战性的z维度（深度）的分辨率来合成3D热图以进行监督。虚线指示中间热图与图像特征融合以产生用于下一个完全卷积分量的输入。为了呈现简单起见，所说明的热图对应于仅一个关节的位置。本地化Bogo等人[6]使用2D ConvNet预测的关节并拟合统计体形模型以重新覆盖人体的完整形状。相比之下，我们的方法实现了国家的最先进的结果与一个单一的网络工作。此外，它还提供了丰富的3D输出，可进行后处理，例如图形结构优化以约束肢体长度或时间滤波。在将ConvNets用于3D人体姿势的上下文中已经解决的另一个问题是训练数据的稀缺性。Chen等人[9]使用图形渲染器创建具有已知地面实况的图像。类似地，Ghezelghiehet al. [13]用合成的例子扩充训练集Rogez和Schmid [27]提出了一种拼贴方法，其中来自野外图像的部分被组合以创建具有已知3D姿势的附加图像。然而，不能保证合成示例的统计数据与真实图像的统计数据相匹配。为了研究数据稀缺问题，我们从3D解释器网络[41]中获得灵感，该网络将3D姿态估计任务扩展到单个ConvNet中的2D定位和3D重建。相比之下，我们不是使用预定义的线性基础进行3D重建，而是直接使用我们的体积表示来预测3D关节位置。这证明了我们的体积表示的实际用途，即使端到端的培训是不是一个选项。最后，虽然我们没有明确地与多视图姿态估计工作进行比较（例如，[12，31，4，11]），有趣的是，与此形成鲜明对比的是，我们的网络可以在几毫秒内通过一次前向传递提供完整的体积预测，不需要额外的改进（尽管它仍然是一种可能性）来提供最先进的结果，并且集成在一个由粗到细的预测方案中以处理过度的维度。3. 技术途径以下小节总结了我们的技术方法。第3.1节描述了所提出的三维人体姿态的体积表示，并讨论了其优点。接下来，第3.2节描述了我们的粗到细预测方法，该方法解决了我们的输出表示的高维性质。最后，第3.3节描述了在相关解耦架构中使用我们的体积表示，并讨论了与我们的粗到细体积预测方法相比的相对优点。3.1. 三维人体姿态的体表示使用ConvNets的3D人体姿态估计问题主要是作为坐标回归问题来处理的。在这种情况下，网络的目标是由人体的N个关节的x、y、z坐标的级联组成的3N维向量对于训练，采用L2回归损失ΣNL=xn−xn<$2，（1）离散化的3D空间以前也被采用在多视图设置中[7，15，23]，其中它被用来容纳-GTn=1公关2从不同的角度进行预测。单其中xn是groundtruth和xn是预测的损失-视图姿态估计，它已被认为是在上下文中森林的秘密[16]这种方法的执行时间很长（大约三分钟），并且需要使用图像结构模型的自适应细化步骤。接头的阳离子每个关节的位置表示为全局地相对于根关节，或局部地相对于其在运动树中的父关节。第二个公式有一些好处，也讨论了李等7028（i，j，k）GTGTgt（i，j，k）al. [19]（例如，更容易学会预测小的局部偏差），但是仍然受到小的误差可以容易地分层地传播到运动树的子关节的事实一般来说，尽管其简单性，坐标回归方法使问题高度非线性，并提出了学习过程的问题。这些问题之前已经在2D人体姿势的背景下被确定[37，24]。为了提高学习，我们提出了一个体积表示的三维人体姿势。对象周围的体积在每个维度上均匀离散。对于每个关节，我们创建一个大小为w×h×d的体积。令pn表示关节n在体素（i，j，k）中的预测似然性。到训练这个网络，监督也提供卷-度量形式每个关节的目标是一个体积，以3D网格中关节的地面实况位置xn=（x，y，z）为3.2. 由粗到细预测在2D人体姿势的情况下特别有效的设计选择是网络输出的迭代处理[8，40，21]。网络被迫在多个处理阶段产生预测，而不是使用具有单个输出的单个这些中期预测会逐渐完善，以产生更准确的估计。此外，在“早期”输出上使用中间监督受2D姿态迭代细化成功的启发，我们还考虑了一个渐进的细化方案。从经验上讲，我们发现，由于我们表示的维数很大，天真地堆叠多个组件会产生收益递减。事实上，对于具有16个关节的64×64×64的最高3D分辨率Gi，j，k（xn）=12πσ2-（x-i）2+（y-j）2+（z-k）2e2σ2，（2）我们需要估计出超过4%的可能性百万像素。为了解决这个维度灾难其中，值σ=2用于我们的实验。对于训练，我们使用均方误差损失：我们建议使用从粗到细的预测方案。在特别是，第一步是用较低的分辨率目标进行监督的（最具挑战性和技术上不ΣNΣL=n=1i，j，kG（i，j，k）（xn）−pn2.（三）观察）z-维度。准确地说，我们每个关节使用大小为64×64×d的目标，其中d通常从集合{1，2，4，8，16，32，64}中取值。一个超级的例子-理论上，网络的输出是四维的，即，（w×h×d×N），但实际上我们将其组织在通道中，因此我们的输出是三维的，即，w×h×dN。选择每个3D网格中具有最大响应的体素体积表示的一个主要优点是，它将直接3D坐标回归的高度非线性问题在这种情况下，预测不一定致力于每个关节的唯一位置，而是为每个体素提供置信度的估计。这使得网络更容易学习目标映射。之前在2D姿态情况下已经提出了类似的论点，验证了预测每个像素似然性而不是像素坐标的好处[37，24]。在网络架构方面，体积表示的一个重要好处是它允许使用全卷积网络进行预测。在这里，我们采用沙漏设计[21]。与使用全连接层进行坐标回归或姿势分类相比，这导致网络参数更少最后，在预测输出方面，除了更准确之外，我们以密集3D热图形式进行的网络预测对于后续的后处理应用非常有用。例如，可以使用3D图像结构模型来实施结构约束，例如，[7、23]。另一种选择是在多个输入帧可用的情况下在过滤框架中使用密集预测视觉方法如图2所示。这种策略使训练更有效，并使我们能够从将多个组件堆叠在一起而不会受到过拟合或维度问题的困扰中在处理的早期阶段，任务的直观、简单的版本被呈现给网络，复杂性逐渐增加。这将更难的决策推迟到处理的最后，此时所有可用信息都已处理和合并。3.3. 具有体积目标的解耦架构为了进一步展示所提出的体积表示的多功能性，我们还将其用于端到端训练不是一种选择的场景中。这通常是野外图像的情况，在野外图像中，准确、大规模采集3D地面实况是不可行的。受3D解释器网络[41]的启发，我们将3D姿态估计解耦为两个连续步骤，包括预测2D关键点热图，然后是使用我们的体积表示的3D关节位置的推断步骤第一步可以用2D标记的野外图像训练，而第二步只需要3D数据（例如，MoCap）。独立地，这些来源中的每一个都是大量可用的。这种训练策略对实际场景很有用，我们为野外图像提供了令人信服的结果（第二节）。4.6）。然而，与我们的端到端方法相比，当具有相应3D地面实况的图像可用于训练时，它仍然是次优的图3提供7029(a) 解耦架构(b) 由粗到精的架构图3：解耦架构与我们的粗到细架构的示意图比较，粗到细架构在粗层次上具有中间监督（2D热图）。蓝色块表示3D热图，而绿色块表示2D热图。解耦架构：2D热图直接作为输入提供给网络的第二部分，该第二部分有效地作为2D到3D再现组件操作注意，在第二分量中不处理图像特征，仅处理关于2D关节位置的信息。从粗到精的架构：我们使用2D热图作为中间监督，然后将其与图像特征相结合，有效地携带来自图像和关节2D位置的信息。每个体系结构的图示都采用了两个沙漏的简化设置。可以看出，当中间监督的分辨率设置为d=1时，解耦情况与我们的course-to-fine架构相关，从而产生2D热图。这两种架构之间的关键区别在于，我们从粗到精的方法将生成的2D热图与中间图像特征相结合。这样，网络的其余部分可以处理关于图像和2D关节位置的信息。另一方面，解耦网络直接处理2D热图，并尝试重建3D位置，而在热图严重错误的情况下，3D预测可能会被引入歧途。节中4.4，我们经验性地表明，当具有相应3D地面实况的图像可用时，我们的粗到细架构优于解耦架构。4. 实证评价4.1. 数据集我们提出了广泛的定量评估，我们的打电话我们遵循与先前工作相同的评估方案[20，45]。具体而言，受试者S1、S5、S6、S7和S8用于训练，而受试者S9和S11用于测试。原始视频从50 fps降采样到10 fps我们采用所有相机视图并为所有动作训练单个模型，而不是训练特定于动作的模型[20，45]。HumanEva-I：与Hu- man3.6M相比，它是一个较小的数据集，具有较少的主题和动作。根据标准方案[16，42]，我们对受试者S1、S2和S3的“步行”和“慢跑”进行了评价这些主题和动作的训练序列用于训练，并且相应的验证序列用于测试。与Human3.6M评估一样，我们使用所有用户和动作的框架训练单个模型。KTH Football II：图像取自专业足球比赛，仅为其中极少数提供3D地面实况。有限的可用地面实况不是非常准确，因为它是通过组合来自多个视图的手动2D注释生成的。在这种情况下，图像到3D训练不是一个实际的选择。相反，我们报告的结果使用我们的体积representation内的解耦架构中描述的第二节。三点三更具体地说，我们使用来自该数据集的图像训练第一个网络组件对于第二个网络组件（2D热图到3D热图），我们使用来自Human3.6M数据集的所有与其他人一样[7，36]，我们使用来自“玩家2”的“序列1”和从“相机1”拍摄的帧报告结果MPII：它是一个包含野外图像的大规模2D姿态数据集。它提供2D注释，但没有3D地面实况。与KTH一样，直接从图像到3D的训练对于这个数据集来说并不是一个实际的选择相反，我们使用的是去耦合架构和体积表示。由于我们无法在这里量化性能，我们只提供定性结果。4.2. 评估指标对于Human3.6M，大多数方法报告每个关节的3D误差，这是估计的关节到地面实况的平均欧几里得距离。这是在对齐估计的3D姿势和地面实况3D姿势的根关节（此处为骨盆）之后完成的。一种替代指标，某些方法使用它来报告Human3.6M的结果，由粗到细体积方法对三个标准3D人体姿势基准：Human3.6M [14]，HumanEva-I [30]和KTH Football II [15]。此外，由于没有可用的3D地面实况，因此在MPII人体姿势数据集[2]上呈现了定性结果。Human3.6M：它包含11个受试者执行各种动作的视频，如HumanEva-I是重建错误。它被定义为直到相似性变换的每个关节3D误差。有效地，通过Procrustes方法将估计的3D姿态与地面实况对齐。最后，对于KTH，报告了3D（3D PCP [7]）中正确估计部件的百分比。同样，根关节（这里我们使用胸部的中心）被对齐以解决深度模糊。70304.3. 实现细节在我们的体积空间中，x-y网格是图像中2D边界框内的均匀离散化，z网格是以根关节为中心的[-1，1]（米）中的均匀离散化这意味着我们预测每个关节的图像坐标及其相对于根部的度量深度给定根关节的深度，我们可以恢复每个关节的绝对深度及其在x-y维中的度量坐标。对于分量分析（第4.4节），我们使用根关节的地面实况深度，而对于与其他方法的比较（第4.5节），我们基于每个数据集的平均骨架大小估计补充材料中提供了更多细节。在架构方面，我们的网络的全卷积组件（如图2所示）基于沙漏设计[21]。我们使用公开可用的代码来忠实地复制架构。同样，我们采用相同的训练实践，采用旋转增强（±30o），缩放增强（0. 75比1 25），左右翻转，并使用rmsprop进行优化，其中批量大小等于4，学习率设置为2。5e−4。关于对单个数据集的训练，对于Hu-man 3.6M，网络模型从头开始训练，通常为四个时期（大约310 k次迭代）。对于HumanEva-I，由于训练集大小显著较小，因此该模型从头开始训练120个epoch（约235 k次迭代）最后，对于KTH上的2D联合定位网络，我们使用在MPII上训练的公开可用的堆栈沙漏模型[21]，并对其进行20个epoch（大约30k次迭代）的微调。4.4. 元件评估为了评估我们的方法的组成部分，我们使用Hu-man3. 6 M来报告结果，因为它是最完整的可用基准。体积表示：我们的第一个目标是证明离散空间中的回归比坐标回归有很大的好处。这两个版本都是用一个沙漏的最简单的设置来实现的。两种架构之间的唯一区别是，用于体积预测的结果示于表1中。坐标回归的112.41 mm误差与最近报告的坐标回归目标输出结果相当[19，35，22，44]。相比之下，通过使用体积输出目标，观察到误差的显著减小，在最高深度分辨率下下降到85.82mm从粗到精的预测：我们网络的下一个重大改进是通过图像特征的迭代处理来实现的。实现这一点的简单方法是将多个沙漏堆叠在一起。这很有帮助，但是平均坐标回归112.41体积回归（d=32）92.23体积回归（d=64）85.82表1：在Hu-man 3.6M上的坐标与体积回归。显示了测试集中所有动作和受试者的平均每个关节误差（mm）朴素堆叠粗到细L1 L2 L3 L4 Avg. L1 L2 L3 L4 Avg.64 6480.1416469.7786477.5264 64 6478.17126468.49146472.0264 64 64 64 75.0612464 64.76表2：在Human3.6M上的朴素堆叠（左）与从粗到细（右）方法列Li表示在第i个沙漏组件处提供的监督的z维分辨率（如果网络具有少于i个组件，则为空）。我们按照标准协议报告每个关节的平均误差（mm）。收益递减，如表2所示（简单叠加）。相反，当我们使用两个、三个或四个沙漏时，我们的从粗到细的监督方法优于简单的监督方法（表2，从粗到细）。事实上，我们的粗到精版本有两个沙漏（69.77 mm误差）优于简单的堆叠网络有四个沙漏（75.06 mm误差），尽管使用不到一半的参数相比，更深的网络。解耦网络与体积表示：我们研究了解耦网络与我们的体积表示相结合的使用，如第2节所述三点三我们的目标是展示直接从图像特征预测3D姿态与使用2D位置作为中间表示的好处。我们回头看看Fig.图3是两个相关网络的示意图。我们对两个网络进行端到端的训练，以评估架构性能，而不是端到端训练的好处。(In事实上，我们观察到独立地训练解耦网络的两个分量导致较差的性能。比较结果见表3。我们给出了所有动作的平均值，以及两个网络之间差异最大的六个动作。除了对每个动作和平均值更准确外，我们的粗到细方法对更具挑战性的动作（如“坐”或“坐下”）显示出显著的改进在这些情况下，2D关节定位通常由于严重的自遮挡而失败，从而为第二子网络提供不准确的2D热图。除非我们处理7031从粗到细的动作解耦打电话75.0066.50坐95.2576.99坐下129.97103.67吸烟75.5866.99步行70.1759.12一起走76.0162.28平均78.1069.77表3：使用2D热图进行中间监督的粗到细网络（粗到细）与具有体积表示的解耦网络（解耦）的比较。报告的结果是针对Human3.6M的六个类别，两种方法之间的差异最大，以及所有操作的平均值。Sanzari等人[28] Rogezet al. [27] Bogoet al. [6]我们的平均数93.287.382.3五十一点九表5：报告重建误差（mm）的方法之间的Human3.6M定量比较。基线数字取自相关文件。图像特征，3D定位注定会失败。这证明了直接使用来自图像的信息进行3D定位相对于解耦过程的益处4.5. 与最新技术水平的比较Human3.6M：我们将我们的方法的性能与以前报道的Human3.6M结果进行了表4显示了每个关节3D误差结果的平均值。请注意，一些先前的作品[36，45，10]利用一系列帧进行姿态预测，而不是单个帧正如我们的方法所考虑的那样。尽管如此，我们的网络在绝大多数领域都取得了最先进的成果。平均而言，它的性能优于所有其他方法。由于一些作品使用重建误差来报告结果，因此我们也使用表5中的该指标进行评估。同样，我们的方法远远优于其他基线。HumanEva-I：我们对HumanEva-I的经验结果连同来自最先进方法的报告结果一起呈现于表6与Human3.6M类似，我们的网络优于所有其他已发表的方法。KTH Football II：我们在表7中报告了我们对该数据集的方法的结果，并与相关方法进行了比较。注：Tekinet al. [36]使用视频而不是单帧进行预测，而Burenius等人。[7]是一种多视图方法。尽管如此，我们优于单视图方法，我们与多视图结果竞争。4.6. 定性结果图4显示了从上述数据集拍摄的图像的定性结果。另外，我们恶魔-表6：HumanEva-I的定量结果数字是平均重建误差（mm）。基线数字取自相关文件。[七]《中国日报》[七]《中国日报》[七]《中国日报》[36个]我们相机3211（视频）1上臂6053147496下臂3528064983大腿10088639898小腿9082417788表7：KTH足球II的定量结果数字是平均PCP评分（越高越好）。基线数字取自相关论文。我们indi- cate有多少摄像机，每种方法使用，并强调单视图方法的最佳性能。在MPII上进行3D重建，由于其野外性质，MPII提供了更大的视觉多样性。尽管MPII示例中存在挑战性姿势，但我们的体积表示产生了令人信服的3D预测。5. 总结本文研究了基于单色图像的三维人体姿态估计问题。与最近的ConvNet方法不同，我们将问题转换为主题周围离散空间中的3D关键点定位。我们将这种体积表示与由粗到细的监督方案相结合，以处理高维数据并实现迭代处理。我们证明，我们的贡献对于在标准基准上实现最先进的结果至关重要，平均相对误差减少超过30%。此外，我们在解耦架构中使用了我们的体积表示，即使在端到端训练不可行的情况下，它也可以用于野外图像。项目页面：https://www.seas.upenn.edu/pavlakos/projects/volumetric鸣谢：我们衷心感谢通过以下赠款提供的支持：NSF-DGE-0966142（ IGERT ）、 NSF-IIP-1439681 （ I/UCRC ）、 NSF-IIS-1426840 、ARL MAST-CTA W911NF-08-2-0004 、 ARL RCTA W911NF-10-2-0016、ONR N00014-17-1-2093、ONR STTR（机器人研究），NSERC发现，和DARPA FLA计划。步行慢跑AvgS1 S2 S3S1 S2 S3Radwan等人[25日] 75.1九十九点八九十三点八79.2 89.8 99.4 89.5Wang等人[39]第三十九届71.9 75.7 85.362.6 77.7 54.4 71.3Simo-Serra等人[32个]65.1 48.6 73.574.2 46.6 32.2 56.7Bo等人[五]《中国日报》46.4 30.3 64.964.5 48.0 38.2 48.77032方向讨论吃问候打电话照片构成购买LinKDE [14]132.71183.55132.37164.39162.12205.94150.61171.31Li等人[20个]-134.1397.37122.33-166.15--Tekin等人[36个]102.41147.7288.83125.28118.02182.73112.38129.17Zhou等[45个]87.36109.3187.05103.16116.18143.32106.8899.78Tekin等人[35]第三十五届-129.0691.43121.68-162.17--Ghezelghieh等人[13个国家]80.3080.3978.1389.72----Du等人[10个国家]85.07112.68104.90122.05139.08135.91105.93166.16Park等人[22日]100.34116.1989.96116.49115.34149.55117.57106.94Zhou等[第四十四届]91.83102.4196.6598.75113.35125.2290.0493.84我们67.3871.9566.7069.0771.9576.9765.0368.30坐着吸烟等待散步遛狗一起散步平均LinKDE [14]151.57243.03162.14170.69177.1396.60127.88162.14Li等人[20个]----134.1368.51--Tekin等人[36个]138.89224.9118.42138.75126.2955.0765.76124.97Zhou等[45个]124.52199.23107.42118.09114.2379.3997.70113.01Tekin等人[35]第三十五届----130.5365.75--Ghezelghieh等人[13个国家]-----95.0782.22-Du等人[10个国家]117.49226.94120.02117.65137.3699.26106.54126.47Park等人[22日]137.21190.82105.78125.12131.9062.6496.18117.34Zhou等[第四十四届]132.16158.97106.9194.41126.0479.0298.96107.26我们83.6696.5171.7465.8374.8959.1163.2471.90表4：对人3.6M的定量比较。数字是平均3D关节误差（mm）。基线数字取自相关文件。注意，几种方法使用视频进行预测，而不是单个帧[36，45，10]。图4：经验评估中使用的所有数据集的样本定性结果第一排：人类3.6M。第二排：人类伊娃。第三排：KTH足球II。第四和第五行：MPII。对于每个图像，显示原始视点和新视点。红色和绿色分别表示左和右。7033引用[1] A. Agarwal 和 B.Triggs 从单目图像恢复 3D人体姿态PAMI，28（1）：44-58，2006. 1[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。5[3] M. Andriluka、S.罗斯和B。席勒单目3D姿态估计和检测跟踪。CVPR，2010。1[4] 诉贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克用于多个人体姿势估计的3D图像结构。CVPR，2014。3[5] L. Bo和C.斯明奇塞斯库结构化预测的孪生高斯过程。IJCV，87（1-2）：28-52，2010年。7[6] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J. 黑色. SMPL：从单个图像自动估计3D人体姿势和形状在ECCV，2016年。一、三、七[7] M. Burenius，J.Sullivan和S.卡尔森用于多视图铰接姿态估计的3D图形结构CVPR，2013。一、三、四、五、七[8] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR，2016年。二、四[9] W. Chen，H. Wang，Y. Li，H. Su，D. Lischinsk，D.Cohen- Or，B.Chen等人合成训练图像以增强人体3D姿态估计。在3DV，2016年。3[10] Y. 杜，Y.黄，Y.Liu，F.汉，Y。桂，智-地Wang，M.Kankan- halli和W.耿。基于单目图像序列和高度图的无标记三维人体运动捕捉。在ECCV，2016年。二七八[11] A. Elhayek、E.de Aguiar，A.Jain，J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于ConvNet的无标记运动捕捉，适用于相机数量较少的一般场景。CVPR，2015。3[12] J. Gall，B. Rosenhahn，T. Brox和H.- P. Seidel人体运动捕捉的优化和滤波IJCV，87（1）：753[13] M. F. 盖泽尔吉耶河Kasturi和S.萨卡使用CNN学习相机视点以改进3D身体姿态估计。在3DV，2016年。二、三、八[14] C. 约内斯库 D. Papava 、 V.Olaru 和 C. 斯明奇塞斯库Human3.6M：自然环境中3D人体感知的大规模数据集和预测方法。PAMI，36（7）：1325-1339，2014. 五、八[15] 诉Kazemi，M.Burenius，H.Azizpour和J.苏利文基于随机森林的多视角人体部位识别. InBMVC，2013. 一、三、五[16] I. Kostrikov和J.胆用于从图像估计3D人体姿势的深度扫描回归森林。InBMVC，2014. 三、五、七[17] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深层监控网。InAISTATS，2015. 4[18] H.- J.Lee和Z.尘从单个视图确定3D人体姿势。CVGIP，30（2）：148-168，1985. 1[19] S. Li和A. B.陈使用深度卷积神经网络从单目图像估计3D人体姿势。InACCV，2014. 一、二、四、六[20] S. Li，W. Zhang和A. B.陈使用深度网络进行最大余量结构化学习，用于3D人体姿势估计。在ICCV，2015年。一、二、五、八[21] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。二三四六[22] S. Park，J. Hwang，and N.夸使用卷积神经网络和2D姿态信息进行3D人体姿态估计。在ECCVW，2016年。二、六、八[23] G. Pavlakos，X. Zhou，K. G. Derpanis和K.丹尼尔迪斯为无标记的3D人体姿势注释获取多个视图。CVPR，2017年。三、四[24] T. Pfister，J. Charles，and A.齐瑟曼。用于视频中人体姿态估计的流动卷积网。在ICCV，2015年。4[25] I.拉德万A. Dhall和R.格克自遮挡条件下单目图像三维人体姿态估计InICCV，2013.7[26] V. Ramakrishna，T. Kanade和Y.酋长从2D图像界标重建3D人体姿势。ECCV，2012年。1[27] G. Rogez和C.施密特MoCap-guided data augmentation for3D pose estimation in the wild.在NIPS，2016年。一、二、三、七[28] M. 桑扎里河谷Ntouskos和F.皮里基于贝叶斯图像的三维姿态估计。在ECCV，2016年。7[29] N.萨拉菲亚诺斯湾博泰亚努湾约内斯库和我。A. 卡卡迪亚里斯3D人体姿态估计：文献综述和协变量分析。CVIU，152：1-20，2016. 2[30] L. Sigal，A. O. Balan和M. J.布莱克。HumanEva：同步视频和运动捕捉数据集和基线算法，用于评估关节式人体运动. IJCV，87（1-2）：4-27，2010. 5[31] L. Sigal，M. Isard，H. W. Haussecker和M. J.布莱克。四肢松弛的人：使用非参数置信传播估计3D人体姿势和运动。IJCV，98（1）：15-48，2012. 3[32] E. Simo-Serra，A.夸托尼角Torras和F.莫雷诺-诺格。一种基于单幅图像的2D和3D姿态估计联合模型CVPR，2013。7[33] E. Simo-Serra，A. Ramisa，G. Ale nya`，C. 托拉斯，以及F. 莫雷诺诺格尔从噪声观测中估计单个图像3D人体姿态CVPR，2012。[34] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。4[35] B. 泰金岛Katircioglu，

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

单幅图像的三维人体姿态预测及体积表示方法的研究

单幅图像三维重建对图像的要求

融合PointNet 和3D-LMNet 的单幅图像 三维重建及语义分割

帮我总结融合PointNet 和3D-LMNet 的单幅图像 三维重建及语义分割这篇论文

融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割具体步骤

融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割

融合PointNet 和3D-LMNet的单幅图像三维重建及语义分割论文方法详细步骤

总结融合PointNet 和3D-LMNet的单幅图像三维重建及语义分割

单幅图像三维重建的步骤

融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割论文中图像真值点云是怎么获取的呢？

基于单幅图像的快速去雾方法

视频中人体姿态估计的国内外研究现状4000字

单幅图像超分辨率重构技术pdf下载

基于无监督学习的单幅图像去雾

基于暗通道先验单幅图像去雾算法的实现

基于暗通道先验单幅图像去雾Matlab算法的实现

5116-微信小程序电影院订票选座系统设计及实现+ssm（源码+数据库+lun文）.zip

JavaScript 中的 `Array.prototype.filter` 方法全解析

5108-微信小程序的书橱+ssm（源码+数据库+lun文）.zip

5046-微信小程序校园二手交易平台的小程序+ssm（源码+数据库+lun文）.zip

SMT小型视觉贴片机控制系统源码源代码图纸 DI

最新资源

融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割

帮我总结融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割这篇论文