基于回归与优化的合作方法在人体姿势估计中的应用

22 浏览量更新于2023-10-12 收藏 3.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2252基于循环Nikos Kolotouros*1，Georgios Pavlakos*1，Michael J.布莱克2，科斯塔斯丹尼尔11宾夕法尼亚大学2马克斯普朗克智能系统研究所摘要基于模型的人体姿态估计目前通过两种不同的范例来实现。基于优化的方法以迭代的方式将参数化身体模型拟合到2D观察结果，从而导致精确的图像模型对准，但是通常缓慢并且对初始化敏感。相比之下，使用深度网络直接从像素估计模型参数的基于回归的方法倾向于提供合理的但不是像素精确的结果，同时需要大量的监督。在这项工作中，我们的关键见解不是研究哪种方法更好，而是这两种范式可以形成强大的合作。一个合理的，直接从网络回归估计可以初始化迭代优化，使拟合更快，更准确。类似地，来自迭代优化的像素精确拟合可以充当网络的强监督。这是我们提出的方法SPIN（SMPL优化循环）的核心。深度网络是一个迭代优化例程，它在训练循环中将身体模型拟合到2D关节我们的方法本质上是自我改进的，因为更好的网络估计可以使优化得到更好的解决方案，而更准确的优化拟合可以为网络提供更好的监督。我们证明了我们的方法在不同环境中的有效性，其中3D地面实况是稀缺的，或不可用，我们始终优于最先进的基于模型的姿态估计方法的显着利润率。包含视频、结果和代码的项目网站可以在https://seas.upenn.edu/www.example.comnkolot/projects/spin找到。1. 介绍随着深度学习架构的出现，许多计算机视觉问题的基于回归和基于优化的方法之间的困境比以往任何时候都更加相关我们应该回归相对凸轮-平等贡献输入图像优化结果回归结果图1：优化和回归方法都有成功和失败，因此这促使我们的方法在两者之间建立紧密的协作时代的姿态，或使用捆绑调整？是回归人脸模型的参数更合适，还是将模型拟合到面部标志？这类问题在我们的社区中无处不在。其中，基于3D模型的人体姿态估计已经引发了类似的讨论，因为基于优化的方法[4，18]和基于回归的方法[15，24，27]最近都取得了显著的成功然而，人们可以说这两种范式都有弱点和优点（图1）。基于此，在这项工作中，我们建议，而不是专注于哪种范式更好，如果我们的目标是推动该领域的发展，我们需要考虑两者之间的合作方式。虽然基于3D模型的人体姿态是一个非常棘手和高度模糊的问题，但已经有基础性的工作试图解决它。基于优化的方法[4，8，18]，是相当好的探索和理解。给定人体的参数模型，例如，SMPL [20]是一种迭代拟合方法，试图估计最能解释2D观察结果（最典型的是2D关节位置）的身体姿势和形状由于我们明确优化了模型与图像有限元的一致性2253θreg−Θ optΘregΘoptCNNSMPLify输入图像回归形状2D关节优化的建筑外形抗初始步骤······最终步骤图2：拟议方法概述。SPIN通过基于回归和基于迭代优化的方法之间的紧密结合来训练用于3D人体姿势和形状估计的深度网络。在训练期间，网络预测SMPL参数模型的参数Θreg[20]。我们不使用地面真实2D关键点来应用弱重投影损失，而是建议使用我们的回归估计来初始化将模型拟合到2D关键点（SMPLify）的迭代优化例程。这个过程是在训练循环中完成的。优化的模型参数Θopt用于显式地监督网络的输出，并为其提供特权的基于模型的监督，这与较弱且通常模糊的2D重投影损失相比是有益的。这种协作导致了一个自我改进的循环，因为更好的拟合有助于网络更好地训练，而来自网络的更好的初始估计有助于优化例程收敛到更好的拟合。我们通常会得到一个很好的拟合，但是优化往往非常慢，并且对初始化的选择非常敏感。另一方面，最近的深度学习进展已经将焦点转移到纯粹基于回归的方法上，使用深度网络直接从图像回归模型的参数[15，24，27]。从理论上讲，这是一个非常有前途的方向，因为深度回归器可以考虑所有像素值，而不是仅依赖于稀疏的2D位置集。不幸的是，这种类型的一次性预测可能会导致平庸的图像模型对齐，而同时需要大量的数据来正确训练网络。因此，很自然地，对于每种方法都有大量的赞成和反对的论据在这项工作中，我们主张，而不是争论一个范式或其他，我们应该拥抱每种方法的优点和缺点，并在训练过程中紧密合作使用它们。在我们的方法中，使用深度网络来回归SMPL参数模型的参数[20]。这些回归值初始化迭代拟合例程，该例程在给定2D关键点的情况下将模型与图像对齐。随后，拟合模型的参数被用作网络的监督，闭合回归和优化方法之间的循环。这是我们的方法SPIN的核心，它在训练循环中拟合模型，并将其用作神经网络的监督形式（图2）。我们提出的方法的一个关键特征是，是自我完善的。在早期训练阶段，网络将产生接近平均姿态的结果，这意味着迭代拟合将容易出错。随着更多的示例被提供给网络作为迭代拟合模块的监督，它将学习产生更有意义的形状，这也将导致优化到更准确的模型拟合。此外，由于迭代拟合仅需要2D关键点来拟合模型，因此即使没有具有相应3D基础事实的图像可用，我们的网络也可以被训练，因为3D监督将由优化模块提供。最后，在性能方面最关键的是，我们的网络是用显式的3D监督训练的，以模型参数和完整形状的形式，而不是像以前的作品中那样较弱的2D重投影误差[15，27]。这种特殊的监督形式对提高回归性能非常重要我们的方法在不同的设置和各种室内和野外数据集中进行了基准测试，并且它的性能明显优于最先进的基于模型的方法我们总结了我们的方法的贡献如下：• 我们提出了SPIN，一种用于训练3D人体姿势神经网络的自改进方法，形状估计，通过回归和基于优化的方法的紧密合作。• 由于监督是由迭代拟合模块提供的，因此即使没有具有3D地面实况的图像可用于训练，训练也是可行的。2254• 拟合模型为我们的网络提供了显式的基于模型的监督，与较弱的2D监督相比，这对提高性能至关重要（例如，重投影损失）。• 我们在许多基准测试中实现了基于模型的3D姿态和形状估计的最新结果。2. 相关工作最近的工作已经在基于单图像的3D人体姿态估计的前沿取得了重大进展，许多方法取得了令人印象深刻的结果[21，23，29，33，35，45]。虽然这一系列的工作已经提高了对3D人体姿态估计的兴趣，但在这里，我们将重点介绍基于模型的姿态估计。这类方法考虑人体的参数模型，如SMPL [20]或SCAPE [2]，目标是估计全身3D姿势和形状。基于优化的方法：基于优化的方法曾经是基于模型的人体姿态估计的主要范例。该领域的早期工作[8，31]试图使用轮廓或关键点来估计SCAPE模型的参数，并且通常需要一些手动用户干预。最近，第一个全自动的方法，SMPLify，介绍了由Bogo等。[4]的文件。使用现成的关键点检测器[28]，SM-PLify将SMPL拟合到2D关键点检测，使用强先验来指导优化。除了SMPLify之外，对标准管道的不同更新已经调查了拟合程序、轮廓提示[18]、多个视图[10]甚至处理多个人[42]中的整合。最近，作品已经证明适合多视图[14]以及单视图设置[27，41]中的更具表现力的模型在这项工作中，我们利用基于优化的方法的特殊有效性来产生像素精确的拟合，但不是在测试时使用它们来产生良好的预测，我们的目标是利用它们来为神经网络提供直接监督。基于回归的方法：在光谱的另一端，最近的作品完全依赖于回归来解决3D人体姿势和形状估计的问题。在大多数情况下，给定单个RGB图像，深度网络用于回归模型参数。考虑到缺乏具有完整3D形状地面实况的图像，这些作品中的大多数都集中在替代监督信号上来训练深度网络。它们中的大多数严重依赖于2D注释，包括2D关键点，轮廓或零件分割。该信息可以用作输入[37]，中间表示[24，27]或作为监督，通过实施不同的重投影损失[15，24，27，34，37]。虽然这些约束非常有用，但它们对网络的监督很弱。相反，我们认为，基于模型的强监管，即，直接监督对模型参数和/或输出网格的影响对于提高性能至关重要。虽然这种类型的地面实况很少可用，但我们在训练循环中使用拟合例程来提供强监督信号来训练网络。迭代拟合满足直接回归：在文献中也曾考虑过使用回归方法来改善拟合，反之早期的优化方法需要一个良好的初始估计，可以通过判别方法获得[31]。Lass-ner等[18]使用SMPLify来获得良好的模型拟合，这可以在以后用于回归任务（例如，部分分割或界标检测）。Rogez等人[29]还使用3D姿态伪注释进行训练。Pavlakos等人[27]使用来自其网络的初始预测来初始化和锚定SMPLify优化例程。Varol等人[38]提出了SMPLify的扩展，以适应SMPL对其网络的回归体积表示。虽然以前的工作也考虑了这两种方法的好处，但在我们的工作中，我们提出了一个更紧密的合作，将拟合方法纳入训练循环，在一个自我改进的以更好地监督网络。为了将我们的方法放在更大的背景下，将直接回归网络与不同的优化例程相结合的想法训练网络与图形模型已经提出了由汤普森等。[36]在2D人体姿势估计的上下文中。类似地，对于分割，流行的是在分割网络上使用CRF [7]，同时，展开CRF优化以与优化一起训练网络也已经被研究[30，44]。这些想法也被转化为3D，其中Paschali- dou等人。[25]展开MRF优化，与深度回归网络一起训练它。虽然我们从这些工作中获得了灵感，但我们的动机是不同的，因为我们利用迭代拟合来为网络提供强有力的监督，而不是展开优化或进行简单的后处理。3. 技术途径在下文中，我们描述了参数化人体模型 SMPL[20]，并定义了基本符号。然后，我们提供更多关于回归网络和迭代优化例程的细节，基于SMPLify [4]。最后，我们描述了我们的方法，SPIN，并给出了必要的实现细节。3.1. SMPL模型SMPL身体模型[20]提供了一个函数M（θ，β），该函数将姿态参数θ和形状参数β作为输入，并返回身体网格M∈RN×3，其中N=6890个顶点。方便地，模型的身体关节X可以被定义为2255O网格顶点。可以为此任务预先训练线性回归量W，因此对于感兴趣的k个关节，我们定义主要身体关节X∈Rk×3=WM。3.2. 回归网络对于回归模型，我们使用深度神经网络。我们的架构与Kanazawa等人的设计相同。[15]唯一的区别是我们使用Zhou等人提出的表示。[46]对于3D旋转，因为我们在训练过程中根据经验观察到更快的收敛。现在让我们用f来表示神经网络所逼近的函数。新图像的前向传递提供模型参数的回归预测，etersΘreg={θreg，βreg}和相机参数θreg。这些参数使我们能够估计的2D投影接头Jreg=Xreg（Xreg）。我们的预测允许我们生成与回归参数Mreg=M（θreg，βreg）以及关节及其重投影Jreg相对应的网格。在这种情况下，常见的监督是使用关节上的重投影损失提供：R迭代拟合深度回归p图3：SPIN在基于优化的方法和基于回归的方法之间建立了紧密的协作。网络的回归估计合理地逼近了最优解，从而得到较好的最优解.同样，通过迭代拟合优化的值可以作为监督，以更好地训练网络。这两个过程继续这种合作，形成一个自我改进的循环。4-阶段拟合程序。 4阶段优化是关键-L2D 为||Jreg -Jgt ||,(1)因为优化是从平均姿态初始化的，所以避免陷入局部最小值。与此相反，其中，Jgt是地面实况2D关节。然而，在这项工作中，我们认为这种监督信号非常弱，给网络带来了额外的负担，迫使它在参数空间中搜索与地面真实2D位置一致的有效姿态。3.3. 优化例程迭代拟合例程遵循Bogo等人的SMPLify工作。[4]的文件。我们在这里给出一个简短的介绍，但我们也请读者参考[4]以了解更多细节。SMPLify尝试使用基于优化的方法将SMPL模型拟合到一组2D关键点。它最小化的目标函数由重投影损失项和多个姿态和形状先验组成。更具体地说，总目标是：EJ（β，θ;K，Jest）+λθ Eθ（θ）+λa Ea（θ）+λβEβ（β）（2）其中β和θ是SMPL模型的参数，Jest检测到的2D关节和K相机参数。第一项EJ（β，θ;K，Jest）是对Jest与投影SMPL关节之间的加权2D距离的惩罚。Eθ（θ）是利用在标记数据上拟合的形状预先训练的高斯姿势的混合，Eα（θ）是惩罚肘部和膝盖的不自然旋转的姿势预先，而Eβ（β）是对形状系数的二次惩罚。我们没有包括[4]的相互渗透误差项，因为它使拟合变慢，同时几乎没有性能优势。SMPLify的第一步涉及优化相机平移和身体方向，同时保持模型姿势和形状固定。在估计了摄像机平移之后，SMPLify尝试使用由于我们的方法使用网络预测来初始化优化，我们观察到，具有少量迭代的单个优化阶段通常足以收敛到良好的拟合。此外，我们还可以使用来自网络的预测相机平移，而不是像[4]中那样使用三角形相似性来估计初始平移这在[4]中所做的假设（例如，人总是站着的）是无效的。另一个旨在加快运行速度的修改是我们以批处理模式运行SMPLify优化不是按顺序为每个图像进行优化，而是尽管SMPLify可能具有高延迟，使其不适合单图像推理，但我们可以通过同时优化多个示例来在现代GPU此外，虽然SMPLify使用关节Jest以及DeepCut提供的检测置信度[28]，但对于我们的地面事实，我们只能假设所有关节都具有相同的置信度。这可能对拟合过程产生负面影响，因为通常存在小的注释错误，例如，注释遮挡下的关节为了解决这个问题，我们将为每个人提供的地面真实 2D 关节与相应的OpenPose检测相结合[5，6，32，40]。这使我们能够利用每次检测的置信度，并避免由于高置信度错误注释而导致的错误3.4. 自旋我们的方法SPIN建立在这样一种见解的基础上，即这两种范式可以形成紧密的合作，以训练用于人体姿势和形状估计的深度回归量（图10）。e2256图3）。在典型的训练循环期间，通过提供回归参数θreg的网络来形成图像。不是立即应用典型的2D重投影损失，而是使用回归参数如果我们从平均姿势作为初始值开始，这种优化通常非常缓慢然而，如果有一个合理的初步估计，它可以大大加快。这使我们能够在训练循环中使用拟合例程现在让我们用Θopt={θopt，βopt}由迭代拟合产生的模型参数集这些值被显式优化，使得所产生的形状 M_opt=M（θ_opt，β_opt）和重新投影的关节J_opt与2D关键点对齐。给定这些优化值，我们可以直接监督网络函数f的参数水平：L3D=||Θreg−Θopt||、（3）和/或网格级别：LM=||M reg− M opt||.（四）在实践中，这与对2D关节应用重投影损失具有非常不同的效果。而不是迫使网络识别一组参数，满足关节重投影，我们直接提供一个参数的解决方案，对应于一个可行的3D形状。直观地，我们绕过了在参数空间上的网络搜索，并且我们直接提供了一组特权参数Θopt，其倾向于非常接近实际的最优解。SPIN的另一个重要特性是它本质上是自我改进的。良好的初始网络估计Θreg将使优化达到更好的拟合Θopt，而来自迭代例程的良好拟合将为网络提供甚至更好的监督。这使得在循环特别重要，因为它使两个组件之间的密切合作成为可能。此外，由于优化例程仅使用2D关节进行拟合，并且网络主要依赖于该例程进行必要的基于模型的监督，因此即使在没有具有相应3D地面实况的图像可用于训练的情况下，我们的方法也是适用这类似于[15]的未配对设置，其中仅2D关键点注释可用，并且训练对抗先验以惩罚无效姿势/形状。在这种情况下，我们的方法的好处是，我们不像网络那样向网络提供是/否的答案，而是用有效的姿势明确地监督它，这会带来更好的经验，正如我们在评估中所证明的那样3.5. 实现细节在这里，我们将更详细地讨论一些对训练过程很重要的进一步实现细节虽然SMPLify相当准确，但在某些情况下，我们可以仍然会有严重的失败。这些不好的配合可能会使训练不稳定，并可能降低性能。这促使我们使用一个标准来拒绝这些形状的监督从经验上讲，一个简单的阈值的基础上的联合reprojection-jjection错误在我们的情况下工作得很好。对于拟合被拒绝的图像，我们只对回归网络进行监督，并在关节上进行重新投影损失此外，为了避免用形状参数的不可能值进行训练（即，超出±3σ），当SMPLify返回超出此范围的形状值时，我们仅用简单的L2损失来监督β参数，即，使其接近平均形状。为了改进和加速训练，我们还加入了一个字典，这样我们就可以跟踪训练集中的每个图像在所有时期内的最佳拟合。在实践中，每次我们在循环中计算新的优化形状时，我们都会将其与我们在该时间点之前看到的最佳拟合进行比较，如果新的拟合更好，我们就会相应地更新字典。为了比较拟合的质量，我们再次使用关节上的重投影误差。我们的字典最初是用SM-PLify拟合填充的，这是在训练开始之前离线完成的过程。为了初始化SMPLify，我们可以从平均姿态开始，或者使用更准确的姿态，从2D关键点回归使用类似于Martinez等人的网络。[21]）。对于我们的实证评估，我们专注于第二个战略，但我们也提出了类似的结果与第一种方法在Sup.Mat.我们为每个批处理运行SMPLify4. 实证评价4.1. 数据集在这里，我们给出了数据集的快速描述，用于培训和评估。我们报告了Human3.6M [11]，MPI-INF-3DHP [22]，LSP [12]和3DPW [39].我们使用前三个数据集进行训练（没有来自3DPW的训练数据），而与[15]类似，我们还将训练数据与来自其他数据集的 2D 注释合并，即，[ 13 ][14][15][16][17][18][19][ 19]][19][19][19][ 19]][19][19][19]对于我们调查的不同设置，例如，训练有/没有在循环更新，或训练有/没有3D地面真相），我们训练每个设置一个模型，我们用它来报告所有数据集的结果，而不需要对每个特定的数据集进行微调。此外，我们澄清，我们总是评估网络的输出。没有应用基于广告适配的后处理，如例如在[9]中所做的。此外，由于不同的数据集通常使用不同的错误度量来报告结果，因此我们使用每个数据集在文献中更常见我们在Sup.Mat中给出了各种度量的详细定义Human3.6M：它是3D人体姿势估计它包括多个执行动作的比如吃、坐和走。在典型的亲-2257Rec. 误差HMR [15] 81.3Kanazawa等人[16] 72.6Arnab等人[3] 72.2Kolotouros等人[17] 70.2Ours -静态配合66.3我们的-在循环59.2表1：对3DPW数据集的评价。数字是以mm为单位的平均重建误差。单独基于模型的监督（我们的-静态拟合）优于在相同（[15，17]）或更多数据（[3，16]）上训练的类似架构。在循环中实现拟合（Ours - in the loop）进一步提高了性能。FB分段部件段输入图像初始拟合最终拟合图4：SMPLify的例子适合我们的字典在训练开始和训练结束虽然SMPLify在从不准确的姿势开始时可能会失败（第二列），但如果我们的网络在初始化时有一个很好的预测，优化可以收敛到一个准确的解决方案（第三列）。托伐他汀，例如，[15]，我们使用受试者S1、S5、S6、S7、S8进行训练，并对受试者S9和S11进行评估。MPI-INF-3DHP：这是一个主要在室内环境中使用多视图设置捕获的数据集。没有标记用于捕获，因此与其他数据集相比，3D姿势数据往往不太准确。我们使用提供的培训集合（受试者S1至S8）进行训练，我们报告数据集测试集的结果。LSP：它是用于2D人体姿势估计的标准数据集。在这里，我们使用测试集进行评估，使用来自Lassner等人的silhouette/parts注释。[18 ]第10段。3DPW：这是一个非常新的数据集，主要是在户外条件下捕获的，使用IMU传感器来计算姿态和形成地面实况。我们仅使用此数据集对其定义的测试集进行评估。4.2. 定量评价消融研究：首先，我们评估我们的方法的组成部分。我们使用野外数据集，因为与室内相比，它们更具挑战性2258acc.F1acc.F1SMPLifyoracle92.170.8888.820.67SMPLify91.890.8887.710.64[27]第二十七话92.170.8888.240.64HMR [15]91.670.8787.120.60我们的-静态配合91.070.8688.480.65我们的-在循环91.830.8789.410.68表2：LSP测试集上前景-背景和六部分分割的评价。数字是准确率和f1分数。使用基于模型的监督而不更新拟合实现了非常有竞争力的结果，而在循环中加入拟合使我们的方法超越了最先进的水平。前两行的数字取自[18]。基准，其中模型往往过拟合[11，22]。在新的3DPW数据集上，我们评估姿态估计。在表1中，我们提供了我们方法的两个版本的结果为了正确看待我们的结果，我们还比较了四个最近的基线（[3，15，16，17]）。正如我们所看到的，模型监督的使用足以提高其他基线的性能。令人惊讶的是，在循环中运行迭代拟合，我们可以进一步提高网络的性能，因为它逐渐获得越来越好的拟合。对LSP数据集执行相同的比较。在这种情况下，我们通过网格重投影和评估轮廓和部分分割精度来隐式地评估3D形状。该设置的完整结果见表2。这一趋势与3DPW的结果相似。使用一组静态拟合并提供基于模型的监督，可以实现非常引人注目的结果。然而，正是在循环中引入优化，推动我们的方法超越了最先进的水平。为了更好地说明配合的改善程度，2259图5：各种数据集的定性结果，LSP（第1-3行）、3DPW（第4-5行）、H36 M（第6-7行）和MPI-INF-3DHP（第8行）。2260Rec. 误差Lassner等人[18] 93.9SMPLify [4] 82.3Pavlakos等人[27] 75.9HMR（未配对）[15] 66.5我们的（未配对）62.0[24]第二十四话HMR [15] 56.8绝对刚性对线PCK AUC MPJPEPCK AUC MPJPE我们的76.437.1105.2 92.5我们的41.1表4：MPI-INF-3DHP数据集的评价。比较-表3：对Human3.6M数据集的评价。这些数字是平均重建误差（mm）。我们比较的方法，输出一个网格的人体。顶部的方法不需要具有3D地面实况的图像，而底部的方法也使用3D地面实况。在这两种情况下，我们的方法明显优于最先进的方法。在我们的字典中，我们在图4中提供了一些典型的例子。随着训练的进行，拟合显著改善，使网络能够获得更好的监督。与最先进技术的比较：为了与最先进技术的进一步比较，我们报告了用于3D人体姿势估计的广告数据集的结果基于文献中提出的不同设置，我们报告了当我们使用3D地面实况时的结果（例如，Human3.6M），以及当没有具有3D地面实况的图像与[15]类似，我们将此设置在表3中，我们呈现了我们的方法在Hu-man 3. 6 M上的结果，当3D地面实况不可用于训练时（表格顶部）和当它可用于训练时（底部），我们的方法优于以前的基线我们强调，对于没有3D地面实况可用的情况（例如，未配对设置），我们的网络不能访问来自Human3.6M的姿势，如Kanazawa等人。[15]，因为我们的姿势先验仅在CMU数据上训练尽管如此，我们仍然表现出色[15]。同样，我们还报告了MPI-INF-3DHP数据集上两种设置（配对/非配对监督）的结果。同样，我们优于[15]，同时与两种不使用人体参数模型的方法[22，23]相比非常具有竞争力。最后，图5包括我们评估中涉及的不同数据集的定性结果，而图6包括一些失败案例。在Sup.Mat中也可以找到更多的结果。5. 总结这项工作介绍了SPIN，一种方法，建议回归方法和基于优化的方法之间的密切合作，以训练3D在刚性对准之前（左）和之后（右），Ison处于不同的度量下。我们的方法优于以前的基线。（对于PCK和AUC，越高越好，而对于MPJPE，越低越好）。图像结果图像结果图6：我们网络的错误重建。典型的失败案例可以归因于具有挑战性的姿势、顺序深度模糊、训练集中罕见的视点以及由于场景中存在多个人而引起的混淆。人体姿态和形状估计。我们的方法使用网络为优化例程提供初始估计，然后将模型拟合到循环中，并为网络的训练提供基于模型的监督。因此，优化模块和回归模块形成了一个自我改进的循环，因为它们都可以通过紧密的合作而受益。此外，特权模型为基础的监督是有价值的，以改善我们的网络的训练，这也证明了由实证结果，其中我们的方法优于以前的方法，大幅度。同时，由于拟合例程只需要2D关键点来拟合模型，因此即使没有3D注释，我们也可以训练我们的深度网络。未来的工作可以考虑将这种方法扩展到捕获多个人[42，43]，或纳入更有表现力的人体模型[14，26]。鸣谢：NK、GP和KD感谢通过以下赠款提供的支持：NSF-IIP-1439681（I/UCRC），NSF-IIS-1703319 ， NSF MRI 1626008 ， ARL RCTA W911NF-10-2-0016 ，ONR N00014-17-1-2093 ， ARL DCIST CRA W911NF-17-2-0181 ，DARPA-SRC C-BRIC，由本田研究所和谷歌白日梦重新搜索奖。披露：MJB已经收到了来自英特尔，英伟达，Adobe，Facebook和亚马逊的研究礼物基金。虽然MJB是亚马逊的兼职员工，但他的研究完全是在 MPI 进行的，并且完全由 MPI 资助 MJB 在亚马逊和Meshcapade GmbH拥有财务权益。HMR（unpaired）[15]59.6 27.9169.577.1 40.7113.2我们的（未配对）66.830.2124.887.048.580.4Mehta等人[22日]75.7 39.3117.6---[第23话]76.640.4124.783.9 47.398.02261引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。5[2] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：人的形状完成和动画。ACM transactions ongraphics（TOG），24（3）：408-416，2005年。3[3] Anurag Arnab，Carl Doersch，and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在CVPR，2019年。6[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。一二三四八[5] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人2D姿态估计。在arXiv预印本arXiv：1812.08008，2018。4[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2D姿态估计。在CVPR，2017年。4[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI，40（4）：834-848，2018。3[8] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。CVPR，2009。第1、3条[9] Riza Alp Guler和Iasonas Kokkinos。HoloPose：野外整体3D人体重建。在CVPR，2019年。5[10] 黄英豪， Federica Bogo ， Christoph Lassner ， AngjooKanazawa ， Peter V. Gehler ， Javier Romero ， IjazAkhter，and Michael J.黑色.随着时间的推移，朝向准确的无标记人体形状和姿势估计。在3DV，2017年。3[11] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知PAMI，36（7）：1325-1339，2014. 五、六[12] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。5[13] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。CVPR，2011。5[14] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture：用于跟踪面部、手部和身体的3D变形模型在CVPR，2018年。三、八[15] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。一二三四五六八[16] Angjoo Kanazawa、Jason Zhang、Panna Felsen和JitendraMalik。从视频中学习3D人体动力学。在CVPR，2019年。6[17] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR，2019年。6[18] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环在CVPR，2017年。一、三、六、八[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV。5[20] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。SMPL：一个有皮肤的多人线性模型 . ACM transactions on graphics（TOG），34（6）：248，2015。一、二、三[21] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线。InICCV，2017. 三、五[22] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督在野外进行单目3D人体姿势估计。在3DV，2017年。五六八[23] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. VNect：使用单个RGB相机进行实时3D 人体姿势估计。 ACM Transactions on Graphics（TOG），36（4）：44，2017。三、八[24] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合：统一深度学习和基于模型的人体姿势和形状估计。在3DV，2018年。一二三八[25] DespoinaPaschalidou ， OsmanUlusoy ， CarolinSchmitt，Luc Van Gool，and Andreas Geiger.Raynet：学习使用射线势的体积3D重建。在CVPR，2018年。3[26] Georgios Pavlakos、Vasileios Choutas、Nima Ghorbani、Timo Bolkart、Ahmed AA Osman、Dimitrios Tzionas和Michael J Black。表现性身体捕捉：从单个图像获得3D手部、面部和身体。在CVPR，2019年。8[27] Georgios Pavlakos， Luyang Zhu ， Xiaowei Zhou ， andKostas Daniilidis.学习从单个彩色图像估计3D人体姿势和形状。在CVPR，2018年。一二三六八[28] Leonid Pishchulin ， Eldar Insafutdinov ， Siyu Tang ，Bjoern Andres，Mykhaylo Andriluka，Peter V Gehler，and Bernt Schiele. Deepcut：联合子集划分和标记用于多人姿势估计。在CVPR，2016年。三、四[29] GregoryRogez ， PhilippeWeinzaepfel 和 CordeliaSchmid。LCR-Net++：自然图像中的多人2D和3D姿态检测。PAMI，2019。3[30] 亚历山大G施温和拉奎尔Urtasun。完全连接的深度结构化网络。arXiv预印本arXiv：1503.02351，2015年。3[31] Leonid Sigal、Alexandru Balan和Michael J Black。组合的判别式和生成式铰接姿态和非刚性形状估计。NIPS，2008年。3[32] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在2262CVPR，2017年。42263[33] 小孙、肖斌、魏方银、梁爽、魏奕辰。整体人体姿态回归。在ECCV，2018。3[34] Vince Tan，Ignas Budvytis和Roberto Cipolla。用于3D人体形状和姿势预测的间接深度结构化学习。在BMVC，2017年。3[35] BugraTekin 、 PabloMa'rquez-Neila 、 MathieuSalzmann 和Pascal Fua。学习融合2D和3D图像线索以进行单目身体姿势估计。InICCV，2017. 3[36] Jonathan J Tompson ， Arjun Jain ， Yann LeCun ， andChristoph Bregler.用于人体姿势估计的卷积网络和图形模型的联合训练。在NIPS，2014。3[37] Hsiao-Yu Tung ， Hsiao-Wei Tung ， Ersin Yumer ， andKaterina Fragkia

下载后可阅读完整内容，剩余1页未读，立即下载