多视点图像多人位姿估计算法的研究

194 浏览量更新于2023-10-14 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11158基于形状感知的多视点图像多人位姿估计董子建1宋杰1徐晨1，2陈国1 奥特马·希利格斯11瑞士联邦理工学院2德国图宾根马克斯·普朗克智能系统研究所摘要在本文中，我们贡献了一个简单而有效的方法估计多个人的三维姿态从多视图图像。我们提出的粗到细流水线首先将来自多个相机视图的噪声2D观察结果聚合到3D空间中，然后基于置信度感知的多数投票技术将它们关联到单个实例中最后的姿态估计是从一个新的优化方案，链接高置信度的多视图的2D观察和3D联合候选人。此外，利用诸如SMPL的统计参数身体模型作为这些3D关节候选的正则化先验。具体地，3D姿态和SMPL参数两者以交替方式联合优化。这里，参数模型有助于校正不可信的3D姿态估计并填充缺失的关节检测，而更新的3D姿态又引导获得更好的SMPL估计。通过链接2D和3D观察，我们的方法是准确的，并推广到不同的数据源，因为它更好地解耦的最终3D姿态从人与人之间的星座，是更强大的噪声2D检测。我们系统地评估我们的方法在公共数据集，并实现国家的最先进的性能。代码和视频将在项目页面上提供：https://ait.ethz.ch/projects/2021/multi-human-pose/。1. 介绍无标记人体运动捕捉是计算机视觉的基本问题之一。近年来，在2D [5，16，34，37，50]和2D [5，16，34，37，50]中估计人体的构型方面取得了很大进展。3D [4，25，31，32，52]从单个RGB图像作为输入。然而，如果我们考虑其中描绘多个人的设置，并且特别是如果这些人在近距离处彼此交互，则由于严重且复杂的遮挡和深度模糊性，我们可以预期许多困难。为了鲁棒地估计这样的组的姿态，多相机设置对于提供来自不同视图的附加观察是必不可少的，这可以解决遮挡并提供用于3D估计的立体提示图1. 形状感知多人姿态估计：我们提出了一种新的管道，用于从几个相机视图中恢复多个人的3D姿势和形状。链接2D和3D观察并且经由参数身体模型正则化的公式对于噪声和缺失的2D检测是鲁棒的。关节式姿势甚至可以在严重咬合下恢复。由于该问题在现实世界中的重要性，最近的几种方法已经尝试预测从多个相机观察到的多个人的姿势[6，10，18，45，46，54]。这样的方法可以粗略地分为两组。第一组将问题表述为跨视图匹配和关联问题[6，10，54]。例如，Zhang et al.[54]引入了一种优化公式，其试图联合地解决作为多剪切问题的实例的每视图解析和跨视图匹配问题。该公式基于关联图，该关联图在多个视图内和跨多个视图链接关节。虽然公式是优雅的，但在实践中，它需要遍历密集的循环关联图，这导致NP-难问题。为了获得一个计算上易于处理的方法，作者恢复到一个贪婪的启发式，这是敏感的嘈杂的2D联合检测和不完美的视觉特征，这限制了该方法的准确性。其他方法，如Tu et al.[46]将来自各个摄像机视图的特征组合到3D体素空间中。该体积然后由学习者检测器分割成子体积。从这些子体积回归最终的3D人体姿势因为11159虽然可以端到端地训练流水线，但是如果训练和测试分布相似，则可以实现高准确度。然而，由于依赖于体积特征表示-在没有注释的多人、多视图数据的大型语料库的情况下，这样的方法面临泛化问题并且对分布变化敏感4）.拥抱这个具有挑战性的问题，我们提出了一个简单而有效的粗到细的管道，估计3D多人构成从多视图图像。我们的方法结合了自底向上和自顶向下方法的概念。为了避免必须解决与局部证据的关联问题，我们在3D特征空间中聚合初始3D姿势建议。我们的第一个见解是，在姿态估计中，与2D特征相关联的不确定性（即，联合检测）由于语义的原因可以比在许多其它计算机视觉领域中更可信因此，我们放弃了基于神经网络的分类器，并提出了一个简单的置信度感知的多数投票技术，以获得初始的3D建议。我们的实验表明，它是更鲁棒的分布差异，在人体姿势，个人和相机在空间中的位置，从而导致更好的泛化行为。该粗略3D定位步骤之后是细化步骤，以经由优化方案来校正姿势并填充缺失的关节，该优化方案直接利用多视图约束，其中高置信度2D观察是可用的，并且经由参数化身体模型来正则化3D姿势。更确切地说，我们的流水线的第一部分包括对具有相同部件标签的所有2D检测对的3D坐标进行三角测量。其次是一个信任意识的多数表决技术集群的建议。该技术基于这样的认识：如果已经看到并准确地预测了关节（即，具有高置信度），则对于该关节将存在3D候选的密集簇，并且可以丢弃低置信度的此外，我们杠杆年龄的观察，某些关节，例如，髋关节，比末端执行器更可靠地检测到，并可以用作一个启发式的决定个人的数量和位置的人。虽然简单，实验（表。1）表明我们的方法在检测性能方面优于基于SOTA学习的方法[46]和基于匹配的方法[54]。我们的流水线的第二部分基于新颖的2D-3D目标（等式1）细化初始3D估计。（5））。在我们的公式中，如果对应的2D关节检测具有高置信度，则我们通过最小化2D重新投影误差来直接优化3D关节位置①①）。规范拟合程序，实现拟合过程的完整性和准确性运动学上合理的姿态，我们利用SMPL用于低置信度3D候选（等式10）。（三））。重要的是，SMPL参数直接与更新的3D观察结果（3D关节位置的当前状态）对齐。为此，我们使用学习的每参数梯度方法（Eq.（6））。这种方法与大多数现有方法[4]有根本的不同，这些方法将SMPL参数直接拟合到2D观测值。我们的实验表明，三角化的3D关节比基于PCA的SMPL骨架更准确-如果它们源于自信的2D观察（图1）。4）.初始3D姿态建议和SMPL参数两者都以交替方式优化（Alg.①的人。这是由3D姿态的良好估计有助于拟合SMPL，而更好的SMPL估计使3D姿态更鲁棒的见解所激发的。最后，详细的实验，iments进行证明，这两个组件提高了鲁棒性和准确性的姿态估计任务。综上所述，我们的主要贡献包括：• 从粗到细的置信度感知流水线，用于将来自所有相机视图的噪声2D观察结果聚集到3D空间中，并将它们关联到各个实例中。• 一种新颖的细化流水线，其以交替的方式优化3D参数模型有助于正则化低置信度3D姿态，而更新的3D姿态又引导SMPL参数估计。• 我们的方法是通用的，因为我们只利用现成的2D姿态检测器和身体姿态先验从运动捕捉数据集提取。SOTA性能在公共数据集上实现。2. 相关工作存在关于从单目[8，9，11，26，36，40，40，47]由于我们从多个视图研究了多人姿势估计的设置[1，2，10，12，23，24，28，54]，因此本文献综述的重点是多人姿势估计。多人2D位姿估计多人2D姿态估计的自然方法是首先检测人，然后独立地估计身体姿态Pishchulin等人[38]采用图像结构模型来定位人并随后估计姿势。最近的自上而下的方法也遵循类似的策略，但替代地使用基于CNN的人检测器和姿势估计模型[14，16，27，49，51]。相比之下，自下而上的方法[5，7，33，35，37，43]从本地化无身份的身体部位建议开始，并将它们关联到单个实例中。Pishchulin等人的开创性工作[37]提出了一个框架，共同11160∈标记部分候选人，并且还将它们关联到个人。最近，Cao et al.[5]通过所谓的部分亲和字段（PAF）引入了成对分数的表示。作者证明了PAF能够为部件关联提供有效的特征，可以直接应用简单的贪婪二分解析来实现最先进的结果。多人三维位姿估计当仅一个相机可用时，由于许多3D姿态可能对应于相同的2D姿态，所以问题是欠确定的。利用基于学习的方法，可以通过提升检测到的2D姿态[41，42，55]，或直接回归3D姿态[3，13，48，53]，或通过拟合参数人体模型[21，53]来恢复然而，当多个人彼此接近时，这些方法的重建精度由于深度模糊和强遮挡而受到限制。与我们最密切相关的是利用多视图图像的方法。解决这个问题的一个简单方法是找到视图之间的对应关系，或者利用高级特征（如人类实例），或者利用低级特征（如关节）。早期的工作通过利用3D图形结构模型隐式地解决了这种匹配和解析问题然而，由于3D中的大状态空间，这样的方法在计算上是昂贵的。Joo等人[23]依赖于来自密集多视图图像的局部特征来投票可能的3D关节位置，这可以被视为匹配的隐式形式Dong等人提出的方法。[10]首先执行每个视角的人物分析，接着是通过由循环一致性约束的凸优化方法的交叉视角的人物匹配。在[54]中，作者在统一的图优化框架中进行解析、匹配和跟踪，以同时处理4D信息。与这些基于匹配的方法相比，最近的工作[46]直接定位所有人并在3D体素空间中估计其对应的3D姿势。由于依赖于3D特征表示作为后续基于学习的步骤的输入，该方法在利用人、姿势和相机的不同配置的泛化方面在我们的工作中，我们提出了一个简单而有效的管道，三角联合候选人，并通过一个简单的信任感知投票计划将它们关联到个人的情况。通过学习梯度下降优化的2D-3D优化技术产生高度准确的3D姿态估计。我们表明，这种管道优于基于匹配的方法和端到端的学习方法。3. 方法图2提供了我们提出的方法的概述，其包含两个阶段：3D人体建议生成和形状感知3D姿势优化。在第一阶段中，我们通过对来自不同视图的2D人体姿态估计进行三角测量来生成3D关节候选。然后，基于置信度感知的投票技术被应用于从噪声观测中聚类联合候选人并确定人类实例。为了为每个人类实例生成姿势建议，将3D边界框放置在其臀部周围并投影回图像。身体肢体周围的图像观察在第二阶段中，引入包括多视图重新投影项E2d（X）和3D身体模型拟合项Eshape（X，Θ）的能量公式，以细化初始姿态X0。3D姿态X和SMPL参数Θ两者以交替方式联合优化对于每次迭代，梯度更新网络首先将当前3D姿态X和SMPL估计Θ作为输入以引导更新SMPL预测。然后，当前3D姿态X通过最小化多视图重新投影误差来优化，当它们源自置信的2D观察时，并且更新的SMPL预测被用于正则化低置信度或缺失的3D关节候选。经过少量的迭代，我们的方法可以生成完整和准确的三维人体姿势。3.1. 3D人体方案生成针对来自多个视图的多人姿态估计的主要挑战之一是将来自不同视图的2D姿态与一致的身份相关联。先前基于匹配的工作[54]由于其局部启发式而对不完美的2D检测敏感，并且纯粹基于学习的方法[18，46]易于过拟合。相比之下，我们提出了一种有效的方法来生成初始的3D姿态建议的基础上的置信度感知的投票技术，在全球3D空间的联合候选人，已经从对2D噪声检测三角测量。3D关节候选重建。为了重建3D关节候选者，我们首先在每个输入图像上运行现成的2D人体姿势检测器[5]以生成2D关节检测（图2）。2（a））。然后，将来自不同视图的具有相同标签的关节对三角化成3D关节候选者（图1）。2（b））。我们使用标准线性代数三角测量[15]，求解在齐次3D坐标向量y~j上定义的线性系统：Ajy~j=0，其中AjR（2C，4）是由来自投影矩阵的分量和2D姿态组成的矩阵。在我们的情况下，我们从每对2D姿势执行三角测量并将C设置为2。11161∈图2. 管道结构。第一阶段：（a）：我们应用2D人体姿态估计方法[5]来获得2D联合候选。(b)：具有相同零件标签的2D候选对被三角测量到3D空间中以产生3D关节候选。(c)：基于置信度感知的投票算法用于从部分观察中聚类联合候选。(d)：可以基于可靠的关节来检测人类实例的位置。(e)对于每个3D人体提议，我们将其投影回图像空间，并利用部分亲和场特征（PAF [5]）过滤来自密切互动的人的联合候选，并获得初始3D姿势提议。阶段II：我们通过优化2D-3D目标来细化初始3D姿势X〇。交替地优化3D姿态X和SMPL参数Θ。对于每次迭代，当对应的2D关节检测具有高置信度时，通过2D重新投影误差来优化3D关节位置X。为了获得运动学上合理的姿势，我们利用更新的SMPL估计正则化的低置信度3D关节候选。鼓励SMPL参数Θ经由学习的梯度更新网络在每次迭代中对准到更新的3D姿态。经过少量的迭代，我们的方法可以生成完整和准确的三维人体姿态和输出SMPL参数。候选人协会。下一步是将三角测量的3D关节候选项关联到各个实例中。我们对协会的看法很简单：由于我们对关节检测对进行三角测量，因此在若干视图中可见的关节产生3D候选的密集群集。基于这一观察，我们提出了一个高效和有效的基于投票的算法。对于具有零件标签i的所有3D关节候选的集合C1，我们初始化空集S1并且迭代地更新它在每次迭代中，我们首先找到在Ci中具有最高置信度的点pk。接下来，选择包含具有小于阈值P的距离的Pk周围的所有相邻3D候选的我们把sk加到Si上，并从Ci中去掉sk。我们重复上面的步骤，直到Ci成为空集。由于异常值通常源于错误关联的2D检测或一个特定视图中的错误检测，因此在它们周围将只有很少的相邻候选因此，我们消除了少于三个点的聚类为剩余的集群，我们使用它们的中心来表示其在3D中的位置。人工提案生成。经过滤的3D关节候选需要与各个实例相关联。我们的实验发现，髋关节是最可靠的部分之一，可以利用鲁棒地决定实例的数量，也每个实例的位置。因此，我们简单地使用髋关节候选人作为锚点放置具有固定大小和方向的3D绑定框。此外，我们保持锚，其相应的3D边界框包含超过90%的身体部位，其平均置信度大于经验得出的阈值。这些边界框可能仍然包含其他密切交互的人的关节。为了区分它们，我们将3D边界框投影回图像空间，并使用部分亲和场[5]来确定哪些3D关节属于其他人实例。11162（，Θ，X）∈←∈XnΣΣ--+N（，Θ）Θ（m）Σ2个DJ 我 IJ（m）n）3.2. 形状感知3D位姿优化初始姿势建议尚未遵守运动学约束，并且可能由于不完美的约束而具有丢失的关节。i各种观点。δ（wi）是指示初始3D关节i是否具有足够高的置信度的指示函数： .1，wiρ3D2D关节检测。我们通过多视图重投影证据E2d（X）和参数来细化这些初始姿态Xδ（wi）=0，否则（四）在E形状（X，Θ）之前的Ric体模型。3D姿势X和SMPL参数Θ可替代地被优化。重投影项将3D关节X与2D观察对准以用于高置信度关节检测。而失踪或最终的能量是Eq.（1）和（3）：E（X，θ，β）=w2DE2D（X）+wshapeE shape（X，θ，β）. （五）低置信度关节是通过利用上过时的SMPL估计以正则化3D姿态，从而产生完整且运动学上合理的3D姿态估计。对于SMPL参数Θ，它们被优化以经由学习的梯度更新网络与当前3D关节X对准。这种细化最终导致在少量迭代之后的完整且运动学上合理的3D姿态估计。交替过程如图所示。2，II.算法1-备选优化X0←初始3D姿势建议Θ0←{θ0，β0}←0对于n = 0，…， N − 1 doΘ（0）←Θη对于m = 0，… M − 1 doL形（Θ（m））←E形（Xn，Θ（m））目标.给定初始3D姿态提议X及其对应的∆Θ（m）←NwL形（Θ（m）（m）Θing 2D观测x ij，其中i（1. . . N）代表联合标签，j（1. . . K）表示视图索引，我们想要通过利用其中2D观察具有高置信度的多视图约束来细化3D姿态：Θ（m+1） Θ（m）+ ∆Θ（m）端Θη+1←Θ（M）L（Xn）←w2dE 2d（Xn）+wshapeEshape（Xn，Θn +1）Xn+1=Xn+λL（Xn）NK端为E2D（X）=wijδijd2D（ΠjXi，xij）（1）i=1j =1这里，E2D（X）表示到每个视图中的2D关节投影与检测到的2D关节之间的重新投影误差。 Πj是vi e wj的投影矩阵。是视图中检测到的关节i的置信度，并且δij是指示视图j中的关节i是否被丢弃的指示符函数：.1，d （ΠX，x）ρ交替优化。为了优化方程。(5)我们采用定制的梯度下降策略。我们首先将X固定到其初始值并优化θ、β。由于将SMPL参数拟合到3D观测结果是非凸且高度非线性的问题，因此这对于诸如Bogo等人的传统方法可能是缓慢且易于出错的。[4]的文件。我们从最近的2D-3D提升方法[44]中获得灵感，该方法解决了利用神经网络预测3D人体0，否则其中ρ2D是用于选择内点的阈值为了补充E2D，我们利用一个身体形状术语E形状以通过参数化体参数更新规则。我们采用类似的概念，用于拟合人体模型的3D候选人。为了加速Θ =Θ，β的拟合，我们通过学习的每参数更新来替换标准梯度下降规则：当2D检测缺失或具有低相关置信度时，模型。为此，我们使用SMPL模型[29]。它是一个可微函数，输出一个三Θ（m+1）= Θ（m）E形WΘ（m）（m），X）（6）角网格M（θ，β）取姿态参数θ∈其中Nw是由一组参数化的深度网络R23×3和形状参数β∈R10作为输入。的3D重量w，E形状是关于Θ和X可以通过取线性回归量W来获得身体关节将网格作为输入（X¯（θ，β）=W（M（θ，β）。我们共同优化预测的3D姿态X和SMPL参数θ、β：NEshape（X，θ，β）=δ（wi）d3D（Xi，X¯i（θ，β））（3）i=1其中wi是检测到的2D关节的平均置信度δij=2个D（二）11163N是合适的目标。w使用来自AMASS的姿势和形状的样本进行训练[30]。有关培训过程的更多详情，请参阅[44]和补充资料。一旦Θ被优化，我们保持它固定并且经由标准梯度下降来优化X。我们以交替的方式优化X、Θ直到收敛。整个例程在Alg中详细描述为伪代码。1，其中n是用于总体优化例程的迭代索引，而m是用于身体适配过程的迭代索引。111644. 实验4.1. 测试数据集我们在两个标准数据集上进行实验，用于多视图多人3D人体姿态估计，其中包括具有挑战性的场景，包括具有严重遮挡的个体之间的交互。搁板[1]包含来自5个摄像机的3200帧。在评估设置和评估指标方面，我们遵循先前的工作[1，46，54]，并在单独的测试集上进行测试，并报告正确估计的部分（PCP@0.5）的百分比以衡量性能。关联数据集[54]是这项任务中最具挑战性的公共数据集它包含3个序列，从6个摄像机观察到2- 4个密切互动的人。接下来[54]，我们使用所有序列进行测试，并报告精度，召回率和F1分数作为评估指标。如果关节到地面实况注释的欧氏距离小于0.2m，则该4.2. 训练数据比较对于训练，我们的方法仅使用AMASS，这是一组具有不同姿势的3D人体[30]。为了清楚起见，我们要强调的是，我们的主要目标是提高新的、完全看不见的人和姿势的鲁棒性和有效请注意，基于学习的方法[18，46]通常需要通过多人多视图数据的注释对进行直接3D监督。4.3. 消融研究为了验证我们的方法的有效性，我们进行了详细的分析，对初始的3D姿势的建议和形状感知的姿势细化。所有实验都是在Association数据集上进行的。与基于学习的方法[46]相比，我们将其模型部署在CMUPanoptic数据集[22]上，这是该任务的最大训练数据集。4.3.13D人体建议生成为了评估我们的人类提案生成技术的有效性根据[54]的度量，如果一个人的髋关节的误差小于0.2m，则该人的提议有效如Tab.所示。1，与[46，54]相比，我们的方法实现了显着更好的性能。基于学习的方法[46]面临着对看不见的人类姿势和运动的泛化问题。自底向上方法[54]具有低召回率，因为贪婪算法对噪声2D联合检测敏感。有关提案生成的更多消融研究，请参见补充资料。方法[第46话]精密度（%）68.8召回率（%）77.3F1评分（%）72.8Zhang等人[五十四]99.651.267.6我们98.894.296.4表1. 在Asociation数据集上评估人类提案生成。如果人类髋关节的误差小于0.2m，则该人类提议有效。我们实现了更好的性能相比，其他SOTA的，特别是召回。4.3.2形状感知位姿优化在本节中，我们验证形状感知优化的有效性。如Tab中的最后两行所示。在图4中，通过利用多视图约束和利用参数化身体模型的正则化，可以在所有度量下这种改善有两个主要原因首先，SMPL的全身约束可以填充缺失的关节并校正不合理的姿势（参见图1A中的橙色和紫色圆圈）。（3）第三章。此外，加权的重新投影误差有助于细化联合预测，如图2中的蓝色圆圈所示。3. 人体约束。请注意，SMPL模型用作全身约束，以帮助填充缺失的关节，并校正非运动学姿势。我们进行实验以将SMPL模型拟合到初始3D方案，并在图中绘制拟合之前和之后的关节的MPJPE。4.对于具有相关联的低平均置信度的关节，经由参数化身体模型正则化3D姿势可以提高性能。对于置信度较高（置信度>0.25）的关节，全身约束的影响不明显。这是由[5]和[29]之间的骨架配置的轻微差异引起的，这会导致一些系统误差。因此，我们仅使用多视图约束来优化高置信度接头，如方法部分中所述。与仅限SPL的比较。我们将我们的方法与仅优化SMPL参数的方法进行比较，以将联合重新投影与2D观察结果对齐[4，19]。为了公平比较，我们应用SM-PLify的多视图变体关联数据集上的比较汇总在Tab中。二、我们的方法优于的SPL只有一个显着的利润率基线。这部分是由于[5]和[29]之间的骨架配置差异引起的固有近似误差，部分是由于拟合误差。该实验证据是我们的3D姿态拟合公式的设计的重要动机。此外，利用学习的梯度下降进行优化，在运行时间（20倍加速，0.1svs 2s），收敛速度（14 vs 100 iters）和精度（90.1% vs78.3%）方面都显着提高了性能4.4. 定量结果我们比较了我们的方法与SOTA方法定量上的货架和协会数据集。比较-11165图3. 我们的初始姿势和优化后的最终姿势之间的比较。（a）橙色圆圈是为缺失的关节设置的（注意，我们将缺失的关节设置为原点）（b）蓝色圆圈是为不正确的关节预测设置的;（c）紫色圆圈被设置用于异常人类姿势。在形状感知优化之后，我们的方法生成更完整和准确的3D人体姿势。方法AnnoA1A2A3Avg[第46话]是的99.394.197.697.0Huang等人[18个国家]是的98.896.297.297.3Belagiannis等人[1]第一章没有66.165.083.271.4Belagiannis等人[二]《中国日报》没有75.369.787.677.5Ershadi-Nasab等人[12个]没有93.375.994.888.0*Zhang等人[五十四]没有96.586.897.093.4Dong等人[10个国家]没有98.693.797.896.7（96.9）我们的（最终）没有99.193.598.196.9表3. 货架数据集评价。使用正确部件百分比（PCP）指标对货架数据集进行定量比较。'*'表示该方法从其原始设置中丢弃时间信息。'A1'-'A3'分别对应于三个参与者的结果。平均结果在“平均值”列中。列图4. MPJPE（m）与我们的初始亲之间positions（init）和用SMPL正则化之后的预测姿势（smpl之后）。水平轴表示来自初始提议的3D关节的关联置信度。当置信度低于0.25时，我们的算法在通过参数化身体模型正则化3D姿势后获得更好的性能方法精度（%）召回率（%）F1评分（%）多视图SMPLify [4]78.3 77.4 77.8我们90.1 89.0 89.2表2. 我们的方法和传统方法之间的比较[4]我们的方法在精度和召回率方面都优于仅限SMPL的基线。选项卡中显示了工具架上的ison。3.与不依赖于3D监督的方法[1，2，10，12，54]相比，我们取得了稍好的结果，并且与基于学习的方法[18，46]相比，我们取得了相当的性能，这些方法基于该数据集训练模型。由于测试帧与训练集相比缺乏姿势变化，因此该数据集被认为比关联数据集挑战性更小，关联数据集也具有更严格的评估度量。关联数据集上的定量结果显示在选项卡中。4.由于这是一个纯测试集，对于基于SOTA学习的方法[46]，我们直接部署他们的训练方法精密度（%）召回率（%）F1评分（%）[第46话]*Zhang等人[五十四]55.197.166.548.860.365.0[46]第四十六话68.879.273.6Dong等人[10个国家]71.080.275.3我们的（init）83.782.883.4我们的（最终）90.189.089.2表4. 对关联数据集的评价。'*'表示该方法从其原始设置中丢弃时间信息。’†’ means the method uses 3D bounding box ground测试模型因此，我们的方法在很大程度上优于这种基于学习的方法，即使它们使用地面真实3D边界框。这表明基于学习的方法容易过拟合训练分布。我们还将我们的算法与基于匹配的方法进行了比较[10，54]。请注意，为了与[54]进行公平比较，我们将其与仅依赖于图像的静态版本进行比较，而它最初是一种利用视频信息的跟踪方法。我们可以看到，这些基于自下而上的方法具有相对低的召回率，这是由于它们利用对丢失的2D联合检测敏感的贪婪算法来解决全局优化的事实11166图5. 与VoxelPose [46]和Zhang等人的定性比较。[54]在协会数据集上。不同的颜色代表不同类型的错误：红色矩形代表额外的演员;蓝色圆圈代表不正确的关节位置;紫色圆圈代表异常的人类姿势。每一行是独立的样本，并且结果是来自3D预测的投影的2D姿态。与其他方法相比，我们的方法更准确，特别是在具有强烈遮挡或高度铰接姿势的具有挑战性的场景中。图6. 我们的方法在（a）关联数据集（6个视图）和（b）货架（5个视图）上的结果。预测的3D骨架和SMPL网格模型的2D重投影以两个不同的视图（左和中）示出;所有演员的骨架和SMPL模型在3D中显示在右列中。更多的结果可以在补充资料中找到。4.5. 定性比较我们在图中显示了定性比较五、通常，我们的方法与其他方法相比更准确和鲁棒，特别是在具有强遮挡的挑战性场景中或当呈现高度铰接的姿势时。具体地，其他方法倾向于生成额外的演员（红色矩形）、异常（紫色圆圈）或不正确（蓝色圆圈）的人类姿势。原因是基于学习的方法[46]难以推广到看不见的姿势和运动。对于[54]的基于图像的版本，在没有时间信息的情况下，求解3D关联图对噪声2D联合检测敏感。在图6中，我们展示了我们的方法在关联和货架数据集上的更多结果。第一行是预测的3D姿态及其在两个视图上的第二行示出了3D空间中的预测SMPL模型以及它们在2D图像中的投影5. 结论在本文中，我们提出了一个有效的粗到细的管道来估计3D多人构成的多视图图像。为了避免必须解决与本地证据的关联问题，我们聚集初始3D构成propos- als在3D特征空间，并将它们关联到单独的实例。该粗略3D定位步骤之后是精细化步骤，该精细化步骤经由优化例程来校正姿态并填充缺失的关节，该优化例程直接利用多视图约束，其中高置信度2D观察是可用的，并且经由参数身体模型来正则化3D姿态。我们系统地评估我们的方法在公共数据集和SOTA性能。鸣谢：Xu Chen得到了Max Planck ETH Center for LearningSystems的支持。11167引用[1] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic. 用于多个人体姿势估计的 3D 图像结构。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1669-1676页[2] VasileiosBelagiannis ， SikandarAmin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and Slobodan Ilic. 3D图像结构再访：多人姿态估计。 IEEE Transactions onPattern Analysis and Machine Intelligence，38（10）：1929[3] Abdallah 苯， Florian 夏博特伯特兰·卢维森范国强和凯瑟琳·阿沙尔Pandanet：基于锚点的单镜头多人3D姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第6856-6865页[4] Federica Bogo，Angjoo Kanazawa，Christoph Lassner，PeterGehler ， Javier Romero ， and Michael J Black. 保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。[5] 曹哲：吉恩斯·伊达尔戈托马斯·西蒙魏世恩还有亚瑟·谢赫使用部分亲和场的实时多人2d姿态估计。arXiv预印本arXiv：1812.08008，2018。[6] He Chen，Pengfei Guo，Pengfei Li，Gim Hee Lee，and格里高利·奇里克吉安基于多视角几何的拥挤场景中多人三维位姿估计。arXiv预印本arXiv：2007.10986，2020。[7] 程博文，肖斌，王敬东，石红辉，Thomas S Huang，and Lei Zhang.上级网络：自底向上人体姿势估计的尺度感知表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第5386-5395页，2020年。[8] Stef ano Corazza ， LarsMündermann ， Emilia no Gambaretto，Giancarlo Ferrigno和Thomas P Andriacchi。通过视觉外壳、铰接式ICP和主题特定模型生成实现无标记运动捕捉。 International Journal of Computer Vision，87（ 1-2）：156，2010.[9] 埃迪尔森De阿吉亚尔Carsten斯托尔克里斯蒂安·西奥伯特Naveed Ahmed，Hans-Peter Seidel和Sebastian Thrun。从稀疏多视图视频中捕获性能。ACM SIGGRAPH 2008论文，第1-10页。2008年[10] 董俊庭，姜文，黄启星，保虎军，和周晓薇从多个视图快速和鲁棒的多人3d姿态在IEEE计算机视觉和模式识别会议论文集，第7792-7801页[11] Ahmed Elhayek ， Edilson de Aguiar ， Arjun Jain ，JonathanTompson，Leonid Pishchulin，Micha Andriluka，ChrisBregler ， Bernt Schiele ， and Christian Theobalt. 基于convnet的高效无标记运动捕捉，适用于一般场景，摄像机数量较少。IEEE计算机视觉和模式识别会议论文集，第3810-3818页，2015年[12] Sara Ershadi-Nasab、Erfan Noury、Shohreh Kasaei和Es-maeil Sanaei。多人3D姿态估计多视图图像。 Multimedia Tools and Applications ， 77（12）：15573[13] Matteo Fabbri，Fabio Lanzi，Simone Calderara，StefanoAl-莱托和丽塔·库奇亚拉用于多人3d姿态估计的压缩体积热图。 In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第7204-7213页，2020年。[14] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017.[15] Richard Hartley和Andrew Zisserman。多视图ge-计算机视觉中的几何学剑桥大学出版社，2003年。[16] Kaim ing He，Geor gia Gkioxari，Piotr Dolla'r，and RossGir-真恶心。面具R-CNN。IEEE国际计算机视觉会议（ICCV），2017。[17] Yihui He，Rui Yan，Katerina Fragkiadaki，and Shoou-I Yu.用于多视图人体姿态估计的核线 Transformer 。在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第1036- 1037页[18] Congzhentao Huang ， Shuai Jiang ， Yang Li ， ZiyueZhang，Jason Traish，Chen Deng，Sam Ferguson，and RichardYi Da Xu.端到端动态匹配网络用于多视点多人三维位姿估计。[19] Yinghao Huang ， Federica Bogo ， Christoph Lassner ，AngjooKanazawa ， Peter V Gehler ， Javier Romero ， IjazAkhter，and Michael J Black.随着时间的推移，朝向准确的无标记人体形状和姿势估计在2017年3D视觉国际研讨会（3DV）中，第421-430页IEEE，2017年。[20] Karim Iskakov、Egor Burkov、Victor Lempitsky和YuryMalkov人体姿势的可学习三角测量。在IEEE计算机视觉国际会议的论文集，第7718-7727页[21] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，XiaoweiZhou和Kostas Daniilidis.从单个图像相干重建多个人。在IEEE/CVF计算机视觉和模式识别会议论文集，第5579-5588页[22] Hanbyul Joo，Hao Liu，Lei Tan，Lin Gui，Bart Nabbe，Iain Matthews、Takeo Kanade、Shohei Nobuhara和YaserSheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在Proceedings of the IEEE InternationalConference on Computer Vision，第3334[23] Hanbyul Joo，Tomas Simon，Xulong Li，Hao Liu，LeiTan，LinGui ， Sean Banerjee ， Timothy Godisart ， BartNabbe，Iain Matthews，et al. Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。IEEE Transactionson Pattern Analysis and Machine Intelligence，41（1）：190-204，2017。[24] Hanbyul Joo Tomas Simon和Yaser Sheikh总上限-真实：用于跟踪面部、手部和身体的3D变形模型。在IEEE计算机视觉和模式识别会议论文集，第8320-8329页[25] Angjoo Kanazawa、Michael J Black、David W Jacobs和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页11168[26] 罗兰·凯尔和吕克·范古尔。从多个视图对复杂人体运动进行无标记跟踪计算机视觉与图像理解，104（2-3）：190[27] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu方、策武路。Crowdpose：高效的拥挤场景姿态估计和新的基准。在IEEE计算机视觉和模式识别会议论文集，第10863-10872页[28] 刘业斌，于尔根·加尔，卡斯滕·斯托尔，戴琼海，汉斯-彼得·赛德尔和克里斯蒂安·西奥伯特。使用多视图

下载后可阅读完整内容，剩余1页未读，立即下载