基于多视点的快速鲁棒多人三维位姿估计

8 浏览量更新于2023-10-18 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17792基于多视点的快速鲁棒多人三维位姿估计董俊婷1姜文1黄启星2鲍虎军1周晓伟1†1浙江大学2德克萨斯大学奥斯汀摘要摄像机1摄像机2摄像机3本文讨论了在几个校准的摄像机视图中多人的三维姿态估计问题这个问题的主要挑战是找到噪声和不完整的2D姿态预测之间的跨视图对应大多数先前的方法通过使用图像结构模型在3D中直接推理来解决这一挑战，由于巨大的状态空间，这是低效的。我们提出了一个快速和强大的方法来解决这个问题。我们的核心思想是使用多路匹配算法聚类检测到的2D姿态在所有视图。每个得到的聚类对同一个人跨不同视图的2D姿态和跨关键点的一致对应进行编码，从中可以有效地推断出每个人的3D姿态提出的基于凸优化的多路匹配算法在不知道场景中的人数的情况下，具有较好的鲁棒性和有效性。此外，我们建议将地理-相机4照相机53D姿态用于交叉视图匹配的度量和外观线索。所提出的方法实现了显着的性能增益，从国家的最先进的（96。3%vs. 90. 6%，96。9%vs.校园和货架数据集上分别为88%），而对于实时应用是有效的1. 介绍从视频中恢复三维人体姿态和运动是计算机视觉领域的一个长期问题，它在人机交互、视频监控、体育广播等领域有着广泛的应用。特别地，本文重点关注场景中有多个人的设置，并且观察来自几个校准的相机（图1）。虽然在人体的多视图再现方面已经取得了显著的进步，但是解决多人在拥挤场景中彼此交互的更具挑战性的环境的工作较少，其中存在显著的遮挡。作者来自浙江大学，隶属于CAD CG国家重点实验室和ZJU-SenseTime 3D视觉联合实验室。†通讯作者。图1：这项工作提出了一种新的方法，从几个相机视图中恢复多个人的3D姿势。主要的挑战是在多个视图之间建立2D观测的一致对应图像中的2D人体关键点，可能存在噪声且不完整。现有的方法通常分两个阶段解决这个问题。第一阶段在单独的2D视图中检测人体关键点或部位，这些关键点或部位在第二阶段中被聚合以重建3D姿态。鉴于基于深度学习的2D关键点检测技术已经取得了卓越的性能[8，30]，剩下的挑战是找到检测到的关键点之间的跨视图对应关系以及它们属于哪个人。大多数先前的方法[1，2，21，12]采用3D图像结构（3DPS）模型，该模型通过推理与2D检测几何兼容的3D中的所有假设来隐式地解决对应问题。然而，这种基于3DPS的方法由于巨大的状态空间而在计算上是此外，它不是鲁棒的，特别是当摄像机的数量很少时，因为它仅使用多视图几何来链接2D检测17793或者换句话说，忽略外观线索。在本文中，我们提出了一种新的方法，多人的三维姿态估计。所提出的方法通过在多个视图之间匹配检测到的2D姿态，产生2D姿态的聚类，其中每个聚类包括同一个人在不同视图中的2D姿态，来然后，可以从匹配的2D姿势中单独推断每个人的3D姿势，由于减少了状态空间，这比多个姿势的联合推断快得多。然而，跨多个视图匹配2D姿势是具有挑战性的。一种典型的方法是使用极线约束来验证两个2D姿态是否是每对视图的相同3D姿态的投影[23]。但这种方法可能会失败，原因如下。首先，由于严重的遮挡和截断，检测到的2D姿态通常是不准确的，如图2（b）所示，这使得几何验证困难。第二，单独匹配每对视图可能产生不一致的对应关系，这违反了循环一致性约束，即，两个视图中的两个对应姿势可能匹配到另一视图中的不同人。这种不一致性导致不正确的多视图重建。最后，如图2所示，不同的人的集合出现在不同的视图中，并且人的总数是未知的，这给匹配问题带来了额外的困难。我们提出了一种多路匹配算法来解决上述挑战。我们的主要理念是：（i）将2D姿态之间的几何一致性与其相关联的图像块之间的外观相似性相结合，以减少匹配模糊性，以及（ii）同时用循环一致性约束来解决所有视图的匹配问题，以利用多路信息并产生全局一致的对应关系。将匹配问题转化为一个凸优化问题，并提出了一种求解诱导优化问题的有效算法总之，这项工作的主要贡献是：• 提出了一种快速、鲁棒的多人三维姿态估计方法我们证明，而不是联合推断多个3D姿态使用一个3DPS模型在一个巨大的状态空间，我们可以大大减少状态空间，从而提高效率和鲁棒性的3D姿态估计通过分组检测到的2D姿态属于同一个人在所有视图。• 我们提出了一种多路匹配算法，以找到检测到的2D姿态在多个视图的周期一致的对应关系所提出的匹配算法能够修剪错误检测，并处理视图之间的部分重叠，而不知道场景中的真实人数• 我们建议结合几何和外观线索，以匹配检测到的2D构成跨视图。我们表明，外观信息，这是大多被忽略了以前的方法，是重要的连接跨视图的2D检测。• 所提出的方法优于国家的最先进的方法，由一个大的利润，而不使用任何训练数据从评估的数据集。该代码可在https://zju3dv.github.io/mvpose/ 上获得。2. 相关工作多视图3D人体姿势：无标记运动捕捉在计算机视觉中已经研究了十年。关于该问题的早期工作旨在通过多视图序列跟踪人体的3D骨架或几何模型[38，43，11]。这些基于跟踪的方法需要在第一帧中进行初始化，并且容易出现局部优化和跟踪故障。因此，最近的工作通常基于自下而上的方案，其中根据从图像中检测到的2D特征重建3D姿态[36，6，32]。最近的工作[22]通过将统计身体模型与基于深度学习的2D检测器相结合，显示了显着的结果。在这项工作中，我们专注于多人的三维姿态估计。大多数以前的工作是基于3DPS模型，其中节点表示身体关节的3D位置，边缘编码它们之间的成对关系[1，20，2，21，12]。每个关节的状态空间通常是表示离散化3D空间的3D网格。关节位于某个位置的可能性由应用于所有2D视图的关节检测器给出，关节之间的成对电位由骨骼约束[1，2]或2D视图中检测到的身体部位[21，12]给出。然后，通过最大后验估计联合推断多个人的3D姿态。由于同时考虑了所有人的所有身体关节，整个状态空间是巨大的，导致推理的计算量很大。这种方法的另一个局限性是它只使用多视图几何来链接2D证据，这对相机的设置很敏感。因此，当视图数量减少时，该方法的性能显著降低[21]。最近的工作[23]提出匹配视图之间的2D姿态，然后从属于同一个人的2D姿态重建3D姿态。但该方法只利用对极几何来匹配每对视图的2D姿态，忽略了多个视图之间的周期一致性约束，这可能导致不一致的对应关系。单视图姿态估计：有大量的文献对人体姿势估计从单一的图像。17794交叉视图匹配CNN3DPS亲和基质置换矩阵（a）输入图像（b）检测到的2D姿态（c）一致的对应关系（d）3D姿态图2：拟议方法概述。给定来自几个校准相机的图像（a），使用现成的人类姿势检测器来产生每个视图中的2D边界框和相关联的2D姿势，这可能是不准确和不完整的（b）。然后，检测到的包围盒聚类的一种新的多视图匹配算法。每个得到的聚类包括同一个人在不同视图中的边界框（c）。在其他视图中没有匹配的孤立边界框被视为错误检测并被丢弃。最后，从对应的边界框和相关联的2D姿态重建每个人的3D姿态（d）。单人姿势估计[41，34，42，30，17]在裁剪图像中局部化人的2D身体关键点。存在两类多人姿态估计方法：自上而下的方法[10，17，15，13]首先检测图像中的人，然后对每个人的裁剪图像应用单人姿势估计，以及自下而上的方法[25，29，8，35，18]，首先检测所有关键点，然后将它们分组到不同的人中。一般来说，自上而下的方法更准确，而自下而上的方法相对更快。在这项工作中，我们采用级联金字塔网络[10]，这是一种用于多人姿态检测的最先进的方法，作为我们管道中的初始步骤。基于学习的方法的进步也使得从单个RGB图像恢复3D人体姿势成为可能，或者将检测到的2D姿势提升到3D [28，47，9，27]，或者直接从RGB回归3D姿势[40，37，39，45，31]甚至3D身体形状[4，24，33]。但这些方法在单视图情况下，由于存在固有的重建模糊性，其重建精度无法与多视图情况下的重建结果相比。人员重新识别和多图像匹配：Person re-ID旨在识别不同图像中的同一个人[44]，这是我们方法中的一个组成部分。多图像匹配是在一组图像中找到特征对应关系[16，46]。我们利用最近关于圈一致性的结果[16]来解决对应问题。LEM在多视点姿态估计中的应用。3. 技术途径图2展示了我们的方法的概述。首先，采用现成的2D人体姿态检测器来产生每个视图中的人的边界框和2D关键点位置（第3.1节）。给定有噪声的2D检测，提出了一种多路匹配算法来建立检测到的边界框在视图上的对应性，并消除错误检测（第3.2节）。最后，3DPS模型用于从对应的2D边界框和关键点重建每个人的3D姿势（第3.3节）。3.1. 二维人体姿态检测我们采用最近提出的级联金字塔网络 [10] 在MSCOCO [26]数据集上训练，用于图像中的2D级联金字塔网络由两个阶段组成：GlobalNet粗略地估计人体姿势，而RefineNet给出最佳人体姿势。尽管其在基准测试上具有最先进的性能，但如图2（b）所示，检测可能非常嘈杂。3.2. 多视图对应在重建3D姿态之前，检测到的2D姿态应该在视图之间匹配，即，我们需要在所有视图中找到属于同一视图的2D边界框，17795Σ我人. 然而，正如我们在引言中所讨论的那样，这是一项具有挑战性的任务为了解决这个问题，我们需要1）一个合适的度量来衡量两个2D边界框属于同一个人的可能性（也就是说，亲和性），以及2）用于建立跨多个视图的边界框的对应性的匹配算法。特别是，匹配算法不应该对场景中的真实人数进行任何假设。此外，匹配算法的输出应该是周期一致的，即，两个图像中的任何两个对应的边界框应该对应于另一图像中的相同边界框。问题陈述：在详细介绍我们的方法之前，我们首先简要描述一些符号。假设在场景中有V个摄像机，并且在视图i中检测到p i个绑定框。对于一对视图（i，j），可以在视图i和视图j中的两组边界框之间计算亲和度分数。我们用Aij∈Rpi×pj来定义亲和矩阵，其元素表示亲和得分. 两组边界框之间要估计的对应关系由部分置换矩阵Pi j∈ {0，1}pi×pj表示，其满足双随机约束：图3：循环一致性的说明。绿线表示一组一致对应，红线表示一组不一致对应。然后，来自两个视图的xi和xj之间的几何一致性可以通过以下距离来测量ND（x，x）=1d（xn，L（xn））+d（xn，L（xn）），0 ≤P 1≤ 1，0 ≤ P T1 ≤ 1。（一）Gij2Ngin=1国际新闻报gjjiiijij问题是取{A ij| i，j}作为输入和输出其中xn表示姿态的第n个i，Lij（xn）与xn相关的核线，J J最优{P ij| i，j}，其最大化对应的亲和力，并且在多个视图中也是周期一致的亲和矩阵：我们建议结合外观相似性和几何兼容性来计算边界框之间的亲和力分数。首先，我们通过预先培训的人员重新识别（重新识别），另一个视图，dg（·，l）是l的点到线的距离。距离Dg也使用以下公式映射到（0，1）中的值：sigmoid函数作为最终的几何相似度分数。基于一对正确检测和匹配的2D姿态必须满足几何约束（Dg很小）的事实，我们如下组合两个亲和矩阵。Aa（·）×Ag（·），若Dg≤th，ID）网络以获得边界框的描述符在大量re-ID数据集上训练的re-ID网络有望能够提取有区别的外观特征。Aij（·）=ij ij0，否则，（二）对于照明和视野相对不变的结构-其中Aij（·）、Aa（·）和Ag（·）∈[0，1]表示值ij ij点变化。具体来说，我们通过[44]中提出的公开可用的re-ID模型提供每个边界框的裁剪图像，并从“pool 5”层提取特征向量作为每个边界框的描述符。然后，我们计算边界框对的描述符之间的欧几里德距离，并使用S形函数将距离映射到（0，1）中的值作为该边界框对的外观亲和度得分。除了外观之外，关联两个边界框的另一个重要提示是它们关联的2D姿势应该在几何上一致。具体地，对应的2D关节位置应当满足核线约束，即，第一视图中的关节应当位于与其在第二视图中的对应相关联的核线上。Sup- posex∈RN×2表示由N个关节组成的2D姿态。融合的亲和基质、外观亲和基质，和视图对（i，j）的几何相似性矩阵。th表示阈值。实验结果表明，这种外观和几何形状的简单组合优于仅使用其中之一。具有周期一致性的多路匹配：如果只有两个视图要匹配，则可以简单地最大化求出Pij，Aij，并通过匈牙利算法找到最佳匹配。但当存在多个视图时，分别为每对视图求解匹配问题忽略了循环一致性约束，可能导致不一致的结果。图3显示了一个示例，其中红色的对应关系不一致，绿色的对应关系是周期一致的，因为它们形成了一个闭合的周期。17796纪V利用文献[16]的结果解决了这一问题。最后，我们解决以下优化问题：莱姆假设所有m=i=1pi在所有视图中检测到的边界框由P∈{0，1}m×m：min− λA，P+λP，P（九）P11P12···P1nS.T. P∈ C，P21P22···P2n其中C表示满足con-i的矩阵的集合，P=0。.. ..（3）.约束（1）、（6）、（7）和（8）。Pn1···············Pnn其中Pii应该是恒等式。然后，可以证明满足循环一致性约束当且仅当秩（P）≤s，P≥0，（4）注意，（9）中的问题是凸的，我们使用交替方向乘法器（ADMM）[5]来解决它。首先通过引入辅助变量Q将问题重写如下：min−A，P +λ<$Q，其中s是场景中的潜在人数。直觉是，如果对应是循环一致的，则P可以被分解为Y YT，其中Y∈P、QS.T. P=Q，P∈ C.那么，（10）的增广拉格朗日量是：（十）Rm×s表示所有二维边界之间的对应关系Lρ（P，Q，Y）=−A，P<$+λ<$Q<$$>+λ<$Y，P−Q<$盒子和3D人物。ρ2由于s事先未知，我们建议最小化下面的目标函数来估计低秩半正定矩阵P：+2P−QF，（十一）Σn Σnf（P）=− <$Aij，Pij<$+λ·rank（P），i=1j =1=− λA，P+λ·rank（P），（五）其中，Y表示对偶变量，ρ表示惩罚参数.每个原始变量和对偶变量交替更新，直到收敛。整体算法如算法1所示，其中D表示用于奇异值阈值化的算子[7]，PC（·）表示到C的正交投影。其中A是所有Aij的串联，类似于中的形式λ表示低秩约束的权重。以这种方式阐述问题的好处是双重的。首先，循环一致性约束聚合的多路信息，以提高匹配和修剪的错误检测，这是很难实现的，如果只考虑两个视图。第二，最低等级-算法1：一致多路匹配输入：亲和矩阵A输出：一致对应P1随机初始化P且Y=0;2 而不收敛3Q← Dλ（1Y+P）;ρρ任务将自动恢复一个等级（场景中的人数），可以最好地解释观察结果。最佳化：为了使优化易于处理，我们必须进行适当的放松。而不是最小化秩，这是一个离散算子，我们最小化核范数，这是秩的最紧凸代理[14]。我们将P上的整数约束替换为P是一个值在[0，1]中的实矩阵：0≤P≤1，（6）这是匹配算法中的常见做法。我们去掉了半定约束，只要求P是对称的：Pij=PT，1≤i，j≤n，ii=j，（7）P ii= I pi， 1≤i ≤ n。（八）17797ρ4P← PC（Q−1（Y−A））;5Y←Yk+ρ（P-Q）;6端部7 具有等于0.5的阈值的PARP输出P为我们提供了所有视图中边界框的周期一致性对应。图2示出了示例。在其他视图中没有匹配的边界框被视为错误检测并被丢弃。3.3. 三维位姿重建给定同一个人在不同视图中的估计的2D姿态，我们重建3D姿态。这可以简单地通过三角测量来完成，但是2D姿态估计中的粗差可能在很大程度上使重建降级。为了充分整合2D姿态估计中的不确定性并整合人体骨架的结构先验，我们17798利用3DPS模型，提出了一种有效推理的近似算法。3D图像结构：我们使用3D姿态的基于关节的表示，即，T={t i|i=1，…N}，其中ti∈ R3表示关节i的位置。给定来自多个视图的2D图像，I ={I v|v =1，…V}，3D姿态的后验分布可以写为：正确估计部位的百分比（PCP），用于测量身体部位3D位置的准确性。Shelf[1]：与Campus相比，这个数据集更复杂，由四个人近距离拆卸一个架子组成。他们周围有五个校准过的摄像机，但每个视图都受到严重的遮挡。评估协议遵循先前的工作，并且评估度量也是3D PCP。CMU Panoptic[20]：该数据集在工作室YVp（T|I）∝ YNp（I v|π v（t i））Yp（ti，tj），（12）有数百个摄像头，其中包含多个参与社交活动的人。由于缺乏基本事实，v=1i =1（i，j）∈ε我们对CMU Panop的方法进行了定性评估其中，π v（ti）表示ti在第v个视图中的2D投影，并且似然性p（I v|π v（t i））由基于CNN的2D姿态检测器[10]输出的2D热图给出，其表征每个关节的2D空间分布。先验项p（ti，tj）表示关节ti和tj之间的结构依赖性，其隐含地约束它们之间的骨长度。在这里，我们使用高斯分布来建模骨骼长度的先验p（t i，t j）<$N（<$t i− t j<$|L ij，σij），（13）其中，ti−tj表示关节ti和tj之间的欧几里得距离，Lij和σij分别表示从Human3.6M数据集[19]学习的平均值和标准推理：最大化p（T）的典型策略|I）首先将状态空间离散化为均匀的3D网格，并应用最大乘积算法[6，32]。然而，最大积算法的复杂度随着状态空间维数的增加而快速增长。我们不使用网格采样，而是将每个3D关节的状态空间只要在两个视图中正确检测到接头，其真实3D位置就包括在建议中。通过这种方式，状态空间大大减少，从而在不牺牲精度的情况下实现更快的推理4. 实证评价我们评估所提出的方法在三个公共数据集，包括室内和室外场景和com-martisit与以前的作品，以及所提出的方法的几个变种4.1. 数据集以下三个数据集用于评价：Campus [1]：这是一个由三个人在户外环境中相互作用组成的数据集，由三个校准的相机捕获。我们遵循与以前的作品[1，3，2，12]相同的评估协议，并使用tic数据集。4.2. 消融分析我们首先给出一个消融分析，以证明在所提出的方法的算法设计。Campus和Shelf数据集用于评估。外观还是几何形状？如第3.2节所述，我们的方法结合了外观和几何信息来构建亲和矩阵。在这里，我们将其与仅使用外观或几何形状的替代方案进行比较。详细结果见表1。在校园里，由于演员之间的外表差异很大，所以只使用外表来达到竞争的结果由于摄像机与人体距离较远，仅使用几何约束的效果较差，从而降低了极线约束的识别能力。在货架上，单用外观的表现下降了不少。特别是，演员2的结果是错误的，因为他的外表与另一个人相似。在这种情况下，外观和几何形状的结合大大提高了性能。直接三角测量还是3DPS？给定所有视图中匹配的2D姿态，我们使用3DPS模型来推断最终的3D姿态，该模型能够集成人体骨骼的结构先验。一种简单的替代方案是通过三角测量重建3D姿态，即，找到在所有视图中具有最小重投影误差的3D姿态。该基线方法（“NO3DPS”）的结果结果表明，当场景中摄像机数量相对较少时，例如在Campus数据集中（三个摄像机），使用3DPS可以大大提高性能。当一个人在许多视图中经常被遮挡时，例如，Shelf数据集中的演员2，3DPS模型也会有所帮助。匹配还是不匹配？我们的方法首先匹配2D构成跨视图，然后将3DPS模型应用于匹配的2D构成的每个集群。另一种方法17799校园演员1演员2演员3平均我们97.693.398.096.3外观97.693.396.595.8几何97.490.189.492.3无3DPS90.689.297.792.5没有匹配84.889.071.581.8演员1演员2演员3平均我们98.894.197.896.9外观98.660.594.384.5几何97.279.596.591.1无3DPS97.989.597.895.1没有匹配98.191.192.894.0表1：Campus和Shelf数据集的消融研究。外观和几何形状表示不同类型的亲和矩阵，即，仅使用外观和仅使用几何学。‘No 3DPS’ uses triangulation instead of the3DPS 我们用最先进的2D姿态检测器重新实现这种方法。数字是正确估计部件（PCP）的百分比。在大多数以前的作品[2，21]中，直接应用3DPS模型来从所有检测到的2D姿态推断多个3D姿态，而在这里，我们对它们进行比较。Belagianniset al. [2]没有使用最新的基于CNN的关键点检测器，Joo等人。[21]没有报告公共基准测试的结果，我们使用最先进的2D姿态检测器[8]重新实现了他们的方法，以进行公平的比较。实施细节见补充材料。表1显示，没有匹配的3DPS在Self数据集上获得了不错的结果，但在Campus数据集上的表现要差得多，其中只有三个主要原因是3DPS模型隐式地使用多视图几何来链接视图之间的2D检测，但忽略了外观线索。当使用相机视图的稀疏集合时，单独的多视图几何一致性有时不足以区分正确和错误的对应关系，这导致错误的3D姿态估计。该观察结果与表1中的其他结果以及[21]中的所提出的方法显式地利用外观线索来找到跨视图对应，从而得到更鲁棒的结果。此外，匹配步骤显着减少了状态空间的大小，并使3DPS模型推理更快。4.3. 与最新技术水平的比较我们与以下基线方法进行比较Bela- Giannis等人。[1，3]是最早引入3DPS校园演员1演员2演员3平均Belagiannis等人[1]第一章82.072.473.775.8Belagiannis等人[3]第一章83.073.078.078.0Belagiannis等人[二]《中国日报》93.575.784.484.5Ershadi-Nasab等人[12个]94.292.984.690.6Ours w/o 3DPS90.689.297.792.5我们97.693.398.096.3演员1演员2演员3平均Belagiannis等人[1]第一章66.165.083.271.4Belagiannis等人[3]第一章75.067.086.076.0Belagiannis等人[二]《中国日报》75.369.787.677.5Ershadi-Nasab等人[12个]93.375.994.888.0Ours w/o 3DPS97.989.597.895.1我们98.894.197.896.9表2：校园和货架数据集的定量比较。这些数字是正确估计部分的百分比其他方法的结果取自各自的论文。‘Ours w/o 3DPS’ means using triangu- lation instead ofthe 3DPS model to reconstruct 3D poses from matched 2D基于模型的多人姿态估计及其方法被扩展到视频情况以利用时间一致性[2]。Ershadi-Nasab等人[12]是一种非常新的方法，提出对3D候选关节进行聚类以减少状态空间。Campus和Shelf数据集的结果见表2。请注意，我们的方法中使用的2D姿态检测器[10]和reID网络[44]是发布的预三角模型，没有对评估的数据集进行任何微调即使使用通用模型，我们的方法也远远优于最先进的方法。特别是，我们的方法显著提高了Campus数据集中Actor 3和Shelf数据集中Actor 2的性能，这些数据集受到严重遮挡。我们还包括我们的结果，没有3DPS模型，但使用三角形重建3D构成匹配的2D构成。由于匹配的鲁棒性和一致性，直接三角剖分也获得了比以往方法更好的性能4.4. 定性评价图4显示了在Shelf和CMU Panoptic数据集上提出的方法的一些代表性结果。以不准确的2D检测作为输入，我们的方法能够建立它们在视图之间的对应关系，自动识别场景中的人数，并最终重建他们的3D姿态。通过将3D姿态投影回2D视图获得的最终2D姿态估计也比原始检测准确得多。17800相机1相机2相机3相机4相机5 3D构成相机1相机2相机3相机4相机5 3D构成图4：Shelf（顶部）和CMU panoptic（底部）数据集的定性结果。第一行示出了2D绑定框和姿态检测。第二行显示了我们的匹配算法的结果，其中颜色表示视图中边界框的对应关系。第三行示出了估计的3D姿态的2D投影。4.5. 运行时间我们报告我们的算法的运行时间的序列与四个人和五个视图的货架数据集，测试的台式机与英特尔i73.60 GHz的CPU和GeForce 1080Ti GPU。我们未优化的实现平均花费25 ms用于运行reID和构造亲和矩阵，20 ms用于多路匹配算法，60 ms用于3D姿态推断。此外，表2中的结果表明，我们的方法在没有3DPS模型的情况下也获得了非常有竞争力的性能，能够以>20fps的速度实现实时性能。5. 总结在本文中，我们提出了一种新的方法来多视图的3D姿态估计，可以快速和鲁棒地恢复3D姿态的人群与几个摄像机。与以前的基于3DPS的方法相比，我们的核心思想是使用多路匹配算法来聚类解，检测的2D姿态，以减少3DPS模型的状态空间我们还表明，即使不使用3DPS模型，也可以通过三角测量从聚类的2D姿态可靠地重建3D姿态这表明了所提出的多路匹配算法的有效性，该算法利用几何和外观线索的组合以及用于跨多个视图匹配2D姿势的周期一致性约束。鸣谢：浙江大学的作者感谢国家自然科学基金（No.61806176）、中央高校基础研究基金和浙大-商汤三维可视化联合实验室的支持。Qixing Huang感谢NSF DMS-1700234、NSF CIP-1729486、NSF IIS-1618648，来自Snap Research的礼物和来自Nvidia Inc.的GPU捐赠。17801引用[1] 诉贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克用于多个人体姿势估计的3D图像结构。CVPR，2014。一、二、六、七[2] 诉贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克3D图像结构再访：多人姿态估计。T-PAMI，38（10）：1929-1942，2016。一、二、六、七[3] V. Belagiannis，X.王湾，澳-地Schiele，P. Fua，S. Ilic，以及N.纳瓦布具有时间一致的3d图像结构的多人姿态估计。2014年ECCV研讨会。六、七[4] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。3[5] S. 博伊德， N. Parikh ， E. 楚湾，澳 - 地 Peleato ， J.Eckstein，et al.通过交替方向乘子法的分布优化和统计学习。FoundationsandTrendsMathematicsinMachinelearning g，3（1）：1-122，2011. 5[6] M. Burenius，J. Sullivan和S.卡尔森用于多视图铰接姿态估计的3D图像结构CVPR，2013。二、六[7] J. - F. Cai、E. J. C和E，Z。沈矩阵完备化的奇异值SIAMJournal on Optimization，20（4）：1956-1982，2010. 5[8] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，2017年。一、三、七[9] C.- H. Chen和D.Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。3[10] Y. Chen，Z. Wang，Y.彭，Z. Zhang，G. Yu和J. Sun.用于多人位姿估计的级联金字塔网络CVPR，2018年。三六七[11] A. Elhayek、E.de Aguiar，A.Jain，J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉，在一般场景中使用少量相机。CVPR，2015。2[12] S. Ershadi-Nasab，E.Noury，S.Kasaei和E.早苗多视点图像中多人三维姿态估计。多媒体工具和应用程序，77（12）：15573一、二、六、七[13] H. Fang，S.谢玉W. Tai和C.陆区域多人姿态估计。InICCV，2017. 3[14] M.法泽尔矩阵秩最小化及其应用。博士论文，博士论文，斯坦福大学，2002年。5[15] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。T-PAMI，2018年。3[16] 问：X. Huang和L. Guibas 基于半定规划的一致形状映射。在第十一届Eurographics/ACMSIGGRAPH几何处理研讨会集，第177-186页。欧洲制图协会，2013年。三、五[17] S. Huang，M. Gong和D.涛.用于关键点定位的粗-精网络。InICCV，2017. 317802[18] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：页面，更强，更快的多人姿势估计模型。在ECCV，2016年。3[19] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。T-PAMI，36（7）：1325-1339，2014。6[20] H. 朱，H。柳湖，加-地坦湖，澳-地Gui，B.纳贝岛马修斯T. Kanade，S. Nobuhara和Y.酋长 Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。二、六[21] H. Joo，T.Simon，X.Li，H.柳湖，加-地坦湖，澳-地Gui，S.班纳吉T. S. 戈迪萨特湾纳贝岛 Matthews 等人 PanopticStudio：用于社交互动捕捉的大型多视图系统T-PAMI，2017年。一、二、七[22] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的三维变形模型。在CVPR，2018年。2[23] A. Kadkhodamohammadi和N.帕多伊一种可推广的多视角三维人体姿态回归方法。 CoRR ，abs/1804.10462，2018。2[24] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR，2018年。3[25] M. Kocabas、S. Karagoz和E.阿克巴Multiposenet：基于姿态残差网络的快速多人姿态估计。在ECCV，2018。3[26] T.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D. Ra-manan ， P.Dol la'r 和 C. 齐特尼克Microsoftcoco：上下文中的公共2014年，在ECCV。3[27] 马丁内斯河Hossain、J. Romero和J.小J一种简单有效的三维人体姿态估计基线。InICCV，2017. 3[28] F.莫雷诺诺格尔通过距离矩阵回归从单个图像估计3D人体姿态在CVPR，2017年。3[29] A. Newell，Z. Huang和J.邓小平更关联嵌入：用于联合检测和分组的端到端学习。在NIPS，2017年。3[30] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。第1、3条[31] G. Pavlakos，X. Zhou和K.丹尼尔迪斯用于三维人体姿态估计的有序深度超视。在CVPR，2018年。3[32] G. Pavlakos，X. Zhou，K. G. Derpanis和K.丹尼尔迪斯为无标记的3d人体姿势注释获取多个视图。在CVPR，2017年。二、六[33] G. 帕夫拉科斯湖Zhu，X.Zhou和K.丹尼尔迪斯学习从单色图像估计三维人体姿态和形状在CVPR，2018年。3[34] T. Pfister，J. Charles，and A.齐瑟曼。用于视频中人体姿态估计的流动卷积网。在ICCV，2015年。3[35] L. Pishchulin、E. Insafutdinov，S.唐湾Andres，M.An- driluka，P. V. Gehler和B.席勒Deepcut：联合子集划分和标记用于多人姿势估计。在CVPR，2016年。3[36] L. Sigal，M. Isard，H. W. Haussecker和M. J.布莱克。四肢松弛的人：使用非参数置信传播估计3D人体姿势和运动。IJCV，98（1）：15-48，2012. 217803[37] X. Sun，J. Liang和Y.伟.人类姿态的回归。InICCV，2017. 3[38] G. W. 泰勒湖Sigal，D.J. Fleet和G.E. 辛顿三维人体姿态跟踪的动态二元潜变量模型CVPR，2010。2[39] B. Tekin，P.Marquez Neila，M.Salzmann和P.呸学习融合2d和3d图像线索进行单目身体姿态估计。InICCV，2017. 3[40] D.托梅角Russell和L.阿加皮托从深处提升：从单个图像进行卷积3D姿态估计CVPR，2017年。3[41] A. Toshev和C.赛格迪Deeppose：通过深度神经网络进行人体姿势估计。CVPR，2014。3[42] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。在CVPR，2016年。3[43] A. Yao，J. Gall，L. V.Gool和R.乌塔松学习Prob-非线性潜变量模型，用于跟踪复杂活动。NIPS，2011年。2[44] Z.钟湖，加-地Zheng，Z. Zheng，S. Li和Y.杨用于人员重新识别的相机样式适配在CVPR，2018年。三、四、七[45] X.周，加-地Huang，X.太阳，X.薛，和Y。伟.在野外进行3D人体姿势估计：一种监管不力的方法。InICCV，2017. 3[46] X. Zhou，M. Zhu和K.丹尼尔迪斯基于快速交替最小化的多图像匹配。在ICCV，2015年。3[47] X. 周先生， M. 朱 S. 莱昂纳多斯， K. G. 德尔帕尼斯，还有K.丹尼尔迪斯稀疏与深邃：基于单目视频的三维人体姿态估计.在CVPR，2016年。3

下载后可阅读完整内容，剩余1页未读，立即下载