超过100帧每秒的多人3D姿态估计的交叉视图跟踪

141 浏览量更新于2023-10-24 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3279用于超过100 FPS的多人3D姿态估计的交叉视图跟踪龙晨1海洲艾1陈瑞1庄子杰1刘爽21清华大学计算机科学与技术系摘要实时估计多个人的3D姿态是计算机视觉中的经典但仍然具有挑战性的任务。其主要困难在于2D姿态的跨视图关联的模糊性和多个视图中存在多个人时的巨大状态空间。在本文中，我们提出了一种新的解决方案，从多个校准的相机视图多人的三维姿态估计。该方法以不同摄像机坐标系下的二维位姿为输入，以全局坐标系下的精确三维位姿为目标。与以前的方法，从零开始，在每一帧的所有对视图之间的关联2D姿态，我们利用视频中的时间consideration匹配的2D输入与3D姿态直接在3-空间。更具体地说，我们建议保留每个人的3D姿态，并通过跨视图多人跟踪迭代更新它们正如我们在广泛使用的公共数据集上所证明的那样，这种新的公式提高了准确性和效率为了进一步验证我们的方法的可扩展性，我们提出了一个新的大规模多人数据集与12至28相机视图。我们的解决方案在12 台摄像机上实现了 154 FPS 建议的数据集将在https://github.com/longcw/crossview_3d_pose_tracking上发布。1. 介绍基于视频的多人三维姿态估计具有广泛的应用，包括动作识别、运动分析和人机交互等。随着深度神经网络的快速发展，该领域最近的大部分成果都致力于单目3D姿态估计[25，26]。然而，尽管取得了很大的进展，单摄像机设置仍然远远没有得到解决，由于人体姿势的变化和部分遮挡的单目视图。这些问题的自然解决方案是从多个相机视图恢复3D姿势。最近的多视图方法通常采用去随着2D人体姿势估计的进步，从多个视图中检测2D身体关节作为输入[9，11，35]，并在两步公式中解决3D姿势估计[2，13]。具体而言，同一个人的2D关节首先在视图之间匹配和关联，随后通过多视图重建方法确定每个关节的3D位置。在这一构想中，挑战来自三个方面：1）由于姿态估计是不完美的，所以检测到的2D关节是噪声和不准确的; 2）当多个人在拥挤场景中彼此交互时，跨视图关联是模糊的; 3）随着人数和摄像机数量的增加，计算复杂度爆炸式增长。为了解决跨视图关联的问题，3D图像结构模型（3DPS）被广泛用于一些非线性方法[2，8]中，其中3D姿态从离散化的3空间中的2D关节恢复。在该公式中，关节属于空间箱的可能性由几何一致性[16]以及预定义的身体结构模型给出3DPS的一个严重问题是由于多人在多个视图中的巨大状态空间而导致的作为改进，Donget al. [13]建议在应用3DPS之前提前解决身体层面的交叉视图关联问题。它们将来自不同视图的同一个人的2D姿势关联为聚类，并通过3DPS从聚类中估计3D姿势。然而，在所有视图对之间匹配2D姿态仍然使得计算复杂度随着相机数量的增加而爆炸。与同时处理来自多个相机的输入的先前方法相比，我们提出了一种具有迭代处理策略的新解决方案。具体来说，我们建议利用视频中的时间一致性，以匹配每个视图的2D姿态与3D姿态直接在3-空间，其中的3D姿态被保留和更新迭代的跨视图多人跟踪。我们的提法有两个优点。首先，为了准确性，3-空间中的匹配被期望对部分遮挡和不准确的2D定位具有鲁棒性，因为3D姿态由多视图信息组成。其次，为了效率，迭代地处理相机视图使得3280计算复杂度仅随摄像机数量的变化而线性变化，使得能够在大规模摄像机系统上应用。为了验证有效性，我们在几个广泛使用的公共数据集上将我们的方法与最先进的方法进行了比较，此外，我们在具有超过12个相机的自收集数据集上对其进行了测试，如图1所示。与所提出的解决方案，我们能够估计，队友的3D姿态准确地在12个摄像头在超过100 FPS。下面，我们回顾了多人3D姿态估计和多视图跟踪的相关工作，然后我们介绍了我们的新方法的细节，该方法包含用于在3-空间中跟踪的有效几何亲和度测量，以及为视频中的迭代处理而设计的新颖的3D重建算法。在实验部分，我们对三个公共数据集进行了评估：Campus [2]，Shelf [2]和CMU Panoptic [18]，展示了我们方法的最新准确性和效率。我们还提出了一个新的数据集，从大规模的相机系统，以验证我们的方法的可扩展性，为现实世界的应用程序的相机数量的增加。2. 相关工作多人3D姿态估计。已经从单目[26，1，21，25，12]和多视图视角[8，4，13，32]研究了3D人体姿势估计问题。大多数现有的单目解决方案是针对单人情况设计的[28，21，12]，其中估计的姿势相对集中在骨盆关节周围，并且环境中的绝对位置是未知的。这种相对坐标设置限制了这些方法在监视场景中的应用。为了从单目视图估计多个3D姿态，Mehta等人。[22]使用位置映射[23]来推断在相应的2D关节像素位置处的3D关节位置Moon等人[25]提出一个根定位网络来估计人体根的相机中心坐标。尽管最近在这一领域取得了许多进展，但单目3D姿态估计的任务本质上是模糊的，因为多个3D姿态可以映射到相同的2D关节。然而，在实际应用中，特别是当图像中出现遮挡或运动模糊时，映射结果往往存在较大的偏差。另一方面，多摄像机系统在诸如运动分析和视频监控的各种应用的背景下逐渐变得可用给定来自多个摄像机视图的图像，大多数先前的方法[27，29，8，2]通常基于3D图像结构模型（3DPS）[8]，其通过N ×N ×N网格离散3空间，并将每个关节分配给N个3bin中的一个（假设）。跨视图关联与重构通过最小化所有假设中估计的3D姿态和2D输入之间的几何误差[16]来解决。同时考虑所有摄像机中多个人的所有关节，这些方法通常是通用的。图1：多人多视图3D姿态估计。3D视图中的三角形表示相机位置。由于巨大的状态空间，计算代价很高。Donget al的近期工作[13]建议首先在身体层面解决3DPS随后被应用于来自不同视图的同一人的2D姿态的每个聚类。因此，当每个人被单独处理时，状态空间被减小。但是，这种方法的跨视图关联计算量仍然很大，无法达到实时的速度。用于3D姿态估计的多视图跟踪。基于多视点跟踪的三维位姿估计在计算机视觉中并不是一个新的课题。然而，面对上述挑战，将这两个任务结合起来进行快速和鲁棒的多人3D姿态估计仍然是不平凡的针对单个人的3D运动捕获的无标记运动捕获已经研究了十年[33，14，34]。在这些早期的作品中，跟踪是为了联合定位和运动估计而开发的。随着深度神经网络的最新进展，还使用递归神经网络[30，20]或卷积神经网络[28]研究了时间信息，用于单视图3D姿态估计。然而，这些方法通常是为对齐良好的单人情况下，关键的跨视图关联问题被忽略。至于多人病例，Belagianniset al. [4]提出在3DPS框架下，利用跨视角跟踪结果辅助三维位姿估计它从现成的交叉视图跟踪器[5]中引入时间一致性，以减少3DPS的状态空间该方法将跟踪和姿态估计分为两个任务，3281t，ct′t′′，c1帧每秒的速度，这远远不能应用于对时间要求很高的应用。还有一种非常新的跟踪方法[7]，它使用估计的3D姿态作为跟踪器的输入来提高跟踪质量，而姿态估计很少受益于跟踪结果。Tang等人[32]提出联合执行多视图2D跟踪和姿态估计以用于3D场景重建。2D检测使用地平面反射进行关联，这是有效的，但限制了精度。相比之下，我们将跨视图跟踪和多人3D姿态估计耦合在一个统一的框架中，使这两个任务在准确性和效率方面相互3. 方法In this section, we first give an overview of our frame-work with iterative processing, then we detail the two com-ponents of our framework, that is, cross-view tracking in 3-space with geometric affinity measurement and incremental3D pose reconstruction in videos.3.1. 三维位姿估计给定在由多个校准的摄像机覆盖的场景我们的目标是估计场景中每个人的一组固定的身体关节的3D位置。特别是，我们的方法与以前的方法不同，它们处理来自不同相机的帧的方式与以批处理模式一次获取所有相机视图相反，这里我们假设每个相机独立地流帧，其中帧以时间顺序收集并迭代地一个接一个地馈送到框架中通过迭代处理，总体计算成本仅随摄像机数量的增加而线性增加，并且不再需要摄像机之间的严格同步这样的修改是直接的，但是不那么容易实现，因为跨视图关联通常是不明确的，特别是当一次仅观察到一个视图时。在这种情况下，另一个挑战是当这些相机没有严格同步时从不同的相机重建3D姿态。为了解决这些问题，我们从两个组件构建我们的框架：1）用于身体关节关联的交叉视图跟踪，以及2）用于非同步帧的增量式3D姿态重建。从一个特定的摄像头里得到一个画面时代，跟踪的任务是将检测到的2D hu-当组合新观察到的和先前保留的2D关节时，每个目标的3D姿态被增量地更新。由于这些关节来自不同的时间，因此传统的重建方法（如三角测量[16]）易于产生不准确的3D位置。为了处理非同步帧，我们在3.3节提出了增量三角剖分算法.3.2. 具有几何相似性在多视图几何中，重建点在三维空间中的位置需要知道该点在至少两个视图中的2D位置。因此，在我们的情况下，为了估计3D姿态，我们必须首先将检测到的2D关节跨视图相关联。与[13]类似，我们在身体水平上关联关节，但不仅仅是跨视图，还跨时间。这就形成了交叉视图跟踪问题，如本节所讨论的。问题陈述。我们保留场景中的人的历史状态作为跟踪目标，问题变成将这些目标与新检测到的人体相关联，而检测来自每次迭代中的不同相机。在这里，我们从一些符号和定义开始在摄像机坐标系中，用x∈R2表示二维点，在全局坐标系中，用X∈R3表示三维点对于在时间t来自相机c的帧，检测到的人体D被表示为具有索引k ∈ {1，.，K}。同时，在三维空间中用同一组人体关节的点Xk∈R3表示目标T，其中t′表示关节的最后更新历史2D关节也保留在相应的目标中。然后，假设有M个检测{Di，t，c|I =1、… M}中，我们需要将这些检测关联到最后N个跟踪目标{Ti，t′|i=1，… N}，然后基于匹配结果更新目标的3D位置。从技术上讲，这是一个加权二部图匹配问题，其中图由目标和检测之间的亲和矩阵A∈RN×M一旦确定了图，就可以用匈牙利算法有效地解决这个问题[19]。因此，我们的主要挑战是准确有效地测量每对靶标和检测亲和力测量。给定一对目标和检测Tt′，Dt，c几何对应：ΣKA（Tt′，Dt，c）=A2D（xk，xk）+A3D（Xk，xk），用跟踪目标控制尸体在这里，我们使用历史上估计的3D姿势来表示3空间中的目标。的k=1t′′，ct，ct′t，c（一）因此，在2D其中xk是目标的最后匹配关节k，关节和三维空间中的3D姿势，如第3.2节所述。随后，基于关联结果，将每个2D人体分配给目标或标记为不匹配。卡姆角对于每种类型的人类关节，是独立计算的，因此为了符号简单，我们在下面的讨论中省略了索引k3282x轴“X轴X轴��Xμ（μ）3人2CC′如图2a所示，2D对应关系基于摄像机坐标中检测到的关节xt，c和错误保留的关节xt"，c的距离来计算摄像头摄像头X轴A2D（xt′′，c，xt，c）=w2D（1−xt，c−xt′′，cα2D（t-t′′））·e−λa（t-t′ ′）。X轴��（二）有三种类型的参数w2D，α2D和λa，分别代表二维对应权，二维速度阈值和时间间隔惩罚率。注意t> t"，因为帧是按时间顺序处理的。2D>0表示这两个关节可能会人1(a) 二维对应人1(b) 三维对应来自同一个人反之亦然幅度表示指示的置信度，其随着时间间隔的增加呈指数下降。2D对应性是单视图跟踪方法所利用为了跨视图跟踪人，引入3D对应，如图2b所示。我们假设摄像机已经标定好，摄像机c的投影矩阵为Pc∈R3×4。我们首先反向投影将2D点xt，c作为射线保护到3-空间中Xt（µ;xt，c）=P+xt，c+µXc，（3）其中P+∈R4×3是Pc的伪逆，Xc是摄像机中心的3D位置。带后缀波浪号的符号表示相应的齐次坐标。3D对应于是被定义为：ˆ图2：几何亲和性测量。 (a)二维校正在同一相机内计算自发性。(b)在预测位置和3空间中的投影线之间测量3D对应性2）三维空间中的运动估计比二维摄像机坐标系中的运动估计更可行、更可靠; 3）由于对于每对目标和检测，在三维空间中仅需要一次比较，因此计算成本显著降低。为了验证这一点，在消融研究中进一步进行了定量比较。目标更新和初始化。通过前面的亲和度测量，本节描述我们如何在特定的迭代中更新和初始化目标。首先，我们用公式1计算目标和检测之间的亲和度矩阵，解决了二分图匹配中的关联问题。每个检测要么被分配给A3D（Xt′，xt，c）=w3D（1−dl（Xt，Xt（µ））α3D）·e−λa（t-t′），目标或基于关联结果被标记为不匹配。在前一种情况下，如果将检测分配给（四）其中dl（·）表示三维空间中的点到线的距离，α3D是距离的阈值。注意，在该公式中，将检测到的点与在相同时间t的预测点Xt进行比较。引入线性运动模型来预测时间t处的3D位置：Xt=Xt′+Vt′·（t-t′），（5）其中t≥t，Vt′是通过线性最小二乘法估计的3D速度。在这里，为了验证迭代处理策略的目的，为了简单起见，我们仅在亲和度测量中采用几何一致性。正如我们在实验中所证明的那样，该基线公式已经实现了人体关联和3D姿态估计关键贡献来自等式4，其中我们将检测到的2D关节与直接在3空间中的目标进行匹配。与相机坐标中的成对视图中的匹配相比[13]，我们的公式具有三个优点：1）3空间中的匹配对于部分遮挡和不准确的2D定位是鲁棒的，因为3D姿态实际上结合了目标，目标的3D姿态将随着新的检测而逐渐更新，因为随着时间的推移观察到2D信息。因此，我们的框架中的3D姿态重建是一个增量过程，如第3.3节所述。至于目标初始化，我们收集来自不同相机的不匹配检测，并使用极线约束[16]将它们跨视图关联。在这里，对于每个相机，仅保留最近的帧，因此我们假设所有检测都来自非常相似的时间，并且可以直接匹配。特别地，我们解决了加权图分区中的关联问题[31，10]，以遵守循环一致性约束，因为有多个相机[13]。当至少两个视图匹配时，新目标的身体姿态在3空间中从检测中算法1中示出了交叉视图跟踪的整个过程。3.3. 增量式三维位姿重建通常，给定同一个人在不同视图中的2D姿态，可以使用三角测量来重建3D姿态。然而，随着迭代处理，我们的框架中的2D姿势可能来自不同的时间，从而引起增量三角剖分问题。x轴“2012年12月22日人23283t，ct，ci我假设新帧在时间t来自相机c，对于算法1：每次迭代的跟踪程序a tar得到Tt′与匹配检测Dt，c我们收集2DInput: New 2D human poses D t，c={D j、t、c|j= 1,..., M}来自不同摄像机的每种类型的人体关节的点前一个tar得到Tt′={Ti，t′|i=1，…N}在时间t′先前未匹配的检测Du={Dti，ci}Jk={ xk {xk}|cic}，（6）输出：在时间t具有3D姿态Tt={Ti，t}的新目标tt，cti，ci1 初始化：Tt<$; A<$AN× M∈ RN× M其中xk是摄像机c中的新点，xk表示/*交叉视图关联*/2对于每个Ti，t′∈Tt′do摄像机C中的最后观察点i. 对于每个关节，3D位置是独立估计的，因此为了清楚起见，在下面的讨论中省略了索引k这里，我们的目标是从点集合Jt估计3D位置Xt，3456端部对于每个Dj，t，c∈Dt，cdoA（i，j）←A（Ti，t′，Dj，t，c）端这些点来自不同的时间。本文首先简要介绍了线性代数三角剖分算法，然后说明了我们针对这一问题所作的改进。对于每个摄像机，7索引T，索引D←HungarianAlgorithm（A）/*目标更新*/8对于每个i，j∈索引T，索引D做9Ti，t←Incremental3DRenstruction（Ti，t′，Dj，t，c）10Tt←Tt{Ti，t}在2D点xt，c和3D点Xt可以写成：11端部/*目标初始化*/对于每个j∈{1，.，M}和j∈/IndicesDdoxt，c×（PcXt）=0，（7）1314的端Du←Du{Dj，t，c}其中，×是叉积，x≠t，c∈R3和X∈t3× 4∈R415 Au←Epipolar约束（Du）16foreachDcluster∈GraphPartition（Au）do是齐次坐标，Pc∈R表示17如果长度（D簇）≥2，则投影矩阵。将公式7写成18的倍数摄像机给出了以下形式的方程：1920Tnew，t←3DReconstruction（Dcluster）Tt←Tt{Tnew，t}Du←Du−D星团与CXt=0，（8）2122端部端x1p3T−p 1T1 11p3T−p2T通过卷积神经网络估计wc，1 1C=x2p3T−p1T，（9）2D点的置信度。当然，我们的方法是-2 2y2p3T−p2T为时间序列的增量处理签名：2 2¨ ¨. - 是的- 是的其中，（xc，yc）表示2D点xt，c，并且piT是第i个点。wi=e−λt（t−ti）/<$ciT<$、（11）CPC的第三行。如果存在至少两个视图，则等式8是超定的，并且可以通过奇异值分解（SVD）来求解。最后的非齐次坐标-通过将齐次坐标Xt除以它的第四个值，可以得到状态Xt：Xt=Xt/（Xt）4。传统的三角剖分算法假设，不同视图的2D点来自同一时间并且彼此独立。然而，在我们的情况下，这些点是从不同的时间收集的（公式6）。根据帧速率和临时遮挡，实际上点之间的时间差从0到300 ms不等。为了估计最新时间t的3D点Xt，我们认为在求解方程8时，来自不同时间的点应该具有不同的重要性。为此，我们将权重wc添加到C的系数中，该系数对应于不同的相机：（wcC）Xt=0，（10）其中wc=（w1，w2，w3，w4，. ），且λ表示Hadamard乘积。这与[17]中的公式类似，其中23284其中λt是惩罚率，ti≤t是点，且ciT表示C的第i行。在这种情况下，该点的重要性随着其时间戳接近最后时间而增加，使得估计的3D点Xt更接近时间t处的实际关节位置。L2范数的第二项被写入以消除来自不同视图中的不同2D位置的偏差，如等式9中所引入的。4. 实验我们对三个广泛使用的公共数据集进行了评估：Campus [2]，Shelf [2]和CMU Panoptic [18]，并将我们的方法与以前的作品在精度和效率方面进行比较。我们还提出了一个具有12到28个摄像机视图的新数据集，以验证我们的方法随着摄像机和人员数量的增加的可扩展性。4.1. 数据集首先简要介绍了多人三维姿态估计的公共数据集和然后，我们介绍了我们提出的数据集的细节，并将其与现有的公共数据集进行比较。3285校园和货架。校园是一个小规模的数据集，由三个校准的相机捕获。它由三个人在一个开放的户外广场上相互交流The Shelf dataset is captured by five cameraswith a more complex setting, where four people areinteracting and disassembling a shelf in a small indoorarea.这两个数据集的联合注释由Belagian-nis等人提供。[2]评价。我们遵循与以前的作品[2，3，15，13]相同的评估协议，并计算PCP（正确估计部分的百分比）分数来衡量3D姿态估计的准确性。CMU Panoptic CMU Panoptic数据集[18]在一个封闭的工作室中使用480个VGA摄像机和31个HD摄像机拍摄。数百个摄像机分布在一个宽约5米、高约4米的测地线球体表面。该工作室旨在模拟和捕捉多人的社交活动，因此球体内的空间没有障碍。由于缺乏多个人的3D姿势的基础事实，因此在该数据集上仅呈现定性结果。与仅利用少数摄像机（约2 - 5个）进行3D姿态估计的先前工作[13，17]相比，我们在消融研究中使用不同数量的摄像机进行分析我们的数据集。我们的数据集，即商店数据集，分别在12和28个摄像机的两种模拟商店中捕获。与CMUPanoptic在一个小的封闭区域使用数百个摄像头不同，我们将摄像头均匀地布置在商店的天花板上，以模拟真实世界的环境。正如我们在3.1节中所讨论的，每个摄像机独立工作，没有严格的同步。此外，第二家商店内有很多货架，作为障碍物，使场景比以前的数据集更加复杂。详细比较见表1。我们使用Store数据集和CMU Panoptic数据集来验证我们的方法在大规模相机系统上的可扩展性。4.2. 与最新技术水平的比较我们首先在表2中给出了与其他最先进方法的定量比较。Belagiannis等人在[2]中介绍了用于多视点多人3D姿态估计的3DPS。之后，他们通过利用[4]中的时间一致性扩展了视频的3DPS。这些早期的作品有一个非常昂贵的计算成本巨大的状态空间。Dong等人[13]建议在身体水平上聚类关节外观模型[36]也在他们的工作中进行了研究，以减轻身体水平关联的模糊性。他们的方法在专用GPU上提取外观特征需要大约25 ms，身体关联需要20 ms，3DPS中的3D重建没有花里胡哨，我们的几何方法优于以前的基于3DPS的模型，并实现了具有竞争力的准确性，非常重新，数据集相机人区域障碍校园3343没有一架5419架CMU全景480+31717没有一店铺布局1（我们的）12412没有一店铺布局2（我们的）281623货架表1：数据集比较。使用摄像机位置的凸包以平方米为单位计算面积。校园五氯苯酚（%）FPS演员1演员2演员3平均CVPR 14 [2]82.072.473.775.8-ECCVW 14 [4]83.073.078.078.01TPAMI 16 [3]93.575.785.484.5-[第15话]94.292.984.690.6-CVPR 19 [13]97.693.398.096.39.5我们97.194.198.696.6617架演员1演员2演员3平均FPSCVPR 14 [2]66.165.083.271.4-ECCVW 14 [4]75.067.086.076.01TPAMI 16 [3]75.369.787.677.5-[第15话]93.375.994.888.0-CVPR 19 [13]98.894.197.896.99.5我们99.693.297.596.8325表2：校园和货架数据集的定量比较。其他方法的FPS是从论文中获得的平均速度，因为没有提供每个数据集的速度。10美分的工作[13]，而我们的方法只有一个笔记本电脑CPU的速度要快得多。注意，为了公平比较，我们使用与[13]中相同的2D姿态检测进行实验，其由现成的2D姿态估计方法[11]提供。4.3. 消融研究为了进一步验证我们的解决方案的有效性，进行了消融研究，以回答以下问题：1)3-空间匹配是否比2D匹配获得了更好的结果？2)增量三角测量的一致性有多大，它真的有必要吗？3)我们的方法在大规模相机系统上的速度是多少？迭代处理的贡献是多少？4)跟踪的质量如何在2D或3D中匹配？如第3.2节所述，我们认为3-空间中的匹配导致更准确的关联结果，因为它对部分遮挡和不准确的2D定位具有鲁棒性。为了验证这一点，我们没有比较最终的PCP评分，而是直接测量关联准确性，并将我们的方法与四个基线进行比较，如图3所示。根据聚类的2D姿态和注释之间的一致程度计算每个相机的关联精度该制剂3286不10095908580757065605550Camera1Camera2摄像头310095908580751 2 3 45140120100806040200n2D（Baseline）中的匹配al. [13个国家]Dong et.等[13] w/o Geometry Dong et.al. [13] w/o AppearanceMatching in 3D（建议）图3：Campus数据集上的关联准确性。消除了不同重建算法的影响。第一个基线是通过极线约束在2D相机坐标中匹配视图对中的关节。以下三个基线取自[13]的官方实现，其采用几何信息和人类外观特征来匹配相机视图之间的2D姿势如图所示，所有这些方法都在Campus数据集的Camera1和Camera2中实现了良好的性能，而差距在更困难的Camera3中显示，Camera3放置得更靠近人并且更容易受到遮挡。在Camera3中，三维空间匹配的关联准确率分别为32%、5.2%、9.2%、4.6%。不同的3D重建方法。交叉视图关联是三维位姿估计的第一步，而三维重建也是至关重要的。在这里，我们保留了我们的方法的关联结果，并使用不同的重建算法来估计3D姿态。如表3所示，考虑了四种算法：3DPS、常规三角剖分、无归一化增量三角剖分和我们提出的三种方法。我们选择躯干、上臂、下臂进行比较，因为这些身体部位具有不同的运动幅度，可以评估不同的情况。所有四种重建算法都在躯干上实现了良好的性能，因为它具有小的运动范围并且易于检测。至于下臂，它通常可以快速移动，我们的增量三角测量提高了约3%至5%的PCP分数相比，传统的三角测量。为了进一步验证增量三角剖分是否具有处理非同步帧的能力，我们分析了输入帧速率降低时的性能下降原始Shelf数据集是以25 FPS捕获的。我们通过从每个相机中的每n帧中采样一帧来构造具有不同帧速率的数据集。增量和传统三角测量之间的比较如图4所示。图中还记录了每个2D联合集合Jk内的作为传统三角测量增量三角测量平均时间差图4：在Shelf数据集上以输入帧速率表示的PCP分数。原始帧速率为25 FPS，因此每个trail的实际帧速率为25/n。校园躯干上臂下臂整个3DPS100.099.182.596.0三角测量100.095.479.194.4我们的，没有标准100.095.681.795.4我们的，提议的100.098.684.696.6架躯干上臂下臂整个3DPS100.098.188.496.6三角测量100.097.084.594.8我们的，没有标准100.098.787.796.9我们的，提议的100.098.787.796.8表3：Campus和Shelf数据集上不同3D重建算法的PCP评分。随着输入帧速率的降低和时间差的增大，传统三角剖分算法的性能明显下降，而本文的算法性能保持稳定，表明本文的算法在处理非同步帧时是有效的。因此，我们确认，增量三角化- tion是必不可少的迭代处理。大规模摄像系统的速度。如表2所示，我们的方法在小规模数据集Campus和Shelf上比其他方法快50倍。我们进一步在大规模Store数据集上测试了所提出的方法，如图5所示。最终实现了12台摄像机4人154 FPS，28台摄像机16人34 FPS。请注意，在计算运行速度时，我们遵循通常的做法，即一帧表示所有摄像机更新一次。实际上，不同的实现和硬件环境对运行速度有很大影响我们的算法是在C++中实现的，没有多处理器，并在配有Intel i7 2.20 GHz CPU的笔记本电脑上进行了为了更公平地验证效率并理解迭代处理的贡献，我们构建了一种基线方法，该方法在具有相同测试环境的相机坐标中匹配成对视图中的关节。对比是对的--关联准确度（%）五氯苯时间差（ms）3287图5：Store数据集上的定性结果（布局2）。场景中有28台摄像机和16个人，不同的人用不同的颜色表示。相机位置在3D视图中显示为蓝色三角形。5004003002001000357 911 13 15 17 19 21 23 25 27 29 31数量的相机图6：CMU Panoptic数据集上不同数量相机的一帧平均运行时间通过CMU Panoptic数据集及其31个HD摄像机进行传输，因为摄像机都被放置在一个封闭的小区域内，改变摄像机的数量不会影响观察到的人数。如图6所示，基线方法的运行时间随着摄像机数量的增加而爆炸式增长，而我们的方法几乎是线性变化的实验结果验证了迭代处理策略的有效性，并证明了该方法在实际应用中与大规模相机系统一起工作的能力跟踪质量。我们使用Shelf数据集来衡量跟踪质量。特别是，我们将估计的3D姿势投影到每个摄像机上，并遵循与MOTChallenge [24]相同的评估我们将我们的结果与简单的单视图跟踪基线[6]进行比较，如表4所示。在一些简单的情况下，例如。相机2，基线单视图跟踪器实现了与交叉视图跟踪类似的性能。但对于困难的情况下，如相机4，其中包含严重的遮挡，我们的跨视图跟踪优于其单视图对应显着。结果表明，在我们的框架中，多人跟踪也可以通过多视角3D姿态估计来提高。表4：Shelf数据集的跟踪性能。5. 结论我们提出了一种新的解决方案，从多个摄像机视图的多人通过利用视频中的时间一致性，我们建议直接在3-空间中将2D输入与3D姿态进行匹配，其中3D姿态被保留并通过跨视图跟踪迭代更新。在实验中，我们在三个公共数据集上实现了最先进的准确性和效率。复合性消融研究证明了我们框架中每个组件的有效性由于其简单的公式和效率，我们的解决方案可以很容易地扩展其他技术，如外观特征，并直接应用到其他高级任务。此外，我们提出了一个新的大规模商店数据集来模拟现实世界的场景，这验证了我们的解决方案的可扩展性，也可能有利于未来在这方面的研究。6. 确认本工作得到了国家自然科学基金项目（61521002）的资助。基线提出运行时间（ms）方法相机MotaIDF1FPFNIDs单视图Camera186.781.732342Camera297.663.9444摄像头397.398.6770摄像头468.841.877793摄像头579.069.051515交叉视图Camera198.899.4330Camera299.299.6112摄像头398.499.2440摄像头497.698.8660摄像头597.698.86603288引用[1] Mykhaylo Andriluka Stefan Roth和Bernt Schiele单目3d位姿估计与侦测追踪。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第623-630页。IEEE，2010。2[2] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic. 用于多个人体姿势估计的 3D 图像结构。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition ，第 1669-1676 页， 2014 中。一、二、五、六[3] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.3D 图像结构再访：多人姿态估计。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（10）：1929-1942，2016。6[4] Vasileios Belagiannis，Xinchao Wang，Bernt Schiele，Pas- cal Fua，Slobodan Ilic，and Nassir Navab.具有时间上一致的3d图像结构的多人姿态估计在欧洲计算机视觉研讨会上，第742-754页。Springer，2014. 二、六[5] Jerome Berclaz，Francois Fleuret，Engin Turetken，andPas cal Fua.使用k-最短路径优化的多目标跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（9）：1806-1819，2011. 2[6] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在2016年IEEE图像处理国际会议（ICIP），第3464-3468页，2016年。8[7] Lewis Bridgeman、Marco Volino、Jean-Yves Guillemaut和Adrian Hilton。运动中多人三维位姿估计与追踪在IEEE计算机视觉和模式识别研讨会会议论文集，2019年。3[8] Magnus Burenius，Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图示结构IEEE计算机视觉和模式识别会议论文集，第3618-3625页，2013年一、二[9] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别集，第7291-7299页，2017年。1[10] 陈龙，艾海洲，陈睿，庄子杰。聚合轨迹的外观功能，多对象跟踪。 IEEE Signal Processing Letters ， 26（11）：1613-1617，2019。4[11] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页1、6[12] Yu Cheng，Bo Yang，Bo Wang，Wending Yan，andRobby T Tan.用于视频中3d人体姿态估计的遮挡感知网络。在ICCV，2019年。2[13] Junting Dong，Wen Jiang，Qixing Huang，Hujun Bao，and Xiaowei Zhou.快速和鲁棒的多人3D姿态估计从多个角度来看。在IEEE计算机视觉和模式识别会议论文集，第7792-7801页一二三四六七[14] Ahmed Elhayek 、 Edilson de Aguiar 、 Arjun Jain 、JonathanTompson 、 LeonidPishchulin 、 MichaAndriluka 、 Chris Bregler 、 Bernt Schiele 和 ChristianTheobalt。基于convnet的高效无标记运动捕捉，适用于一般场景，摄像机数量较少。IEEE计算机视觉和模式识别会议论文集，第3810-3818页，2015年。2[15] Sara Ershadi-Nasab、Erfan Noury、Shohreh Kasaei和Es-maeil Sanaei。从多视点图像估计多个人的三维姿态。Multimedia Tools and Applications，77（12）：15573-15601，2018。6[16] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。一、二、三、四[17] Karim Iskakov ，Egor Burkov ，Victor Lempitsky ，andYury Malkov.人体姿势的可学习三角测量。在ICCV，2019年。五、六[18] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panop

下载后可阅读完整内容，剩余1页未读，立即下载