基于4D关联图的多视点实时多人运动捕捉

80 浏览量更新于2023-10-25 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1324基于4D关联图的多摄像机张宇翔1张良安1李涛1李秀1李坤2刘业斌131清华大学自动化系2天津大学3清华大学脑与认知科学研究所摘要提出了一种基于多视点视频输入的实时多人由于每个视图中存在严重的遮挡和紧密交互的运动，因此必须对多视图图像和多个时间帧进行联合优化，这带来了实时效率的根本挑战。为此，我们第一次将每视图解析、跨视图匹配和时间跟踪统一到单个优化框架中，即，一个四维关联图，每个维度（图像空间，视点和时间）可以平等地同时处理。为了有效地解决4D关联图，我们进一步贡献的想法，4D肢体束解析的启发式搜索的基础上，其次是肢体束组装提出了一个束Kruskal我们的方法使一个实时运动捕捉系统运行在30fps，使用5个摄像机上的5人的场景。该方法利用统一的解析、匹配和跟踪约束，对严重遮挡和近距离交互运动引起的噪声检测具有较强的鲁棒性，实现了高质量的在线姿态重建。所提出的方法优于国家的最先进的方法定量不使用高层次的外观信息。1. 介绍场景中多人的无标记运动捕捉对于许多工业应用来说是重要的，但仍然是一个挑战，远未得到解决。尽管文献已经报道了单视图2D和3D姿态估计方法[41，36，11，12，18，17，28，34，44，45，33]，它们遭受严重的闭塞并产生低保真度的结果。相比之下，多视角摄像机提供了多个视角以减轻遮挡，以及用于精确3D三角测量的立体提示，因此是多人无标记运动捕获的不可缺少的输入*同等贡献图1.我们的方法使多人运动捕捉系统能够使用5个RGB摄像机以30fps的速度为5人工作，同时实现高质量的骨架重建结果。场景虽然针对人类[30，31，24]甚至动物[4]的多种多摄像机运动捕捉系统已经取得了显着的进步，但它们中的大多数都未能实现在极其紧密的交互下的实时性能和高质量捕捉的目标。给定4D（2D空间、1D视点和1D时间）多视点视频输入，如何充分利用丰富的数据输入，即多视点视频输入，是实时高质量多人运动捕捉成功的关键。如何对4D数据结构进行操作以实现高精度，同时保持实时性能。本质上，基于使用最先进的CNN方法在单独的2D视图中预先检测到的人体部位特征这些包括单个图像关联（即，解析）[11，20]以在单个图像中形成人体骨架，交叉视图关联（即，匹配）以建立不同视图之间的对应关系，以及时间关联（即，跟踪）以建立连续帧之间的对应关系。现有方法难以同时且有效地处理所有这些关联。他们只考虑1325这些关联的一部分，或者简单地以顺序的方式操作它们，导致不能成为高质量和实时的方法。例如，现有技术的方法[14，10，39]通过首先执行按视图的人解析，然后是跨视图的人匹配，以及顺序的时间跟踪，共享类似的高级框架。他们通常在第一阶段假设并依赖于完美的每视图解析结果。然而，这在拥挤或近距离交互场景中不能保证。3D图像结构（3DPS）模型[6]的时间扩展[8，7]应用时间跟踪[23]，然后使用非常耗时的3DPS结构优化进行跨视图解析Panoptic Stu- dio[24]以顺序的方式解决这些关联由于它跟踪整个序列，它是不可能的，以实现实时性能。在本文中，我们制定了一个统一的图形优化框架，称为4D关联图的解析，匹配和跟踪，以同时和平等地解决2D空间，1D视点和1D时间信息。通过将当前帧中检测到的2D骨架关节候选者和前一帧中的3D骨架关节视为图节点，通过计算节点之间的置信度权重来这样的计算联合地利用每个单独图像中的特征置信度、极线约束和时间先例帧中的重构骨架。与文献[14，24，8，7]在图像空间、视点和时间维度上采用顺序处理策略相比，我们的4D图形公式可以在所有这些维度上进行统一优化，从而使它们之间更好地互惠互利。为了实现对4D关联图的实时优化，我们进一步贡献了一种有效的方法来解决4D关联，通过将问题分为4D肢体解析步骤和骨架组装步骤。在前一步中，我们提出了一个启发式搜索算法来形成4D肢体束和一个改进的最小生成树算法来组装4D肢体束到骨架。这两个步骤都是基于能量函数进行优化的，该能量函数被设计为联合考虑图像特征、立体和时间线索，从而在保证优化质量的同时实现实时效率我们演示了一个实时多人动作捕捉系统，只使用5至6个多视角视频摄像机，见图。1、补充视频。得益于这种统一的策略，我们的系统即使在近距离交互场景中也能取得成功（视频02：55- 03：30）。最后，我们提供了一个多视点多人近距离交互运动数据集，并与基于标记的运动捕捉系统同步。2. 相关工作我们简要回顾文献中的多人骨架估计输入数据的维度。2.1. 单图像解析我们限制我们的单一图像解析的工作，解决多人的姿态估计在2D和3D。由于场景中存在紧密的交互，它们都需要考虑骨骼关节或身体部位的检测以及它们之间的连接以形成骨骼。解析方法通常可以分为两类：自下而上方法和自上而下方法。一般来说，自上而下的方法[26，17，12，18，43，28]表现出更高的平均精度，受益于人类实例信息，而自下而上的方法[20，11，35，27，38]倾向于提出像素对齐的低级特征位置，而组装它们仍然是一个很大的挑战。通常，最先进的自下而上方法OpenPose [11]引入了部分亲和字段（PAF）来帮助解析肢体上的低级关键点，从而获得高精度的实时性能。2.2. 交叉视图匹配匹配发现跨视图的对应关系，而不是高级特征（人类实例）或低级特征（关键点）。以前的工作[6，8，7，16]隐含地解决了使用3D图形结构模型的匹配和解析。然而，这种方法是耗时的，由于大的状态空间和迭代的信念传播。 Joo等人[24]利用从密集多视图图像中检测到的特征来投票可能的3D关节位置，这以另一种隐式方式进行匹配。这种投票方法只有在有足够的观察视图的情况下才能很好地工作。大多数最近的工作[14]匹配每个视图解析的人类实例交叉视图，凸优化方法受循环一致性约束虽然快速和鲁棒，这种方法依赖于外观信息，以确保良好的结果，并可能受到可能的解析错误（例如。假阳性人类实例和错误的联合估计）。2.3. 时域跟踪跟踪是实现连续、平滑运动捕捉的关键步骤之一，它有助于根据历史结果解决当前姿态模糊问题。跟踪可以在2D空间或3D空间中完成。许多工作已经解决了2D跟踪，称为姿态跟踪任务[3，37，22，19]。对于3D跟踪，已经提出了通过联合3D模板跟踪和多视图身体分割来捕获多个密切交互的人[31，30]的运动。Li等[29]提出了一种用于来自多视点视频的紧密交互的人的时空跟踪。然而，这些纯跟踪算法容易因时间误差积累而失效. Elhayek等人[15]跟踪3D人造模型到2D人类外观描述符（1326JIJIJIJII高斯），实现室内和室外场景的无标记运动捕捉但是，它不显示多人情况（3人以上）。Belagiannis等人[8]也利用跟踪信息，但他们得出胡-{dm（c）∈R 2}作为骨架关节j ∈ {1，2，.，J}，其中m作为候选索引。这里，t在处理当前帧时默认被忽略去-将 fmn（c）记为连接 dm（c）和 dn（c）的PAF分数， i j i j人提前跟踪之前减少状态空间，而不是同时解决跟踪和匹配问题。布里奇-曼等人。[10]该方法是一种实时方法，但它采用了图像解析、跨视图校正和时间跟踪的顺序处理。在Panoptic Studio [24]中，在对整个序列的3D关节建议进行时间跟踪后，开始进行人工装配的优化。3. 概述我们的4D关联图考虑了两个连续帧中的信息。我们首先在当前帧的每个输入视图上使用现成的自下而上的人体姿势检测器[11]，以在每个视图上生成低级人体特征。我们的4D关联图将多视图人体部位候选者（2D热图位置）和身体部位之间的连接置信度（PAF[11]分数范围在0和1之间）作为输入（参见图1）。2（a）），与先前重建的3D骨架一起。通过将前一帧中的人体部位和三维关节作为图的节点，在节点之间具体地说，如图2（b），存在三种边：每视图解析连接每个图像视图中的相邻身体部分的边缘、跨视图匹配连接跨视图的相同身体部分的边缘、以及连接历史3D节点和2D候选者的时间跟踪边缘。这些边缘的建设将在节阐述。4.第一章基于图1中的输入图。2（b），该4D关联问题可以被描述为最小成本多切割问题，即，一个0-1整数规划问题选择其中{ij}∈ T是骨架拓扑树T上的分支。将候选位置Dj（c）和在前一帧中重建的骨架关节都视为图节点，我们有三种边：每视图解析连接相同视图中的节点的边EP，几何上连接不同视图中的节点的跨视图匹配边EV，以及时间上连接节点的时间跟踪边ET。这个关联图的求解是等价的-用于确定每条边的布尔变量z∈ {0，1}，其中z=1意味着连接的节点在同一人体中相关联，否则z=0请注意，z=0表示两个节点与两个不同的实体链接，或者与假位置（不在真实身体上的假关节）相关联。边上的连接权写为p（z）=p（z=1）。在下文中，在4D关联图中定义每条边的权重。4.1. 解析边和匹配边在不考虑先前重建的三维骨架引入的时间跟踪边的情况下，解析边和匹配边形成了一个三维关联图G3D。这种情况发生在处理整个序列的第一帧时，或者当一个新人进入场景时。图G3D直接扩展了原始的每视图多人解析问题[11]与交叉视图几何匹配约束。利用这些几何约束，单视图情况下的假肢连接可以在关节3D关联时有很好的机会被区分和纠正。将zmn（c1，c2）表示为连接dm（c1）和dn（c2）的边上的布尔变量。显然，一个可行的解决方案那些属于真实骨架和物理的边缘，ically真正的时间和跨视图的边缘，见图。第2段（c）分段。实际上，我们的图模型类似于可用的单视图关联问题[11，20]，除了它更G3D上的{zmn（c1，c2）}Σ复杂.由于这是一个NP难问题，我们将其拆分为4D肢体解析（Sect. 5.1）和骨架组装（节。5.2）问题。Ourproposedsolvingmethodcanguaranteere-altimeperformance while obtaining robust results.在这里，值得一提的是，我们的图模型和求解第二次世界大战你好，c1，m，zmn（c，c）≤1nΣzmn（c1，c2）≤1n（一）该方法也适用于没有时间边缘的特殊情况，即，在整个序列的第一帧处，或者当新人进入场景时。4. 4D关联图对于每个图像视图c∈ {1，2，.，在当前帧t处，首先应用卷积姿态机（CPM）模型[41，11]以获得关键点的热图以及它们的部分亲和域（PAF）。表示Dj（c）=具体地说，上一个力，没有两个边缘共享一个节点，即，没有两个相同类型的分支（例如，左前臂）共享一部分。底部的一个强制一个视图中的任何关节都不连接到另一个视图中相同类型的两个关节。还要注意，这里c1和c2表示视图对的所有可能的组合。对于每视图解析边EP，我们直接将输入边权重定义为其PAF得分：p（zmn（c）= 1）=fmn（c）（2）ij ij1327我我IJII我我我图2.方法概述。(a)我们输入在时间t的身体部位位置和不同视图的连接置信度，以及最后一次的3D人物。例如，我们使用三个视图。(b)4D关联图为了清楚起见，我们只突出显示躯干肢体与三种不同颜色的边（解析边、匹配边和跟踪边）的关联。 (c)从初始图（b），我们的关联方法输出组装结果。（d）我们优化组装的多视图2D骨架（c）以形成当前帧t的3D骨架。对于交叉视图匹配边缘EV，基于极线距离定义权重，写为线到线距离。[0，1]。类似地，我们有不等式条件对可行解空间成立：3D空间中的距离：MN1mnΣ卡普里角，z∈（c）≤1，Σz（c）≤1（6）p（zii（c1，c2））=1−Zdi（c1）<$di（c2）（3）mkd（c）<$d（c）=d（K−1d<$（c），K−1d<$（c））（4）此约束强制最后一帧处的每个3D关节12c11c22在曲线处的每个视图上匹配的2D关节不超过一个其中，d（·，·）表示从摄像机视角中心c1和c2发射的两条光线之间的线到线距离。 Z是经验定义的归一化因子，其将核线距离调整到范围[0，1]。请注意，我们只为那些共享相同联合索引的跨视图节点构建边。4.2. 跟踪边缘虽然在每个时刻求解G3D在大多数情况下可以提供良好的关联，但对于非常拥挤的场景或严重的遮挡可能会失败。提高租金框架，反之亦然。4.3. 目标函数基于解析边缘、匹配边缘和跟踪边缘的预定义概率，我们的4D关联优化可以被公式化为边缘选择问题，以在以下条件下最大化目标函数：第1和第6行。具体地，令q（z）=p（z）·z表示边缘的最终能量，其中z是布尔变量，并且那么我们的目标函数可以写为EP，EM和ET中所有选定边的能量之和：骨架重建鲁棒性，我们利用时间先验，即，重建的骨架E（Z）=wpΣq（zmn（c，c））+wmΣq（zmn（c1，c2））前框架的正则化的关联问题，形成了4D关联图G4D。我们通过要求前框架骨架和当前框架关节特征之间的连接边，+wtΣΣq（z<$（c））（七）边的节点是同一个骨架关节（可以在不同的人身上）。将z（c）表示为最终优化的注意，这里将遍历所有可能的边，即，所有变量（i，j，m，n，k，c，c1，c2）的可行值。imwp、wm和wt是根据经验定义的加权因子bool变量，用于连接图像关节特征di（c）和骨架关节Xk的边缘。我们将跟踪边连接概率定义为p（zmk（c））=1−1d′（Xk，K−1dm（c））（5）分别对于边EP、EM和ET当wt=0时，它退化为求解关联图G3D的目标函数.请注意，这两个G3D和G4D可以解决相同的程序，如节中所述.五、iTi c i其中d′（X，d）表示3D点X和从相机中心发射到d的3D线之间的点到线距离，T是归一化因子，确保p（z∈（c））在范围13285. 解决4D关联求解4D关联图意味着最大化目标函数Eqn。7在约束下Eqn. 1和13294D4D4DG4D4D4D14D图3.肢体团的插图（a）表示为Gij的分支{ij}上的样本4D图。两个集团被标记为红色区域和蓝色区域。（b）可以从肢体上的4D图中提出不同大小的肢体团肢体团上相同类型的关节（上图中相同颜色）形成团，每个视图上不同类型的关节必须共享绿色解析边。等式6.对于实时系统来说，以蛮力的方式遍历巨大的关联空间是不可行的。相反，受实时但高质量的解析方法[11]的启发，该方法以贪婪的方式组装2D人体骨架，我们提出了一种实时4D关联求解器。我们的4D关联与之前的2D关联之间的关键区别在于：候选肢体不仅在单个图像中分散，而且在整个空间和时间中分散，并且一些肢体表示相同的物理肢体。因此，我们需要在4D电子束组装之前，首先将那些在视图和时间上可能是相同肢体束的肢体相关联。基于这个想法，我们的实时解决方案可以分为两个步骤：4D肢束联合（Sect. 5.1），和4D人体骨骼关联的bundle Kruskal的算法（节。5.2）。值得注意的是，这两个步骤都依赖于目标函数Eqn。7优化。5.1. 4D肢体束解析图4.肢体束解析过程的图示（a）初始图Gij。正方形/立方体表示一个肢体（2D或3D），每条灰色虚线表示一条边。(b)从（a）检测到的最佳团（肢体束）以蓝色显示。(c)然后，我们删除与最佳团相关的肢体和边缘，并提取下一个最佳团。（d）最后，检测到所有集团我们可以提取没有时间边缘的集团，就像橙色的。用团大小正规化E（ZGC）|VC|并加入一个惩罚项来平衡团的大小和平均概率。总的来说，肢体团的目标函数是E（GC）=E（ZGC）/|VC|+ wvρ（|VC|）（8）其中wv是平衡权重，ρ是Welsch鲁棒损失[13，5]，定义为为了跨视图和时间提取肢体束，我们首先将肢体{ij}（两个相邻类型的关节）上的G 4 D限制为Gij。由于场景中有多个人，ρ（x）=1−exp.Σ-（x/c）22（九）ij可以包含多个真实肢体束。理论上，每个实肢束包含两个关节团。为了清楚起见，团是指每两个节点连接的图[42]，见图。例如，3（a）。这意味着肢体束中相同类型的每两个关节必须共享一个横视图边缘或一个颞侧边缘。通过进一步考虑解析边，正确的4D肢体束由与每个视图上的解析边连接的两个关节团我们把这样的候选分支束称为分支团。图3（b）这里，c=（N-1）/2是取决于视图总数的参数。图4说明了肢体束解析过程。在选择一个肢体团并将其标记为肢体束之后，我们将其从Gij中移除（图2）。4（b）），连同所有其他边缘连接任何关节在这个集团（图。4（c））。通过这样做，我们的解决方案总是符合可行不等式（1，6）。这个选择过程迭代直到Gij列举了所有可能的肢体集团图。第3（a）段。因此，我们在此步骤中的目标是搜索所有可能的肢体团{GC|GCGij}表示真实的肢体束。我们根据以下公式用E（ZGC）来测量每个肢体团目标函数7.然而，直接最大化E（ZGC）将总是鼓励尽可能多的边在团中被选择，甚至是假边。所以我们是空的（图）4（d））。5.2. 4D骨架装配生成所有4D肢体束后，我们需要将它们组装成多个4D人体骨骼结构。我们首先根据分数对所有4D肢体束进行排序，并建立一个优先级队列来存储它们。在每1330次迭代中，1331我们从具有最大分数的队列中弹出4D肢体束（基于等式118），并将其合并到4D的tons。在此合并过程中，所有2D关节（属于此束，来自不同视图）应具有相同的标记人员ID。然而，由于新添加的肢体束可能与已经分配的一些肢体束共享相同的4D关节，因此当这些2D关节已经在先前迭代中在不同视图上标记有不同的人ID时，将出现冲突，参见图1B。第五条（a）款。为了消除这种冲突，我们提出了一种简单而有效的方法，即根据关节被分配给的人将新添加的肢体束拆分为小肢体束（图11）。第5（b）段）。然后，我们重新计算每个小束的目标函数，并推回到先前的队列进行进一步的组装。如果没有冲突，我们将束合并到骨架中并标记2D关节。我们不断地弹出和合并，直到队列为空（图。5（c））。我们把上面的方法称为Kruskal算法。在单视图的情况下，不会有冲突，我们的方法退化为传统的Kruskal5.3. 参数优化基于2D视图图像上的4D骨架组装结果，我们可以通过嵌入参数化骨架来我们最小化能量函数E（Θ）=w2DE 2D+w形状E形状+w温度E温度（10）其中E2D是将每个视图上的2D投影与检测到的关节对齐的数据项，E形状优先于人类形状（例如，骨长度和对称性），并且Etemp是时间平滑项（w2D、wshape和wtemp是平衡权重，如果不存在时间信息，则wtemp=0）由于该拟合过程是一个经典的优化步骤，请参考[9，44，29]了解详细信息。在时间上，我们跟踪每个人，并使用具有高置信度的前五帧的平均骨骼长度（在超过3个相机中可见）作为后面帧中的人的骨骼长度先验。如果一个人丢失了又重新出现，我们只是把他/她当作一个新的人，重新计算骨骼长度。6. 结果在图6中，我们展示了我们系统的结果。仅使用来自稀疏视点的几何信息，我们的方法能够在严重遮挡下实现实时和鲁棒的多人运动捕获（图 1 ）。 6（a）），挑战性的姿势（图。6（b））和微妙的社会互动（图。6（c））。6.1. 实现细节多视角采集系统由5台同步的工业RGB摄像机组成（分辨率为2048×2048）图5.骨架组装过程中的冲突处理。(a)要添加的肢体束它包含3个视图上的3个解析边在这种情况下，每个解析边包含一个要组装的关节（黑色节点）和一个在先前迭代中已经组装的关节（蓝色或红色节点）。这里出现冲突，因为蓝色和红色属于不同的人ID。(b)我们根据现有的人ID将原始肢体束分裂成小束。(c)可能的最终组装结果。一台PC，一台3。20GHz CPU和一个NVIDIA TITANRTX GPU。我们的系统实现了30 fps的运动捕捉5人。具体地，对于每一帧，预处理步骤（包括针对多视图输入的去马赛克、去失真和去噪）花费少于lms，CNN推断步骤花费22。对于5幅图像总共需要9ms，4D关联步骤需要11ms，并且参数优化步骤需要少于4ms。此外，我们乒乓CNN推理和4D关联，以实现具有可承受延迟（60ms）的实时性能。有关优化参数的更多详细信息，请参见补充材料。请注意，4D关联管道完全在CPU上实现。此外，在CNN 推理步骤中，将输入的 RGB 图像调整为368×368，并使用Ten- sorRT [40]重新实现关键点和PAF的CNN以进一步加速。6.2. 数据集我们为多人3D骨架跟踪提供了一个新的评估数据集，其中包含由商业运动捕捉系统OptiTrack捕获的地面真实3D骨架[1]。与之前的3D人体数据集[25，21，32，24，8，2]相比我们的数据集包含5个序列，每个序列大约20秒长，使用6个摄像机捕获2-4人的场景。我们的演员都穿着黑色的标记服，用于地面真实骨骼动作捕捉。通过地面真实3D骨架，我们的数据集可以对2D解析和3D跟踪算法进行更有效的定量评估。请注意，除了使用所提出的数据集评估我们的方法外，我们还提供了使用Shelf和Panoptic Studio数据集的评估结果，这些数据集遵循先前的工作[8，7，14]。1332图6.我们系统的结果。从上到下：输入图像、三维人体重投影和三维可视化。 (a)我们的实时捕获数据具有快速运动（左），严重遮挡（中）和拥挤的场景（右）。使用了5个视图。(b)我们的数据集与无纹理的服装和丰富的运动。使用了6个视图。(c)Panoptic studio数据集与自然的社会互动。使用了7个视图6.3. 定量比较我们使用货架数据集和我们的测试数据集与最先进的方法进行定量比较货架数据集的定量比较见表。1.受益于我们的4D关联公式，我们实现了比基于3DPS的时间跟踪方法（[8，6，7，16]）和基于外观的全局优化方法[14]更准确的结果。我们还根据“精度”（所有估计关节中正确关节的比例）和“召回”（所有地面真实关节中正确关节的比例）在我们的测试数据集上与[14]进行比较如果关节到地面真实关节的欧几里得距离小于阈值0，则关节是正确的。2m. 如Tab.所示2，我们的方法在这两个指标下都优于[14]Shelf A1 A2 A3Avg Belagianniset al. [6] 66.1 65.083.271.4[2] Belagianniset al. [8] 75.0 67.0 86.0 76.0Belagiannis等人[7] 75.3 69.7 87.6 77.5Ershadi-Nasab等人[16] 93.3 75.9 94.8 88.0Dong等人[14] 97.2 79.5 96.5 91.1*Donget al. [14] 98.8 94.197.896.9†# Tanke etal. [39]99.890.0 98.0 96.0†我们的（决赛）99.096.297.697.6表1.使用正确部件的使用年限百分比（PCP）指标对货架数据集进行定量比较。“*"表示具有外观信息的方法，”†“表示具有时间信息的方法，”#“表示没有头部的精度。平均结果在“平均值”列中我们的数据集东[14]我们的（最终）精密度（%）71.088.5召回率（%）80.290.2表2.与[14]使用我们的测试数据集进行比较图7.与两步流水线的比较上图是关联结果，下图是3D姿态的重投影。请注意，由两步流水线生成的3D姿态的重投影由于错误解析而明显偏离正确位置。6.4. 定性比较为了进一步证明我们的自下而上系统的优点，我们与最先进的方法[14]进行定性比较，该方法利用自上而下的人类姿势检测器[12]来执行单视图解析。定性结果如图所示8，从中我们可以看出，自顶向下的方法严重依赖于实例propos- als，并可能产生假阳性人体姿态检测恶化跨视图匹配性能（左情况）。此外，按视图解析将无法在严重遮挡下推断出正确的人类姿势，从而使姿势重构结果恶化（右）。相反，由于相对精确的低级功能（例如，关键点）和强大的4D asso-1333图8.与Dong[14]在Shelf上的定性比较（左图）和我们捕获的数据（右图），两者都有5个相机。对于每一种情况下，我们显示关联结果和重新投影的3D构成两个样本视图。对于3D可视化，我们展示了侧视图渲染和俯视图渲染以进行清晰的比较。关联算法，在我们的结果中，关节关联得更准确。架A1A2A3Avg两步98.183.897.693.1无跟踪96.586.897.093.4我们的（最终）99.096.297.697.6表3.货架数据集上的消融研究。“两步”意味着首先进行逐视图解析，然后进行跨视图匹配。“无跟踪”意味着我们在每一帧中解决G3D问题。“两步”和“w/o跟踪”都使用三角测量来推断3D姿态。数字为正确零件的百分比（PCP）。6.5. 消融研究带/不带跟踪。我们首先评估跟踪边缘在4D图形中。通过直接使用G3D将二维物体三角化为三维物体，我们消除了跟踪边的使用.结果在Ta中标记为布莱。3.在不使用跟踪边缘的情况下，我们的方法仍然表现出合格的结果，并且优于最先进的方法[14]（93.4% vs 91.1%）。此外，我们的4D关联方法在混乱的场景中更鲁棒（“我们的（最终）”，如表所示。（3）第三章。请比较两级管道。我们实现了一个两步管道进行比较，通过使用[11]来解析每个视图中的人，然后使用团进行人匹配搜索方法，目标函数定义在解析的物体上。注意，没有使用时间信息，并且通过三角测量获得3D姿态结果在表中显示为3.如表中所示。3.我们的每帧G3D解决方案为了展示我们强大的-为了避免每个视图解析的歧义，我们只使用3个视图来重建2个人（图1）。（七）.一个视图上的错误解析结果将损害推断的3D姿势，特别是当非常稀疏的视图可用时。7. 结论提出了一种基于稀疏视点的实时多人运动捕捉方法。直接建立在低层检测特征之上，我们将解析、匹配和跟踪问题同时公式化到统一的4D图关联框架中。新的4D关联公式不仅能够实现实时运动捕捉性能，而且还实现了最先进的精度，特别是对于拥挤和近距离交互场景。此外，我们还贡献了一个新的测试数据集，用于多人运动捕捉和地面真实3D姿势。我们的系统缩小了实验室无标记运动捕捉系统和工业应用在现实世界场景之间的差距。最后，我们的新的4D图形配方可能会刺激未来的研究在这个主题。鸣谢。本文得到国家重点研究发展计划项目[2018YFB2100500] 和国家自然科学基金资助项目No.61531014和No.61861166002的资助。1334引用[1] Optitrack标记mocap。https://www.optitrack的网站。com.[2] Nvd Aa，X Luo，G Giezeman，R Tan和R Veltkamp。乌得勒支多人运动（umpm）基准：具有同步视频和运动捕获数据的多人数据集，用于评估关节连接的人的运动和交互。2011年ICCV研讨会[3] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在CVPR，2018年。[4] Praneet C Bala ， Benjamin R Eisenreich ， Seng BumMichael Yoo，Benjamin Y Hayden，Hyun Soo Park，andJan Zimmermann. Openmonkeystudio：自由移动猕猴的自动无标记姿态估计。bioRxiv，2020.[5] 乔纳森·巴伦。一种通用的自适应鲁棒损失函数。在CVPR，2019年。[6] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。CVPR，2014。[7] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.3D图像结构再访：多人姿态估计。TPAMI，2016.[8] Vasileios Belagiannis，Xinchao Wang，Bernt Schiele，Pascal Fua，Slobodan Ilic，and Nassir Navab.具有时间一致的3d图像结构的多人姿态估计在ECCV研讨会，2014年。[9] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。[10] Lewis Bridgeman、Marco Volino、Jean-Yves Guillemaut和Adrian Hilton。运动中多人三维位姿估计与追踪。2019年CVPR研讨会[11] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部分亲和性字段的实时多人2D姿势估计。TPAMI，2019。[12] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络。在CVPR，2018年。[13] John E Dennis Jr和Roy E Welsch非线性最小二乘和稳健回归技术统计通信-模拟与计算，1978年。[14] Junting Dong，Wen Jiang，Qixing Huang，Hujun Bao，and Xiaowei Zhou.从多个视图快速和鲁棒的多人3d姿态在CVPR，2019年。[15] Ahmed Elhayek ， Edilson de Aguiar ， Arjun Jain ， JThompson， Leonid Pishchulin，Mykhaylo Andriluka ，Christoph Bregler，Bernt Schiele，and Christian Theobalt.基于Marconiconvnet的室内室外场景无标记动作捕捉。TPAMI，2017。[16] Sara Ershadi-Nasab、Erfan Noury、Shohreh Kasaei和Es-maeil Sanaei。从多视点图像估计多个人的三维姿态多媒体工具和应用，2018年。1335[17] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017.[18] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[19] Eldar Insafutdinov ， Mykhaylo Andriluka ， LeonidPishchulin ， Siyu Tang ， Evgeny Levinkov ， BjoernAndres，and Bernt Schiele.Arttrack：在野外进行多人跟踪。在CVPR，2017年。[20] EldarInsafutdinov 、 LeonidPishchulin 、 BjoernAndres 、 MykhayloAndriluka 和 BerntSchiele 。Deepercut：更深、更强、更快的多人姿势估计模型。在ECCV，2016年。[21] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。TPAMI，2013年。[22] UmarIqbal，AntonMilan，andJuergenGall.Posetrack：联合多人姿势估计和跟踪。在CVPR，2017年。[23] Engin Turetken Pascal Fua Jerome Berclaz ， FrancoisFleuret.使用k-最短路径优化的多目标跟踪TPAMI，2011年。[24] Hanbyul Joo，Tomas Simon，Xulong Li，Hao Liu，LeiTan，LinGui，Sean Banerjee，Timothy Godisart，BartNabbe，Iain Matthews，et al. Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。TPAMI，2019。[25] Vahid Kazemi，Magnus Burenius，Hossein Azizpour，and Josephine Sullivan.使用随机森林的多视图身体部位识别。InBMVC，2013.[26] Li peng Ke，Ming-Ching Chang，Honggang Qi，andSiwei Lyu.用于人体姿态估计的多尺度结构感知网络。在ECCV，2018。[27] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签：基于姿态残差网络的快速多人姿态估计。在ECCV，2018。[28] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu Fang，and Cewu Lu. Crowdpose：高效的拥挤场景姿态估计和新的基准。在CVPR，2019年。[29] Kun Li，Nianhong Jiao，Yebin Liu，Yanang Wang，and Jingyu Yang.使用多视图图像的紧密交互的人的形状和姿态估计。在CGF，2018。[30] Yebin Liu ， Juergen Gall ， Carsten Stoll ， QionghaiDai，Hans- Peter Seidel，and Christian Theobalt.使用多视图图像分割的多个字符的无标记运动捕获TPAMI，2013年。[31] Yebin Liu ， Carsten Stoll ， Juergen Gall ， Hans-PeterSeidel，and Christian Theobalt.使用多视图图像分割的交互角色的无标记运动捕获。CVPR，2011。[32] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在3DV，2017年。[33] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计。在3DV，2018年。1336[34] Xuecheng Nie ， Jiashi Feng ， Jianfeng Zhang ， andShuicheng Yan.单级多人姿势机器。在ICCV，2019年。[35] George Papandreou 、 Tyler Zhu 、 Liang-Chieh Chen 、Spyros Gidaris、Jonathan Tompson和Kevin Murphy。人员-实验室：使用自下而上、基于部分的几何嵌入模型进行人体姿态估计和实例分割。在ECCV，2018。[36] Leonid Pishchulin ， Eldar Insafutdinov ， Siyu Tang ，Bjoern Andre

下载后可阅读完整内容，剩余1页未读，立即下载