没有合适的资源?快使用搜索试试~ 我知道了~
164570ArtTrack:野外多人关节跟踪0Eldar Insafutdinov,Mykhaylo Andriluka,Leonid Pishchulin,Siyu Tang0Evgeny Levinkov,Bjoern Andres,Bernt Schiele0德国马克斯普朗克计算机信息学院萨尔兰信息学校园0摘要0在本文中,我们提出了一种在无约束视频中进行关节跟踪的方法。我们的起点是一个类似于现有单帧姿势估计架构但速度更快的模型。我们通过两种方式实现这一目标:(1)简化和稀疏化身体部位关系图,并利用最近的快速推理方法,(2)将大部分计算任务转移到能够在混乱环境中检测和关联同一人物的身体关节的前馈卷积架构上。我们使用这个模型生成身体关节位置的提议,并将关节跟踪形式化为这些提议的时空分组。这样可以通过将强检测的证据在时间上传播并强制执行每个提议只能分配给一个人的约束来共同解决场景中所有人的关联问题。我们在公开的“MPII HumanPose”基准测试和新的“MPII VideoPose”图像序列数据集上报告了结果。我们证明了我们的模型在使用更少时间的情况下实现了最先进的结果,并且能够利用时间信息来改进拥挤场景的最先进技术。01. 引言0本文讨论了单目视频中的关节人体姿势跟踪任务。我们关注的是现实复杂性的场景,这些场景通常包括快速运动、外观和服装的大变化以及人与人之间的遮挡。因此,一个成功的方法必须能够确定人数。01 模型和“MPII VideoPose”数据集可在pose.mpi-inf.mpg.de/art-track上获得。0图1. 我们方法的关节跟踪示例结果。0在每个视频帧中的人群中,确定每个人的关节位置并在时间上关联这些关节。在这样的场景中,一个关键的挑战是人们可能重叠,并且由于人与人之间的遮挡或图像边界的截断,每个帧中可能只能看到人的一部分关节(参见图1)。可以说,正确解决这些情况需要超越纯几何信息的推理,需要结合各种图像线索和多人关节建模。我们模型的设计受到两个因素的启发。我们希望利用自底向上的端到端学习来直接捕捉图像信息。同时,我们的目标是解决一个复杂的多人关节跟踪问题,该问题不自然地适用于端到端的预测任务,并且训练数据通常不足以进行端到端学习。为了利用可用的图像信息,我们使用卷积网络学习了一个将身体关节与特定人物关联的模型,以端到端的方式。然后,我们将这些部分到人物的关联响应合并到一个框架中,以共同推理图像内和随时间变化的身体关节的分配。为此,我们使用了过去用于人物跟踪和姿势估计的图分割公式[24,22],但尚未显示其能够实现关节人物跟踪。为了在视频中实现高效的推理,我们采用了快速的方法。64580基于局部组合优化的推理方法[19]以及旨在保持变量之间连接数量最少的稀疏模型。正如我们所证明的,与最先进的方法相比,结合前馈推理进行关节到人物的关联,这使我们能够实现显著的加速,同时保持相同的准确性水平。这项工作的主要贡献是一种新的关节跟踪模型,通过在每个帧和随时间的底部组装部分检测来运作。与[11,21]相比,该模型适用于未知数量的主体场景,并通过在多个人之间共同推理,包括人与人之间的排除约束,并将强观测传播到相邻帧。我们的第二个贡献是一种单帧姿势估计的公式,它依赖于身体部位之间的稀疏图和在人物位置条件下生成身体部位提议的机制。这与最先进的方法[22,13]不同,后者在完整图中执行昂贵的推理,并依赖于通用的自下而上提议。我们证明了一个只有少数空间边缘的稀疏模型在与完全连接模型相比具有竞争力的性能,同时更加高效。值得注意的是,一个以自上而下/自下而上方式运作的简单模型在推理时间上超过了完全连接模型的性能,速度提高了24倍(参见表3)。这是因为将关于身体部位关联的大部分推理任务转移到了前馈卷积架构上。最后,我们为评估拥挤的现实环境中多个重叠人物的关节跟踪而贡献了一个新的具有挑战性的数据集。相关工作。卷积网络已经成为一种有效的方法,用于定位图像中的人体关节[27, 28, 20,13],并且已经扩展到随时间估计身体配置[11]和在多摄像机设置下的室外环境中进行3D姿势估计[9,10]。目前的方法对于单个人的身体配置估计越来越有效[27,28, 20, 5,11],在这个任务上取得了很高的准确性,但在快速移动和关节活动方面仍然存在问题。最近的更复杂模型可以共同推理整个场景[22, 13,15],但对于直接推广到图像序列来说太复杂和低效。最近的前馈模型能够共同推断同一人的身体关节,甚至可以随时间变化[11],但仅考虑孤立的人,不能推广到多个重叠的人的情况。类似地,[6,21]考虑了追踪孤立直立个体的上半身姿势的简化任务。我们建立在最近的CNN检测器[13]的基础上,这些检测器在杂乱场景中定位身体关节非常有效,并探索了将关节组装成多人配置的不同机制。为此,我们依赖于一个图0与 [24, 22, 13] 密切相关的分区方法。与专注于行人跟踪的[24] 不同,以及执行单帧多人姿态估计的 [22, 13]不同,我们解决了一个更复杂的问题,即多人姿态跟踪。早期的单目视频中的姿态跟踪方法依赖于手工制作的图像表示,并专注于简化的任务,例如跟踪正面孤立人物的上半身姿势,或者跟踪步行行人的姿势,其关节度很小。相比之下,我们解决了一个更困难的多人关节姿态跟踪问题,并且不对人体运动或活动的类型做出假设。我们的方法与 [16]密切相关,他们提出了一个基于图分区的类似公式。我们的方法与 [16]的区别主要在于身体部位提议的类型和时空图的结构。在我们的方法中,我们引入了一个人条件模型,该模型在检测阶段就被训练用于关联特定人物的身体部位。这与 [16]的方法不同,后者依赖于通用的身体部位检测器[13]。概述。我们的模型由两个组成部分组成:(1)用于生成身体部位提议的卷积网络和(2)将提议分组成时空聚类的方法。在第 2 节中,我们介绍了一个遵循 [24]的多目标跟踪的一般公式,并允许我们在统一的框架中定义姿态估计和关节跟踪。然后我们在第 3节中描述了我们的关节跟踪方法的细节,并介绍了我们的公式的两个变体:自下而上(BU)和自上而下/自下而上(TD/BU)。我们在第 4 节中呈现实验结果。02. 时空分组跟踪0我们的身体部位检测器为视频的每一帧生成一组提议 D = {d i}。每个提议由 d i = (t i, dpos i, π i, τ i) 组成,其中 t i 表示视频帧的索引,d pos i是提议在图像坐标中的空间位置,π i 是正确检测的概率,τ i是身体关节的类型(例如脚踝或肩膀)。设 G = (D, E) 是一个图,其节点 D是视频中的关节检测,边 E 连接假设对应于同一目标的检测对。跟踪算法的输出是图 G的子图 G' = (D', E'),其中 D' 是经过滤除冗余和错误检测后的节点子集,E'是连接对应于同一目标的节点的边。我们指定 G'0通过二进制变量 x ∈ {0, 1}D 和 y ∈ {0, 1}E 来定义包含在G' 中的边和节点的子集。特别地,每个轨迹对应于 G'中的一个连通分量。为了引入对边配置的约束,以确保其对应于有效的跟踪解决方案,我们引入一个集合 Z � {0, 1}D ∪E,并定义边和节点指示变量的组合为可行的,如果p(ye|ge), (1)min(x,y)∈Z�d∈Dcdxd +�e∈Edeye ,(2)∀e = vw ∈ E :yvw ≤ xv(3)∀e = vw ∈ E :yvw ≤ xw(4)∀C ∈ cycles(G) ∀e ∈ C :(1 − ye) ≤�e′∈C\{e}(1 − ye′)(5)64590只有当 (x, y) ∈ Z 时才成立。通过 Z编码的约束条件的一个例子是,y包含的边的端点节点也必须被 x 包含。注意,变量 x 和 y是通过 Z 耦合在一起的。此外,假设 (x, y) ∈Z,我们可以自由地独立设置 x 和 y的分量以最大化跟踪目标。给定图像观测,我们计算图中每个节点和边的一组特征。我们将这样的节点和边特征分别表示为 f 和 g。假设特征向量独立,给定可行集Z,节点的指示函数 x 和边的指示函数 y 的条件概率是0p(x, y | f, g, Z) ∝ p(Z | x, y)0d ∈ D p ( x d | fd )0其中 p ( Z | x, y )为每个可行解分配一个常数非零概率,否则为零。最小化等式1的负对数似然等价于求解以下整数线性规划问题:0其中 c d = log p ( x d 0p ( x d =0 | f d ) 是将 d 保留为部分的成本0p ( y e =0 | g e ) 是将通过边 e连接的检测分配给同一轨迹的成本。我们定义约束集合 Z 如[ 24 ] 中所述:0与等式2的目标一起,约束(3)-(5)定义了最小成本子图多切割问题的一个实例[ 24]。约束(3)和(4)确保节点和边变量的分配是一致的。约束(5)确保对于任意两个节点,图G中连接这些节点的路径要么全部包含在子图G'的一个连通分量中,要么全部不包含。这个约束是为了根据特定连通分量中的成员身份来唯一地分配人的身份。03. 关节多人跟踪0在第2节中,我们介绍了通过解决子图多切割问题来进行多目标跟踪的一般框架。子图多切割问题是NP难的,但最近的工作[ 24 , 19]表明可以通过局部搜索方法进行高效的近似推断。0帧 t0帧 t 帧 t+10(a) (b) (c) 图2. 我们模型中稀疏连接 (a)、吸引-排斥边 (b) 和时间边(c)的可视化。为了清晰起见,我们只显示了部分吸引/排斥边和时间边。0该框架允许使用各种图形和连接模式。简单的连接模式可以加快和更高效地处理,但代价是忽略了一些潜在的信息依赖关系。我们的目标是设计一个尽可能高效的模型,尽量减少边的数量,同时在拥挤场景中具有良好的效果,并允许我们建模时间连续性和人与人之间的排斥关系。我们的关节跟踪方法通过构建一个图G来将同一帧内和相邻帧之间的身体部位提案进行耦合。一般来说,图G将具有三种类型的边:(1)图2(a)和图3(b)中显示的交叉类型边,连接不同类型的两个部位,(2)图2(b)中显示的相同类型边,连接同一图像中相同类型的两个节点,以及(3)图2(c)中显示的时间边,连接相邻帧中的节点。我们现在定义了我们的模型的两个变体,分别称为自底向上(BU)模型和自顶向下/自底向上(TD/BU)模型。在BU模型中,我们使用我们公开可用的卷积部位检测器[ 13]2生成身体部位提案。在TD/BU模型中,我们用一个新的卷积身体部位检测器替换这些通用的部位检测器,该检测器在人的位置条件下输出一致的身体配置。这进一步减少了模型图的复杂性,因为关联身体部位的任务在提案机制内部解决。正如我们在第4节中所示,这导致了性能上的显著提升,并且允许更快的推断。请注意,BU模型和TD/BU模型具有相同类型和时间成对项,但在交叉类型成对项的形式和节点在G中的连接方面有所不同。对于这两个模型,我们依赖于[19 ]中的求解器进行推断。03.1. 自底向上模型(BU)。0对于每个身体部位提案di,检测器输出图像位置、检测概率π i和标签τi,该标签指示检测到的部位类型(例如肩膀或脚踝)。我们直接使用检测概率来计算方程2中的一元成本,即c d i =log(π i / (1 - π i))。图像02 http://pose.mpi-inf.mpg.de/64600根部分热图人条件热图TD预测(c)0(a)0肩膀提案0膝盖提案0人体检测节点0(b)0TD/BU预测0TD/BU图0图3。(a)显示了自上而下模型的处理阶段的示例,其中人们之间有明显的重叠。左:下巴(=根部分)的热图,用于根据背后(上)和前面(下)的人的位置对CNN进行条件化。中间:所有身体部位的输出热图,注意前面人的手臂估计中的模糊性。右:每个人的TD预测。(b)自上而下/自底向上图的示例。红色虚线表示必须切割的约束。请注意,不同类型的身体部位提案与人节点相连,但彼此之间没有连接。(c)自上而下/自底向上预测。请注意,TD/BU推理正确地分配了前面人的前臂关节。0在这种情况下,特征f d对应于卷积网络生成的图像表示。我们考虑图G中节点的两种连接模式。我们可以为每对提案定义边,从而在每个图像中得到一个完全连接的图。或者,我们可以仅为部分类型的部位定义边,如图2(a)所示,从而获得模型的稀疏版本。稀疏版本的理论基础是通过省略那些关于彼此图像位置的信息较少的部位之间的边,获得一个更简单和更快的模型。边缘成本。在我们的自底向上模型中,连接两个身体部位检测d i 和d j 的边缘d e 的成本被定义为检测类型τ i 和τ j的函数。根据[13],我们为每对部位类型训练一个回归函数,预测该对中部位的相对图像位置。成本d e是由逻辑回归的输出给出的,该输出是根据预测和实际位置的偏移和角度计算的特征。有关这些成对项的更多详细信息,请参阅[13]。请注意,我们的模型推广了[24],因为边缘成本取决于边缘连接的节点类型。它还推广了[22,13],允许G是稀疏的。这是通过用更一般的循环约束(5)重新表述模型来实现的,而不是[22,13]中使用的简单三角不等式。03.2. 自上而下/自底向上模型(TD/BU)0现在,我们介绍了我们模型的一个版本,该版本首先根据图像中人的位置生成身体部位提案,然后进行联合0请参阅[22]中的第2.1节0将这些提案归为对应于不同人的时空聚类的推理。我们遵循这样的直觉,即相对于正确地将脚踝和手腕等身体部位与每个人正确关联起来,识别和检测个体人员(例如通过检测他们的头部)要容易得多。我们选择人的头部作为代表人位置的根部分,并将与头部位置对应的人的身体部位的识别任务委托给卷积网络。0TD/BU模型的结构如图3所示0(b)对于两个不同头部检测的简化情况。我们将所有根部位检测的集合表示为Droot ={drooti}。对于每对根节点,我们明确设置相应的边指示变量ydrootj,drootk =0。这实现了这些节点之间的“必不相连”约束,并与循环不等式(5)结合使用,意味着每个提议只能连接到“人节点”之一。连接检测提议dk和“人节点”drooti的边的成本基于由卷积网络生成的条件分布pdck(dposk |drooti)。这样的网络的输出是一组条件分布,每个节点类型一个。我们根据第3.3节和第3.4节中描述的方法,将图G与吸引/排斥和时间项相结合,并将所有指示变量xd的一元成本设置为常数。任何未连接到任何根节点的提议都被排除在最终解决方案之外。我们使用[19]中的求解器以保持一致性,但也可以使用像[24,18]中那样的简化的基于KL的求解器,因为TD/BU模型有效地忽略了一元变量xd。TD/BU模型的处理阶段如图3所示。请注意,身体部位的热图会根据人的身份信号而改变。+64610conv1 - conv4_40预测所有人的所有部位0根部位热图0合并上游0人条件块0肘部和髋部0膝盖0最终预测0conv5_3 空间传播... ... ...0图4.基于ResNet-101的CNN架构,用于计算以人为条件的提议和成对项。为了清晰起见,省略了conv4_8处的肩部SP块。0由人的脖子提供,自下而上的步骤能够纠正前方人的前臂预测。实现细节。对于头部检测,我们使用包含两个头部部分(颈部和头顶)的模型版本。这使得我们的TD/BU模型与[13]中定义的分层模型相关,该模型也使用易于检测的部分来引导其余的推理过程。然而,在这里,我们用卷积网络替换了分层推理中除第一个之外的所有阶段。用于生成以人为条件的提议的卷积网络的结构如图4所示。网络使用来自[12]的ResNet-101,我们修改了该网络的步幅,将其降低到8个像素[13]。网络在conv4_4块之后为所有身体部位生成预测。我们在这个阶段使用交叉熵二元分类损失来预测部位热图。在每次训练迭代中,我们向网络传递一张图像,图像中可能有多个人彼此接近。我们从图像中选择一个人,并通过将颈关节的热图在地面实况区域之外归零来将网络条件化于该人的颈部位置。然后,我们将颈部热图通过卷积层传递,以匹配特征通道的维度,并将其添加到ResNet的主流中。最后,在网络的末尾添加一个关节预测层,其中的损失只有当预测与所选人的身体关节相对应时才被认为是正确的。空间传播(SP)。在我们的网络中,人的身份信号由头部的位置提供。原则上,网络的感受野大小足够大,可以将这个信号传播到所有身体部位。然而,我们发现引入一种额外的机制来传播人的身份信号是有用的。为此,我们按照运动学接近根关节的顺序为各个身体部位放置中间监督层(图4)。我们在conv4_8处放置肩部的预测层,在conv4_14和conv4_18处放置肘部和髋部的预测层,在conv4_18处放置膝盖的预测层。我们经验证明,这种显式的空间传播形式显著提高了关节(如脚踝)的性能,这些关节通常在图像空间中远离头部(详见表2)。0训练。我们使用Caffe的[17]ResNet实现,并从ImageNet预训练模型进行初始化。网络在MPII人体姿势数据集[1]上使用SGD进行100万次迭代训练,学习率采用阶梯式调整(lr=0.002,训练400k次后,lr=0.0002,训练300k次,lr=0.0001,训练300k次)。03.3. 吸引/排斥边缘0吸引/排斥边缘在同一图像中的同一类型的两个提议之间定义。这些边缘的成本与距离成反比[13]。决定是否将两个节点分组是基于整个图像的证据,这与仅基于两个检测状态的非极大值抑制不同。相反,这些边缘防止合并同一类型的多个远离的假设,例如防止合并不同人的两个头部。03.4. 时间模型0无论是BU还是TD/BU的帧内模型类型,我们都依赖于相邻帧中相同类型的节点之间的相同类型的时间边缘。我们通过逻辑回归推导出这种时间边缘的成本。给定特征向量gij,两个相邻帧中的提议di和dj对应于相同身体部位的概率为:p(yij = 1 | gij) = 1 / (1 + exp(−�ωt, gij�)),其中gij = (∆L2ij,∆Siftij, ∆DMij, ˜∆DMij),∆L2ij = ∥dposi -dposj∥2,∆Siftij是在dposi和dposj处计算的SIFT描述符之间的欧氏距离,∆DMij和˜∆DMij分别测量与DeepMatching方法[29]计算的密集运动场的一致性。对于SIFT特征,我们指定检测提议的位置,但依靠SIFT来识别局部方向。在方向估计中存在多个局部极大值的情况下,我们为每个方向计算SIFT描述符,并将∆Siftij设置为所有描述符对中的最小距离。我们发现这使得SIFT距离在存在身体肢体旋转时更加稳健。我们将特征∆DMij和˜∆DMij定义为[25]中的定义。令Ri=R(di)为以部位提议di为中心的平方图像区域。我们将∆DMij定义为在Ri∧Rj中的点数的比率。of point correspondences between the regions Ri and Rjand the total number of point correspondences in either ofthem. Specifically, let C = {ck|k = 1, . . . , K} be a set ofpoint correspondences between the two images computedwith DeepMatching, where ck = (ck1, ck2) and ck1 and ck2 de-note the corresponding points in the first and second imagerespectively. Using this notation we define:k1ik2j}|.(6)64620∆DMij = |{ ck | ck1 ∈ Ri ∧ ck2 ∈ Rj }|0通过聚合多个对应关系来计算∆DMij的理由是使特征对异常值和身体部位检测的不准确性具有鲁棒性。类似地,通过反转图像顺序获得的DeepMatching对应关系来定义˜∆DMij。讨论。正如我们在第4节中所示,我们发现上述特征集彼此之间是互补的。对于慢速运动,提议之间的欧氏距离对于找到对应关系是有信息的,但对于更快的运动和多人存在的情况则失败。DeepMatching通常能够有效地找到两个图像之间的对应区域,但在快速运动或身体肢体方向发生大变化的情况下偶尔会失败。在这些情况下,由于其旋转不变性,SIFT通常仍能提供有意义的相似度度量。04. 实验04.1. 数据集和评估指标0单帧。我们在MPII多人数据集[1]上评估我们的单帧模型。我们在随机采样的200张验证集图像(MPII多人验证集)上报告所有中间结果,而在测试集上报告主要结果和与现有技术的比较。视频。为了评估基于视频的模型,我们引入了一个新的“MPII视频姿势”数据集[4]。为此,我们从MPII多人数据集中手动选择了具有高度关节活动的拥挤场景的具有挑战性的关键帧。除了每个关键帧外,我们还包括相应公开可用视频序列中的前后10帧,并在每秒帧上进行注释[5]。每个身体姿势都是按照标准注释过程[1]进行注释的,同时在整个序列中保持人的身份。与MPII多人不同,其中一些帧可能包含未注释的人员,我们注释了视频中参与活动的所有人员,并为包含密集人群的区域添加了忽略区域(例如静态观众)04 数据集可在pose.mpi-inf.mpg.de/art-track获取。5原始关键帧中的注释保持不变。0设置 头 肩 肘 腕 臀 膝 踝 AP τ CNN τ graph0BU-full,label 90.0 84.9 71.1 58.4 69.7 64.7 54.7 70.5 0.18 3.06 BU-full91.2 86.0 72.9 61.5 70.4 65.4 55.5 71.9 0.18 0.38 BU-sparse 91.1 86.570.7 58.1 69.7 64.7 53.8 70.6 0.18 0.220TD/BU + SP 92.2 86.1 72.8 63.0 74.0 66.2 58.4 73.3 0.94 7 0.080表1.BU模型的不同变体对MPII多人验证集上姿势估计性能(AP)的影响,并与TD/BU模型的最佳变体进行比较。0舞蹈序列)。总共,我们的数据集包含28个序列,超过2,000个注释的姿势。评估细节。使用平均精度(AP)度量[22]评估姿势估计准确性。对于每个算法,我们还报告了提案生成的运行时间τ CNN和图划分阶段的运行时间τgraph。所有时间测量都在单核Intel Xeon 2.70GHz上进行。最后,我们还使用标准的MOTA指标[4]评估跟踪性能。在我们的“MPII视频姿势”数据集上进行评估,使用[1]的公开可用的评估工具包。在MPII多人数据集上,我们遵循官方的评估协议6,并使用提供的粗略组位置和尺度进行评估。04.2. 单帧模型0我们比较了底部向上(BU)模型和顶部向下/底部向上(TD/BU)模型的不同变体的性能,这些模型在3.1节和3.2节中介绍。对于BU,我们考虑了一个模型:(1)使用最多1,000个检测建议的全连接图,并联合执行划分和身体部位标签,类似于[13](BU-full,label);(2)与(1)相同,但是基于检测分数对检测建议进行标记(BU-full);(3)与(2)相同,但使用稀疏连接图(BU-sparse)。结果如表17所示。BU-full,label在中位推理运行时间τgraph为3.06秒的情况下实现了70.5%的AP。BU-full实现了8倍的运行时间减少(0.38 vs.3.06秒/帧):基于检测分数预标记检测候选对象显著减少了问题图中的变量数量。有趣的是,预标记还提高了性能(71.9 vs. 70.5%AP):一些低分数的检测可能会使得寻找最佳标记变得复杂。BU-sparse进一步减少了运行时间(0.22 vs.0.38秒/帧),因为06 http://human-pose.mpi-inf.mpg.de/#evaluation 7我们目前的TD/BU实现在计算人员条件提案时会对整个图像进行操作,并为每个人员顺序计算提案。更高效的实现将仅为围绕人员的区域计算提案,并在单个批次中运行多个人员。显然,在图像中两个人靠近的情况下,仍会多次处理相同的图像区域。然而,远离任何人的图像区域将完全排除在处理之外。平均而言,我们预计在TD/BU和BU-sparse模型的提案生成阶段处理的图像区域相似,并且预计τ CNN的运行时间对于两个模型来说是可比的。TD91.6 84.7 72.9 63.2 72.3 64.7 52.8 71.7TD + SP90.7 85.0 72.0 63.1 73.1 65.0 58.3 72.5TD/BU + SP 92.2 86.1 72.8 63.0 74.0 66.2 58.4 73.3BU-full91.5 87.8 74.6 62.5 72.2 65.3 56.7 72.90.12TD/BU+ SP88.8 87.0 75.9 64.9 74.2 68.8 60.5 74.3 0.005DeeperCut [13] 79.1 72.2 59.7 50.0 56.0 51.0 44.6 59.4485DeeperCut [14] 89.4 84.5 70.4 59.3 68.9 62.7 54.6 70.0485Iqbal&Gall [15] 58.4 53.9 44.5 35.0 42.2 36.7 31.1 43.11064630设置 头 肩 肘 腕 臀 膝 踝 AP0表2.TD/BU模型的不同版本对MPII多人验证集上姿势估计性能(AP)的影响0设置 头 肩 肘 腕 臀 膝 踝 AP τ graph0表3. MPII多人测试上的姿势估计结果(AP)0它通过稀疏化图形降低了初始问题的复杂性,但性能下降(70 . 6 vs. 71 . 9 %AP)。在表2中,我们比较了TD/BU模型的变体。我们的TD方法达到了71.7%的AP,与更复杂的BU-full模型性能相当。显式空间传播(TD + SP)进一步改善了结果(72.5 vs.71.7%AP)。最大的改进发生在脚踝部位:在树形层次结构中,渐进预测条件附近部位的距离减小,简化了预测任务。执行推理(TD/BU +SP)通过更优化的将部分检测候选项分配给相应的人,将性能提高到73.3%AP。TD/BU中的图形简化还允许进一步减少图形分区的推理时间(BU-sparse为0.08 vs.0.22)。与现有技术的比较。我们在MPII多人测试和WAF[8]数据集上将提出的单帧方法与现有技术进行比较。MPII上的比较在表3中显示。BU-full和TD/BU都优于DeeperCut[14]的最佳发布结果,分别达到72.9%和74.3%的AP,而DeeperCut为70.0%的AP。对于TD/BU,关节(肘部,手腕,脚踝,膝盖)的改进尤为显著。我们认为这是因为使用的网络直接训练以消除不同人的身体部位的歧义,而不是使用仅作为人的身份的代理的显式几何成对项。总体而言,我们最好的TD/BU方法的性能明显更高(74.3 vs. 70.0%AP)。值得注意的是,与DeeperCut相比,其图形分区阶段的运行时间τgraph快了5个数量级。这种加速是由于两个因素。首先,TD/BU依赖于更快的求解器[19],通过局部搜索解决图形分区问题,而不是[13]中使用的精确求解器。其次,在TD/BU模型的情况下,图形是稀疏的,并且大部分计算是由Sec.3.2中引入的前馈CNN执行的。在WAF[8]数据集上,TD/BU显著0设置 头部 肩膀 手肘 手腕 臀部 膝盖 脚踝 AP0BU-full 84.0 83.8 73.0 61.3 74.3 67.5 58.8 71.8 + 时间84.9 83.7 72.6 61.6 74.3 68.3 59.8 72.20BU-sparse 84.5 84.0 71.8 59.5 74.4 68.1 59.2 71.6 + 时间 85.6 84.5 73.4 62.1 73.9 68.9 63.1 73.10TD/BU + SP 82.2 85.0 75.7 64.6 74.0 69.8 62.9 73.5 +时间 82.6 85.1 76.3 65.5 74.1 70.7 64.7 74.20表4. “MPII Video Pose”上的姿势估计结果(AP)0改进了最佳发布结果(87.7 vs. 82.0% AP by[14])。详情请参阅补充材料。04.3. 多帧模型0视频模型的比较。在表4中比较了提出的基于视频的模型的性能。在每种情况下,基于视频的模型优于单帧模型。BU-full+temporal略优于BU-full,其中脚踝,膝盖和头部的改进是明显的。BU-sparse+temporal明显优于BU-sparse(73.1 vs. 71.6%AP)。我们观察到在最困难的部位(如脚踝(+3.9%AP)和手腕(+2.6%AP))上有显著的改进。有趣的是,BU-sparse+temporal优于BU-full+temporal:例如,头部到脚踝的较长距离连接可能在信息随时间传播时引入额外的混淆。最后,TD/BU+temporal优于TD/BU(+0.7%AP)。与BU-sparse+temporal类似,改进在脚踝(+1.8%AP)和手腕(+0.9%AP)上最为显著。请注意,即使是单帧的TD/BU也优于最佳的时间BU模型。我们在“MPII VideoPose”中展示了关节跟踪的示例,如图5所示。当图像信息由于多个人的近距离接近而模糊时,时间推理有助于正确定位图5(d)和(h)中人的腿部。时间特征。我们在“MPIIVideoPose”数据集上进行了一个剔除实验,以评估第3.4节中引入的时间特征的个体贡献。仅使用欧氏距离达到72.1的AP,添加DeepMatching特征将结果提高到72.5AP,而所有特征的组合达到最佳结果73.1AP(详见补充材料)。跟踪评估。在表5中,我们展示了多人关节跟踪评估的结果。我们将每个人的每个身体关节视为跟踪目标,并使用标准的多目标跟踪准确性(MOTA)指标[4]来衡量跟踪性能,该指标包括身份切换、误报和漏报8。我们实验性地与一个基准模型进行比较08请注意,MOTA指标不考虑检测或跟踪假设的置信度分数。为了补偿这一点,在表5的实验中,我们在评估之前删除了BU-sparse的所有身体部位检测,其得分≤0.65,以及TD/BU的所有身体部位检测,其得分≤0.7。64640单帧0跟踪0(a)(b)(c)(d)0单帧0跟踪0(e)(f)(g)(h)0图5. 使用基于单帧的模型(BU-sparse)与关节跟踪(BU-sparse+temporal)的结果的定性比较。请参阅http://youtube.com/watch?v=eYtn13fzGGo 以查看展示我们结果的补充材料。0首先跟踪人物跨帧,然后进行逐帧姿态估计。为了跟踪一个人,我们使用了一个仅操作两个头关节的简化版本的算法。这样可以在大多数情况下实现近乎完美的人物跟踪结果。当人物头部在多个帧中被遮挡时,我们的跟踪器仍然失败,因为它不包含目标假设之间的长程连接。我们将长期遮挡的处理留给将来的工作。对于全身跟踪,我们使用相同的初始头部跟踪,并将它们添加到身体部位提议的集合中,同时还为与头部部位检测相对应的时间边添加必连和必切约束。图的其余部分保持不变,以便在推理时可以自由地将身体部位分配给不同的人物轨迹。对于BU-sparse,全身跟踪在腕部和踝部的MOTA上分别提高了+5.9和+5.8,肘部和膝盖的MOTA分别提高了+5.0和+2.4。TD/BU也从添加身体部位之间的时间连接中受益,但受益程度不及BU-sparse。最显著的改进是踝部(+1.4MOTA)。BU-sparse的整体得分也达到了58.5,而TD/BU只有55.9(参见表1和3)。我们假设TD/BU的有限改进可能是由于时间和空间成对项之间的平衡问题。0设置 头部 肩部 手肘 手腕 臀部 膝盖 踝部 平均0头部跟踪+BU-sparse 70.5 71.7 53.0 41.7 57.0 52.4 41.9 55.5 +时间 70.672.7 58.0 47.6 57.6 54.8 47.7 58.50头部跟踪+TD/BU 64.8 69.4 55.4 43.4 56.4 52.2 44.8 55.2 +时间 65.069.9 56.3 44.2 56.7 53.2 46.1 55.90表5. “MPII Video Pose”上的跟踪结果(MOTA)。0在这篇论文中,我们介绍了一种在单目视频中进行关节身体跟踪的高效有效的方法。我们的方法定义了一个模型,可以在每个视频帧内和跨时间段内联合分组身体部位提议。分组被形式化为一个图分割问题,可以利用最近的局部搜索技术进行高效的推理。我们的方法在超越最先进的同时,与其他相关工作相比速度更快。05. 结论0参考文献0致谢。本工作得到了MaxPlanck视觉计算和通信中心的支持。作者感谢VarvaraObolonchykova和BaharTarakameh在创建视频数据集方面的帮助。[2] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection and people-detection-by-tracking. In CVPR’08. 264650[1] M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele.2D人体姿态估计:新的基准和最新分析。在CVPR'14。5,60[3] M. Andriluka, S. Roth, and B. Schiele.通过检测进行单目3D姿态估计和跟踪。在CVPR 2010年。20[4] K. Bernardin and R. Stiefelhagen. 评估多目标跟踪性能:CLEARMOT指标。图像和视频处理,2008(1):1-10,2008年5月。6,70[5] A. Bulat and G. Tzimiropoulos.通过卷积部分热图回归进行人体姿态估计。在ECCV'16中。20[6] J. Charles, T. P�ster, D. Magee, and A. Hogg, D. Zisserman.个性化人体视频姿态估计。在CVPR'16中。20[7] A. Cherian, J. Mairal, K. Alahari, and C. Schmid.混合身体部分序列进行人体姿态估计。在CVPR'14中。20[8] M. Eichner and V. Ferrari.我们是一家人:多人姿态估计的联合姿态估计。在ECCV'10中。70[9] A. Elhayek, E. Aguiar, A. Jain, J. Tompson, L. Pishchulin, M.Andriluka, C. Bregler, B. Schiele, and C. Theobalt.在低数量摄像机下的通用场景中进行高效的基于卷积网络的无标记动作捕捉。在CVPR'15中。20[10] A. Elhayek, E. Aguiar, A. Jain, J. Tompson, L. Pishchulin, M.Andriluka, C. Bregler, B. Schiele, and C. Theobalt.在室外和室内场景中进行基于Marconi-ConvNet的无标记动作捕捉。20[11] G. Gkioxari, A. Toshev, and N. Jaitly.使用卷积神经网络进行链式预测。20[12] K. He, X. Zhang, S. Ren, and J. Sun.深度残差学习用于图像识别。arXiv预印本arXiv:1512.03385,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功