基于递归时空仿射场的多人2D姿态跟踪

103 浏览量更新于2023-10-18 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14620tt+1tt+1tt+1tt+1基于递归时空仿射场的多人2D姿态跟踪卡耐基梅隆大学{raaj@cmu.edu，hidrees@cs.cmu.edugines@cmu.edu，yaser@cs.cmu.edu}摘要我们提出了一种在线的方法，有效地和 simul-personalized检测和跟踪视频序列中的多个人的2D姿态。我们建立在部分亲和场（PAF）表示设计的静态图像，并提出了一个架构，可以编码和预测时空亲和场（STAF）在整个视频序列。特别是，我们提出了一种新的时间拓扑交叉链接的四肢，可以始终如一地处理身体运动的幅度范围很广。此外，我们使大运动可忽略的运动总体方法本质上是循环的，其中网络从先前帧中获取STAF热图并估计当前帧的那些热图。我们的方法只使用在线推理和跟踪，是目前最快和最准确的自下而上的方法，是运行时不变的场景中的人数和精度不变输入相机的帧率。在单GPU上以单规模运行30 fps，实现了极具竞争力的PoseTrack基准测试的结果11. 介绍在过去几年中，多人人体姿势估计在深度卷积学习以及COCO [21]和MPII [3]数据集的帮助下受到了相当大的关注。最近引入的PoseTrack数据集[17]为社区提供了一个大规模的视频数据语料库，场景中有多个人在本文中，我们的目标是利用这些建立一个真正的在线和实时的多人2D姿态估计器和跟踪器，是可部署和可扩展的，同时实现高性能，并需要最少的后处理。潜在用途包括具有低延迟的实时和闭环应用，其中执行与相机的帧速率同步，例如自动驾驶汽车和增强现实。这种方法的实时和在线性质引入了几个挑战：i）具有多个人的场景1项目页面图1：我们通过以下方式解决多人人体姿势跟踪：以循环的方式将关键点或肢体在时间上的位置和取向的变化编码为时间亲和场（TAF）上图：通过关键点建模TAF（蓝色箭头）在运动发生时有效，但在有限运动期间失败，导致时间关联困难。下图：跨肢体的交联TAF一致地执行各种运动，提供冗余和更平滑的编码，用于进一步细化和预测。Ple要求处理遮挡、接近和接触以及肢体关节，以及ii）它应该对场景中的人数是运行时不变的。此外，iii）它必须能够处理由视频数据引起的挑战，例如大的相机运动和跨帧的运动模糊。我们建立在部分亲和场（PAF）[6]的基础上来克服这些挑战，其将静态图像中的身体关键点之间的连接表示为具有位置和方向的归一化2D向量场。在这项工作中，我们提出了时间亲和场（TAF），其对跨帧的关键点之间的连接进行编码，包括如图1的底行所示的独特的交联肢体拓扑。在没有运动的情况下或者当没有足够的来自先前帧的数据时，在相同的关键点之间构建TAF，例如，跨帧的腕-腕或肘-肘失去所有关联属性（见图1的顶行）①的人。在这种情况下，幅度和方向的无效不提供有用的信息来区分。肢体TAFKeypointTAF14621欧洲核子研究组织在一个新的人出现的情况下，或在一个现有的人停止移动。如果这两种情况同时发生，这种影响就会然而，较长的肢体TAF连接允许信息保存，即使在没有运动或新人出现的情况下，通过防止随着运动的幅度变小而具有噪声的有效信息的破坏。在零运动的极限情况下，TAF有效地塌陷为PAF。从网络的角度来看，当运动停止时，关键点之间的TAF会破坏关于关键点的空间信息，而跨关键点的TAF只是学习传播PAF，这是一个简单得多的任务。此外，我们以循环的方式处理视频，以使该方法实时，其中每帧的计算利用来自先前帧的信息，从而减少整体计算。在单图像姿态估计方法使用多个阶段来细化热图的情况下[6，24]，我们利用视频帧中的冗余信息，并将资源转向跨多个帧的姿态和轨迹的有效计算。因此，对图像的多级计算被划分在视频中的多个帧上。总的来说，我们称之为 Recurrent Spatio-Temporal Affinity Fields（STAF），它在PoseTrack基准测试中获得了非常有竞争力的结果在PoseTrack 2017验证集上，使用一个GTX，在30 FPS下单标度时[64.6% mAP，58.4% MOTA]，在30 FPS下多标度时[71.5% mAP，61.3% MOTA]1080 Ti.截至撰写本文时，我们的方法目前在准确性方面排名第二，在2017年挑战中排名第三[1]。请注意，我们的跟踪方法是真正的在线每帧的基础上，没有后处理。本文的其余部分组织如下。节中2、讨论了相关的工作，并在文献中引用了本文。节中3、详细介绍了我们的方法、训练过程以及跟踪和推理算法。最后，我们提出的结果和烧蚀实验在第二。4和结束的文件在Sec。五、2. 相关工作早期的人体姿态估计方法定位了个体的关键点或身体部位，但没有同时考虑多个人[4，28，36，20，33]。因此，这些方法不擅长定位高度表达或互动的人的关键点。典型地使用人员检测，其遵循单人关键点检测[29，11，32，16]。通过深度学习，采用Mask-RCNN [10，14]等人体检测方法，通过ROI池直接预测多个人体边界框，然后进行每人的姿势估计[12]。然而，当人们非常接近时，这些方法就会受到影响，因为边界框被分组在一起。此外，随着图像中人数的增加，这些自上而下的方法需要更多的计算，它们不足以进行实时姿态估计和跟踪。自下而上的部分亲和场（PAF）方法[6]在图像空间中产生成对身体部分连接的空间编码，然后进行贪婪二分图匹配以进行推理，从而允许一致的计算速度，而不管人数如何Person Lab [25]建立在这些想法的基础上，以不那么贪婪的推理方法将冗余连接纳入人身上，在COCO [22]和MPII [3]数据集上获得了极具竞争力的结果。这些方法适用于单个图像，并且不包含任何关键点跟踪或过去的信息。已经提出了许多离线方法来加强视频中姿势的时间一致性[15，17，34]。这些都需要解决时空图或纳入数据从未来的帧使他们不足以在线操作。或者，Songet al.和Pfisteret al. [27，31]演示了如何通过将输入公式化为多帧来预测每个关键点的光流场。LSTMPose Machines [23]建立在以前的工作基础上，展示了视频序列的每帧单级使用。然而，这些网络没有对关键点之间的空间关系进行建模，并在单人Penn Action[37]和JHMDB [18]数据集上进行了评估。另一系列工作探索了在神经网络中维护节奏图以处理多个人[9，8]。 Rohit等人Mask-RCNN的一个3D扩展，称为人管，可以跨时间连接人们。然而，这需要在帧堆栈上应用分组卷积，从而降低速度，并且没有实现比匈牙利算法基线更好的跟踪结果联合流[8]使用了时间流场的概念然而，它没有使用递归结构，并且明确地需要一对图像作为输入，从而显著增加了运行时间。当受试者缓慢移动或静止时，流表示也遭受模糊性，并且在跟踪期间需要对这种情况进行特殊处理。自上而下的姿势和跟踪方法[34，33，7，26，14]在PoseTrack中占主导地位的检测和跟踪任务[34] [35]，但由于明确的人体检测和每个人的后续关键点检测，它们的速度受到影响此外，以离线方式对长期时空图进行建模以进行跟踪会损害实时应用。这些方法都不能报告任何重要的运行时-性能度量，因为它们不能实时运行。在这项工作中，我们证明了这个问题可以在一个简单的优雅的单级网络中解决，该网络通过使用先前的姿势热图来预测关键点及其时空关联来结合递归。我们称之为递归时空亲和场（STAF），它不仅表示空间（PAF）和时间（TAF）亲和场的预测，而且还表示它们如何通过过去的信息进行改进。14622Kk→kKk→kKKI0I1I2ItPt-1ence推断ence推断TAF-βRTAF-βRTAF-βRKP-BKKKP-BKKKP-BKKPAF-β-内酰胺PAF-β-内酰胺PAF-β-内酰胺VGG-VGVVGG-VGVVGG-VGV推理Pt图2：左：我们的一个模型的训练架构，该模型以循环的方式跨时间摄取视频序列，同时生成关键点和每个帧中关键点之间的连接作为部分亲和字段（PAF），以及跨帧关键点之间的连接作为时间亲和字段（TAF）。我们称之为递归时空亲和场（STAF）。每个模块从先前和当前帧中的其他模块摄取输出（用箭头示出）并对其进行细化。中心：在推理过程中，我们的网络使用过去的信息在每个时间步对单个视频帧进行操作。右：在推理过程中，我们使用预测的热图来检测和跟踪人。首先提取关键点（红色），然后使用PAF（绿色）、TAF（蓝色）和先前帧中的轨迹片段关联到姿势和轨迹片段中3. 该方法每个人的关键点对之间的基本事实：我们的方法旨在解决关键点的问题在视频中同时进行估计和跟踪我们-勒特′：=100。凯特凯特勒维特′：=100。Kt−1，Kt′，（一）使用递归卷积神经网络，我们从四个基本构建块构建。让Pt表示人在特定帧或时间中的姿势t，由关键点K={K1， K2，. . . KK}。部分亲和域（PAF）L ={L1，L2，. . . LL}是从每个帧中的关键点合成的。对于跟踪键-点跨帧的视频，我们提出了时间亲和域（TAFs）由R={R1，R2，. . . RR}，其捕获递归并连接跨帧的关键点。它们一起被称为时空亲和场（STAF）。这些块在图中可视化。2，其中每个块用不同的颜色显示：来自VGG骨架[ 30 ]原始卷积特征以琥珀色示出，PAF以绿色示出，关键点以红色示出，TAF以蓝色示出。因此，VGG主干、PAF、关键点和TAF的输出分别由V、L、K和R给出，并分别由CNN计算。关键点热图是通过将高斯核放置在带注释的关键点的位置处而从地面实况构造的，而PAF和TAF是从其中，f表示地面真值，并且函数f（·）将方向单位向量放置在连接两个关键点的线的预定义半径内的每个像素处。3.1. 用于姿态估计和跟踪的视频模型接下来，我们提出了三个模型，包括能够估计关键点和STAF的四个模块。每个网络的输入由一组连续的视频帧组成。每个网络中的每个块由五个7× 7和两个1× 1卷积层。每个7× 7层都是重-可与提供相同感受野的三个3× 3卷积层的级联放置第一级具有来自后续帧的一组独特的权重，因为它不能包含任何先前的数据，并且还具有较低的深度，这被发现可以改善结果（参见第4）. 计算每帧的VGG特征对于视频的时间t 处的帧 It ，它们被计算为 Vt=ΔV（It）。模型I：给定Vt−1和Vt，Lt-1VGG-VGVVtPAF-β-内LtKt-1LtKP-BKKKtVt-1TAF-βRRt-1Rt（Lt，Kt，Rt）Pt-1Ptence推断14623LLK描述第一个模型：Lt=1000L。Vt，<$q−1（·）<$，Kt=K。Vt，q（·），q−1（·），（2）R t= ΔR。Vt−1， Vt， Lt−1， Lt，Rt−1，其中，q表示q的递归应用。在我们的实验中，我们发现性能在q= 5时达到平台。在模型I中，PAF是通过递归地将VGG特征和来自前一阶段的PAF连接在一起的输入上来获得的。类似地，关键点取决于VGG特征、来自前一阶段的关键点和来自当前阶段的PAF最后，TAF取决于来自先前帧和当前帧两者的VGG特征和PAF，以及来自先前帧的TAF该模型产生良好的结果，但由于递归阶段而最慢。模型II：与模型I不同，模型II在单个通道中计算第二章：L t=1000L。Vt， Lt−1，Kt=K。Vt，Lt，Kt−1，（3）R t= ΔR。V t−1，V t，L t−1，L t，Rt−1。用单级取代五级预计会降低性能。因此，模型II中的PAF和关键点的多级计算被来自先前帧的PAF和关键点的输出所取代。这显著地提高了速度，而没有大的性能损失，因为它利用了视频中的冗余信息，即，来自先前帧的PAF和关键点是对当前帧中的PAF和关键点的位置的可靠指导模型III：最后，第三个模型试图通过单个CNN来估计图3：该图说明了时空亲和场的三种可能的拓扑变化，包括新的交联肢体拓扑（b）。关键点、PAF和TAF分别由实心圆、直线和箭头表示。如图3所示，跨帧STAF。在该图中，实心圆表示关键点，而直线和箭头分别表示PAF和TAF。图3（a）由相同关键点之间的TAF以及PAF组成。对于该拓扑，TAF和PAF的数量分别为21和48。TAF直接跨关键点捕获时间连接，类似于[8]。另一方面，图3（b）由跨框架以交联方式在不同肢体之间的TAF组成PAF和TAF的数量分别为48和96。我们还测试了图3（c）中的拓扑结构，该拓扑结构仅由69个关键点和肢体TAF组成。这不会对帧内跨关键点的任何空间链接进行建模。3.3.模型训练[L，R]t=0 [L，R]. Vt−1，Vt，[L，R]t−1，在训练过程中，我们展开每个模型来处理多个一次多帧每个模型首先在Im中进行预训练Kt=K。Vt，Lt，Kt−1，（4）其中[L，R]意味着通过单个CNN同时计算部分和时间亲和场。对于模型III，对应于PAF的通道然后与来自当前帧的VGG特征和来自前一帧的关键点一起被传递用于关键点估计。由于模型III仅由三个块组成，因此它具有最快的推理，但它被证明是最难训练的3.2. 时空仿射场的拓扑对于我们的身体模型，我们定义了K= 21个身体部位或关键点，这是COCO和MPII姿势数据集中身体部位的联合。它们包括COCO的耳朵、鼻子和眼睛;头部和颈部都是MPII接下来，有几种可能的方法来关联和跟踪关键点，（一）（b）第（1）款（c）第（1）款14624年龄模式，我们在每个时刻向模型呈现单个图像或帧。这意味着PAF和关键点阶段的多个应用程序到同一帧。我们使用COCO，MPII和PoseTrack数据集进行训练，批分布为0。七比零。2和0。1，其对应于数据集大小，其中每个批次仅由来自一个数据集的图像或帧组成为了屏蔽未注释的关键点，我们使用MPII和PoseTrack数据集中可用的头部边界框，以及COCO数据集中批次注释关键点的位置。的net可以处理368× 368的图像，并具有缩放、旋转和平移增强功能。热图的计算具有102的损失，步长为8，导致46× 46维热图。我们用拓扑中的PAF初始化肢体TAFs-ogy3（b，c），以及在拓扑3（a，c）中具有零的关键点TAF我们训练网络最多400k次迭代。14625接下来，我们在视频模式下进行训练，将网络暴露在视频序列中。对于包括COCO和MPII在内的静态图像数据集，我们通过合成具有缩放、旋转和平移的运动，用长度等于网络展开次数的视频序列来增强数据。我们在视频模式下训练 COCO ， MPII 和PoseTrack，批量分布为0。四，零。1和0。5所示。此外，我们还对基于视频的PoseTrack数据集使用跳帧增强，其中一些随机选择的序列跳过多达3帧。我们在视频模式下锁定VGG模块的权重。对于模型I，我们只在训练视频时训练TAF模块。对于Model II，我们训练keypoint、PAF和TAF模块5000个epoch，然后锁定除TAF之外的所有模块。在Model III中，STAF和关键点在整个300k迭代中保持解锁状态。3.4. 推理和跟踪到目前为止描述的方法预测关键点的热图接下来，我们提出了一个框架，在给定预测的热图的情况下执行姿势推断和跨帧跟踪。让推断出的姿势在时间t由{Pt，1，Pt，2，. . .，Pt，N}，其中，FGH一CEBD（一）（b）第（1）款（c）第（1）款（d）其他事项图4：（a）在两个腕部位置B和E之间选择时的模糊性通过重新称量PAF至TAF来解决。（b）-（d）：在传递性的情况下，包含踝关节（c）的不正确的PAF用过去的姿势（b）解决，得到（d）。具有来自前一帧的关键点的最频繁ID的帧。对于PAF不明确的情况，即，如图4所示，我们使用传递性，用TAF重新权衡PAF，以消除在它们之间进行比较，使用α作为偏置权重。在该图中，关键点{A}（肘部）正在考虑，手腕{B}和{E}作为两种可能性。我们选择最强的TAF，其中{A，B，C，D，A}具有比{A，E，F，G，A}更高的权重，计算如下：第二上标在帧t处对人进行索引。每个Lt，n=（1−α）<$ω（Kt−1，n，Kt，n）+α <$ω（Kt，n，Kt，n）。在特定时间的姿态由成为姿态后推断的一部分的多达K个关键点组成，即，Pt，n={Kt，n，Kt，n，. . . ，Kt，n}。k→k′k′4. 实验kk′12K探测和跟踪程序从本地开始-在时间t处的关键点的化。推断的关键点Kt为通过将热图重新缩放到原始图像分辨率，然后进行非最大抑制来获得然后，我们推断由给定拓扑定义的每个帧中的所有关键点对之间的PAF权重Lt和TAF权重Rt也就是说，在本节中，我们介绍了我们的实验结果输入到网络的图像的大小调整为W×368，对于单尺度（SS）保持纵横比;对于多尺度（MS）保持W×736，W×368和W×184。将多尺度的热图重新调整为W×736，并通过平均合并。接下来是推理和跟踪。4.1. 消融研究Lt=ω。Kt，Kt ≠，Rt=ω. Kt−1，Kt，（5）k→k′kk′k→k′kk′我们进行了一系列的消融研究，其中函数ω（·）对两个关键点之间的点进行采样，计算平均采样点的矢量和从第一关键点到第二关键点的方向矢量推断的PAF和TAF两者都在推断完整姿势并将它们跨帧与唯一id相关联之前通过它们的分数进行排序。我们以自下而上的方式执行此操作，其中我们利用来自前一帧的姿势和推断的PAF来确定tracklet的更新、添加遍历排序列表中的每个PAF，（i）如果PAF中的两个关键点都未被分配，则初始化新的姿态，（ii）如果关键点中的一个被分配，则添加到现有姿态，（iii）如果两个关键点都被分配给同一姿态，则更新姿态中的PAF的分数，以及（iv）如果关键点属于不同姿态而相对的关键点未被分配，则合并两个姿态。最后，我们将id分配给当前我们的网络架构的建设：过滤器尺寸：如第3，每个块体由5个7× 7层和2个1× 1层组成[6]，或者在交替实验中每个7× 7层用3个类似于[5]的3× 3层代替结果示表1中我们在模型I上运行单帧推理，发现3× 3滤波器的精度比7× 7高2%，膝盖和脚踝关键点的平均精度显著提高它的速度也提高了40%，同时需要更多的内存。视频模式/第一阶段的深度：接下来，我们报告了使用单个图像在图像模式（Im）中进行训练时的结果，以及当我们继续在图像之外进行训练时，同时将网络暴露于视频并在视频模式（Vid）中使用合成运动进行增强。在测试过程中，网络在视频序列上循环运行，每帧一帧。14626精度方法HeaShoELBWRI髋克内安克地图FPS型号I -3x 375.7 73.9 67.8 56.366.8六十二点三56.966.314型号I -7 x776.0 73.3 66.4 54.063.4五十九点二52.264.310表1：该表显示了PoseTrack 2017验证集上两种过滤器尺寸的实验结果。(a) 确认子集（b）确认集8865868460825580785076746Hz12Hz帧速率24Hz456Hz12Hz帧速率24Hz* 型号II：1 s / 35 fps*Model II：2 s/26 fps* 型号II：3 s/20 fps* 型号II：4秒/ 17 fps型号II：1 s / 35 fps型号II：2 s / 26 fpsModel I：5秒/14 fps图5：在网络暴露于视频和合成运动增强之前（a，c）和之后（b，d）热图质量的改善。我们在PAF和关键点热图上观察到更好的峰值和更少的噪声。阶段模型II用于这些实验。我们发现，通过将网络暴露于视频序列5000次迭代，我们能够提高mAP，如表2和图5所示。我们还发现，如果我们使用相同的深度，即，由于第一帧的通道数量与其他帧相同（ 128-128 ），网络不能很好地推广到循环执行（ 56.6mAP）。当将第一帧的深度减小到一半时，即，（ 64-128 ），我们发现对视频的泛化更好（ 62.6mAP）。当使用视频模式训练时，mAP进一步增加到64。1.一、我们的理由是，64深度的模块产生了相对模糊的输出，这为后续帧中的后续模块提供了足够的空间来处理和细化热图，从而提高了性能。此外，这也突出了结合镜头变化检测和在每次镜头变化时运行第一阶段的重要性。方法Hea Sho Elb Wri Hip Kne Ank地图 FPSIm - 7x7 - 128-12874.6 69.6 55.5 40.2 56.4 47.2 44.056.627Vid - 7x7 - 128-12876.2 71.6 64.5 51.9 62.6 59.3 52.563.627Im - 7x7 - 64-12873.5 72.2 63.8 52.1 62.7 57.3 51.162.627Vid - 7x7 - 64-12875.8 73.4 65.5 53.8 64.2 58.4 51.464.127Im - 3x3 - 64-12873.5 72.5 65.0 52.7 63.7 57.7 53.263.435Vid - 3x3 - 64-12875.4 73.2 67.4 55.0 63.9 58.464.635表2：该表显示了在训练之前和之后使用模型II的单尺度性能，其中包括视频，滤波器大小以及第一阶段的不同深度。相机帧率对mAP的影响：在这些实验中，我们研究了相机的帧速率和阶段数如何影响位姿估计的准确性。在高帧速率的情况下，帧之间的视在运动因此，来自先前帧的热图将图6：这些图显示了mAP曲线作为相机帧速率的函数，即，原始24Hz视频输入到该方法的速率。平坦的黑线显示了五阶段模型I的性能，而在低帧速率下不那么有用。我们用模型I（相同模块的五个阶段，而没有先前帧的输入热图）和模型II（不同数量的阶段，每个输入热图来自先前帧）测试了该假设。我们还在图6中评估了使用图像和视频模式进行训练的影响。图6（a）显示了10个序列的子集的结果，其中人类受试者至少占PoseTrack 2017验证集中帧高度图6（b）显示了整个验证集的结果。假设原始视频以电影标准24 Hz运行，因此我们通过子采样在24，12和6 Hz下改变帧速率进行实验。地面实况已在6 Hz下注释。正如预期的那样，精度与视频帧速率和级数成正比。当模型II在图像模式下训练时，我们观察到准确性的小幅增加，直到在四个阶段，它达到与模型I相同的水平在视频模式下训练时，它在两个阶段超过了这个精度峰值。当考虑整个验证集时，该方法仍然能够获得更多阶段和视频模式下训练的好处，如图所示。第6（b）段。然而，它几乎无法达到速度慢得多的Model I的精度。对于验证集，当包括具有较小人类表观尺寸的序列时，准确度降低。这些序列通常也更拥挤，并且传递之前的热图似乎会损害性能。小尺寸人类的身体部位仅在热图中占据几个像素，并且归一化的方向向量在帧之间是不一致和随机的。拓扑/模型类型对跟踪的影响：接下来，我们报告在图1中定义的拓扑学的不同组合上的实验。3与第二节中提出的三种模式。3.1，姿态估计和跟踪评估（一）（b）第（1）款（c）第（1）款（d）其他事项精度1462730（b）第（1）款28262422使用表3中的平均精度（mAP）和多目标跟踪精度（MOTA）度量。我们发现，与拓扑A中的关键点TAF相比，在拓扑B中使用肢体TAF进行跟踪时有所改进。强调的在图1中，当关键点具有最小运动或当新人出现时，拓扑A缺乏关联属性。虽然我们强制了空间约束，即关节位置在连续帧中应该是接近的，并根据比例对其进行调整（类似于[8]），但这仍然导致误报，因为很难在新检测到的人和附近的一些静止人之间消除歧义。此外，在人的运动倾向于较小的情况下，拓扑A导致抖动和噪声向量，从而导致对像素距离的更多依赖这进一步加剧了复发，其中噪声向量方法腕关节-AP踝关节-AP地图MotaFPS型号I-A56.256.466.058.514型号I-B56.356.966.359.413型号II-A54.953.064.457.428型号II-B55.053.564.658.427型号III-B51.949.561.657.830型号III-C42.540.555.249.936表3：该表示出了针对模型类型和拓扑的组合的姿态估计和跟踪57565554535251从先前帧热图恶化了时间亲和场的关联表3还示出了拓扑C的结果，拓扑C的性能显著低于COM。506Hz12Hz相机帧速率24Hz200 10 20 30 40#跟踪的拓扑图B。由于它仅由肢体和关节TAF组成，没有任何空间分量，这使得关键点定位和关联相当困难。拓扑B优雅地解决了所有这些问题。较长的交联肢体TAF连接即使在没有运动或出现新人的情况下也能保存信息，因为在这种情况下TAF 有效地塌陷为PAF。这使我们能够避免联想推理，并使新的人识别问题变得微不足道。用这种表示法，无论运动的大小如何，由于真实和一致的表示法，复发是明显有益的。作为一个附带优势，这也允许我们热启动TAF输入，PAF为第一帧中的跟踪提供更可靠的初始化。对于模型III，超过5000次迭代的训练逐渐开始损害姿态估计的准确性，导致跟踪性能降低。这主要是由于COCO / MPII和PoseTrack数据集之间的不同数据量的差异。对于Model II，如果我们在关键点和PAF模块上进行训练，然后锁定它们的权重，然后只训练TAF，这会带来更好的性能和速度的显著提升虽然模型I优于其他模型，其中关键点和PAF有五个阶段; TAF有一个此外，我们观察到mAP的增加最终也会使MOTA呈亚线性增加。视频速率和人数对跟踪的影响：最后，我们研究了摄像机的帧速率如何影响跟踪精度，因为较低的帧速率需要更长的像素空间关联。我们将Lukas Kanade（LK）作为基线跟踪器运行，将模型I中的TAF模块替换为LK（21 × 21窗口大小;3个金字塔等级）。最初，我们观察到大约有2。MOTA改善0%，如图7：（a）此图显示MOTA作为视频的函数帧速率的时间亲和字段（TAF）和卢卡斯-卡纳德（LK）跟踪器。TAF的性能对于帧速率或可选地对于帧之间的运动量是虚拟不变的。(b)我们的方法是有效的运行时不变的场景中的人数。图7（a）.然而，我们注意到，大约20%的序列具有显著的清晰度和相机移动，其中TAF优于LK，因为后者无法匹配大位移的关键点，而TAF由于更强的描述能力而找到了匹配。TAF能够保持跟踪精度，即使低帧速率相机，但与LK的MOTA下降了显着（见图。（见第7（a）段）。此外图图7（b）表明，我们的方法对于帧中的人数几乎是运行时不变的，这使得它适合于拥挤的场景。4.2. 比较我们在表4中展示了2017年验证集（顶部），2017年测试集（中间）和 2018 年验证集（底部）的PoseTrack数据集结果。FlowTrack、JointFlow和Pose-Flow作为比较包括在本表中。FlowTrack是一种自上而下的方法，这意味着首先执行人体检测，然后进行姿态估计。由于这个原因，它比像我们这样的自底向上方法慢得多具有单一规模的模型II-B与其他自下而上的方法相比具有竞争力，同时速度快270%。然而，多尺度（MS）处理分别将mAP和MOTA的性能提高了1.6%和1.5%我们还能够在Pose- Track 2018验证集上取得有竞争力的结果，同时在所有报告的结果中保持最佳请注意，PoseTrack 2018测试在提交本文件时，该套系统尚未向公众发布。图8显示了一些定性结果。型号I：TAF型号I：LK（一Mota帧每秒14628图8：以每秒30帧的速度跟踪多个目标的三个示例。顶部/中部：观察到跟踪继续起作用，尽管大的运动位移和闭塞。底部：场景突然变化导致重影的失败情况，其中先前跟踪的人出现在新帧中这个问题可以通过热启动来解决5. 结论在本文中，我们首先激励经常性的时空亲和场（STAF）作为正确的方法来检测和跟踪视频中的关节式人体姿势，特别是对于实时反应系统。我们发现，在循环结构中利用前一帧数据并对视频序列进行训练，可以产生与多级网络一样好的结果，我们还证明了TAF公式在降低的帧速率下的跟踪精度的稳定性，这是由于其在大像素距离上关联关键点的能力。这意味着，我们的方法可以部署在低功耗的嵌入式系统，可能无法运行大型网络的作品在高帧速率，但能够保持合理的准确性。我们的新的交联肢体颞叶拓扑学是能够推广比以前的方法，由于强大的联想能力与PAF是一个特殊的情况下，TAF。由于自下而上的制定，我们还能够以相同的一致速度运行，而不管人数如何。对于未来的工作，我们计划嵌入一个重新识别模块来处理人们离开和重新出现在摄像头视图中的情况此外，在每次镜头变化时检测和触发热启动具有提高姿态估计和跟踪性能的潜力。鸣谢：由情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00340提供支持。美国政府有权为政府目的复制和分发重印本，尽管此处有任何版权注释。免责声明：本文所载的观点和结论方法腕关节-AP踝关节-AP地图 MotaFPSPoseTrack 2017验证搜索引擎[9]51.749.860.655.21.2[34]第三十四话72.467.176.765.4-[34]第三十四话66.061.772.462.9-MDPN - 152 [1]77.571.480.766.0-[35]第三十五话61.161.366.558.3十 *[8]第八话--69.359.80.2型号II-B（SS）55.053.564.658.427型号I-B（SS）56.856.866.359.413型号II-B（MS）62.960.971.561.37型号I-B（MS）65.062.772.662.72PoseTrack 2017测试搜索引擎[9]--59.651.81.2[34]第三十四话70.764.973.957.6-[34]第三十四话65.160.370.056.4-电子邮件：info@posetrack.com54.349.259.448.4-[19]第十九话52.942.659.150.6-[35]第三十五话59.057.963.051.0十 *[8]第八话53.150.463.353.10.2型号II-B（MS）62.859.569.652.47型号I-B（MS）65.060.770.353.82PoseTrack 2018验证型号II-B（SS）56.254.263.758.427型号I-B（SS）58.356.764.959.613型号II-B（MS）62.760.669.959.87型号I-B（MS）64.762.070.460.93表4：该表显示了PoseTrack数据集的比较。对于我们的方法，我们报告模型I/ II和顶部。B.最后一列以每秒帧数为单位显示速度（*不包括姿势推断时间）。FlowTrack是使用ResNet-152（或50）的自上而下方法;而JointFlow、PoseFlow和我们的方法都是自底向上的。是作者的，不应被解释为必然代表IARPA、DOI/IBC或美国政府的自下而上自上而下自下而上底向上顶向下14629引用[1] 姿势追踪排行榜。 https://posetrack.net/leaderboard.php. 2[2] M.安德里卢卡岛Iqbal、E.因萨富季诺夫湖Pishchulin，A.米兰PoseTrack：人体姿态估计和跟踪的基准。在CVPR，2018年。8[3] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。一、二[4] M. Andriluka、S.罗斯和B。席勒单目3D姿态估计和检测跟踪。CVPR，2010。2[5] Z. Cao，G.Hidalgo，T.西蒙，S。Wei和Y.酋长开放式姿态：使用部分亲和字段进行实时多人2D姿态估计。CoRR，abs/1812.08008，2018。5[6] Z. Cao，T. Simon，S.- E. Wei和Y.酋长利用局部仿射场的实时多人2D姿态估计在CVPR，2017年。一、二、五[7] Y. Chen，Z. Wang，Y.彭，Z. Zhang，G. Yu和J. Sun.用于多人位姿估计的级联金字塔网络arXiv：1711.07319，2017年。2[8] A.多林，U。Iqbal和J.胆联合流：用于多人跟踪的时间流场CoRR，abs/1805.04596，2018。二、四、七、八[9] R. Girdhar，G.基奥克萨里湖Torresani，M.Paluri和D.交易。检测和跟踪：视频中的高效姿态估计CoRR，abs/1712.09184，2017。二、八[10] R. 格尔希克岛 Rados avo vic，G. Gkioxari，P. Doll a'r和K. 他外探测器 https://github.com/ facebookresearch/detectron，2018. 2[11] G.基奥克萨里湾哈里哈兰河Girshick和J.马利克使用k-possible来检测人并定位他们的关键点。CVPR，2014。2[12] R. A. Guler，N.内韦罗娃和我Kokkinos 密度姿势：野外密集人体姿态估计。在CVPR，2018年。2[13] H. Guo，T.唐，G.洛河，巴西-地Chen和Y.陆用于多人姿态估计和跟踪的多域姿态网络。在ECCV，2018。8[14] K. 他，G. Gkioxari ，P. Doll a'r和R. 娘娘腔。面罩R-CNN. InICCV，2017. 2[15] E. 因萨夫季诺夫，M. 安德里卢卡L. 皮舒林S. 唐先生，E.列温科夫湾Andres和B.席勒ArtTrack：在野外进行多人跟踪。在CVPR，2017年。2[16] 联合Iqbal和J.胆多人姿态估计与局部关节到人的关联。在ECCVW：人群理解，2016年。2[17] 联合Iqbal，A. Milan和J.胆PoseTrack：联合多人姿态估计和跟踪.在CVPR，2017年。一、二[18] H. Jhuang，J. Gall，S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。InICCV，2013.2[19] S. Jin，X.妈Z。汉，Y。Wu，和W.杨朝向多人姿势跟踪：自下而上和自上而下的方法。ICCV，2017年。8[20] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型在BMVC，2010年。214630[21] T.林，M。迈尔，S。贝隆吉湖D.布尔代夫河B. 格希克，J。海斯角Perona，D. 拉马南山口Dolla'r，C. L. 齐特尼克Microsoft COCO：上下文中的通用对象CoRR，abs/1405.0312，2014。1[22] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C. L.Zitni ck.MicrosoftCOCO：上下文中的通用对象。2014年，在ECCV。2[23] Y. 罗，J.Ren，Z.Wang，W.孙，J.Pan，J.刘，J.庞L.是林书LSTM pose机器。在CVPR，2018年。2[24] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。CoRR，abs/1603.06937，2016。2[25] G. Papandreou，T.朱湖，加-地C. Chen，S. Gidaris，J.Tompson和K.墨菲PersonLab：使用自下而上、基于部分的几何嵌入模型进行人物姿势估计和物体分割arXiv：1803.08225，2018。2[26] G. Papandreou，T. Zhu，N. Kanazawa、A. Toshev，J.Tomp-son，C.

下载后可阅读完整内容，剩余1页未读，立即下载