视频人体姿态估计中的结合检测与跟踪方法

134 浏览量更新于2023-10-24 收藏 2.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11088结合检测与跟踪的视频人体姿态估计Manchen Wang，Joseph Tighe，DavideModolo AWS Rekognitionmanchenw,tighej,dmodolo@amazon.com摘要我们提出了一种新的自上而下的方法，解决了多人的人体姿态估计和跟踪视频中的问题。与现有的自上而下的方法相比，我们的方法不受其人检测器的性能限制，可以预测未本地化的人实例的姿势。它通过在时间上向前和向后传播已知的人的位置并搜索这些区域中的姿势来实现这种能力。我们的方法包括三个部分：（i）剪辑跟踪网络，其对小视频剪辑同时执行身体关节检测和跟踪;以及（iii）时空合并过程，其基于空间和时间平滑项来细化联合位置。由于我们的剪辑跟踪网络和我们的合并程序的精确性，我们的方法产生非常准确的联合预测，并可以修复硬场景中的常见错误，如严重纠缠的人。我们的方法在PoseTrack 2017和2018数据集以及所有自上而下和自下而下的方法上实现了联合检测和跟踪的最新结果1. 介绍多人人体姿态跟踪是检测所有视频帧中的所有人的身体关节并随着时间的推移正确地连接它们的双重任务在过去的几年中，检测身体关节的能力得到了显著提高[4、5、7、14、16、21、22、24、30、33]，部分原因是MPII [4]和MS COCO [19]等大规模公共图像数据集的可用性。这些方法主要可以分为两类，这取决于它们如何运作：自下而上的方法[4，5，16，21，24，33]首先检测个体身体关节，然后将其分组为人;而自上而下的方法[7，14，30]首先检测图像中的每个人，然后预测每个人在其边界框位置内的身体关节。主要由于对象类检测的进步[9，14，28]，自顶向下的方法[30]已经实现了图1：自上而下的方法，如HRNet，严重依赖于他们的人检测器的性能，有时会在高度闭塞的人身上失败（第47、60帧），偶尔会在高度纠缠的人身上出错（第67帧）。我们的方法克服了这些限制，随着时间的推移传播边界框（用虚线绘制），并预测每个人的多个姿势假设，并聪明地选择最好的一个。比自底向上的方法在图像上有更好的姿态估计性能通过利用鲁棒的人检测器，这些方法可以专注于边界框区域内的关节检测的任务，并且不必处理大规模变化和自底向上方法所做的将关节分组到人中的问题。尽管在图像数据集上有这些积极的结果，但自上而下的方法在视频上的表现并不好，最近被自下而上的方法所超越[25]。我们将其归因于这样一个事实，即在视频中检测人边界框比在图像中更难。虽然图像经常捕捉人的在图1A中，检测器不能定位前两帧中的高度被遮挡的人实例）。我们提出了一种新的自上而下的方法，克服了这些问题，使我们能够获得自上而下的方法的好处，在视频中的多人姿态估计。我们检测每个帧上的人物边界框，11089把这些传播给他们的邻居。我们的直觉是，如果一个人出现在一个帧中的特定位置，那么即使检测器没有找到他们，他们在相邻帧中也应该大约在那个位置。详细地说，给定一个本地化的人边界框，我们从以该帧和位置为中心的视频中裁剪时空管。然后，我们将此管馈送到一个新颖的剪辑跟踪网络，该网络估计该人在管的所有帧中的所有身体关节的位置。为了解决这个问题，我们的剪辑跟踪网络同时执行身体关节检测和跟踪。这有两个好处：（i）通过联合解决这些任务，我们的网络可以更好地处理独特的姿势和遮挡，以及（ii）它可以通过预测时空管的所有帧中的关节来补偿错过的检测，即使对于没有检测到人的帧也是如此。为了构建这个剪辑跟踪网络，我们将最先进的高分辨率网络（HRNet）[30]架构扩展到跟踪任务，使用精心设计的3D卷积来帮助学习关节之间的时间对应关系。剪辑跟踪网络对固定长度的视频剪辑进行操作，并生成多人姿势轨迹。我们在视频跟踪流水线中将这些tracklet组合成任意长度视频的姿势轨迹，首先生成时间上重叠的tracklet，然后在tracklet重叠的帧中关联和合并姿势检测。在将轨迹片段合并到轨迹中时，我们在一种新的基于共识的时空合并过程中使用每帧中的多个姿态检测这个过程有利于空间上彼此接近并且时间上平滑的假设。这种组合能够纠正对高度纠缠的人的错误理解，导致更准确的预测，如图67的帧67所示。1：虽然[30]错误地选择了黄色球员的左膝作为绿色球员右膝的预测（1a），但我们的程序能够纠正这个错误并预测正确的位置（1b）。与文献相比，我们的方法在PoseTrack 2017和2018视频数据集[3]上实现了身体关节检测和跟踪的最新结果，不仅反对自上而下的方法，而且反对自下而上的方法。这种改进是一致的，通常是显著的;例如，PoseTrack 2017的身体关节检测错误此外，我们还提出了一个广泛的消融研究，我们的方法，在那里我们验证其组件和我们的超参数选择。本文其余部分的组织结构如下：节中2介绍了我们的相关工作;然后，在sec. 3我们提出我们的三个贡献：（i）我们的新颖剪辑跟踪网络（sec，（ii）我们的追踪管道（第3.1节）。3.2）和（iii）我们的时空合并过程（sec. 3.3）。最后，我们提出了我们的实验在sec。4、结束于S。五、2. 相关工作2.1. 图像中的人体姿态估计最近的人体姿态估计方法可以根据它们如何操作而分为自底向上和自顶向下方法。自下而上的方法[5，16，21，24]首先检测单个身体关节，然后将它们分组为人。另一方面，自上而下的方法[7，14，23，30]首先检测人边界框，然后预测他们在每个区域内的关节位置。自上而下的方法具有不需要任何联合分组的优点，然而，自上而下的方法受到人员检测器的限制：当它失败时（即，一个人没有被定位），那个人的关节就不能恢复。自下而上的方法不依赖于探测器，它们可以预测任何关节;然而，它们遭受跨越大尺度变化和关节分组的关节检测的困难任务。在这项工作中，我们试图充分利用这两个词，并提出了一种新的自上而下的方法，从检测器的失误，通过探索和传播信息的时间恢复视频我们建立在孙等人的HRNet。[30 ]第30段。这最初是为人体姿态估计而提出的，在图像中实现了最先进的结果。最近，它被修改为在其他视觉任务上实现最先进的结果，如物体检测[31]和语义分割[32]。在本文中，我们将展示如何将HRNet扩展到视频中的人体姿态估计和跟踪。2.2. 视频中人体姿态估计与跟踪考虑到刚刚介绍的图像方法，很自然地可以将它们扩展到视频中的多人姿势跟踪，方法是在每个帧上独立运行它们，然后随着时间的推移将这些预测联系起来。沿着这些路线，自下而上的方法[17，25]在检测到的关节之间构建时空图Raaj等人 [25]通过扩展Cao等人的空间亲和场图像工作做到了这一点。[5]到Spatia-Temporal Affinity Fields（STAF），而Jin等人。[17]扩展了Newell等人的空间关联嵌入图像工作。[21]时空的嵌入。另一方面，自上而下的方法[13，34]在人物边界框之间构建时间图，这通常更容易解决。SimpleBaseline[34]首先在每个帧上独立运行一个人检测器，然后将其检测结果链接到一个图中，其中使用昂贵的光流定义时间相似性。Detect-and-Track [13]使用3D Mask R-CNN方法来检测短视频剪辑中人的关节，然后使用轻量级跟踪器通过比较检测到的边界框的位置将连续剪辑像[13]一样，我们的方法也在短片段上运行推理，11090pt−δtββββββppβttt一次向前传球，但它带来了许多优势：(i)与大多数自顶向下的方法一样，[13]受限于其检测器的准确性，并且不能从其失误中恢复;相反，我们建议将检测到的边界框传播到相邻帧，并在这些区域中寻找遗漏的人。(ii)[13]在非重叠剪辑上运行，并仅基于人物边界框执行跟踪;而是HRNet的输出是一组热图，每个身体关节一个。这些热图的每个像素指示“包含”关节的相似性。作为文献[5，7，14，16，21，24]中的其他方法，使用预测热图Hpred和地面实况热图Hgt之间的均方误差损失函数来训练网络：在重叠剪辑上运行并使用多关节假设1KWH2L=、（1）一个新的跟踪系统，导致更准确的预测，选项。(iii)[13]采用完全3D卷积网络，而我们表明，3D滤波器只在网络的一部分上，千瓦时K i伊伊克J伊克河已经足够教网络追踪了3. 方法在高层次上，我们的方法首先检测每个视频剪辑的中心帧（即关键帧）中的所有候选人，然后及时地向前和向后估计他们的姿势。然后，它合并来自时间和空间上不同剪辑的姿势更详细地说，我们的方法包括三个主要的COM-其中，K是身体关节（关键点）的数量，i，j像素坐标。通过在每个关节的注释位置上卷积2D高斯滤波器来生成。用于视频姿态估计和跟踪的3D HRNet我们方法操作对视频短片：C={Ft−δ，.，Ft，...，Ft+δ}。首先，它在中心帧Ft上运行人检测器，并获得人边界盒Bt={βt，.，βt}（图2a）。然后，对于每一次跳跃-1N不ponents：削减，缝合和波兰。给定一段视频，我们首先在框βp中，它创建了一个管Tβt 通过裁剪框区域把它分成重叠的片段，然后运行一个人检测器，从剪辑C中的所有帧：T t ={F，...，F，... Ft+δ}βtttPPP他们的关键帧。对于中检测到的每个人边界框，在相应剪辑上的边界框位置处切出关键帧、时空管。给定此管作为输入，我们的剪辑跟踪网络既估计关键帧中中心人物的姿势，又在整个视频剪辑中跟踪他的姿势（秒）。3.1，图2）。我们称之为tracklets。接下来，我们的视频跟踪管道作为一个裁缝，根据重叠帧中的姿势将这些轨迹缝合在一起（秒）。3.2，图3）。我们称这些在同一帧中的同一个人的多个姿势为假设。最后，空间-时间合并在优化算法中使用这些假设来抛光这些预测，该优化算法为每个关节选择在空间和时间上更一致的位置（第12节）。3.3，图4）。在接下来的三节中，我们将详细介绍这三个组件。3.1. 剪辑跟踪网络我们的剪辑跟踪网络同时执行姿态估计和跟踪，在一个短的视频剪辑。它的架构建立在Sun等人成功的HRNet架构之上。[30 ]第30段。在下一段中，我们总结了最初的HRNet设计，并在接下来的一段中，我们解释了如何将其扩展到跟踪。HRNet用于图像中的人体姿势估计。给定一幅图像，这种自上而下的方法在其上运行一个人检测器，该检测器输出一个轴对齐的边界框列表，每个边界框对应一个定位的人。每个盒子都是独立的-（图第2b段）。接下来，它将此管馈送到我们的视频HRNet，HRNet输出一个tracklet，其中包含人物p在管的所有帧中的所有姿势：Pt={ρt−δ，.，ρt，.，ρt+ δ}PPP(fig.第2c段）。重要的是，P β t中的所有姿势需要归属同一个人，即使这变得被遮挡或移出管帧（在这种情况下，网络不应该输出任何预测，即使其他人在场）。这是一项艰巨的任务，需要网络学习预测姿势关节的位置，并通过时间跟踪它们。为了帮助网络应对这一挑战，我们做了两件事：（i）考虑到快速移动的人，我们在创建管道之前将每个边界框沿两个维度放大25%;和（ii）为了让网络将帧之间的人联系起来，我们将HRNet前两个阶段的2D卷积扩展到3D，以帮助网络学习跟踪。具体来说，在第一阶段中，我们使用3×1×1、1×3×3和1×1×1滤波器，而在第二阶段中，我们使用3×3×3滤波器。在第二阶段之后，网络具有一个时间上足够大的感受野，以观察整个管道，了解人的外观和他/她在其中的运动。请注意，我们的方法在精神上与Jin等人的方法相似。[17]提出了他们的时间关联嵌入，但它是由网络自动学习，而不需要额外的约束。最后，我们用相同的eq均方损失训练我们的视频HRNet1，但是现在在剪辑C中的所有帧上计算：自动裁剪并输入HRNet，HRNet由四个并行子网络的四个阶段组成，经过训练，L=1Σ|C|ΣK ΣWΣH¨ ¨<$Hpred−Hgt<$（二）只有作物中心人物的身体关节。|千瓦时|KWHfk i伊伊卡夫J艾克菲222p110913DHRNet......3DHRNet......3DHRNet......ppβpβ1p1图2：剪辑跟踪网络。首先，（a）我们的方法在短视频剪辑的关键帧上运行人物检测器。然后，（b）对于每个检测到的人，它通过从剪辑中的所有帧中裁剪他/她的边界框内的区域来创建管。接下来，（c）每个管被独立地馈送到我们的剪辑跟踪网络（3D HRNet）中，该网络在管的所有帧中输出同一个人（最初在关键帧中检测到的人）的姿势估计最后，（d）我们在原始图像上重新投影预测的姿势，以显示模型如何通过仅检测关键帧中的人来正确预测剪辑的所有帧中的姿势。3.2. 视频跟踪管道我们的剪辑跟踪网络为定位在βp的每个人p输出一个trackletPβt。然而，P可以存在于Pβt的长度之外，并且我们的视频跟踪流水线的职责是合并属于同一个人的轨迹，从而使得能够对任何任意长度的视频进行姿态估计和跟踪（图12）。（3）第三章。如果两个固定长度的轨迹片段在重叠帧上的预测姿势相似（例如，在图3中，Pβ2和Pβ4在帧2-4上重叠）。我们通过在长度为的剪辑上运行剪辑跟踪网络来生成这些重叠的轨迹|C|从每S（步长）帧采样的关键帧中，<|C|.我们将属于同一个人的合并轨迹的问题建模为基于二分图的能量最小化问题，我们使用匈牙利算法[18]解决该问题。作为两个重叠轨迹之间的相似性函数，我们计算它们的姿势之间的对象关键点相似性（OKS）[19，27]（重新投影到原始坐标空间，图2）。2d）在其重叠的框架上。例如图3个轨迹Pβ6和Pβ8计算在注意这个公式是如何克服自上而下方法通常受到的限制的：丢失的边界框检测。由于我们将人物检测从关键帧传播到其相邻帧（图1）。2b），我们能够获得关节预测，甚至对于那些具有错过检测的帧。例如图人物检测器未能定位关键帧4中的绿色人物，但是通过传播来自关键帧2和6的检测，我们也能够获得帧4的姿态估计。此外，由于这两个tracklet之间的重叠，3.3. 姿态假设我们的视频跟踪管道合并tracklet，但它不处理合并人体姿势。例如图该方法正确地链接了所有黄色轨迹片段，但是它没有解决如何处理帧4的多个姿态估计的问题（即，ρ42、ρ44和ρ46）。在这β1β1β2第一节我们提出了解决这个问题的办法。给定一组合并的，重叠的tracklet，31p，我们定义Ht={ρt、...、ρt、...、ρt}，作为pose分别从关键帧6和10生成的管，pt−δptt+δpp长度|C| =5。在这些设置下，这些tracklet预测帧6、7和8的姿态，并且将它们的相似性计算为这三个帧上的平均OKS。对另一方面，Pβ6 Pβ2 仅在帧时间t时p的假设Ht表示人物p的姿势集合，由我们的剪辑跟踪网络在时间t通过运行以不同关键帧为中心的管裁剪生成最简单的程序来获得一个3 2因此，它们的相似性被计算为OKS，这一帧。最后，我们取这个OKS相似性的负值来解决我们的最小化问题。每个人的最终姿势是简单地选择，对于每个联合，具有最高置信度得分的假设Ht我们称之为基线合并，..................β11092图3：视频跟踪管道通过比较轨迹片段重叠的帧中检测到的姿势的相似性，将固定长度的轨迹片段合并为任意长度的轨迹。实验中，它实现了具有竞争力的性能，已经突出了我们的剪辑跟踪网络的力量然而，当感兴趣的人与另一个人纠缠或被另一个人包围时，这个程序偶尔会预测错误的4便士为了克服这些限制，我们提出了一种新的方法来合并这些假设（图1）。4b-c）。我们的直觉是，关节的最佳位置应该是在帧内的多个候选者之间一致（空间约束）并且在连续帧上一致（时间约束）的位置我们将预测每个帧中每个关节的最佳位置的问题建模为最短路径问题，并使用Dijkstra算法[ 10 ]解决该问题我们不将每个联合检测视为图中的一个节点，而是对通过在联合假设上运行均值漂移算法获得的聚类进行操作[8]。这种聚类鲁棒地平滑了各个假设中的噪声，同时还减小了图形大小，从而加快了优化速度。作为连续帧中簇ct和ct+1之间的相似性函数，我们计算了遵循上述直觉的时空加权函数：它有利于具有更多假设的簇和那些在时间上具有更平滑运动的簇。从形式上讲，¨ ¨2（1）A =（|H|− |C t|）+（|H|− |c t+1|）+λ <$µ（c t）− µ（ct+1）<$，（3）`x`x2时空其中μ（c t）、μ（c t+1）是聚类中心的位置，|C t|、|ct+1|其幅度和|H|假设的数量。最后，我们使用λ来平衡这些空间和时间约束。图4：合并姿势假设。我们的视频跟踪管道在多个重叠帧上运行我们的剪辑跟踪网络，为人的每个关节产生多个假设（a）。我们对这些假设进行聚类（b），并在这些聚类上解决时空优化问题，以估计每个关节的最佳位置这实现了比简单基线更好的预测，该基线总是选择具有最高置信度得分（d）的假设，特别是在具有高度纠缠的人的帧上。4. 实验4.1. 数据集和评估我们使用PoseTrack [3]进行实验，这是一个用于视频中人体姿势估计和跟踪的大规模基准。它包含了具有挑战性的序列高度articulated人在密集的人群中进行广泛的活动。我们在此基准的2017和2018版本上进行了实验。PoseTrack2017包含250个培训视频，50个验证视频和214个测试视频。Pose-Track 2018进一步增加了2017年版本的视频数量，共计593个用于培训，170个用于验证和375个用于测试。这些数据集用15个身体关节进行注释，每个关节定义为一个点，并与一个唯一的个人ID相关联。训练视频使用30帧的单个密集序列进行注释，而验证视频还为每四帧提供注释，以实现更长范围跟踪的评估。我们使用标准的人体姿态估计[19，24，27]和跟踪[3，20]指标来评估我们的模型：联合检测性能以平均精度（AP）表示，而跟踪性能以多对象跟踪精度（MOTA）表示。我们在每个身体关节上独立地计算这些指标，然后通过对关节进行平均来获得我们的最终性能。如文献[13，30，34]所述，当我们评估这些数据集的验证集时，我们计算所有局部身体关节的AP，但在计算MOTA之前，我们对低置信度预测进行阈值化对于我们的实验，我们在训练集的保持集上学习每个关节的阈值。此外，我们删除了非常短的tracklet（5帧）和微小的边界框（WH3200），因为这些通常会在背景中捕获未注释的小人。<110934.2. 实现细节3D视频HRNet. 在将2D HRNet膨胀到我们的3D版本，我们在PoseTrack数据集（2017年或2018年，取决于我们评估模型的集合）上对它进行预训练以进行图像姿态估计这一步使网络能够学习定位身体关节的任务，以便在视频训练期间，它可以专注于学习跟踪。我们使用“均值”初始化[6，12，13]来膨胀HRNet的前两个阶段我们使用步长S= 1，因为它产生最高数量的姿势假设，并且|C|= 9帧，使得模型可以受益于重要的时间信息。我们使用与[30]相同的超参数，但我们训练3D HRNet 20个epoch，并在10和15个epoch后分别降低学习率两次（1 e-4→ 1 e-5→ 1 e-6）。最后，在推理过程中，我们遵循[30，34]的过程：我们在原始图像和翻转图像上运行，并对它们的热图进行平均。个人探测器。我们使用ResNet-101 SNIPER [28]检测器来本地化所有的person实例。我们训练它MS COCO 2017数据集[19]，并在COCO minival上的“person”类上合并姿势假设。我们遵循PoseTrack评估过程来确定我们的集群的良好大小估计。该过程正确地考虑预测，如果该预测与最接近的地面实况之间的L2我们使用相同的半径为我们的集群。此外，我们设置λ= 0。1给予同等的重要性，空间和时间的组成部分，因为后者有approxi-10×的幅度前者。4.3. 与最新技术水平的比较我们在PoseTrack2017（表1和表2）和PoseTrack2018（表3和表4）的验证集上，将我们的方法与人体关节检测和跟踪文献中的最先进（SOTA）方法进行了比较。我们的方法在两个指标上、两个数据集上以及自上而下和自下而上的方法上都实现了SOTA结果。在某些情况下，相对于 SOTA 的改进是实质性的：PoseTrack 2017 上的 +6.5 mAP （对应于误差减少28%），以及Pose-Track 2018上的+3.0 MOTA（误差减少9%）。当与仅自上而下的方法（这是该方法所属的类别）相比时，MOTA的改进更加显著，在PoseTrack2017 上高达 +6.2 （错误减少 18% ），超过了上次PoseTrack挑战的获胜者（FlowTrack，65.4 vs 71.6），显示了同时执行联合检测和跟踪的重要性。接下来，我们在PoseTrack 2017（表5）和PoseTrack2018（表6）的测试集上评估我们的方法。这些集合的注释是私有的，我们获得了方法头ShoELBWRI髋KneAnkAvg底向上[第11话]-------69.3TML++[15]-------71.5STAF [25]---65.0--62.772.6STEEmbedding [17]83.881.677.170.077.474.570.877.0顶向下[13]第十三话67.570.262.051.760.758.749.860.6[35]第三十五话66.773.368.361.167.567.061.366.5快速姿势[37]80.080.369.559.171.467.559.470.3[34]第三十四话81.783.480.072.475.374.867.176.7HRNet [30]82.183.680.473.375.575.368.577.3我们的方法89.489.785.579.582.480.876.483.8表1：PoseTrack2017 val.方法头ShoELBWRI髋KneAnkAvg底向上[第11话]-------59.8TML++[15]75.575.162.950.760.053.444.561.3STAF [25]-------62.7STEEmbedding [17]78.779.271.261.174.569.764.571.8顶向下[13]第十三话61.765.557.345.754.353.145.755.2[35]第三十五话59.867.059.851.660.058.450.558.3快速姿势[37]-------63.2[34]第三十四话73.975.963.756.165.565.153.565.4我们的方法80.580.971.663.870.168.262.071.6表2：PoseTrack2017 val.方法头ShoELBWRI髋KneAnkAvgB-USTAF [25]TML++[15]------64.7-----62.0-70.474.6T-D[36]第三十六话82.488.886.279.472.080.676.280.9我们的方法84.987.484.879.277.679.775.381.5表3：PoseTrack2018 val.方法头ShoELBWRI髋KneAnkAvgB-USTAF [25]TML++[15]-76.0-76.9-66.1-56.4-65.1-61.6-52.460.965.7T-D[36]第三十六话68.873.565.661.254.964.656.764.0我们的方法74.276.471.264.164.565.861.968.7表4：PoseTrack2018 val上的关节跟踪（MOTA）方法附加数据腕关节AP踝关节APAP共计MOTA共计[第11话]Coco53.150.463.453.1TML++[15]Coco60.956.067.854.5[34]第三十四话Coco71.565.774.657.8HRNet [30]Coco72.067.075.057.9POINet [26]Coco69.567.272.558.4[29]第二十九话Coco71.965.074.061.2我们的方法Coco69.865.974.164.1表5：PoseTrack2017测试排行榜的结果[1]。方法附加数据腕关节AP踝关节APAP共计MOTA共计TML++[15]Coco60.256.867.854.9[36]第三十六话COCO +其他68.266.170.957.4[34]第三十四话COCO +其他73.069.074.061.4我们的方法Coco69.867.173.564.3表6：PoseTrack2018测试排行榜的结果[2]。通过将我们的预测提交给评估服务器来获得我们的结果[1]。同样，我们的方法在两个测试集（+3 MOTA）上都获得了最佳跟踪结果，并且在联合检测上与SOTA结果相当，尽管我们的模型实际上在PoseTrack2018上训练的数据比竞争对手少4.4. 分析我们的方法我们现在分析我们的方法和超参数选择。为了简单起见，我们只在PoseTrack2017的验证集上运行我们的实验，使用第2节中描述的设置。四点二。除非指定，否则我们不采用我们的时空合并程序（第2节）。3.3）保持我们的分析透明，因为这纠正了一些错误。11094图5：不同结扎夹长度值的结果|C|（a）和步长S。HRNet：3D滤镜没有一早期（Our）最后所有地图77.781.180.679.3Mota65.670.069.268.0表8：来自作为剪辑跟踪网络的不同HRNet架构的结果，其不同之处在于它们具有3D时间滤波器。表7：我们方法组件的消融研究。在第3行中，我们测试了与基线合并配对的视频跟踪管道，该合并总是选择具有最高分数的假设。消融研究。在这里，我们评估了我们方法的不同组成部分，并量化了每个组成部分对模型最终性能的首先，我们与独立运行在每帧上的基线2D HRNet模型[30]进行比较。该基线模型实现了77.7的mAP;这与我们最基本的3D HRNet（82.3mAP）相比具有相当低的一致性，最基本的3D HRNet不执行任何跟踪并且仅在假设上使用基于OKS的NMS。这一巨大的改进是由于我们的模型能够预测帧中的关节，其中person检测器未能定位该人。当我们的3D HRNet与我们的视频跟踪管道配对时（秒。3.2）和基线合并，与使用流行的基于OKS的贪婪二分匹配（oks-gbm）算法配对的相同2D HRNet基线相比，它大大改进了MOTA，该算法将随时间推移的姿势预测联系起来[13，34]。有趣的是，这也提高了mAP超过我们的3D HRNet没有跟踪（+0.8 mAP）。最后，当我们用我们的过程替换基线合并时（第2节）。3.3），结果进一步改善：空间和时间合并都是有益的和互补的，使我们的完整模型性能达到83.8mAP和71.6 MOTA，比强基线几乎提高了10%。剪辑长度|C|. 我们的3D HRNet在时空管上运行，|C|.节中4.2，我们将此值设置为9，以便我们的剪辑跟踪网络和视频跟踪管道都可以从丰富的时间信息中受益在这里，我们研究了当我们改变这个超参数时性能是如何变化的（图1）。5a）。设置|C| =1相当于运行上一节中介绍的基线2D HRNet，并且在所有变体中实现了最低的性能。有趣的是，通过从1移动到3，这表明很少的时间信息已经足以补偿人员检测器的许多故障。进一步增加|C|导致mAP和MOTA的缓慢但稳定的改善，因为模型可以从更多的错误中恢复。我们在图中定量地显示了这种恢复。5a，其中假阴性的数量减少为|C|增大步长S。节中4.2，我们将其设置为1，使得我们的方法可以使用视频的每一帧作为关键帧，并收集最大的姿态假设集合然而，这个过程增加步长）。增加S的值会导致线性速度增加一个系数S，因为我们的方法中两个最昂贵的组件（人物检测器和3D HRnet）现在每S帧运行一次。如预期，结果（图）。5b）对于联合检测和跟踪两者，随着我们增加S而减小，因为模型失去其时间益处。然而，它们缓慢地减小，即使当我们以最大步长运行最快的推理时，该模型仍然达到了具有竞争力的性能（mAP 78.9和MOTA 67.2），与许多最先进的模型相当（表1）。此外，请注意这些结果是如何优于我们的基线2D HRNet的结果的（ mAP 77.7和MOTA 65.6，图2）。5a，|= 1），但这个3D模型实际上更快，因为它运行|= 1),yet this 3D model is effectively faster, as it runs它的人物检测器每8 帧只检测一次，而不是像 2DHRNet那样的所有帧。网络设计。我们的3D HRNet架构在其早期2个阶段使用3D卷积（第2节）。3.1），因为这些最适合学习正确连接管内同一人的关节所需的低级别对应关系。在本节中，我们将评估不同的网络设计：我们的设计（早期），在其最后阶段（最后）具有3D滤波器的3DHRNet架构，其学习在小时间窗口上平滑联合预测，以及完全3D HRNet架构（全部），其平衡学习良好的时间相关性，主干：HRNet时空链接合并合并（秒）3.3）（秒）3.3）检测图跟踪MOTA基础2DOKS-GBM77.765.6没有一82.3-我们的3D（秒）第3.1秒第3.2节秒第3.2节秒第3.2节✓✓83.183.583.470.871.471.111095图6：我们的方法在PoseTrack数据集的五个视频上的输出可视化。边界框和姿势使用我们模型预测的轨迹id进行颜色编码。实心边界框表示实例被人检测器定位，而虚线边界框最初被检测器错过，但通过我们的方法恢复。sponences和空间平滑的联合预测。由于训练一个完整的3D HRNet需要大量的GPU内存，我们在这里尝试了一个轻量级的设置，|= 3。|= 3.结果见表8。作为参考，我们报告了没有任何3D滤波器的标准2D HRnet的mAP性能。添加3D过滤器，无论位置如何，总是比简单的2D架构有所改进。在不同的选择中，依赖于人员探测器。与所有自上而下的方法一样，我们的方法也受到就业人员检测器准确性的限制。然而，我们认为我们的方法比文献中的其他方法灵敏度低得多，因为它可以使用其时间推理来恢复错过的预测。为了验证这一点，我们评估了检测框到相邻帧的传播如何允许模型提高召回率。我们在PoseTrack2018的验证集上进行了实验，因为2017集没有边界框注释。我们使用两种不同的骨干（表9）将我们的3D方法与其2D方法进行结果表明：（i）我们的3D方法确实可以恢复大量错过的预测（+4-7%召回率），（ii）它甚至可以提高较弱检测器的召回率（3D MobileNet-V2，召回率83），与更强的模型（2D ResNet-101，召回率82.9）相当。表9：PoseTrack 2018上的人员边界框召回。5. 结论我们提出了一种新的自顶向下的方法，用于视频中的多人姿态估计和跟踪。我们的方法可以从失败的人检测器通过传播已知的人的位置通过时间和搜索姿势在他们。我们的方法包括三个组成部分。剪辑跟踪网络用于联合执行联合姿态估计和跟踪的小视频片段。然后，视频跟踪管道被用来合并由剪辑跟踪网络预测的轨迹，当这些属于同一个人。最后，时空融合被用来细化的联合位置的基础上的时空共识程序在多个检测同一个人。我们表明，这种方法能够正确地预测人的姿势，即使是在包含严重遮挡和纠缠的非常困难的场景中（图 1 ）。（六）。最后，我们通过在PoseTrack 2017和2018数据集上实现联合检测和跟踪的最新结果，以及所有自上而下和自下而下的方法，展示了我们的方法。人检测器基础2D我们的3D强大的ResNet-10182.986.5更弱的MobileNet-V277.683.011096引用[1] Posetrack 2017：领导委员会。https：//posetrack.net/leaderboard.php，2017.[2] Posetrack 2018 ：领导委员会。https ：//posetrack.net/workshops/eccv2018/posetrack_eccv_2018_results.html，2018年。[3] 米哈伊洛安德里卢卡Umar伊克巴尔埃尔达·因萨夫迪诺夫Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. PoseTrack：人体姿态估计和跟踪的基准。在CVPR，2018年。[4] Mykhaylo Andriluka、Leonid Pishchulin、Peter Gehler和Bernt Schiele 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。[6] Joao Carreira和Andrew Zisserman。Quo vadis，开拍认可？新模型和动力学数据集。在CVPR，2017年。[7] 陈一伦王志成彭宇翔，志强Zhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR，2018年。[8] Dorin Comaniciu和Peter Meer。均值漂移：一个强大的ap-向特征空间分析方向发展。TPAMI，5：603-619，2002年。[9] 戴继峰、齐浩志、熊宇文、李毅、国栋Zhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[10] Edsger W Dijkstra。关于连接中两个问题的注记用图表。Numerische mathematik，1（1）：269[11] Andreas Doering， Umar Iqbal ，and Juergen Gall. 联合流：用于多人跟踪的时间流场。在BMVC，2018年。[12] Christoph Feichtenhofer，Axel Pinz，and Richard Wildes.用于视频动作识别的时空残差网络。在NIPS，2016年。[13] Rohit 格达哈，格鲁吉亚 Gkioxari，洛伦佐·托雷萨尼，Manohar Paluri和Du Tran。检测和跟踪：视频中的高效姿态估计。在CVPR，2018年。[14] Kaim ing He，Geor gia Gkioxari，Piotr Dolla'r，and RossGir-真恶心。面具R-CNN。InICCV，2017.[15] Jihye Hwang ， Jieun Lee ， Sunheon Park ， and NojunKwak.使用肢体的时间流图的姿势估计器和跟踪器。IJCNN，第1-8页[16] Eldar因萨夫季诺夫，列昂尼德皮舒林比约恩·安德烈斯，Mykhaylo Andriluka和Bernt Schiele Deepercut：更深、更强、更快的多人姿势估计模型。在ECCV，2016年。[17] Sheng Jin，Wentao Liu，Wanli Ouyang，and Chen Qian.具有空间和时间嵌入的多人铰接式跟踪。在CVPR，2019年。[18] 哈罗德·库恩。匈牙利的作业方法问题. 海军研究后勤季刊，2（1-2）：83-97，1955年。[19] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV[20] Anton Milan，Laura Leal-Taixe'，Ian Reid，Stef an Roth，11097康拉德·辛德勒MOT16：多目标跟踪的基准。arXiv预印本arXiv：1603.00831，2016。[21

下载后可阅读完整内容，剩余1页未读，立即下载