PoseTrack21：人物搜索、多目标跟踪和多人姿态跟踪的数据集

35 浏览量更新于2023-10-26 收藏 12.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Andreas Doering* 1Di Chen∗ 2,3Shanshan Zhang 2Bernt Schiele 3Juergen Gall 1209630PoseTrack21：一个用于人物搜索、多目标跟踪和多人姿态跟踪的数据集01 波恩大学 2 南京理工大学 3 计算机科学研究所0摘要0当前的研究将人物搜索、多目标跟踪和多人姿态估计作为单独的任务进行评估，并在不同的数据集上进行评估，尽管这些任务非常相似，包括类似的子任务，例如人物检测或基于外观的检测人物的关联。因此，这些任务上的方法有资格互补。因此，我们介绍PoseTrack21，这是一个大规模的数据集，用于人物搜索、多目标跟踪和多人姿态跟踪，在具有高度多样性的真实场景中。该数据集提供了丰富的注释，如人体姿态注释，包括关节遮挡的注释，即使是小人物的边界框注释，以及视频序列内部和跨视频序列的人物ID。该数据集允许同时评估多目标跟踪和多人姿态跟踪以及人物再识别，或利用人体姿态的结构知识来改进人物搜索和跟踪，特别是在严重遮挡的情况下。通过PoseTrack21，我们希望鼓励研究人员开展在所有三个任务上表现良好的联合方法的研究。01. 引言0多人姿态跟踪[30, 34, 36, 39, 43, 44]，多目标跟踪[4, 5,10, 37, 45, 50]和人物搜索[7-9, 23, 41,42]是计算机视觉中非常活跃的研究领域，与许多应用领域（如体育、自动驾驶和安全）相关。尽管这些研究领域共享非常常见的子任务，但目前它们是独立研究的，一个领域的进展并不一定会带来其他领域的进展。例如，人物搜索旨在在一组目标图像或视频帧中重新识别查询人物。与人物再识别不同，人物搜索还需要检测。0* 相等贡献0在图像中检测所有人物更加困难，原因是检测不准确、漏检或误报。人物搜索因此是多目标跟踪的一个相关子任务，其中需要在所有帧中检测到人物并在帧间进行关联以进行跟踪。如果一个人在几个帧中被遮挡，关联问题就类似于人物搜索。因此，多目标跟踪的方法通常使用人物再识别模块[17,18, 27, 48,49]。然而，多目标跟踪仅考虑视频序列中一个人的身份，而不考虑跨视频的情况。相比之下，人物搜索旨在识别跨视频的人物。最后，多人姿态跟踪与多目标跟踪相关，但不是为每个人物估计边界框，而是需要估计完整的姿态，包括哪些关节可见或不可见。0多人姿态跟踪、多目标跟踪和人物搜索之所以独立研究，是因为缺乏一个允许在真实视频序列上联合评估这三个任务的数据集。多目标跟踪的数据集[11, 22, 29,32]包含轨迹ID和边界框，但没有跨视频的人体姿态和人物ID的真值。多人姿态跟踪的数据集[1,19]也没有跨视频序列的人物ID，但它们也不包含边界框。虽然可以从人体姿态计算边界框，但由于这些数据集中频繁出现遮挡和截断，它们不准确且不可靠。使用计算机游戏引擎GTA生成的合成数据集[13,14]是一个例外，但它们用于训练，不能用于评估真实数据上的方法性能。此外，它们缺乏真实视频的姿态多样性，这些视频还包括各种各样的体育场景。在这项工作中，我们弥补了这一空白，并提出了PoseTrack21，一个用于多人姿态跟踪、多目标跟踪和人物搜索的大规模数据集。它基于PoseTrack2018训练和验证集的扩展视频集，但视频完全重新注释。除了精细的人体姿态，数据集还包含准确的注释。MP PoseTrack [19]16,219✓✓PoseTrack 2017† [1]80,144✓✓PoseTrack 2018† [1]144,688✓✓MOT15 [22]101,345✓✓MOT17 [29]292,733✓✓MOT20 [11]1,652,040✓✓DukeMTMC⋄ [32]46,261✓✓✓PathTrack [28]16,287 ‡✓✓CUHK-SYSU [40]96,143✓2,900✓PRW [47]34,304✓932✓P-DESTRE [21]∼ 14.8 M✓253✓PoseTrack-ReID⋄ [15]84,443∗✓PoseTrack21428,949177,164✓✓1,313✓JTA [14]∼10 M✓MotSynth [13]∼ 40M✓209640PoseTrack 20180PoseTrack210图1. PoseTrack 2018 [ 1 ] 和 PoseTrack21的比较。我们密集标注了拥挤场景，增加了多人姿态跟踪、多目标跟踪和人员搜索的难度。忽略区域用红色绘制。最好使用带有PDF阅读器的彩色查看。0关节遮挡的标注，即使对于小人物也有准确的边界框标注，以及视频序列内和跨视频序列的人员ID。因此，该数据集可用于评估多人姿态跟踪、多目标跟踪和人员搜索的方法。此外，该数据集允许比较多人姿态跟踪和多目标跟踪的方法，这在以前是不可能的，因为缺少边界框或人体姿态标注。因此，我们提出了一些基线方法，将多人姿态跟踪、多目标跟踪和人员搜索的技术相结合，并解决了将多目标跟踪方法扩展到多人姿态跟踪或反之是否更有前景的问题。最后，我们对现有方法和基线进行了详细分析，包括其优点和局限性。该数据集和基线的源代码可在https://github.com/andoer/PoseTrack21 上获得。02. 相关数据集0我们讨论了用于多人姿态跟踪[ 1 , 14 , 19 ]、多目标跟踪[11 , 21 , 22 , 29 , 32 ]和人员搜索[ 21 , 40 , 47]任务的最常用数据集，并总结了Tab.1中的主要差异。与以前的多人姿态跟踪数据集相比，PoseTrack21每个序列包含约22%更多的人体姿态标注。此外，我们提供了超过420,000个额外的边界框标注。因此，与以前的多人姿态跟踪数据集相比，我们的数据集包含更多的人员实例。此外，PoseTrack21是唯一一个提供连续人员身份的多人姿态跟踪、多目标跟踪和人员搜索任务的数据集，因为它在整个数据集中提供了连续的人员身份。接下来，我们将更详细地描述其他数据集。0数据集 # 目标框 # 姿态轨迹ID 人员ID # 查询实际0表1.多人姿态跟踪、MOT和人员搜索的不同数据集比较。带†的数据集：仅有训练和验证集。带�的数据集：没有手动注释。带�的数据集：不可用。带‡的数据集：仅报告总轨迹数。0多人姿态跟踪多人姿态跟踪数据集[ 1 , 19]是用于视频中多人姿态估计和跟踪的大规模数据集。PoseTrack包含来自多个野外场景的具有挑战性的场景，如运动和舞蹈，许多拥挤场景中存在较高程度的遮挡。这些视频在摄像机视角和摄像机运动方面也有很大差异。PoseTrack2017数据集[ 1 , 19 ]遵循MPII Human Pose数据集[ 2]的分割，将数据集分为292个训练视频、50个验证视频和208个测试视频。总共，PoseTrack2017提供了约23,000个带有153,615个标注姿态的标记帧，每个姿态都有15个关键点的标注。PoseTrack2018扩展了以前的数据集，包含593个训练视频、170个验证视频和375个测试视频。大多数序列的帧数在41到151帧之间，并且每个序列中间有30个密集标注的帧。此外，验证和测试序列以四帧为步长进行密集标注。总的来说，PoseTrack 2018包含209650共有46,933个标记帧1。在表1中，我们提供了扩展版本的统计数据。由于测试集不公开，我们只能报告训练集和验证集的总姿势数。除了人体姿势外，PoseTrack还提供了忽略区域，用于排除未注释的人群和小人，头部边界框用于估计人的尺度，这对于评估是必需的，以及轨迹身份。不幸的是，轨迹身份在整个数据集中并不唯一，甚至在单个序列中也不唯一。例如，如果一个人离开场景然后重新进入，它将被分配一个新的轨迹ID。这可能导致外观相似性方法出现歧义。多目标跟踪最重要的基准是MOTChallenge2，它包括三个独立的跟踪基准：2D MOT 15 [22]，MOT16/17[29]和MOT20[11]。每个基准都包含具有挑战性的人物跟踪序列，主要是在监控场景或具有不同程度的遮挡和拥挤场景的街景中。例如，MOT20数据集分为训练子集和测试子集，每个子集包含四个序列。此外，数据集还包含不同对象类别的注释，例如汽车、反射或人群，在评估过程中被忽略。MOT20序列主要限于监控场景，其中人物处于直立位置。因此，姿势的多样性要比用于多人姿势跟踪的数据集低得多。与PoseTrack类似，轨迹身份并不总是连续的，例如，如果一个人离开并重新进入场景，将关联一个新的轨迹ID。特别是在非常拥挤的场景中，这会导致很多身份切换，这可能会损害基于外观的关联方法（如人物再识别）的训练。DukeMTMC[32]是另一个具有监控设置的多目标跟踪数据集。与之不同的是，DukeMTMC提供了来自不同摄像机的同一场景的录像，并为多目标多摄像机跟踪提供了基准。因此，该数据集在整个数据集中提供了唯一的人物身份。不幸的是，由于伦理问题，该数据集不再可用。Manen等人[28]提出了另一个名为PathTrack的大规模MOT数据集，包含720个序列，总长度为172分钟，总共16287个人物轨迹。与PoseTrack类似，该数据集包含不同类别的序列，例如体育、舞蹈或街道。0人物搜索和人物再识别，无论是人物搜索数据集[21，40，47]还是基于视频的人物再识别数据集[21，38，46]，都分为查询和01 关于训练和验证。由于注释不公开，无法对测试集进行测量。2https://motchallenge.net0图2。从左到右：PoseTrack21中人物搜索查询的难度逐渐增加。0图库子集。查询子集包含所有需要与图库子集匹配的感兴趣的人。查询图像通常以紧凑的人物裁剪形式提供，大多数只包含感兴趣的人。然而，在许多实际场景中，如监控或体育，人们经常被障碍物遮挡。此外，这些场景中经常出现拥挤的场景，人们经常互相遮挡。这导致了很多的歧义，特别是如果一个人部分可见或一个裁剪中存在多个人。相反，PoseTrack21提供了具有不同难度的查询，从单个人物裁剪到高度遮挡的场景，在这些场景中，一个裁剪中可见多个人。通过这种方式，该数据集允许在现实设置和与监控类似的有限姿势变化的不同场景中研究人物搜索。图2显示了PoseTrack21查询的一些示例。此外，我们为每个查询人物提供姿势注释，可用作人物搜索的额外指导。[15]是基于PoseTrack2017数据集的另一个数据集，该数据集是为了视频人物再识别而进行注释的。根据关键点注释，作者计算了边界框，并删除了具有少于6个关键点的人。与PoseTrack21不同，身份没有被注释。相反，人物身份是通过无监督的方法获得的，无需额外的验证。此外，注释也不可用。类似地，[6]还在PoseTrack上评估了基于视频的人物再识别，并从PoseTrack2018视频中提取了轨迹。这两个协议[6，15]都是用于人物再识别，而不是人物搜索。0合成数据集 Joint Track Auto (JTA)[14]数据集是从一个视频游戏中生成的。与其他合成数据集一样，该数据集用于训练，但不适合评估方法在真实数据上的性能。尽管如此，该数据集包含了超过460,888个密集注释帧中的10M多个人体姿势注释。该数据集分别包含256个训练和验证集的视频。与209660在PoseTrack中，跟踪ID在每个序列内是唯一分配的。MOTSynth[13]数据集与JTA数据集相同，是从同一个视频游戏中生成的，结合了128个JTA数据集的序列和256个新场景。所有场景都是在不同的天气条件下渲染的，包括白天和夜晚，总共有576个训练场景和192个验证场景，包含超过40M个边界框、超过1.3M个注释帧和9519个唯一的人物ID。此外，MOTSynth还提供了3D姿势、分割掩码和深度信息。在这两个数据集中，与PoseTrack相比，人体姿势的多样性非常低。03. PoseTrack21数据集0为了创建PoseTrack21，我们使用了PoseTrack 2018[1]数据集的训练和验证集的视频。训练集包含593个视频，验证集包含170个视频。注释工作分为几个步骤进行。首先，我们注释了边界框。由于PoseTrack只提供了一些关键帧的姿势注释，我们首先为所有关键帧注释了边界框。为此，我们在PoseTrack中可视化了一个帧的注释姿势，并要求注释者注释所有头部可见的人，因为评估需要头部大小[3]。这也包括在PoseTrack2018中没有被注释的人，特别是小人和人群中的人。注释者被要求绘制一个紧密的边界框，覆盖整个人，包括被遮挡的身体部分。在第二步中，我们在关键帧之间插值和手动修正了边界框。在第三步中，所有边界框注释都由另一个人进行了验证。在第四步中，我们在每个帧中标记了未被注释的人的忽略区域。忽略区域由第二个人进行了验证，并确保对未被注释的人进行预测的方法不会受到惩罚。在第五步中，为验证集注释了头部边界框。头部边界框是评估指标[3]所必需的，但对于训练不是必需的。同时，在训练和验证集的所有关键帧上注释了唯一的人物身份。在最后一步中，我们为训练和验证集的所有关键帧调整和注释了人物关键点。PoseTrack2018数据集的原始注释包含15个关键点，每个关键点都包含一个标志，指示是否已注释。不幸的是，存在一些情况下这些标志没有可靠地设置。在我们的数据集中，我们重新定义了关键点标志的目的，并包括遮挡的关键点。通过这种方式，姿势估计、re-ID和跟踪方法可以在其训练流程中利用遮挡信息。我们定义一个关节j = (x, y,v)为遮挡的，如果x>0，y>0且v=0。A0如果x=0，y=0且v=0，则关节被截断。否则，如果v=1，则关节被定义为可见。在修正原始关键点后，我们运行了一个现成的姿势估计器[30]，仅对关键帧上新增的边界框进行姿势估计，然后进行手动修正。所有注释的姿势都经过了验证，并在必要时由第二个人进行了修正。总共有23个注释者在该数据集上工作了超过16,000个人工时。0人员搜索在人员搜索的背景下，我们随机选择了1313个具有不同大小、摄像机运动和遮挡程度的人员查询。特别是在遮挡的情况下，查询可能包含多个人员。由于这会导致歧义，我们还为感兴趣的人员提供关键点信息，如图2所示。通过这种方式，我们希望鼓励研究人员专注于更具挑战性的人员搜索场景。0数据格式我们为各个任务提供了不同的数据格式，这些格式与相关数据集中使用的格式非常相似。对于多人姿势跟踪和人员搜索，我们保持了[1]中使用的格式。对于多目标跟踪，我们采用了[22]中提出的格式。这样做的好处是，来自不同社区的研究人员无需改变他们的方法，可以轻松读取注释并保存评估结果。04. 多人Re-ID姿势跟踪0接下来，我们将描述我们为多人Re-ID姿势跟踪提出的基准。第一个基准将在第4.1节中描述，它基于[30]的方法，并通过包含人员重新识别模块来在遮挡或重新进入场景后重新识别人员。第二类基准将在第4.2节中描述，它将多目标跟踪方法[4]扩展到多人姿势跟踪。04.1. 提出的CorrTrack基准0CorrTrack[30]是一种多人姿势跟踪方法，利用关键点对应网络。该方法包括三个步骤。给定一个新帧，该方法首先检测人员。为了公平比较基准，我们使用相同的更快的R-CNN目标检测器[31]，而不是[30]中使用的检测器，该检测器也在[4]中使用。然后，该方法使用姿势估计器为每个检测到的边界框估计人体姿势，姿势估计器由多个阶段的改进版GoogleNet[35]组成。为了公平比较，我们还将相同的姿势估计器用于其他基准。此外，该方法使用关键点对应网络将姿势从上一帧传播到当前帧。由于遮挡的关节可能在下一帧中变得可见，该方法使用姿势估计器重新估计传播姿势的姿势。应用了一个209670CorrTrack † [30] 72.0 62.6 87.7 58922 14896 164823 485634 CorrTrack [30] 72.3 63.0 87.3 5913015272 161995 488484 CorrTrack [30] w. ReID 72.7 63.8 87.3 62604 9436 158720 491712Tracktor++ [4] w. poses 71.4 63.3 87.3 59850 8145 166886 483558 Tracktor++ [4] w.correspondences 73.6 61.6 86.6 75663 20754 147929 5025880CorrTrack [30]（离线）72.3 63.9 87.3 59132 9577 161997 4884820表2. 在PoseTrack21上使用关键点MOTA指标评估的多人姿势跟踪基准。带†标记的方法使用在PoseTrack 2018 [1]上训练的模型。0在新帧上对姿势进行非极大值抑制，剩余的姿势通过二分图匹配与前一帧的姿势相匹配，两个姿势之间的相似度由关键点对应网络生成的亲和力图来衡量。如果无法匹配前一帧的姿势，则对应的轨迹终止。如果新帧的姿势与前一帧的姿势不匹配，则开始新的轨迹。这种逐帧匹配导致身份切换次数较多。[30]还提出了一种离线版本，可以在基于关键点对应相似度的附加后处理步骤中合并轨迹。我们将报告在线和离线变体的结果。为了能够在线跟踪一个人并减少由于遮挡或重新进入场景而导致的身份切换次数，我们保留了最近结束的T =10帧的轨迹历史。如果新帧中的姿势与先前帧中的姿势不匹配，则将姿势与历史轨迹进行匹配。请注意，只有在轨迹不活动时，即不包含先前帧的姿势时，才将轨迹添加到历史记录中。对于匹配，我们使用SeqNet模型[23]，我们还将评估该模型用于人员搜索任务。我们计算未匹配的姿势的重新识别特征以及最多使用轨迹的最后T帧的非活动轨迹的平均重新识别特征。然后，通过计算相应特征向量的余弦相似度来计算姿势与非活动轨迹之间的相似度。然后，使用匈牙利算法[20]对所有非活动轨迹和未匹配的姿势进行匹配。如果匹配的相似度高于阈值τ =0.5，则重新激活匹配的轨迹。未匹配的检测会启动新的轨迹。我们将这个变体称为CorrTrack with ReID。04.2. 提出的Tracktor++基线0通过增强的相关系数最大化[ 12]，Tracktor++是一种在线多目标跟踪方法，它基于FasterRCNN [ 31]。在跟踪过程中，Tracktor++通过图像配准对帧进行对齐。对于帧率较低的序列，Tracktor++还适用于所有跟踪对象的恒定速度假设。通过应用相应的运动模型，活动轨迹的边界框被变形到当前帧。此外，通过[ 31]的边界框回归分支对变形的边界框进行细化。边界框回归后，置信度较低的变形框被删除，相应的轨迹被停用。然后，对所有剩余的变形和检测到的边界框应用基于边界框交并比的非最大抑制。在第二步中，未匹配的检测结果与非活动轨迹关联。对于最多最后的T =10个非活动轨迹的边界框，计算从重新识别模型[ 17]提取的平均外观特征，并将其与每个未匹配的检测结果的外观特征进行比较。作为两个外观特征向量之间的距离，使用欧氏距离。剩余的未关联检测结果启动新的轨迹。我们将[ 4]的方法扩展到两种多人重新识别姿态跟踪的方式。在第一种设置中，我们在PoseTrack21上评估了Tracktor++，而不使用恒定速度假设。此外，我们删除了少于三帧的小轨迹，因为它们很可能是误报。然后，我们使用[ 30]中的姿态估计模型为每个轨迹估计姿态。我们将这种方法称为带有姿态的Tracktor++。0在第二种设置中，我们用基于[ 30]中的关键点对应网络的姿态变形模块替换了运动模型。首先，我们将所有活动轨迹的最后一个姿态的关键点变形到下一帧。由于遮挡的关节可能变得可见，我们根据变形后的关键点计算一个边界框，并使用[ 4]中的边界框回归模块进行边界框细化。其次，我们使用姿态估计模型重新估计姿态。我们根据非最大抑制和姿态相似性以贪婪的方式进行跟踪。在[ 39]中，我们计算变形轨迹姿态和估计姿态之间的姿态相似性。无法关联的轨迹变为非活动状态。与非活动轨迹不匹配的检测到的姿态的关联与之前相同。我们将这种方法称为带有对应关系的Tracktor++。CorrTrack [30]72.351.1351.0745.4881.9458.0257.75CorrTrack [30] w. ReID72.752.7152.5946.5681.9360.2159.66Tracktor++ [4] w. poses71.452.2152.0346.3081.9559.4158.61Tracktor++ [4] w. correspondences73.648.9048.4344.6781.2654.0552.023https://pytorch.org/vision/stable/models.html209680方法 mAP HOTA FA-HOTA DetA LocA AssA FragA0CorrTrack [ 30 ]（离线） 72.3 52.42 52.29 45.48 81.94 60.93 60.370表3. 在PoseTrack21上使用关键点HOTA指标评估的多人姿态跟踪基线。05. 分析0我们评估了在我们提出的数据集上进行多人重新识别姿态跟踪、多目标跟踪和人员搜索任务的相关最新方法的性能，并分析了其优势和劣势。0评估指标在多人姿态跟踪的背景下，我们使用[ 1]中提出的基于关键点的MOTA指标进行评估。与用于多目标跟踪的标准MOTA指标[ 22]不同，基于关键点的MOTA分别评估每个关键点类别的跟踪性能。在PoseTrack21的背景下，这导致了15个不同的MOTA分数，然后将其平均为最终的MOTA分数。一般来说，MOTA指标受关键点检测的定位精度的影响很大。因此，更好的人员检测器或姿态估计器直接导致更强的MOTA分数。相反，HOTA [ 26]试图平衡底层轨迹的检测准确性和关联准确性。因此，HOTA由衡量检测准确性（DetA）、定位准确性（LocA）、关联准确性（AssA）和碎片化准确性（FragA）的子指标组成。FragA严重惩罚碎片化的轨迹，并将HOTA扩展为一种考虑碎片化的HOTA指标（FA-HOTA）。对于多人重新识别姿态跟踪的评估，我们提出了关键点HOTA，并用头部归一化的正确关键点百分比（PCKh）[ 2]替换了HOTA的定位相似性。此外，与HOTA不同，我们严格惩罚识别错误。更多细节请参阅补充材料。0多人Re-ID姿态跟踪为了公平比较，我们对所有基线方法使用相同的人体检测器和相同的姿态估计模型。具体而言，我们使用FasterRCNN [ 31 ]作为人体检测器，使用Resnet50-FPN [ 24]进行预训练，该模型从MSCOCO [ 25]中获得，我们从TorchVision模型库3中获取。我们还根据[ 4]中提出的训练协议，在PoseTrack21上对人体检测器进行了30个epoch的微调。类似地，我们在MSCOCO和PoseTrack21上分别对[ 30]中的三阶段姿态估计模型进行了215和16个epoch的训练。学习率从0在PoseTrack21上，经过200个epoch后，学习率从1e-3降低到1e-4，并在4个epoch后进一步降低到1e-5。0我们根据[ 1]中提出的PCKh指标报告姿态估计性能的mAP，并使用MOTA [ 1 , 22 ]和HOTA [ 26]这两个不同的指标评估我们基线方法的跟踪性能。表2和表3总结了结果。请注意mAP的差异：在多人姿态跟踪方法中，通常会为了更好的MOTA得分而牺牲mAP。因此，离群值处理的差异导致了不同的姿态估计结果。0几乎所有提出的基线方法在MOTA和HOTA方面都优于CorrTrack的在线版本。CorrTrack w.ReID甚至在HOTA方面优于CorrTrack的离线版本。这表明，轨迹历史与基于外观特征匹配相结合可以提高整体跟踪性能。另一方面，关键点对应似乎不可靠作为运动模型（带有关键点对应的Tracktor++）的原因有两个：1）关键点对应只能扭曲前几帧可见关键点，导致边界框不能覆盖整个人。因此，外观特征的描述能力有限。2）基于关键点相似性的非极大值抑制（NMS）无法去除覆盖不同关键点的重复检测。对表3的观察进一步证实了这种行为：关联准确度（AssA）和碎片化准确度（FragA）与其他基线方法相比要低得多。CorrTrack w. ReID和Tracktor++ w.poses显示出类似的跟踪性能，尽管CorrTrack w.ReID具有更高的FragA并生成较少的碎片化轨迹。0此外，我们还根据边界框大小、边界框可见性和关键点数量等不同属性评估了所有基线方法的性能。结果如图3所示。边界框大小表示给定边界框的最大边长。由于跟踪结果不包含边界框信息，因此从关键点生成了边界框。有趣的是，所有基线方法在边界框大小为400-500和800-1000像素之间实现了最佳性能。在人体可见性研究中，我们测量了人的真实边界框与预测边界框之间的IoU。0.10.20.30.40.50.60.70.80.9+1 - IoU0.00.10.20.30.40.50.60.70.8Tracked objects (%)CorrTrackCorrTrackWReIDTracktorWCorrTracktorWPose100-2003004005006007008009001000 1100 1200 1200+BBox Sizes0.00.20.40.60.8Tracked objects (%)CorrTrackCorrTrackWReIDTracktorWCorrTracktorWPose123456789101112131415Number of Keypoints0.00.20.40.60.8Tracked objects (%)CorrTrackCorrTrackWReIDTracktorWCorrTracktorWPose0100101102103104105Total Objects0100101102103104105Total Objects0100101102103104105Total ObjectsTRMOT [37]57.370.046.659.285.547.275.4FairMOT [45]63.281.051.860.694.956.380.5Tracktor++ [4]69.376.463.571.686.259.580.7CorrTrack + ReID66.572.461.468.881.252.078.9TRMOT [37]46.8540.9154.9879.9249.06FairMOT [45]53.5347.4361.4583.1655.37Tracktor++ [4]58.2952.7165.4383.0962.58CorrTrack + ReID56.9551.3364.1982.8061.86209690图3. 姿态跟踪消融研究。图中显示了不同边界框可见性（1-IoU）、边界框大小和关键点数量的召回率（跟踪对象）和对象数量。最好使用PDF阅读器和缩放功能查看。0方法 IDF1 IDP IDR Rcll Prcn MOTA MOTP0表4.在PoseTrack21MOT上使用MOTA指标评估的多目标跟踪基线方法。0方法 HOTA DetA AssA LocA RHOTA0表5.在PoseTrack21MOT上使用HOTA指标评估的多目标跟踪基线。0在边界框可见性为1-IoU时，所有基线在高度遮挡的场景（1-IoU ∈ [0.1,0.2]）中表现出奇好的性能。然而，对于不同数量的可见关键点，仔细观察发现当人物只部分可见时，召回率大幅下降。图3进一步反映了我们之前对TracktorWCorr性能的结论，它在更高的召回率下以更多的误报和身份切换为代价。多目标跟踪我们评估了最先进的多目标跟踪方法[4, 37,45]在我们的PoseTrack21数据集上的性能。特别地，每个基线都提供了在MSCOCO数据集上预训练的模型。我们按照[4, 37,45]中提出的训练协议，在PoseTrack21上对每个基线进行了微调。对于Tracktor++，我们还训练了TriNet[17]，这是一个基于ResNet50[16]的重新识别模型，如[4]中所提出的：对于每个小批量，我们从PoseTrack21-MOT子集中采样了18个尺寸为256×128的裁剪，并对TriNet进行了29270次迭代训练。 TRMOT[37]和FairMOT[45]在其提出的目标检测网络中直接训练了专门的重新识别头，使用了0交叉熵损失。与第5节类似，我们使用MOTA和HOTA指标来衡量性能。我们还评估IDF1、IDP和IDR[33]，这些是评估MOT性能的常见指标。我们还报告了召回-HOTA（RHOTA）[26]，它结合了检测召回率和关联准确性。在第5节中，我们评估了MOT基线在多人姿态跟踪任务上的性能。因此，我们想评估多人姿态跟踪方法在MOT任务中的表现如何。在这方面，我们从所有姿势中计算出边界框，并从CorrTrack w.ReID中删除了所有姿势信息，该方法在第4.1节中介绍，并将结果转换为相应的MOT格式。如表4和表5所示，CorrTrack w.ReID取得了竞争性的结果。这证实了MOT和姿态跟踪任务相互补充。在另一组消融实验中，我们评估了不同特征（如边界框大小、可见性和关键点数量）对整体跟踪性能的影响，类似于第5节。根据不同的边界框大小，Tracktor++在跟踪对象的数量上明显优于其他基线，与大小无关。请注意，总对象数以半对数刻度报告。可用关键点数量的情况类似。就边界框可见性（1-IoU）而言，Tracktor++在遮挡场景中无法正确跟踪，而FairMOT在这方面明显优于其他基线。0人物搜索在我们的PoseTrack21-PersonSearch子集上，我们评估了[7, 8, 23,41]作为我们的最先进基线。所有基线都依赖于具有ResNet50[16]骨干的FasterRCNN[31]。此外，FasterRCNN还通过额外的重新识别头进行了扩展。对于OIM[41]，我们使用了[8]的重新实现。按照[8]的方法，我们在900×1500的图像分辨率上对OIM进行了22个时期的训练。0.10.20.30.40.50.60.70.80.91.01 - IoU0.00.20.40.60.8Tracked objects (%)CorrTrackWReidFairMOTTowardsRealtimeMOTTracktor100-2003004005006007008009001000 1100 1200 1200+BBox Sizes0.00.20.40.60.8Tracked objects (%)CorrTrackWReidFairMOTTowardsRealtimeMOTTracktor123456789101112131415Number of Keypoints0.00.20.40.60.8Tracked objects (%)CorrTrackWReidFairMOTTowardsRealtimeMOTTracktor0100101102103104Total Objects0100101102103104Total Objects0100101102103104Total ObjectsOIM† [41]68.0563.8457.5886.8288.6589.49NAE [8]67.9862.2955.8384.3187.5988.96NAE+ [8]74.4562.5654.4883.9387.8989.11HOIM [7]79.5466.0852.7784.6987.6688.35SeqNet [23]72.4969.3665.1285.9191.0192.23209700图4.MOT消融研究。图表显示了不同边界框可见性（1-IoU），边界框大小和关键点数量的召回率（跟踪对象）和对象数量。最好使用PDF阅读器和缩放功能查看。0方法召回率 AP mAP top-1 top-5 top-100表6.PoseTrack21上的人物搜索评估。†标记的方法是重新实现的[8]。0学习率为3e-3，经过16个epoch后进一步衰减10倍。NAE[8]通过一个对背景特征的范数感知嵌入头，将背景特征的嵌入范数最小化为0，将人物嵌入范数最大化为1，扩展了[41]。我们按照[8]中提出的方法训练NAE，使用与OIM相同的训练协议。NAE+[8]是NAE的像素级扩展，使用预训练的NAE网络进行初始化。NAE+在学习率为3e-3的情况下进行11个epoch的微调，经过9个epoch后进一步衰减10倍。HOIM[7]通过不同的重新识别损失扩展了[41]，该损失在组合中考虑了多个背景嵌入作为额外的负例，并使用InfoNCE损失[41]。我们按照[7]的方法训练网络，类似于[41]。另一方面，SeqNet [23]提出了一种级联架构用于FasterRCNN[31]。具体而言，SeqNet包括一个第二个边界框回归头，用于细化第一阶段的预测边界框。此外，第二阶段包括了[8]中的范数感知重新识别头。我们使用学习率为3e-3训练SeqNet20个epoch，经过16个epoch后进一步衰减10倍。由于更强的人物检测模型，SeqNet在Tab.6中表现出了其他所有基线的优势。令人惊讶的是，OIM超过了其他基线。我们认为，对应的基线在常见的人物搜索数据集（如PRW [47]或CUHK-）上进行了高度优化。0在超参数方面，我们采用了SYSU[40]和各自数据集中的超参数。06. 讨论0在这项工作中，我们提出了PoseTrack21，这是一个带有注释的边界框、人体关键点和人物ID的联合数据集，适用于多人姿势跟踪、多目标跟踪和人物搜索任务。通过这个数据集，我们希望鼓励研究人员开展联合方法的研究，以可靠地解决多人姿势跟踪、多目标跟踪和人物搜索问题。正如我们在实验中所展示的，结合姿势估计模型的MOT方法可以作为可靠的多人姿势跟踪基线。反之，姿势估计基线在MOT的背景下表现得相当好。另一方面，人物搜索模型通常依赖于一个带有扩展重新识别头的对象检测器，该头部包含了现代MOT方法的确切基线。我们相信PoseTrack21将有助于解决所讨论的限制，并增加多人姿势跟踪、多目标跟踪和人物搜索这三个相关但分离的研究领域之间的协同作用。最后，需要注意的是，该数据集仅供研究目的使用，禁止将该数据集用于训练或评估商业监控系统或其他可能对社会或个人造成伤害的系统。0致谢我们要感谢Alexandra Splettst¨oßer和YasamanAbbasi在注释过程和数据集质量控制期间的可靠工作。本工作由德国研究基金会（DFG, German ResearchFoundation）- GA1927/8-1和中国国家自然科学基金国际合作与交流基金（61861136011）资助。209710参考文献0[1] M. Andriluka, U. Iqbal, E. Ensafutdinov, L. Pishchulin, A.Milan, J. Gall, and Schiele B. PoseTrack:一个用于人体姿势估计和跟踪的基准测试. 在CVPR, 2018. 1, 2, 4,5, 60[2] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, andBernt Schiele. 2D人体姿势估计：新的基准测试和最新技术分析.在CVPR, 2014. 2, 60[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler和BerntSchiele。2D人体姿势估计：新的基准和最新分析。在CVPR，2014年。40[4] Philipp Bergmann，Tim Meinhardt和Laur

下载后可阅读完整内容，剩余1页未读，立即下载