使用Transformer进行多目标跟踪

156 浏览量更新于2023-10-25 收藏 27.72MB PDF 举报

多目标跟踪

注意力机制

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

88440TrackFormer：使用Transformer进行多目标跟踪0Tim Meinhardt 1* Alexander Kirillov 2 Laura Leal-Taix´e 1 Christoph Feichtenhofer 201 德国慕尼黑工业大学 2 Facebook AI研究（FAIR）0摘要0多目标跟踪（MOT）这一具有挑战性的任务要求同时考虑轨迹初始化、身份和时空轨迹。我们将这个任务定义为逐帧集合预测问题，并引入了TrackFormer，一种基于编码器-解码器Transformer架构的端到端可训练的MOT方法。我们的模型通过注意力在帧之间进行数据关联，通过视频序列演化一组跟踪预测。Transformer解码器从静态对象查询初始化新的跟踪，并以自回归方式跟随现有的轨迹在空间和时间上进行推理，具有全新的、保持身份的跟踪查询概念。这两种查询类型都受益于对全局帧级特征的自注意力和编码器-解码器注意力，从而省略了任何额外的图优化或运动和外观建模。TrackFormer引入了一种新的基于注意力的跟踪范式，虽然设计简单，但在多目标跟踪（MOT17）和分割（MOTS20）任务上实现了最先进的性能。代码可在https://github.com/timmeinhardt/trackformer上找到。01. 引言0人们需要集中注意力来跟踪空间和时间中的物体，例如打网球、高尔夫或乒乓球时。当在拥挤的真实场景中跟踪不止一个物体时，这个挑战只会增加。按照这个类比，我们展示了Transformer[50]注意力在视频中进行多目标跟踪（MOT）任务中的有效性。MOT的目标是在视频序列中跟随一组对象的轨迹，例如行人，同时保持它们的身份在移动过程中得到区分。由于图像级对象检测[7,38]的进展，大多数方法都遵循两步跟踪-检测范式：（一）在各个视频帧中检测对象，（二）在帧之间关联一组检测结果和创建个体对象轨迹。0* 本工作是在Facebook AI研究（FAIR）实习期间完成的。0图1.TrackFormer使用Transformer共同执行对象检测和基于注意力的跟踪。对象和自回归跟踪查询推理轨迹的初始化、身份和时空特性。0从而在时间上创建个体对象轨迹。传统的跟踪-检测方法通过时间上稀疏的[22, 25]或稠密的[18,21]图优化来关联检测结果，或者应用卷积神经网络来预测检测结果之间的匹配分数[8, 23]。最近的研究[4, 6, 28,66]提出了一种称为跟踪-回归的传统范式变体。在这种方法中，对象检测器不仅提供逐帧检测结果，而且用连续回归的方式将每个轨迹替换为其对象的不断变化的位置。这些方法隐式地实现了轨迹关联，但只有依赖于额外的图优化[6,28]或运动和外观模型[4]才能提供最佳性能。这主要是由于孤立的局部边界框回归缺乏对象身份或轨迹之间的全局通信。在这项工作中，我们引入了基于注意力的跟踪范式，不仅应用注意力进行数据关联[11,67]，而且同时执行跟踪和检测。如图1所示，这是通过从帧到帧演化一组轨迹形成随时间变化的轨迹来实现的。88450我们首次提出了一种直接的基于注意力的跟踪实例，TrackFormer，这是一种端到端可训练的Transformer[50]编码器-解码器架构。它从卷积神经网络（CNN）[17]中编码帧级特征，并将查询解码为与身份相关联的边界框。数据关联是通过新颖且简单的“跟踪查询”概念来执行的。每个查询代表一个对象，并以自回归方式在视频序列中的空间和时间上跟随它。进入场景的新对象通过静态对象查询（如[7,68]）检测到，并随后转换为未来的跟踪查询。在每个帧上，编码器-解码器计算输入图像特征与跟踪以及对象查询之间的注意力，并输出带有分配身份的边界框。因此，TrackFormer通过注意力执行跟踪，并在不依赖任何额外的跟踪匹配、图优化或明确建模运动和/或外观的情况下实现检测和数据关联。与通过检测/回归进行跟踪不同，我们的方法通过注意力（而不是回归）在单个步骤中同时检测和关联跟踪。TrackFormer将最近提出的用于对象检测的集合预测目标[7, 47, 68]扩展到多目标跟踪。我们在MOT17[29]基准测试中评估了TrackFormer，在公共和私有检测方面实现了最先进的性能。此外，我们通过蒙版预测头部展示了扩展，并在Multi-Object Tracking andSegmentation（MOTS20）挑战[51]上展示了最先进的结果。我们希望这个简单而强大的基线能够激发研究人员探索跟踪注意力范式的潜力。总之，我们的工作有以下贡献：0•一种端到端可训练的多目标跟踪方法，它在新的基于注意力的跟踪范式中实现了检测和数据关联。0•自回归轨迹查询的概念，它嵌入了物体的空间位置和身份，从而在空间和时间上进行跟踪。0•TrackFormer模型在两个具有挑战性的多目标跟踪（MOT17）和分割（MOTS20）基准测试中取得了最先进的结果。02. 相关工作0鉴于MOT领域最近的趋势超越了基于检测的跟踪，我们根据各自的跟踪范式对方法进行分类和回顾。0基于检测的跟踪方法通过将一组给定的检测结果在时间上进行关联来形成轨迹。0图被用于通过将问题制定为最大流（最小成本）优化[3]来进行轨迹关联和长期重新识别，其中使用基于距离的[20, 36,62]或学习的成本[24]。其他方法使用关联图[45]、学习模型[22]和运动信息[21]、通用求解器[61]、多切割[48]、加权图标记[18]、边缘提升[19]或可训练的图神经网络[6,54]。然而，基于图的方法在昂贵的优化过程中存在问题，限制了它们在在线跟踪中的实际应用。基于外观的方法利用越来越强大的图像识别主干网络，通过依赖双胞胎神经网络给出的相似度度量[23]、学习的reID特征[32,41]、检测候选对象选择[8]或相似度估计[10]来跟踪对象。与重新识别类似，外观模型在拥挤的场景中遇到许多物体-物体遮挡的困难。运动可以用于轨迹预测[1, 25,0使用恒定速度假设（CVA）[2, 9]或社会力模型[25, 34, 43,58]进行轨迹预测[42]。通过从数据中学习运动模型[24]，可以在帧之间进行轨迹关联[63]。然而，将非线性的3D运动[49]投影到2D图像领域仍然对许多模型构成了一个具有挑战性的问题。0基于回归的跟踪不是在帧之间关联检测结果，而是通过将过去的物体位置回归到当前帧的新位置来进行跟踪。之前的努力[4,14]在区域池化的物体特征上使用回归头。在[66]中，物体被表示为中心点，允许通过基于距离的贪婪匹配算法进行关联。为了克服它们缺乏的物体身份和全局轨迹推理概念，还需要额外的重新识别和运动模型[4]，以及传统[28]和学习[6]的图方法，以实现最佳性能。0基于分割的跟踪不仅预测物体的掩码，还利用像素级信息来减轻拥挤和模糊背景的问题。之前的尝试使用类别不可知的图像分割[30]，应用了带有3D卷积[51]、掩码池化层[37]的MaskR-CNN[16]，或者将物体表示为无序点云[57]和代价体积[56]。然而，缺乏注释的MOT分割数据使得现代方法仍然依赖于边界框。0图像识别中的注意力将输入的每个元素与其他元素相关联，并在Transformers[50]中用于图像生成[33]和对象检测[7,68]。对于MOT，注意力仅用于关联给定的一组对象检测[11, 67]，而不是同时解决检测和跟踪问题。88460相比之下，TrackFormer将整个跟踪目标转化为一个单一的集合预测问题，不仅在关联步骤中应用注意力。它同时考虑到了跟踪初始化、身份和时空轨迹。我们仅依赖于特征级别的注意力，避免了额外的图优化和外观/运动模型。03. TrackFormer0我们提出了TrackFormer，一种基于编码器-解码器Transformer[50]架构的端到端可训练的多目标跟踪（MOT）方法。本节描述了我们如何将MOT作为一个集合预测问题，并引入了新的基于注意力的跟踪范式。此外，我们解释了轨迹查询的概念及其在帧间数据关联中的应用。03.1. MOT作为一个集合预测问题0给定具有K个单独对象标识的视频序列，MOT描述了生成有序轨迹Tk =(bkt1，bkt2，...)的任务，其中包含边界框bt和轨迹标识k。子集（t1，t2，...）表示对象进入和离开场景之间的时间跨度。这些包括所有对象被背景或其他对象遮挡的帧。为了将MOT作为一个集合预测问题，我们利用了编码器-解码器Transformer架构。我们的模型执行在线跟踪，并产生与标识相关联的每帧对象边界框和类别预测，分为四个连续步骤：0(i) 使用通用CNN主干（例如ResNet-50[17]）进行帧级特征提取。0(ii)使用Transformer编码器[50]对帧特征进行自注意力编码。0(iii)使用Transformer解码器中的自注意力和编码器-解码器注意力解码查询。0(iv) 使用多层感知机（MLP）将查询映射到框和类别预测。0对象在解码器查询中隐式表示，解码器使用这些嵌入来输出边界框坐标和类别预测。解码器在两种类型的注意力之间交替：（i）对所有查询进行自注意力，允许对场景中的对象进行联合推理；（ii）编码器-解码器注意力，使查询能够全局访问编码特征的视觉信息。输出嵌入在多个解码层上累积边界框和类别信息。Transformer的置换不变性要求帧特征和解码器查询分别具有可加性特征和对象编码。03.2. 使用查询的注意力进行跟踪0输出嵌入的总集合使用两种类型的查询编码进行初始化：（i）静态对象查询，允许模型在视频的任何帧上初始化轨迹；（ii）自回归轨迹查询，负责跟踪帧之间的对象。对象和轨迹查询的同时解码使我们的模型能够以统一的方式执行检测和跟踪，从而引入了一种新的基于注意力的跟踪范式。不同的基于X的跟踪方法由负责轨迹生成的关键组件定义。对于基于检测的跟踪，通过计算/建模帧级对象检测之间的距离来执行跟踪。基于回归的跟踪范式也执行对象检测，但通过将每个对象框回归到当前帧中的新位置来生成轨迹。从技术上讲，我们的TrackFormer也通过MLP在对象嵌入的映射中执行回归。然而，实际的轨迹关联在Transformer解码器中的注意力之前发生。附录中显示了详细的架构概述，说明了轨迹和对象查询如何集成到Transformer解码器中。0跟踪初始化。场景中出现的新对象通过固定数量的N个对象输出嵌入进行检测，每个嵌入都使用静态和学习到的对象编码进行初始化，称为对象查询[7]。直观地说，每个对象查询学习预测具有特定空间属性的对象，例如边界框大小和位置。解码器的自注意力依赖于对象编码，以避免重复检测并推理对象的空间和分类关系。对象查询的数量应超过每帧对象的最大数量。0跟踪查询。为了实现帧间跟踪生成，我们引入了跟踪查询的概念到解码器中。跟踪查询通过视频序列跟随对象，保留它们的身份信息，同时以自回归的方式适应它们的位置变化。为此，每个新的对象检测都会使用前一帧的相应输出嵌入初始化一个跟踪查询。Transformer编码器-解码器对帧特征和解码器查询进行注意力操作，不断更新每个跟踪查询嵌入中对象身份和位置的实例特定表示。对于两种查询类型的联合集合进行自注意力操作，可以检测到新对象，同时避免重新检测已跟踪的对象。在图2中，我们提供了跟踪查询概念的视觉说明。帧t =0中的初始检测生成新的跟踪查询，跟随它们对应的对象到帧t及以后的帧。为此，N个对象查询（白色）被解码为潜在的跟踪初始化的输出嵌入。每个有效的对象检测{b00，b10，...}，其分类分数高于σobject，即输出嵌入不预测背景类别（交叉），都会初始化一个新的跟踪查询嵌入。由于序列中并不是所有对象都出现在第一帧上，跟踪标识Kt=0 ={0，1，...}只代表所有K的子集。对于任何帧t>0的解码步骤，跟踪查询会初始化与不同标识相关联的其他输出嵌入（彩色）。N个对象+N个跟踪输出嵌入的联合集合分别由（学习的）对象查询和（时间上适应的）跟踪查询初始化。Transformer解码器一次性转换整个输出嵌入集，并为随后的MLP提供输入，以预测帧t的边界框和类别。跟踪查询的数量Ntrack在帧之间会发生变化，因为会检测到新的对象或删除跟踪。跟踪及其对应的查询可以通过分类分数低于σtrack或使用IoU阈值为σNMS的非极大值抑制（NMS）来删除。相对较高的σNMS仅会删除强重叠的重复边界框，我们发现解码器自注意力无法解决这种情况。AAB6nicbVBNS8NAEJ34WetX1aOXxSJ4KklB9FjoxVOpaD+gDWz3bRLN5uwOxFK6E/w4kERr/4ib/4bt20O2vpg4PHeDPzgkQKg67Wxsbm3v7Bb2ivsHh0fHpZPTtolTzXiLxTLW3YAaLoXiLRQoeTfRnEaB5J1gUp/7nSeujYjVI04T7kd0pEQoGEUrPdQbjUGp7FbcBcg68XJShzNQemrP4xZGnGFTFJjep6boJ9RjYJPiv2U8MTyiZ0xHuWKhpx42eLU2fk0ipDEsbalkKyUH9PZDQyZhoFtjOiODar3lz8z+ulGN76mVBJilyx5aIwlQRjMv+bDIXmDOXUEsq0sLcSNqaMrTpFG0I3urL6RdrXjXFfe+Wq65eRwFOIcLuAIPbqAGd9CEFjAYwTO8wpsjnRfn3flYtm4+cwZ/IHz+QPISo1nAB6nicbVBNS8NAEJ34WetX1aOXxSJ4KklB9FjoxVOpaD+gDWz3bRLN5uwOxFK6E/w4kERr/4ib/4bt20O2vpg4PHeDPzgkQKg67Wxsbm3v7Bb2ivsHh0fHpZPTtolTzXiLxTLW3YAaLoXiLRQoeTfRnEaB5J1gUp/7nSeujYjVI04T7kd0pEQoGEUrPdQbjUGp7FbcBcg68XJShzNQemrP4xZGnGFTFJjep6boJ9RjYJPiv2U8MTyiZ0xHuWKhpx42eLU2fk0ipDEsbalkKyUH9PZDQyZhoFtjOiODar3lz8z+ulGN76mVBJilyx5aIwlQRjMv+bDIXmDOXUEsq0sLcSNqaMrTpFG0I3urL6RdrXjXFfe+Wq65eRwFOIcLuAIPbqAGd9CEFjAYwTO8wpsjnRfn3flYtm4+cwZ/IHz+QPISo1nAB6nicbVBNS8NAEJ34WetX1aOXxSJ4KklB9FjoxVOpaD+gDWz3bRLN5uwOxFK6E/w4kERr/4ib/4bt20O2vpg4PHeDPzgkQKg67Wxsbm3v7Bb2ivsHh0fHpZPTtolTzXiLxTLW3YAaLoXiLRQoeTfRnEaB5J1gUp/7nSeujYjVI04T7kd0pEQoGEUrPdQbjUGp7FbcBcg68XJShzNQemrP4xZGnGFTFJjep6boJ9RjYJPiv2U8MTyiZ0xHuWKhpx42eLU2fk0ipDEsbalkKyUH9PZDQyZhoFtjOiODar3lz8z+ulGN76mVBJilyx5aIwlQRjMv+bDIXmDOXUEsq0sLcSNqaMrTpFG0I3urL6RdrXjXFfe+Wq65eRwFOIcLuAIPbqAGd9CEFjAYwTO8wpsjnRfn3flYtm4+cwZ/IHz+QPISo1nACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguiyI4LJCX9CGMpnctENnJmFmIpTQr3Djr7hxoYhbcefOGmzqK0HBg7n3Dv3hMkjCrtuj/W2vrG5tZ2ae8u7d/cGgfHbdVnEoCLRKzWHYDrIBRAS1NYNuIgHzgEnGN/mfucRpKxaOpJAj7HQ0EjSrA20sC+7BMQGmTenzUlFiqKJQc5LS8ad4LEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFmjKC0ACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguiyI4LJCX9CGMpnctENnJmFmIpTQr3Djr7hxoYhbcefOGmzqK0HBg7n3Dv3hMkjCrtuj/W2vrG5tZ2ae8u7d/cGgfHbdVnEoCLRKzWHYDrIBRAS1NYNuIgHzgEnGN/mfucRpKxaOpJAj7HQ0EjSrA20sC+7BMQGmTenzUlFiqKJQc5LS8ad4LEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFmjKC0ACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguiyI4LJCX9CGMpnctENnJmFmIpTQr3Djr7hxoYhbcefOGmzqK0HBg7n3Dv3hMkjCrtuj/W2vrG5tZ2ae8u7d/cGgfHbdVnEoCLRKzWHYDrIBRAS1NYNuIgHzgEnGN/mfucRpKxaOpJAj7HQ0EjSrA20sC+7BMQGmTenzUlFiqKJQc5LS8ad4LEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFmjKC0ACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguizowmWFvqANZTK5aYfOTMLMRCihX+HGX3HjQhG34s6/cdJmUVsPDBzOuXfuvSdIGFXadX+stfWNza3t0k5d2/4NA+Om6rOJUEWiRmsewGWAGjAlqagbdRALmAYNOML7N/c4jSEVj0dSTBHyOh4JGlGBtpIF92ScgNMi8P2tKLFQUSw5yWl407oDEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFXJ6CqACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguizowmWFvqANZTK5aYfOTMLMRCihX+HGX3HjQhG34s6/cdJmUVsPDBzOuXfuvSdIGFXadX+stfWNza3t0k5d2/4NA+Om6rOJUEWiRmsewGWAGjAlqagbdRALmAYNOML7N/c4jSEVj0dSTBHyOh4JGlGBtpIF92ScgNMi8P2tKLFQUSw5yWl407oDEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFXJ6CqACFnicbVDLSsNAFJ34rPUVdekmWAQ3lqQguizowmWFvqANZTK5aYfOTMLMRCihX+HGX3HjQhG34s6/cdJmUVsPDBzOuXfuvSdIGFXadX+stfWNza3t0k5d2/4NA+Om6rOJUEWiRmsewGWAGjAlqagbdRALmAYNOML7N/c4jSEVj0dSTBHyOh4JGlGBtpIF92ScgNMi8P2tKLFQUSw5yWl407oDEoREHdsWtujM4q8QrSAUVaAzs734Yk5SbrwjDSvU8N9F+hqWmhIEZkipIMBnjIfQMFZiD8rPZWVPn3CihY/YxT2hnpi52ZJgrNeGBqeRYj9Syl4v/eb1URzd+RkWSahBkPihKmaNjJ8/ICakEotnEwkNbs6ZIQlJiYPVTYheMsnr5J2repdVd2HWqXuFnGU0Ck6QxfIQ9eoju5RA7UQU/oBb2hd+vZerU+rM956ZpV9JygP7C+fgFXJ6CqFigure 2. TrackFormer casts multi-object tracking as a set prediction problem performing joint detection and tracking-by-attention. Thearchitecture consists of a CNN for image feature extraction, a Transformer [50] encoder for image feature encoding and a Transformerdecoder which applies self- and encoder-decoder attention to produce output embeddings with bounding box and class information. Atframe t = 0, the decoder transforms Nobject object queries (white) to output embeddings either initializing new autoregressive track queriesor predicting the background class (crossed). On subsequent frames, the decoder processes the joint set of Nobject + Ntrack queries to followor remove (blue) existing tracks as well as initialize new tracks (purple).88470X X X X X X X X X0exit> CNN00 Transformer0编码器0exit> Transformer0编码器0编码器0exit> Transformer0解码器0解码器0解码器0对象查询（白色）被解码为潜在的跟踪初始化的输出嵌入。每个有效的对象检测{b00，b10，...}，其分类分数高于σobject，即输出嵌入不预测背景类别（交叉），都会初始化一个新的跟踪查询嵌入。由于序列中并不是所有对象都出现在第一帧上，跟踪标识Kt=0 ={0，1，...}只代表所有K的子集。对于任何帧t>0的解码步骤，跟踪查询会初始化与不同标识相关联的其他输出嵌入（彩色）。N个对象+N个跟踪输出嵌入的联合集合分别由（学习的）对象查询和（时间上适应的）跟踪查询初始化。Transformer解码器一次性转换整个输出嵌入集，并为随后的MLP提供输入，以预测帧t的边界框和类别。跟踪查询的数量Ntrack在帧之间会发生变化，因为会检测到新的对象或删除跟踪。跟踪及其对应的查询可以通过分类分数低于σtrack或使用IoU阈值为σNMS的非极大值抑制（NMS）来删除。相对较高的σNMS仅会删除强重叠的重复边界框，我们发现解码器自注意力无法解决这种情况。0跟踪查询重新识别。解码任意数量的跟踪查询的能力允许基于注意力的短期重新识别过程。我们保留对最多Ttrack-reid帧中先前删除的跟踪查询的解码。在这个耐心窗口期间，跟踪查询被视为不活动，并且不对轨迹产生贡献，直到分类分数高于σtrack-reid触发重新识别。嵌入到每个跟踪查询中的空间信息防止其在具有大物体移动的长期遮挡中的应用，但是，0尽管如此，它允许从跟踪丢失中短期恢复，而无需进行专门的重新识别训练；此外，通过依赖与跟踪初始化、身份保留和轨迹形成相同的注意力机制，巩固了TrackFormer的整体方法。03.3. TrackFormer训练0为了使跟踪查询与对象查询相互作用并跟随对象到下一帧，TrackFormer需要专门的帧间跟踪训练。如图2所示，我们在两个相邻帧上进行训练，并一次优化整个MOT目标。帧t的损失以类别和边界框预测方面的所有输出嵌入N =Nobject +Ntrack对于真实对象的集合预测进行衡量。集合预测损失分为两个步骤计算：0(i)在帧t-1上进行对象检测，使用Nobject个对象查询（参见图2中的t = 0）。0(ii)从(i)中跟踪对象并在帧t上检测新对象，使用所有N个查询。0跟踪查询的数量Ntrack取决于在帧t-1中成功检测到的对象数量。在训练过程中，从步骤(iv)中的输出嵌入的MLP预测ˆy ={ˆyj}Nj=1被分配给真实对象y或背景类之一。每个yi表示边界框bi，对象类别ci和身份ki。0二分匹配。从真实对象yi到对象和跟踪查询预测ˆyj的联合集合的映射j =π(i)是通过跟踪标识或基于边界框相似性和对象类别的成本确定的。对于Cmatch = −λclsˆpσ(i)(ci) + Cbox(bi,ˆbσ(i)).(2)Cbox = λℓ1||bi − ˆbσ(i)||1 + λiouCiou(bi,ˆbσ(i)),(3)LMOT(y, ˆy, π) =N�i=1Lquery(y, ˆyi, π).(4)Lquery =�−λcls log ˆpi(cπ=i) + Lbox(bπ=i,ˆbi),if i ∈ π−λcls log ˆpi(0),if i /∈ π.88480前者，我们用Kt表示帧t上的真实跟踪标识子集Kt �K。从步骤(i)中的每个检测都分配给其相应的真实跟踪标识k，该标识来自集合Kt-1 �K。相应的输出嵌入，即跟踪查询，隐含地将身份信息传递到下一帧。两个真实跟踪标识集描述了Ntrack个跟踪查询输出与帧t中的真实对象的硬分配：0Kt ∩ Kt-1：通过跟踪标识k进行匹配。0Kt-1 \ Kt：与背景类匹配。0Kt \ Kt-1：通过最小成本映射进行匹配。0第二组真实跟踪标识Kt-1 \Kt包括在帧t上被遮挡或离开场景的轨迹。最后一组Kobject= Kt \Kt-1尚未匹配到Nobject个对象查询的真实对象。为了实现这一点，我们遵循[7]的方法，在以下分配问题中搜索注入最小成本映射ˆσ，0ˆσ = arg min σ0ki ∈ Kobject Cmatch(yi, ˆyσ(i)),(1)0具有索引σ(i)和成对成本Cmatch的数据，其中yi是真实标签，ˆyi是预测值。该问题使用组合优化算法解决，如[47]所述。给定输出嵌入i的真实类标签c i和预测类概率ˆp i(ci)，带有类别加权λcls的匹配成本Cmatch定义为0[7]的作者报告了在没有对数类概率的情况下表现更好。Cbox项通过ℓ 1距离和广义交并比（IoU）[39]成本Ciou的组合来惩罚边界框差异，0使用加权参数λ ℓ 1，λ iou，∈�。与ℓ1相比，尺度不变的IoU项为不同的框大小提供了类似的相对误差。最优成本映射ˆσ确定了π(i)中的相应分配。0设置预测损失。最终的MOT集合预测损失是在所有N = Nobject + N track的输出预测上计算的：0未通过跟踪身份或ˆσ匹配的输出嵌入不属于映射π的一部分，将被分配给背景类c i = 0。我们指示0通过y π =i将与预测i匹配的真实对象定义为每个查询的损失0边界框损失Lbox的计算方式与(3)相同，但我们将其符号区分开来，因为成本项C box通常不需要可微分性。0跟踪增强。训练跟踪查询的两步损失计算，参见(i)和(ii)，只代表了一系列可能的跟踪场景的有限范围。因此，我们提出以下增强方法，以丰富训练期间潜在的跟踪查询集合。这些增强方法将在我们的实验中进行验证。我们使用与[66]类似的三种增强类型，包括对象位置和运动的扰动、缺失检测和模拟遮挡。01.步骤(i)中的帧t-1是从围绕帧t的一系列帧中进行采样的，从而生成对象与其先前位置相比已经发生了显著移动的具有挑战性的帧对。这样的采样允许模拟通常有益的序列中的相机运动和低帧率。02. 我们以概率p FN对假阴性样本进行采样，通过在进行步骤(ii)之前删除跟踪查询。帧t中对应的真实对象将与对象查询匹配并触发新的对象检测。保持假阳性的比例足够高对于同时训练两种查询类型非常重要。03.为了改善在遮挡场景中删除轨迹，即通过背景类分配，我们使用额外的假阳性来补充跟踪查询集合。这些查询是从被分类为背景的帧t-1的输出嵌入中进行采样的。每个原始跟踪查询都有pFP的机会生成一个额外的假阳性查询。我们选择这些查询的可能性很大，以便与相应的生成跟踪查询发生遮挡。0另一种用于改善鲁棒性的常见增强方法是对先前帧的边界框或中心点应用空间抖动[66]。由于跟踪查询隐式地编码了对象信息，因此不允许在空间域中进行明确的扰动。我们认为我们对时间范围的随机化提供了更自然的视频数据增强。Mask training.TrackFormer predicts instance-level ob-ject masks with a segmentation head as in [7] by gener-ating spatial attention maps from the encoded image fea-tures and decoder output embeddings. Subsequent upscal-ing and convolution operations yield mask predictions forall output embeddings. We adopt the private detection train-ing pipeline from MOT17 but retrain TrackFormer with theoriginal DETR [7] attention. This is due to the reducedmemory consumption for single scale feature maps and in-ferior segmentation masks from sparse deformable atten-tion maps. Furthermore, the benefits of deformable atten-tion vanish on MOTS20 as it excludes small objects. Aftertraining on MOT17, we freeze the model and only train thesegmentation head on all COCO images containing persons.Finally, we fine-tune the entire model on MOTS20.884904. 实验0在本节中，我们展示了TrackFormer在两个MOTChallenge基准测试中的跟踪结果，即MOT17 [29]和MOTS20[51]。此外，我们通过消融研究验证了个体贡献。04.1. MOT基准和指标0基准。MOT17[29]基准由一个训练集和一个测试集组成，每个集合都有7个序列，并且用全身边界框注释了行人。为了独立评估跟踪（数据关联）的鲁棒性，提供了三组具有不同质量的公共检测，分别是DPM [15]，Faster R-CNN [38]和SDP[59]。MOTS20[51]为MOT17的4个训练和测试序列提供了掩码注释，但没有小物体的注释。相应的边界框不是全身的，而是基于可见分割掩码。0指标。MOT的不同方面通过多个单独的指标进行评估[5]。社区关注两个复合指标，即多目标跟踪准确度（MOTA）和身份F1分数（IDF1）[40]。前者关注对象覆盖范围，后者通过后者衡量方法的身份保留。对于MOTS，我们报告基于掩码IoU进行地面实况匹配的MOTSA。0公共检测。MOT17[29]基准在私有和公共检测设置中进行评估。后者允许在不考虑底层对象检测性能的情况下比较跟踪方法。MOT17提供了三组具有不同质量的公共检测。与经典的基于检测的跟踪方法不同，TrackFormer无法直接从检测输入中产生跟踪输出。因此，我们通过对跟踪的初始化进行最小IoU要求的筛选，将TrackFormer和CenterTrack[66]的结果报告在表1中。有关更多实现细节和对此类筛选公平性的讨论，请参阅附录。04.2. 实现细节0TrackFormer遵循Deformable DETR[68]中提出的ResNet50 [17]CNN特征提取和Tr

下载后可阅读完整内容，剩余1页未读，立即下载