全局跟踪转换器：一种基于转换器的全局多目标跟踪架构

176 浏览量更新于2023-10-25 收藏 16.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

87710全局跟踪转换器0Xingyi Zhou 1 Tianwei Yin 1 Vladlen Koltun 2 Philipp Kr¨ahenb¨uhl 101 德克萨斯大学奥斯汀分校 2 苹果0摘要0我们提出了一种新颖的基于转换器的全局多目标跟踪架构。我们的网络以短序列帧作为输入，并为所有对象生成全局轨迹。核心组件是一个全局跟踪转换器，它在序列中的所有帧上操作对象。转换器对所有帧的对象特征进行编码，并使用轨迹查询将它们分组成轨迹。轨迹查询是来自单个帧的对象特征，并自然地产生唯一的轨迹。我们的全局跟踪转换器不需要中间的成对分组或组合关联，并且可以与对象检测器一起进行联合训练。它在流行的MOT17基准测试中取得了竞争性的性能，MOTA为75.3，HOTA为59.1。更重要的是，我们的框架可以无缝地集成到最先进的大词汇检测器中，以跟踪任何对象。在具有挑战性的TAO数据集上的实验证明，我们的框架始终优于基于成对关联的基线，跟踪mAP的表现超过已发表的工作7.7个百分点。代码可在https://github.com/xingyizhou/GTR上获得。01. 引言0多目标跟踪旨在在视频流中找到并跟踪所有对象。它是移动机器人等应用领域的基本构建块，其中自主系统必须穿越由其他移动代理组成的动态环境。近年来，基于检测的跟踪已经成为主导的跟踪范式，得益于深度学习和目标检测的进展[20,36]。基于检测的跟踪将跟踪分为两个步骤：检测和关联。首先，一个对象检测器独立地在视频流的每个帧中找到潜在的对象。其次，一个关联步骤通过时间链接检测。本地跟踪器[4, 5, 54, 55, 60,66]主要以贪婪的方式考虑成对关联（图1a）。它们基于位置[5, 68]和/或身份特征[55,66]维护每个轨迹的状态，并根据其与当前帧的检测关联来关联。0（a）本地跟踪器0（b）我们的全局跟踪器0图1.本地跟踪器（上）与我们的全局跟踪器（下）。本地跟踪器逐帧关联对象，可选地使用外部跟踪状态存储器（图中未显示）。我们的全局跟踪器以短视频剪辑作为输入，并使用全局对象查询在所有帧中关联对象。0最后可见状态。这种成对关联是高效的，但缺乏对整个轨迹的明确模型，并且有时在严重遮挡或外观变化强的情况下会遇到困难。全局跟踪器[3, 6, 44, 63,65]通过对成对关联进行离线基于图的组合优化来运行。它们可以解决不一致的分组检测，并且更加稳健，但速度较慢，并且通常与检测器分离。在这项工作中，我们展示了如何将全局跟踪（图1b）表示为深度网络中的几个层（图2）。我们的网络直接输出轨迹，因此避免了成对关联和基于图的优化。我们展示了检测器[20, 36,70]可以通过转换器层进行增强，从而变成联合检测器和跟踪器。我们的全局跟踪转换器（GTR）对来自多个连续帧的检测进行编码，并使用轨迹查询将它们分组成轨迹。查询是来自单个帧（例如，在在线跟踪器中的当前帧）的检测特征，经过非极大值抑制后，由GTR转换为轨迹。每个轨迹查询通过使用softmax分布为其分配每个帧的检测来产生一个全局轨迹。因此，我们模型的输出是通过时间的检测及其关联。在训练过程中，我们明确监督全局跟踪转换器的输出87720全局跟踪transformer0轨迹查询0所有帧的检测结果0图2.我们联合检测和跟踪框架的概述。首先，一个目标检测器独立地检测所有帧中的对象。对象特征被连接并输入到我们的全局跟踪transformer(GTR)的编码器中。GTR还将轨迹查询作为解码器输入，并产生每个查询和对象之间的关联分数。关联矩阵将对象连接到每个查询。在测试过程中，轨迹查询是最后一帧中的对象特征。transformer的结构如图3所示。0使用真实轨迹和它们的图像级边界框进行训练。在推断过程中，我们以滑动窗口的方式运行GTR，窗口的时间大小适中为32帧，并在线上链接突发之间的轨迹。模型在时间窗口内是端到端可微分的。0我们的框架受到了transformer模型在计算机视觉领域的最新成功的启发[49]，包括在目标检测领域的成功[8,53]。查询和编码器特征之间的交叉注意结构挖掘了对象之间的相似性，并自然地适应了多目标跟踪中的关联目标。我们在一个时间窗口内对轨迹查询和对象特征进行交叉注意，并明确地监督它以产生查询到检测结果的分配。每个分配直接对应一个全局轨迹。与学习固定参数的基于transformer的检测器[8, 30, 40,53]不同，我们的查询来自现有的检测特征，并且随着图像内容的变化而调整。此外，我们的transformer操作的是检测到的对象而不是原始像素[8]。这使我们能够充分利用成熟的目标检测器[20, 69]。0我们的框架是端到端可训练的，并且很容易与最先进的目标检测器集成。在具有挑战性的大规模TAO数据集上，我们的模型在测试集上达到了20.1的跟踪mAP，明显优于已发表的工作，其跟踪mAP为12.4 [32]。在MOT17[31]基准测试中，我们的结果达到了有竞争力的75.3的MOTA和59.1的HOTA，超过了大多数并发的基于transformer的跟踪器[30, 61, 64]，并与最先进的基于关联的跟踪器相当。02. 相关工作0本地多目标跟踪。许多流行的跟踪器在本地和贪婪的方式下运行[4, 5, 46, 54, 55, 61, 66,68]。它们维护一组确认的轨迹，并根据成对的对象-轨迹距离度量将新检测到的对象与轨迹进行关联。SORT[5]和DeepSORT[55]使用卡尔曼滤波器对轨迹进行建模，并在每一步更新底层位置[5]或深度特征[55]。Tracktor[4]将轨迹作为提议馈送给检测器，并直接传播跟踪ID。CenterTrack[68]将检测条件限制在现有轨迹上，并使用预测的位置关联对象。TransCenter[61]在CenterTrack的基础上结合了可变形DETR [72]。JDE[54]和FairMOT[66]将检测器与实例分类分支一起训练，并通过成对的ReID特征进行关联，类似于SORT [5]。STRN[60]学习了一个专门的关联特征，考虑了空间和时间线索，但仍然执行成对的关联。相比之下，我们不依赖成对的关联，而是通过transformer在整个时间窗口内关联到所有对象0全局跟踪。传统的跟踪器首先离线检测对象，并将对象在所有帧中的关联视为组合优化问题[6, 12, 34, 44,65]。张等人[65]将跟踪问题建模为图上的最小成本最大流问题，其中节点是检测结果，边是有效的关联。MPN[6]简化了图的构建，并提出了一个执行图优化的神经求解器。LPC[12]在图上还考虑了一个分类模块。LifT[44]在图优化中结合了人员ReID和姿势特征。这些方法仍然基于成对的关联和87730使用组合优化来选择全局一致的分配。我们的方法通过在相对较浅的网络中进行单向传递来直接输出一致的长期轨迹。跟踪中的Transformer。Trackformer[30]通过从现有轨迹中增加额外的对象查询来增强DETR[8]，并像Tracktor [4]一样传播轨迹ID。TransTrack[40]使用历史轨迹的特征作为查询，但基于更新的边界框位置关联对象。MOTR [64]遵循DETR[8]的结构，并迭代地传播和更新轨迹查询以关联对象身份。MO3TR[71]还使用时间注意力模块来更新每个轨迹在时间窗口上的状态，并将更新后的轨迹特征作为DETR中的查询。这些工作背后的共同思想是使用DETR[8]中的对象查询机制来逐帧扩展现有轨迹。我们以不同的方式使用Transformer。我们的Transformer使用查询一次生成整个轨迹。我们的查询不会生成新的边界框，而是将已检测到的边界框分组成轨迹。视频对象检测。在视频对象检测[37]中，将注意力块应用于对象特征是一个成功的思路。SELSA[57]将随机采样帧的区域提议输入到自注意块中以提供全局上下文。MEGA[9]构建了一个具有大的时间感受野的分层局部和全局注意机制。ContextRCNN[2]使用离线长期特征库[56]来整合长程时间特征。这些方法支持我们使用Transformer分析对象关系的想法。关键区别在于它们不使用对象身份信息，而是隐式地使用对象相关性来改善检测。我们以监督方式明确学习对象关联以进行跟踪。03. 准备工作0我们首先正式定义对象检测、跟踪和通过检测进行跟踪。对象检测。设I为图像。对象检测的目标是识别和定位所有对象。对象检测器[8, 36, 45,70]将图像I作为输入，并产生一组对象{pi}，其位置{bi}，bi∈R4作为输出。对于多类对象检测，第二阶段[20,36]将对象特征作为输入，并从一组预定义类别C中产生分类分数si∈RC和精炼位置˜bi。对于单类检测（例如行人检测[31]），可以省略第二阶段。跟踪。设I1，I2，...，IT为一系列图像。跟踪器的目标是找到所有对象随时间变化的轨迹τ1，τ2，...，τK。每个轨迹τk=[τ1k，...，τTk]描述了一个对象位置的管道τtk∈R4∪{�}随时间t的变化。τtk=�表示对象k在帧t中无法定位。跟踪器可以选择性地预测对象0对于每个轨迹，通常作为其每帧片段的平均类别的类别分数sk[13]。通过检测进行跟踪将跟踪问题分解为每帧检测和帧间对象关联。对象检测首先在每帧It中找到Nt个候选对象bt1，bt2，...作为边界框bti∈R4。然后，使用每帧t的对象指示器αtk∈{�，1，2，...，Nt}将现有轨迹τk链接到当前检测到的对象。0τtk=0如果αtk=�，则bt=αtk，否则bt=αtk0大多数先前的工作通过在相邻或附近帧中的对象之间进行成对匹配来贪婪地定义关联[4, 5, 66,68]，或者依赖于离线组合优化进行全局关联[6, 16,65]。在这项工作中，我们展示了如何通过网络的单向传递执行联合检测和全局关联。网络以32帧的视频剪辑中进行端到端的学习，实现全局跟踪。我们利用关联问题的概率形式化，并展示了如何在Transformer架构中实现跟踪。04. 全局跟踪变换器0全局跟踪变换器 (GTR)以概率和可微分的方式关联对象。它将每个帧 I t 中的对象p t i 链接到一组轨迹查询 q k 。每个轨迹查询 q k生成一个对象关联得分向量 g ∈ R N ，其中 N 是帧 I t中检测到的对象数量。该关联得分向量然后产生一个每帧对象级别的关联 α t k ∈ {� , 1 , . . . , N t } ，其中 α t k = �表示无关联，N t 是帧 I t中检测到的对象数量。关联的组合然后产生一个轨迹 τ k。图 2提供了一个概述。关联步骤是可微分的，并且可以与底层对象检测器一起进行联合训练。04.1. 跟踪变换器0设 p t 1 , . . . , p t N t 是图像 I t中一组高置信度的对象。设 B t = { b t 1 , . . . , b t N t }是它们对应的边界框。设 f t i ∈ R D 是从边界框 b t i中提取的 D 维特征。为方便起见，设 F t = { f t 1 , . . . , ft N t } 是图像 I t 的所有检测特征的集合，设 F = F 1 ∪. . . ∪ F T是通过时间的所有特征的集合。所有对象特征的集合 F ∈R N × D 是我们跟踪变换器的输入，其中 N = � T t N t是所有帧中检测到的对象总数。跟踪变换器接受特征 F和轨迹查询 q k ∈ R D，并产生一个特定于轨迹的关联得分 g ( q k , F ) ∈ R N。形式上，设 g t i ( q k , F ) ∈ R 是第 t 帧中第 i个对象的得分。特殊的输出令牌 g t � ( q k , F ) = 0表示在时间 t 上没有关联。跟踪变换器PA(αt = i|qk, F) =exp (gti(qk, F))j∈{∅,1,...Nt} exp gtj(qk, F)(1)ˆαtk ≠ℓbg(F) = −j:j87740然后为每个轨迹 k 预测在帧 I t 中所有对象 i的关联分布。我们将其建模为每个时间步 t 的独立 softmax激活函数：0由于检测器为每个对象 p t i 产生单个边界框 b t i，因此关联分布 P A 与在时间 t 上轨迹 k 的边界框分布 Pt 之间存在一对一的映射关系：P t ( b | q k , F ) = � N t i=1 1 [ b = b t i ] P A ( α t = i | q k , F ) ，其中指示函数1 [ ∙ ]为每个关联查询分配一个输出边界框。在实践中，检测器的非极大值抑制 (NMS) 确保了从 P t 返回到 P A的唯一映射。边界框上的分布反过来导致整个轨迹的分布 PT ( τ | q k , F ) = � T t =1 P t ( τ t | q k , F )。在训练过程中，我们最大化地对地面真实轨迹的对数似然进行训练。在推断过程中，我们使用似然来以在线方式生成长期轨迹。04.2. 训练0给定一组地面真实轨迹 ˆ τ 1 , . . . , ˆ τ K，我们的目标是学习一个估计 P A 和隐式轨迹分布 P T的跟踪变换器。我们通过将变换器视为 RoIhead，类似于两阶段检测器 [ 36]，与检测一起进行联合训练。在每个训练迭代中，我们首先通过非极大值抑制获得高置信度的对象 b t 1 , . . . , b t N t及其对应的特征 F t 。然后，对于每个地面真实轨迹 τ，我们最大化对数似然 log P T ( τ | q k , F )。这等价于在将 τ 分配给一组对象之后最大化对数似然log P A ( α t | q k , F )。我们遵循对象检测的做法，并使用简单的交并比 (IoU)分配规0� � ，如果 τ t k = � 或 max i IoU ( b t i , τ t k ) < 0. 5 argmax i IoU ( b t i , τ t k ) ，否则 (2)0我们使用这个分配来训练基础两阶段检测器的边界框回归和我们的分配似然函数 P A。然而，这个分配似然函数还依赖于轨迹查询 q k，我们接下来定义。轨迹查询是我们公式的关键。在之前的工作中[8]，对象查询被学习为网络参数，并在推断过程中固定。这使得查询与图像无关，并且需要近乎穷举地枚举它们[26, 42,72]。对于对象来说，这是可行的[8]，因为锚点[23]或提议[41]已经证明了。然而，轨迹存在着比简单的边界框更大的潜在移动对象空间，因此需要更多的查询来覆盖该空间。0此外，跟踪数据集中的注释实例要少得多，学习的轨迹很容易过拟合并记住数据集。相反，我们直接使用对象特征 f t i作为对象查询。具体来说，让 ˆ α k是根据方程（2）匹配的地面真实轨迹 τ k的匹配对象。任何特征 { f 1 ˆ α 1 k , f 2 ˆ α 2 k , . . . }都可以作为轨迹 τ k的查询。在实践中，我们使用所有帧中的所有对象特征 F作为查询，并为序列长度为 T训练变换器。任何未匹配的特征 f t i都被用作背景查询，并被监督产生所有帧的 �。我们允许多个查询产生相同的轨迹，并且不要求一对一匹配[8]。在推断过程中，我们只使用来自单个帧的对象特征作为查询，以避免重复输出。所有帧内的对象特征是不同的（经过标准检测NMS），因此会产生不同的轨迹。训练目标。整体训练目标结合了方程（2）中的分配和轨迹查询，以最大化每个轨迹在其分配查询下的对数似然。对于每个轨迹 τ k，我们优化其分配 ˆ α k 的对数似然：0ℓ asso ( F, ˆ τ k )= − �0s ∈{ 1 ...T | ˆ α s k � = �0t =1 log P A (ˆ α t k | F sˆ α s k , F ) (3)0对于任何未关联的特征，我们产生空轨迹：0T �0�0t =1 log P A ( α t = �| F s j , F) (4)0最终损失简单地结合了这两个项：0L asso ( F, { ˆ τ 1 , . . . , ˆ τ K } )= bg ( F )+ �0ˆ τ k ℓ asso ( F, ˆ τ k ) (5)0我们与标准检测损失[70]一起训练 L asso，包括分类和边界框回归损失，以及多类别跟踪的可选第二阶段分类和回归损失[13]。04.3. 在线推断0在推断过程中，我们以滑动窗口的方式在线处理视频流，窗口大小为 T = 32，步长为 1 。对于每个单独的帧 t，我们将图像输入到跟踪变换器之前，并获得边界框 B t和对象特征 F t 。我们保留一个长度为 T的时间历史缓冲区，即 B = { B t − T +1 , ∙ ∙ ∙ , B t } 和F = { F t − T +1 , ∙ ∙ ∙ , F t }，并为每个滑动窗口运行跟踪变换器。我们使用当前帧 t的对象特征作为轨迹查询 q k = F t k 来生成 N t个轨迹。对于第一帧，87750自注意力 F : (N, D) 2x 线性/ReLU (N, D)0Q : (M, D) 交叉注意力 2x 线性/ReLU0�0(M, D)0G : (M, N) 线0线性0线性0q: (N, D)0k: (M, D)0k: (N, D)0�0� 线0(M, N)0(M, D)0图3. 左：GTR的详细网络架构。右：self-att和cross-att块的详细结构。为简单起见，我们在图中省略了多头[49]。对于self-attention，q =k = F。对于cross attention，q = Q，k = F。我们在括号中列出了数据的维度。�表示矩阵乘法（需要时转置）。0我们将所有检测初始化为轨迹。对于任何后续帧，我们使用平均分配概率PA作为距离度量将当前预测的轨迹与现有轨迹进行关联。由于当前轨迹与过去轨迹共享多达T-1个框和特征，因此重叠可能相当大。我们使用匈牙利算法确保从当前长期轨迹到现有轨迹的映射是唯一的。如果与任何先前轨迹的平均关联分数低于阈值θ，则启动新轨迹。否则，将生成轨迹的底层当前检测（查询）附加到匹配的现有轨迹中。04.4. 网络架构0全局跟踪变换器以一堆对象特征F ∈RN×D作为编码器输入，以查询矩阵Q ∈RM×D作为解码器输入，并生成查询和对象之间的关联矩阵G ∈RM×N。跟踪变换器的详细结构如图3（左）所示。它遵循DETR[8]，但只使用一个层的编码器和一个层的解码器。凭经验，我们观察到查询的自注意力和层归一化[1]是不需要的。有关消融的详细信息，请参见第5.5节。结果网络结构轻量级，总共有10个线性层。即使对于数百个查询，它的运行时间也只是主干检测器的一小部分。04.5. 与嵌入学习和ReID的关联0考虑一个只有点积关联分数g t i(q k, F) = q k ∙ F ti的GTR变体。进一步考虑将所有轨迹查询Q = {q 1, . . . , qk}作为自由参数，每个训练轨迹τ k一个。在这个变体中，方程（1）中的softmax分配简化为一个分类问题。对于每个对象特征，我们将其分类为特定的训练实例或背景。这正是人员ReID中基于分类的嵌入学习的目标[29]，如ReID跟踪器[54,66]中所使用的。嵌入学习和GTR之间的两个关键区别是：首先，我们的变换器不假设g ti的任何分解，并允许模型在计算关联时同时推理所有框。另一方面，基于点积的ReID网络假设所有框独立地产生兼容的嵌入。有关此变换器结构的消融研究，请参见第5.5节。其次，我们的轨迹查询不是学习的。这使得我们的变换器能够产生长期的关联。0单次前向传递，而基于ReID的跟踪器依赖于单独的余弦距离分组步骤[54, 66]。05. 实验0我们在两个跟踪基准上评估了我们的方法：TAO[13]和MOT17 [31]。TAO[13]跟踪各种各样的对象。图像来自6个现有的视频数据集，包括室内、室外和驾驶场景。该数据集要求在长尾设置中跟踪具有488个类别的大量对象。它包含0.5k、1k和1.5k个用于训练、验证和测试的视频。每个视频包含每秒1个注释帧的约40个注释帧。相邻的注释帧之间存在显著的运动。训练注释是不完整的。因此，我们不使用训练集，仅在LVIS[19]上进行训练，并使用TAO验证和测试集进行评估。MOT[31]在拥挤场景中跟踪行人。它包含7个训练序列和7个测试序列。这些序列包含500到1500帧，以25-30FPS的速度记录和注释。我们遵循CenterTrack[68]，将每个训练序列分成两半。我们使用前半部分进行训练，后半部分进行验证。我们主要在这个验证集上进行消融研究，并与其他方法在官方隐藏测试集上进行比较。我们根据私有检测协议进行评估。05.1. 评估指标0我们根据每个数据集的官方指标进行评估。TAO[13]使用跟踪mAP@0.5作为官方指标，该指标基于标准的目标检测mAP[24]，但将2D边界框IoU改为预测轨迹和真实轨迹之间的3D时空IoU。整体跟踪mAP是对所有类别进行平均。MOT[31]使用多目标跟踪准确度（MOTA）作为官方指标。MOTA = 1 -0t GT t，其中GT t是第t帧中的真实对象数量，FP t，FN t和IDSWt分别衡量假正例、假负例和ID切换的错误。正如MOT基准所建议的，我们还报告了HOTA，一种新的跟踪指标[28]。HOTA定义为检测准确度（DetA）和关联准确度（AssA）的几何平均值。DetA和AssA都具有形式| TP |0| TP | + | FN | + | FP|，分别表示真正例、假负例和假正例的数量，以及它们的真/假标准87760teria。在我们的实验中，我们主要使用AssA来评估跟踪性能。5.2. 训练和推理细节0TAO训练。我们的实现基于detectron2 [59]。对于TAO[13]实验，我们使用Res2Net[17]作为骨干网络，并采用可变形卷积[11]。我们采用CenterNet2 [69]作为检测器，它使用CenterNet[70]作为提议网络，并使用级联的RoI头部[7]进行分类。根据TAO数据集[13]的指导方针，我们在LVISv1 [19]和COCO[24]的组合上训练目标检测器。我们还采用联邦损失[69]来改善长尾检测。我们首先训练单帧检测器。训练使用SGD，学习率为0.04，批大小为32，迭代180K次（4×调度[59]）。我们使用训练分辨率896×896，遵循EfficientDet[43]的尺度和裁剪增强。检测器在LVISv1验证集上得到37.1的mAP，在TAO验证集上得到27.3的mAP。TAO只提供了一个小的训练集来调整跟踪超参数，但不用于训练跟踪器。我们经验性地观察到，在TAO训练集上训练会降低检测性能，并且整体上不能产生良好的跟踪精度。我们发现，仅在静态图像数据集[19]上进行数据增强的训练已足够用于跟踪。我们的训练策略遵循CenterTrack[68]。具体而言，我们对图像应用两种不同的数据增强，并将它们用作视频的起始帧和结束帧。然后，我们线性插值图像和注释，生成平滑的训练视频。通过合成视频，我们从单帧检测器端到端地微调跟踪变换器头部。我们的微调协议遵循DETR[8]，使用AdamW优化器[27]，将骨干网络的学习率乘以0.1，并将梯度范数限制在0.1以下。我们使用基本学习率0.0001。我们生成长度为T =8的视频剪辑，并在8个GPU上使用8个视频进行训练，从而得到有效的批量大小为64。我们对网络进行22500次迭代的微调（2×调度）。微调在8个Quadro RTX 6000GPU上大约需要8小时。MOT训练。对于我们的MOT模型，我们遵循过去的工作[66,68]，使用CenterNet[70]作为对象检测器，DLA-34骨干网络[62]。我们使用BiFPN[43]作为上采样层，而不是原始的基于可变形卷积[11]的上采样[62]。我们使用RoIAlign[20]提取全局跟踪变换器的特征。我们不对RoI特征进行边界框细化，而是直接使用CenterNet检测结果。我们使用训练尺寸1280×1280和测试尺寸1560（较长边）。根据CenterTrack [68]，我们在Crowdhuman[39]上预训练检测器96个时期。然后，我们在Crowdhuman（使用增强）和MOT训练集上以1：1的比例进行微调，使用GTR头部。我们再次使用T = 80在批量大小为8个剪辑的视频剪辑中，我们为32K次迭代微调网络，这相当于Crowdhuman的约36个时代和MOT的64个时代。这需要在8个Quadro RTX 6000GPU上大约6小时。推理。在测试期间，我们将MOT的输出分数阈值设置为0.55，将TAO的提案分数阈值设置为0.4，基于验证集的扫描。我们不为TAO设置输出阈值。对于这两个数据集，我们将新轨迹关联阈值设置为θ=0.2。由于MOT数据集具有较高的帧率，我们发现在关联过程中使用位置信息是有益的。我们根据轨迹关联分数和框轨迹IoU的最大值进行关联。这在第5.5节的受控实验中进行了检验。我们进一步删除长度小于5的轨迹[6]。跟踪条件分类。我们的全局关联模块应用于分类之前的对象特征。这使我们能够使用跟踪的时间线索对对象进行分类。在我们的TAO实验中，我们将单个分类分数分配给轨迹，通过对轨迹内的每个框的分类分数进行平均，得到一个全局分类分数。运行时间。我们使用Intel Core i7-8086K CPU和Titan XpGPU在我们的机器上测量运行时间。在MOT17上，我们的骨干检测器每帧运行时间为47毫秒，跟踪变换器每帧运行时间为4毫秒。在TAO上，骨干运行时间为86毫秒，变换器运行时间为3毫秒。05.3. 全局与局部关联0我们首先验证了我们的主要贡献：全局关联。我们与基于位置（SORT [5]）、身份或联合位置和身份（FairMOT[66]）的基线本地跟踪器进行比较。为了直接比较跟踪器，我们将所有基线跟踪器应用于相同模型的检测输出，以确保相同的检测（表1的第1-3行）。ReID特征是使用我们的关联损失进行训练的（请参见第4.5节中的讨论），我们还包括使用原始实例分类损失的基线（表1的第4行）。我们采用了FairMOT[66]的实现，使用默认的超参数1和技巧，包括一个最多30帧的轨迹重生机制，用于所有基线。表1显示了TAO[13]和MOT17[31]验证集上的结果。首先，尽管MOTA和DetA相近，基于ReID的方法（FairMOT[66]和我们的方法）通常比仅基于位置的基线[5]实现更高的跟踪精度。对于我们的方法，当T=2时，它变成了一个仅在连续帧之间进行关联的局部跟踪器。这个跟踪器无法从任何遮挡或丢失的检测中恢复，导致相对较低的AssA。然而，当我们逐渐增加时间窗口T时，01 我们调整了超参数，但观察到默认设置表现最佳。1 IoU [5]8.832.730.535.468.965.057.459.256.12 ReID10.935.031.439.570.974.061.760.063.73 IoU+ReID [66]11.034.931.239.571.174.262.160.264.45 GTR (T=2)13.642.035.849.871.365.157.860.655.86 GTR (T=4)17.744.036.453.671.669.659.960.859.67 GTR (T=8)19.545.636.856.871.372.261.160.762.08 GTR (T=16)22.545.836.857.471.475.162.560.665.09 GTR (T=32)22.144.935.956.771.375.963.060.466.287770# TAO MOT17 轨道mAP HOTA DetA AssA MOTA IDF1 HOTA DetA AssA04 IoU+ReID（重新训练） 6.7 23.4 18.8 29.5 69.9 73.0 60.9 59.4 62.50Table 1. 全局跟踪的有效性。我们将贪婪跟踪器[5,66]（顶部块）与我们的全局跟踪器（GTR）在TAO和MOT17验证集上的不同时间窗口下进行比较。我们展示了官方指标（TAO的轨道mAP和MOT17的MOTA/IDF1）以及HOTA指标。所有指标越高越好。除了第4行之外，所有行都是使用我们的损失训练的相同模型（使用不同的跟踪算法进行评估）。第4行是使用原始实例分类损失[66]重新训练的不同模型。我们的全局跟踪器受益于更长的时间窗口，并且优于局部跟踪器。0验证测试 mAP50 HOTA DetA AssAmAP50 FPS0SORT TAO [13] 13.2 - - - 10.2 15.2 QDTrack [32] 16.1 35.824.3 53.5 12.4 5.4 GTR w. QDTrack det. 20.4 40.7 30.1 55.6 - -GTR 22.5 45.8 36.8 57.5 20.1 11.20AOA [15] 25.8 - - - 27.5 1.00表2.TAO数据集[13]上的结果。我们展示了验证集上的HOTA指标和官方的跟踪mAP50。我们在最后一列展示了在我们的机器上测试的每秒帧数。我们展示了基于单独的ReID网络的每个框的2020TAO挑战赛获胜者，位于最后一行。0我们观察到关联准确性持续增加。在MOT17中，当T =32时，我们的方法在AssA上优于Fair-MOT [66] 1.8和IDF11.7，显示了我们全局跟踪公式的优势。在TAO上，性能在T=16时饱和。这可能是由于TAO数据集中的帧率较低，导致长时间窗口内发生了剧烈的布局变化。05.4. 与最先进技术的比较0接下来，我们将与在相应测试集上具有不同检测结果的其他跟踪器进行比较。表2显示了在TAO验证集和测试集上的结果。TAO[13]是一个相对较新的基准，只有少数公开的条目[13,32]。我们的方法在测试集上的mAP相对改进达到了62%，明显优于官方的SORT基线[13]和之前最好的结果（QDTrack[32]）。尽管我们的模型在一定程度上受益于更强大的检测器，但这也突显了我们模型的一个优点：它可以与最先进的检测系统进行端到端的联合训练。表2的第三行显示了使用QDTrack[32]的检测结果的GTR。我们展示了GTR相对于使用相同检测器的QDTrack获得了4.3的mAP和1.9的AssA的提升。我们的模型在2020年TAO挑战赛中表现不佳0我们观察到AOA [15]在大型单目标跟踪数据集[21, 35,37]上训练了单独的ReID网络。他们以slow-RCNN[18]的方式将所有检测到的框分别输入到ReID网络中。在我们的机器上，AOA的完整检测和跟踪流程平均每张图像需要989毫秒。我们的模型比AOA[15]快10倍以上，并且每帧只需要一个前向传递，使用了轻量级的每个对象头。表3将我们的跟踪器与MOT17排行榜上的其他条目进行了比较。我们的条目在MOTA、IDF1和HOTA方面表现更好，分别达到了74.1、71.1和59.0。这比大多数基于Transformer的跟踪器要好，包括Trackformer[30]、MOTR [64]、TransCenter [61]和TransTrack[40]。我们的模型目前在MOTA和IDF1方面不如TransMOT[10]。TransMOT和我们之间存在一些实现上的差异，包括使用额外数据（TransMOT使用额外的ReID数据）、检测器架构（TransMOT使用YOLOv5[48]作为检测器，并使用单独的跟踪器）以及训练和测试参数（代码未发布）。我们的跟踪器的MOTA较低，但运行速度是其两倍。05.5. 设计选择实验0在这里，我们对我们的关键设计选择进行了分析。所有实验都是在表1的最佳设置下进行的，T =32。不同运行之间的随机噪声在0.2 MOTA和0.5AssA之间。注意结构。我们首先验证了在关联头部使用Transformer结构的必要性。作为对比，我们在图3中删除了自注意层和交叉注意层，并直接在线性层之后进行对象特征的点积运算。表4a显示这会显著降低AssA。进一步在解码器中添加自注意层（如DETR[8]）并不能提高性能，因此我们只使用编码器注意力。位置嵌入。位置嵌入是一种常用的MOTAIDF1HOTADetAAssAFPFNIDSFPSHOTA DetA AssA MOTAHOTA DetA AssA MOTA*1163.060.466.271.31262.760.465.071.22163.060.966.071.7MOT17TAOHOTA DetA AssA MOTA mAP5087780Trackformer [ 30 ] 65.0 63.9 - - - 70,443 123,552 3,528 - MOTR [ 64 ] 65.1 66.4 - - - 45,486149,307 2,049 - ChainedTracker [ 33 ] 66.6 57.4 49.0 53.6 45.2 22,284 160,491 5,529 6.8CenterTrack [ 68 ] 67.8 64.7 52.2 53.8 51.0 18,498 160,332 3,039 17.5 QDTrack [ 32 ] 68.766.3 53.9 55.6 52.7 26,589 146,643 3,378 20.3 TraDeS [ 58 ] 69.1 63.9 52.7 55.2 50.8 20,892150,060 3,555 66.9 TransCenter [ 61 ] 73.2 62.2 54.5 60.1 49.7 23,112 123,738 4,614 1.0GSDT [ 52 ] 73.2 66.5 55.2 60.0 51.0 26,397 120,666 3,891 4.9 FairMOT [ 66 ] 73.7 72.3 59.360.9 58.0 27,507 117,477 3,303 25.9 TransTrack [ 40 ] 74.5 63.9 53.9 60.5 48.3 28,323112,137 3,663 59.2 CSTrack [ 22 ] 74.9 72.6 59.3 61.1 57.9 23,847 114,303 3,567 15.8 FUFET[ 38 ] 76.2 68.0 57.9 62.9 53.6 32,796 98,475 3,237 6.8 CorrTracker [ 50 ] 76.5 73.6 60.762.8 58.9 29,808 99,510 3,369 15.6 TransMOT [ 10 ] 76.7 75.1 - - - 36,231 93,150 2,346 9.6GTR (我们的) 75.3 71.5 59.1 61.6 57.0 26,793 109,854 2,859 19.60表3.在MOT17测试集（私有检测）上与最先进方法的比较。我们展示了来自排行榜的官方指标。↑表示越高越好，↓表示越低越好。FPS取自排行榜或论文。GTR在MOT17上达到了顶级性能。0直接点积 61.3 59.5 63.6 70.5 *编码器注意力63.0 60.4 66.2 71.3 编码器+解码器注意力62.3 60.5 64.5 71.20(a) 有/无注意力层。编码器注意力改善了跟踪。0*无嵌入 63.0 60.4 66.2 71.3 带位置嵌入62.5 60.7 65.0 71.7 带位置和时间嵌入 62.460.7 64.6 71.70(b) 不同的位置/时间嵌入。位置嵌入没有帮助。0编码器解码器 HOTA DetA AssA MOTA0(c

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

全局跟踪转换器：一种基于转换器的全局多目标跟踪架构

多目标跟踪，可处理多个目标

多目标跟踪全解析，全网最全

一种多目标跟踪的快速算法

SpringBoot 前后端分离项目 配置全局 LocalDateTime 日期格式转换器

SpringBoot配置全局 LocalDateTime 日期格式转换器

解释下列名词，异步定时总线事务分离总线结构 全局总线 局部总线 桥接器北桥芯片 南桥芯片 FSB总线 QPI总线DMI总线PCI总线 PCIe总线 AMBA总线 USB 总线

SpringBoot配置全局日期格式转换器

SpringMVC配置了类型转换器后依然报错：Cannot convert value of type 'java.lang.String' to required type 'java.util.Date': no matching editors or conversion strategy found

Global Tracking Transformers

springcloudgateway全局过滤器

vue时间戳转换成时间 全局过滤器

springboot转换器

Retinexformer是如何使用Transformer架构进行图像增强的？

CBIR如何将局部特征转为全局特征

vue如何调用自定义的全局过滤器

DEtection TRansformer

Graph transformer

ros如何单独使用全局路径规划

粒子群算法优化pid控制DCDC

easyexcel 如何修改默认的coverter方法 全局性的吸怪

最新资源

SpringBoot 前后端分离项目配置全局 LocalDateTime 日期格式转换器

解释下列名词，异步定时总线事务分离总线结构全局总线局部总线桥接器北桥芯片南桥芯片 FSB总线 QPI总线DMI总线PCI总线 PCIe总线 AMBA总线 USB 总线

vue时间戳转换成时间全局过滤器

easyexcel 如何修改默认的coverter方法全局性的吸怪