全局跟踪中的局部跟踪器集合

113 浏览量更新于2023-10-25 收藏 14.33MB PDF 举报

时间上下文

长期跟踪

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

#621#639#655#697#769#80187610通过局部跟踪器集合进行全局跟踪0周子坤 1,* , 陈建秋 1,* , 裴文杰 1,† , 毛凯歌 1 , 王宏鹏 1,2 , 和何振宇 1,†01 哈尔滨工业大学深圳 2 鹏城实验室0摘要0长期跟踪的关键在于目标由于视野外或遮挡而引起的不连续移动的难度。现有的长期跟踪方法遵循两种典型策略。第一种策略使用局部跟踪器进行平滑跟踪，并在目标丢失时使用另一个重新检测器来检测目标。虽然它可以利用目标的历史出现和位置信息，但这种策略的潜在局限性是当真正的目标不在视野范围内时，局部跟踪器往往会错误地将附近的干扰物误认为目标，而不是激活重新检测器。另一种长期跟踪策略是在整个图像范围内全局跟踪目标，而不是基于先前的跟踪结果进行局部跟踪。不幸的是，这种全局跟踪策略无法有效利用时间上下文。在这项工作中，我们结合了两种策略的优点：在全局视图中跟踪目标，同时利用时间上下文。具体而言，我们通过在整个图像上分布的局部跟踪器集合进行全局跟踪。一个局部跟踪器可以稳定地处理目标的平滑移动。当局部跟踪器意外丢失目标时，附近的另一个局部跟踪器将被激活，并且可以轻松接管跟踪以定位目标。激活的局部跟踪器通过利用时间上下文进行局部跟踪，而局部跟踪器的集合使我们的模型具有全局视图进行跟踪。对六个数据集的大量实验证明，我们的方法在性能上优于现有的算法。01. 引言近年来，长期视觉跟踪任务在视觉跟踪界引起了更多的关注。与短期跟踪相比，长期跟踪任务更接近于实际应用，这是由于以下两个差异。首先，长期跟踪基准（如LaSOT [13]、TLP[29]和OxUvA [33]）中序列的平均持续时间为数百个秒，远远超过短期跟踪基准（如OTB2015[37]、TrackingNet [30]和GOT-10k[18]等）的持续时间（数十秒）。其次，长期跟踪任务要求算法能够处理由目标消失和重新出现引起的目标不连续移动。大多数现有的跟踪器[1,2,8,22,46]在局部图像区域内搜索目标，称为局部跟踪器，因此无法处理长期跟踪任务中目标的频繁不连续移动。为了解决这个问题，一种典型的策略[5,19,26,41]是为局部跟踪器配备一个全局重新检测器，在局部跟踪器失败后检测目标。这种策略根据先前的跟踪结果在局部跟踪和全局检测之间进行切换，被称为局部-全局切换策略。这种策略的优点是可以利用目标的历史出现和位置信息进行局部跟踪。然而，是否切换到全局检测完全由局部跟踪结果决定。这增加了算法误识别目标的风险。0� 同等贡献。† 通讯作者：裴文杰和何振宇 (wenjiecoder@outlook.com 和zhenyuhe@hit.edu.cn)。0激活的LT的样本位置低高0激活的LT 激活的LT 未激活的LT 未激活的LT 预测框预测框0图1.通过局部跟踪器集合进行跟踪一个滑翔服飞行员的跟踪过程的示意图，该滑翔服飞行员从视野的左下角消失，然后从右下角重新出现。样本位置的颜色表示注意权重。首先，左下角的局部跟踪器被激活，并且随着目标的移动而移动以保持跟踪，直到目标消失。当激活的局部跟踪器丢失目标时，它会移回到开始移动的位置，如第697帧所示。当目标重新出现时，右下角的局部跟踪器被激活并继续跟踪目标。局部跟踪器的集合协作实现全局跟踪。0长期跟踪任务需要算法能够处理由目标消失和重新出现引起的目标不连续移动。大多数现有的跟踪器在局部图像区域内搜索目标，称为局部跟踪器，因此无法处理长期跟踪任务中目标的频繁不连续移动。为了解决这个问题，一种典型的策略是在局部跟踪器失败后，为其配备一个全局重新检测器来检测目标。这种策略根据先前的跟踪结果在局部跟踪和全局检测之间进行切换，被称为局部-全局切换策略。这种策略的优点是可以利用目标的历史出现和位置信息进行局部跟踪。然而，是否切换到全局检测完全由局部跟踪结果决定。这增加了算法误识别目标的风险。87620与局部-全局切换策略相反，另一类长期跟踪器[17,44]采用全局跟踪策略，在每一帧上进行全局重新检测以定位整个图像中的目标。例如，GlobalTrack[17]通过一次性检测进行全局跟踪，完全忽略了诸如目标的历史外观和位置等时间上下文。因此，GlobalTrack对目标的外观变化和背景干扰物很容易受到影响。为了缓解这个问题，DMTrack[44]在全局重新检测框架中引入了Re-ID嵌入，以关联相邻帧之间的检测结果来利用先前的重新检测结果。然而，这个Re-ID嵌入只是使用行人数据集[11,28,38,45]进行学习，限制了对任意目标物体进行跟踪的泛化能力。在本文中，我们提出了一种通过局部跟踪器集合实现全局跟踪的方法，结合了上述两种策略的优点：在全局视角下跟踪目标并利用时间上下文。具体而言，我们的算法在整个图像上的不同参考位置上部署了一组局部跟踪器，每个局部跟踪器在参考位置周围的局部区域内搜索目标。通过合理的参考位置和搜索范围，所有局部跟踪器的搜索区域可以覆盖整个图像，然后这些局部跟踪器协同工作实现全局跟踪。我们设计的协同机制有：1）当局部跟踪器成功定位到目标（称为激活状态）时，它将跟随目标移动，尝试在后续帧中继续跟踪。通常情况下，目标平稳移动时可以连续跟踪局部跟踪器。2）当激活的局部跟踪器由于突然的不连续移动而意外丢失目标时，靠近目标的另一个局部跟踪器可以立即接管跟踪，即被激活，以避免跟踪失败。丢失目标的局部跟踪器将返回到起始移动位置。在局部跟踪器稳定跟踪目标的过程中，我们的算法利用时间上下文来提高局部跟踪的鲁棒性，进一步延长了该局部跟踪器成功跟踪目标的持续时间。具体而言，我们设计了一种基于可变形注意力的局部跟踪器，在动态局部区域内搜索目标。因此，我们可以通过移动动态局部搜索区域来模拟全局视角下的常规局部跟踪机制。基于局部跟踪器，我们提出了一种时间上下文传递方案，以利用目标的历史外观和位置进行局部跟踪。图1说明了通过局部跟踪器集合进行跟踪的过程。总之，我们的工作做出了以下贡献：0•我们提出了一种通过局部跟踪器集合实现全局跟踪的算法，可以在全局视角下跟踪目标并利用时间上下文。0•我们设计了一种基于可变形注意力的局部跟踪器，以模拟全局视角下的局部跟踪机制，并基于局部跟踪器提出了一种利用时间上下文的方案。0•我们在六个不同的数据集上与最先进的方法相比取得了良好的性能，证明了我们算法的有效性。02. 相关工作0本文介绍了一种局部-全局切换策略的跟踪器。许多算法[19,25,26]通过局部-全局切换策略来解决长期跟踪任务。它们在局部跟踪器中配备了一个全局重新检测器，用于在局部跟踪失败后重新检测目标，即根据先前的跟踪结果在局部跟踪和全局重新检测之间进行切换。TLD [19]是一种早期使用该策略的方法。它使用光流进行局部跟踪，并使用一组弱分类器进行全局重新检测。最近，一些方法[5,41,43]将先进的深度局部跟踪器和全局重新检测器引入到这个框架中。此外，当局部跟踪失败时，一些方法[27,48]选择扩大搜索区域而不是进行全局重新检测，可以看作是该策略的变体。这种策略的一个关键问题是如何决定是否切换到全局重新检测（或切换到更大的搜索区域）。几种方法[25–27,48]直接根据局部跟踪器预测的响应图进行切换决策，而其他方法[5, 41,43]采用额外的可学习验证器来管理局部-全局切换。然而，是否从局部跟踪切换到全局重新检测仍然完全由局部跟踪预测决定。也就是说，忽略了局部搜索区域之外的信息来进行切换决策。这增加了算法将干扰物误认为目标而不是在真实目标超出局部搜索区域时激活全局重新检测器的风险。0全局跟踪策略跟踪器。几种方法[16, 17, 35,44]采用全局跟踪策略，通过在每一帧上进行全局重新检测来进行长期跟踪。在这些方法中，GlobalTrack[17]通过全局一次性检测进行跟踪，而不考虑时间上下文，对目标外观变化敏感。Siam R-CNN[35]设计了一个复杂的全局重新检测器，并使用手工得分将检测结果与动态规划关联，但由于计算负担较重，运行速度较慢。受MOT算法的启发，DMTrack[44]将Re-ID分支引入全局重新检测框架，以关联跨帧的检测结果。然而，Re-ID分支仅使用人类进行训练。.........#t#t+1.........AttnAttnAttnAttn...AttnAttnAttnAttnAttn...AttnAttn#t+1#t+1#t#t...TCA#t#t#tiqjqjqiqipipjpjpite1it+e1jt+ejte87630模板图像0测试图像0展平展平0主干网络0主干网络0编码器 0目标查询目标嵌入编码特征时间上下文传递流0头部0... 跟踪帧 t0头部0跟踪帧 t+ 10局部跟踪器集合0局部跟踪器0局部跟踪器0局部跟踪器集合0局部跟踪器0局部跟踪器0参考位置0图2.通过局部跟踪器集合实现的全局跟踪框架。首先提取模板图像和测试图像的主干特征，然后采用编码器增强测试帧特征中的目标信息，为每个测试图像生成编码特征。在编码特征上构建一个由解码器实现的局部跟踪器集合（LTs），进行集合局部跟踪。⊕表示连接操作。0数据集 [11, 28, 38,45]，不可避免地损害了泛化能力。与那些忽视时间上下文或在重新检测之后利用时间上下文的全局跟踪器不同，我们的方法通过集合局部跟踪器进行全局跟踪，直接利用时间上下文来预测候选目标。0Transformer跟踪。最近，提出了几种基于Transformer的跟踪器[4, 36,39]。我们的方法也采用了编码器-解码器结构，但与这些方法不同的是，我们的方法旨在在编码器-解码器结构中部署一个局部跟踪器集合，以实现全局跟踪。此外，一些方法[4,34,42]采用编码器-解码器框架进行MOT。虽然我们的方法和这些MOT方法都使用多个查询，但主要区别是：MOT中的每个查询负责检测和跟踪不同的目标，而我们的方法中的所有查询都协同工作，只用于跟踪唯一的目标。03. 方法0在本节中，我们介绍了通过局部跟踪器集合实现的全局跟踪算法，该算法在每一帧上进行全局跟踪，同时有效地利用时间上下文。为了以全局视角跟踪目标，我们的方法在整个图像上部署了一个分布合理的局部跟踪器集合。每个局部跟踪器在不同的局部区域内搜索目标。合理分布的局部搜索区域可以共同覆盖整个图像。因此，这些局部跟踪器可以通过协作进行全局跟踪。此外，当局部跟踪器连续跟踪目标时，可以利用时间上下文。03.1. 全局跟踪框架0图2展示了我们方法的全局跟踪框架。接下来，我们从两个方面简要介绍跟踪框架：1）特征提取和编码；2）通过局部跟踪器的集合进行跟踪。0特征提取和编码。以模板图像 I0（从初始图像裁剪）和一系列测试图像 { I t } T t =1为输入，我们的方法首先使用骨干网络提取它们的骨干特征F b 0 ∈ R H z × W z × C 和 { F b t ∈ R H s × W s × C }T t =1。为了提高效率，我们使用一个线性层将骨干特征的通道数从 C 减少到 c。为了将要跟踪的目标的信息编码到测试图像中，我们使用一个变压器编码器堆叠多头自注意力模块来执行模板图像和测试图像之间的融合，这已经被 [4,39]证明是有效的。具体来说，将 I 0 和 I t的特征在扁平化操作后进行连接，并输入编码器。然后，从编码器的输出中检索与 I t对应的特征像素，并将其重新整形为 3-D 张量 F t ∈ R Hs × W s × c ，其中增强了目标信息。0通过局部跟踪器的集合进行跟踪。为了实现全局跟踪，我们部署了一组局部跟踪器并行地在不同的局部区域中搜索目标。在跟踪过程中，如果激活了一个局部跟踪器，即定位到目标，它将随着目标的移动而移动，以在后续帧中继续跟踪目标。当目标平滑移动时，激活的局部跟踪器可以在连续的帧中持续跟踪目标，形成一个激活的局部跟踪器流。当目标由于遮挡或消失而发生不连续移动时，尽管激活的局部跟踪器可能丢失目标，但靠近目标的另一个局部跟踪器可以接管跟踪以定位目标。具体来说，我们使用一个变形注意力 [47]来实现我们的局部跟踪器，因为它具有自适应和稀疏采样的能力。因此，我们可以通过为其设置一个新的参考位置来移动局部跟踪器。每个局部跟踪器维护一个目标查询和一个参考位置。目标查询模拟了外观和位置上的潜在目标信息，而参考位置粗略地确定了局部跟踪器的搜索区域。特别地，局部跟踪器的默认目标查询是离线学习的嵌入，而默认参考位置是通过线性层和sigmoid函数从目标查询中预测的。为了进行局部跟踪，一个{eit}Ni=1 = ΦLT({qi}Ni=1, {pi}Ni=1}, Ft),yitNi=1 = ΦHead( eitNi=1).(1)pjrp(yjt ), qjtq(ejt),(2)ΦLT( qi Ni=1, pi Ni=1 , Ft) = Adc(Ams(q), p, Ft), (3)rp(yt ) = ct,87640跟踪器流。通过这样的流，我们可以轻松地从多个历史帧中传输和利用时间上下文来执行局部跟踪。另一方面，当目标由于遮挡或消失而发生不连续移动时，尽管激活的局部跟踪器可能丢失目标，但靠近目标的另一个局部跟踪器可以接管跟踪以定位目标。特别地，我们提出了一种可变形的基于注意力的局部跟踪器，它维护一个参考位置和一个目标查询，以在编码特征 F t的基础上执行局部跟踪。每个局部跟踪器输出一个用于进一步预测候选目标的目标嵌入。基于局部跟踪器，我们设计了一个时间上下文传输方案，该方案使用参考位置和目标查询作为载体，沿着激活的局部跟踪器流传输目标信息。将第 i个局部跟踪器的参考位置和目标查询分别表示为 p i 和 q i，则在 I t 上的 N 个局部跟踪器上的跟踪过程可以表示为：0其中 e i t 表示第 i 个局部跟踪器的输出目标嵌入。y i t = {s i t , b i t } 是基于 e i t 预测的候选目标，其中 s i t是前景-背景分类分数，b i t 是边界框。Φ LT 和 Φ Head分别表示并行的局部跟踪器和头部。假设第 j个局部跟踪器在 I t上被激活，那么时间上下文传输方案可以表示为：0其中 T rp 和 T tq分别表示通过参考位置和目标查询进行时间上下文传输。更新后的 p j 和 q j 然后用于在 I t +1 上进行跟踪。03.2. 可变形注意力局部跟踪器0为了在全局视图中执行局部跟踪，我们的局部跟踪器应该能够在测试图像 I t 的编码特征 F t上的动态局部区域中搜索目标。因此，我们可以通过根据先前的跟踪结果改变其搜索区域来移动激活的局部跟踪器以跟随目标。为此，我们选择了可变形注意力 [47]来实现我们的局部跟踪器，因为它具有自适应和稀疏采样的能力。因此，我们可以通过为其设置一个新的参考位置来移动局部跟踪器。每个局部跟踪器维护一个目标查询和一个参考位置。目标查询模拟了外观和位置上的潜在目标信息，而参考位置粗略地确定了局部跟踪器的搜索区域。特别地，局部跟踪器的默认目标查询是离线学习的嵌入，而默认参考位置是通过线性层和sigmoid函数从目标查询中预测的。为了进行局部跟踪，一个0局部跟踪器计算其目标查询与从 F t周围的参考位置采样的特征像素之间的注意力，其中采样位置是通过线性层预测到其参考位置的坐标偏移量从其目标查询中产生的。通过注意力操作，每个局部跟踪器输出一个目标嵌入，该嵌入模拟了相应局部搜索区域中候选目标的外观和位置信息。从技术上讲，所有局部跟踪器都使用解码器实现，并且并行的局部跟踪过程 Φ LT 定义为：0其中 A dc 和 A ms分别表示可变形交叉注意力[47]和多头自注意力[34]函数，q= q 1 ⊕ ∙ ∙ ∙ ⊕ q N ，p = p 1 ⊕ ∙ ∙ ∙ ⊕ p N ，⊕表示连接操作。值得注意的是，模型化所有目标查询之间的自注意力操作促使所有局部跟踪器的学习参考位置在训练过程中合理地分布在图像上，这对于学习有效的局部跟踪器的排列至关重要。03.3. 时间上下文传递0为了在我们的全局跟踪框架中利用时间上下文，我们使用参考位置和目标查询作为载体，将时间上下文随着激活的局部跟踪器流传递。接下来，我们详细介绍这个过程，假设第j个局部跟踪器保持激活状态。前一帧中预测的目标位置是一个直接线索，指示在后续帧中在局部搜索区域中搜索目标的位置。因此，我们直接将其用作激活的局部跟踪器的新参考位置，用于跟踪后续帧。因此，T rp 定义为：0其中 c j t 是前一帧测试图像 I t 中预测目标边界框 b j t的中心。通过这种方式，激活的局部跟踪器将跟随目标移动，直到目标被另一个局部跟踪器定位或消失。在失去目标后，该局部跟踪器的参考位置将被重置为其默认值。换句话说，该局部跟踪器将回到开始移动的位置。此外，由激活的局部跟踪器预测的目标嵌入包含外观和位置的新目标信息，因此可以自然地用于为激活的局部跟踪器在后续帧中生成新的目标查询。为此，我们提出了一种时间上下文聚合（TCA）模型，用于聚合最近预测的目标嵌入中建模的时间上下文，以生成新的目标查询。我们将这样的新目标查询称为在线目标查询，以便清楚地表示。如图3所示，我们的TCA模型维护了最近L帧中生成的在线目标查询的存储器 q j mem = qj t − L +1 ⊕ ∙ ∙ ∙ ⊕ q j t。这样的存储器模块用于聚合历史外观和轨迹信息，以便在后续帧中生成新的目标查询。QKV...ˆ jte1jt+qjtq1jt−q1jt L− +qjtetq(et) = ϕadj(ϕnorm(Amc(et, qmem) + et)),LH(yt, ˆyt)=λclsLcls(st)+Lbox(bt, bt)+λrLℓ1(p , ˆpt),box(bit, ˆbt)=λℓ11(bit, ˆbt)+λiouiou(bit, ˆbt).↼ 6↽L= 1TTt=1Ni=1λclsLcls(sit)+1{i=πt}Lbox(bt, ˆbit),(7)87650交叉注意力0添加和归一化0添加和归一化0添加和归一化0更新0存储器0图3.所提出的时间上下文聚合模型的架构。它在目标嵌入和历史在线目标查询之间进行交互，以聚合由这些查询建模的时间上下文信息。0聚合了目标在最近帧中的历史外观和轨迹信息。为了聚合这些历史信息，TCA模型使用多头交叉注意力层计算目标嵌入e j t（作为查询）与存储器 q jmem（作为键和值）之间的交叉注意力。然后，将交叉注意力的输出和目标嵌入 e j t相加并归一化，生成聚合的目标嵌入 ˆ e j t。最后，使用两个带有跳跃连接和归一化层的前馈神经网络（FFNs）来调整 ˆ e j t，生成用于在 I t +1上进行跟踪的在线目标查询 q j t +1 。形式上，T tq可以定义为：0其中， A mc ， ϕ norm 和 ϕ adj分别表示交叉注意力、归一化和调整操作。我们还使用 q jt +1来更新内存并弹出最旧的查询。对于新激活的本地跟踪器流，TCA模型的内存为空。在这种情况下，我们直接将目标嵌入输入到图3中的最后两个FFN中，生成在线目标查询，省略其他层。03.4. 本地跟踪器的监督学习0为了学习时间上下文建模能力，我们使用序列样本训练提出的模型。在序列样本中，从第一帧裁剪的目标补丁被用作模板图像，后续帧被用作测试图像。在训练过程中，我们按照图2所示的流程对测试图像进行前向传播。为了计算第t个测试图像I t上的损失，我们首先使用匈牙利算法[21]将预测的候选 y i t= { s i t , b i t } 与地面真值 ˆ y t = { ˆ b t }进行匹配。其中 ˆ b t表示地面真值边界框。基于DETR中的匈牙利损失，我们进一步考虑地面真值框中心 ˆ p t 与本地跟踪器的参考位置p i 之间的距离的ℓ 1-范数作为正则化项。这个正则化项鼓励本地跟踪器预测的候选与地面真值较接近，有利于我们模型的学习。首先，它增加了匹配到地面真值的概率0连续测试图像中，本地跟踪器保持激活，这对于学习时间上下文建模是必要的。其次，本地跟踪器受益于学习合理的可变形注意力范围。否则，在训练中，本地跟踪器往往会过度扩展可变形注意力范围，这会导致本地跟踪器感知到过多的背景信息，从而变得容易受到攻击。我们的匈牙利损失 L H( y i t , ˆ y t ) 定义如下：0这里， L cls ， L ℓ 1 和 L iou 分别指代聚焦损失[23]、ℓ1 损失和广义IoU损失[32]。 λ cls ， λ r ， λ ℓ 1 和 λiou是平衡权重。注意，我们在每个测试图像中计算二分匹配，而不是直接将第一个测试图像中的分配传播到后续图像中，因为这也会导致可变形注意力范围的过度扩展。将第t个测试图像中匹配的候选的索引表示为 π t ，具有 T个测试图像的序列样本的训练损失 L 可以表示为：0当 1 { i = π t } 等于 1 时， i = π t ，否则等于 0 。04. 实验04.1. 实现细节0我们采用在ImageNet [10]上预训练的ResNet-50[15]作为我们的主干网络，conv-4的输出被用作主干特征。我们使用DETR[3]中的头模型来预测候选框和相应的分类分数。此外，我们计算目标模板与特征空间中的候选之间的余弦相似度，然后通过将分类分数和余弦相似度相乘来获得候选置信度。类似于[44]，我们采用匈牙利算法[21]从候选中选择最终预测，该算法考虑了候选的置信度和位置。通过将置信度分数与阈值 θ进行比较，确定目标是否存在。模板图像从初始帧中裁剪，以地面真值目标为中心，然后调整大小为 128 × 128 ，其面积为 2 20目标的尺寸是目标的几倍。测试图像被调整为640×480。局部跟踪器数量N和记忆长度L默认分别设置为十和五。训练过程中，序列样本的长度（包括一个模板图像和一个或多个测试图像）逐渐从2增加到6。我们使用COCO [24]、LaSOT[13]、TrackingNet [30]和GOT-10k[18]的训练数据集来训练我们的模型，当序列样本的长度为2时，只使用COCO数据集。λ cls、λ r、λ ℓ 1和Pre.0.7320.7070.6900.670nPre.0.7590.7320.7170.705AUC0.6770.6530.6230.619L=5N=10N=5N=10N=20L=1L=3L=5L=7L=987660表1. LaSOT上我们方法的四个变体的精度（Pre.）、归一化精度（nPre.）和AUC。0变体我们的模型 OSDet EGT SGT0λ iou设置为1.0、5.0、5.0、2.0。源代码将在https://github.com/ZikunZhou/GTELT上提供。04.2. 消融研究0我们首先进行实验来研究我们模型中每种提出的技术的有效性。为此，我们对我们方法的四个变体进行了消融研究：1）我们的模型，即通过局部跟踪器集合进行全局跟踪的完整模型。2）OSDet，从我们的模型中删除了时间上下文传递方案。因此，我们的模型在变换器框架中退化为一个全局一次性检测器，使用多个离线学习的查询进行全局重检测，而不利用时间上下文。3）EGT，将我们模型中的可变形注意力模块替换为多头注意力模块，该模块在全局和密集的情况下计算注意力。因此，我们模型中的局部跟踪器集合变成了全局跟踪器集合。由于这些全局跟踪器不涉及参考位置，我们仅使用目标查询作为载体进行时间上下文传递。4）SGT，将EGT中的目标查询数量减少到一个，即采用一个基于多头注意力的单一全局跟踪器进行跟踪。表1展示了这些变体在LaSOT[13]的测试集上的实验结果。时间上下文传递方案的效果。我们模型与OSDet之间的性能差距清楚地证明了所提出的时间上下文传递方案在全局跟踪中利用目标的历史外观和位置的有效性。基于可变形注意力的局部跟踪器的效果。与我们的方法相比，EGT和SGT的性能分别下降了5.4%和5.8%的AUC。我们将性能下降归因于两个原因：1）EGT和SGT不能将前一个目标位置直接用作定位后续帧中目标的线索；2）EGT和SGT中的每个查询与Ft中的所有特征像素进行交互，因此整个图像的背景信息不可避免地压倒目标信息。此外，EGT使用多个查询的性能略优于SGT使用单个查询的性能，这与STARK[39]的结果不同。在STARK中，使用多个查询导致性能下降，与使用单个查询相比。我们猜测这种差异的原因是当搜索区域变为整个图像时，需要多个查询来定位目标。0表2. LaSOT上局部跟踪器数量（N）和记忆长度（L）的消融研究。0预. 0.712 0.732 0.705 0.725 0.726 0.732 0.731 0.730 n预. 0.743 0.7590.734 0.755 0.755 0.759 0.759 0.757 AUC 0.670 0.677 0.660 0.672 0.6750.677 0.677 0.6750局部跟踪器数量N和记忆长度L的影响。我们还进行了实验来研究N和L的影响。表2报告了在LaSOT上通过改变N或L得到的我们模型的结果。我们可以观察到，稀疏的（N =5）和密集的（N =20）局部跟踪器都会损害性能。我们猜测原因是稀疏的局部跟踪器几乎无法覆盖整个图像，而密集的局部跟踪器几乎无法获得足够的训练，因为每帧中只有一个激活的跟踪器接收来自监督的反馈。此外，随着L的增加，跟踪性能在L =7左右改善并趋于饱和。04.3. 与最先进的跟踪器进行比较0我们将我们的算法与TLP [29]、OxUvA [33]、VOT2020-LT[20]、LaSOT [13]、LaSOTExtSub [12]和TrackingNet[30]等六个数据集上的最先进的跟踪器进行比较。比较中涉及的跟踪器包括三个全局跟踪器（DMTrack [44]、SiamR-CNN [35]和GlobalTrack[17]）、八个局部-全局切换策略跟踪器（KeepTrack[27]、KeepTrack-Fast [27]、LT DSE [20]、CLGS[20]、LTMU [5]、SPLT [41]、MBMD [43]和TLD[19]）以及九个局部跟踪器（STARK [39]、TransT[4]、TrDiMP [36]、PrDiMP [9]、AlphaRefine[40]、SuperDiMP [6]、MDNet [31]、STM-Track[14]和SiamFC[1]）。我们将在下面讨论每个数据集的实验结果和运行速度。TLP。TLP[29]包含50个长度较长的序列，平均序列长度约为13,500帧。表3报告了TLP上的AUC和精确率得分。与局部-全局切换策略跟踪器LTMU相比，我们的方法在AUC上提高了1.2%，在精确率上提高了0.9%。此外，我们的方法在AUC和精确率上都大幅超过了另外两个全局跟踪器DMTrack和GlobalTrack（分别提高了2.9%/6.9%和2.0%/4.4%），证明了我们方法的有效性。OxUvA。OxUvA[33]包含166个较长的测试序列。除了目标边界框，OxUvA基准还要求跟踪器预测目标是否存在。它使用真阳性率（TPR）、真阴性率（TNR）和TPR和TNR的最大几何平均值（MaxGM）作为性能指标。我们将阈值θ设置为0.6进行OxUvA的评估。表4呈现了实验结果。与全局跟踪器SiamR-CNN相比，我们的方法在MaxGM上取得了4.5%的显著性能提升。KeepTrack是一种最近提出的局部-全局切换策略跟踪器。01020304050Location error threshold00.10.20.30.40.50.60.70.8PrecisionOurs [0.732]STARK-ST50 [0.712]KeepTrack [0.698]STARK-S50 [0.697]Siam R-CNN [0.684]TrDiMP [0.662]PrDiMP [0.610]DMTrack [0.597]LTMU [0.535]GlobalTrack [0.528]00.20.40.60.81Overlap threshold00.10.20.30.40.50.60.70.80.9Success rateATOM[7]DiMP[2]SuperDiMP [6]SPLT[41]LTMU[5]KeepTrack [27]AUC0.3760.3920.4330.2720.4140.4820.3560.450Pre.0.4300.4510.5050.2970.4730.5640.4110.524nPre.0.4590.4760.5240.3390.4990.5810.4360.542FPS65543926∗13186∗26TrDiMP[36]STMTrack [14]AlphaRefine [40]STARK-ST50 [39]TransT[4]AUC0.7840.8030.8050.8130.8140.7040.8120.825Pre.0.7310.7670.783–0.8000.6560.8000.816nPre.0.8330.8510.8560.8610.8670.7540.8540.86787670LaSOT测试集上的精确率曲线0LaSOT测试集上的成功率曲线0我们的方法 [0.677]KeepTrack [0.667]STARK-ST50 [0.664]STARK-S50 [0.658] SiamR-CNN [0.648] TrDiMP[0.639] PrDiMP [0.601]DMTrack [0.584] LTMU[0.539] GlobalTrack[0.517]0图4. LaSOT测试集上不同算法的精确率和成功率曲线。0表3.不同跟踪器在TLP上的AUC和精确率。最佳和次佳得分分别用粗体和下划线标记。从左到右，跟踪器分为局部跟踪器、局部-全局切换策略跟踪器和全局跟踪器。0SiamFC [1]MDNet [31]0TLD [19] SPLT [41]LTMU [5]0Global Track [17] DMTrack[44] 我们的方法0AUC 0.235 0.370 0.154 0.416 0.558 0.501 0.541 0.570 Pre. 0.284 0.384 0.1670.403 0.602 0.567 0.591 0.6110表4.不同跟踪器在OxUvA测试集上的TPR、TNR和MaxGM。从左到右，跟踪器分为局部-全局切换策略跟踪器和全局跟踪器。0MBMD [43] SPLT [41] LTMU [5]Keep Track [27]0Global Track [17] DMTrack [44] SiamR-CNN [35] 我们的方法0TPR 0.609 0.498 0.749 0.806 0.574 0.686 0.701 0.7640TNR 0.485 0.776 0.754 0.812 0.633 0.694 0.745 0.772 MaxGM 0.544 0.622 0.751 0.8090.603 0.688 0.723 0.7680表5.不同跟踪器在VOT2020-LT数据集上的精确率、召回率和F-score。0SuperDiMP [6]0CLGS [20] KeepTrack Fast [27] LT DSE[20] Keep Track [27]0DMTrack [44]我们的方法0精确率 0.676 0.739 0.706 0.715 0.723 0.690 0.695 召回率 0.663 0.619 0.680 0.6770F-score 0.669 0.674 0.693 0.695 0.709 0.687 0.6930使用关联网络处理干扰物并且比我们的方法表现更好。0VOT2020-LT. VOT2020-LT[20]是一个包含50个具有挑战性的序列的流追踪基准。VOT2020-LT基准要求追踪器预测目标边界框和相应的置信度分数。基于这两个预测，使用精确度、召回率和F分数作为性能指标。表5报告了VOT2020-LT上的实验结果。虽然KeepTrack取得了最佳性能，但我们的方法与KeepTrackFast和精细的LTDSE（VOT2020-LT冠军）表现相当，展示了我们方法的潜力。0LaSOT. LaSOT[13]在测试集中包含280个序列，平均序列长度约为2500帧。它使用成功率、精确度和归一化精确度作为评估指标。图4显示了LaSOT上的精确度和成功率曲线。我们的方法在AUC和0Table 6. LaSO-TExtSub上的AUC、精确度和归一化精确度以及不同追踪器的速度。所有速度都是在RTX 2080Ti GPU上报告的，除了用 � 标注的速度。0Global Track [17]我们的方法0Table 7.TrackingNet上不同追踪器的AUC、精确度和归一化精确度。从左到右，追踪器分为局部追踪器和全局追踪器。0Global Track [17] Siam R-CNN [35] 我们的方法0精确度分数。与其他全局追踪器SiamR-CNN和DMTrack相比，我们的方法在AUC上分别取得了2.9%/9.3%的性能提升，在精确度上分别取得了4.8%/13.5%的性能提升。此外，我们的方法在AUC和精确度上相对于KeepTrack也表现出色，分别取得了1.0%和3.4%的性能提升。LaSOTExtSub. LaSOTExtSub[12]是LaSOT的扩展集，包含了15个新的类别，每个类别有10个序列。LaSOTExtSub中的许多对象都是小对象。具体来说，在LaSOTExtSub中，小对象（调整整个图像大小为640×480后，面积小于32×32的对象）的比例为53.8%，而在LaSOT中为17.6%。实验结果报告在表6中。KeepTrack的表现优于我们的方法。原因是KeepTrack将搜索区域的面积调整为目标的8倍大小，并将其调整为固定大小，这样的操作会在目标较小时增加目标的分辨率。相比之下，我们的方法始终将整个图像调整为640×480，这对于追踪小对象不利。尽管如此，我们的方法仍然优于其他长期追踪器，如LTMU和GlobalTrack。TrackingNet.除了长期追踪数据集，我们还在一个短期追踪数据集TrackingNet[30]上评估了我们的方法。如表7所示，我们的方法在AUC上相对于其他基于Transformer的方法TransT、STARK-ST50和TrDiMP分别取得了1.1%、1.2%和4.1%的性能提升。运行速度。表6报告了不同追踪器的运行速度。我们的方法以26FPS的速度运行，达到了实时速度，并且比包括KeepTrack、LTMU和GlobalTrack在内的长期追踪器运行更快。04.4. 定性比较0为了进行定性比较，我们在图5中展示了四个具有挑战性的序列上的跟踪结果，其中主要挑战包括：完全遮挡、外观变化等。#1003#1118#0001#0771#1087#1546#1885#0011#0055#0062#0065#0074#0084#2178#1183#1205#0837#0840#0847#0889#0903#0906#1009#1022#0088#0102#010287680我们的方法 KeepTrack LTMU Siam R-CNN GlobalTrack 真值0图5.四个具有挑战性的序列上的定性比较。从上到下，主要挑战因素分别是完全遮挡、外观剧烈变化、干扰物和视野外。我们的方法比其他长期跟踪方法更稳健。0图6.在一个足球袋序列上我们方法的失败案例。两个帧中的目标分别只占图像面积的0.35‰（左）和0.26‰（右）。当目标在第102帧变得非常小，其信息被背景所淹没时，我们的方法无法定位它。0分别是完全遮挡、外观剧烈变化、干扰物和视野外。定性比较清楚地显示出我们的方法在面对这些挑战时比其他长期跟踪器更稳健。例如，第一个序列展示了目标被遮挡后重新出现的情况。当目标在第1009帧几乎完全被遮挡时，L

下载后可阅读完整内容，剩余1页未读，立即下载