基于Transformer的模型预测用于跟踪任务的研究

28 浏览量更新于2023-10-25 收藏 14.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

63.164.768.564.765.266.963.967.163.963.966.266.466.766.487310转换模型预测用于跟踪0Christoph Mayer Martin Danelljan Goutam Bhat Matthieu Paul Danda Pani PaudelFisher Yu Luc Van Gool Computer Vision Lab, D-ITET, ETH Z¨urich, Switzerland0摘要0基于优化的跟踪方法通过集成目标模型预测模块取得了广泛的成功，通过最小化目标函数提供了有效的全局推理。虽然这种归纳偏差集成了有价值的领域知识，但它限制了跟踪网络的表达能力。因此，在这项工作中，我们提出了一种采用基于Transformer的模型预测模块的跟踪器架构。Transformer在没有太多归纳偏差的情况下捕捉全局关系，使其能够学习更强大的目标模型预测。我们进一步扩展模型预测器，以估计第二组权重，用于准确的边界框回归。由此产生的跟踪器ToMP依赖于训练和测试帧信息，以传导地预测所有权重。我们通过在多个跟踪数据集上进行全面实验来训练所提出的跟踪器，并验证其性能。ToMP在三个基准测试中取得了新的最佳结果，在具有挑战性的LaSOT[14]数据集上实现了68.5%的AUC。代码和训练模型可在以下网址获得：0https://github.com/visionml/pytracking01. 引言0通用视觉目标跟踪是计算机视觉中的基本问题之一。该任务涉及在视频序列的每一帧中估计目标对象的状态，仅给出初始目标位置。目标跟踪的一个关键问题是学习在给定有限注释的情况下，稳健地检测目标对象。在现有方法中，判别相关滤波器（DCF）[1, 4, 9, 10, 18, 20, 29,35]取得了很大的成功。这些方法通过最小化判别性目标函数来学习目标模型，以在每一帧中定位目标。目标模型通常设置为卷积核，提供了被跟踪对象的紧凑且可推广的表示，从而使DCF方法受到欢迎。DCF中的目标函数整合了前景和背景知识。0SuperDiMP0ToMP-50+0IoUNet0MP-1010SiamRCNN0TrDiMP0TransT0KeepTrack0LaSOT0NFS0STARK-ST1010STARK-ST500ToMP-500图1. 在逐步转换模型优化器的基础上改进跟踪器SuperDiMP[8]的性能。首先，我们通过基于Transformer的模型预测器（�）替换模型优化器。其次，我们通过同一模型预测器替换概率IoUNet并预测其权重（�）。在NFS [17]和LaSOT[14]上报告性能（成功AUC），并与最近的跟踪器进行比较（�）。ToMP-50和ToMP-101分别指的是使用的不同骨干网络ResNet-50[19]和ResNet-101 [19]。0帧，当学习模型时提供了有效的全局推理。然而，它也对预测的目标模型施加了严格的归纳偏差。由于目标模型仅通过在先前帧上最小化目标来获得，模型预测器的灵活性有限。例如，它无法将任何学习到的先验知识整合到预测的目标模型中。另一方面，Transformer也已经被证明在多个帧之间提供了强大的全局推理能力，这要归功于自注意力和交叉注意力的使用。因此，Transformer已经成功应用于通用目标跟踪[6, 40, 43,45]。在这项工作中，我们提出了一种新颖的跟踪框架，旨在弥合DCF和基于Transformer的跟踪器之间的差距。我们的方法采用了一个紧凑的目标模型来定位目标，就像DCF一样。然而，这个模型的权重是使用基于Transformer的模型预测器获得的，使我们能够学习比DCF更强大的目标模型。这是通过引入目标状态的新编码来实现的，使Transformer能够有效地利用这些信息。我们进一步扩展了我们的模型预测器，以生成用于边界框回归的权重。87320边界框回归网络，以便将其预测结果与当前目标相关联。我们提出的ToMP方法在跟踪性能上取得了显著的改进，超过了最先进的基于DCF的方法，同时也优于最近的基于Transformer的跟踪器（见图1）。贡献：总之，我们的主要贡献如下：i）我们提出了一种新颖的基于Transformer的模型预测模块，以替代传统的基于优化的模型预测器。ii）我们扩展了模型预测器，以估计应用于边界框回归的第二组权重。iii）我们开发了两种新颖的编码方式，将目标位置和目标范围纳入Transformer-based模型预测器，以利用这些信息。iv）我们在测试时提出了一种并行的两阶段跟踪过程，以解耦目标定位和边界框回归，以实现稳健准确的目标检测。v）我们进行了一系列全面的消融实验，评估了我们跟踪流程的每个构建模块的贡献，并在七个跟踪基准上进行了评估。所提出的ToMP跟踪器在包括LaSOT[14]在内的三个基准上取得了新的最优性能，其中在LaSOT[14]上的AUC达到了68.5%（见图1）。此外，我们还展示了我们的ToMP跟踪器在LaSOT[14]的每个属性上都优于其他基于Transformer的跟踪器。02. 相关工作0判别模型预测：基于DCF的方法通过最小化目标函数来学习一个目标模型，以区分目标和背景。长时间以来，基于傅里叶变换的求解器在DCF跟踪器中占主导地位[4, 11, 20,29]。Danelljan等人[9]采用了一个两层感知机作为目标模型，并使用共轭梯度法来解决优化问题。最近，引入了多种方法，将跟踪问题转化为元学习问题，实现端到端训练[1, 39,47]。这些方法基于迭代优化算法的展开思想，固定迭代次数，并将其整合到跟踪流程中，以实现端到端训练。Bhat等人[1]学习了一个判别特征空间，并根据初始帧中的目标状态预测目标模型的权重，并通过优化算法对权重进行优化。用于跟踪的Transformer：最近，引入了几种使用Transformer的跟踪器[6, 40, 43,45]。Transformer通常用于预测判别特征，以定位目标对象并回归其边界框。训练特征由Transformer编码器处理，而Transformer解码器使用交叉注意力层融合训练和测试特征以计算判别特征[6, 40, 45]。DTT[45]将这些特征馈送给两个网络，预测目标的位置和边界框。0相比之下，TransT[6]采用了一个特征融合网络，由多个自注意力模块和交叉注意力模块组成。融合后的输出特征被馈送到目标分类器和边界框回归器中。TrDiMP [40]采用DiMP[1]模型预测器，根据Transformer编码器的输出特征作为训练样本来生成模型权重。然后，目标模型通过将Transformer解码器产生的输出特征上的预测权重应用于目标特征图来计算目标分数图。TrDiMP采用概率IoUNet[12]进行边界框回归。与我们的跟踪器类似，TrDiMP通过在解码器中使用两个不同的交叉注意力模块来编码目标状态信息，而不是在Transformer前面使用两个编码模块。与前述的基于Transformer的跟踪器相比，STARK[43]采用了DET[5]中的Transformer架构。STARK不同于在Transformer解码器中融合训练和测试特征，而是将它们堆叠并由完整的Transformer共同处理。然后，单个对象查询产生与Transformer编码器特征融合的解码器输出。然后，这些特征进一步处理以直接预测目标的边界框。相比之下，我们的跟踪器采用了与DET[5]相同的Transformer架构，但用于替换模型优化器。最终，我们得到的基于Transformer的模型预测器估计了两个单独模型的权重：目标分类器和边界框回归器。03. 方法0在这项工作中，我们提出了一种基于Transformer的目标模型预测网络，用于跟踪，称为ToMP。我们首先回顾了现有的基于优化的模型预测器，并在第3.1节中讨论了它们的局限性。接下来，在第3.2节中描述了我们的基于Transformer的模型预测方法。我们在第3.3节中扩展了这种方法，以执行联合目标分类和边界框回归。最后，在第3.4节和第3.5节中详细介绍了我们的离线训练过程和在线跟踪流程。03.1. 背景0视觉目标跟踪的一种流行范式是基于判别模型预测的跟踪。这些方法在图2a中可视化，使用目标模型来定位测试帧中的目标对象。这个目标模型的权重（参数）是通过模型优化器从训练帧及其注释中获得的。虽然文献中使用了各种目标模型[1, 9, 23, 29, 35, 39,47]，但判别跟踪器共享一个基本公式来生成目标模型的权重。这涉及解决一个优化问题，使得目标模型对训练样本Strain = { ( x i , y i ) } m i =1 产生期望的目标状态 y i ∈ Y。其中，x i ∈ X是第i帧的深度特征图，m表示训练帧的总数。        Figure 2. Comparison between trackers that employ optimization based model prediction and our Transformer-based model prediction.The model optimizer [■] in Fig. 2a is replaced by the model predictor in Fig. 2b that consists of the proposed modules [■,■,■,■].w = arg min˜w�(x,y)∈Strainf(h( ˜w; x), y) + λg( ˜w).(1)87330主干网络0主干网络0模0目0模0主干网络0主干网络0目标0编码0模型0测试0测0训0Trans0编码0Trans0解码0目标0测试0训练0标0目标0模型0(a) 使用基于优化的模型预测的跟踪器。0主干网络0主干网络0模型优化器0目标模型0模型权重0主干网络0主干网络0目标状态0编码0模型权重0测试帧编码0测试帧0训练帧0Transformer0编码器0Transformer0解码器0目标模型0测试帧0训练帧0目标分数0目标分数0模型预测器0(b) 基于Transformer的模型预测的提出的跟踪器。0表示训练帧的总数。优化问题如下所示，0这里，目标函数包括残差函数f，它计算目标模型输出h(˜w;x)与真实标签y之间的误差。g(˜w)表示由标量λ加权的正则化项，w表示目标模型的最优权重。注意，训练集S train包含了带有伪标签的注释的第一帧以及先前跟踪帧的预测结果。通过显式地最小化（1）的目标来学习目标模型，可以得到一个能够将目标与先前观察到的背景区分开的鲁棒目标模型。然而，这种策略存在明显的局限性。基于优化的方法仅使用先前跟踪帧中可用的有限信息来计算目标模型。也就是说，它们无法集成目标模型预测中学到的先验知识，以最小化未来的失败。同样，这些方法通常缺乏在计算模型权重时以转导方式利用当前测试帧的可能性，以提高跟踪性能。基于优化的方法还需要设置多个优化器超参数，并且可能在训练样本上过拟合/欠拟合。基于优化的跟踪器的另一个局限性是它们产生判别特征的过程。通常，提供给目标模型的特征仅仅是提取的测试特征，而不是使用训练帧中包含的目标状态信息增强的特征。提取这种增强特征将允许可靠地区分测试帧中的目标和背景区域。03.2. 基于Transformer的目标模型预测0为了克服基于优化的目标定位方法的局限性，我们提出用一种新颖的目标模型替代模型优化器。0基于Transformer的预测模型：我们的方法基于Transformer构建了一个预测器（见图2b）。与显式地最小化目标函数（1）不同，我们的方法通过端到端训练直接预测目标模型，从而使模型预测器能够整合目标特定的先验知识，关注目标的特征，而不仅仅是区分目标与背景的特征。此外，我们的模型预测器还利用当前测试帧的特征，以及之前的训练特征，以迁移学习的方式预测目标模型。因此，模型预测器可以利用当前帧的信息来预测更合适的目标模型。最后，我们的方法不再将目标模型应用于由预训练特征提取器定义的固定特征空间，而是利用目标信息动态构建每一帧的更具区分性的特征空间。0使用基于Transformer的模型预测的跟踪器概述如图2b所示。与基于优化的跟踪器类似，它由测试分支和训练分支组成。我们首先将目标状态信息编码到训练帧中，并将其与深度图像特征[■]融合。类似地，我们还在测试帧中添加了一个编码，以将其标记为测试帧[■]。训练和测试分支的特征然后在Transformer编码器[■]中进行联合处理，通过全局推理产生增强的特征。接下来，Transformer解码器[■]使用Transformer编码器的输出预测目标模型权重[�]。最后，将预测的目标模型应用于增强的测试帧特征以定位目标。接下来，我们将介绍跟踪流程中的主要组件。0目标位置编码：我们提出了一种目标位置编码，允许模型预测器在预测目标模型时融入训练帧中的目标状态信息。具体而言，我们使用表示前景的嵌入e fg ∈ R 1 ×C，以及以目标位置为中心的高斯y i ∈ R H × W × 1。++�(di)d1y1xixtestztestz1v1vtestz2v2d2y2+wclswbbregh(wcls; ztest)CNN⇤+wztestwclsˆdtestˆytestetestefgefgTdec([z1, z2, ztest], efg) (yi, efg)µ(etest) Tenc([v1, v2, vtest])87340主干网络0主干网络0基于特征提取和目标编码的Transformer模型预测边界框回归0目标分类0线性0训练帧0测试0帧0图3.ToMP跟踪流程的整体概述。首先，使用主干网络提取训练[■]和测试[■]特征。然后将目标位置[■]和边界框[■]编码添加到训练特征中。对于测试帧，将进行测试嵌入编码[■]并添加到测试特征中。然后将特征进行连接，并由基于Transformer的模型预测器共同处理，产生用于目标分类[■]和边界框回归[■]的权重。0我们定义目标编码函数0ψ(yi, efg) = yi ∙ efg, (2)0其中“∙”表示点乘广播。注意，Him = s∙H和Wim =s∙W对应于用于提取深度特征x∈RH×W×C的主干网络的空间维度。接下来，我们将目标编码和深度图像特征x组合如下0vi = xi + ψ(yi, efg). (3)0这为我们提供了训练帧特征vi∈RH×W×C0其中包含编码的目标状态信息。类似地，我们还添加了一个测试编码，以识别与测试帧对应的特征，0vtest = xtest + µ(etest), (4)0其中µ(∙)为每个xtest的补丁重复标记etest。Transformer编码器：我们旨在使用训练帧和测试帧的前景和背景信息来预测目标模型。为了实现这一点，我们使用Transformer编码器[5,37]模块首先联合处理训练帧和测试帧的特征。Transformer编码器在我们的方法中有两个目的。首先，如后面所述，它计算Transformer解码器模块用于预测目标模型的特征。其次，受到STARK[43]的启发，我们的Transformer编码器还输出增强的测试帧0特征，这些特征在定位目标时作为目标模型的输入。给定多个编码的训练特征vi∈RH×W×C和编码的测试特征vtest∈RH×W×C，我们将特征重塑为R(H∙W)×C，并沿第一维连接所有m个训练特征vi和测试特征vtest。然后，这些连接的特征在Transformer编码器中共同处理0[z1, ..., zm, ztest] = Tenc([v1, ..., vm, vtest]). (5)0Transformer编码器由多头自注意力模块[37]组成，使其能够在整个帧甚至多个训练和测试帧之间进行全局推理。此外，编码的目标状态识别前景和背景区域，并使Transformer能够区分这两个区域。Transformer解码器：Transformer编码器的输出（zi和ztest）被用作Transformer解码器[5,37]的输入，以预测目标模型的权重0w = Tdec([z1, ..., zm, ztest], efg). (6)0请注意，输入zi和ztest是通过对整个训练和测试样本进行联合推理获得的，这使我们能够预测出有区分性的目标模型。我们使用与目标状态编码相同的学习到的前景嵌入efg作为Transformer解码器的输入查询，以便解码器预测目标模型的权重。目标模型：我们使用DCF目标模型来获得目标分类分数0h(w, ztest) = w � ztest. (7)(8)87350在这里，卷积滤波器w∈R1×C的权重由Transformer解码器预测。注意，目标模型应用于Transformer编码器的输出测试特征ztest。这些特征是在训练和测试帧的联合处理之后获得的，因此支持目标模型可靠地定位目标。03.3.联合定位和边界框回归0在前一节中，我们提出了基于Transformer的架构来预测目标模型。虽然目标模型可以在每一帧中定位物体中心，但跟踪器还需要估计目标的准确边界框。基于DCF的跟踪器通常使用专门的边界框回归网络[9]来完成这个任务。虽然可以采用类似的策略，但我们决定联合预测这两个模型，因为目标定位和边界框回归是相关的任务，可以相互受益。为了实现这一点，我们对模型进行了以下扩展。首先，我们不仅在生成目标状态编码时使用目标中心位置，还编码目标大小信息，以为我们的模型预测器提供更丰富的输入。其次，我们扩展了模型预测器，以估计边界框回归网络的权重，除了目标模型的权重。生成的跟踪架构在图3中可视化。接下来，我们详细描述这些变化。目标范围编码：除了提取的深度图像特征xi和目标位置编码ψ(yi,efg)之外，我们还添加了另一个编码来包含有关目标边界框的信息。为了编码训练帧i中包围目标对象的边界框bi = {bxi, byi, bwi, bhi}，我们采用ltrb表示[16, 36, 42,45]。首先，我们将特征图xi上的每个位置(jx, jy)映射回图像域，使用(kx, ky) = (�s02 � + s ∙jy).然后，我们计算每个重新映射位置到边界框bi的四个边的归一化距离，如下所示，0li = (kx - bxi) / Wim, ri = (kx - bxi - bwi) / Wim,0ti = (ky - byi) / Him, bi = (ky - byi - bhi) / Him,0其中Wim = s ∙ W和Him = s ∙H。这四个边用于产生密集边界框表示d = (l, t, r, b)，其中d∈ RH × W ×4。在这个表示中，我们使用多层感知机（MLP）ϕ对边界框进行编码，从而将维度从4增加到C，然后将所得到的编码添加到Eq.（3）中，如下所示0vi = xi + ψ(yi, efg) + ϕ(di). (9)0在这里，vi是用作Transformer编码器的输入的结果特征图，参见图3。模型预测：我们扩展了我们的架构，以预测目标模型的权重，以及边界框回归0具体而言，我们将Transformer解码器的输出w通过线性层传递，以获得边界框回归权重wbbreg和目标分类权重wcls。然后，权重wcls直接在目标模型h(wcls;ztest)中使用，如前所述。另一方面，权重wbbreg用于将Transformer编码器的输出测试特征ztest与目标信息进行条件化，以进行边界框回归，如下所述。边界框回归：为了使编码器输出特征ztest具有目标感知性，我们遵循Yan等人的方法[43]，首先使用预测的权重wbbreg计算注意力图wbbreg�ztest。然后，在将它们馈送到卷积神经网络（CNN）之前，将注意力权重逐点乘以测试特征ztest。CNN的最后一层使用指数激活函数，以生成与Eq.（8）中描述的相同ltrb表示的归一化边界框预测。为了获得最终的边界框估计，我们首先通过在目标模型预测的目标分数图ˆytest上应用argmax(∙)函数来提取中心位置。接下来，我们查询目标对象的中心位置处的密集边界框预测ˆdtest，以获得边界框。与Yan等人的方法[43]相反，我们使用两个专用网络来进行目标定位和边界框回归，而不是使用一个网络来尝试同时预测两者。这使得我们可以在跟踪过程中将目标定位与边界框回归解耦，如第3.5节所述。03.4. 离线训练0在本节中，我们描述了训练所提出的跟踪器ToMP的协议。与最近的端到端训练的判别式跟踪器[1,12]类似，我们从视频序列中采样多个训练和测试帧来形成训练子序列。具体而言，我们使用两个训练帧和一个测试帧。与最近的基于Transformer的跟踪器[6, 43,45]相反，但与基于DCF的跟踪器[1, 9,12]类似，我们保持训练和测试帧的相同空间分辨率。我们将每个图像Ii与相应的边界框bi配对。我们使用训练帧的目标状态来编码目标信息，并仅使用测试帧的边界框来通过计算基于预测边界框和测试帧中目标的派生中心位置的两个损失来监督训练。我们使用DiMP[1]中的目标分类损失，该损失由背景和前景区域的不同损失组成。此外，我们使用广义交并比损失[33]，使用ltrb边界框表示[36]来监督边界框回归0Ltot = λclsLcls(ˆy, y) + λgiouLgiou(ˆd, d), (10)0During tracking, we use the annotated first frame, aswell as previously tracked frames as our training set Strain.While we always keep the initial frame and its annotation,we include one previously tracked frame and replace it withthe most recent frame that achieves a target classifier confi-dence higher than a threshold. Hence, the training set Straincontains at most two frames.We observed that incorporating previous tracking re-sults in Strain improves the target localization considerably.However, including predicted bounding box estimations de-grades the bounding box regression performance due to in-accurate predictions, see Sec. 4.1. Hence, we run the modelpredictor twice. First, we include intermediate predictionsin Strain to obtain the classifier weights. In the second pass,we only use the annotated initial frame to predict the bound-ing box. Note that for efficiency both steps can be per-formed in parallel in a single forward pass. In particular,we reshape the feature map corresponding to two trainingand one test frame to a sequence and duplicate it. Then, westack both in the batch dimension to process them jointlywith the model predictor. To only allow attention betweenthe initial frame with ground truth annotation and the testframe when predicting the model for bounding box regres-sion, we make use of the so-called key padding mask thatallows us to ignore certain keys when computing attention.efgebgetestϕ(·)qdec = efgLaSOTNFSOTB1✗✗✗✓n.a.66.064.868.22✓✗✗✓✓67.166.670.03✓✓✗✓✓67.166.369.44✓✗✓✓✓67.666.970.15✓✓✓✓✓67.466.069.56✓✗✓✓✗66.066.269.97✓✗✓✗✓63.164.264.087360在跟踪过程中，我们使用注释的第一帧以及先前跟踪的帧作为我们的训练集Strain。虽然我们始终保留初始帧及其注释，但我们还包括一帧先前跟踪的帧，并将其替换为最近一帧，其目标分类器置信度高于阈值。因此，训练集S train最多包含两帧。我们观察到，将先前的跟踪结果纳入S train可显著改善目标定位。然而，包括预测的边界框估计会降低边界框回归性能，因为预测不准确，请参见第4.1节。因此，我们运行模型预测器两次。首先，我们在S train中包含中间预测以获得分类器权重。在第二次传递中，我们仅使用注释的初始帧来预测边界框。请注意，为了效率，这两个步骤可以在单个前向传递中并行执行。具体而言，我们将对应于两个训练帧和一个测试帧的特征图重塑为一个序列并进行复制。然后，我们在批次维度上将两者堆叠在一起，以与模型预测器一起进行联合处理。为了在预测边界框模型时仅允许初始帧与地面真值注释之间的注意力，我们使用所谓的键填充掩码，可以在计算注意力时忽略某些键。03.5. 在线跟踪04. 实验0我们在七个基准测试上评估了我们提出的跟踪架构ToMP。我们的方法基于PyTorch 1.7，并在PyTracking[8]框架内开发。PyTracking在GNU GPL3.0许可下可用。在单个Nvidia RTX 2080TiGPU上，ToMP-101和ToMP-50实现了0使用ResNet-101 [19]和ResNet-50[19]作为主干网络，实现了19.6和24.8 FPS。04.1. 消融研究0我们对提出的跟踪器进行了全面的分析。首先，我们分析了不同目标状态编码的贡献，然后检查了不同推理设置的影响。最后，我们报告了将SuperDiMP的目标分类器或边界框回归器替换为我们的结果时所实现的性能。本部分的所有消融实验都使用ResNet-50作为主干网络。目标状态编码：为了分析不同目标状态编码的影响，我们训练了网络的不同变体，并在多个数据集上进行评估。表1的前五行对应于具有不同目标位置编码的版本。所有其他设置保持不变。除了前景和测试嵌入之外，我们还将学习到的背景嵌入（而不是设置e bg = 0）包含在我们的分析中，如下所示：ψ(y i , e fg , e bg ) = y i ∙ e fg + (1 − y i ) ∙e bg。然而，表1显示了（第4个与第5个的对比）。0行）添加这样一个学习的背景嵌入会降低跟踪性能。我们进一步观察到，将前景嵌入e_fg设置为0（第1行），仅依靠目标范围编码ϕ(∙)仍然可以获得较高的跟踪性能，但明显落后于包含前景嵌入的所有其他版本。我们得出结论，仅使用前景编码e_fg和测试编码e_test可以获得最佳性能（第4行）。在表1的第二部分中，我们选择了目标位置编码的最佳设置，并删除了目标范围编码ϕ(∙)或将Transformer解码器查询与前景嵌入e_fg解耦。我们观察到使用单独的查询（第6行）会降低整体性能。类似地，我们注意到通过提出的编码方式融入目标范围信息是至关重要的。否则，性能会显著下降（第7行）。模型预测器：由于我们的模型预测器估计两个不同的模型权重，使用两个不同的Transformer查询似乎是自然的：一个用于生成目标模型0表1. 对于 e fg ， e bg 和 e test ，学习嵌入用 �表示，设置为零用 � 表示。使用编码 ϕ ( ∙ ) 用 � 表示，省略它用 �表示。对于 q dec = e fg ，符号 � 表示共享学习的嵌入 e fg用于编码和查询解码器，而 �表示为这两个任务学习两个单独的嵌入。（我们的最终模型在第4行）。1✓qdec = efg67.666.970.12✗qdec ̸= efg63.762.867.9n.a.✗65.765.367.8✓✓67.666.970.1✗✓62.064.862.8DiMP [1]Prob. IoUNet [12]63.164.867.743.7ToMPProb. IoUNet [12]64.765.265.045.2ToMPToMP67.666.969.045.4sticToMP ToMP STARK Keep STARK AlphaSiamTrSuperSTMPr10150ST101 TrackST50Refine TransT R-CNN DiMP DiMP SAOT Track DTT DiMP[43][30][43][44][6][38][40][8][48][16] [45][12]Precision73.572.272.270.271.268.069.068.466.365.3-63.3-60.8Norm. Prec79.278.076.977.276.373.273.872.273.072.270.869.3-68.8Success (AUC) 68.567.667.167.166.465.364.964.863.963.161.660.6 60.1 59.8Motion BlurIllumination VariationFull OcclusionBackground ClutterPartial OcclusionCamera MotionAspect Ration ChangeScale VariationDeformationRotationOut-of-ViewLow ResolutionFast MotionViewpoint Change01234567Success AUC GainToMP-101 vs TransT [4.38]ToMP-101 vs TrDiMP [4.04]ToMP-101 vs STARK-ST101 [1.58]87370解码器数量0解码器查询线性层查询 q dec LaSOT NFS OTB0表2.不同模型预测器架构的分析及其对成功AUC的跟踪性能的影响。0两阶段先前0模型预测跟踪结果 LaSOT NFS OTB0表3. 不同推断设置的分析及其对成功AUC的跟踪性能的影响。0模型边界框 LaSOT 预测器回归器 LaSOT NFS UAV ExtSub0表4. 将DiMP [ 1 ]和概率IoUNet [ 12]替换为ToMP进行定位和框回归的影响。0权重和其他权重用于获取边界框回归器权重。然而，这涉及将查询与前景嵌入e_fg解耦，表2的实验结果显示了这种情况下的显著性能下降。推断设置：在在线跟踪期间，我们使用初始帧及其注释作为训练帧。此外，如果分类器置信度高于某个阈值，我们还包括最近的帧及其目标预测。表3显示，包括先前的跟踪结果比仅使用初始帧可以获得更高的跟踪性能。禁用所描述的两阶段模型预测方法，并同时预测目标模型和边界框回归器的权重会大大降低跟踪性能（在LaSOT上降低5.6个AUC）。原因是边界框预测器对于编码和用于训练的不准确预测框的敏感性。逐步转换模型预测：我们的模型预测器可以估计目标模型和边界框回归器的模型权重。在这部分中，我们将逐步将基于优化的跟踪器转换为只预测目标模型的我们提出的模型预测器，以评估每个转换步骤的影响。表4显示，将SuperDiMP中的模型优化器（第1行）替换为我们提出的模型预测器仅预测目标模型（第2行）在四个数据集中的三个上优于SuperDiMP。我们的跟踪器ToMP同时预测目标定位和边界框回归器的模型权重（第3行）在所有四个数据集上都获得了最佳性能。我们得出结论，预测目标模型的权重可以提高性能，同样地，预测边界框回归器的权重也可以提高性能。请注意，由于其随机性，我们基于概率IoUNet的所有跟踪器的平均值报告了五次运行的结果。04.2. 与现有技术的比较0我们在七个跟踪基准上比较了我们的跟踪器ToMP。对于所有数据集，使用相同的设置和参数。如果有原始预测可用，我们重新计算所有跟踪器的指标；否则，报告各自论文中给出的结果。LaSOT[14]：首先，我们在大规模的LaSOT数据集（平均包含280个测试序列，每个序列2500帧）上比较ToMP。图5a中的成功曲线显示了重叠精度OPT作为阈值T的函数。跟踪器根据其曲线下面积（AUC）得分进行排序，图例中显示。表5显示了更多结果，包括每个跟踪器的精度和归一化精度。不同骨干网络的ToMP的两个版本在AUC方面优于最新的跟踪器STARK [43]、TransT [6]、TrDiMP [40]和DTT[45]，并创造了新的技术水平。值得注意的是，即使是使用ResNet-50的ToMP也优于使用ResNet-101的STARK-ST101（67.6 vs67.1）。图4显示了ToMP相对于最新的基于Transformer的跟踪器在LaSOT[14]中不同属性的成功AUC增益。我们想强调的是，ToMP在每个属性上的表现都比TransT [6]和TrDiMP[40]高出一个百分点以上。同样，对于每个属性，ToMP的性能都高于STARK-ST101。它在背景杂波方面的增益最大，显示了使用小模板而不是具有大视野的训练帧的劣势，后者不仅可以利用目标信息，还可以利用背景信息。LaSOTExtSub[13]：该数据集是LaSOT的扩展。它只包含分配给15个新类别的测试序列，每个类别有10个视频。这些序列平均包含2500帧，展示了具有干扰物的小型、快速移动的对象的挑战性跟踪场景。0表5. 按AUC排序的LaSOT [14]测试集的比较。0图4. 在LaSOT[14]上，ToMP与最新的基于Transformer的跟踪器之间的属性分析。柱状图高度对应于我们的跟踪器的增益，图例显示了平均增益。00.20.40.60.81Overlap threshold0102030405060708090Overlap Precision [%]Success plotToMP101 [68.5]ToMP50 [67.6]KeepTrack [67.1]STARK-ST101 [67.1]STARK-ST50 [66.4]AlphaRefine [65.9]TransT [64.9]Siam R-CNN [64.8]TrDiMP [63.9]Super DiMP [63.1]STMTrack [60.6]PrDiMP50 [59.8]00.20.40.60.81Overlap threshold010203040506070Overlap Precision [%]Success plotKeepTrack [48.2]ToMP101 [45.9]ToMP50 [45.4]Super DiMP [43.7]LTMU [41.4]DiMP [39.2]ATOM [37.6]DaSiamRPN [35.6]SiamRPN++ [34.0]ToMP ToMP STARKSTARKSiamAlpha STMTrKeep SuperPrSiam10150ST101 TransTST50R-CNN Ref

下载后可阅读完整内容，剩余1页未读，立即下载