感知深度跟踪：基于自交叉注意机制的鲁棒目标相关特征网络

99 浏览量更新于2023-10-25 收藏 13.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

596163656769710510153540455087510相关感知深度跟踪0* 当谢飞是MSRA实习生时进行的工作，春雨王，光亭王，岳曹，万寇杨，曾文军0† 中国东南大学 ‡微软亚洲研究院0jaffe0319@gmail.com，chnuwa@microsoft.com，flylight@mail.ustc.edu.cn0yuecao@microsoft.com，wkyang@seu.edu.cn，wezeng@microsoft.com0摘要0鲁棒性和区分能力是视觉目标跟踪中的两个基本要求。在大多数跟踪范式中，我们发现流行的类Siamese网络提取的特征不能完全区分建模跟踪目标和干扰物对象，从而阻碍了它们同时满足这两个要求。虽然大多数方法都致力于设计鲁棒的相关操作，但我们提出了一种新颖的目标相关特征网络，受到了自交叉注意机制的启发。与类Siamese特征提取相比，我们的网络在特征网络的多个层次中深度嵌入了跨图像特征相关性。通过在多个层次上广泛匹配两个图像的特征，它能够抑制非目标特征，从而实现实例变化的特征提取。搜索图像的输出特征可以直接用于预测目标位置，无需额外的相关步骤。此外，我们的模型可以灵活地在丰富的非配对图像上进行预训练，导致比现有方法更快的收敛速度。大量实验证明我们的方法在实时运行时达到了最先进的结果。我们的特征网络也可以无缝地应用于现有的跟踪流程，以提高跟踪性能。01. 引言0视觉目标跟踪（VOT）是计算机视觉中一个长期存在的课题。在VOT中有两个基本但相互竞争的目标：一方面，它需要识别在外观上发生大变化的目标；另一方面，它需要过滤掉背景中与目标非常相似的干扰物。大多数基于外观的方法从两个角度解决这个挑战：第一是通过类似Siamese的提取来学习更具表现力的特征嵌入空间。0* 谢飞在MSRA实习期间进行的工作0SBT-large0SBT-base0SBT-small0SBT-light0STARK-s500STARK-st1010Ocean SiamFCpp0TransT0STARK-CA0DiMP-CA0SiamFCpp-CA0DiMP-500PrDiMP-500平均重叠率（%）0模型参数（M）0DualTFR0图1. 在GOT-10k[19]上与现有技术进行比较。我们通过模型大小来可视化AO性能。所有报告的跟踪器都遵循官方的GOT-10k测试协议。我们的SBT跟踪器取得了优越的结果，而多个跟踪器（带有后缀“CA”）可以从我们的相关感知特征中受益。0网络[22,58]；第二是开发更强大的相关操作，如Siamese裁剪[23,58]，在线滤波器学习[3, 18]和基于Transformer的融合[5,50]。由于现代主干[17,34]成为深度时代的主流选择，大多数跟踪器致力于相关操作，希望通过它们的特征将目标与干扰物区分开来。尽管它们取得了巨大的成功，但这些跟踪范式中很少有人注意到这两个相互竞争的目标可能会使特征网络陷入目标-干扰物困境，给相关步骤带来很大困难。其中的原因有三个：1）Siamese编码过程不知道模板和搜索图像，这削弱了学习嵌入的实例级别区分能力。2）没有明确的建模方法来学习主干网络的决策边界，以区分这两个相互竞争的目标，导致次优的嵌入空间。3）每个训练视频只注释一个单一对象，而在推断过程中可以跟踪任意对象，包括干扰物。这个差距被2）进一步扩大。我们的关键见解是特征提取应该具有动态的实例变化行为，以生成“适当的”𝑓𝑧𝑓𝑧𝑓𝑥𝑓cor𝑓𝑥𝑓cor𝑓cor87520z0（a1）Siamese-like特征网络0x0相关操作0（b1）特征相关0（a2）目标相关特征网络0（b2）我们的0z0x0（c）预测0定位0尺寸估计0预测0头部0EoC-SA0EoC-SA0EoC-CA0EoC-SA0EoC-CA0Conv0Conv0Conv0Conv0Conv0EoC-SA0EoC-SA0EoC-CA0EoC-SA0EoC-CA0Conv0Conv0Conv0Conv0Conv0图2。（a1）标准的Siamese-like特征提取；（a2）我们的目标相关特征提取；（b1）相关步骤，如Siamese裁剪相关[23]，DCF[11]和基于Transformer的相关[5]；（b2）我们的流程去除了分离的相关步骤；（c）预测阶段；（d1）/（d2）是（a1）/（a2）中特征网络深入时搜索特征的TSNE[36]可视化。0为了缓解VOT中的困境而嵌入的嵌入。更详细地说，它需要在视频的所有帧中为同一对象生成一致的特征，尽管存在变化；另一方面，它需要为具有相似外观的目标和干扰物生成对比特征。为此，我们在注意力机制[37]的基础上提出了一种新颖的动态特征网络。如图2（a2）所示，我们的单支Transformer（SBT）网络允许两个图像的特征在特征提取阶段进行深度交互。直观地说，交叉注意力权重逐层逐渐过滤掉与目标无关的特征，而自注意力权重则丰富特征表示以实现更好的匹配。因此，特征提取过程是目标相关的，并且对于图像对来说是不对称的，使得网络能够实现双赢的情况：它区分目标和相似的干扰物，同时保持不同目标之间的一致特征。SBT的特征有效性在图2（d2）中得到验证。属于目标的特征（绿色）与背景（粉色）和干扰物（蓝色）逐渐分离，而来自Siamese提取的搜索特征完全不知道目标。SBT的整体框架如图3所示。它在Extract-or-Correlation（EoC）块之上有三个模型阶段。补丁嵌入为模板和搜索图像生成嵌入。然后将嵌入送入堆叠的EoC块。EoC有两个变体，即EoC-SA和EoC-CA，分别使用自注意力（SA）和交叉注意力（CA）作为其核心运算符。EoC-SA块在同一图像内融合特征，而EoC-CA块在图像之间混合特征。搜索图像的输出特征直接送入预测头部，以获得空间得分图和尺寸嵌入图。我们的关键技术创新是引入一个单一流程来处理模板和搜索图像对，通过同质的基于注意力的块进行联合提取或相关。因此，SBT可以在丰富的无配对图像（如ImageNet[33]）上进行预训练，从而在跟踪的微调中快速收敛。进行了大量实验证明了不同SBT网络设计的比较。基于这些见解，我们0总结了一些通用原则。我们的方法在性能上表现优越，并改进了Siamese、DCF和基于Transformer的跟踪器，如图1所示。本文的主要贡献如下：•我们提出了一种新颖的跟踪框架，允许将搜索和模板图像的特征进行深度融合以进行跟踪。它进一步改进了现有的流行跟踪流程。据我们所知，我们是首次为VOT提出了一种专门的目标相关特征网络。0•我们对SBT跟踪进行了实验和理论上的系统研究，并总结了一些适用于后续工作的一般原则。0本文的其余部分组织如下。我们在第2节中讨论相关工作。第3节介绍了SBT框架。然后，我们在第4节和第5节中进行了实证研究和理论分析。最后，我们在第6节提供了广泛的实验结果，并在第7节总结了本文。02. 相关工作0视觉跟踪。基于Siamese网络 [ 2]的跟踪器近年来引起了极大的关注。通过引入强大的主干网络 [ 22 , 58 ]和精心设计的预测网络 [ 16 , 23 , 49]，Siamese跟踪器获得了卓越的性能。然而，离线目标匹配使用浅层相关结构 [ 2]缺乏对干扰物的区分能力。然后，出现了专门的改进，包括注意机制 [ 15 , 41 , 54 ]，在线模块 [ 59 , 61 ]，级联框架[ 7 , 14 , 39 ]，更新机制 [ 55 ]和目标感知模型微调 [ 24 ,38]。尽管有所改进，但大多数方法都给Siamese跟踪流程带来了很大的复杂性。相反，我们的目标相关特征网络可以无缝地升级原始网络。此外，我们的特征网络通过去除Siamese跟踪器中的分离相关步骤，形成了一种新颖且概念简单的跟踪流程。判别性相关滤波器（DCF）跟踪器 [ 18]通过在线求解最小二乘回归来学习目标模型。它通过快速梯度算法 [ 11 ]，端到端学习 [ 3 , 60]和基于CNN的尺寸调整进一步改进。Stage 1: × 𝑁1Stage 2: × 𝑁2𝑍𝑖𝑋𝑖𝐾𝑧, 𝑉𝑧𝑄𝑧𝐾𝑥, 𝑉𝑥𝑄𝑥𝑍𝑖𝑋𝑖𝑍𝑖+1𝑋𝑖+1𝑓𝑥(2)87530� 4 × C H× � × 30EoC-SA0Cls头Reg头0� 8 0� 8 × 2C0� 8 0� 8 × 4C0Q投影0K投影0V投影0权重共享0SA0CA0(a) (b) (c)0PaE0EoC-CA0PaE0PaE0EoC-SA0EoC-SA0EoC-SA0EoC-SA0EoC-SA0EoC-CA0EoC-CA0EoC-CA0关块 SA: 0LN0SA/CA0LN0MLP0搜索图像0X0Z0模板0图3. (a)我们提出的用于跟踪的单分支Transformer架构。与Siamese、DCF和基于Transformer的方法不同，它没有用于计算相关性的独立模块。相反，它在网络的不同层级中的所有交叉注意力层中嵌入了相关性。搜索图像的完全融合特征直接输入到分类头（Cls Head）和回归头（RegHead）中，以获得定位和尺寸嵌入图。 (b) 显示了提取或相关（EoC）块的结构。 (c)显示了EoC-SA和EoC-CA的区别。PaE表示补丁嵌入。LN表示层归一化。0估计 [ 1 , 52]。然而，DCF对复杂的手工优化非常敏感，以及特征质量可能在具有挑战性的场景下缺乏实例级别的区分能力。为了改进这一点，我们的判别目标相关特征可以极大地减轻在线DCF的负担。0最近出现的基于Transformer的方法 [ 5 , 40 , 46 , 50 ,053 ]利用Transformer的长程建模来有效地融合特征。因此，它们可以在没有在线学习的情况下进行稳健的跟踪。然而，Transformer [ 37 ]主要设计用于语言处理领域，在训练过程中很难正确初始化用于视觉任务，导致巨大的成本。我们不使用Transformer作为融合模块 [ 5 , 50 , 52]，而是利用注意力机制动态生成定制特征，建立目标和搜索区域之间的分层细粒度对应关系。0视觉骨干网络。现代CNN [17,34]通常作为视觉任务中的骨干网络。最近，受到CNN原理的指导，视觉Transformer（ViT）[12, 26,43]作为视觉骨干网络取得了令人印象深刻的结果。更深和更有效的架构是强大骨干网络的两个支柱，它们推动了许多下游任务的发展。类似地，强大骨干网络在VOT中带来的改进主要归因于更具表现力的特征嵌入[22,58]，它与其他任务（例如目标检测）有微妙的差异。然而，VOT的动态特性实际上要求对模板图像和搜索图像进行非对称编码，这在大多数先前的工作中没有得到足够的关注。考虑到这一点，我们提出了一种动态的实例变化的VOT骨干网络，不仅仅追求表达力的嵌入。03. 架构0本节介绍了我们的单分支Transformer（SBT）（图3）的整体架构以及其主要构建块（EoC块）。然后，在下一节中，我们评估了架构的多个实例，并总结了有利的设计原则。03.1. 补丁嵌入0我们的模型将两个图像作为输入，包括一个模板图像z∈R3×Hz×Wz和一个更大的搜索图像x∈R3×Hx×Wx。一般来说，z以目标对象为中心，而x表示包含目标的后续帧中的较大区域。在补丁嵌入（Pa.E）阶段，两个图像被送入一个卷积层φ0p，卷积核大小为7×7，步幅为4，然后经过一个层归一化（LN）层。它将图像分别嵌入到特征图f0z和f0x中。0f 0 z, f 0 x = LN(φ 0 p(z)), LN(φ 0 p(x)), (1)0其中C0是通道数。03.2. 提取或相关块0EoC块可以同时实现自注意力（SA）和交叉注意力（CA），是主要的构建块。直观地说，它们分别逐渐融合来自相同和不同图像的特征。众所周知，全局计算所有令牌之间的注意力会导致二次复杂度[26]。为了解决这个问题，有许多工作试图减少计算成本。我们提出了不同高效注意力方法的一般公式。在这个公式的基础上，我们描述了我们的SA和CA操作。设χ(.)表示将特征图重新整形/排列成所需形式的函数。该函数因不同的方法而异。我们计算q、k、v特征如下：0q i = [χ q (f i)]T ω q, i ∈ {z, x},0k i = [χ k (f i)]T ω k, i ∈ {z, x},0v i = [χ v (f i)]T ω v, i ∈ {z, x},0其中{ωq, ωk,ωv}表示线性投影。Vanilla全局注意力（VG）[12]在所有令牌之间计算注意力。因此，{χq, χk,χv}表示恒等映射。空间缩减全局注意力（SRG）[43,56]使用步幅大于1的卷积（即{χk,χv}）来减小空间分辨率。˜fij = Softmax(qikTj√dh)vj,i, j ∈ {z, x},(3)fz := fz + ˜fzz,fx := fx + ˜fxx,(4)fz := fz + ˜fzx,fx := fx + ˜fxz.(5)ˆf = Ω(z, x),y= Φ( ˆf ),y= Φ( ˆf ),ˆf i = φsp(RS(φcn(RS( ˆf i−1)))),(7)87540表1.左侧部分比较了SBT的不同因素，包括注意力计算方法（ATTN），位置编码方法（PE），补丁嵌入方法（PaE），模型参数和FLOPs的数量。右侧部分基于左侧部分中描述的A5进行了其他因素的比较，例如特征维度（DIM）和块数（BLK），以及每个阶段中特征图的步幅。除非另有说明，所有模型都遵循相同的设置：从头开始训练，在第三阶段交错使用EoC-SA/EoC-CA块，模板图像为128×128，搜索图像为256×256。0设置A11 A22 A3 A4 A5 A6 A7设置B1 B2 B3 B4 B5 B6 B7 B80参考 [ 12 ] [ 26 ] [ 56 ] [ 43 ] [ 43 ] [ 43 ] [ 8 ] DIM(1,2) [64, 128] [64, 128] [64, 128] [64, 128][64, 128] [64, 128] [64, 128][32, 64] ATTN VG SL SRG SRGSRG SRG VL/SRG DIM(3,4) [320] [320,512] [320,512] [512] [320] [320,512] [320] [320] PE Abs Rel Cond Cond Cond Rel Cond BLK [3,4,10] [4,2,6,1][2,2,6,2] [2,2,4] [3,4,10] [2,4,6,1] [3,4,12] [3,4,10] PaE H 1 3 H 2 3 Conv H 2 3 Conv Conv Conv STR [4,2,1] [4,2,1,1] [4,2,1,1] [4,2,1] [4,1,2] [4,2,1,1] [4,2,2] 4[4,2,1]0参数(M) 22.5 40.2 23.9 20.1 21.3 21.0 19.6 参数(M) 21.3 18.6 21.1 20.5 20.8 19.3 20.8 15.1 Flops(G) 35.1 36.5 20.2 18.9 19.6 19.3 17.5 Flops(G) 19.6 19.322.5 19.2 24.4 24.7 12.1 14.5 AO 47.5 56.4 63.7 61.7 63.5 63.1 60.1 AO 63.5 57.4 60.9 56.7 63.3 60.6 52.2 56.201 A 1 没有层次结构，因此我们在开始时采用 4 的下采样比例，并且去掉了分类令牌。 2 对于 A 2 ，为了简化起见，我们设置相同的图像大小（224× 224）作为模板和搜索图像。 3 H 1 表示 A 1 将输入图像分成非重叠的块（ 4 × 4 ）。 H 2 表示在块分割后更改维度的线性层。 4对于总网络步长为16的模型设置，我们将搜索图像大小增加到 320 × 320 以进行公平比较。0键和值特征。查询特征的分辨率不会改变。然后它计算全局注意力作为VG。该方法大大减少了计算开销。香草局部窗口注意力(VL) [ 8]根据特征令牌的空间位置将其分组，并且仅在每个组内计算注意力。Swin Transformer [ 26]进一步在香草局部注意力(SL)中添加了Shift窗口机制以进行全局建模。由于目标对象可能出现在搜索图像的任何位置，使用局部注意力方法进行CA不实际。在我们的工作中，我们使用SRG来实现SA和CA。更多讨论见第4节。以下方程显示了我们如何计算SA或CA：0在SA中，i和j来自同一源（z或x），并且生成的特征更新为：0在CA中，它混合来自不同源的特征：0我们可以看到两个图像之间的相关性被无缝地嵌入到特征提取中。EoC块还包括两个LN层和一个2层MLP，如图3(b)所示。03.3. 位置编码0对于大多数方法[ 4 , 12 , 26]，编码是通过正弦函数生成的，使用绝对坐标（Abs）或令牌之间的相对距离（Rel）。作为更简单的方法，条件位置编码[ 9 , 43 , 56 ](Cond)通过卷积层生成动态编码。在我们的模型中，我们在GELU之前的MLP中添加了一个3×3的深度卷积层φpe作为条件PE。03.4. 直接预测0与现有的跟踪方法不同，我们直接在来自SBTΩ的搜索特征ˆfx之上添加了分类头Φcls和回归头Φreg，而无需进行额外的相关操作：0(6)其中yreg，ycls表示用于估计目标位置和形状的目标回归和分类结果。我们通过堆叠多个Mix-MLP块(MMB)来实现Φreg和Φcls，这些块可以共同建模输入特征ˆfi−1的空间和通道维度之间的依赖关系：0其中φsp和φcn由线性层和RELU激活函数组成。RS表示重塑。φcn应用于沿通道维度的特征，权重对所有空间位置共享。相反，操作符φsp对所有通道共享。04. SBT实例的经验研究0在本节中，我们通过提出一些问题对SBT的变体进行经验研究，包括其他网络因素的消融，如分层结构、位置编码和补丁嵌入。如表1所示，分层结构明显优于单阶段，因为具有多尺度表示（A1对A2到A7）。条件PE仅比相对PE高出0.4个百分点（A5对A6）。PE方法之间的差异非常小，表明PE对性能没有关键影响。我们还01 所有实验遵循官方的GOT-10k [19]测试协议。1C1C2C3C4C5C6C7C8C9C10C11Stage 3Stage 2 Stage 1313136912151856.761.666.166.665.660.162.4565962656856.750.266.160.667.260.2505968C6C9C137.663.692.10459014.7915.2116.12 17.7218.5923.6523.8221.6323.9126.471015202530Stage1-2Stage1-2Stage1-3Stage3-3Stage3-4Stage3-12 Stage3-12 Stage3-13 Stage3-13 Stage3-15Speed on Tesla V100 (FPS)56.760.161.166.166.6565962656856.760.161.161.659.25658606224 6 3 4 4 6 9 8 12 3 1 87550Epoch0: EoC-SA块 : EoC-CA块0（c）最早EoC-CA的位置0Stage1-2 Stage3-3 Stage3-12 Stage3-150C70C80C60C40C10C50C20无预训练预训练0预训练参数（%）0（e）模型设置0C3 C40C10C20C60C70C20C10C30C100（d）EoC-CA的数量（f）EoC-CA之间的间隔（b）最早EoC-CA的位置0C40STARK TransT SBT0（a）模型设置0图4. 对EoC-CA块的数量/位置进行研究。（a）：不同的模型设置，（b）：速度与不同的模型设置，（c）：跟踪性能与最早EoC-CA块的位置，（d）：跟踪性能与EoC-CA块的数量，（e）：跟踪性能与是否预训练，（f）：跟踪性能与EoC-CA块之间的间隔。0发现卷积PaE比手工制作的补丁合并更实用和表达力强（A4对A5）。哪种注意力计算对SBT跟踪器更好？注意力计算之间的主要区别在于减少复杂性的操作（全局/局部注意力）。我们发现局部注意力（VL/SL）块不能直接执行交叉注意力，因为模板和搜索图像中的局部窗口不等。因此，对于由纯局部注意力块构建的SBT，我们采用相同的图像大小（224×224）作为模板/搜索图像（A2），以避免繁琐的手工制作交叉策略。与采用128×128作为模板大小的全局注意力块（VG/SRG）（A3到A7）的设置相比，纯局部注意力（A2）的性能在AO方面至少下降了3.6个百分点，同时具有更多的参数和浮点运算。这主要是由于模板中背景信息过多而可能混淆搜索分支。我们还研究了SRG和VL块的混合设置（A7）。具体而言，VL块用于自注意力，而SRG块用于交叉注意力。我们观察到纯SRG块设计实现了更好的性能（A5对A7）。这说明SBT受益于统一的块选择。A3还验证了纯SRG块在AO方面的有效性为63.7%。我们得出结论，纯SRG块对于SBT跟踪器更实用和高效。早期和更多的EoC-CA块是否有助于更好的跟踪？基于上述原则设计的基线模型使我们认识到SBT可能受益于更早和更多的交叉相关。我们在图4中对EoC-CA块的不同位置/数量进行了消融实验。如图4（d）所示，当EoC-CA块的数量增加时，模型的性能与相同的EoC-SA/EoC-CA位置模式一致地提高（C3对C4，C1对C2，C6对C9）。这证明SBT跟踪器受益于模板和搜索分支之间更全面的交叉注意力。在图4（d）中，当EoC-CA块的数量相同时，更早的交叉设计具有显著的正面影响（C4比C1提高了4.9个百分点，C6比C2提高了6.5个百分点）。0早期交叉产生有助于跟踪器更好地观察目标的特征。跟踪性能是否与EoC-CA块的放置模式有关？由于EoC-CA块的位置和数量对性能有重要影响，我们想知道哪种放置模式是最佳选择。因此，我们尝试以不同的方式放置EoC-SA/EoC-CA块。在图4（f）中，我们惊讶地发现交错的EoC-SA/EoC-CA流水线比分离模式表现更好，即使具有较少的交叉注意力和较晚的最早交叉位置（C3 vs.C1）。潜在的原因是EoC-SA块可以在相关之后对模板/搜索特征进行精细调整，从而为匹配提供更具表现力的特征空间。在图4（f）中，当间隔为1时，模型（C9）实现了最佳性能67.2%。当间隔增加到2时，性能从61.1%降至59.2%（C3 vs.C10）。因此，我们更喜欢SBT跟踪器的交错EoC-SA/EoC-CA块设计。对于跟踪模型来说，什么是最佳的网络变体？然后，我们面临一个长期存在的问题，即设计深度跟踪器。我们消融了不同的网络步长、模型阶段和模型大小。如表1所示，在浅层（阶段1和2）的参数和FLOPs过多是有害的。这主要是因为低维度无法形成信息丰富的表示（B2的57.4%vs.B6的60.6%）。我们还观察到增加头数略微提高了性能，但降低了速度。在相同的总网络步长下，三阶段模型的性能优于四阶段模型（B1的63.5% vs.B2的57.4%），并具有可比较的参数和FLOPs。尽管将网络步长设置为16可以减少FLOPs，但性能下降了11.3个点（B1vs.B7），表明SBT跟踪器更喜欢具有更大空间尺寸的特征。由于通道维度对模型大小有很大影响，实现块数和通道维度之间的平衡非常重要（B4的56.7% vs.B5的63.3%）。EoC-SA/EoC-CA的灵活设计是否带来了负面/正面效果？我们检查了潜在的负面/正面效果。Attnxz = Softmax(Inter),˜fxz = Attnxzz + x = W2(z, x)T x + b2(x),(8)PaE32, 4)64, 4)64, 4)64, 4)Stage1�× 2�× 2�× 3�× 3PaE64, 2)128, 2)128, 2)128, 2)Stage2�× 2�× 2�× 4�× 4PaE160, 1)320, 1)320, 1)320, 1)Stage3�× 6�× 6�× 10�× 18PaE256, 2)512, 2)512, 2)512, 2)stage4�× 2�× 2�× 2�× 2E0, 12, 14, 16, 18]FLOPs3.81 G11.92 G19.27 G31.46 G(9)87560SBT的正面效果。从图4（b）和图4（c）可以看出，浅层（阶段1和2）的早期交叉并没有带来太多的改进（C2 vs.C8，C6 vs.C7），但降低了推理速度。这是因为早期交叉破坏了一次性推理。浅层EoC-SA块充当缓冲区。因此，早期交叉和速度之间的权衡应该考虑得很好。在图4（e）中，SBT跟踪器从更多的预训练权重中受益，并且比基于Transformer的跟踪器（如TransT [5]和STARK [50]）收敛速度更快。05. 单分支Transformer驱动的跟踪0除了通过实验探索SBT之外，我们还从一般VOT的角度对SBT进行了理论分析。然后，我们设计了四个版本的SBT并将它们集成到典型的跟踪器中以展示其普适性。05.1. SBT跟踪的理论分析0SBT克服了深度跟踪器中的固有限制。深度跟踪器对于严格的平移不变性有固有要求，即f(c, x[∆τj]) = f(c,x)[∆τj]，其中∆τj是平移窗口操作符，c表示Siamese/DCF跟踪中的模板/在线滤波器，f表示相关操作。现代骨干网络[17,48]可以提供更具表现力的特征，但它们的填充不可避免地破坏了平移不变性。因此，深度跟踪器[22,58]剪裁受填充影响的特征，并采用空间感知采样训练策略以保持平移不变性。从理论上讲，SBT中的填充可以完全移除，或者仅存在于补丁嵌入中以便于实现。此外，扁平化的特征令牌具有置换不变性，使得EoC块完全具有平移不变性。由于EoC块提供了全局感受野，SBT可以享受任意大小的模板/搜索图像和更大的搜索区域尺度。因此，我们认为SBT驱动的跟踪可以通过使用全新的网络模块在理论上克服经典深度跟踪器中的固有限制。交叉注意力比深度相关性有效率高两倍。我们首先证明交叉注意力可以分解为动态卷积（D-Conv）。作为特征相关性的CA在数学上等效于两个D-Convs和一个SoftMax层。为简单起见，我们将编码的{q，k，v}特征注释为它们的原始特征，因为投影矩阵是1×1位置卷积滤波器。因此，从搜索特征x到模板特征z的查询的CA是：0Inter = RS( z ) T x + 0 = W 1 ( z ) T x + b 1 ,0其中 W ( a, b ) , b ( a, b ) 是权重矩阵和偏置向量0轻型小型基础型大型0EoCA 1 8MLP 320EoCA 1 8MLP 640EoCA 1 8MLP 640EoCA 1 8MLP 640EoCA 2 4MLP 640EoCA 2 4MLP 1280EoCA 2 4MLP 1280EoCA 2 4MLP 1280EoCA 5 2MLP 1600EoCA 5 2MLP 3200EoCA 5 2MLP 3200EoCA 5 2MLP 3200EoCA 8 1MLP 2560EoCA 8 1MLP 5120EoCA 8 1MLP 5120EoCA 8 1MLP 5120头部分类：MMB × 2 回归：MMB × 20参数 3.03 M 13.80 M 21.27 M 35.20 M0速度 62 FPS 50 FPS 37 FPS 24 FPS0表2. SBT在四个尺度上的模型设置。Conv(k, c,s)表示卷积层，卷积核大小为k，输出通道数为c，步长为s。MLPc是具有隐藏通道4c和输出通道c的多层感知机。EoCAnr是具有头数n和下采样比例r的EoC注意力计算。EoC-CA块位于第三阶段。我们报告在单个Tesla V100 GPU上的速度。0由{a,b}生成的动态滤波器的数量，并且RS表示重塑。为了获得相关特征˜fxz，搜索特征x经过由z生成的D-Conv层，然后经过一个SoftMax层，再经过由z和x生成的另一个D-Conv层。两个D-Conv层来自于z在通道和空间维度上的重塑。深度相关（DW-Corr）或像素相关（Pix-Corr）[51]只等效于一个D-Conv层。因此，与具有相同模板特征的动态参数相比，CA的效果是DW-Corr或Pix-Corr的两倍。层次化特征利用嵌入在串行流水线中。Siamese跟踪器[6,22]对每个手动选择的特征对执行相关性，并将其馈送到并行预测头部。然后，通过加权求和来聚合预测结果。与手工层次聚合相比，SBT结构内在地探索了多级特征相关性。我们以三级特征利用为例：0x i , z i = ϕ i ca (˜ x i , ˜ z i ) , i ∈ { 0 , 1 ,0x 2 , z 2 = ϕ 2 ca ( ϕ 1 ca ( ϕ 0 ca ( x 0 , z 0 ))) ,0S sbt = φ p ( x 2 ) ,0其中 { 0 , 1 , 2 } 表示浅层、中间层和深层，{ ˜ x, ˜ z } 是 {x, z } 的前一层特征，{ ϕ ca , φ p }表示EoC-CA块和预测头。尽管在串行流水线中，预测结果S sbt 自然地包含了层次特征相关性的结果。05.2. SBT网络的四个版本0根据第4节的指导方针，我们的SBT的四个版本在表2中进行了描述。对于预训练，我们添加了额外的第四个模型阶段，并将网络步长修改为[26]。在跟踪的微调中，我们只使用了三阶段模型并替换了预测头。et.r-et.87570Tr Stark Stark SBT SBT SBT SBT SiamRPN++ ATOM DiMP SAMN AutoMatch Siam TransT s50 st101 lightsmall base large [22] [11] [3] [47] [57] [40] [5] [50] [50]0AO ↑ 51.8 55.6 61.1 61.5 65.2 66.0 67.1 67.2 68.8 60.2 66.8 69.9 70.40SR 50 ↑ 61.6 63.4 71.7 69.7 76.6 76.6 76.8 76.1 78.1 68.5 77.3 80.4 80.80SR 75 ↑ 32.5 40.2 49.2 52.2 54.3 57.1 60.9 61.2 64.1 53.0 59.2 63.6 64.70表3. 在GOT-10k [20]测试集上的比较。0Tr Stark SBT SBT SBT SBT SiamRPN++ ATOM DiMP AutoMatch DualTFR Siam TransT DTT s50 light smallbase large [22] [11] [3] [57] [46] [40] [5] [52] [50]0AUC ↑ 49.6 51.5 56.9 58.3 63.5 62.4 64.9 60.1 65.8 56.5 61.1 65.9 66.70Prec ↑ 49.1 50.5 56.7 59.9 66.5 60.0 69.0 - 69.7 57.1 63.8 70.0 71.10表4. 在LaSOT [13]测试集上的比较。0Stark Stark SBT SBT SBT SBT Ocean ATOM SiamMask SuperDiMP STM DET50 AlphaRef s50 st101 light smallbase large [59] [11] [42] [1] [30] [21] [51] [50] [50]0Acc. ↑ 0.693 0.462 0.624 0.492 0.751 0.679 0.754 0.761 0.763 0.742 0.750 0.752 0.7530Rob. ↑ 0.754 0.734 0.648 0.745 0.574 0.787 0.777 0.749 0.789 0.712 0.775 0.825 0.8340EAO ↑ 0.430 0.271 0.321 0.305 0.308 0.441 0.482 0.462 0.497 0.415 0.477 0.515 0.5290表5. 在VOT2020上的结果。我们使用AlphaRefine[51]为VOT基准生成遮罩。0DiMP SiamFC++ DualTFR TransT DTT STARK-s50 SBT-light SBT-small SBT-base SBT-large0AUC ↑ 74.0 75.4 80.1 81.4 79.6 80.3 68.2 78.2 81.9 82.20Norm.Prec ↑ 80.1 80.0 84.9 86.7 85.0 85.1 74.5 83.0 87.1 87.50表6. 在TrackingNet测试集上的比较。05.3. 适用于其他跟踪器的相关感知特征0我们用SBT替换了四个典型跟踪器中的骨干网络，它们被称为相关感知跟踪器。06. 实验0本节描述了实现细节，与最先进的跟踪器的比较以及相关感知跟踪器的改进。还提供了探索性研究。06.1. 实现细节0ImageNet预训练。我们首先在ImageNet[33]上对4阶段的SBT进行分类头的训练。与图像分类的网络类似，我们的模型结构和数据流是单流的。设置大部分遵循[35]和[43]。我们使用AdamW[27]优化器进行300个epoch的训练。输入图像的大小调整为224×224，并采用了[35]的数据增强和正则化策略。0在跟踪任务上进行微调。接下来，我们使用预训练的权重来初始化我们的跟踪模型。通过排列EoC-SA/EoC-CA块，该模型在结构上仍然是单流的，但在数据流上是双流的。对于每一对图像，我们计算分类的标准交叉熵损失以及回归的GIoU[32]损失和L1损失。我们使用8个Tesla V100GPU，并将批量大小设置为160。模板和搜索图像的尺寸分别设置为128×128和256×256。每个epoch的样本对数为50,000，总epoch数为600。学习率设置为10^-4。0对于头部，学习率为10^-5，其余部分为10^-5，并在第200和第400个epoch时衰减10倍。训练数据集包括LaSOT[13]、GOT-10K [19]、COCO2017 [25]和TrackingNet[29]的训练子集。其他设置与[5,46]相同。详细信息请参见补充材料。0盒级跟踪器参数(M) 计算量(G) SR 50 SR 75 AO0Sia0STARK-CA 23.6 8.7 (2.8 ↓) 77.8 (1.7 ↑) 62.7 (1.5 ↑) 68.3 (1.1 ↑)0像素级跟踪器参数(M) 计算量(G) J F 平均0STM-CA 25.1 - 72.8 (3.6 ↑) 75.6 (1.6 ↑) 74.2 (2.6 ↑)0表7. 在GOT-10k [19]和DAVIS17[31]基准上，CATs相对于基线的改进。J/F表示区域相似性/轮廓准确性的平均值。0图5. 在OTB-100 [45]和GOT-10k[19]测试集上的比较，以成功率图为指标。0测试。对于SBT/Siamese，我们采用固定模板作为[46]。对于DCF/STM，输入首先与SBT的模板融合。06.2. 与现有最先进跟踪器的比较 GOT-10K。GOT-10K[19]是一个大规模基准，训练和测试之间的对象类别没有重叠。我们遵循官方政策，没有额外的训练数据。如表3和图5所示，在公平的比较场景中，我们的基础版本和大版本优于其他性能最佳的跟踪器，如STARK-st101、TransT、TrSiam和DiMP，验证了对未见过的对象的强大泛化能力。我

下载后可阅读完整内容，剩余1页未读，立即下载