可变形连体注意力网络用于视觉目标跟踪

124 浏览量更新于2023-10-25 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

67280可变形连体注意力网络用于视觉目标跟踪0Yuechen Yu, Yilei Xiong, Weilin Huang † , Matthew R.Scott Malong Technologies0{ rogyu, yilxiong, whuang, mscott } @malong.com0摘要0基于连体网络的跟踪器在视觉目标跟踪上取得了出色的性能。然而，目标模板不能在线更新，并且在连体架构中独立计算目标模板和搜索图像的特征。在本文中，我们提出了一种称为SiamAttn的可变形连体注意力网络，通过引入一种新的连体注意力机制来计算可变形的自注意力和交叉注意力。自注意力通过空间注意力学习强大的上下文信息，并通过通道注意力有选择地强调通道间的相互依赖特征。交叉注意力能够聚合目标模板和搜索图像之间丰富的上下文相互依赖关系，提供一种自适应更新目标模板的隐式方式。此外，我们设计了一个区域细化模块，通过计算注意特征之间的深度交叉相关性，实现更准确的跟踪。我们在六个基准测试上进行了实验，结果显示我们的方法在VOT2016和2018上的EAO指标上超过了强基准SiamRPN++[24]，分别提高了0.464 → 0.537和0.415 → 0.470。01. 引言0视觉目标跟踪旨在在视频序列的每一帧中跟踪给定的目标对象。它是计算机视觉中的一个基本任务[17, 16,20]，并且具有许多实际应用，例如自动驾驶[23]，人机交互[28]，机器人感知等。最近的努力致力于提高视觉目标跟踪器的性能。然而，开发一个快速、准确和稳健的跟踪器仍然具有很高的挑战性，因为视频对象往往具有复杂背景上的大量变形、运动和遮挡[38, 22,10]。深度学习技术通过提供强大的0通讯作者：whuang@malong.com0SiamAttn SiamMask SiamRPN++ Dimp-500图1：我们的可变形连体注意力网络（SiamAttn）与三种最先进的跟踪器的跟踪结果。我们的结果更准确，对外观变化、复杂背景和近距离干扰物的鲁棒性更强。图4进一步展示了我们的连体注意力模块学到的强判别特征。0学习强大的深度特征的能力。例如，Bertinetto等人[1]首次引入了用于视觉跟踪的连体网络。从那时起，基于连体网络和目标检测框架构建的物体跟踪器已经达到了最先进的性能，例如SiamRPN [25]、SiamRPN++ [24]和SiamMask[36]。基于连体网络的跟踪器通过计算目标模板和搜索区域之间的互相关相似性，将视觉目标跟踪问题转化为匹配问题，从而将跟踪问题转化为通过计算最高的视觉相似性从图像区域中找到目标对象的问题[1, 25, 24, 36,44]。因此，它通过利用连体网络将跟踪问题转化为基于区域建议网络（RPN）[13]的检测框架，这是提高最近深度跟踪器性能的关键。基于连体网络的跟踪器完全离线训练，使用从视频中收集的大量帧对，因此67290目标模板无法在线更新。这使得在具有大幅度外观变化、显著变形或遮挡的情况下精确跟踪目标变得困难，这不可避免地增加了跟踪漂移的风险。此外，在连体架构中，目标对象和搜索图像的卷积特征是独立计算的，其中背景上下文信息在目标特征中完全丢失，但对于区分目标和近距离干扰物以及复杂背景非常重要。最近的工作尝试通过整合先前目标的特征来增强目标表示[41,14]，但忽略了背景中的判别上下文信息。相反，我们引入了一种新的连体注意力机制，通过在连体网络中计算交叉注意力，将丰富的背景上下文编码到目标表示中。最近，在[35,45]中引入了注意力机制来进行视觉目标跟踪，这启发了本工作。然而，在[35,45]中，目标模板和搜索图像的注意力和深度特征是分别计算的，这限制了连体架构的潜在性能。在本工作中，我们提出了一种称为SiamAttn的可变形连体注意力网络，以提高基于连体网络的跟踪器的特征学习能力。我们提出了一种新的可变形连体注意力机制，可以通过同时计算可变形的自注意力和交叉注意力来改善目标表示。自注意力通过空间注意力捕捉丰富的上下文信息，并通过通道注意力有选择地增强通道间的相互依赖特征。交叉注意力聚合目标模板和搜索图像之间的有意义的上下文相互依赖关系，自适应地编码到目标模板中以提高区分能力。我们设计了一个区域细化模块，通过计算注意特征之间的深度交叉相关性，进一步增强特征表示，从而通过生成对象的边界框和掩码实现更准确的跟踪。我们的方法在六个基准测试上取得了新的最先进结果，大幅超越了最近的强基准，如SiamRPN++ [24]和SiamMask[36]。例如，它在VOT2016和2018上将SiamRPN++的EAO指标分别提高了0.464→ 0.537和0.415 → 0.470，同时使用ResNet-50[15]保持实时运行速度。02. 相关工作0基于相关滤波器的跟踪器自MOSSE[3]以来已被广泛使用，由于其高效性和可扩展性。然而，跟踪对象可以在线连续改进，这不可避免地限制了这类跟踪器的表示能力。深度学习技术提供了一种学习强大深度表示的有力工具，最近的工作尝试将相关滤波器框架与这种特征学习能力结合起来，例如MDNet [31]、C-COT [8]、ECO[7]和GFS-DCF[40]。另一种趋势是在孪生网络上构建跟踪器，通过离线学习大量数据。Bertinetto等人首次引入了SiamFC进行视觉跟踪，通过使用孪生网络来衡量目标和搜索图像之间的相似性。然后，Li等人将区域提案网络（RPN）[13]应用于孪生网络中，称为SiamRPN。Zhu等人通过开发分心感知训练扩展了SiamRPN。最近，提出了SiamDW-RPN[43]和SiamRPN++[24]，使基于孪生的跟踪器能够探索更深的网络，而Wang等人开发了一个将实例分割融入跟踪的SiamMask。我们的工作与[11]的工作相关，其中开发了一个C-RPN来逐步改进目标的位置，但我们设计了一个只改进单个输出区域的新模块，这特别轻量级且可以集成到非常深的孪生网络中。然而，基于孪生的跟踪器可能会受到具有复杂背景的干扰物的影响。最近的工作尝试设计各种策略在线更新模板，以提高基于孪生的跟踪器的目标可辨识性，例如MLT[4]、UpdateNet [42]和GradNet[26]。另一种解决方案是通过深度网络扩展现有的在线判别框架进行端到端学习，例如ATOM [6]和DiMP[2]。此外，Zhu等人利用孪生网络中的运动信息来改善特征表示。最近，注意机制已广泛应用于各种任务。Hu等人提出了一个SENet，通过建模通道间关系来增强网络的表示能力。Wang等人在时空维度上开发了一个非局部操作来引导上下文信息的聚合。在[12]中，引入了自注意机制来获取语义分割的上下文信息。特别地，Wang等人提出了一个RASNet，通过为孪生跟踪器开发一个注意机制，但它仅利用了模板信息，这可能限制了其表示能力。为了更好地探索孪生网络中特征注意力的潜力，我们同时计算自注意力和跨分支注意力，并与可变形操作一起增强目标的判别表示。conv1conv2_xconv3_xconv4_xconv5_xconv1conv2_xconv3_xconv4_xconv5_xTemplate67300DSA模块孪生区域提案网络区域细化模块输入0搜索0127 x 127 x 30255 x 255 x 30边界框0面具0提案0提案0可变形孪生注意力模块0SiamRPN0SiamRPN0SiamRPN0Cls0Reg0深度交叉相关0特征融合块0特征融合块0可变形ROI池化0可变形ROI池化0边界框头部0面具头部0图2：提出的可变形孪生注意力网络（SiamAttn）的概述。它由一个可变形孪生注意力（DSA）模块、孪生区域提案网络（SiamRPN）和一个区域细化模块组成。最后三个阶段的特征被提取出来，然后由DSA模块调制。它生成两个流的注意力特征，这些特征被馈送到SiamRPN块中以预测单个跟踪区域，然后由细化模块进一步细化。03. 可变形Siamese注意力网络0我们描述了我们的可变形Siamese注意力网络（SiamAttn）的细节。如图2所示，它由三个主要组件组成：可变形Siamese注意力（DSA）模块，Siamese区域提议网络（Siamese RPN）和区域细化模块。0概述。我们使用一个五阶段的ResNet-50作为Siamese网络的骨干，随着层次越来越深，计算越来越高级的特征。在两个Siamese分支的最后三个阶段的特征可以通过提出的DSA模块进行调制和增强，生成两个流的注意力特征。然后，我们应用[24]中描述的三个SiameseRPN块到注意力特征上，生成密集的响应图，进一步通过分类头和边界框回归头进行处理，预测单个跟踪区域。最后，生成的跟踪区域通过区域细化模块进一步改进，该模块在两个流的注意力特征上计算深度交叉相关。相关特征进一步融合和增强，然后用于通过联合边界框回归和目标掩码预测来细化跟踪区域。03.1. 基于Siamese的跟踪器0Bertinetto等人[1]引入了用于视觉目标跟踪的Siamese网络，将视觉目标跟踪形式化为相似性学习问题。Siamese网络由一对具有共享参数φ的CNN分支组成。0用于将目标图像（z）和搜索图像（x）投影到一个共同的嵌入空间中，其中可以计算相似度度量g来衡量它们之间的相似度，g(φ(x),φ(z))。Li等人[25]应用了具有Siamese网络的区域提议网络（RPN）[13]进行视觉目标跟踪（称为SiamRPN），其中计算的特征φ(x)和φ(z)通过使用上通道交叉相关操作输入到RPN框架中。这生成密集的响应图，可以实现基于RPN的检测，从而导致显著的性能改进。0SiamRPN++。在[24]中，引入了SiamRPN++来改进SiamRPN的性能，通过探索更深的网络的能力。开发了一种空间感知的采样策略来解决Siamese跟踪器的一个关键限制，使其能够从更深的骨干网络（如ResNet-50）中受益。此外，SiamRPN++采用深度交叉相关来替代上通道交叉相关，从而减少参数数量并加速训练过程。此外，它聚合多层特征以更准确地预测目标。类似地，我们使用ResNet-50作为骨干网络，采用深度交叉相关和多层聚合策略，遵循SiamRPN++[24]的方法。但是，我们引入了一个新的Siamese注意力模块，增强了目标对象和搜索图像的学习判别表示，这是提高跟踪性能的关键，无论是在准确性还是鲁棒性方面。3x3 Deformable Convolution Layer3x3 Deformable Convolution Layer67310� × � × �0� × � × (� × �) � × � � × � � × � � × � � × � × (� × �)0� × � × �0� × � × � � × � × � � × � × � � × � × � � × � × � � × � × �0模板特征0搜索特征0自注意力模块0交叉注意力模块0� × � × �注意力模板特征0注意力搜索特征0重塑0交叉路径0交叉路径0矩阵乘法0逐元素求和0矩阵运算0矩阵运算0注意力图01x1卷积层0图3：提出的可变形孪生注意力（DSA）模块，包括两个子模块：自注意力子模块和交叉注意力子模块。它以模板特征和搜索特征作为输入，并计算相应的注意力特征。自注意力可以通过空间注意力学习强大的上下文信息，并且同时通过通道注意力有选择地强调相互依赖的通道特征。交叉注意力聚合了目标模板和搜索图像之间丰富的上下文相互依赖关系。03.2. 可变形孪生注意力模块0如图3所示，提出的DSA模块以从孪生网络计算得到的一对卷积特征作为输入，并通过应用孪生注意力机制输出调制特征。DSA模块包括两个子模块：自注意力子模块和交叉注意力子模块。我们将目标和搜索图像的特征图分别表示为Z和X，其特征形状为C×h×w和C×H×W。自注意力。受[12]的启发，我们的自注意力子模块关注两个方面，即通道和特殊位置。与分类或检测任务不同，视觉目标跟踪是一个无类别的任务，对象类别在整个跟踪过程中是固定的。正如在[24]中观察到的，高级卷积特征的每个通道图通常对应于一个特定的对象类别。平等地处理所有通道的特征将阻碍表示能力。同样，受感受野的限制，地图上每个空间位置计算的特征只能捕捉来自局部补丁的信息。因此，从整个图像中学习全局上下文是至关重要的。具体来说，自注意力在目标分支和搜索分支上分别计算，并且在每个分支上都计算通道自注意力和空间自注意力。以空间自注意力为例。0假设输入特征为X∈RC×H×W，我们首先在X上分别应用两个具有1×1卷积核的独立卷积层，以生成查询特征Q和键特征K，其中Q，K∈RC′×H×W，C′=108C是减少的通道数。然后将这两个特征重塑为¯Q，¯K∈RC′×N，其中N=H×W。我们可以通过矩阵乘法和列softmax操作生成空间自注意力图Ass∈RN×N，如下所示：0Ass=softmax col(¯QT¯K)∈RN×N.（1）0同时，对特征X应用一个带有重塑操作的1×1卷积层，以生成值特征¯V∈RC×N，这些特征与注意力图相乘，然后添加到重塑特征¯X∈RC×N中0使用残差连接，0¯Xss=α¯VAss+¯X∈RC×N.（2）0其中α是一个标量参数。然后将输出重新调整为原始大小，即Xss∈RC×H×W。我们可以以类似的方式计算通道自注意力Asc和通道注意力特征Xsc。请注意，在计算通道自注意力和相应的注意力特征时，查询、键和值特征是直接从孪生网络计算得到的原始卷积特征，而没有实现¯Xc = γAc ¯X + ¯X ∈ RC×N.(4)67320图4：置信度图的可视化。第一列：搜索图像，第二列：没有我们的DSA模块的置信度图，第三列：带有DSA模块的置信度图，该模块增强了计算注意力特征中的目标-背景区分能力。01×1卷积。最终的自注意特征Xs通过简单地将空间和通道注意特征进行元素级求和来生成。0交叉注意。Siamese网络通常在最后阶段进行预测，而来自两个分支的特征是分别计算的，但可以互补。即使在跟踪过程中出现多个对象，甚至有遮挡，搜索分支学习目标信息非常重要，这使得它能够生成更具辨别性的表示，有助于更准确地识别目标。同时，当编码搜索图像的上下文信息时，目标表示可以更有意义。为此，我们提出了一个交叉注意子模块，从两个Siamese分支中学习这种相互信息，从而使两个分支更加协同工作。具体来说，我们使用Z∈RC×h×w和X∈RC×H×W来表示模板特征和搜索特征。以搜索分支为例，我们首先将目标特征Z重塑为¯Z∈RC×n，其中n=h×w。然后，我们通过执行类似的操作，从目标分支计算交叉注意，如通道自注意中所述，0其中对计算得到的矩阵进行逐行softmax。然后从目标计算得到的交叉注意0Ac = softmax row (¯Z¯ZT)∈RC×C. (3)0¯Xc = γAc¯X + ¯X∈RC×N. (4)0分支被编码为搜索特征X，0其中γ是一个标量参数，重塑后的特征Xc∈RC×H×W是子模块的输出。最后，自注意特征Xs和交叉注意特征Xc通过逐元素求和简单地组合在一起，生成搜索图像的注意特征。目标图像的注意特征可以以类似的方式计算。0可变形注意。CNN中的构建单元，如卷积或池化单元，通常具有固定的几何结构，假设对象是刚性的。对于目标跟踪，建模复杂的几何变换非常重要，因为跟踪对象通常由于视角、姿态、遮挡等各种因素而产生大的变形。所提出的注意机制在一定程度上可以处理这些挑战。我们进一步引入可变形注意来增强处理这种几何变换的能力。可变形注意可以在可变位置而不是固定位置对输入特征图进行采样，使其关注具有变形的对象的内容。因此，它特别适用于目标跟踪，其中目标的视觉外观可能随时间发生显著变化。具体来说，我们进一步应用了3×3的可变形卷积[5]到计算得到的注意特征上，生成更准确、具有辨别性和鲁棒性的最终注意特征。如图4所示，使用我们的DSA模块，注意特征的置信度图更准确地聚焦于感兴趣的对象，使得对象对干扰物和背景更具辨别性。0区域提议。DSA模块为目标图像和搜索图像输出Siamese注意力特征。然后，我们在注意力特征上应用三个SiameseRPN块，生成一组目标提议，包括相应的边界框和类别分数，如图2所示。具体来说，SiameseRPN块是多个全卷积层、深度交叉相关、回归头和分类头的组合，如[25]中所述。它接受从Siamese网络的两个分支计算得到的卷积特征对，并输出密集的预测图。根据[24]的方法，我们对最后三个阶段计算得到的Siamese特征应用三个SiameseRPN块，生成三个预测图，然后通过加权求和进一步组合。合并图的每个空间位置预测一组区域提议，对应于预定义的锚点。然后选择具有最高分类分数的预测提议作为输出的跟踪区域。L =Lrpn-cls + λ1Lrpn-reg+λ2Lreﬁne-box + λ3Lreﬁne-mask.(5)673303.3. 区域细化模块0我们进一步开发了一个区域细化模块，以提高预测目标区域的定位精度。我们首先在多个阶段之间应用深度交叉相关，生成多个相关图。然后将相关图输入到融合块中，其中不同尺寸的特征图在空间和通道域中对齐，例如通过上采样或下采样，使用1×1卷积。然后对齐的特征进一步融合（使用逐元素求和）以预测目标的边界框和掩码。此外，我们还执行两个附加操作：（1）将前两个阶段的卷积特征组合到融合特征中，为掩码预测编码更丰富的局部详细信息；（2）应用可变形RoI池化[5]更准确地计算目标特征。边界框回归和掩码预测通常需要不同级别的卷积特征。因此，我们为掩码预测生成空间分辨率为64×64的卷积特征，为边界框回归生成空间分辨率为25×25的卷积特征。注意，由于视觉目标跟踪是一个与类别无关的任务，因此不应用分类头。边界框头的输入分辨率为4×4。通过使用具有512维的两个全连接层，边界框头预测一个4元组t = (tx, ty, tw,th)。类似地，掩码预测头的输入具有16×16的空间分辨率。通过使用四个卷积层和一个反卷积层，掩码头预测一个类别无关的二进制掩码，其大小为64×64，用于跟踪对象。与ATOM [6]和SiamMask[36]密集预测边界框和掩码相比，我们的细化模块使用轻量级卷积头为单个跟踪区域预测边界框和掩码，计算效率更高。03.4. 训练损失0我们的模型以端到端的方式进行训练，其中训练损失是来自Siamese RPN和区域细化模块的多个函数的加权组合：0其中L rpn-cls和L rpn-reg分别指SiameseRPN中的分类损失和回归损失。我们分别采用负对数似然损失和平滑L1损失。类似地，L re�ne-box和Lre�ne-mask表示区域细化模块中的边界框回归的平滑L1损失和掩码分割的二元交叉熵损失。权重参数λ 1 ，λ 2和λ 3用于平衡不同的任务，在我们的实现中经验性地设置为0.2、0.2和0.1。04. 实验和结果0我们在六个基准数据库上进行了广泛的实验：OTB-2015[38]、UAV123 [29]、VOT2016 [21]、VOT2018[22]、LaSOT [10]和TrackingNet[30]数据集，并进行了消融研究以验证每个提出的组件的效果。04.1. 数据集0OTB-2015[38]。OTB-2015是最常用的视觉目标跟踪基准之一。它有100个完全注释的视频序列，使用两个评估指标：精度得分和成功曲线下的面积（AUC）。精度得分是在跟踪结果的中心和真实值之间的距离小于20个像素的帧的百分比。成功曲线显示了在不同阈值下成功跟踪帧的比例。VOT2016[21]和VOT2018[22]。VOT2016和VOT2018是广泛使用的视觉目标跟踪基准。VOT2016包含60个具有各种挑战因素的序列，而VOT2018具有与VOT2016不同的10个序列。这两个数据集都使用旋转边界框进行注释，并应用基于重置的方法进行评估。对于这两个基准，跟踪器以准确性（A）、鲁棒性（R）和预期平均重叠（EAO）进行衡量。UAV123[29]。UAV123包含从低空无人机拍摄的123个序列。与其他跟踪数据集不同，UAV123的视角是航空的，要跟踪的目标通常很小。LaSOT[10]。LaSOT是一个大规模数据集，总共有1400个序列，测试集中有280个序列。提供了高质量的密集注释，在LaSOT中变形和遮挡非常常见。LaSOT的平均序列长度为2500帧，展示了评估跟踪器的长期性能。TrackingNet[30]。TrackingNet包含30000个序列，拥有1400万个密集注释，在测试集中有511个序列。它涵盖了各种对象类别和场景，要求跟踪器具有判别和生成能力。04.2. 实现细节0我们使用在ImageNet [9]上预训练的ResNet-50作为骨干网络，然后在COCO[27]、YouTube-VOS [39]、La-SOT [10]和TrackingNet[30]的训练集上进行微调。我们采用随机梯度下降（SGD）进行优化，动量为0.9，权重衰减为10 − 5。按照SiamFC [1]的方法，我们使用大小为127 ×127的样本图像和大小为255 ×255的搜索图像进行训练和测试。我们的模型训练了20个epoch。按照SiamRPN++[24]的方法，我们使用了10 − 3的热身学习率。05101520253035404550Location error threshold0.00.10.20.30.40.50.60.70.80.9PrecisionPrecision plots of OPE on OTB-2015[0.926] Ours[0.922] SiamDW-RPN[0.914] SiamRPN++[0.909] MDNet[0.899] Dimp-50[0.880] DaSiamRPN[0.879] ATOM[0.861] GradNet[0.851] SiamRPN[0.772] SiamFC0.00.10.20.30.40.50.60.70.80.91.0Overlap threshold0.00.10.20.30.40.50.60.70.80.91.0Success rateSuccess plots of OPE on OTB-2015[0.712] Ours[0.696] SiamRPN++[0.684] Dimp-50[0.678] MDNet[0.673] SiamDW-RPN[0.671] ATOM[0.658] DaSiamRPN[0.642] RASNet[0.639] GradNet[0.637] SiamRPN[0.587] SiamFCO↑SiamFC [1]0.53 0.46 0.235 0.50 0.59 0.188MDNet [31]0.54 0.34 0.257---C-COT [8]0.54 0.24 0.331 0.49 0.32 0.267FlowTrack [45]0.58 0.24 0.334---SiamRPN [25]0.56 0.26 0.344---C-RPN [11]0.59-0.363---ECO [7]0.55 0.20 0.375 0.48 0.28 0.276DaSiamRPN [44]0.61 0.22 0.411 0.59 0.28 0.383SPM [34]0.62 0.21 0.434---SiamMask-Opt [36] 0.67 0.23 0.442 0.64 0.30 0.387UpdateNet [42]0.61 0.21 0.481--0.393GFS-DCF [40]---0.51 0.14 0.397ATOM [6]---0.59 0.20 0.401SiamRPN++ [24]0.64 0.20 0.464 0.60 0.23 0.415Dimp-50 [2]---0.60 0.15 0.440AUC 0.47 0.5250.5270.5860.6130.6440.6540.65067340(b) 成功率曲线图5:在OTB-2015数据集上与最先进方法的成功率和精确度曲线比较。0在前5个epoch中，学习率从5 × 10 −3指数衰减到最后15个epoch的5 × 10 −4。前10个epoch冻结骨干网络的权重，然后最后10个epoch对整个网络进行端到端的训练。特别地，骨干网络的学习率比其他部分小20倍。批量大小设置为12。我们的锚框有5个宽高比，[0 . 33 , 0 . 5 , 1 , 2 ,3]。在Siamese-RPN模块中，当锚框的IoU > 0 .6时，将其标记为正样本；当IoU < 0 .3时，将其标记为负样本；介于两者之间的IoU重叠的其他区域将被忽略。此外，我们从每个图像中采样16个IoU > 0 .5的区域来训练我们的区域细化模块。对于骨干网络，我们使用扩张卷积来增加感受野，将这两个块的有效步长从16或32像素减小到8像素。我们还通过1 ×1卷积层将骨干网络的最后三个块的特征通道数减少到256。在推理过程中，应用余弦窗惩罚、尺度变化惩罚和线性插值更新策略[25]。只有一个由SiameseRPN模块预测的得分最高的区域被输入到我们的区域细化模块中。我们的方法使用PyTorch实现，并使用NVIDIAGeForce RTX 2080Ti GPU。04.3. 与最先进方法的比较0在OTB-2015上的结果如图5所示。我们的跟踪器在这个广泛研究的数据集上取得了最好的AUC和精确度得分。具体来说，我们的精确度为0.712，AUC为0.926，分别比SiamRPN++[24]高出1.6%和1.2%。在VOT2016和VOT2018上的结果如表1所示。我们的跟踪器在VOT2016上达到了0.68的准确度，0.14的鲁棒性和0.537的EAO，在所有指标下都优于最先进的方法。与最近的SiamRPN++ [24]和SiamMask[36]相比，我们的方法在EAO上分别提高了7.3%和9.5%。0跟踪器 VOT2016 VOT20180我们 0.68 0.14 0.537 0.63 0.16 0.4700表1:在VOT2016和VOT2018上的结果，包括准确度（A）、鲁棒性（R）和预期平均重叠（EAO）。0ARCF ECO SiamRPN DaSiam- SiamRPN++ ATOM Dimp-50 我们[19] [7] [25] RPN [44] [24] [6] [2]0Pr 0.67 0.741 0.748 0.796 0.807 - - 0.8450表2：UAV123上的结果。0在VOT2018上，我们的方法在具有竞争力的准确性和鲁棒性的同时，实现了最高的EAO得分。SiamMask-Opt[36]通过从二进制掩码中找到最佳旋转矩形来获得最佳准确性，但这显著增加了计算成本，并将其fps降低到5。我们的方法仅使用从预测掩码中得到的单个旋转最小边界矩形，其准确性可达到0.63，但在EAO上有很大的改进，从0.387→0.470，实时运行速度为33fps。与SiamRPN++和最近的领先跟踪器Dimp-50[2]相比，我们的跟踪器在EAO方面分别获得了5.5%和3.0%的明显性能提升，证明了所提出的Siameseattention和细化模块的效率。在UAV123上。如表2所示，SiamAttn获得了最佳精度，将最接近的SiamRPN++从0.807提高到0.845，同时具有与未报告精度得分的DiMP-50相当的AUC。在LaSOT上。表3显示了在具有长序列的LaSOT上的比较结果。我们的方法在归一化精度上取得了最佳结果，相比SiamRPN++大幅提高了56.9%→64.8%（成功率从49.5%→56.0%）。再次，我们的方法在成功率上与DiMP-50具有可比较的得分，同时获得了更高的归一化精度。在TrackingNet上。我们进一步评估了SiamAttn在大规模TrackingNet上的性能。如表4所示，它在所有先前的方法上都表现出色。与最近的DiMP-50相比，SiamAttn在成功率上提高了1.2%，在归一化精度上提高了1.6%，表明其能够处理复杂场景中的多样化目标。We study the impact of individual components inSiamAttn, and conduct ablation study on VOT2016.67350MLT MDNet DaSiam-Update-SiamRPN++ ATOM Dimp-50 Ours[4] [31] RPN [44] Net [42] [24] [6] [2]0成功率(%) 34.5 39.7 41.5 47.5 49.5 51.5 56.9 56.00Norm.Pr(%) - 46.0 49.6 56.0 56.9 57.6 64.3 64.80表3：LaSOT上的结果。0GFS-DaSiam-Update-ATOM SPM SiamRPN++ Dimp-50 Ours DCF[40] RPN [44] Net [42] [6] [34] [24] [2]0成功率(%) 60.9 63.8 67.7 70.3 71.2 73.3 74.0 75.20Norm.Pr(%) 71.2 73.3 75.2 77.1 77.8 80.0 80.1 81.70表4：TrackingNet上的结果。0方法 A ↑ R ↓ EAO ↑ ∆ EAO0基线 0.64 0.20 0.464 - 基线+ML 0.66 0.21 0.477 +1.3%基线+RR 0.67 0.19 0.486 +2.2% 基线+RR+SA 0.66 0.160.511 +4.7% 基线+RR+CA 0.67 0.15 0.513 +4.9%0基线+RR+CA+SA（我们的方法）0.68 0.14 0.537 +7.3%0表5：VOT2016上的消融研究。SiamRPN++是基线。ML：掩码学习，RR：区域细化（包括ML），SA：自注意力，CA：交叉注意力。0我们对SiamAttn中的各个组件的影响进行了研究，并在VOT2016上进行了消融研究。04.4.消融研究0模型架构。我们使用SiamRPN++[24]作为基线。如表5所示，SiamRPN++的EAO为0.464。通过向SiamRPN++添加掩码学习层，EAO可以提高到0.477。通过我们的区域细化模块，EAO得分进一步提高了+2.2%。与基线相比，准确性得分从0.64提高到0.67，具有可比较的鲁棒性。我们的Siameseattention包括自注意力和交叉注意力，每个注意力都可以进一步提高EAO分别+4.7%或+4.9%。这表明，所提出的交叉注意力对跟踪结果至关重要，甚至比自注意力的影响更显著。同时探索自注意力和交叉注意力使得我们的方法不仅鲁棒，而且更准确。这导致了高达0.537的EAO，大幅超过基线7.3%。0可变形层。在这项研究中，我们通过将可变形操作替换为常规卷积来评估其影响。如表6所示，这导致了轻微的性能下降，例如，使用可变形卷积的EAO从0.537降至0.520，使用可变形池化的EAO从0.537降至0.531。0可变形卷积可变形池化 A ↑ R ↓ EAO ↑0� � 0.67 0.15 0.516 � � 0.67 0.15 0.520 � � 0.68 0.150.531 � � 0.68 0.14 0.5370表6：可变形层对VOT2016的影响。0方法训练集 A ↑ R ↓ EAO ↑0SiamAttn VID，YTB-BB，COCO，DET，YTB-VOS 0.68 0.15 0.525 SiamAttnCOCO，YTB-VOS，LaSOT，TrackingNet 0.68 0.14 0.5370表7：使用列出的训练集在VOT2016上的结果。0可变形池化。通过移除所有可变形层，我们的模型仍然可以达到0.516的EAO，相比之下，SiamRPN++的EAO为0.464，这表明提出的孪生注意力和细化模块是性能提升的主要贡献者。0在训练数据上。在这项研究中，我们调查了使用不同训练集进行训练的影响。我们目前的结果是通过使用最近的LaSOT[10]和TrackingNet[30]的多个训练集的组合来实现的，其中包括COCO[27]和YouTube-VOS[39]，主要遵循[6]并额外使用了YouTube-VOS[39]提供的掩码注释。我们还报告了[36]应用的不同训练组合的结果，包括COCO [27]，YouTube-VOS[39]，YouTube-BoundingBox[32]，ImageNet-VID和ImageNet-Det[33]。结果如表7所示。使用最近的大规模跟踪数据集可以提高VOT2016上的结果，而我们的方法仍然可以使用不同的训练集选择达到最先进的性能。0速度分析。在OTB-2015、UAV、LaSOT和TrackingNet基准测试中，我们的模型预测轴对齐边界框，不使用掩码头。它可以达到45帧/秒的推理速度。在VOT基准测试中，我们的模型从预测的掩码生成旋转框，将推理速度降低到33帧/秒。05. 结论0我们提出了新的可变形孪生注意力网络用于视觉目标跟踪。我们引入了一个包含自注意力和交叉注意力的可变形孪生注意力机制。新的孪生注意力可以大大增强目标的可辨识性，同时提高对大尺度外观变化、复杂背景和干扰物的鲁棒性。此外，我们设计了一个区域细化模块来进一步提高跟踪的准确性。我们在六个基准测试上进行了大量实验，我们的方法以实时的运行速度获得了新的最先进结果。67360参考文献0[1] Luca Bertinetto, Jack Valmadre, Joao F Henriques, AndreaVedaldi, and Philip HS Torr. Fully-convolutional siamesenetworks for object tracking. In ECCV, 2016. [2] Goutam Bhat,Martin Danelljan, Luc Van Gool, and Radu Timofte. Learningdiscriminative model prediction for tracking. In ICCV, 2019.[3] David S Bolme, J Ross Beveridge, Bruce A Draper, and YuiMan Lui. Visual object tracking using adaptive correlationfilters. In CVPR, 2010. [4] Janghoon Choi, Junseok Kwon, andKyoung Mu Lee. Deep meta learning for real-timetarget-aware visual tracking. In ICCV, 2019. [5] Jifeng Dai,Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, andYichen Wei. Deformable convolutional networks. In ICCV,2017. [6] Martin Danelljan, Goutam Bhat, Fahad ShahbazKhan, and Michael Felsberg. Atom: Accurate tracking byoverlap maximization. In CVPR, 2019. [7] Martin Danelljan,Goutam Bhat, Fahad Shahbaz Khan, and Michael Felsberg.Eco: Efficient convolution operators for tracking. In CVPR,2017. [8] Martin Danelljan, Andreas Robinson, Fahad

下载后可阅读完整内容，剩余1页未读，立即下载