视觉目标跟踪中基于示例变换器的实时跟踪器：E.T.Track

168 浏览量更新于2023-10-16 收藏 737KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1571STARKST 50运输车TrDiMPTrSiamE.T.Track（我们的）+7%LT-MobileSiamFCECO-hcSCT4fDSST××基于示例变换器的PhilippeBlatter，1 Menelaos Kanakis，1Martin Danelljan1Luc VanGool1，21ETHZürich 2KULeuv en摘要更复杂和更强大的神经网络模型的设计大大推进了视觉目标跟踪的最新技术。这些进步可以归因于更深层次的网络，或引入新的构建模块，如变压器。然而，在追求增加的跟踪性能时，运行时间常常受到阻碍。此外，有效的跟踪架构已经得到了令人惊讶的关注。在本文中，我们介绍了示例Transformer，一个Transformer模块，利用一个单一的实例级的注意力层的实时视觉对象跟踪。E.T.Track是我们的视觉跟踪器，它包含Exemplar Transformer模块，在CPU上以47FPS运行。这比其他基于变压器的模型快8倍。与可以在标准 CPU 上实时运行的轻量级跟踪器相比，E.T.Track在LaSOT [16]、OTB-100 [52]、NFS [27]、TrackingNet [36]和VOT上的性能始终优于所有其他方法。ST2020 [29]数据集。代码和模型可在https://github.com/pblatter/ettrack网站。1. 介绍在视频序列中估计目标的运动轨迹，称为视觉跟踪，是计算机视觉的基本问题之一。深度神经网络通过更深的网络[4]、更精确的边界框[31]或引入新模块（如变压器[53，8，48]）显著提高了视觉跟踪方法的性能。然而，这些进步往往以更昂贵的模型为代价。虽然对诸如自动驾驶、机器人和人机接口的应用上的实时视觉跟踪的需求正在增加，但是高效的深度跟踪架构却出人意料地很少受到关注。这就需要视觉跟踪器，虽然准确和鲁棒，但能够在有限硬件的硬计算约束下实时操作。Please. Blatter和M.Kanakis对这项工作做出了同样的非实时实时7060504030201000 10 20 30 40 50CPU上的跟踪速度[FPS]图1：在LaSOT与LaSOT的AUC评分（成功率，%）方面的跟踪器性能比较FPS中的跟踪速度标准CPU我们的Exemplar Transformer Tracker（E.T.Track）优于所有其他实时跟踪器。它的AUC评分比LT-Mobile高7%[54]。此外，与以前的基于transformer的跟踪器相比，我们的方法在CPU上实现了高达8个为机器翻译提出的Transformers [45]也在许多基于视觉的任务中表现出优异的性能，包括图像[3]和视频[51]分类、对象检测[7]，甚至多任务学习[6]。视觉跟踪领域也观察到类似的性能优势[53，42，48]。虽然变压器已经使跟踪器能够提高准确性和鲁棒性，但是它们严重地遭受高计算成本，导致减少的运行时间操作，如图1所示。1.一、在这项工作中，我们着手寻找一个Transformer模块，能够提高跟踪精度和鲁棒性，同时不影响运行时间。在这项工作中，我们提出了示例注意，一个单一的实例级注意层的视觉跟踪。我们的注意力模块利用特定领域的知识，以提高证明跟踪器的性能，同时保持一个可比较的运行时。具体来说，我们建立在两个假设之上。首先，一个全局查询值被充分描述，LaSOT成功率[%]1572跟踪单个对象时有效。其次，一小组样本值可以充当数据集的样本之间的共享存储器。因此，我们的受约束的实例级示例注意捕获更明确的信息，对目标对象，相比传统的注意模块。我们通过将我们的Exemplar Transformer层集成到Siamese 跟踪架构中来开发 Exemplar TransformerTracker（E.T.Track）。具体来说，我们将跟踪器头中的卷积层替换为 Exemplar Transformer 层。来自Exemplar Transformer层的额外表达式显著提高了基于常规卷积层的模型的性能。增加的性能增益在运行时的成本微不足道，如图所示。当将其与移动LightTrack[54]（LT-Mobile）进行比较时，其结果为1。我们进一步比较我们的Transformer层的单一对象跟踪其他通用的Transformer层。我们发现，Exemplar Transformer始终优于竞争对手的方法，证明了明确设计的视觉跟踪任务的注意层的好处。我们在六个基准数据集上验证了我们的方法：La-SOT [16]，OTB-100 [52]，UAV-123 [35]，NFS [27]，Track-2019年12月29日，《明报》（2019年12月29日）。我们建议的追踪器运行在46。8帧每秒（FPS）的CPU上，而设置- ting一个新的国家的最先进的实时CPU跟踪器实现59。挑战性LaSOT数据集的1%总的来说，我们的贡献是：• 我们引入了Exemplar Transformer，这是一个基于单个实例级注意力层（称为Exemplar Attention）的Transformer层。• 我们开发了一个基于变压器的跟踪架构的基础上，我们的Exemplar变压器层。• 我们的跟踪器在CPU上实时运行，同时在5个基准测试中优于以前的实时跟踪器。2. 相关工作Siamese Trackers近年来，Siamese Trackers由于其性能和简单性而获得了显著的普及基于Siamese的跟踪框架将视觉对象跟踪公式化为模板匹配问题，利用搜索和图像块之间的互相关。Bertinetto等人的原始工作。介绍了SiamFC [4]，这是第一个将特征相关性纳入Siamese框架的模型。Li等[31]引入了区域建议网络，以提高效率并获得更准确的边界框。Siamese跟踪器方面的最新进展包括使用ad-bandwidth分支[49]，用于更精确边界框回归的细化模块[55]以及各种模型更新机制[17，18，56，58]。不像以前的暹罗跟踪器，我们提出了Examplar Transformer模块，它被纳入预测头，并提高了跟踪器Transformers inTracking Transformer [45]作为一个模块介绍，通过使每个元素都能够关注所有其他元素，来改善神经机器翻译中的远程依赖关系的学习在计算机视觉中，变压器已用于图像[3]和视频[51]分类，对象检测[7]，甚至是密集预测任务的多任务学习[6]。与我们的工作更相关的是，变压器也被用来提高视觉跟踪器的性能。STARK [53]利用变换器对目标对象和搜索区域之间的全局时空特征依赖性进行建模。这除了常规的搜索和模板修补之外，还通过将动态更新的模板集成到编码器中来实现。 [48] 介绍了一种Transformer架构，它通过额外利用时间上下文来改进标准的Siamese类流水线编码器模型通过利用自我注意块来相互加强多个模板特征。在解码器中，模板和搜索分支由交叉注意块桥接，以便传播时间上下文。[8]还改进了基于Siamese的跟踪器，用基于Transformer的特征融合网络代替常规的相关操作。基于transformer的融合模型聚合全局信息，为标准线性相关操作提供了一种更好的选择。另一方面， ToMP [34] 利用Transformer来预测卷积核的权重，以便在搜索区域和模板块中定位目标在这项工作中，我们还设计了Transformer架构的跟踪。与以前的跟踪转换器不同，Exemplar Transformer是轻量级的，可以在实时运行的计算有限的硬件中使用。高效的跟踪架构随着自动驾驶和人机界面等应用中对实时视觉跟踪需求的增加，高效的深度跟踪架构至关重要。然而，令人惊讶的是，很少有人关注可以在计算有限的硬件上运行的高效跟踪器。KCF [21]和fDSST[13]采用手工制作的功能来实现CPU上的实时操作。虽然快速，但与更新和更复杂的方法相比，它们对手工制作特征的依赖显著阻碍了它们的性能。相比之下，我们提出了一个高效的深度跟踪器，它在相当的运行时间内运行，但与更昂贵的深度跟踪器的性能不相上下。与我们的工作更相关的是，LightTrack [54]采用神经架构搜索（NAS）来寻找轻量级和高效的暹罗跟踪架构。相反，我们提出了一个有效的Transformer层，可以补充现有的架构进步1573∈··联系我们√kO∈∈值V∈×R表示输入序列的投影√d前建筑[15，37，7，51]导致了德-A（x）=图2：我们的示例注意力模块（右）和标准缩放点积注意力模块的比较[45]。匹配块由相同的颜色指示线的粗细表示张量的大小.例如LightTrack。具体来说，我们的Transformer层可以作为卷积层的替代品，提高性能，对运行时间的影响可以忽略不计。介绍了原始的Transformer的Vaswani等人。[45]，随后是我们的示例性Transformer配方。秒3.2介绍我们的E.T.Track。具体来说，它首先概述了整体架构，并提出了如何在跟踪器内利用示例3.1. 示例性变压器标准Transformer为机器翻译引入的Transformer [45]接收一维输入序列xRN ×D，具有N维特征向量D.输入序列由一系列定义为T（x）= f（A（x）+x）。（一）函数f（）是一个轻量级的前馈网络（FFN），它独立地投射每个特征向量。函数A（）表示在整个序列中作用的自我注意层。具体来说，作者使用了“标度点积注意力”，定义为：fQ（x）fK（x）. V（x）=V（x）K高效的变压器对变压器的巨大兴趣softmaxQ K第五章各种有效的模型变体可以分为4个主要类别[44]。低秩/核方法假设并利用恒定fQ（x） fK（x）. V（x）=V（x）（二）自我注意矩阵[26，9]。内存/下采样方法学习一个边存储器模块同时访问多个令牌，或者简单地减少序列=softmax（xWQ）（WKx）Dc`onstaxnt（xWx `V长度[43，59，33]。固定/分解/随机模式限制了自我注意力的视野，例如使用块模式[40，59，33，38]。可学习模式取代了固定模式，如在标准变压器，与动态模式[47，50，28]。我们的工作落在了内存/下采样和固定/分解/随机模式。与上述旨在设计通用注意力层的工作不同，示例注意力是通过利用特定领域的知识来设计用于单目标视觉跟踪的任务。3. 利用变压器进行高效跟踪当部署在计算有限的设备上时，在性能良好的对象跟踪器和落在实时包络中的运行时速度之间取得平衡在本节中，我们将介绍Exem- plar Transformer，这是一个基于单实例级注意力层的Transformer架构，用于单对象跟踪。虽然轻量级，但我们的 ExemplarTransformer显著缩小了与基于计算开销的transformer跟踪器的性能差距[53，48，8]。秒3.1第一查询QRN×DQK，按键KRN×DQK，以及N DV序列，而k是归一化常数。自我因此，注意力计算所有表示之间的相似性得分，线性地组合特征表示，并且相应地调整等式中的输入表示x1.一、 Eq.的计算复杂度2是（N2D），I.E.它与输入序列的长度成二次比例。Exemplar Atten-tion 我们现在介绍 Exemplar Atten-tion，它是Exemplar Transformer模块的关键构建块。我们假设，虽然所有特征之间的直接联系在机器翻译和一些视觉任务中是必不可少的，但当关注被跟踪的单个对象时，这种设计选择可能是次优的。我们在下面描述了各个组件所需的修改。标准查询函数fQ将特征图的每个空间位置独立地投影到查询空间。与每个特征表示特定单词或标记的机器翻译不同，1574×∈·∈×∈×SQ√k√softmaxDKKWV视觉任务通常对应于相同的对象。因此，我们聚集特征图XRH×W ×D的信息，其中H W表示空间维度。具体来说，我们使用一个2D自适应平均池- ING层与输出空间维度S S，其次是一个平坦化操作。该操作表示为S（X），将输出空间维度减小到S2。然后，X的压缩表示被投影到查询空间，如标准的自注意公式中那样。Q=（X）W∈RS2×DQK（3）我们假设，对于单实例跟踪，一个全局查询值足以识别感兴趣的对象，同时也降低了模块的计算复杂度。在这种情况下，我们设置S= 1。这种设计选择进一步得到了分类架构 [20] 中全局池的成功以及基于Transformer的对象检测[7]的支持。键和值，如等式中所示2是输入的每个空间位置的线性投影自我关注层则能够学习空间相关性，代价是每个特征都要关注所有其他特征。这消除了卷积层中内置的空间偏差。我们不需要细粒度的特征图，也不依赖于样本内的关系，而是学习一小组样本表示。范例表示封装数据集信息，以便在给定全局查询令牌和捕获的信息的情况下动态地适配注意层。为此，我们优化了一个小的例子 K=WKRE×DQK，不像方程中的公式。2、与输入无关相似度矩阵因此将全局查询Eq.3、示范。然后，我们的注意力层通过用卷积运算替换投影f V（），在局部级别上细化输入表示V=WV②X∈RE×H×W×DV，（4）其中WVRE×Z×Z可以是任何空间维度Z，而样本的数量E可以任意选择我们使用E= 4在我们的实验中，这是显着小于尺寸H W，保持相当的运行时间。因此，我们的有效示例注意力被定义为，图3：E.T.Track-一个在追踪器头中包含ExemplarTransformers的连体追踪管道示例注意力虽然受到了标度点积注意力的启发，但在概念上却有很大的不同.在自我注意（2）中，f{Q，K，V}充当到其相应特征空间的投影，其中相似性函数学习所有空间位置之间的关系换句话说，自我注意力仅仅依赖于样本内关系，因此需要细粒度的表示。fQ（x）fK（·）相反，Exemplar Attention层强制执行attention-. V（x）=V通过使用全局查询来A（x）=softmax（S（X）WQ）（WK）Dc`onstaxnt（WVx②`X），（五）token. 全局查询封装了对象是从输入图像动态生成的，并使用卷积运算在特征图上局部应用为了能够使用单个查询令牌，我们执行-但也可以写为，Σ。（S（X）WQ）（WT）利用数据集信息形成范例表示a-通过端到端优化，消除了样本内相似性函数的需要一个比较是-两种注意力机制之间的关系如图所示二、A（x）=②X.（六）1575重叠精度[%]×3.2. E.T.轨道架构在本节中，我们将介绍基本跟踪architec-90在我们的工作中使用的真实性示例转换-80ers可以集成到任何跟踪架构中，我们评估其对轻量级暹罗追踪器的功效一个70E.T.轨道体系结构的概述可参见图1。3 .第三章。我们的模型采用轻量级骨干模型60[54]第五十四话. 该模型由NAS在50搜索空间由高效和轻量级的构建组成ing块。特征提取主干由40个3 3卷积层，深度可分离卷积-固定层和移动倒瓶颈层，挤压和激励模块。20Exemplar Transformer层可以作为替代archi-10的任何卷积运算结构我们把所有的卷积都替换掉-0成功图和边界框回归分支，同时保持轻量级骨干架构不变。这消除了在Ima-geNet上重新训练主干的需要[14]。搜索和模板帧最初通过骨干网络处理。通过逐点互相关计算表示之间的相似性。然后将得到的相关性图馈送到跟踪器头中，在那里由分类分支和边界框回归分支并行处理。边界框回归分支预测到边界框的所有四个边的距离分类分支预测每个区域是前景还是背景的一部分。在训练过程中，边界框回归分支将真实边界框内的所有像素视为训练样本，因此，即使只有输入图像的一小部分被分类为前景，该模型也能够确定对象的确切位置该模型通过优化预测和地面实况边界框之间的二进制交叉熵（BCE）损失和IoU损失的加权组合来训练[57]。有关更多细节以及有关数据预处理的更多信息，请读者参阅[61]。4. 实验我们首先在第4.1节中介绍跟踪器的实现细节。与最新技术水平的比较见第二节。第4.2节，随后进行消融研究。四点三。代码和经过训练的模型将在出版时发布。4.1. 实现细节架构我们采用LightTrack的LT-Mobile架构[54]作为我们的基线，因为它的性能与效率权衡。LT-Mobile由一个小型0 0.2 0.4 0.6 0.8 1重叠阈值图4：LaSOT数据集上的成功图。CPU实时跟踪器由较暖颜色的连续线指示，而非实时跟踪器由较冷颜色的虚线指示。E.T.Track显著优于其他实时跟踪器，甚至优于一些更成熟的跟踪器，如DiMP [5]。此外，它还大大缩小了与更昂贵的Transformer跟踪器之间的性能差距。编码器，然后分支到分类和回归头。分类头由6个卷积模块组成，而回归头由8. 每个卷积模块由一个 Dependency Sep- arableConvolution [23]，一个Batch Normalization层[25]和一个Rectified Linear单元组成E.T.Track用一个ExemplarTransformer层替换了每个第3.1条注意力模块的可学习FFN由2个线性层组成，其中ReLU激活，dropout [41]的比率为0.1，LayerNorm [2]。训练所有模型都使用Nvidia GTX TITAN X进行了训练，并在英特尔（R）酷睿（TM）i7- 8700 CPU@3.20GHz上进行了评估我们的E.T.Track体系结构的培训基于Light- Track [54]中使用的培训框架，而Light-Track[ 54 ]又基于OCEAN [61]。按照惯例，我们使用Ima-geNet预训练的权重初始化主干。使用随机梯度下降[39]优化模型，动量为0.9，权重衰减为1e-4，持续50个历元。在前10个epoch期间，骨干参数保持冻结。我们在5个epoch的预热期间使用步进学习率调度器，将学习率从2e-2STARK-ST50 [66.4][63.9]第63.9章：你是谁？[60.5]第六届中国国际纺织品展览会E. T. 轨道[59.1]DiMP [56.0]LT-Mobile [52.1]SiamRPN++[49.5]SiamFC [33.6]1576×××非实时实时原子[10个国家]SiamRPN++[30个]DiMP-50[五]《中国日报》PrDiMP-50[12个]SiamR-CNN[46个]TransT[八]《中国日报》TrDiMP[48个]泰国[48个]STARK-ST50[五十三]ECO[第十一届]LT-Mobile[五十四]E.T.Track（我们的）NFS58.450.26263.563.965.766.565.866.446.655.359.0UAV-12364.261.365.36864.969.467.567.468.851.362.562.3OTB-10066.969.668.469.670.169.171.170.867.364.366.267.8CPU速度20151515155669254747表1：NFS、OTB-100和UAV-123数据集在曲线下面积（AUC）方面的最新技术水平比较最佳分数以蓝色突出显示，而最佳实时分数以红色突出显示。我们还以FPS报告CPU运行时速度。非实时实时原子[10]SiamRPN++[30]DiMP-50[5]PrDiMP-50[12][46]第四十六话[8]第八话TrDiMP[48][第48话]STARK-ST50[53]ECO[11][第54话]E.T.Track（我们的）预处理（%）64.8469.3868.770.48080.373.172.7-48.8669.570.6N.预处理（%）77.1179.9880.181.685.486.783.382.986.162.1477.980.3成功率（%）70.3473.37475.881.281.478.478.181.356.1372.575.0CPU速度20151515155669254747表2：TrackingNet测试集的最新技术水平比较，由511个序列组成。根据精度（Prec.）对跟踪器进行比较，归一化精密度（N.Prec.），和成功。最佳分数以蓝色突出显示，而最佳实时分数以红色突出显示。我们还以FPS报告CPU运行时速度。到1e-1，接着是对于剩余部分的从1e-1到2e-4的递减学习速率。我们利用3个GPU，每批每个GPU采样32个图像对采样图像对由256 256搜索帧和128 128模板帧组成，从LaSOT [16]，TrackingNet [36]，GOT10k [24]和COCO [32]的训练分割中采样。具体而言，这两个帧在LaSOT [16]和GOT10k [24]的100帧范围内采样，TrackingNet [36]的30帧范围内采样，COCO [32]的1这两个补丁进一步移动和随机缩放。4.2. 与最新技术水平的我们将我们提出的E.T.Track与6个基准测试的最先进方法进行了比较：OTB-100 [52]，NFS [27]，无人机-123 [35]，LaSOT [16]，TrackingNet [36]和VOT2020 [29]。具体来说，我们评估基于transformer的跟踪器[8，48，48，53]，实时CPU跟踪器[11，54]，以及额外的精液追踪器[10，30，5，12，46]。对于所有方法，我们进一步报告FPS中的CPU运行时间。LaSOT [16]LaSOT数据集极具挑战性，包括非常长的序列，平均每个序列2500帧。因此，鲁棒性对于获得高分至关重要。图中的成功情节。图4用较暖颜色的连续线描绘CPU实时跟踪器，而非实时跟踪器由较冷颜色的虚线指示。不像在线学习方法，如STARK，利用动态更新的模板，我们的模型只使用在第一序列的帧中提取的模板补丁的功能。即便如此，我们的模型仍然非常稳健，为59. 1%，比流行的DiMP跟踪器[5]高出2. 百分之二。与LT-Mobile [54]的轻量级移动架构相比，我们的模型将成功分数提高了7%，同时实现了相当的速度。NFS [27]我们还在包含快速移动对象的NFS数据集上评估了我们的方法。结果示于表1中。E.T.Track的AUC得分达到59%，比所有实时跟踪器至少高出3分。百分之七。OTB-100 [52]OTB-100包含100个序列。如表1所示，通过最近引入的TrDiMP [ 48 ]实现了当前的最新技术水平，AUC评分为71。百分之一。我们的模型的AUC得分为67。8%，成为性能最好的实时跟踪器。UAV-123 [35]UAV-123总共包含123个从空中视角拍摄的序列。 AUC 结果见表 1 。与其他数据集不同，E.T.Track的性能与LT-Mobile相当，性能为62。百分之三。TrackingNet [36]我们进一步评估了TrackingNet测试集的511个序列上的跟踪器，并在表2中报告了结果。与其他数据集类似，E.T.Track优于所有其他实时跟踪器。具体来说，E.T.Track将LT-Mobile的精度提高了1。05%，归一化精度为2。42%，AUC为2。百分之四十八。将E.T.Track与更复杂的基于变压器的跟踪器（如TrSiam [48]）进行比较，我们的模型仅为2。差2%在精度方面，2。32%的标准化精度，和3。AUC为12%，8在CPU上更快。这进一步表明，虽然变压器有能力显着提高性能，但变压器模块不需要是专业的。1577−·非实时实时SiamFC[4]美国原子[10个国家]DiMP[五]《中国日报》SuperDiMP[1]第一章STARK-ST50[五十三]KCF[21日]LT-Mobile[五十四]E.T.Track（我们的）EAO0.1790.2710.2740.3050.3080.1540.2420.267精度0.4180.4620.4570.4770.4780.4070.4220.432稳健性0.5020.7340.7400.7860.7990.4320.6890.741CPU速度6 20 15 15995 47 47表3：VOT-ST 2020数据集上的边界框预测跟踪器的比较。我们报告预期平均重叠（EAO），准确性和鲁棒性。最佳分数以蓝色突出显示，而最佳实时分数以红色突出显示。我们还以FPS报告CPU运行时速度。对于计算受限的设备来说，实现大部分性能增益是非常昂贵的。VOT-ST 2020 [29]最后，我们还评估了VOT-ST 2020基于锚的短期跟踪数据集上的边界框预测跟踪器。与其他跟踪数据集不同，VOT2020包含不同的锚点，这些锚点被放置在不同的帧之间。跟踪器的准确性，鲁棒性和预期的平均重叠（EAO）方面进行评估。准确度表示在由锚点定义的连续性上的地面实况和预测目标预测之间的平均重叠的加权组合鲁棒性表示跟踪器平均失败之前的帧百分比。最后，EAO是一种综合考虑跟踪精度和鲁棒性的全局跟踪性能度量.结果示于表3中。虽然我们的模型在准确性和鲁棒性方面优于[ 54 ]中引入的轻量级卷积基线模型12%，但在鲁棒性方面可以注意到最大的性能增加，其中性能增加了5。百分之二。我们发现，从数据集的学习样本表示与图像级查询表示相结合，显着增加了跟踪器4.3. 消融研究为了进一步了解不同成分的贡献，我们在三个数据集上进行了一些受控实验。具体而言，我们报告了OTB-100 [52]、NFS [27]和LaSOT [16]的AUC。基线我们从[54]的移动架构LT-Mobile开始消融研究，因为其性能与效率权衡。我们将我们的基线暹罗跟踪器LT-Mobile在LT-Mobile中，通过逐点互相关计算搜索和模板补丁特征的相似性。然后将特征图传递到跟踪器头，跟踪器头由两个分支组成，即分类和边界框回归分支，如第2节所述。4.1.基线模型Conv的性能报告见表5a。示例注意力我们首先评估示例注意力作为卷积层替代品的效果。我们用ExemplarAttention替换卷积层，然后是残差连接和归一化层。换句话说，在等式（1）中设置FFN（f（）1、识别我们在表5a中报告Atten-tion（Attt）模块的性能。NFS上的性能提高了1.3%，LaSOT为1。5%，证明了我们的榜样注意力模块的有效性我们注意到，这种性能提高没有使用FFN ，FFN 是Transformer 架构中的关键设计选择[45]。FFN类似于原始的Transformer架构[45]，我们评估了在LayerNorm层之后额外使用轻量级FFN的效果。我们发现，FFN引入的自适应表达能力提高了所有三个数据集的性能，如表5a所示。在LaSOT上实现了最高的性能提升，其中AUC评分增加了5。百分之五这产生了我们最终的E.T.跟踪模型，如图所示。3 .第三章。模板条件化到目前为止，Exemplar Transformer中使用的查询仅仅基于初始相关映射的转换版本。我们进一步探讨将模板信息纳入我们的前雇员注意力模块的影响。具体来说，我们平均池对应于模板补丁的特征图，并将表示与每个层的输入相加从表5a中的模板条件（T-Cond）实验可以看出，更丰富的查询导致NFS的改进。然而，在OTB-100和LaSOT上，模型没有从额外的信息中受益。为此，我们决定在最终模块中不使用T-Cond模块，以保持最终模型更简单。示例数量表 5b 报告了给定示例数量虽然更多的Exemplars增加了模型的整体容量，因此，人们会期望进一步的性能提升，但我们的实验产生了不同的结果。具体而言，4个示例在所有数据集上产生了一致的更好结果。我们假设，在训练一个具有大量1578Conv标准群集线性当地SwinE.T.Track[五十四][45个][47个][26日][38个][33个]（我们的）NFS 55.355.357.555.855.855.459.0OTB-10066.265.367.565.464.864.267.8LaSOT 52.154.256.553.553.456.959.1表4：卷积基线（Conv）和不同注意力模块在NFS、OTB和LaSOT数据集上的AUC比较最佳分数以蓝色突出显示。E.T.Track始终优于所有其他Transformer变体。ConvCAttFFNT-Cond。NFSOTB-100LaSOTC55.3 66.256.6 65.852.153.6C C5867.359.1C C C 59.066.9 57.9(a) 说明Exemplar Transformer模块的不同组件我们评估了示例注意力（Att）模块，前馈网络（FFN）和模板条件（T-Cond）。图3所示的最终模型包括Att和FFN模块。Conv1 ﹣示例4-Ex16-ExNFS 55.357.658.058.0OTB-10066.266.567.366.1LaSOT 52.157.259.157.4(b) 样本数量的影响（-Ex）。ShuffleNet[60个]MobileNetV3[22日]ResNet-18[20个]LT-Mobile[五十四]ConvE.T. （我们的）CCCCCCCCNFS54.956.256.856.855.857.355.359.0OTB-10061.361.864.565.365.365.766.267.8LaSOT48.649.852.152.755.956.552.159.1(c) 示例性Transformer（E.T.）和卷积（Conv）模块在不同的骨干模型。外星人一致优于Conv模型，独立于所使用的主干。表5：根据NFS、OTB和LaSOT数据集的AUC报告的消融实验。Conv指的是LT-Mobile [54]，它充当我们的卷积基线。最佳分数以蓝色突出显示。专家可以提高性能，需要在优化过程中进行修改示例注意力模块的有效实施，方程式。6，即使有大量的样本，也能确保相当的运行时间。有趣的是，虽然单个Exemplar Attention在数学上等同于具有残差操作的常规卷积，但Exemplar Attention之后的附加FFN层具体而言，我们观察到NFS上的性能增加了2.3%，OTB-100上增加了0.3%，LaSOT上增加了5.1%。到目前为止报告的所有实验都使用LT-Mobile编码器。为了证明示例变压器的灵活性，以及它们的独立性，dence的编码器架构，我们评估使用不同的编码器架构。具体来说，我们比较了两个跟踪器头模块变体（卷积，Exemplar Transformer）与ShuffleNet [60]，MobileNetV 3 [22]，ResNet-18 [20]和LT-Mobile [54]组合的性能。表5c中给出的结果展示了独立于编码器架构的一致性能增益，突出了我们的 Ex- emplarTransformer相对于其卷积对应物的优越性。备选Transformer层的比较为了验证导致Ex- emplarTransformer模块的设计选择和假设，我们还比较了其他Transformer层变体。所有被评估的Transformer层也可以作为标准卷积的直接替代。具体来说，我们评估了标准[45]，离散[47]，线性[26]，局部[38]和Swin [33]变压器。该选择确保至少有一种方法来自第1.1.2节中定义的每个Transformer类别。2，同时使用它们的官方公开实现确保了公平的比较。表4中的结果表明，我们的示例性Transformer（E.T.）在所有数据集中，它始终优于所有其他注意力变量。这些发现进一步验证了我们的假设，即当跟踪单个对象时，一个全局查询和一小组示例表示具有足够的描述性。5. 结论我们提出了一种新的Transformer层的单目标视觉跟踪，基于示例注意。Exem- plar Attention利用输入序列的单个查询标记，并联合学习一小组示例表示。所提出的Transformer层可以在整个架构中使用，例如.作为对流层的替代具有与标准卷积层相当的计算复杂性，同时更具表现力，所提出的示例Transformer层可以显著提高跟踪模型的准确性和鲁棒性，而对模型的整体运行时间的影响最小与卷积基线和其他Transformer变体相比，我们的暹罗跟踪器E.T.Track具有ExemplarTransformer，显著提高了性能E.T.Track能够在计算受限的设备（如标准CPU）上实时运行1579引用[1] Pytracking。https://github.com/visionml/pytracking. 访问时间：2021-11-16。7[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。5[3] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在IEEE/CVF计算机视觉国际会议论文集，第3286-3295页，2019年。一、二[4] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。一、二、七[5] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 学习判别模型预测跟踪。在IEEE/CVF计算机视觉国际会议论文集，第6182-6191页，2019年。五、六、七[6] DavidBruggemann ， MenelaosKanakis ， AntonObukhov，Stamatios Georgoulis和Luc Van Gool。探索多任务密集预测的关系上下文arXiv预印本arXiv：2104.13874，2021。一、二[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一、二、三、四[8] 辛辰、宾燕、朱佳文、董王、杨晓云Transformer跟踪。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第8126-8135页，2021年6月。一、二、三、六[9] Krzysztof Choromanski ， Valerii Likhosherstov ， DavidDo- han ， Xingyou Song ， Andreea Gane ， TamasSarlos，Pe- ter Hawkins，Jared Davis，David Belanger，Lucy Colwell，et al.通过线性可扩展的长上下文转换器对蛋白质进行掩蔽语言建模。arXiv预印本arXiv：2006.03555，2020。3[10] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪 IEEE/CVF会议论文集计算机视觉和模式识别，第4660- 4669页，2019年。六、七[11] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在IEEE计算机视觉和模式识别会议论文集，第6638-6646页6

下载后可阅读完整内容，剩余1页未读，立即下载