基于周期移位窗口注意的Transformer跟踪

170 浏览量更新于2023-10-25 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8791基于周期移位窗口注意的Transformer跟踪宋子凯1于俊卿1陈怡萍2杨伟1华中科技大学2澳大利亚拉筹伯大学{skyesong，yjqing，weiyangcs}@ hust.edu.cn，phoebe. latrobe.edu.au摘要Transformer体系结构以其有效的注意机制在视觉目标跟踪中显示出强大的优势。现有的基于变换器的方法在图像特征的扁平化上采用逐像素的注意策略，不可避免地忽略了对象的完整性。在本文中，我们提出了一种新的Transformer架构与多尺度循环移位窗口atten- tion的视觉目标跟踪，提高注意力从窗隔(a) 循环移位窗位提示(b) 像素级收件人像素到窗口级别。跨窗口多尺度注意具有在不同尺度上聚集注意的优点，并为目标对象生成最佳细尺度匹配。此外，循环移位策略通过扩展具有位置信息的窗口样本带来了更高的精度，同时通过去除冗余计算节省了大量的计算能力。大量的实验证明了我们的方法的卓越性能，它还在五个具有挑战性的数据集以及VOT 2020，UAV 123，LaSOT，TrackingNet和GOT-10k基准测试中创造了新的最先进记录。我们的项目可以在 https://github.com/SkyeSong38/CSWinTT上找到。1. 介绍视觉目标跟踪（VOT）是计算机视觉研究的基础问题之一，在视频监控、自动驾驶汽车、人机交互等领域有着广泛的应用。它旨在估计目标对象在每个视频帧中的位置，通常表示为封装目标的边界框在初始帧中，目标对象作为模板被给定，跟踪器需要在后续帧中提取目标的特征并定位目标。大多数流行的跟踪器[1，22，23，37，41]采用暹罗网络结构，通过计算当前帧中模板与搜索区域之间的相似度来进行相似性度量* 通讯作者图1. (a)该方法首先实现了窗口-通过窗口划分，在查询和关键字之间进行水平关注，然后对每个窗口应用循环移位（从红色框中的基本样本到橙色框包围的生成样本），以极大地扩展窗口样本的数量，同时保持对象的完整性（b）以前的转换器产生像素级注意，这削弱了像素之间的位置信息，忽略了对象的完整性。暹罗跟踪器中的互相关算法是一个单级线性计算过程，容易丢失大量的语义信息利用注意机制学习全局上下文可以很好地解决这一问题。最近，基于transformer的方法[6，12，25，39]报告了图像识别，对象检测和语义分割基准的最新性能。这并不奇怪，因为Transformer [36]具有强大的交叉注意机制来在补丁之间进行推理[18]。特别是，Transformer跟踪器[7，40，45，50]通过引入注意机制来增强和融合目标和跟踪对象的特征，显示出其强大的实力。然而，我们观察到这些Transformer跟踪器只是将模板和搜索区域的扁平化特征置于像素级关注中，扁平化特征（Query）的每个像素以完整和无序的方式匹配另一扁平化特征（Key）的所有像素，如图1b所示。这种像素级的注意力破坏了目标对象的完整性，并导致像素之间相对位置的信息丢失在本文中，我们提出了一种新的多尺度循环移位窗口Transformer的视觉目标跟踪，进一步环状…变化关注……………8792将像素级注意力提升到窗口级注意力，通过将每个窗口作为一个整体来处理来计算不可分割的窗口之间的注意力，从而将位置信息保持在窗口内。所提出的方法受到Swin Transformer [25]的半成品的启发，该方法采用了一种结构化的Transformer结构，从小尺寸的贴片开始，通过合并逐渐增加尺寸，以实现更宽的感受野。与Swin Transformer算法不同的是，该算法直接计算模板与搜索区域之间的跨窗注意力，在保证目标完整性的前提下实现了目标与背景的此外，我们提出了一个多头多尺度注意力，其中每个头的transformer措施之间的相关性分区窗口在一个特定的规模。这里的关键思想是在每个窗口上应用循环移位策略，如图1a所示，以生成更准确的注意力结果。为了解决由循环移位操作引起的边界周围的性能下降，我们设计了一个空间正则化的atten- tion掩模，其在消除边界伪影方面非常有效。最后，我们提出了一些有效的计算策略来避免多尺度循环移位窗口引入的冗余计算，从而大大减少了时间和计算量。广泛的实验表明，我们的跟踪器执行显着优于其他国家的最先进的算法。总的来说，我们的主要贡献包括：1. 我们提出了一种新的Transformer架构，具有多尺度循环移位窗口注意力的视觉对象跟踪，提升了原来的像素级注意力到新的故意设计的窗口级注意力。交叉窗口注意保证了跟踪目标的完整性，循环移位通过扩展窗口样本提高了跟踪精度。2. 我们设计了一个空间正则化的注意掩模和一些计算优化策略来提高窗口注意的准确性和速度具体而言，空间正则化的注意掩模用于解决由循环移位引起的边界附近的性能下降，并且我们提出了三种计算优化策略来去除冗余计算。2. 相关工作视觉对象跟踪。现有的视觉对象跟踪方法可以大致分为两类，基于相关滤波器（CF）的跟踪器和基于深度神经基于CF的方法[4，5，9，11，16，20，42]利用卷积定理并在傅立叶域中训练滤波器，将已知的目标图像映射到所需的输出。该滤波器是通过目标对象周围的圆形移动块来学习的，以区分目标的背景。基于DNN的跟踪器是指在跟踪过程中采用深度神经网络的方法。许多方法[19，32，33]将跟踪任务视为基本识别任务，即，使用卷积骨干网络提取特征并通过全连接层形式的分类头定位目标。近年来，采用暹罗网络结构的跟踪算法[1，2，8，10，14，22，23，29，41，44，46，48，52]已经取得了巨大的成功。暹罗网络通常由两个分支组成，一个用于模板，另一个用于搜索区域，并且通过互相关报告它们之间的相似性。然而，这种策略不能有效地探索模板和搜索区域之间的语义相关性这一问题引发了对利用Transformer结构强大的交叉注意机制进行目标跟踪的进一步探索视觉变换器。 Vaswani 等人 [36] 提出了第一个Transformer结构，用于处理自然语言处理（NLP）中的长距离依赖关系。 Transformer 中的基本模块是attention模块，它将序列作为输入，并测量序列不同部分的相关性Transformer不仅可以计算单个输入的自注意力，还可以计算不同输入之间的交叉注意力。ViT[12]首先将Transformer引入图像识别任务。从那时起，Transformer已广泛应用于图像分类[12，25]，对象检测[6]，语义分割，[39]，视觉对象跟踪[7，40，43，45]等。Swin Transformer [25]的开创性工作提出了一种具有移位窗口的有效分层架构，并在COCO对象检测[24]和ADE 20K语义分割[51]上实现了最先进的性能。虽然我们的方法受到Swin Transformer的启发，但我们有三个基本区别：（ 1 ）注意力的运用不同。 SwinTransformer将图像划分为多个窗口，然后在每个窗口内进行像素级注意力计算，而我们在特征图中进行窗口划分，并将每个窗口作为一个整体来计算窗口之间的注意力。(2)多尺度策略是不同的。Swin Transformer在一个层中使用相同的窗口大小，并在更深的层中合并窗口以形成更大的窗口。相比之下，我们使用不同大小的窗口作为多尺度匹配的头部 (3) window shiftingis applied differently. Swin Transformer 移动整个特征图，以交换信息并提供不同窗口之间的连接。我们以不可交换的方式在每个窗口中应用独立的循环移位此外，与Swin Transformer相比，每个窗口仅移动一次，在我们的算法中，每个窗口根据其大小移动多次。近年来，基于transformer的视觉目标跟踪方法已经变得越来越流行。[40]第四十话8793×∈∈zRiRiSRiRiConcatenate逐元素产生式1特征1线性投影图2.建议的跟踪架构概述。给定第一帧中的模板图像和后续帧中的搜索区域，我们通过骨干网络提取深度特征图然后将这两个特征划分成小窗口并展平为窗口序列。Transformer匹配模块对窗口序列应用窗口级关注。具体地，Transformer中的Key（K）-Value（V）对采用循环移位策略来生成大量样本。然后，Transformer输出融合后的特征，这些融合后的特征包含了模板和搜索区域之间的深度匹配信息，这些融合后的特征通过包围盒预测头得到最终的跟踪结果。将编码器-解码器Transformer分成两个连体分支，编码器加强模板特征，解码器将跟踪线索从多个模板传播到当前帧。 TransT [7]建议提出了一种特征融合网络，并采用注意力机制将模板特征与搜索区域特征相结合。该特征融合网络由基于自注意的自我-上下文增强模块和基于交叉注意的交叉特征增强模块组成STARK [45]描述了一种基于编码器-解码器Transformer的时空架构，编码器学习模板和搜索区域之间的关系此外，STARK引入了一个基于角点的预测头用于估计边界框和一个分数头用于控制- ling的模板图像的更新大多数先前的跟踪算法，如[40，45]使用编码器-解码器结构来增强或融合特征，而我们将Transformer视为特征匹配模块来计算模板和搜索区域之间的相似度。此外，以前的方法天真地使用了Transformer，并触及了其中的注意力机制.与此相反，我们精心设计了一个多头多尺度窗口级注意力Transformer，采用循环移位策略，充分利用Transformer结构进行目标跟踪。3. 方法在本节中，我们提出了我们的多尺度循环移位，采用Transformer作为匹配模块，测量模板与搜索区域之间的相关性，充分利用了Transformer强大的交叉注意能力。跟踪架构如图2所示，它由三个主要组件组成：特征提取主干、Transformer匹配模块和边界框估计头。我们选择ResNet-50 [15]作为特征提取的骨干，它需要一对图像输入，即，模板图像和搜索区域图像。然后将输出特征对划分为窗口序列并馈送到Transformer匹配模块。匹配模块连接两个窗口序列，并将它们发送到多头6层变压器。多头Transformer为每个头使用特定的最后，将每个Transformer头的输出连接在一起，通过[45]中的基于角的框估计头，以获得结果边界框。3.1. 多尺度循环移位窗口注意多尺度窗口分区。在初始帧中给出模板补丁z，并为搜索区域提供图像s。我们将z和s通过主干层和瓶颈层，分别得到特征映射fzRd× Hz× Wz和fsRd× Hs× Ws.然后，我们从头部i中的fz和fs中提取形状为riri的贴片，其中di表示头部i的通道数。模板窗口的总数为Ni= Hz× Wz，对于搜索区域窗口为Windowt transformert racker，即CSWinTT。公司现采用国际N i= Hs× Ws。在窗口提取之后，环状变化Rr功能搜索区域模板Transformer匹配模块窗口比例尺窗口比例1（r Featr）QLFeatrFeatr2RL✕L功能C骨干KRLFeatr2✕RLCHzHSVWzWSR窗口分区注意力图C✕箱头…r特征（H s/r特征W s/r）+r特征（Hz/r特征Wz/r）L =8794Attn…模板(in查询）搜索区域(in键）…AttnC我××−∈ − −××- ×−- × ××- ×−zzSSzSK2（Q，K）=i i2Rr被整形为wind序列fi∈RNi×di×ri×ri，循环移位fi∈RNi×di×ri×ri. 然后，两个wind序列是沿着空间维度连接并生成fi其中（Ni+Ni）×di.然后查询-键值注意机制-Anism应用于查询Qi、键Ki和值Vi。钥匙-然后计算值成对相似性，并使用多头注意力机制如下进行融合多头关注。多头注意力是我们建筑的基本组成部分如[36]所述，给定查询Q、键K和值V。多头张力计算如下：MultiHead（Q，K，V）= Concat（H1，. - 是的- 是的，Hnh）注意力分数其中Hi=Attention（Qi，Ki，Vi）QiKT=softmax（max）（一）图3.注意循环移位窗口。我们举例说明，当Key中的搜索区域被划分为4个窗口，而Query中的模板变成一个窗口时。上述其中nh是头的数量，dk是密钥的维数。为了更清楚地描述后订单步骤，我们将注意力分数定义为：AttnScoreQKT（2）D循环移位策略。与像素级注意力相比，我们的窗口注意力的一个问题是注意力地图的分辨率从 R（HzWz+HsWs）降低到R（N+N）。这将导致更粗糙的相似性得分，并且在搜索区域中选取两个窗口作为例子，对循环移位后的模板进行注意，分别得到注意分数，然后将它们合并，形成最终的注意分数。边界更可能破坏窗口中跟踪对象的完整性和位置信息。因此，我们设计了一个加权方案，作为Transformer中的注意力掩码M的一种形式，如图4所示。掩模的空间权重会对样本进行惩罚，具体取决于z s，权重生成公式很难融合每个头部的输出，因为由不同头部产生的注意力不具有相同大小。为了解决上述问题，我们提出了一个循环移位策略上提出的窗口级at-tention。它增强了跨窗口注意力的有效性，同时保留了位置信息和对象的完整性，如图3所示。在一个特定的头部内，考虑一个大小为r r的窗口，称为基本样本。我们将基本样本的移位运算符shift（x，y）定义为在水平方向上将样本平移x个像素，在垂直方向上平移y个然后，我们在单像素距离处执行基础样本的循环移位，并将样本移动到右下角方向，边界被扭曲回左上角。操作shift（x，y），x，y[r+1，r1]针对具有窗口大小r r的基础样本将r r生成为（2r1）2个样本。显然，这些循环移位会产生大量的重复计算，我们将在3.2节中讨论如何有效地消除重复计算。3.2. 高效计算空间正则化注意力面具。在实践中，我们发现中心附近的移位样本对最终注意力的贡献更大。这是合理的，因为样本接近表示为3。生成的样本离基本样本越远，惩罚越大，权重越小。M（x，y）=−（x）2−（y）2，x，y∈[−r+1，r−1]（3）空间注意力掩模M被直接添加到2中的注意力分数上。回想一下，第i个头中的查询Qi和关键字Ki的大小是R（Nz+Ns ）×di×ri×ri关于iv el y。随着riri作为窗口大小，并且每个窗口被扩展为具有循环移位的[（2ri1）2di ri ri]。每个窗口上的注意力得分大小为[（2ri1）2（2ri1）2]，这是由查询窗口和键形成的以来查询和键也是循环移位的，我们添加大小为[（2r i第一章（2r i1）]到注意力得分的最后一个维度（键的维度），达到位置惩罚的效果。计算优化。直观地说，循环移位大大增加了计算成本，特别是当窗口大小很大时。为了实现计算效率，我们通过三种方式进行优化：（i）消除查询的循环移位;K8795×××××R×RR R- -- −×图4.空间正则化权重的可视化设计，以减轻边界伪影。中心的红框是基础样本，如果生成的样本远离中心基础样本，则它们所应用的注意力掩模的值越小以及（iii）采用编程优化进行矩阵转换。假设我们有Q，K和V的大小为（H，W，d）。标准的Transformer将特征转换为（HW，d），注意力计算的时间开销由两部分组成：注意力得分计算O（HWdHW）和融合特征计算O（HW HW d）。在应用循环移位之后，Q、K和V的大小为（ H， H，2r1，2r1，r，r，d），其中r为窗口大小，并且计算注意力分数的复杂度增加到O（（HW（2r1）（2r1））2r2d）。我们观察到，如果Q和K执行相同的移位，计算注意力分数是没有意义的，所以我们只需要对K执行循环操作，并保持Q不变，以达到相同的效果。此外，注意到循环生成的右下和左上方向的样本是重复的，为了更好的效率，我们将移位周期的数量减少了一半为了提高跟踪速度，我们还采用了一种编程技巧，即利用矩阵坐标的排列来进行循环移位，而不是直接对矩阵进行平移。3.3. 使用Window Transformer进行跟踪多尺度窗口Transformer通过在不同尺度下引导具有准确性感知的注意力来促进跟踪过程。因此，窗口尺寸的选择极为重要.在我们的实现中，我们将头部的数量n h设置为8，其中头部i的窗口大小ri=[1，2，4，8，1，2，4，8]。注意，头部的后半部分具有相同的窗口大小，这是因为我们采用了特征图平移，其将搜索图像的骨干特征移位（ri，ri）个像素。在这另一种是避免对象一直被分割的情况。为了进一步提高跟踪算法的鲁棒性，我们使用两个相同大小的模板作为Transformer的输入其中一个使用初始模板固定，另一个在线更新为具有高置信度的最新跟踪结果，采用评分头来控制更新，如STARK[45]中所设计。在训练阶段，我们使用L1损失和一般化的IoU损失[34]以端到端的方式训练整体架构。在推理过程中，模板图像及其相应的骨干特征在第一帧中初始化，搜索区域在后续帧的跟踪过程中作为跟踪器的输入，网络返回的预测边界框作为最终结果。4. 实验4.1. 实现细节我们在 LaSOT [13]，GOT-10 k [17]和TrackingNet[31]数据集上训练模型。图像对直接从相同的序列中采样，并应用包括亮度抖动和水平翻转在内的常见数据增强操作。输入模板的大小为128 × 128像素，搜索区域是目标框面积的52我们使用ResNet-50 [15]作为主干，其参数使用ImageNet预训练[35]模型进行初始化。模型中的其他参数都是用Xavier Uni- form初始化的.我们使用λl1=5和λgiou=2作为l1损失和giou损失的损失权重[34]。采用AdamW优化器[26]，骨干参数和其他参数的初始学习率分别为1 e-5和1 e-4，并且在500个epoch之后，每10个epoch的权重衰减设置为1 e-4。我们在两个NvidiaTesla T4 GPU上训练我们的模型，总共600个epoch，每个epoch使用4 104图像。小批量大小设置为64个图像，每个GPU托管32个图像。更新模块的训练过程与[45]相同。我们的做法是使用PyTorch 1.6在Python 3.7中实现。在在线跟踪过程中，CSWinTT在单个GPU上运行约12帧每秒（FPS）4.2. 最新技术水平比较我们将我们提出的CSWinTT算法与五个跟踪基准的最先进的跟踪器进行了比较，包括UAV 123 [30]，LaSOT [13]，TrackingNet [31]，GOT-10 k [17]和VOT 2020 [21]。UAV123[30]：UAV123收集123个序列的特定应用集合，并从无人驾驶的2 2这样，当窗口以非重叠的方式划分时，窗口的内容由每个窗口补充飞行器视频数据集。采用曲线下面积（AUC）和精密度（P）作为评价指标。8796表1.四个跟踪基准的比较红色、绿色和蓝色表示排名第一、第二和第三位的性能[17]第十三届中国国际航空航天博览会[13]表2. VOT2020 [21]上的结果比较，其中跟踪器仅预测边界框而不是报告掩码。EAO↑准确度↑稳健性↑跟踪器STARK（69.2% AUC和88.2%精度）LaSOT[13]：LaSOT是一个大规模的长期数据集，包括1400个序列，分布在14个属性上，LaSOT的测试子集包含280个序列，精度用于测量中心距离，AUC图计算估计的边界框和地面实况之间的交集（IoU）如表1所示，其中包括之前最先进的跟踪器，如TrDiMP [40]，TransT [7]和START [45]进行比较，请注意选择STARK-ST 50的原因是它使用与我们的算法相同的ResNet-50我们的CSWinTT以相当大的幅度超过了上述方法，与之前最好的方法相比，表现出非常有竞争力的性能（70.5%在联机服务器上执行操作。结果表明，与SOTA模型相比，CSWinTT的视觉跟踪质量更好，AUC 得分为81.9%，归一化精度为86.7%，排名第一。与TransT [7]相比，特定增益是AUC评分的0.7%相对改善，这代表了该基准的最佳算法。GOT-10 k是一个大规模的数据集，包含超过10 k的视频用于训练，180个用于测试。它禁止跟踪器使用外部数据集进行训练。我们遵循此协议，仅使用GOT10k列车分割重新训练我们的跟踪器。从表1中可以看出，在之前的Transformer跟踪器中，TrDiMP [40]和STARK-ST 50 [45] 提供了最佳性能， AUC 得分为 68.8% 和68.0%。我们的方法有了显著的改进，AUCPAUCP范数PAUCP范数PAOSR0。5SR 0。75SiamFC [1]2016年49.272.733.642.033.957.166.353.334.835.39.8ECO [9]2017年52.574.132.433.830.155.461.849.231.630.911.1原子[8]2019年61.782.751.557.650.570.377.164.855.663.440.2DiMP [2]2019年64.284.957.766.457.974.080.168.761.171.749.2[22]第二十二话2019年64.284.049.656.949.173.380.069.451.761.632.5[44]第四十四话2020年61.880.454.462.354.775.480.070.559.569.547.9D3S [27]2020年----72.876.866.459.767.646.2MAML [38]2020年-52.3-53.175.782.272.5---[46]第四十六话2020年65.084.556.064.8-75.281.7----KYS [3]2020年-55.463.355.874.080.068.863.675.151.5PrDiMP [10]2020年66.687.259.968.860.875.881.670.463.473.854.3海洋[49]2020年62.182.351.660.752.669.279.468.761.172.147.3SiamRCNN [37]2020年-64.872.2-81.285.480.064.972.859.7SiamGAT [14]2021年64.684.353.963.353.0---62.774.348.8自动匹配[47]2021年64.483.858.267.559.976.082.472.565.276.654.3TrDiMP [40]2021年67.087.664.073.266.678.483.373.168.880.559.7[7]第七话2021年68.187.664.973.869.081.486.780.367.176.860.9STARK-ST 50 [45]2021年69.288.266.075.570.881.386.1-68.077.762.3CSWinTT我们的70.590.366.275.270.981.986.779.569.478.965.4KCF [16]0.1540.4070.430平均2448帧。方法的排名依据是SiamFC [1]0.1790.4180.502AUC、精密度和标准化精密度（PNorm）。CSR-DCF [28]0.1930.4060.582比较跟踪算法的评估结果是原子[8]0.2710.4620.734表1所示我们的模型达到了最高等级的AUCDiMP [2]0.2740.4570.740评分（66.2%）和精度评分（70.9%），其中-[4]0.2780.4650.755通过STARK-ST 50执行先前的最佳结果，以及TrDiMP [40]0.3000.4710.782也超过了其他两款Transformer跟踪器TransT[7]第七话0.2930.4770.754[7]/TrDiMP [40]分别为1.3%/2.2% AUC评分STARK [45]0.3030.4810.775TrackingNet[31]：TrackingNet是一个大规模的跟踪CSWinTT（我们的）0.3040.4800.787由511个序列组成的数据集用于测试。评估-8797×窗口大小1 ×12 ×24 ×4多尺度8 ×8AUC66.268.370.069.370.5预处理86.687.989.689.290.3获得69.4%的AUC评分，显著优于现有最佳跟踪器（TrDiMP）0.6%。VOT2020[21]：VOT2020基准测试包含60个挑战视频。使用预期平均重叠（EAO）评估该数据集的性能，该EAO考虑了准确性（A）和鲁棒性（R）此外，VOT2020还提出了一种新的基于锚点的评估协议，采用分段掩码作为地面实况。然而，由于我们的算法不输出分割掩码，因此跟踪器仅选择预测边界框作为比较，以确保公平的评估。从表2中的数据可以看出，CSWinTT获得了0.304的EAO，在以往的跟踪器中排名第一。4.3. 消融研究我们进行消融分析，以评估CSWinTT中的不同组件，并使用UAV123数据集评估不同窗口尺寸的性能[30]。此外，我们还展示了上述三种计算优化策略的优越性。表 3. 无人机的烧蚀研究 123 [30]. Win 表示多尺度窗口Transformer。CS表示所提出的循环移位策略。SR意味着应用空间正则化的张力掩模。Pos表示相对位置编码。#赢得CSSrPOS AUC预处理1234原始Transformer✓✓ ✓✓ ✓✓66.2 86.654.470.869.7 89.270.1 89.8100万美元69.889.610中国70.5 90.3我们方法中不同成分的影响我们评估了在我们的方法中使用的组件的效果，包括多尺度窗口注意（Win），循环移位（CS），空间规则化的注意掩模（SR）和相对位置编码（Pos）。消融研究结果见表1。3、#1代表原Transformer的性能。我们可以看到，单独的窗口级注意力（#2）是非常无效的，因为它大大降低了注意力机制的分辨率，然而，将窗口级注意力与循环移位策略相结合可以处理这个缺点。在#3中可以看出，在应用循环移位之后，AUC分数有15.3%的改善，并且它比原始Transformer好3.5%，这说明循环移位策略在窗口级注意力上起关键作用。#4表明，当对循环移位样本采用空间正则化掩码时，AUC得分可以提高0.4%，这表明空间正则性可以在一定程度上减轻边界伪影并提高性能窗户注意力此外，我们按照[25]的方式测试了我们方法中相对位置编码的有效性。当使用相对位置编码（#5）时，性能提高了0.1%，小的提高表明窗口级注意中的位置编码不是很重要，并且证实窗口级注意本身包含丰富的位置信息。表4. UAV123上不同窗口尺寸之间的比较[30]。前四个项目在每个头中采用相同的窗口大小。多尺度表示所提出的CSWinTT。我们的Transformer有不同的窗口大小。为了探索不同窗口大小对循环移位窗口注意的性能，我们设计了如表4所示的定量分析实验。前四行表明，在采用循环移位策略的情况下，在所有8个磁头中使用相同的窗口大小。从实验结果可以看出，当使用单个窗口大小时，在大小4 4中获得最高的70.0% AUC得分，事实上，对于所有窗口大小，性能确实更接近当采用多尺度窗口大小时，最佳AUC得分为70.5，表明多尺度窗口可以融合来自不同尺度的信息以提高跟踪器的性能。表5.三种计算优化的跟踪速度比较。RMQ表示删除Query的循环移位。Peri表示一半的换档周期。Prog是指采用程序优化的方法进行矩阵变换。#RMQ围手术期程序速度（FPS）11.0✓8.223✓✓10.94✓✓✓12.45原始Transformer14.9计算优化和速度分析。循环移位策略带来了较大的计算负担，我们通过应用一些优化策略来提高跟踪速度，包括去除查询的循环移位（RMQ），将移位周期减半（ Peri ），以及采用矩阵平移的编程优化（Prog），表5显示了每种优化方法的效果。跟踪速度在1 FPS左右，没有优化8798搜索区域原始Transformer我们的Transformer图5.原始Transformer（中）和我们提出的Transformer（右）获得的注意力的可视化热图红色框表示搜索区域中的目标对象（左侧）。采用，如#1所示，这几乎是不可用的状态。随着查询的循环移位被移除（#2），跟踪速度被大大提高到8.2FPS，并且可以通过将移位周期减半（#3）来进一步提高。此外，我们还应用PyTorch编程技巧，使用矩阵坐标的排列来执行循环移位，而不是直接在矩阵上平移，这也在一定程度上提高了跟踪速度，如#4所示。由于循环移位窗口注意力引入的绝对计算量，我们的方法的计算效率不如原始变换器（#5），但经过我们的计算优化后，达到了令人满意的12.4 FPS的跟踪速度4.4. 定性分析图 5 显示了注意力的可视化热图，它显示了Transformer匹配模块中最后一层的注意力得分。热图中的红色区域第一行显示目标物体被遮挡的情况，第二行和第三行显示目标被类似干扰物包围的情况从可视化结果可以看出，与像素级注意相比，循环移位窗口注意具有更强的视觉跟踪辨别能力，尤其是当目标物体周围存在遮挡或类似干扰物时。我们进一步讨论为什么我们提出的CSWinTT工作。强大的辨别能力主要来自两种策略：多尺度窗口分割和循环移位。窗口分割后，目标被分割成多个小块，每个小块包含目标部分不可分割的信息。这些块在注意过程中不会破坏内部的像素，当一些块被遮挡并且不可见时，块的另一部分可以在没有干扰的情况下进行注意。虽然不同窗口之间没有信息此外，循环移位可以生成更准确的注意力分数。例如，对于一个人体来说，在窗口分区之后，有两个窗口需要做注意。假设第一个是模板中的一个窗口，其中包含人体的头部，该头部位于窗口的中心第二个是在包含相同头部的搜索区域中，当人类运动通过序列时，头部从窗口的中心平移到边缘此时，通过窗口级注意将获得较低的匹配分数，其没有充分利用窗口中的信息。在采用循环移位之后，如图3所示，模板窗口中心处的头部和搜索区域窗口边缘处的头部可以精细地匹配。此外，通过移位大小可以获得注意中的位置信息，这种窗级位置可以更好地辅助跟踪算法将目标物体与干扰物区分开。5. 结论在这项工作中，我们提出了一个Transformer跟踪器与多尺度循环移位窗口的注意力，这是能够保持对象的完整性，并保留更多的位置信息时，计算跨窗口的注意力跟踪目标和搜索区域。在此基础上，通过空间正则化注意力模板和冗余计算去除两种改进方案，对该窗口注意力进行了详细设计，在五个具有挑战性的基准测试上的大量实验结果表明，我们的跟踪器比以前的最先进的跟踪器性能更好。循环移位窗口注意在跟踪领域比原有的像素级注意具有更强的区分力。许多其他应用，如图像识别和立体匹配，也可以受益于这种窗口注意力。确认本工作得到国家重点研究发展计划项目（批准号：2020YFB1805601）的资助。8799引用[1] LucaBertinetto ， JackValmadre ， J oa oF. Henriques ，AndreaVedaldi，and Philip H.S.乇用于对象跟踪的全卷积连体网络。在ECCV的会议记录中，第850-865页。施普林格，2016年。一、二、六[2] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 学习判别模型预测跟踪。在ICCV的会议记录中，第6182IEEE、2019年10月。二、六[3] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte.了解你的周围环境：利用场景信息进行目标跟踪。在ECCV的诉讼中。Springer，2020年。6[4] Goutam Bhat、Joakim Johnander、Martin Danelljan、Fa-had Shahbaz Khan和Michael Felsberg。揭示深度追踪的力量。在 ECCV 的会议记录中，第 483-498 页。Springer，2018年9月。二、六[5] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。在CVPR的程序，第2544IEEE，2010年6月。2[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。一、二[7] 辛辰、宾燕、朱佳文、董王、杨晓云Transformer跟踪。在CVPR的诉讼，第8126-8135页，2021年。一、二、三、六[8] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪在CVPR的程序，第4660IEEE，2019年6月。二、六[9] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在CVPR的会议记录中，第6638IEEE，2017年7月。二、六[10] Martin Danelljan Luc Van Gool和Radu Timofte用于视觉跟踪的概率回归。在CVPR的诉讼，第7183-7192页，2020年。二、六[11] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在ECCV的Proceedings中，第472-488页施普林格，2016年。2[12] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。一、二[13] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。在CVPR的诉讼中。IEEE，2019年6月五、六[14] Dongyan Guo，Yanyan Shao，YingCui，Zhenhua Wang，Liyan Zhang，and Chunhua Shen.注意力追踪图表。在CVPR的诉讼，第9543-9552页，2021年。二、六8800[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR的程序，第770-778页IEEE，2016年6月。三、五[16] JoaoF

下载后可阅读完整内容，剩余1页未读，立即下载