没有合适的资源?快使用搜索试试~ 我知道了~
基于Transformer的视觉跟踪方法
10448×用于视觉跟踪的严斌1,*,彭厚文2,†,付建龙2,王东1,†,路沪川11大连理工大学2微软亚洲研究院摘要在本文中,我们提出了一种新的跟踪架构的编码器-解码器Transformer作为关键组件。编码器对目标对象和搜索区域之间的全局时空特征依赖性进行建模,而解码器学习查询嵌入以预测目标对象的空间位置。我们的方法将对象跟踪作为一个直接的边界框预测问题,而不使用任何建议或预定义的锚。利用编码器-解码器Transformer,预测-���������������������������������������������������� �����对象的角点估计仅使用简单的全卷积网络,其直接估计对象的角点。整个方法是端到端的,不需要任何后处理步骤,如余弦窗口和包围盒平滑,从而大大简化了现有的跟踪管道。建议的跟踪器实现国家的最先进的性能对多个具有挑战性的短期和长期的基准,同时运行在实时的速度,为6快于泰国R-CNN [54].代码和模型在https://github.com/researchmm/Stark网站。1. 介绍视觉目标跟踪是计算机视觉中一个基本而又具有挑战性的研究课题。在过去的几年中,基于卷积神经网络,对象跟踪取得了显着的进展[28,11,54]。然而,卷积核并不擅长对图像内容和特征的长程依赖关系进行建模,因为它们只处理空间或时间上的局部邻域。当前流行的跟踪器,包括离线暹罗跟踪器和在线学习模型,几乎都是建立在卷积运算上的[2,44,3,54]。因此,这些方法仅在对图像内容的局部关系进行建模时表现良好,但限于捕获远程全局交互。这种缺陷可能会降低模型处理全局上下文信息很重要*严斌在MSRA实习时所做的工作† 通 讯 作 者 : 彭 厚 文 ( houwen. microsoft.com ) , 王 东(wdice@dlut.edu.cn)。图1:与LaSOT最新技术的比较[15]。我们将成功性能与每秒帧数(fps)跟踪速度的关系可视化。圆圈大小指示跟踪器越大越好。Ours-ST 101和Ours-ST 50分别表示以ResNet-101和ResNet-50为主干的拟议跟踪器。更好地看到颜色。用于定位,例如经历大规模变化或频繁进出视图的对象。长程相互作用的问题已经通过使用Transformer在序列建模中解决了[53]。Transformer在自然语言建模[13,46]和语音识别[40]等任务中取得了巨大的成功。最近,Transformer已被用于识别计算机视觉模型,并引起了极大的关注[14,5,41]。受最近的检测TRans-former(DETR)[5]的启发,我们提出了一种新的具有编码器-解码器Transformer的端到端跟踪架构,以提高传统卷积模型的性能。空间和时间信息对于目标跟踪都是重要的。前者包含用于目标定位的目标外观信息,而后者包含目标在帧间的状态变化。以前的暹罗跟踪器[28,59,16,7]只利用空间信息-在线方法[63,66,11,3]使用历史预测进行模型更新。虽然这些方法是成功的,但它们并没有明确地模拟空间和时间之间在这项工作中,考虑到在建模全局依赖关系方面的优越能力,我们采用Transformer来集成空间和时间������������������������������ ��������������������������������������������������������������������10449×用于跟踪的信息,生成用于对象定位的有区别的时空特征。更具体地说,我们提出了一种新的时空架构的基础上的编码器-解码器Transformer的视觉跟踪。新架构包含三个关键组件:编码器、解码器和预测头。编码器接受初始目标对象、当前图像和动态更新的模板的输入。编码器中的自注意模块通过其特征依赖性学习输入之间由于模板图像在整个视频序列中更新解码器学习查询嵌入以预测目标对象的空间位置。使用基于角点的预测头来估计当前帧中的目标对象的边界框。同时,学习分数头来控制动态模板图像的更新大量的实验表明,我们的方法建立了新的最先进的性能在短期[20,43]和长期跟踪基准[15,25]。例如,我 们 的 时 空 Transformer 跟 踪 器 在 GOT-10 K [20] 和LaSOT [15]上分别超过Siam R-CNN [54] 3.9%(AO评分)和2.3%(成功)还值得注意的是,与以前的长期跟踪器[9,54,62]相比,我们方法的框架要简单得多。具体而言,以前的方法通常由多个组件组成,例如基础跟踪器[11,57],目标验证模块[23]和全局检测器[47,21]。相比之下,我们的方法只有一个以端到端方式学习的网络。此外,我们的跟踪器可以以实时速度运行,比Siam R-CNN快6(30V.S. 5fps)在Tesla V100 GPU上,如图所示1考虑到最近在小规模基准上过度拟合的趋势,我们收集了一种称为NOTU的新的大规模跟踪基准,整合了来自NFS [24]、OTB100 [58]、TC128 [33]和UAV123[42]的所有序列。总之,这项工作有四个贡献。• 我们提出了一个新的Transformer架构,致力于视觉跟踪。它能够捕获视频序列中空间和时间信息的全局• 整个方法是端到端的,不需要任何后处理步骤,如余弦窗口和包围盒平滑,从而大大简化了现有的跟踪流水线。• 建议的跟踪器实现国家的最先进的perfor-曼斯五个具有挑战性的短期和长期的基准,同时运行在实时的速度。• 我们构建了一个新的大规模跟踪基准,以减轻以前的小规模数据集上的过拟合问题。2. 相关工作语 言 与 视 觉 的 Transformer 。 Transformer 最 初 由Vaswani等人提出 [53],用于机器翻译任务,并已成为语言建模中的主流架构Transformer将序列作为输入,扫描序列中的每个元素并学习它们的依赖关系。这个特性使得Transformer本质上擅长于捕捉序列数据中的全局信息。最近,Transformer已经在视觉任务中显示出巨大的潜力,如图像分类[14],对象检测[5],语义分割[56],多对象跟踪[51,41]等。我们的工作受到最近的工作DETR [5]的启发,但有以下基本差异。(1)所研究的任务是不同的。DETR是为目标检测而设计的,而这项工作是为目标跟踪。(2)网络输入不同。DETR将整个图像作为输入,而我们的输入是由一个搜索区域和两个模板组成的三元组。它们来自主干的特征首先被展平并连接,然后被发送到编码器。(3)查询设计和训练策略是不同的。DETR使用100个对象查询,并使用匈牙利算法在训练期间将预测与地面实况相相比之下,我们的方法只使用一个查询,并始终匹配它与地面真相,而不使用匈牙利算法。(4)包围盒头部不同。DETR使用三层感知器来预测盒子。我们的网络采用基于角的盒头,以实现更高质量的本地化。此 外 , TransTrack [51] 和 TrackFormer [41] 是Transformer跟踪的两个最新代表性作品。TransTrack[51]具有以下特点。(1)编码器将当前帧和前一帧的图像特征作为输入。(2)它有两个解码器,分别将学习对象查询和最后一帧查询作为输入。在不同的查询条件下,编码器的输出序列被分别转换为检测盒和跟踪盒。(3)使用匈牙利算法[27]基于IoU匹配预测的两组盒子。而Track- former [41]具有以下特点。(1)它仅将当前帧特征作为编码器输入。(2)只有一个解码器,其中学习对象查询和来自最后一帧的轨迹查询彼此交互(3)它仅通过注意力操作来关联随时间的轨迹,而不依赖于任何额外的匹配,例如运动或外观建模。相比之下,我们的工作与这两种方法有以下根本区别(1)网络输入不同。我们的输入是一个三元组consisting的当前搜索区域,初始模板和动态模板。(2)我们的方法通过更新动态模板来捕获跟踪目标的外观变化,而不是像[51,41]那样更新对象查询。时空信息开发。剥削-10450初始模板骨干展平和连接Transformer编码器∈∈SSSS时空信息的提取是目标跟踪领域的核心问题现有跟踪器可分为两类:仅空间的和时空的。大多数离线Siamese跟踪器[2,29,28,69,34]都是仅空间的,其将对象跟踪视为初始模板和当前搜索区域之间的模板匹配。为了提取模板和搜索区域之间沿空间维度的关系,大多数跟踪器采用相关性的变体,包括朴素相关性[2,29],深度相关性[28,69]和逐点相关性[34,61]。虽然近年来取得了显著的进展,这些方法只捕捉局 部 相 似 性 , 而 忽 略 了 全 局 信 息 。 相 比 之 下 ,Transformer中的自注意机制可以捕获长程关系,使其适合于成对匹配。搜索区域目标查询词Transformer解码器ing任务。与纯空间跟踪器相比,时空跟踪器还利用了时间信息来提高跟踪器的鲁棒性。这些方法也可以分为两类:基于梯度的和无梯度的。基于梯度的方法在推断期间需要梯度计算。经典作品之一是MD-Net[44],其使用梯度下降更新特定于域的层。为了提高优化效率,后来的作品[11,3,30,55,64]采用更先进的优化方法,如高斯-牛顿法或基于元学习的更新策略。然而,许多用于部署深度学习的现实世界设备不支持反向传播,这限制了基于梯度的方法的应用。相比之下,无梯度方法在实际应用中具有更大的潜力。一类无梯度方法[63,66]利用额外的网络来更新暹罗跟踪器的模板[2,70]。另一个代表性工作LTMU [9]学习元更新器来预测当前状态是否足够可靠以用于长期跟踪中的更新。这些方法虽然有效,但造成了空间和时间的分离相比之下,我们的方法集成了空间和时间的信息作为一个整体,同时学习他们与Transformer。跟踪管道和后处理。先前跟踪器[28,59,69,54]的跟踪流水线是复杂的。具体地说,他们首先生成大量具有置信度分数的框建议,然后使用各种后处理来选择最佳的边界框作为跟踪结果。常用的后处理方法包括余弦窗、尺度或长宽比惩罚、边界框平滑、基于轨迹的动态规划等。虽然它带来了更好的结果,后处理的原因图2:仅空间跟踪的框架。目标跟踪可以在[37,31]中找到。这项工作试图缩小这一差距,通过预测每个帧中的一个边界框来实现最佳性能。3. 方法在本节中,我们提出了用于视觉跟踪的空间-时间-时间-格式网络,称为STARK。为了清楚起见,我们首先介绍一种简单的基线方法,该方法直接应用原始的编码器-解码器Transformer进行跟踪。基线方法只考虑空间信息,并取得了令人印象深刻的性能。在此之后,我们扩展基线来学习用于目标定位的空间和时间我们引入了一个动态模板和一个更新控制器来捕捉目标对象的外观变化。3.1. 一种基于Transformer的简易基线我们提出了一个简单的基线框架的基础上,视觉Transformer的对象跟踪。 网络架构如图所示。二、它主要由三个组件组成:卷积主干、编码器-解码器变换器和边界框预测头。骨干我们的方法可以使用任意卷积网络作为特征提取的骨干不失一般性,我们采用vanilla ResNet [17]作为主干。更具体地说,除了删除最后一级和全连接层之外,原始ResNet没有其他变化[17]。主干的输入是一对图像:初始目标对象z的模板图像R3× Hz×Wz 和当前帧的搜索区域xR3×Hx×Wx。 在通过主干之后,模板z和搜索图像x被映射到两个性能对超参数敏感。那里特征图F∈RC×Hz×Wz和f∈RC×Hx×Wx.一些跟踪器[18,21]试图简化跟踪流水线,但是它们的性能仍然远远落后于最先进的跟踪器。最近的书籍和调查编码器。从主干输出的特征图在馈送到编码器之前需要预处理。具体地说,首先使用瓶颈层来减少边界框预测水头zX10451解码器输出FCNs点积逐元素乘积∈Ss^tltl brbr∈频道号从C到D。然后将特征图沿空间维度展开并连接,产生长度为HzWz+HxWx的特征序列编码器输出左上角热图Ssss以及作为Transformer编码器的输入的D的尺寸。编码器由N个编码器层组成,每个编码器层由具有前馈网络的多头自注意模块组成。由于原始Transformer [53]的置换不变性,我们将正弦位置嵌入添加到输入序列。编码器捕获序列中所有元素之间的特征依赖关系,并利用全局上下文信息来增强原始特征,从而允许模型学习用于对象定位的判别特征。译码器解码器将目标查询和来自编码器的增强特征序列作为输入。与DETR [5]采用100个对象查询不同,我们只向解码器输入一个查询来预测目标对象的一个边界框。此外,由于只有一个预测,我们删除了匈牙利算法[27]在DETR中用于预测关联。与编码器类似,解码器堆叠M个解码器层,每个解码器层由自关注、编码器-解码器关注和前馈网络组成在编码器-解码器关注模块中,目标查询可以关注模板和搜索区域特征上的所有位置,从而学习用于最终边界框预测的鲁棒表示头DETR [5]采用三层感知器来预测对象框坐标。然而,如GFLoss [32]所指出的,直接回归坐标等同于拟合Dirac delta分布,其未能考虑数据集中的模糊性和不确定性这右下角热图图3:框预测头的架构。训练与推理我们的基线跟踪器是以端到端的方式训练的,结合了 1损失和广义IoU损失[48],如在DETR中。损失函数可以写为L= λio uLio u(bi,bi)+ λL1L1(bi,bi).(一)其中bi和Φbi分别表示基truth和预测框,并且λiou,λL1R 是 超 参 数 。 但 与DETR不同的是,我们不使用分类损失和匈牙利算法,从而进一步简化了训练过程。在推断期间,模板图像连同其来自主干的特征一起由第一帧初始化并在后续帧中固定在跟踪过程中,在每一帧中,网络将当前帧的搜索区域作为输入,并返回预测框作为最终结果,而不使用任何后处理,如余弦窗口或边界框平滑。公司简介代表性不灵活,对挑战不稳健例如对象跟踪中遮挡和杂乱的背景-(x^tl,y^tl)=(ΣΣx·Ptl(x,y),ΣΣy·Ptl(x,y)),ing. 为了提高盒子估计的质量,我们设计了一个y=0x=0y=0x=0公司简介新的预测头,通过估计的概率分布的方块角。如图3、我们先(x^br,y^br)=(x·Pbr(x,y),y·Pbr(x,y)),从编码器的输出序列中提取搜索区域特征y=0x=0y=0x=0(二)区域特征和来自解码器的输出嵌入接下来,将相似性分数与搜索区域特征逐元素相乘,以增强重要区域并削弱不太有区别的区域。 新功能序列被重塑为特征图fRd×Hs×Ws,并且然后被馈送到简单的全卷积网络(FCN)。FCN由L个堆叠的Conv-BN-ReLU层组成,并且分别针对对象绑定框的左上角和右下角输出两个概率图Ptl(x,y)和Pbr(x,y)。最后,通过计算角点的概率分布的期望来获得预测的框坐标(x,y)和(x,y),(二)、与DETR相比,我们的方法明确模型的坐标估计的不确定性,产生更准确和更强大的预测对象跟踪。3.2. 时空Transformer跟踪由于目标对象的外观可能随着时间的推移而显著改变,因此捕获目标的最新状态以用于跟踪是重要的。在本节中,我们将演示如何根据前面介绍的基线同时利用空间和时间信息。三个关键的区别,包括网络输入,一个额外的分数头,和训练推理策略。下面我们逐一阐述时空架构如图1B所示。4.第一章输入.与仅使用第一帧和当前帧的基线方法不同,时空方法引入了从中间帧采样的动态更新模板作为附加输入,如图1所示。4.第一章超越了最初的空间信息10452模板,动态模板可以捕获目标外观随时间的变化,提供额外的时间信息。类似于第2节中的基线架构在3.1中,三元组的特征图被平坦化并连接,然后被发送到编码器。编码器通过在空间和时间维度上对全局关系进行建模来提取有区别的空间-时间特征。头在跟踪期间,存在不应更新动态模板的一些情况。例如,当目标已经被完全遮挡或已经移出视野时,或者当跟踪器已经漂移时,裁剪的模板是不可靠的。为了简单起见,我们认为只要搜索区域包含目标,就可以更新动态模板。为了自动确定当前状态是否可靠,我们添加了一个简单的分数预测头,它是一个三层感知器,后面是一个S形激活。如果分数高于阈值τ,则当前状态被认为是可靠的。训练与推理正如最近的工作[8,50]所指出的,定位和分类的联合学习可能会导致两个任务的次优解决方案,并且有助于解耦定位和分类。因此,我们把训练过程分为两个阶段,定位是首要任务,分类是次要任务。具体而言,在第一阶段中,除了分数头之外,整个网络仅用等式(1)中的定位相关损失进行端到端训练1.一、在这个阶段,我们确保所有搜索图像包含目标对象,并让模型学习定位能力。在第二阶段中,仅利用定义为Lce=yi log(Pi)+(1−yi)log(1−Pi),(3)其中yi是地面实况标签,并且Pi是预测的置信度,并且所有其他参数被冻结以避免影响定位能力。以这种方式,最终模型在两阶段训练后学习定位和分类能力。在推断期间,在第一帧中初始化两个模板和对应的特征。然后,搜索区域被裁剪并馈送到网络中,生成一个边界框和置信度得分。仅当达到更新间隔并且置信度得分高于阈值τ时,才更新动态模板。为了效率,我们将更新间隔设置为Tu帧。从原始图像中裁剪新模板,然后馈送到主干进行特征提取。4. 实验本节首先介绍我们的STARK跟踪器在多个基准测试上的实现细节然后,烧蚀研究,提出了分析的影响,取代搜索区域初始动态模板模板是的更新骨干边界框预测头刻划头展平和连接Transformer编码器Transformer解码器目标查询词模板裁剪图4:用于时空跟踪的框架。与纯空间架构的差异用粉红色表示。建议网络中的组件。我们还报告了其他候选框架的结果,并与我们的方法进行比较,以证明其优越性。最后,可视化的注意力地图的编码器和解码器提供了解Transformer是如何工作的。4.1. 实现细节我们的跟踪器使用Python 3.6和Py- Torch 1.5.1实现。实验是在一台带有8个16GB Tesla V100 GPU的服务器上进行的。模 型 我 们 报 告 了 STARK 的 三 个 变 体 的 结 果 :STARK-S50、STARK-ST 50和STARK-ST 101。STARK-S50仅利用空间信息,并将ResNet-50 [17]作为骨干 ,即,第 2 节中 介绍的 基线 跟踪器 。第3.1条STARK-ST 50 和 STARK-ST 101 分 别 以 ResNet-50 和ResNet-101为主干,利用空间和时间信息,即的时空跟踪器。3.2.主干使用ImageNet上BatchNorm [22]层在训练期间被从第四阶段汇集骨干特征,步幅为16。Transformer架构类似于DETR [5]中的架构,具有6个编码器层和6个解码器层,其由多头注意层(MHA)和前馈网络(FFN)组成。MHA有8个头部,宽度256,而FFN有2048个隐藏单位使用0.1的脱落率。边界框预测头是轻量级FCN,由5个堆叠的Conv-BN-ReLU层组成。分类头是一个三层感知器,每层有256个隐藏单元。训 练 训 练 数 据 由 LaSOT [15] , GOT-10 K [20] ,COCO 2017 [35]和Track-10 K [20]的训练分割组成ingNet [43].根据VOT 2019挑战的要求,我们从GOT-10K训练集中删除了1 k个禁止序列。搜索图像和模板的大小为320×32010453×××Pr+Re×成功80706050403020100重叠阈值归一化精密度80706050403020100定位误差门限追踪网。TrackingNet [43]是一个大规模的短期跟踪基准,在测试集中包含511个视频序列选项卡. 图2显示STARK-S50和STARK-ST 50在AUC上分别超过PrDiMP50 [12] 4.5%和5.5%。凭借更强大的ResNet-101骨架,STARK-ST 101实现了82.0%的最佳AUC,比Siam R-CNN高出0.8%。VOT2020. 与 之 前 基 于 重 置 的 评 估 [26] 不 同 ,VOT2020 [25]提出了一种新的基于锚点的评估协议,并使用二进制分割掩码作为图5:LaSOT测试集的比较[15]。像素和128 × 128像素,分别相当于目标框面积的52倍和22倍。数据augmenta- tions,包括水平翻转和亮度抖动,使用。STARK-ST的最小训练数据单元是一个三元组,由两个模板和一个搜索图像组成。STARK-ST的整个训练过程由两个阶段组成,分别花费500个时期用于定位和50个时期用于分类。 每个纪元使用6 104三胞胎。该网络使用AdamW优化器[36]和权重衰减10-4进行优化。损失权重λ L1和λ iqu分别被设置为5和2。每个GPU托管16个三元组,因此小批量大小为128个三元组。主干和其余部分的初始学习率分别为10-5和10-4学习速率在第一阶段中的400个时期之后和在第二阶段中的40个时期之后下降10倍STARK-S的训练设置与STARK-ST 的 训 练 设 置 几 乎 相 同 , 除 了 ( 1 )STARK-S的最小训练数据单元是模板-搜索对;(2)训练过程仅具有第一阶段。推理。动态模板更新间隔Tu和置信度阈值τ默认设置为200帧和0.5。推理流水线仅包含从搜索区域到原始图像的前向传递和坐标变换,没有任何额外的后处理。4.2. 与以前基准的我们比较了我们的STARK与现有的最先进的对象跟踪器在三个短期基准(GOT-10 K,TrackingNet和VOT2020)和两个长期基准(LaSOT和VOT 2020-LT)。-1万。GOT-10 K [20]是一个大规模的基准测试,涵盖了对象跟踪中的各种常见挑战。GOT-10 K要求跟踪器仅使用GOT-10 k的训练集进行模型学习。我们遵循这一政策,仅使用GOT-10 K训练集重新训练我们的模型 如 表 1 所 示 。 1 , 具 有 相 同 的 ResNet-50 骨 架 ,STARK-S50和STARK-ST 50分别以3.8%和4.6%的AO评分优于PrDiMP 50 [12此外,STARK-ST 101获得了68.8%的最新AO评分,超过Siam R-CNN [54] 3.9%,具有相同的ResNet-101骨架。地 面 真 相 用 于 排 名 的 最 终 度 量 是 预 期 平 均 重 叠(EAO)。选项卡. 3表明STARK- S50取得了有竞争力的结果,优于DiMP [3]和STARK T [4]。在引入时间信息后,STARK-ST 50获得了0.308的EAO,优于以前的边界框跟踪器。受VOT 2020实时挑战赛获胜者Al-phaRef [25]的启发,我们为STARK配备了AlphaRef中的细化模块以生成分割掩码。新的跟踪器LaSOT LaSOT [15]是一个大规模的长期跟踪基准测试,在测试集中包含280个视频,平均长度为2448帧。使用相同的ResNet-50骨架,STARK-S50和STARK-ST50分别实现了超过PrDiMP [12]的6.0%和6.6%的增益。此外,STARK-ST 101获得了67.1%的成功率,比SiamR-CNN [54]高2.3%,如图所示。五、VOT2020-LT. VOT 2020-LT由50个长视频组成,其中目标物体频繁消失和重新出现。此外,跟踪器需要报告存在的目标的置信度分数。精确度(Pr)和召回率(Re)在一系列置信阈值下计算。定义为F=2PrRe的F- 分数用于对不同的跟踪器进行排名。由于STARK-S 无 法 预测 该 评 分 , 因 此我 们 未 在 VOT2020-LT上报告其结果选项卡. 4表明STARK-ST 50和STARK-ST 101分别以70.2%和70.1%的F分数优于所有先前方法。另外值得注意的是,STARK的框架比VOT 2020-LT挑战赛冠军LTMU B简单得多具体来说,LTMU B采用ATOM [11]和SiamMask [57]的组合作为短期跟踪器,MDNet [44]作为验证器,并且Global- Track [21]作为全局检测器。而STARK中只有一个网络,并且在一次前向传递中获得结果而无需后处理。速度、FLOP和参数。如表中所示6、STARK-S50可以以超过40fps的速度实时运行。此外,STARK-S50的浮点数和参数为4和2小于SiamRPN++的那些。 虽然斯塔克-ST50采用动态模板作为额外的输入,并在引入一个额外的分数头,FLOPs和Params的增加很少,甚至可以忽略不计。 这说明我们STARK-ST101 [67.1]SiamRCNN [64.8]PrDiMP50 [59.8]LTMU [57.2]DiMP50 [56.9]海洋[56.0]SiamFCpp [54.3]原子[51.5]SiamRPNpp [49.6]STARK-ST101 [77.0]SiamRCNN [72.2]PrDiMP50 [68.8]LTMU [66.5]海洋[65.1]DiMP50 [65.0]SiamFCpp [62.3]原子[57.6]SiamRPNpp [56.9]重叠精度[%]距离精度[%]0的情况。00。2040608个1. 00的情况。00。10.203040510454表1:GOT-10 k测试集的比较[20]。SiamFC[二]《中国日报》SiamFCv2[五十二]原子[第十一届]SiamFC++[59个]D3s[38个]DiMP50[3]第一章海洋[第六十九话]PrDiMP50[12个]SiamRCNN[五十四]斯塔克-S50斯塔克-ST50斯塔克-ST101AO(%)34.837.455.659.559.761.161.163.464.967.268.068.8SR0.5(%)35.340.463.469.567.671.772.173.872.876.177.778.1SR0.75(%)9.814.440.247.946.249.247.354.359.761.262.364.1表2:TrackingNet测试集的比较[43]。DSiamRPN[70个国家]原子[第十一届]SiamRPN++[28日]DiMP50[3]第一章SiamAttn[第六十五章]SiamFC++[59个]MAML-FCOS[55个]PrDiMP50[12个]SiamRCNN[五十四]斯塔克-S50斯塔克-ST50斯塔克-ST101AUC(%)63.870.373.374.075.275.475.775.881.280.381.382.0P标准(%)73.377.180.080.181.780.082.281.685.485.186.186.9表3:VOT2020的比较[25]。“+AR”意指使用α-Refine来预测掩模。上一行总结了仅预测边界框的跟踪器,并且下一行呈现了报告掩码的跟踪器。IVT[49个]KCF[19个]SiamFC[二]《中国日报》CSR-DCF[39]第三十九届原子[第十一届]DiMP[3]第一章UPDT[4]美国DPMTSuperDiMP[1]第一章斯塔克-S50斯塔克-ST50斯塔克-ST101EAO(↑)准确度(↑)耐用性(↑)0.0920.3450.2440.1540.4070.4320.1790.4180.5020.1930.4060.5820.2710.4620.7340.2740.4570.7400.2780.4650.7550.3030.4920.7450.3050.4770.7860.2800.4770.7280.3080.4780.7990.3030.4810.775STM[45个]SiamEMSiamMask[五十七]SiamMargin[25日]海洋[第六十九话]D3s[38个]FastOceanAlphaRef[25日]OceanPlus[67个]斯塔克-S50+AR斯塔克-ST50+AR斯塔克-ST101+AREAO(↑)准确度(↑)耐用性(↑)0.3080.7510.5740.3100.5200.7430.3210.6240.6480.3560.6980.6400.4300.6930.7540.4390.6990.7690.4610.6930.8030.4820.7540.7770.4910.6850.8420.4620.7610.7490.5050.7590.8170.4970.7630.789方法可以以几乎无成本的方式利用时间信息。当ResNet-101用作主干时,FLOP和Params都显著增加,但STARK-ST 101仍然可以以实时速度运行,比SiamR-CNN(5fps)快6倍,如图所示。1.一、4.3. 新建基准比较注意。近年来,在一些小规模跟踪基准点(如OTB[58])上观察到明显的过拟合趋势。这些数据集上的性能可能无法准确反映各种跟踪器的跟踪能力为了解决这个问题,我们收集了一个名为NOTU的新的大规模跟踪基准,它包含来自NFS [24],OTB 100 [58],TC-128 [33]和UAV的所有401个123 [42]。选项卡. 5表明OTB100上的跟踪器的排名与NOTU上的排名完全不同,验证了我们之前提到的过拟合现象。此外,STARK算法在NOTU上的性能始终优于以往的跟踪算法,表现出较强的泛化能力。4.4. 分量分析在本节中,我们选择STARK-ST 50作为基础模型,并评估其中不同组件对LaSOT的影响[15]。为了简单起见,编码器、解码器、位置编码、角预测和分数头分别缩写为enc、dec、pos、角和分数如Tab.所示7#1,当移除编码器时,成功率显著下降5.3%。这说明来自模板和搜索区域的特征之间的深度交互当解码器被移除时,性能下降1.9%,如#2所示。这一下降小于去除编码器的下降,表明解码器的重要性小于编码器。当所述位置10455如果去除编码,则性能仅下降0.2%,如#3所示。因此,我们得出结论,位置编码不是我们的方法中的关键组成部分。我们还尝试用DETR [5]中的三层感知器替 换 角 头 。 #4 表 明 , 具 有 MLP 作 为 箱 形 封 头 的STARK的性能比所提出的角形封头低2.7%结果表明,角头法预测的箱形更加准确。如#5中所示,当移除分数头时,性能下降到64.5%,这低于不使用时间信息的STARK-S50的性能这表明,不适当地使用时态信息可能会损害性能,过滤掉不可靠的模板是重要的。4.5. 与其他框架的在本节中,我们选择STARK-ST 50作为基础模型,并将其与其他可能的候选框架进行比较。这些框架包括 从 模 板 生 成 查 询 , 使 用 匈 牙 利 算 法 , 如TrackFormer [41]中更新查询,以及联合学习局部化和分类。由于篇幅所限,详细的结构图在补充资料中给出。模板图像用作查询。查询和模板在Transformer跟踪中具有类似的功能。例如,它们都被期望对关于目标对象的信息进行从这个角度看,一个自然的想法是使用模板图像来充当解码器的查询。具体地,首先,模板和搜索区域特征被分别馈送到权重共享编码器,然后从模板特征生成的查询被用于与解码器中的搜索区域特征交互。如Tab.所示8、这个框架的性能是10456表4:VOT-LT 2020基准的比较[25]。[62]ltMDNetSiamDW LT [68]RLT DiMPCLGSMegtrackLTMU B [9]LT DSESTARK-ST50STARK-ST101F评分(%)56.557.465.667.067.468.769.169.570.270.1Pr(%)58.764.967.865.773.970.370.171.571.070.2Re(%)54.451.463.568.461.967.168.167.769.570.1表5:收集的大规模基准NOTU及其子集的成功评分(%)比较[24,58,33,42]。SiamFC[二]《中国日报》RT-MDNet[23日]ECO[10个国家]海洋[第六十九话]LightTrack[60个]SiamRPN++[28日]原子[第十一届]DiMP50[3]第一章TransT[6]美国STARK-S50STARK-ST50STARK-ST101NOTU47.252.956.756.757.459.861.563.465.064.966.066.1NFS37.743.352.249.449.357.158.361.865.364.365.266.2OTB10058.365.066.668.465.468.766.368.469.568.368.568.1公司简介48.956.358.955.755.057.759.961.259.660.062.663.1UAV12346.852.853.557.462.659.363.264.368.168.469.168.2表6:关于速度、FLOP和参数的比较。跟踪器速度(fps)FLOPs(G)参数(M)STARK-S5042.212.128.1STARK-ST5041.812.828.2STARK-ST10131.720.447.2SiamRPN++35.048.954.0表7:重要组件的消融。空白表示默认使用该组件,表示删除该组件。性能评价LaSOT。#ENCDecPOS角落评分成功1✗✗✗✗✗61.1264.5366.2463.7564.5666.4表8 : STARK 与 其 他 候 选 框 架 之 间 的 比 较 。 性 能 评 价LaSOT。额外的动态模板,TrackFormer [41]通过更新查询嵌入来编码节奏信息。按照这个想法,我们扩展的STARK-S50到一个新的时间跟踪器更新的目标查询。选项卡. 8表明,该设计实现了64.8%的成功率,比STARK-ST 50低1.6%。潜在的原因可能是可更新查询嵌入带来的额外信息比额外模板少得多。共同学习本地化和分类。如第3.2节所述,定位被视为主要任务,并在第一阶段进行训练。而分类作为次要任务在第二阶段训练。我们还做了一个实验,在一个阶段中联合学习本地化和分类。如Tab.所示。8,该策略导致次优结果,比STARK低3.9%。两个潜在原因是:(1)评分头的优化干扰了箱头的训练,导致不准确的箱预测。(2)这两个任务的训练需要不同的数据。具体来说,本地化任务期望所有搜索区域都包含跟踪的目标是提供强有力的监督。相比之下,类-模板匈牙利语更新Loc-Cls Oursquery query联合成功61. 2 63. 7 64. 8 62. 566. 461.2%,比我们的设计低5.2%。我们推测,其根本原因是,与我们的方法相比,这种设计缺乏从模板到搜索区域的信息流,从而削弱了搜索区域特征的区分力。使用匈牙利算法[5]。 我们还尝试使用K个查询,用置信度分数预测K个框。在实验中K等于10。在使用匈牙利算法的训练期间,地面实况与这些查询动态匹配。我们观察到这种训练策略导致“马太效应”。只有一个或两个查询具有预测高质量框的能力如果在推断期间未选择它们,则预测框可能变得不可靠。如Tab.所示8,该策略的性能比我们的方法差2.7%。更新查询嵌入。与STARK不同的是,STARK通过引入目标识别任务期望均衡的分布,一半的搜索区域包含目标,而剩余的一半不包含。5. 结论本文提出了一种新的基于变换的跟踪框架,它可以捕获的长期依赖性在空间和时间维度。此外,所提出的STARK跟踪器摆脱了超参数敏感的后处理,导致一个简单的推理流水线。大量的实验表明,STARK跟踪器在实时运行的同时,在现有的短期和长期基准测试以及新构造的NOTU基准测试上的性能都我们期望这项工作能够吸引更多的关注Transformer架构的视觉跟踪。谢谢。我们要感谢审稿人的深刻评论。Lu和Wang的部分研 究 得 到 了 国 家 自 然 科 学 基 金 项 目 U1903215 、61725202、61829102、62022021和大连市自然科学基金项目的创新领导人2018RD07.10457引用[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Hadoop生态系统与MapReduce详解
- MDS系列三相整流桥模块技术规格与特性
- MFC编程:指针与句柄获取全面解析
- LM06:多模4G高速数据模块,支持GSM至TD-LTE
- 使用Gradle与Nexus构建私有仓库
- JAVA编程规范指南:命名规则与文件样式
- EMC VNX5500 存储系统日常维护指南
- 大数据驱动的互联网用户体验深度管理策略
- 改进型Booth算法:32位浮点阵列乘法器的高速设计与算法比较
- H3CNE网络认证重点知识整理
- Linux环境下MongoDB的详细安装教程
- 压缩文法的等价变换与多余规则删除
- BRMS入门指南:JBOSS安装与基础操作详解
- Win7环境下Android开发环境配置全攻略
- SHT10 C语言程序与LCD1602显示实例及精度校准
- 反垃圾邮件技术:现状与前景
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功