没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文SparseTT:使用稀疏变换器的傅志红,傅泽华,刘庆杰,蔡文瑞,王云红北京航空航天大学虚拟现实技术与系统国家重点实验室北京航空航天大学杭州创新研究院{傅志红傅泽华刘庆杰蔡文瑞王毅}@ buaa.edu.cn摘要变形金刚已经成功地应用于视觉跟踪任务,并显着提高跟踪性能。自我注意机制是设计来模拟远程依赖关系的,这是《变形金刚》成功的关键。然而,自我注意力缺乏对搜索区域中最相关信息的关注,很容易被背景分散注意力。在本文中,我们缓解了这个问题与稀疏注意机制,通过集中在搜索区域中的最相关的信息,这使得更准确的跟踪。此外,我们还引入了双头预测器来提高前景-背景分类和目标包围盒回归的准确性,从而进一步提高了跟踪性能。大量的实验表明,在没有花里胡哨的情况下,我们的方法在40 FPS下运行时,在La- SOT、GOT-10 k、TrackingNet和UAV 123上的性能明显优于最先进的方法值得注意的是,我们的方法的训练时间比TransT减少了75%。源代码和模 型 可 以 在 www.example.com 上 找 到https://github.com/fzh0917/SparseTT。1介绍视觉跟踪的目的是在给定目标的初始状态的情况下预测目标的未来状态。它适用范围广泛,如人机交互、视频监控和自动驾驶等。大多数现有方法利用序列预测框架来解决跟踪问题,其中它们基于初始状态和初始状态来估计当前状态。因此,在每一个时间片上给出准确的状态是很重要的,否则误差会积累并导致跟踪失败。已经投入了大量的努力来提高跟踪精度,即,目标边界框的准确性。然而,目标变形、部分遮挡和尺度变化等挑战仍然是阻碍它们完美跟踪的巨大障碍。其原因可能是这些方法大多采用互相关运算来度量目标模板与搜索区域之间的相似性,容易陷入局部最优。最近,TransT[Chenet al. ,2021年]和DTT [Yu联系作者#679#756#947#279#568#736#247#558#1188我们的TransTTrDiMP 地面实况图1:我们的方法与优秀跟踪器TransT的可视化比较[Chenetal. ,2021]和TrDiMP [Wanget al. ,2021]。我们的方法使目标的包围盒是更准确的,即使在严重的目标变形,部分遮挡,和规模变化。放大以获得更好的视图。等人,2021]通过用Transformer替换相关性来提高跟踪性能[Vaswaniet al. ,2017]。然而,使用Transformers构建跟踪器会带来一个新的问题:Transformers自注意的全局视角导致搜索区域中的主要信息(如目标)聚焦不足,而搜索区域中的次要信息(如背景)聚焦过度,使得前景和背景之间的边缘区域模糊,从而降低跟踪性能。在本文中,我们攻击这个问题集中在搜索区域,这是实现了稀疏Transformer的最相关的信息。不同于以往作品中使用的香草变形金刚[Chenet al. ,2021;Yuet al. ,2021],稀疏Transformer主要关注原始信息,即使在目标严重变形、部分遮挡、尺度变化等情况下,也能使目标更具区分性,目标的边界框更准确,如图所示。1.一、总之,这项工作的主要贡献是三方面的。• 我们提出了一个目标聚焦网络,它能够聚焦在搜索区域中感兴趣的目标上,arXiv:2205.03776v1 [cs.CV] 2022年5月+v:mala2277获取更多论文回归φFCFC256×8×8分类目标模板3×127×1271024×19×19权重共享C512×19×191024×19×19分类φConvConvC:级联回归搜索区域3×289×289256×19×19特征提取网络目标焦点网络双头预测器解码器编码器图2:我们方法的架构。突出最相关信息的特征,以便更好地估计目标的状态。• 提出了一种基于稀疏Transformer的连体跟踪框架,该框架具有较强的处理目标变形、部分遮挡、尺度变化等问题的能力。• 大量的实验表明,我们的方法优于LaSOT,GOT-10 k,TrackingNet和UAV 123上的最先进的方法,同时运行在40 FPS,证明了我们的方法的优越性。2相关工作暹罗追踪者在暹罗视觉跟踪器中,互相关是一种常用的度量目标模板与搜索区域之间相似性的方法,在视觉跟踪中得到了广泛的研究。例如朴素互相关[Bertinettoetal. ,2016]、深度方向互相关[Liet al. ,2019;Xuet al. ,2020]、逐像素互相关[Yanet al. ,2021b],像素到全局匹配互相关[Liaoet al. ,2020]等。然而,互相关执行局部线性匹配过程,其可能容易落入局部最优[Chenetal. ,2021]。此外,互相关捕获的关系,从而破坏输入的特征,这是不利于准确感知的目标边界的语义信息。大多数暹罗跟踪器在处理目标变形、部分遮挡、尺度变化等问题时仍存在困难.视觉跟踪中的Transformer。近年来,变换器已成功地应用于视觉跟踪领域.借鉴DETR的灵感[Carionet al. ,2020],STARK [Yanet al. ,2021 a]将目标跟踪转换为边界框预测问题,并使用编码器-解码器Transformer来解决该问题,其中编码器对目标和搜索区域之间的全局时空特征依赖性进行建模,并且解码器学习查询嵌入以预测目标的空间位置。它在视觉跟踪方面取得了很好的效果。 TrDiMP [Wanget al. ,2021] de-标志着一个类似于连体的跟踪流水线,其中两个分支是用CNN主干构建的,后面分别是Transformer这里的变换器用于增强目标模板和搜索区域。与之前的连体跟踪器类似,TrDiMP应用互相关来测量目标模板和搜索区域之间的相似性,这可能会阻碍跟踪器进行高性能跟踪。注 意 到 这 个 缺 点 , TransT [Chenet al. , 2021]和 DTT[Yuet al. ,2021]提出用Transformer代替互相关,从而生成融合特征而不是响应评分。由于融合特征包含比响应分数更丰富的语义信息,这些方法比以前的连体跟踪器达到更准确的Transformers中的Self-attention专注于对长距离依赖关系进行建模,使其擅长捕捉全局信息,然而,缺乏对搜索区域中最相关信息的为了进一步提升Transformer跟踪器,我们使用稀疏注意力机制来减轻上述自注意力这个想法的灵感来自[Zhaoet al. ,2019]。我们采用稀疏Transformer [Zhaoet al. ,2019],以适应视觉跟踪任务,并提出了一种新的端到端的暹罗跟踪器与编码器-解码器稀疏Transformer。在稀疏注意机制的驱动下,稀疏Transformer算法聚焦于搜索区域中最相关的信息,从而更有效地抑制干扰跟踪的分散背景。3方法我们提出了一种用于视觉跟踪的连体结构,它由特征提取网络、目标聚焦网络和双头预测器组成,如图2所示。特征提取网络是权重共享的骨干。使用稀疏的Transformer构建目标聚焦网络,生成目标聚焦特征。双头预测器对前景和背景进行区分,并输出目标的包围盒注意,我们的方法运行在+v:mala2277获取更多论文贝加尔夫布拉夫ENCDec..=标准MCAX,Y.F.ΣENC−DecENCY,Y跟踪阶段无需在线更新,实时速度快。3.1目标焦点网络目标聚焦网络是用稀疏Transformer构建的,它有一个编码器-解码器架构,如图3所示。编码器负责对目标模板特征进行编码。解码器负责对搜索区域特征进行解码以生成目标聚焦特征。译码器解码器是提出的目标聚焦网络中必不可少的组成部分.与编码器类似,解码器由M个解码器层组成。然而,与编码器层不同,每个解码器层不仅输入具有空间位置编码的搜索区域特征或其前一个解码器层的输出,而且还输入编码器输出的编码目标模板特征简而言之,它可以正式表示为:以目标为中心的功能我Ndec.X+P下降,YNn,i=1���×decoder(X,Yenc)=i.Yi−1,YNn,2≤i≤M(二)其中X∈RHsWs×C表示搜索区域特征,Pdec∈RHsWs×C表示空间位置编码,FFNNENC∈RHtWt×C表示编码后的目标模板���×由编码器输出的特征,表示第i个解码器层,Yi−1 ∈RHsWs×C 表示输出添加规范(i−1)Dec-th解码器层。Hs和Ws高度和宽度FFN多头交叉注意搜索区域的特征图。不同 从 的 解码器 层 的 香草反式编码层位置编码KVQ解码器层位置编码前[Vaswaniet al. ,2017],每个解码器层的亲,设 定 的 稀 疏 Transformer 首 先 使 用 稀 疏 多 头 自 注 意(SMSA)计算X上的自注意,然后使用朴素多头交叉注意(MCA)计算Z和X之间的交叉注意。其他操作与vanilla Transformer 的 解 码 器 层 相 同 [Vaswaniet al. ,2017]。形式上,所提出的稀疏Transformer的每个解码器层可以表示为:X=标准。SMSA。Yi−1+Yi−1目标模板要素搜索区域要素图3:目标焦点网络的架构。吉吉DecDec中国ENCDecNENC+X(三)编码器。编码器是一个重要的,但不是必不可少的COM-在建议的目标焦点网络的组成部分。 它是我Dec=正常。FFN余氏吉吉Dec其中每个编码器层将其先前编码器层的输出作为输入。注意,为了使网络能够感知空间位置信息,我们在目标模板特征上添加了空间位置编码,并将和输入到编码器。因此,第一编码器层将具有空间位置编码的目标模板简而言之,它可以正式表示为:稀疏多头自我注意力。设计了稀疏多头自注意算法,提高了前景-背景的区分度,减少了前景边缘区域的模糊性。具体地说,在朴素MSA中,注意力特征的每个像素值是由输入特征的所有像素值计算的在我们提出的SMSA中,注意力特征的每个像素值只由与它最相似的K个像素值决定,这使得前景更加集中编码器(Z)=我的EncF(Z+Penc),i=1i−1(一)并且前景的边缘区域更有区别。具体而言,如图中所示4、给定查询我ENC, 2≤i≤N∈RHW×C,密钥∈RC×H'W',值∈RH'W'×C,我们其中Z∈RHtWt×C表示目标模板特征,Penc∈RHtWt×C表示空间位置编码,首先计算查询之间所有像素对的相似度,关键字和屏蔽掉相似性矩阵中不必要的标记我的Enc表示第i个编码器层,Yi-1∈RHtWt×C然后,不同于天真的缩放点积注意力,表示(i)的输出 1)第n编码器层。t和Wt分别是目标模板的特征图的高度和宽度在每个编码器层,我们使用多头自注意(MSA)显式地建模目标模板特征的所有像素对之间的关系。其他操作与vanilla Transformer的编码器层相同[Vaswaniet al. ,2017]。在图4的左边所示,我们只归一化K个最大的元素。使用softmax函数从相似度矩阵的每一行中提取元素对于其他元素,我们将其替换为0。最后将相似度矩阵与相似度值相乘得到最终结果.图4中的右上方和右下方示出了在朴素缩放点积注意力和稀疏缩放点积注意力添加规范稀疏多头自注意多头自我注意添加规范添加规范添加规范YYDecY+YFDecΣ+v:mala2277获取更多论文HW×CHW× H'W'HW×KHW× K指数HW×CHW× H'W'示例:naive softmaxHW散射H'W'softmaxHW× H'W'HW×CC× H'W'H'W'×CHW× H'W'HW× CC×H'W'H'W'×CTOPK标度点积自注意稀疏标度点积自注意示例:topK-softmax-scatter值关键查询值关键查询规模规模掩模掩模TOPK散射softmaxsoftmax输出输出1+αΣΣFCα=0。3,β=(1. 5wt+0. 5ht)×(1. 5ht+0.5wt),FCFC残余阻滞[Heet al. ,2016],并设置其他L-1FCconv√0.26070.09780.23360.09880.20920.09980.990.010.880.020.770.030.990.880.770.990.010.880.020.770.03图4:左边是MSA中缩放点积自注意力的图示,中间是SMSA中稀疏缩放点积自注意力的图示,其中函数分散意味着将给定值填充到给定索引的0值矩阵中。右上和右下分别是在朴素缩放点积注意力和稀疏缩放点积注意力中对相似性矩阵的行向量进行归一化的示例。点产品的注意力,分别。我们可以看到,朴素尺度点积注意放大了相对较小的相似性权重,这使得输出特征容易受到噪声和分散背景的影响。然而,这个问题可以显着缓解稀疏缩放点积atten- tion。3.2双头预测器现有的跟踪器大多采用全连接网络或卷积网络进行前景与背景的分类和目标包围盒的回归,没有根据分类和回归任务的特点受[Wuet al. ,2020],我们引入了双头预测器来提高分类的准确性,回归分析具体而言,如图所示2、它由一个4实验4.1实现细节训 练 数 据 集 。 我 们使 用 Tracking- ingNet 的 列车 拆 分[Mulleret al. ,2018],LaSOT [Fanet al. ,2019]、GOT-10k[Huangetal.,2019],ILSVRCVID[Russakovskyetal. ,2015],ILSVRC DET [Russakovskyetal. ,2015]和COCO [Linet al. ,2014]作为训练数据集,除了GOT-10 k [Huanget al. ,2019]基准。我们从每个视频中选择最大帧索引差为100的两个帧作为目标模板和搜索区域。为了增加培训的多样性,我们将随机缩放的范围设置为1,1+α,将 r和om平移的范围设置为[−0]。2β,0. 2β],其中FC头由两个完全连接的层和conv-head由L个卷积块组成Unfo-目标模板,且β=搜索区域。这里t·s(1. 5 ws +0. 5 hs)×(1. 5小时零分。5ws)为在训练中增加了cused任务以进行额外的监督。在在推理阶段,对于分类任务,我们融合由fc-head输出的分类分数和由conv-head输出的分类分数;对于回归任务,我们仅采用由conv-head输出的预测偏移。3.3训练损失我们遵循[Xuet al. ,2020]以生成分类分数和回归偏移的训练标签。为了训练整个网络端到端,目标函数是分类损失和回归损失的加权和,如下所示:L=ωfc·<$λfcLclass+(1−λfc)Lbox<$convconvwt和ht是宽度和高度在目标模板中的目标,分别;w和h其中,t是目标在搜索区域中的宽度和高度,r是目标模板和搜索区域的大小在实践中,我们设置t=127,s=289。模 型 设 置 。我 们 使用 Swin Trans- former 的 微 型版 本[Liuet al. ,2021](Swin-T)作为骨干节点。 在MSA、SMSA和MCA中,头的数目被设置为8,FFN的隐藏层中的通道的数目被设置为2048,并且丢弃率被设置为0.1。编码器层的数目N和解码器层的数目M被设置为2,并且SMSA中的稀疏度K被设置为32。参见第二节。4.2中关于超参数的更多讨论目标聚焦网络。 在这片土地上,+ωconv·<$(1−λconv)L类+λconvL盒<$双头预测器,第一卷积块被设置为其中ωfc,λfc,ωconv和λconv是h型r-参数. 在在实践中,我们设置ωfc=2。0,λfc=0. 7,ωconv=2。5,λconv=0的情况。8 .第八条。实现了函数Lclass和Lclass到瓶颈块[He et al. ,2016],其中L = 8。优化. 我们使用AdamW优化器来训练我们的方法20个epoch。在每个时期,我们采样600,000 im-[2019 - 05 - 15][2019 - 05 - 15][2019 - 05 -15] ,2017],以及函数Lbox和所有训练数据集的年龄对请注意,我们只采样箱形转换器都是通过IoU损失实现的[Yuet al. ,2016]。300,000个图像对,来自GOT-10 k的列车L(四)0.370600.332000.297400 ⋯0⋯ ⋯ ⋯0 ⋯00.37060.33200.2974+v:mala2277获取更多论文×××标杆批量大小设置为32,学习率和权重衰减都设置为110−4。在训练10个epoch和15个epoch之后,学习率下降到110−5和110−6。整个训练过程在4个NVIDIA RTX 2080 TiGPU上大约需要60小时AO0.6670.6930.6800.6770.6820.662SR 0。50.7630.7910.7770.7710.7800.754SR 0。750.6110.6380.6270.6230.6270.605表3:我们的方法在测试分裂上的性能请注意,TransT的训练时间约为10天(240小时),是我们方法的4倍4.2消融研究编码器层数。在我们的方法中,编码器用于增强目标模板的泛化能力,因此编码器层的数量对我们的方法很重要选项卡. 1列出了我们的方法使用不同数量的编码器层的性能。有趣的是,所提出的目标聚焦网络在没有编码器的情况下仍然可以带来相当的性能。随着数量的增加,性能逐渐提高。然而,当编码器层的数量大于2时,性能下降。我们认为,过多的编码器层可能会导致模型训练的过拟合。因此,我们在剩下的实验中将编码器层数设置为2。N0123AO0.6760.6870.6930.679SR 0。50.7700.7830.7910.770SR 0。750.6270.6340.6380.620表1:当将编码器层数设置为0、1、2和3时,我们的方法在GOT-10 k的测试分割上的性能解码器层数。然 后 ,我们探索解码器层数M的最佳设置,如Tab. 2. 类似于N,随着解码器层的数量增加,当M不大于2时,性能逐渐改善。我们还注意到,当M等于3时,性能下降,运行速度大幅减慢我们推测这可能是由过拟合引起的。因此,在剩余实验中将MM123AO0.6720.6930.661SR 0。50.7640.7910.754SR 0。750.6190.6380.610FPS40.239.937.7表2:当将解码器层的数量设置为1、2和3时,我们的方法在GOT-10 k的测试分割上的性能SMSA中的稀疏性K。 在SMSA中,稀疏度K显著影响前景的激活程度。由于目标的尺度变化,选择合适的稀疏度K值可以保证SMSA具有良好的自适应性和泛化能力选项卡. 图3示出了不同稀疏度值对我们的方法的性能的影响注意,当K=H′W′时,SMSA变为朴素MSA。我们发现,SMSA总是带来更好的性能比MSA在我们的方法,这表明SMSA的有效性和优越性。当K为32时,我们的方法达到最佳性能。因此,我们在实验中将稀疏度K设置为32为SMSA设置不同稀疏值时,GOT-10 k,其中H′W′表示相似度矩阵的列数。4.3与最新技术水平的LaSOT是一个具有高质量注释的大规模长期数据集。它的测试分割由280个序列组成,平均长度超过2500帧。我们评估我们的方法上的LaSOT的测试分裂,并与其他竞争力的方法进行比较如Tab.所示。4,我们的方法在成功率,精度和归一化精度指标方面达到了最佳性能。方法成功精密度N. 精密度我们0.6600.7010.748TransT [Chenet al. ,2021年]0.6490.6900.738TrDiMP [Wanget al. ,2021年]0.6390.6620.730SAOT [Zhouet al. ,2021年]0.6160.6290.708STMTrack [Fuet al. ,2021年]0.6060.6330.693DTT [Yuet al. ,2021年]0.601--自动匹配[Zhanget al. ,2021年]0.5830.5990.675SiamRCR [Penget al. ,2021年]0.5750.599-LTMU [Daiet al. ,2020年]0.5700.5660.653DiMP-50 [Bhat等人,,2019年]0.5650.5630.646海洋[Zhanget al. ,2020年]0.5600.5660.651SiamFC++[Xuet al. ,2020年]0.5430.5470.623SiamGAT [Guoet al. ,2021年]0.5390.5300.633表4:我们的方法和其他优秀的方法在LaSOT测试分裂上的性能,其中 和精确度”分别表示成功、精度和归一化精度最好的两个结果分别以红色和蓝色突出显示我们还评估了我们的方法与变形,部分遮挡,和规模变化的attributes的测试子集。结果见表1。5. 可以看出,我们的方法在上述具有挑战性的场景中表现最好,显著超过其他竞争方法。这些问题给目标边界的准确确定带来了不确定性,使得跟踪器难以定位和估计目标边界框。然而,我们的方法很好地应对了这些挑战GOT-10 k包含9335个用于训练的序列和180个用于测试的序列。与其他数据集不同的是,GOT-10 k只允许使用火车分裂来训练跟踪器我们遵循此协议来训练我们的方法,并在测试拆分上对其进行测试,然后在Tab中报告性能。6. 我们看到,我们的方法超过了第二个最好的跟踪器TransT的显着保证金,这表明我们的方法是优于其他方法时,注释的训练数据是有限的。UAV123是由无人机拍摄的低空航空数据集,包括123个序列,平均每个序列915帧由于航空影像的特点,该数据集中的许多目标分辨率较低,容易出现快速运动和运动模糊。尽管如此,我们的方法仍然能够很好地应对这些挑战。如图所示,7、该方法优于其他竞争方法,在UAV123上达到了最先进的性能K163264128256H0W 0+v:mala2277获取更多论文方法变形部分遮挡尺度变化旋转视点改变成功精密度成功精密度成功精密度成功精密度成功精密度我们TransT [Chenet al. ,2021年]TrDiMP [Wanget al. ,2021年]STMTrack [Fuet al. ,2021年]SAOT [Zhouet al. ,2021年]自动匹配[Zhanget al. ,2021年]海洋[Zhanget al. ,2020年]DiMP-50 [Bhat等人,,2019年]SiamFC++[Xuet al. ,2020年]SiamGAT [Guoet al. ,2021年]LTMU [Daiet al. ,2020年]0.6850.6700.6460.6400.6170.6010.6000.5740.5740.5710.5600.6930.6740.6150.6240.5800.5650.5570.5060.5320.5090.4940.6340.6200.6090.5710.5840.5530.5230.5370.5090.5120.5300.6650.6500.6190.5820.5860.5570.5140.5160.4970.4850.5110.6600.6460.6340.6060.6110.5810.5570.5600.5440.5400.5650.7000.6870.6550.6310.6230.5960.5600.5540.5460.5300.5580.6660.6430.6240.6010.5960.5720.5460.5490.5480.5380.5430.7040.6870.6410.6310.6060.5840.5430.5330.5490.5270.5280.6730.6170.6220.5820.5410.5670.5210.5530.5140.5000.5870.7130.6540.6390.6260.5540.5910.5180.5680.5380.4980.599表5:我们的方法和其他优秀的方法在具有变形、部分遮挡、尺度变化、旋转和视点变化属性的LaSOT测试子集上的成功性能,其中和分别代表成功和精确最好的两个结果分别以红色和蓝色方法AOSR 0。5 SR 0。75方法成功精密度N. 精密度我们0.6930.7910.638我们81.779.586.6TransT [Chenet al. ,2021年]0.6710.7680.609TransT [Chenet al. ,2021年]81.480.386.7TrDiMP [Wanget al. ,2021年]0.6710.7770.583STMTrack [Fuet al. ,2021年]80.376.785.1自动匹配[Zhanget al. ,2021年]0.6520.7660.543DTT [Yuet al. ,2021年]79.678.985.0STMTrack [Fuet al. ,2021年]0.6420.7370.575TrDiMP [Wanget al. ,2021年]78.473.183.3SAOT [Zhouet al. ,2021年]0.6400.749-SiamRCR [Penget al. ,2021年]76.471.681.8KYS [Bhatet al. ,2020年]0.6360.7510.515自动匹配[Zhanget al. ,2021年]76.072.6-DTT [Yuet al. ,2021年]0.6340.7490.514PrDiMP [Danelljanet al. ,2020年]75.870.481.6PrDiMP [Danelljanet al. ,2020年]0.6340.7380.543SiamFC++[Xuet al. ,2020年]75.470.580.0SiamGAT [Guoet al. ,2021年]0.6270.7430.488DiMP-50 [Bhat等人,,2019年]74.068.780.1表6:我们的方法和其他优秀的方法在GOT-10 k测试分裂上的性能。最好的两个结果分别以红色和蓝色这证明了我们的方法的推广性和适用性。OTB2015是视觉跟踪领域的经典测试数据集该方法包含100个短期跟踪序列,涵盖了目标变形、遮挡、尺度变化、旋转、光照变化、背景杂波等11个虽然注释不是很准确,而且近年来趋于饱和,如Tab. 7,然而,我们的方法仍然优于优秀的跟踪器TransT [Chenet al. 2021年],并取得了相当的成绩。表8:我们的方法和其他优秀的方法在TrackingNet的测试分割上的性能,其中“Succ.",“精确”和“N.精确度”代表成功、精度和归一化精度、恢复。最好的两个结果分别以红色和蓝色突出显示。追踪网的测试版如Tab.所示。8,我们的方法在成功度量方面实现了最佳性能。5结论部分在这项工作中,我们提高Transformer为基础的视觉跟踪与新的稀疏Transformer跟踪器。Transformer中的稀疏自注意机制缓解了集中于全局上下文的问题,从而忽略了香草自注意机制所面临的最相关的信息,从而突出了搜索区域中的潜在目标此外,还引入了双头预测器,方法UAV123 OTB2015我们的0.704TransT [Chenet al. ,2021年]0.6910.694PrDiMP [Danelljanet al. ,2020]0.6800.696TrDiMP [Wanget al. ,2021年]0.6750.711DiMP-50 [Bhat等人,,2019]0.6540.684STMTrack [Fu et al. ,2021年]0.6470.719表7:我们的方法和其他优秀方法在UAV123和OTB2015上的性能。最好的两个结果分别以红色和蓝色TrackingNet是一个大规模的数据集,其测试分割包括511个序列,涵盖各种对象类别和跟踪场景。我们报告我们的方法的性能分类和回归的准确性。实验结果表明,该方法在多数据集上的性能明显优于现有方法,同时具有实时性,证明了该方法的优越性和实用性.此外,我们的方法的训练时间只有TransT的25%。总的来说,这是一个新的优秀的基线,为进一步的研究。引用[Bertinetto et al. Luca Bertinetto , Jack Valmadre , Joao FHenriques,Andrea Vedaldi,and Philip HS Torr.用于目标跟踪的全卷积连体网络。在ECCV,第850-865页SiamRCR [Penget al. ,2021年]0.624--DiMP-50 [Bhat等人,,2019年]0.6110.7170.492+v:mala2277获取更多论文[Bhat et al. Goutam Bhat,Martin Danelljan,Luc Van Gool,and Radu Gulfte.学习判别模型预测跟踪。在ICCV,第6182-6191页[Bhat et al. Goutam Bhat,Martin Danelljan,Luc Van Gool,and Radu Gulfte.了解周围环境:利用场景信息进行对象跟踪。在ECCV,第205-221页[Carion et al. Nicolas Carion 、 Francisco Massa 、 GabrielSynnaeve 、 Nicolas Bognier 、 Alexander Kirillov 和 SergeyZagoruyko。使用变压器进行端到端物体检测。在ECCV,第213-229页[Chen et al. Xin Chen,Bin Yan,Jiawen Zhu,Dong Wang,Xiaoyun Yang,and Huchuan Lu.Transformer跟踪。在CVPR中,第8126-8135页[Dai et al. 戴凯南,张云华,王东,李建华,卢沪川和杨晓云。高性能的长期跟踪与元更新。在CVPR中,第6298-6307页,2020年。[Danelljan et al. 马丁·丹内尔扬,吕克·范古尔和拉杜·萨夫特。视觉跟踪的概率回归。在CVPR中,第7183-7192页[Fan et al. Heng Fan,Liting Lin,Fan Yang,Peng Chu,GeDeng,Sijia Yu,Hexin Bai,Yong Xu,Chunyuan Liao,and Haibin Ling. Lasot:大规模单目标跟踪的高质量基准。在CVPR中,第5374-5383页[Fu et al. Zhihong Fu,Qingjie Liu,Zehua Fu,and YunhongWang.Stmtrack:使用时空记忆网络的无模板视觉跟踪。在CVPR中,第13774-13783页[Guo et al. ,2021] Dongyan Guo,Yanyan Shao,Ying Cui,Zhenhua Wang,Liyan Zhang,and Chunhua Shen.注意力追踪。在CVPR中,第9543-9552页[He et al. 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习在CVPR中,第770-778页[Huang et al. ,2019] Lianghua Huang,Xin Zhao和Kaiqi Huang.Got-10 k:用于野外通用对象跟踪的大型高多样性基准。2019年,泰国旅游协会[Li et al. , 2019] Bo Li , Wei Wu , Qiang Wang , FangyiZhang,Jun- liang Xing,and Junjie Yan. Siamrpn++:具有非常深的网络的暹罗视觉跟踪的演变。在CVPR中,第4282-4291页[Liao et al. 廖炳炎,王晨烨,王亚云,王耀农,尹军。Pg-net:用于视觉跟踪的像素到全局匹配网络。在ECCV,2020年。[Lin et al. Tsung-Yi Lin , Michael Maire , Serge Belongie ,JamesHays , PietroPerona , Dev aRamanan , PiotrDolla'r ,andC Lawrence Zitnick.Microsoft coco:上下文中的常见对象。在ECCV,第740-755页[Lin et al. 林宗义、普里亚·戈亚尔、罗斯·格希克、何凯宁和彼得·多尔·拉尔。用于密集目标检测的焦面损失。在ICCV,第2980-2988页[Liu et al. Ze Liu,Yutong Lin,Yue Cao,Han Hu,YixuanWei,Zheng Zhang,Stephen Lin,and Baining Guo. Swintransformer :使用移动窗口的分层视觉Transformer。在ICCV,2021年。[Muller et al. Matthias Muller , Adel Bibi , Silvio Giancola ,Salman Alsubaihi,and Bernard Ghanem. Trackingnet:一个大规模的数据集和基准对象跟踪在野外。在ECCV,第300-317页[Peng et al. Jinlong Peng,Zhengkai Jiang,Yueyang Gu,YangWu,Yabiao Wang,Ying Tai,Chengjie Wang,and WeiyaoLin.Siamrcr : Reciprocal Classification and Regression forVisual Object Tracking。在IJCAI,第952-958页[Russakovsky et al. Olga Russakovsky , Jia Deng , Hao Su ,Jonathan Krause , Sanjeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. Imagenet large scale visual recognitionchallenge.IJCV,115(3):211[Vaswani et al. Ashish Vaswani , Noam Shazeer , Niki Par-mar , Jakob Uszkoreit , Llion Jones , Aidan N Gomez ,Mukasz Kaiser,and Illia Polosukhin.你需要的只是关注。在NIPS,第5998-6008页[Wang et al. ,2021] Ning Wang,Wengang Zhou,Jie Wang和Houqiang Li. Transformer meets tracker:Exploiting temporalcontext for robust visual tracking. 在CVPR中,第1571-1580页,2021年。[Wu et al. Yue Wu,Yinpeng Chen,Lu Yuan,Zicheng Liu,Lijuan Wang,Hongzhi Li,and Yun Fu.重新思考目标检测的分类和定位。在CVPR中,第10186- 10195页[Xu et al. Yinda Xu,Zeyu Wang,Zuoxin Li,Ye Yuan,andGang Yu.Siamfc++:通过目标估计指南实现鲁棒和准确的视觉在AAAI,第12549-12556页,2020年。[Yan et al. ,2021 a] Bin Yan,Houwen Peng,Jianlong Fu,Dong Wang,and Huchuan Lu.学习用于视觉跟踪的时空Transformer。在ICCV中,第10448-10457页[Yan et al. ,2021b]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功