没有合适的资源?快使用搜索试试~ 我知道了~
14798TCTrack:用于空中跟踪的曹子昂1,黄子源2,潘亮3,张世伟4,刘紫薇3,付长虹1,刘伟1同济大学2新加坡国立大学3南洋理工大学S-Lab4阿里巴巴集团达摩caoang233@gmail.com,黄梓源@ u.nus.edu,{梁.潘,刘紫薇}@ ntu.edu.sg张进. alibaba-inc.comchanghongfu@tongji.edu.cn摘要在现有的视觉跟踪器中,连续帧之间的时间上下文远没有被充分利用。在这项工作中,我们提出了TCTrack1,一个全面的框架,充分利用时间的背景下进行空中跟踪。在两个层次上结合时间背景:特征的提取和相似性图的细化。具体而言,对于特征提取,提出了一种在线时间自适应卷积来增强空间特征,(一)(b)第(1)款提取时间信息,这通过根据连续帧动态校准卷积权重来实现对于相似性图的改进,我们提出了一种自适应的时间Transformer,它首先以一种存储效率高的方式对时间知识进行有效编码,然后对时间知识进行解码,以准确地调整相似性图。TCTrack是有效和高效的:四个空中跟踪基准的评估显示其令人印象深刻的性能;真实世界的无人机测试显示其在NVIDIA JetsonAGX Xavier上的高速超过27 FPS1. 介绍视觉跟踪是计算机视觉中最基本的任务之一。由于无人驾驶飞行器(UAV)的优越机动性,基于跟踪的应用正在经历快速发展,例如。、运动对象分析[57]、地理测量[61]和视觉局部化[47]。然而,空中追踪仍然面临两个困难:1)空中条件不可避免地引入特殊挑战,包括运动模糊、相机运动、遮挡等; 2)空中平台的有限功率限制了计算资源,阻碍了耗时的最先进方法的部署[6]。因此,一个理想的空中跟踪器必须是鲁棒的和有效的。大多数现有的跟踪器采用标准的*通讯作者1https://github.com/vision4robotics/TCTrack图1.概述我们的框架,即TCTrack。它在两个层面上利用时间信息:(a)通过时间自适应卷积神经网络(TAdaCNN)提取特征,以及(b)通过自适应时间Transformer(AT-Trans)细化相似性图检测框架并独立地执行每个帧的检测。在这些跟踪器中,基于判别相关滤波器(DCF)的方法广泛应用于空中平台,因为它们的高效率和低资源需求源于傅立叶域中的操作[16,31,38]。然而,当有快速运动和严重的外观变化时,这些跟踪器会挣扎。最近,基于暹罗的网络已经成为精确和鲁棒跟踪的强大框架[2,4,11,41,42]。它的效率也在[7,21,22]中进行了优化,用于在空中平台上实时部署基于暹罗的然而,连续帧之间固有存在的强相关性,即,这些框架忽略了时间信息,这使得这些方法难以感知目标对象的运动信息。因此,当目标经历由诸如大运动和遮挡等不同复杂条件引起的严重外观变化时,这些跟踪器更有可能失效如何利用时间信息进行视觉跟踪是当前研究的热点对于基于DCF的方法,响应图沿时间维度的变化受到惩罚[33,47],这指导了当前响应图时间轴在线特征提取#k-1#1TAdaCNN相似性映射细化AT-Trans时间上下文用于预测时间上下文#k#1TAdaCNNAT-Trans用于预测14799以前的人。在基于Siamese的网络中,这是这项工作的重点,通过动态模板在大多数作品中引入时间信息,通过级联[72],加权和[74],图形网络[24],Transformer [68]或内存网络[23,73]。尽管他们成功地将时间信息引入视觉跟踪任务,但大多数探索仅限于单个阶段,即, 模板特征,在整个跟踪流水线中。在这项工作中,我们提出了一个全面的框架,利用时间上下文在暹罗为基础的网络,我们称之为TCTrack。如图1所示,TCTrack在两个级别将时间上下文引入跟踪流水线,即,特征和相似性图。在特征级,我们提出了一种在线时间自适应卷积(TAdaConv),其中特征是用前一帧动态校准的卷积权重来基于此操作,我们将标准卷积网络转换为时间自适应网络(TAdaCNN)。由于在线TAdaConv中的校准基于先前帧中的特征的全局描述符,TAdaCNN仅引入可忽略的帧速率下降,但显著地改善了跟踪性能。在相似图层次,提出了一种自适应时间Transformer(AT- Trans)算法,根据时间信息对相似图进行细化具体地,AT-Trans采用编码器-解码器结构,其中(i)编码器通过将先前先验与当前相似性图整合来产生当前时间步的时间先验知识,以及(ii)解码器基于所产生的时间先验知识以自适应方式来细化相似性图。与[23,24,68]相比,AT-Trans具有记忆效率,因此边缘平台友好,因为我们在每帧都不断更新总的来说,我们的方法提供了一个整体的时间编码框架,以处理时间上下文在暹罗为基础的空中跟踪。对TCTrack的广泛评估显示了所提出的框架的有效性和效率。与51台最先进的跟踪器相比,四个标准空中跟踪基准具有竞争力的准确性和精度,其中TCTrack在PC上也具有125.6 FPS的高帧率。在NVIDIA Jetson AGXXavier上的实际部署表明,TCTrack在空中跟踪、运行和维护方面保持了令人印象深刻的稳定性和鲁棒性。帧速率超过27 FPS。2. 相关工作通过检测进行跟踪。在D. S. Bolme等人首先提出了MOSSE滤波器[5],已经进行了许多研究[16,31,38然而,由于它们的代表性特征表达能力差,在压缩条件下很难保持鲁棒性复杂的空中跟踪条件。最近,基于暹罗的跟踪器由于其SOTA准确性和有吸引力的效率而脱颖而出[2,3,9,26,41,42,78]。 为了满足空中跟踪要求,一些工作提出了有效的跟踪方法[7,21,22]。尽管实现了SOTA性能,但上述那些跟踪器忽略了跟踪场景中的时间上下文,从而阻碍了性能改进。相应地,我们的跟踪器可以有效地在跟踪过程中对历史时间上下文进行建模,以增加可辨别性和鲁棒性。基于时间的跟踪方法。以前,许多工作致力于利用跟踪场景中的时间信息以提高跟踪性能[10,33,43,47]。最近,许多基于DL的时间跟踪方法关注基于Transformer集成[68]、模板存储器更新[23,27,73]、图形网络[24]、加权和[74]和显式模板更新[72]的动态模板。它们尝试基于预定义的参数以显式方式或隐式方式更新模板特征。然后,基于变换后的模板特征,这些跟踪器利用跟踪序列中的离散时间信息。尽管具有优越的跟踪性能,但它们在整个跟踪流水线中仅通过单个级别引入时间信息,阻碍了跟踪性能的进一步提高为了充分利用时间上下文,在这项工作中,我们提出了一个全面的框架,通过两个层次,即探索时间上下文。特征层和相似图层。视频中的时间建模。对时间动态建模对于真正理解视频至关重要因此,它在监督[20,35,48,49,63,70]和自我监督范式[28,29,34,36,39]中得到了广泛的探索。自我监督方法通过解决各种文本前任务来学习时间建模,例如密集未来预测[28,29],拼图游戏解决[36,39]和伪运动分类[34]等。监督视频识别探索不同帧之间的各种连接,例如3D卷积[62],时间卷积[63]和时间偏移[48]等。与我们的工作密切相关的是时间自适应卷积[35],它适用于视频中的时间建模。在这项工作中,为了适应跟踪任务,我们提出了一个在线CNN,它可以提取空间特征,根据时间上下文,丰富的时间信息全面。3. 空中跟踪的时间背景在本节中,我们的框架的详细结构描述如图所示二、所提出的框架从两个新的角度考虑时间上下文:(1)在线特征提取,其中我们通过TAdaCNN(Sec.(2)相似性映射细化-14800不不≤−FFF∗F∈∈F在线特征提取#1TAdaCNN相似图AT-TransInit#1不ConvUAVR1F1自适应时域编码器时间先验知识F1M#2不Conv结果#2R2F2AADAPTIVEEMPPORA L编码器MF2*F2#3不Conv#3R3F3AddaptiveteeeteemporalenccodeFm3F*3#t不Conv#tR自适应时域编码器不FtFtM*帧内操作帧间操作在线TAdaConvFt标准卷积相关性T模板特征回归分类回归分类回归分类自适应时域解码器自适应时域解码器自适应时间解码器初始转换图2.概述我们的框架。它主要由三个部分组成,即:,TAdaCNN用于在线特征提取,如图所示。3、图中所示的相似性图修正的AT-变换4、分类回归进行最终预测。此图说明了跟踪序列为t帧时我们的TCTrack的工作流程。通过关联前后的时间上下文,在我们的框架中引入了全面的时间知识。最好的颜色。其中我们使用一种新的AT-Trans来编码时间知识,然后根据时间先验知识来细化相似性图(Sec.3.2)。其中Cat表示级联,并且帧描述符通过对每个即将到来的帧i的特征的全局平均池化(GAP)来获得。例如,Xt=GAP(Xt)。为了生成校准因子αw和αb,我们执行-t t3.1. 使用在线TAdaConv进行特征提取作为我们框架的一个关键组成部分,提出了一个在线TAda-Conv用于基于[35]的特征提取,以考虑其结构如图所示的时间上下文。3 .第三章。形式上,给定在第t帧中的网络Xt中的某个阶段处的在线TAda-Conv的输入特征,在线TAdaConvX t的输出可以如下获得Xt=Wt<$Xt+bt,(1)在具有内核大小为L的时间队列X上形成两个卷积,即,e. ,αw=w(X)+1,αb=b(X)+1,其中i表示卷积运算。此外,的权重被初始化为零,使得在初始化,Wt=Wb和bt=bb。对于t L1,如果没有足够的先前帧,我们用第一帧X的描述符填充它。考虑到我们的骨干网络在特征提取过程中考虑时间上下文,第t帧的相似性图Rt可以被获得为:其中操作者表示卷积运算,Wt,bt是卷积的时间权重和偏差Rt=0tada(Z)*(Xt),(3)第标准卷积层使用可学习的参数作为权重和偏置,并在整个跟踪序列中共享它们。因此,在我们的在线卷积层中,参数是通过可学习的参数(Wb和bb)和校准因子计算的,这些参数和校准因子对于每个帧,即,Wt=Wb·αw和bt=bb·αb。Dif-其中Z表示模板,* 表示深度相关性[41]。之后,可以通过卷积层获得F t,即,Ft=(Rt).备注1: 据我们所知,我们的在线TAdaCNN是第一个将时间背景整合到tt特征提取过程中的跟踪任务。不同于视频理解中的原始结构,在线TAdaConv每次处理一帧。 因此,它只考虑过去的时间上下文,就像在现实世界中追踪具体地说,我们保持一个临时的xt队列X,RL×CofL帧描述符包括当前帧的RC:X=Cat(Xt,Xt−1,.,Xt−L+1),(2)148013.2. 用AT-Trans进行相似性修正除了在特征提取过程中考虑时间上下文之外,在这项工作中,我们还提出了一种AT-Trans,用于根据时间上下文来细化相似性映射Ft。具体来说,我们的AT-Trans具有编码器-解码器结构,其中编码器旨在集成tem,14802不不F不猫(att,.,att)键,而另一个则反过来使用它们在我们的方法中,我们采用前者,因为这本质上更强调QKv不不t t t t tt(a) 标准卷积(b)在线TAdaConv图3.我们的在线TAdaConv的架构。时间校准因子由特征序列(其数量为L)生成。基于时间向量,我们的参数(a) 自适应时域编码器(b) 自适应时域解码器在线TAdaConv可以在每帧中自适应地调整poral知识和解码器集中在相似性细化。在本节中,我们首先回顾多头注意力[64],然后描述我们的AT-Trans多头注意力的细节。作为Transformer的基本组成部分,多头注意力的公式如下:图4.自适应时间Transformer的结构。左子窗口示出了对时间知识进行建模的自适应时间编码器右子窗口示出了解码器的组件。最好用彩色观看。将他们的信息整合到当前的先验知识中Fm,相对于查询、键和值的选择,.H1HN在ue 一个是用Fmt−1 作为查询,Ft作为值,Hn=注意力(QWn,KWn,VWn)、(四)attq k v当前的相似性地图。 这是一个比较接近的问题。Attention(Q,K,V)= Softmax(QKT/Qd)V其中,当W∈RCi×Ci时,Wn∈RCi×Ch,Wn∈RCi×Ch,Wn∈RCi×Ch对于更准确地表示当前对象的特征而言,局部信息比先前的信息更有价值在SEC的经验结果。4.3也验证此选择的有效性。因此,我们得到的输出是可学习的权重。 在我们的AT-Trans中,我们通过以下方式在第t帧F2中采用多个注意力集中在6个头上,即,N = 6和Ch =Ci/6。F1=范数(F+多头(Fm、F、F))与CNN相比,Transformer可以更有效地t−1tt,(5)对全局上下文信息进行编码[18,64]。因此,到F2= Norm(F1+ MultiHead(F1,F1,F1))t t t t t t为了更有效地利用全局时间上下文信息,提出了一种基于变换的时间集成策略,对全局上下文信息进行连续编码。另外,现有的基于时态的建模方法一般只存储时态建模的输入特征,不可避免地引入了敏感参数和不必要的计算。在这项工作中,为了消除不必要的操作和敏感的参数,我们采用了在线更新策略的时间知识。Transformer编码器。编码器通过将先前知识与当前特征相结合来生成时间先验知识。通常,我们在应用时间信息过滤器之前堆叠两个多头注意力层。当前步骤的最终时间先验知识通过进一步将多头注意力层附加到过滤的信息来获得。编码器的结构如图所示. 第4(a)段。其中Norm表示层归一化。由于空中跟踪可能经常遇到较少的使用-由于运动模糊或遮挡引起的上下文信息过多,如果我们不进行任何滤波而传递完整的时间信息,则可能会包括一些不想要的上下文 为了消除不需要的信息,通过将前馈网络FFN附加到通过全局平均池化GAP获得的F1的全局描述符来生成整洁的时间信息过滤器,即,2、QF= QF((F1)。过滤器信息Ff通过以下方式获得Ff=F2+F(Cat(F2,F1))<$α,(6)WtBt时间参数X不L − 1WB可学习参数1常数卷积逐元素加法按元素相乘池化X^tC × L猫X^t...C × 1一维转换一维转换C × 1X1W1不BWtX轴X~Bt不BWFm不添加规范按元素之和逐通道乘法多头注意卧槽时间信息滤波器Cat ConvGAP FFN添加规范FFNConv添加规范添加规范多头注意多头注意V K Q添加规范添加规范多头注意多头注意VKQFtFmt-1Ft多头(Q,K,V)=W14803F不−t t t t tt其中表示卷积层。由此,第t帧的节奏知识Fm可以如下获得Fm= Norm ( Ff+ MultiHead ( Ff , Ff ,Ff))。(七)给定先前的时间先验知识Fm和因此,对于每一帧,我们更新时间知识,当前相似性图t1有两种方法可以进入-而不是拯救所有人。这使得记忆{14804××00F不不不tt表1. NVIDIA Jetson AGX Xavier上的推理时间和参数比较。在这里,我们使用287 287 3作为输入图像,只评估CNN的推理时间。骨干AlexNet [40]VGG 11 [58]ResNet18 [30][56]第五十六话[60]第六十话[77]第十七届中国国际纺织品展览会推理时间3.4ms3.7ms10.1ms13.7ms27.4ms8.8ms16.6ms参数2.47M9.22M11.2M2.2M39.4K735.42K341.8K搜索图像AT-转换前AT-转换后注2:据我们所知,AT-Trans是第一次尝试使用时间上下文进行相似性映射。4. 实验图5.细化前(第二列)和细化后(第三列)相似性图的比较。占用在整个跟踪过程中固定的时间先验知识,这使得TCTrack与需要保存所有中间时间信息的方法相比具有存储效率。总的来说,由于这种策略以及时间滤波器和多头注意力,我们的AT-Trans以一种记忆有效的方式自适应地编码时间对于跟踪序列中的第一帧,由于不同目标的特征不同,因此对初始时间先验Fm使用统一的初始化是不合理的。观察到第一帧中的相似性图基本上以有效的方式表示目标对象的语义特征,我们通过对初始相似性图F0进行卷积来设置初始时间先验,也就是说,Fm=init(R1)。 我们也以经验证明了我们的in-在SEC中,tialization更好。四点三。Transformer解码器。根据时间先验知识Fm,解码器旨在细化相似性图。为了更好地探索节奏知识和当前空间特征Ft之间的相互关系,我们采用了两个在输出之前具有前馈的多头注意层。其结构如图所示第4(b)段。通过生成注意力图,可以提取时间知识Fm中的有效信息,用于细化相似性图Ft,以获得最终输出Ft:F3= Norm(Ft+ MultiHead(Ft,Ft,Ft))F4= Norm(F3+ MultiHead(F3,Fm,Fm))。(八)我们的框架在四个公共权威基准上进行了评估,并在现实世界的空中跟踪条件下进行了测试。在本节中,我们的方法是全面评估的四个著名的空中跟踪基准 , 即 。 , UAV123[54] , UAVTrack112 L [21] ,UAV123@10fps [54],[45 ]第45话包括51个现有的顶级跟踪器进行彻底的比较,其中它们的结果是通过运行具有其相应超参数的官方代码获得的。为了更清楚地比较,我们将它们分为两组,(i)轻型跟踪器[1,2,6,7,12,14- 17,22,27、 33、 38、 41、 43、 44、 46、 47、 51、 52、 65深度跟踪器[4,8,9,11,13,23,25,26,41,50,53,59,68,69,71、74、78、79]。4.1. 实现细节我们使用AlexNet作为追踪器的骨干,因为效率对于空中追踪至关重要。如表1所示,NVIDIA Jetson AGXXavier平台上不同流行主干的推理时间比较表明,AlexNet具有最低的延迟,而移动网络[37,56,77]的对 于 初 始 化 , 我 们 将 ImageNet 预 训 练 模 型 用 于AlexNet , 并 将 与 [55] 中 相 同 的 初 始 化 用 于 在 线TAdaConvTCTrack中的AT-Trans是随机初始化的。我们用VID [55]、Lasot [19]和GOT-10 K [32]中长度为4的视频训练跟踪器。我们在两个NVIDIA TITANRTX GPU上训练TCTrack总共100个epoch。对于前10个epoch,骨干的参数被冻结,遵循[41]。其他训练t t t t t tFt=Norm(F4+FFN(F4))依赖于AT-Trans的编码器-解码器结构,时间上下文被有效地利用来细化相似性图,以提高鲁棒性和准确性。图5中相似性图的比较显示了相似性图细化的有效性,特别是在存在摄像机运动、严重运动和遮挡的情况下。过程采用从0. 005到0。日志空间中的0005采用SGD作为优化器,动量为0。9,其中小批量大小为124对。模板和搜索区域的输入大小分别为1272和2872。所提出的在线TAdaConv用于替换最后两个卷积层。注3:有关评估准则及损失函数的详情,请参阅闭塞Car7快速运动冲浪板5运动模糊电机1相机运动ChasingDrones148050.90.80.70.60.50.40.30.20.1UAV123@10fps上的精度图10.90.80.70.60.50.40.30.20.1DTB70上的精密度图0.90.80.70.60.50.40.30.20.1UAV123上的精确度图005101520253035404550定位误差门限UAV123@10fps上的成功图0.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值005101520253035404550定位误差门限DTB70上的成功图10.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值005101520253035404550定位误差门限UAV123上的成功图0.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值图6.所有跟踪器在三个著名的空中跟踪基准上的总体性能。我们的跟踪器实现了优于其他SOTA跟踪器的性能。TCTrack-L表示带有AT-Trans的跟踪器,而TCTrack表示我们框架的完整版本材料。4.2. 与轻型跟踪器的比较在本小节中,将TCTrack与标准空中跟踪基准上的29个现有有效跟踪器进行比较。对于基于连体的方法,我们评估它们与我们的相同的骨干,以进行公平的比较。UAV123 UAV123是一个大规模的空中跟踪基准,涉及123个具有挑战性的序列,超过112K帧。对无人机123进行性能评估,可以验证无人机在最常见的空中跟踪条件下的跟踪性能。如图6所示,我们的TCTrack在AUC ( 3% ) 和 ( 4.3% ) 方 面 优 于 HiFT 和SiamRPN++。DTB70。DTB70 [45]包括各种具有挑战性的场景中的70个严重运动场景。为了评估我们的方法在处理运动方面的有效性,我们采用这个基准来证明TCTrack的鲁棒性我们的跟踪器排名第一,与图中所示的其他最佳跟踪器相比,AUC提高了5%。六、UAV123@10fps 。 采 用 10 FPS 的 图 像 速 率 , 在UAV123@10fps [54]中,运动和变化更加突然和严重,从而显著增加了跟踪的难度。从与其他SOTA跟踪器的比较中,我们可以清楚地看到,我们的跟踪器保持了卓越的鲁棒性,在成功率和准确率方面超过了第二好的跟踪器。基于属性的性能。在空中跟踪条件下,无人机的剧烈运动会增加跟踪的难度为了充分分析我们的跟踪器在表2. UAVTrack112 L的整体性能。最好的三个性能分别用红色、绿色和蓝色突出显示。跟踪器成功预处理跟踪器成功预处理自动跟踪[47]0.4050.675C-COT [17]0.4220.691ARCF [33]0.3990.640UDT+[66]0.4050.637[第43话]0.3600.609ECO [12]0.4360.684UDT [66]0.3880.620TADT [46]0.4620.712SRDCF [16]0.3200.508暹罗足球俱乐部[2]0.4520.690CoKCF [75]0.2830.520[80]第八十话0.4790.729BACF [38]0.3580.593SiamAPN++[7]0.5370.735DSiam [27]0.3210.512[41]第四十一话0.5590.773HiFT [6]0.5510.734TCTrack(我们的)0.5820.786例如快速运动、相机运动、遮挡、变形等特定挑战,进行基于属性的比较。图7所示的其他SOTA跟踪器之间的比较证明了我们的框架在几个具有挑战性的条件下的鲁棒性。由于我们的跟踪器可以积累从第一帧到当前帧的连续时间知识,我们的跟踪器可以学习对象的历史位置。因此,我们的跟踪器在遮挡和快速运动场景中实现了卓越的性能。此外,得益于我们的内容自适应节奏知识和在线TAdaConv,TCTrack可以处理环境带来的负面影响。UAVTrack112 L.为了验证我们的框架在长期跟踪性能方面的有效性,我们对UAVTrack112 L [21]进行了评估,这是目前最大的长期空中跟踪基准,包括超过60k帧。表2报告了TC- Track和其他SOTA跟踪器的比较。感谢我们的母鸡-TCTrack [0.774]TCTrack-L [0.765]SiamAPN++[0.764]SiamAPN [0.752][0.749]SiamRPN++[0.735][0.711]CCOT [0.706]DaSiamRPN [0.692]TADT [0.687][0.684]深STRCF [0.682]澳门银河[0.680]UDT+[0.675]自动跟踪[0.671]ARCF [0.666]MCPF [0.665]国际货币基金组织[0.651]CSRDCF [0.643]经济-HC [0.634]STRCF [0.627]DSiam [0.626]CoKCF [0.608]CF2 [0.601]UDT [0.575]SRDCF [0.575]BACF [0.572]KCC [0.531]DSST [0.448]吻合钉[0.456]fDSST [0.516]TCTrack [0.813]HiFT [0.802]TCTrack-L [0.798]SiamRPN++[0.795]SiamAPN++[0.789]SiamAPN [0.784]CCOT [0.769]深STRCF [0.734]MCCT [0.725]ECO [0.722]暹罗足球俱乐部[0.719]自动跟踪[0.716]ARCF [0.694]DaSiamRPN [0.694]TADT [0.693]国际货币基金组织[0.669]MCPF [0.664]UDT+[0.658]STRCF [0.649]CSRDCF [0.646]ECO-HC [0.643]CF2 [0.616]UDT [0.602]CoKCF [0.599]BACF [0.590]fDSST [0.534]SRDCF [0.512]DSiam [0.495]吻合钉[0.365]KCC [0.440]DSST [0.463]TCTrack [0.800]TCTrack-L [0.800][0.787]SiamRPN++[0.769]SiamAPN [0.765]SiamAPN++[0.764]经济指标[0.752][0.734]UDT+[0.732]CCOT [0.729]TADT [0.727]DasiamRPN [0.725]澳门银河[0.725]MCPF [0.718]经济-HC [0.716]深STRCF [0.705][0.696]自动跟踪[0.689]STRCF [0.681]SRDCF [0.676]CSRDCF [0.676]ARCF [0.671]UDT [0.668]BACF [0.662]CF2 [0.655]CoKCF [0.652]KCC [0.620]DSiam [0.608]fDSST [0.583][0.586]吻合钉[0.595]TCTrack [0.588]TCTrack-L [0.582]SiamAPN++[0.580][0.569]SiamAPN [0.566]SiamRPN++[0.551]ECO [0.520]TADT [0.508]CCOT [0.503]深STRCF [0.499]MCCT [0.492]DaSiamRPN [0.483]国际货币基金组织[0.481]UDT+[0.478]自动跟踪[0.477]ARCF [0.473]暹罗足球俱乐部[0.473]经济-HC [0.462]STRCF [0.457]UDT[0.430]DSiam [0.426]CF2 [0.425]SRDCF[0.423]BACF [0.413]CoKCF [0.384]fDSST [0.379]DSST [0.286]吻合钉[0.342]KCC [0.374]TCTrack [0.622]TCTrack-L [0.614]HiFT [0.594]SiamAPN++[0.594]SiamRPN++[0.589]SiamAPN [0.586]CCOT [0.517]深STRCF [0.506]ECO [0.502]MCCT [0.484]暹罗足球俱乐部[0.483]自动跟踪[0.478]ARCF [0.472]DaSiamRPN [0.472]TADT [0.464]UDT+[0.462][0.460]经济-HC [0.453]CSRDCF [0.438]STRCF [0.437]MCPF [0.433]UDT [0.422]CF2 [0.415]BACF [0.402]CoKCF [0.378]SRDCF [0.363]fDSST [0.357]DSiam [0.337]吻合钉[0.265]DSST [0.276]KCC [0.291]TCTrack [0.604]TCTrack-L [0.604][0.589]SiamAPN++[0.579]SiamRPN++[0.579]SiamAPN [0.575]经济指标[0.528]TADT [0.520]深STRCF [0.508][0.507]ECO-HC [0.505]UDT+[0.502]CCOT [0.502]DaSiamRPN [0.501]IBCCF [0.497]暹罗足球俱乐部[0.494]STRCF [0.481]UDT [0.477]MCPF [0.473]自动跟踪[0.472]ARCF [0.468]SRDCF [0.463]BACF [0.461]CSRDCF [0.450]CF2 [0.441]KCC [0.422]吻合钉[0.409]fDSST [0.405][0.356]CoKCF [0.399]DSiam [0.400]精度成功率精度成功率精度成功率14806FmFmt−10的情况。767Fmt−1二、3%↑0的情况。578五、3%↑0的情况。7201 .一、1%↑0的情况。5253 .第三章。1%↑0的情况。6670的情况。6%↑0的情况。4743 .第三章。5%↑0的情况。7650的情况。573Fmt−10的情况。749二、4%↓0的情况。5257 .第一次会议。6%↓0的情况。719二、4%↓0的情况。500二、0%↑4.第一章2%↑7 .第一次会议。6%↓0的情况。6390的情况。4150的情况。7320的情况。508Ftt−10的情况。779 3. 9%↑0的情况。7850的情况。592 7. 8%↑0的情况。5870的情况。766 7. 6%↑0的情况。566 11. 2%↑0的情况。670 1. 1%↑二、4%↓0的情况。483 5. 5%↑7 .第一次会议。6%↓0的情况。772 2 2.9%↑二、4%↓0的情况。586 6 6.6%↑7 .第一次会议。6%↓Fm4.第一章7%↑六、9%↑0的情况。726二、0%↑0的情况。5283 .第三章。7%↑0的情况。676二、0%↑0的情况。4804.第一章8%↑0的情况。771二、8%↑0的情况。580五、5%↑t−10的情况。810 8. 0% ↑0的情况。61512. 0%↑0的情况。79311. 3%↑0的情况。58615. 1%↑0的情况。七一零七。1% ↑0的情况。51011. 4%↑0的情况。800 6. 7% ↑ 0的情况。6049. 8%↑成功率10.90.80.70.60.50.40.30.20.1DTB70上的快速相机运动(41)TCTrack [0.630]TCTrack-L[0.621][0.611]SiamAPN++[0.601]SiamAPN [0.599]SiamRPN++[0.587]CCOT [0.551]深STRCF [0.516][0.514]自动跟踪[0.496]ARCF [0.496][0.494]暹罗足球俱乐部[0.487]UDT+[0.476]经济-HC [0.469]STRCF [0.467]TADT [0.466]DaSiamRPN [0.457]国际货币基金组织[0.456]CSRDCF [0.454]BACF [0.435]UDT [0.434]MCPF [0.426]CF2 [0.417]SRDCF [0.398]fDSST [0.388]CoKCF [0.376]DSiam [0.340]0.60.50.40.30.20.1UAV 123上的背景杂波(21)TC跟踪[0.403]0TCTrack-L [0.401]SiamRPN++[0.383]SiamAPN++[0.379]0TADT [0.373][0.371]DSiam [0.368]HiFT [0.365]0[0.363]UDT+[0.362]MCPF [0.359]0深STRCF[0.353]SiamAPN [0.346]ECO-HC [0.339]CCOT [0.337]DaSiamRPN[0.329]IBCCF [0.328]CSRDCF [0.320]0STRCF [0.317]自动跟踪[0.315]暹罗足球俱乐部[0.311]CoKCF [0.309]0CF2 [0.302]ARCF [0.291]BACF [0.275]SRDCF [0.263]UDT [0.254]KCC [0.237]UAV123上的部分闭塞(73)DTB70上的变形(18)000000000000.10.20.30.40.50.60.70.80.91重叠阈值KCC [0.306]DSST [0.281]吻合钉[0.254]000.10.20.30.40.50.60.70.80.91重叠阈值fDSST [0.209]吻合钉[0.194]DSST [0.137]图7.在三个著名的空中跟踪基准上对所有跟踪器进行基于属性的评估。我们的时间跟踪器可以保持良好的性能下严重的运动,遮挡和变形。更多结果见补充材料。表3.UAV123上自适应临时Transformer不同组件的消融研究[54]。 TIF表示AT-Trans中的时间信息过滤器(图4)。SF/MF指的是单帧(SF)训练,即,标准的检测跟踪训练方法和我们的多帧(MF)训练方法。CI/RI是指时间先验知识的卷积初始化和随机初始化。查询表示哪个特征图被用作在第2节中提到的AT-变换中的自适应时间编码器中的查询 3.2.模型列车初始化查询TransformerTransformer+TIFTransformerSFSFMF--CITransformer+TIFMFRITransformer+TIFMF CITransformer+TIF MF CI表4. UAV 123上在线TAdaConv的不同序列长度[54]。不同的变化总体精度总体成功Transformer0.7500。550Transformer+TAdaConv(L=1)0. 749 0. 1%↓0. 561 2. 0%↑Transformer+TAdaConv(L=2)0. 774 3. 2%↑0. 573 4. 2%↑Trans former + T AdaCo n v(L=3)0. 7763. 5%↑0. 5805. 5%↑TC-Track是一个充分利用时间上下文的动态框架,在精度(0.786)和成功率(0.582)方面,它比其他跟踪器具有更好的性能4.3. 消融研究为了验证我们框架的有效性,本小节介绍了综合消融研究。符号的澄清。在表中。在图3中,我们将我们提出的没有 时 间 信 息 滤 波 器 的 Transformer 架 构 表 示 为Transformer。我们分析了不同的模型,训练方法,初始化,查询选择所造成的影响。此外,为了保证实验的正确性,所有跟踪器都采用了相同的过程(包括训练、参数设置等)。)除了学习的模块。对AT-转换器的分析I)添加连续的节奏知识而不过滤掉无效信息(第三行)将使跟踪器混淆。因此,跟踪性能受到严重阻碍。通过在检测跟踪框架中添加我们的信息过滤器,我们的模块还可以通过自适应地选择有效的上下文来提高性能(第二行)。II)如我们之前所讨论的,使用第一帧中的跟踪对象的唯一信息来发起时间知识更比随机引发更合适,特别是在闭塞条件下(提高约6%)。(3)分析了不同查询方式对系统性能的影响。结果证明,基于当前相似性图的细化更有效,适合于提高性能,特别是在运动场景中(提高超过10%)。与Transformer相比,我们通过AT-Trans编码的时间知识带来了显著的改善(总体AUC为9.8%,总体精度为6.7%具体而言,我们的追踪器在处理运动场景方面产生最佳性能,分别提高约12. 0%及15.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功