没有合适的资源?快使用搜索试试~ 我知道了~
15457HiFT:用于空中跟踪的Ziang Cao†,Changhong Fu†,†,Junjie Ye†,Bowen Li†,and Yiming Li‡纽约大学纽约大学网址:caoang233@gmail.com,changhongfu@tongji.edu.cn,网址:www.example.com,yimingli@nyu.edu摘要大多数现有的基于Siamese的跟踪方法基于相似性图执行目标对象的分类和回归。然而,它们要么采用来自最后一个卷积层的单个地图,这降低了复杂场景中的定位精度,要么单独使用多个地图进行决策,为空中移动平台引入棘手的计算。因此,在这项工作中,我们提出了一个高效和有效的分层特征Transformer(HiFT)的空中跟踪。多层次生成的层次相似图HiFT(我们的)SiamBANSiamCAR SiamRPN++_产品卷积层被馈送到特征Transformer中以实现空间(浅层)和语义线索(深层)的交互式融合。因此,不仅可以提高全局上下文信息,促进目标搜索,而且我们的具有Transformer的端到端架构可以有效地学习多级特征之间的相互依赖性,从而发现具有强区分度的跟踪定制特征空间。对四个空中基准的综合评估证明了HiFT的有效性。在空中平台上进行的实际测试有力地验 证 了 其 实 时 速 度 的 实 用 性 。 我 们 的 代 码 可 从https://github.com/vision4robotics/HiFT网站。1. 介绍视觉对象跟踪1的目的是在给定初始状态的情况下逐帧地估计对象的位置,由于其特别是对于无人驾驶飞行器(UAV)的繁荣应用而引起了相当大的关注,例如,空中摄影[5]、视觉定位[48]和碰撞警告[19]。尽管取得了令人印象深刻的进展,但由于有限的计算资源和各种困难,如快速运动,低分辨率,频繁遮挡等,高效和有效的空中跟踪仍然是一项具有挑战性的任务。在视觉跟踪社区中,基于深度学习(DL)的跟踪器[44,35,9,2,31,53,18,17,6]在*通讯作者1这项工作的目标是单对象跟踪(SOT)。图1. 在三 个 具 有 挑 战 性 的 序 列 ( 来 自 DTB70 的 BMX4 、RaceCar1 [34]和来自UAV20L的Car16 [39])上,将所提出的HiFT与最新技术[ 23,8,31 ]进行定性比较。Ow- ing的有效跟踪定制的特征空间产生的分层特征变换器,我们的HiFT跟踪器可以实现鲁棒性的性能,在各种挑战下,具有令人满意的跟踪速度,而其他跟踪器失去有效性。考 虑 使 用 具 有 鲁 棒 表 示 能 力 的 卷 积 神 经 网 络(CNN)。然而,像AlexNet [30]这样的轻量级CNN很难提取对复杂空中场景中的跟踪性能至关重要的鲁棒特征。使用更大的内核大小或更深的主干[31]可以缓解上述缺点,但效率和实用性将受到牺牲。在文献中,扩张卷积[49]提出扩大接收场并避免由池化层引起的分辨率损失。不幸的是,它仍然遭受不稳定的- ble性能,同时处理小对象。最近,该Transformer在具有编码器-解码器结构的许多领域中展示了巨大的潜力[1]。受Transformer在建模全局关系方面的卓越性能的启发,我们尝试在空中跟踪中利用其架构来有效地融合多个级别2特征以实现有前途的性能。同时,由于多层计算造成的效率损失和Transformer处理能力的不足2我们使用分层特征来表示来自多个卷积层的特征图。#0247#0262#0015#0167#0182#0270#0321#0338#029115458可以同时减轻小对象(在[52]中指出)。具体地,由于视觉跟踪中的目标对象可以是任意对象,所以原始Transformer结构中的学习对象查询在视觉跟踪中很难很好地因此,我们采用低分辨率的功能,从更深的层,以取代对象查询。同时,我们还将浅层输入到Transformer中,以通过端到端训练发现具有强鉴别力的跟踪定制特征空间,其隐式地建模来自高分辨率层的空间信息和来自低分辨率层的语义线索的关系。此外,为了进一步处理低分辨率对象面临的不足[52],我们在Transformer中设计了一个新的特征调制层,以充分探索多级特征之间的相互依赖性。所提出的分层特征Transformer(HiFT)跟踪器在复杂场景下有效地实现了鲁棒性能,如图所示。1.一、本工作的主要贡献如下:我们提出了一种新的分层特征Transformer来学习多层次特征之间的关系,从而发现一个跟踪量身定制的特征空间,具有很强的鉴别能力,用于空中跟踪。我们设计了一个简洁的特征调制层和分类标签,以进一步利用Siamese网络中的分层特征,并提高处理小对象时的跟踪精度。四个权威的空中基准的综合评估已经验证了HiFT对其他国家的最先进的(SOTA)跟踪器,即使是那些配备了更深的骨干有前途的表现在典型的空中平台上进行了真实世界的测试,证明了HiFT在真实世界场景中的优越效率和有效性。2. 相关作品2.1. 视觉跟踪方法在MOSSE [4]之后,在手工制作的基于判别相关滤波器(DCF)的跟踪器中已经见证了各种成就[21,36,29,9]。 通过在傅立叶域中进行计算,基于DCF的跟踪器可以实现高效的竞争性能[20]。然而,这些跟踪器在各种跟踪条件下很难保持鲁棒性,这是由于手工特征的表示能力差。为了提高跟踪性能,已经发布了将深度学习引入到基于DCF的方法中的几个作品[9,50,35]。尽管取得了很大进展,但他们仍然面临空中跟踪的鲁棒性和效率较差的问题。SOT社区的另一个杰出分支是基于Siamese的方法[2,24,32,53,31],它受益于大量的线训练数据和端 到 端 学 习 策 略 。 作 为 开 创 性 的 工 作 之 一 ,SiameseFC [2]揭示了Siamese框架的优势,将跟踪任务制 定 为 模 板 和 搜 索 块 的 相 似 性 匹 配 过 程 。 基 于SiameseFC,提出了DSiam [24]以有效地处理对象外观变化和背景干扰。受区域建议网络(RPN)[40]的启发,SiamRPN [32]将跟踪视为两个子任务,分别应用分类和回归分支。DaSiamRPN [53]引入了一种新的干扰感知模块和一种有效的采样策略,进一步提高了其鲁棒性。最近,采用非常深的网络作为骨干的潜力被广泛挖掘[31],而效率在很大程度上被牺牲了。显然,基于RPN的跟踪器[32,53,31]提供了有效的跟踪策略。然而,与锚点相关联的超参数显著降低了跟踪器的泛化能力。为了消除这种缺点,提出了无锚方法[23,8]。在基于Siamese的跟踪器中,强大的功能对跟踪性能产生重大影响。然而,具有轻量级骨干的跟踪器[2,32,53,18],如AlexNet [30],缺乏全局上下文,而利用深度CNN的跟踪器[31,8,23],如ResNet [25],远未达到无人机上的实时要求。 尽管提出了几项工作来探索视觉跟踪中的多级特征[31,16],但它们不可避免地引入了繁琐的计算,这对于移动平台来说是负担不起的。不同的是,这项工作提出了一个全新的轻量级分层特征Transformer(HiFT),用于有效和高效的多层次特征融合,有效地实现了鲁棒的空中跟踪2.2. 计算机视觉中的TransformerVaswani等人 [1]首先提出了基于注意机制的机器翻译转换器。受益于其高表示能力,Transformer结构扩展到计算机视觉领域,如视频字幕[51],图像增强[47]和姿态估计[27]。在DETR [7]开始研究物体检测中的Transformer之后,deformable DETR [52]提出了可变形注意力模块以有效收敛,为transformer和CNN的结合提供了一些研究试图将Transformer引入多目标跟踪并取得了有希望的性能[38],而SOT中变压器的研究至今仍处于停滞状态。虽然Transformer中的注意力机制在广泛的视觉任务中表现出良好的性能,但其优越性难以扩展到SOT,因为预定义····15459结果G分类回归#k∈∈∈FE34模板补丁搜索补丁YM5M3位置编码按元素之和M4骨干Y变换特征图2.HiFT跟踪器概述从左到右的模块是特征提取网络,分层特征Transformer和分类回归网络。三个不同颜色的箭头分别代表来自不同层的特征的工作流程。注意,仅编码器的输入与位置编码组合。最好用彩色观看。(图像帧来自UAV20L[39]。(or学习的)对象查询在面对任意对象时很难保持有效性。此外,该Transformer难以处理在空中跟踪中经常遇到的低分辨率目标。在这项工作中,而不是重新设计的对象查询和相关结构,我们提出了一个层次化的功能Transformer,构建一个新的,以及强大的跟踪量身定制的特征空间。通过引入全局上下文和多层次特征间的相互依赖性,显著提高了特征空间的可区分性,从而提高了跟踪性能。同时,HiFT具有轻量级的编码器-解码器结构,这是移动平台所期望的。3. 该方法HiFT的工作流程如图所示二、它可以分为三个子模块,特征提取网络,层次特征Transformer和分类回归网络。请注意,我们利用最后三层的特征来构建本文中的分层特征变换。3.1. 特征提取网络深度CNN,例如,ResNet [25],MobileNet [42]和GoogLeNet [43]已经证明了它们令人惊讶的能力,作为Siamese框架中流行的特征提取骨干[31]。然而,高空作业平台很难承受深部结构带来针对这一问题,HiFT采用了轻量级的主干,即. ,AlexNet [30],它在模板和搜索分支中都有服务为了清楚起见,模板/搜索图像分别由Z和X表示。Φk(X)表示搜索分支的第k注1:尽管AlexNet的特征提取能力较弱,但与那些更深的网络相比,所提出的特征Transformer可以显著弥补这种缺陷,同时节省实时空中跟踪的计算3.2. 分层特征Transformer所提出的分层特征Transformer可以主要分为两个步骤:高分辨率特征编码和低分辨率特征解码。前者旨在学习不同特征层和空间信息之间的相互依赖性,以提高对不同尺度对象(特别是低分辨率对象)的关注。而后者从低分辨率特征图中聚合语义受益于丰富的全局上下文和分层特征之间的相互依赖性从而显著提高了变换特征在各种空中跟踪条件下的区分能力和代表能力具体地,利用来自最后三个层的特征。来自第k层的特征图在被馈送到特征Transformer之前被卷积并整形为MiRWH×C(C,W,H分别表示特征图的通道,宽度和高度Mi=F(Φi⑵* Φi⑵),i= 3,4,5,⑴其中表示卷积层,*表示互相关算子。然后,M′3RWH×C和M′4RWH×C 可 以通过补充可学习的位置编码。3.2.1特征编码为了充分探索层次特征之间的相互依赖性M′3和M′4的组合作为多头注意力模块[1]的输入,因为M1=Norm(M′3 + M′4),其中Norm表示归一化层。通常,缩放的点积注意力Att可以表示为:QKTQ=Q(√c)V,(2)#kConv相关特征解码器#1特征编码器MM15460EEMEEEEE不EEΣE3E其中,√c是用于避免softmax函数中梯度消失的缩放因子则多头注意力模块mAtt的计算过程表示为:mAtt(Q,K,V)=.Cat(a1,…aN)Wc、(3)aj=Att(QWj,KWj,VWj)1、2、3个其中Wc∈RC×C,Wj∈RC×Cd,Wj∈RC×Cd,且Wj∈1个2个RC× Cd (Cd=C/N,N为并联注意头部)都可以被认为是全连接层操作。请注意,Q、K、V仅是用于阐明功能的数学符号。因此,它们没有实际意义。第一次的输出多头注意模块,即,M2通过以下方式获得∈RWH×C,可以是图3. HiFT的详细工作流程。左侧子窗口示出了特征编码器。右边的显示了M2= mAtt(M1,M1,M′).(四)译码器最好用彩色观看。E E E3因此,M′和M′之间的相互依赖性序列长度在我们的方法中,位置编码是3 4引入以区分特征图上的每个位置为被有效地学习以丰富高分辨率特征地图M2. 此外,两个特征为了避免对变换特征的直接影响,我们e2决定通过en引入位置信息maps也在ME中引入。在此之后,我们构建调制层,以充分探索M3和M′4之间相互依赖的潜力,其结构如图所示。3.第三章。具体地,调制层3是通过M′3和M2的归一化得到的,即、3=范数(M′3 +M2)。 在前馈网络(FFN)和全局平均池化操作(GAP)之后,调制层M4的放置可以被公式化为:W′=F(Cat(M3,M′))*FFN(GAP(M′))编码器隐含。位置编码策略的分析稍后在第2节进行。4.3.3.解码器的结构在图1中示出。3.第三章。注3:通过分层特征Transformer,充分利用了高/低分辨率特征中的同时,调制层实现了不同调制类型之间的相互依赖性的聚合。不同的特征层,增强了跟踪的鲁棒性E44、(五)M4=M3+γ1*W′*M3其中γ1表示学习权重。由于调制层,M′4和M3之间的内部空间信息被有效地利用,从而有效地将物体与复杂物体区分开。丛背景。最终,可以通过FFN和归一化来计算编码信息。备注2:归因于特征编码器,全局编码器可以被配置为:上下文和M′3和M′4之间的相互依存关系进行了充分的探讨。另外,为了克服处理小对象的缺陷,提出了调制层以进一步探索空间信息以丰富编码信息。最后,基于它,解码器可以建立一个有效的特征变换的鲁棒跟踪。各种尺度的物体。3.3. 分类标签分类和回归的结构由几个卷积层实现。为了实现准确的分类,我们应用两个分类分支。一个分支旨在通过地面实况框中涉及的区域进行分类。另一个分支集中于确定由地面实况的中心与对应点之间的距离测量的阳性样本。此外,为了加快收敛速度,我们使用伪随机数生成器表示为限制负标签的数量。注4:分类和回归的详细计算过程因此,可以确定总体损失函数3.2.2特征解码在解码之前,首先将低分辨率特征图重新整形为等式(1)中的M5∈RWH×C(一).特征解码器如:L总体=λ1Lcls 1+λ 2Lcls 2+λ 3Lloc,(6)遵循标准Transformer的类似结构[1]。不同的是,我们建立了有效的特征解码器没有位置编码。由于我们将位置的数量视为其中Lcls1、Lcls2、Lloc表示交叉熵、二进制交叉熵和IoU损失。λ1、λ2和λ3是平衡每种损失贡献的系数特征编码器添加规范FFN调制层GAP FFNCat Conv变换后的特征图特征解码器添加规范FFN添加规范多头注意添加规范VK添加规范Q多头注意V K Q多头注意添加规范VKQMY3MY4M5逐通道乘法逐元素求和M15461×× ××× ××个4. 实验4.1. 实现细节在70个epoch的训练过程中,AlexNet的最后三层在最后60个epoch中进行微调,而前两层则被冻结。学习率初始化为510−4,在对数空间中从10−2减少到10−4。此外,Z和X的大小被设置为3 127 127和3 128 129。3 287 287。特征Transformer由一个编码器层和两个解码器层组成。我们用形象从COCO [37],ImageNet VID [41],GOT-10 K [28]和Youtube-BB [15]中提取的对此外,采用随机梯度下降(SGD),并将批量大小,动量和权重衰减设置为220,0。9和10-4。我们的跟踪器是在一台配有Intel i9-9920 X CPU、32 GB RAM和两个NVIDIA TI的PC上训练的。TAN RTX GPU。更多的实验结果可以在补充资料中找到。4.2. 评估指标应用包括精度和成功率的一次通过评估(OPE)度量[39]来评估跟踪性能。具体来说,成功率是通过地面实况和估计的边界框的交集(IoU)来衡量的IoU超过预定义阈值的帧的百分比此外,中心定位误差(CLE)之间的估计位置和地面实况被用来评估精度。CLE在特定阈值内的帧的百分比被绘制为精度图(PP)。同时,采用SP的曲线下面积(AUC)和在20像素的阈值处的精度来对跟踪器进行排序。4.3. 航空基准点4.3.1整体性能对于整体评估,HiFT在四个具有挑战性和权威性的空中跟踪基准上进行了测试,并与其他19种最先进的(SOTA)跟踪器进行了全面比较,包括SiamRPN++[31],DaSiamRPN [53],UDT [44],UDT+ [44],TADT [35],CoKCF[50],[29], 自动跟踪[36], ECO [9], C-COT [13],[2019-04- 25][2019 - 04 - 25][2019 - 04][2019 - 04 -25][2019 - 04][2019 - 04 - 04][2019 - 04]SRDCF [11]、fDSST [12]、SiameseFC [2]、DSiam[24]、”[26]。为了公平起见,所有基于暹罗的跟踪器采用相同的主干,即。,AlexNet [30]在ImageNet上预训练[41]。UAV123 [39]:UAV123是一个大型无人机基准测试,包括123个高质量序列,超过112K帧,涵盖了各种具有挑战性的空中场景,如频繁遮挡,低分辨率,视野外等。因此,UAV123可以帮助详尽地评估空中跟踪中的跟踪性能。如表1所示,HiFT在精度和成功率方面都优于其他跟踪器。在精度方面,HiFT以0.787的精度得分排名第一,分别超过第二和第三名SiamRPN++(0.769)和ECO(0.752)2.3%和4.7%。至 于 成 功 率 , HiFT ( 0.589 ) 也 比 SiamRPN++(0.579)有所提高,排名第一。总之,HiFT在各种空中跟踪场景中表现出优越的性能。UAV20L [39]:UAV20L由20个长期跟踪序列组成,平均2934帧,总共超过58K在本文中,它是用来评估我们的跟踪器在现实的长期空中跟踪场景。如表2所示,归因于由特征Transformer引入的全局上下文信息,与其他SOTA跟踪器相比,我们的跟踪器实现了有竞争力的 性 能 具 体 来 说 , HiFT 产 生 了 最 好 的 精 度 分 数(0.763),超过了第二好的SiamRPN++(0.696)和第三好的DaSiamRPN(0.665)9.6%和14.7%。类似地,在成功率方面,HiFT获得最佳评分(0.566),其次是SiamRPN++(0.528)和DaSi-amRPN(0.465)。非凡的性能证明HiFT可能是长期空中跟踪场景的理想选择。DTB70 [34]:与上述两个基准相比,DTB70包含70个具有挑战性的UAV序列,具有大量严重的运动场景。跟踪器在快速运动场景中的鲁棒性可以在该基准上适当 地 评 估 实 验 结 果 如 图 所 示 。 4a , HiFT 在 精 度(0.802)和成功率(0.594)方面均排名第一,其次是SiamRPN++表1. UAV123的定量评价[39]。前三名的表现分别用红色、绿色和蓝色突出准确度和成功率分别表示20像素处的精度得分和成功图的AUC。跟踪器预处理成功跟踪器预处理成功自动追踪[36]0.6890.472C-COT [13]0.7290.502ARCF [29]0.6710.468UDT+[44]0.7320.502STRCF [33]0.6810.481UDT [44]0.6680.477fDSST [12]0.5830.405TADT [35]0.7270.520SRDCF [11]0.6760.463DeepSTRCF [33]0.7050.508CoKCF [50]0.6520.399MCCT [45]0.7340.507KCF [26]0.5230.331DSiam [24]0.6080.400BACF [21]0.6620.461ECO [9]0.7520.528SiamRPN++[31]0.7690.579暹罗足球俱乐部[2]0.7250.494[53]第五十三话0.7250.501HiFT(我们的)0.7870.589表2.对UAV20L的总体评价[39]。报告前九名跟踪者,前三名跟踪者分别用红色、绿色和蓝色标记。准确度和成功率分别表示20像素处的精度得分和成功图的AUC。UDT+ ECO TADT DeepST- Siames- DSiam 达西亚姆 SiamRP-HiFT[第四十四届][9]第一章[35]第三十五届 [33]第二次世界大战[24日]RPN [53] N++ [31](我方)预处理 0.585 0.589 0.6090.5880.5990.6030.6650.6960.763成功 0.401 0.427 0.4590.4430.4020.3910.4650.528零 点 五六1546210.90.80.70.60.50.40.30.20.10精密度图0 10 20 30 4050定位误差门限10.90.80.70.60.50.40.30.20.10成功图0 0.20.40.60.81重叠阈值0.80.70.60.50.40.30.20.10精密度图0 10 20 30 4050定位误差门限0.80.70.60.50.40.30.20.10成功图HiFT [0.574]SiamRPN++[0.555]ECO [0.519]TADT [0.507]C-COT [0.502]深STRCF [0.499]MCCT [0.492]DaSiamRPN [0.481]自动跟踪[0.481]UDT+[0.478]暹罗足球俱乐部[0.472]ARCF [0.471]STRCF [0.460]UDT [0.428][0.426]DSiam [0.425][0.416]CoKCF [0.387]fDSST [0.381]0 0.20.40.60.81重叠阈值(a) DTB70的结果(b)UAV123@10fps的结果图4.HiFT和其他SOTA跟踪器在(a)DTB70和(b)UAV123@10fps上的PP和SP我们的跟踪器在两个基准测试中取得了优异的表3.四个空中跟踪基准的平均评价我们的跟踪器优于所有其他跟踪器有一个明显的改善。最好的三个性能分别用红色、绿色和蓝色突出。HiFTSiamRPN++ DaSiamRPN AutoTrack ARCF C-COT SiameseFC UDT+ TADT DeepSTRCF MCCT ECO(我们的)[31][53][36][29][13][2][44][35][33][45][9]Avg.精密度0.7760.7500.6930.648 0.6430.691 0.6800.662 0.6780.6770.686 0.693Avg.成功0.5810.5630.4800.445 0.4480.479 0.4630.461 0.4880.4890.4720.494精确度为0.795,成功率为0.589。HiFT在处理快速运动中的有前途的能力可以归因于所提出的分层特征Transformer , 其 能 够 提 高 HiFT 的 辨 别 能 力UAV123@10fps [39]:UAV123@10fps是通过从原始30FPS录制中进行下采样而创建的因此,与UAV123相比,UAV123@10fps中的强运动问题更严重。PP和SP如图所示。图4b证明HiFT可以一致地获得满意的性能,实现最佳精度(0.754)和成功率(0.574)。综上所述,HiFT与其他SOTA跟踪器相比提供了更稳定的性能,验证了其在各种空中跟踪场景中的良好鲁棒性注释5:表3报告了前11个跟踪器在四个基准上的平均精度和成功率。结果表明,HiFT在精度和成功率方面分 别 将 第 二 好 的 跟 踪 器 SiamRPN++ 提 高 了 3.5% 和3.2%。表4.在四个基准点上对前6个跟踪器进行基于属性的评估最好的两个性能分别用红色和绿色突出HiFT在不同的属性中保持最佳性能。Δ表示与第二最佳跟踪器相比的改进。属性低分辨率比例变化遮挡快速运动跟踪器预处理成功预处理成功预处理成功预处理成功SiamRPN++0.5910.3900.7280.5590.6010.4050.6800.489DaSiamRPN0.5920.3470.6780.4820.5830.3610.6170.409C-COT0.5860.3310.6430.4510.5710.3590.6440.411TADT0.6040.3660.6320.4660.5980.3870.6280.412ECO0.5810.3430.6440.4710.5830.3750.6200.407HiFT(我们的)0.6260.4160.7720.5840.6380.4310.7510.537Δ(%)3.636.815.984.406.206.4310.429.794.3.2基于属性的比较为了在各种挑战下详尽地评估HiFT,进行基于属性的比较,见表4。HiFT在精度和成功率方面与其他前5名跟踪器相比排名第一具体来说,HiFT在低分辨率、尺度变化、遮挡和快速运动等属性方面的表现明显超过了第二好的表现。HiFT在快速运动场景中将次佳性能提高了约10%。令人满意的结果表明,我们的分层特征Transformer可以帮助利用全局上下文信息来克服严重的运动问题。此外,当对象被严重遮挡时,HiFT可以学习更鲁棒的特征来区分被遮挡的对象。因此,HiFT在遮挡的场景中也产生显著的改善。此外,由于多尺度特征图被用于构建特征变换,因此我们的跟踪器被赋予了跟踪具有各种尺度的对象的能力,正如其在低分辨率和尺度变化属性中的性能所验证的那样。4.3.3消融研究为了验证所提出的方法的每个模块的有效性,在启用不同模块的HiFT之间的详细研究在UAV20L上进行。符号介绍:为了清楚起见,我们首先介绍表5中使用的符号的含义。该工作将Baseline视为仅具有特征提取和回归分类网络的模型。OT表示原始标准Transformer(具有对象查询)。FT指示具有特征图(而不是对象查询)但没有所提出的调制层的原始TransformerHFTHiFT [0.802]SiamRPN++ [0.795]C-COT [0.769]深STRCF [0.734]MCCT [0.725]ECO [0.722]暹罗足球俱乐部[0.719]自动跟踪[0.716]ARCF [0.694]DaSiamRPN [0.694]TADT [0.693]UDT+[0.658]STRCF [0.649]UDT [0.602]CoKCF [0.599]BACF [0.590]fDSST [0.534]SRDCF [0.512]DSiam [0.495]HiFT [0.594]SiamRPN++[0.589]C-COT [0.517]深STRCF [0.506]ECO [0.502]MCCT [0.484]暹罗足球俱乐部[0.483]自动跟踪[0.478]ARCF [0.472]DaSiamRPN [0.472]TADT [0.464]UDT+[0.462]STRCF [0.437]UDT [0.422]BACF [0.402]CoKCF [0.378]SRDCF [0.363]fDSST [0.357]DSiam [0.337]精度HiFT [0.754]SiamRPN++ [0.740]ECO [0.709]C-COT [0.704]DaSiamRPN [0.689]TADT [0.684]MCCT [0.681]深STRCF [0.680]澳门银河[0.678]自动跟踪[0.676]UDT+[0.673]ARCF [0.663]STRCF [0.632]DSiam [0.622]CoKCF [0.612]SRDCF [0.578]BACF [0.576]UDT [0.572]fDSST [0.518][0.409]成功率精度成功率跟踪器15463表5. HiFT不同组分的消融研究。关于基线、OT、FT、HFT、PE和RL的详细说明,请参阅第4.3.3. Δ表示与基线跟踪器相比的改进。跟踪器精度Δpre(%)成功Δsuc(%)基线0.611-0.463-基线+OT0.597-2.290.446-3.67基线+FT0.675+10.470.496+7.13基线+HFT+PE0.689+12.770.523+12.96基线+HFT+RL0.629+2.950.486+4.97基线+HFT(HiFT)0.763+24.880.566+22.25表示所提出的分层特征Transformer的完整版本。PE表示对M5的直接位置编码(HiFT省略了M5中的位置编码,如在第2节中所示3.2.2)。RL表示传统跟踪器中使用的矩形标签为了公平起见,每个版本的跟踪器采用相同的训练策略,除了调查的模块。Transformer架构讨论:如表5所示,添加具有对象查询 的 原 始 Transformer ( Baseline+OT ) 直 接 使Baseline的性能在精度上降低了约2.29%,在成功率上降低了约3.67%,这证明对象查询在具有新目标对象的SOT中难以很好地执行。Baseline+FT算法用特征图代替目标查询,跟踪精度提高了10.47%。进一步采用调制层,基线+HFT,产生最佳性能24.88%。上述结果均可与实验结果进行比较。动物4SpeedCar4电机2Group3游艇4car8帧基线基线+OTHiFT图5.三轨道置信度图的可视化-对来自UAV20L [39]和DTB70 [34]的几个序列的测试方法。目标对象在原始帧中由红色HiFT在空中视觉跟踪方面具有更强大的性能结合在一起,以验证精心设计的分层特征Transformer与调制层在空中跟踪中的有效性位置编码&分类标签讨论:这部分主要是对上述两种策略进行证明,即第二节中的位置编码策略. 3.2.2节中的新分类标签三点三对于位置解码,在表5中,跟踪器基线+HFT+PE极大地损害了HiFT的性能(从24.88%改进到12.77%),证明直接位置编码确实是不适当的对于特征M5。 考虑到地面实况和样本点的距离,HiFT中使用的圆形策略与Baseline+HFT+RL中的传统 矩 形 标 签 ( 2.95% ) 相 比 实 现 了 显 著 的 改 进(24.88%备注6:请注意,补充材料中报告了更多消融研究。4.3.4定性评价如图 5,我们的HiFT跟踪器的置信度图在空中跟踪的艰巨挑战下始终专注于目标,例如:,Motor2中的快速运动,SpeedCar4中的低分辨率,以及组3和Yacht4中的遮挡。尽管Baseline和Baseline+OT使用与HiFT相同的策略进行训练,但它们在那些复杂的跟踪场景中仍然无法集中于目标对象,这证明了所提出的分层特征Transformer的鲁棒性。4.3.5与具有更深主干的所提出的分层特征Transformer致力于模型有效的特征映射之间的多级特征,tures,从而实现SOTA性能,而不引入一个巨大的计算负担。为了进一步评估其有效性,我们采用配备有更深的骨干的跟踪器 最先进的跟踪 器 , 包 括 SiamRPN++ ( ResNet-50 ) [31] 、SiamRPN++(MobileNet)[31]、SiamMask(ResNet-50)[46]、ATOM(ResNet-18)[10],DiMP(ResNet-50)[3],PrDiMP( ResNet-18 ) [14] , SiamCAR ( ResNet-50 ) [23] ,SiamGAT(GoogleNet)[22]和SiamBAN(ResNet-50)[8]参与了比较。如示于图6、HiFT在跟踪鲁棒性和速度上达到了令人满意的平衡。在UAV 20 L上,采用AlexNet作为骨干,HiFT(0.763)在精度上超过了第二好的跟踪器SiamRPN++ ResNet-50(0.749),速度达到127 FPS,是后者的1.8倍。类似地,在DTB70上,HiFT实现了与那些更深的基于CNN的跟踪器相当的性能。最终,平均精度和跟踪速度报告在表6中,HiFT产生最佳平均精度(0.783),具有129.87 FPS的有希望的速度,证明15464∼71 FPSPS127F133 FPS74 FPS图6. 通过HiFT与UAV 20 L [39](左)和DTB 70 [34](右)上具有更深主干的跟踪器之间的定量比较进行精度-速度权衡分析。我们的方法实现了一个很好的权衡两个基准。表6.HiFT的平均精度和跟踪速度以及具有更深主干的跟踪器所提出的方法运行在一个令人满意的速度为130帧/秒,同时实现与那些跟踪器配备了更深的骨干网的跟踪性能。最好的三种性能分别用红色、绿色和蓝色突出。跟踪器HiFT(我们的)SiamGAT [22]SiamCAR [23]SiamBAN [8]PrDiMP [14]SiamRPN++[31]SiamRPN++[31]SiamMask [46]原子[10]骨干AlexNetGoogLeNetResNet-50ResNet-50ResNet-18ResNet-50MobileNetResNet-50ResNet-18Avg. 预处理0.7830.7510.7390.7630.7410.7740.7480.7400.738Avg. FPS129.8790.0171.7473.2525.9471.59115.0377.3034.94HiFT在跟踪性能和效率之间实现了极好的平衡。5. 真实世界测试在本节中,HiFT进一步在包括嵌入式机载处理器的典型UAV平台上实现,即,NVIDIA AGX Xavier,以验证其在实际应用中的实用性。图7显示了野外的三个测试,包括白天和夜晚场景。测试中的主要挑战是部分遮挡、视点变化(第一行)、低分辨率、摄像机运动(第二行)、小物体和周围类似物体(第三201000 100 200 300框架(编号)2010四百五百行)。由于采用了有效的特征Transformer,HiFT在各种复杂场景下都能保持较好的跟踪鲁棒性.此外,我们的跟踪器在测试期间保持在31.2FPS的平均速度,而不使用Ten sorRT。因此,嵌入式系统上的真实世界测试直接验证了HiFT在各种UAV特定挑战下的卓越性能和效率。6. 结论在这项工作中,提出了一种用于有效空中跟踪的新型分层特征Transformer,用于简化利用全局上下文信息和多级特征的过程。通过低分辨率的语义信息和高分辨率的空间细节,变换后的特征可以通过一个轻量级的结构实现有希望的性能,在区分对象从杂波。同时,由于调制层和新的分类标签,特征Transformer的有效性可以达到其全部潜力。综合实验表明,HiFT算法能够实现良好的精度-速度平衡,可应用于实际空中跟踪场景。此外,即使比较0电话:021 - 88888888传真:021 - 88888888框架(编号)20100电话:021 - 88888888传真:021 - 88888888图7.嵌入式平台上真实世界测试的可视化。跟踪结果和地面实况用红色和绿色框标记。蓝色虚线下方的CLE分数被认为是真实世界测试中的成功跟踪结果。对于具有更深主干的跟踪器,HiFT可以实现相当的性能。我们相信,我们的工作可以推动空中跟踪的发展,促进视觉跟踪的实际应用。鸣 谢 : 本 研 究 得 到 了 国 家 自 然 科 学 基 金 ( No.61806148 ) 和 上 海 市 自 然 科 学 基 金 ( No.20ZR1460100)。我们感谢匿名评论者为帮助我们改进工作所做的努力。#0001#0217#0699#0001#0201第0448章#0001第0296章第0549章CLECLECLE15465引用[1] 诉Ashish,S.Noam,P.Niki,U.Jakob,J.Llion,N.G. 艾登K. Lukasz和P.伊利亚注意力就是你所需要的。神经信息处理系统(NIPS)进展,第6000-6010页,2017年。一、二、三、四[2] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H. 乇用于对象跟踪的全卷积
下载后可阅读完整内容,剩余1页未读,立即下载
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)