没有合适的资源?快使用搜索试试~ 我知道了~
8741基于排序的暹罗视觉跟踪Feng Tang1,2 Qiang Ling11中国科学技术大学自动化系2合肥综合国家科学中心人工智能研究所qling@ustc.edu.cn,tang0420@mail.ustc.edu.cn摘要目前基于Siamese的跟踪器主要将视觉跟踪分解为两个独立的子任务:分类和定位。它们通过分别处理每个样本来学习分类子网络,并确定正样本和负样本之间的关系此外,这样的跟踪范例只需要分类-(a) 分类排名1秩0.950.9IoU:0.820.90.750.80.78(b) IoU引导的排名最终预测的建议的置信度,这可能会产生分类和本地化之间的不一致。为了解决这些问题,本文提出了一种基于排序的优化算法,以探索不同的建议之间的关系。为此,我们引入了两个排名损失,包括分类损失和IoU引导的损失,作为优化约束。分类排序损失可以确保阳性样本的排序高于硬阴性样本,即,干扰物,使得跟踪器可以不受干扰物的欺骗地选择前景样本。IoU引导的排名损失旨在将分类置信度分数与阳性样本的相应定位预测的交集(IoU)对齐,从而使得能够通过高分类置信度来表示良好定位的预测。具体地说,建议的两个排名损失是兼容的大多数暹罗跟踪器,并不会产生额外的计算推理。针对OTB100、UAV123、TC128、VOT 2016、NFS30、GOT等七种跟踪基准进行了广泛的实验,10k和LaSOT的仿真结果表明了所提出的基于排序的优化 算 法 的 有 效 性 。 代 码 和 原 始 结 果 可 在https://github.com/ sansanfree/RBO获得。1. 介绍视觉目标跟踪的目的是估计视频序列中任意目标在每一帧中的位置信息。在大多数情况下,只有最初的目标信息-*通讯作者。图1.拟议的两个等级损失的说明分类损失使得正样本的排名高于硬负样本,旨在抑制干扰项的分类IoU排名损失旨在将分类与本地化对齐,即,期望具有较大IoU的样本获得较高的分类置信度得分。为跟踪器提供信息,则要求跟踪器在接下来的帧中对目标外观进行建模。由于目标特定信息仅在测试时可用,因此无法通过离线网络训练获得目标模型。近年来,许多研究人员探索如何利用深度学习技术来解决跟踪任务。Siamese网络是最流行的深度学习范式之一。作为先驱工作,SiamFC [1]将视觉跟踪公式化为深度目标匹配问题。具体来说,SiamFC由两个分支组成,即,目标模板和搜索区域。它的前一个分支用于将目标建模为固定样本,后一个分支处理可能的区域。SiamFC启发了许多后来的跟踪器[26,27,46,50],这些跟踪器构建在Siamese网络架构上,可以实现最先进的性能。其中SiamRPN引入了区域建议网络(RPN),它由用于前景-背景判别的分类头和用于目标细化的回归头组成。SiamRPN++[26]和SiamFC++[50]释 放 了 更 深 层 次 的 骨 干 网 络 ( 如 ResNet [21] 和GoogleNet [37])的功能,以增强功能表示。受FCOS[39]和CornerNet [25]等无锚对象检测器的启发,许多无锚跟踪器-10.80.6秩0.40.20阳性样本硬 性 阴性样本简易阴性样本8742s [8,14,18,19]遵循逐像素预测方式来执行目标定位。尽管基于暹罗的跟踪器已经实现了有前途的性能,但仍然存在两个限制:(1)暹罗猫很难区分背景干扰物。特别地,在训练阶段,分类子网络由大量训练样本优化容易的样本),可以容易地分类,而少数分散注意力的示例被淹没,并对网络优化产生微小影响。在测试时,虽然大多数非目标样本可以被跟踪器识别,但当跟踪器具有较强的正置信度时,背景干扰项会严重误导跟踪器,导致跟踪失败。(2)由于分类和定位任务是分开进行的,因此存在分类和定位不匹配的问题.更具体地说,分类损失驱动模型将相关目标与背景区分开来,而不管位置信息如何,而回归分支旨在对所有正样本局部化目标的边界框,因此,良好定位的提议可具有相对较低的前景置信度,而具有高前景置信度的提议可产生低定位准确度。为了解决上述问题,我们提出了一种基于排名的优化(RBO),包括分类和IoU引导的排名损失。分类损失用于显式地对阳性样本和硬阴性样本之间的关系进行建模。实际上,有许多不同的样本重新加权策略来抑制目标检测中的干扰[4,5,30]。然而,在视觉跟踪的背景下,硬负样本往往与被跟踪目标具有相同的语义类,在分类嵌入空间中很难区分干扰项。因此,如图1(a)所示,我们将分类作为一项排名任务来处理,其中鼓励前台样本的排名高于后台样本。与原始分类损失相比,提出的排序优化算法提供了一个宽松的约束条件,即只要负样本的前景置信度得分低于正样本,就允许将其分类为前景样本,并能很好地防止跟踪器被干扰项欺骗.实际上,在对象检测中研究了分类和定位之间的不对齐问题[31,43,55],受此启发,我们提出了基于RankDetNet [31]的IoU引导的排名损失,以将前景置信度得分与其相应的IoU值对齐,如图1(b)所示。修正后的损失更适合于跟踪任务,使得分类置信度在一定程度上具有局部敏感性。为了验证所提出的基于排序的方法的有效性为了优化,我们选择基于锚点的SiamRPN++ [26]和无锚点的SiamBAN [8]跟踪器作为基线,并分别制作我们的SiamRPN++-RBO和SiamBAN-RBO跟踪器。此外,最近的工作提出了不同的像素相关方法来计算样本和搜索图像之间的相似性[17,18,29]。受它们的启发,我们修改SiamBAN-RBO,取代深度相关与像素相关,获得一个新的跟踪器版本称为SiamPW-RBO。本文的主要贡献概括如下。我们设计了一种分类排序损失,通过对前景样本和背景样本之间的关系进行建模来提高识别能力,从而防止跟踪器被诋毁者欺骗。我们提出了一个IoU引导的排名损失,以减轻分类和本地化之间的不匹配问题它通过将分类得分与相关的IoU对齐来连接两个独立的子任务,确保可以通过高分类置信度得分来表示良好的本地化预测。所提出的RBO可以显着提高性能的三种类型的跟踪器在七个不同的基准,而不牺牲推理速度与基线跟踪器的兼容性。2. 相关工作2.1. 暹罗视觉跟踪最近,SiamFC [1]将视觉跟踪任务表述为目标模板和搜索区域之间的一般相似性计算问题,其通过大规模离线训练来学习一般的相似性。后续跟踪器已被提出通过引入注意力机制[46]、设计新的网络架构[42]、使用增强的损失[12]或利用深度强化学习[44]来进一步增强暹罗框架。在这些后续研究中,值得一提的是SiamRPN [27]引入了RPN模块来预测纵横比变化的目标的边界框,而不是SiamFC的蛮力离散尺度搜索策略。因此,SiamRPN将SiamFC升级为高级框架。基于SiamRPN,提出了多种跟踪器。其中,DaSiamRPN[60]收集更多样化的训练数据以增强辨别力。C-RPN[16] 构 造 多 级 RPN 以 更 准 确 地 执 行 状 态 估 计 。SiamRPN++ [26]采用更深的ResNet-50 [21]网络来增强功能表示。受无锚对象检测和实例分割的启发,一些跟踪器将原始RPN架构修改为逐像素跟踪[8,18,19,50]。···8743IoU引导排序损失模板图像特征提取器相关性头搜索图像特征提取器FXAloc回归损失分类排序损失分类损失SAclsFz图2.基于暹罗网络的跟踪器的流水线由两个子任务组成,包括分类和定位。所提出的分类排序损失促进分类优化,而IoU引导的排序损失旨在将分类置信度与定位预测对齐。除此之外,[17,18,29,54]专注于通过修改非局部注意力来促进相似性学习[48]。尽管上述暹罗跟踪器已经实现了满意的性能,但是它们很容易被干扰器误导跟踪器的鲁棒性可能很弱。为了解决这个鲁棒性问题,许多研究人员引入了在线深度学习技术来增强跟踪器的泛化能力。例如,ATOM [11]和DiMP [2]在每次在线跟踪时构建目标专用分类器,并收集历史硬阴性样本以提升分类器。UpdateNet [56]更新目标模板以包含时间信息。MAML[41]通过元学习将对象检测器(如FCOS [39])传输到跟踪器,并增量更新网络权重以适应目标特定序列。然而,这些跟踪器需要仔细设计在线跟踪协议,以避免错误和冗余的更新。因此,本文提出了一种基于秩的分类损失来抑制干扰项,并且只涉及离线训练而不修改网络架构。因此,所提出的秩损失对于推断是免计算的。2.2. 视觉跟踪中的失准问题大多数先进的跟踪器分别处理分类和定位,忽略了它们之间的错位问题。一些研究者采用特征对齐策略进行尺度感知的关联。例如,Ocean [59]引入了可变形卷积[10]和SAM [57]利用空间Transformer网络-S.除此之外,许多跟踪器执行重新检测以实现更准确的定位[40,42]。但是,它们通常采用池操作,并设计复杂的重检测机制,导致复杂度较高SiamR-CR [35]和SiamLTR [38]增加了一个额外的分支来评估定位预测,旨在实现本地化敏感的建议选择标准。与他们不同的是,我们提出了一个IoU排名损失,以促进反向传播,其目的是使置信度得分与相关的IoU一致。值得一提的是,我们的跟踪器不需要添加任何额外的网络架构或设计任何新的跟踪协议。因此,在推理阶段是完全免费的。2.3. 排名算法学习排名已被广泛用于NLP任务,如推荐系统,旨在优化样本列表的排名。最近,一些研究人员考虑在视觉对象检测中的排序优化。例如,提出了AP损失[6]来直接优化分类的平均精度度量DR损失[36]放弃了- s原始分类损失,并优化了前景和背景分布的排名。RankDetNet [31]分别使用两个排名约束进行分类和局部化。然而,据我们所知,学习排名还没有实施到视觉跟踪。尽管我们的基于排名的优化与上述方法部分相似,但动机和技术细节完全不同:(1)优化任务不同。目标检测中的排序策略旨在为任务特定的目标检测任务学习类信息,而我们的排序优化是定制的,以增强类不可知跟踪任务中使用的相似性测量。(2)实现方式不同。我们的排名优化作为对原始损失的额外约束,而不是取代原始的。(3)排名的目的不同。用于目标检测的排序策略要求类间方差大而类内方差小,这意味着属于同一类的样本在分类空间中应该是相反,我们的分类-8744AAΣⓈ××∈⊗Fz<$Fx/C阳离子排序损失用于扩大类内距离,因为目标和硬干扰项总是具有相同的类。3. 方法在本节中,我们将介绍基于暹罗网络的跟踪器的建议的基于排名的优化(RBO)。图2显示了整个管道。首先,我们将在3.1节中简要回顾暹罗跟踪器。然后,我们将在以下章节介绍拟议的RBO。3.1. 重温暹罗追踪器标准连体追踪器取样本图像z和搜索图像x作为输入。图像z点在第一帧中搜索出目标,跟踪器需要在搜索区域内定位目标X在随后的视频帧中。 这两幅图像被送入一个共享的主干网络,以生成特征图-H2H1阳性样本边界阳性样本硬 阴性样本阴性样本图3.不具有或具有所提出的分类排名损失的二元分类的图示。h1(绿实线)和h2(绿虚线)是相应的决策超平面。一个cls的目的是确定前景的建议,从后面-sFz∈RHz×Wz×C和Fx∈RHx×Wx×C。接地,而Areg 回归目标边界框。然后应用匹配网络对Fz进行处理,Fx,以获得相似性特征图S,暹罗跟踪器的标准损失定义为S=S(Fz,Fx)(1)Lrpn1= N阳性i∈AposLclsiclsicls +Lloc益禄益禄许多流行的暹罗跟踪器将定义为深度交叉相关(DW-Corr)[8,13,19,26,50,54]。最近,受视频对象分割的启发[34],许多1+ N阴性i∈A阴性Lclsiclsicls(五)研究人员采用像素相关方法(PW-Corr)[17,18,29],这是非局部注意力的变体[48],作为跟踪任务的匹配网络模型。在本文中,我们介绍了PW-Corr [17]的简化版本,expΣ。FiFj/C其中Npos和Nneg是阳性样本集pos和阴性样本集分别为。Ycls和Yloc表示分类和回归la-贝尔,分别。Lcls通常是交叉熵损失,Lloc是常用的平滑L1损失或IoU损失。wij=zΣ。KX j(二)我们可以从Eq. 五、 第一、分类分支处理正面和负面其中,F z和F x分别被重新整形为H z W zC和CH x W x的大小,i和j分别是F z和F x上每个像素的索引。符号表示点积运算。 从而得到一个相似矩阵 wRHzWz×HxWx.相似性特征图S被计算为S=浓度Fx,(Fz)Tw(3)其中concat()表示矩阵连接,并删除矩阵乘法。然后,相似性特征图S被馈送到由分类模块θcls和定位模块θloc组成的RPN头。RPN头可以是基于锚点的[26,27]或无锚点的[8,14]。我们可以得到分类图Acls和回归图Aloc,Acls=θcls(S),Aloc=θloc(S)(4).一,Y.一,Y.一,YkexpΣ单独取样,不探索关系-Σ8745他们之间。其次,分类和定位分支用独立的目标函数训练,它们之间没有直接的相互作用,这可能会产生分类和定位之间的预测不一致。3.2. 分类排名损失如上所述,大多数基于连体的跟踪器经由交叉熵损失实现二进制分类,这可以确保大多数样本可以被正确分类。然而,如图3所示,一些硬负样本可能会越过决策超平面并欺骗分类器。在跟踪任务中,只要一个负样本的分类得分大于所有正样本的因此,假阳性分类严重妨碍跟踪器的鲁棒性。为了缓解这个问题,我们提出了一个分类排名损失,以扩大前景-背景分类8746{}−n+{}OOΣΣΣn−∈Aj−JJIjJ+决策裕度特别是,我们首先训练的分类器,这是监督交叉熵损失。然后,我们通过它们的预测对象置信度得分对所有阴性样本进行排序。置信度得分低于τneg的阴性样本,例如,0.5,被过滤掉。剩下的构成硬负样本集pj-是阴性样本的数量,pn-,其中nj−j-表示样本j-的对象置信度得分。类似地,对于posi-我们保留所有样本以获得正集{p j+}j+. 至于接下来的排名优化,我们不在集合pjn-1之间进行逐点比较n和{pj+},原因有两个。第一,时间是--+逐点比较的复杂度等于(n-n+),这对于训练来说是昂贵的第二,没有必要--说明每个阳性样本的排名应高于所有阴性样本,因为一些位于分类边界的低置信度阳性样本在某种程度上可以忽略。而且,只要一个正样本的排序高于硬负样本,跟踪器就可以选择正确的候选者作为跟踪目标。鉴于上述考虑,我们对训练样本的期望进行排序,以扩大前景-背景分类裕度,同时时间复杂度可以显著降低到(1)。硬性阴性和阳性样本的预期定义为:n−图片SiamRPN++我们的图4.由SiamRPN++和Ours(SiamRPN++由建议的分类排序损失监督)估计的目标对象(红框)的置信度图。SiamRPN++预测的模型难以区分目标和背景中的干扰物。相比之下,所提出的排名损失为SiamRPN++提供了优越的区分能力,并且可以P−=wj−j−n+P+=wj+J+pj−,pj+,(六)显著抑制干扰者的信心跟踪任务,因为我们只需要一个阳性样本来表示跟踪的目标。此外,图4还进一步直观地显示了建议的分类排名的有效性其中wj-表示样本j-的期望权重,损失,高反应只反映了有关wj− 由SoftMax函数归一化为目标,而干扰物被显著抑制exp(pj)3.3. IoU引导的排名损失-(7)wj−=n−exp(p)--为了解决分类置信度和本地化之间的不匹配,我们提出了一个IoU引导的排名,相应地,正权重wj+设为1+ 既然我们损失,以协调优化分类,要保持正分类分布。我们采用逻辑损失将期望P−和P+排序为1Lrank-cls=βlog(1 + exp(β·(P−−P++α))(8)其中,β控制损失值,α是排名边际。具体来说,如果图像中没有硬负样本,我们将跳过此图像。如图3所示,监督L秩cls,调整决策超平面回归分支更具体地说,所提出的损失旨在将两个阳性样本的置信度分数与其相关的IoU对齐,并且可以鼓励具有较大IoU的一个阳性样本排名高于具有较小IoU的另一个阳性样本。为此,对于正样本i,jpos,排序约束以成对方式组织为pi> pj,s. t.viou> vioui j(9)viou> viou,s.t.pi> pj从h1到h2,将硬阴性样品放置在成功的反面。请注意,某些边界阳性样本可能位于负侧,其中pi和pj分别指示正样本i、j的前景置信度分数,I j精确超平面,这是可以接受的单一对象的预测IoU值与地面的真实样本,8747××JJL LL和j.请注意,我们的排名约束是从RankDetNet [31]修改而来的,它们的差异将在第4.2节中进行分析。然后IoU引导的排名损失定义为的大小和推理,模板补丁大小调整为127 × 127像素的大小,并裁剪搜索区域,255 255像素。等级保证金α设定为0.5 ac-根据[36]的分析。 为了实现稳定的1Lrank-iou=POS i,j∈Aposu,viou>viouexp(−γ·(pi-pj))对于所有实验,β和γ分别被设置为4和3。我+1ΣJexp(− γ·( viou−viou))评估数据集和数据库。我们使用七个跟踪基准,包括OTB 100 [49],UAV 123 [33],N-N阳性 i,j∈Apos,pi>pjI j(十)FS 30 [23]、TC 128 [28]、GOT-10k [22]、VOT 2016 [24]和LaSOT [15]用于跟踪性能评估。为其中γ >0是控制损失值的超参数。 在反向传播优化过程中,如果viou> viou,我们将优化pi和pj,使pi排名在VOT2016 [24]中,我们采用了准确性(A),鲁棒性(R)和预期平均重叠(EAO)指标。对于GOT-i j10k [22],在其在线服务器上评估跟踪器高于pj;如果pi> pj,遵循[31],我们将冻结并且仅优化VIOU以实现期望的秩-它采用平均重叠(AO)和成功率j i(SR)度量。对于其他数据集,我们采用距离精度-ing. 如果viou不被冻结,损失可能会下降,这将妨碍回归优化。在20个像素处的分辨率(DP)和重叠成功图的曲线下面积(AUC)评分用于评估。所提出的IoU引导的排名损失可以通过将分类分数与相关联的IoU对齐来缩小分类和回归分支之间的差距。因此,良好定位的预测可以由高分类置信度表示。3.4.基于排名的跟踪器先进的连体跟踪器采用不同的骨干网、相关方式和RPN头。由于我们提出的基于排名的优化(RBO)旨在促进分类和回归优化,因此RBO对网络架构不敏感。为了方便起见,我们采用ResNet-50 [21]作为骨干网络,并将所提出的RBO集成到SiamRPN++(DW-Corr和基于锚的头)[26]和SiamBAN(DW-Corr和无锚头)[8]中,获得SiamRPN++-RBO和SiamBAN-RBO,respectively。此外,我们制作了一个新的版本命名为SiamPW-RBO的基础上,在3.1如图2所示,所提出的两个排名损失可以与暹罗跟踪器中采用的原始损失一起优化。我们经验性地将原始损失RPN与建议的rank-cls和rank-iou以1:0.5:0.25的权重相结合,这有利于稳定的离线训练。由于所提出的RBO仅涉及离线训练,因此它不会在推理阶段引入任何额外的计算成本。4. 实验我们的跟踪器使用Pytorch跟踪平台PySOT实现,并在四个NVIDIA GTX 1080Ti GPU上进行训练实施详情。为了公平比较,我们遵循PySOT中为SiamRPN++- RBO、SiamBAN-RBO和SiamPW-RBO定义的相同训练协议(数据集和训练超参数)。对于两列火车-4.1. 与最先进的跟踪器的OTB100 [49].我们在OTB100数据集[49]上验证了我们提出的跟踪器,该数据集由100个完全注释的序列组成 。 如 表 1 所 示 , 我 们 提 出 的 SiamRPN++-RBO 、SiamBAN-RBO和SiamPW-RBO分别达到69.9%、70.2%和69.8%的AUC评分。与最近提出的Siamese跟踪器(如SiamRN [9]和SiamGAT [18])相比,我们的三个跟踪器实现了更好或具有竞争力的性能。TC128 [28].为了进一步评估,我们报告了由128个col组成的TC128数据集的跟踪结果。或序列。如表1所示,SiamBAN-RBO和SiamRPN++-RBO的性能优于现有的最先进的Siamese跟踪器,如SiamGAT [18]。此外,SiamRPN++-RBO使基线SiamRPN++的AUC评分从57.3%显著提高至61.9%。[33]第三十三话UAV 123数据集包含123个低-从无人机上拍摄的高空航拍视频。该数据集具有许多具有部分或完全遮挡和剧烈变形的序列。如表1所示,我们的SiamRPN++- RBO获得的成功(AUC)评分为0.643 , 显 著 优 于基 线 SiamRPN++ , 且 边 际 较大 。SiamBAN-RBO版本也有重大改进。这是因为RBO方法可以增加目标和背景的表示之间的差异,这有助于区分目标和干扰物。NFS 30 [23].我们在NFS数据集(30 FPS版本)[23]上进行实验,该数据集提供了100个具有快速移动对象的视频。如表1所示,我们的三个跟踪器稳定地排名前三,并优于最近的暹罗跟踪器,如SiamGAT [18]。[22]第二十二话最近发布的GOT-10 k数据集提供了一个大规模和高多样性的基准,N8748SiamRPN++[26日]SiamBAN[八]《中国日报》SiamCAR[19个]海洋[59个]CLNet[13个国家]CGACD[14个]SiamRN[9]第一章SiamRPN++-ACM [20]SiamBAN-ACM [20]SiamGAT[18个国家]SiamRPN++-RBOSiamBAN-RBOSiamPW-RBOOTB100 [49]69.669.665.767.265.771.370.171.272.071.069.970.169.8TC128 [28]57.358.457.855.156.460.5---58.561.961.259.3UAV123[33]61.361.461.459.263.363.364.363.464.664.564.364.164.5[23]第二十三话50.259.053.351.854.355.4---56.759.661.360.1表1. OTB100 [49]、TC 128 [28]、UAV 123 [33]和NFS 30 [23]数据集的AUC评分比较结果。红色、蓝色和绿色表示前三个结果。海洋是离线版本。SiamRPN++[26日]海洋[59个]D3s[32个]SiamFC++[50个]SiamBAN[八]《中国日报》SiamCAR KYS[19][3]STMTrackSiamGATSiamRPN++SiamBAN SiamPW[18]第十七话:一个人的世界AO(↑)51.759.259.759.557.956.963.664.262.760.260.864.4SR 0。5(↑)61.569.567.669.568.467.075.173.774.371.872.276.7SR 0。75(↑)32.947.946.247.345.741.551.557.948.844.646.850.9表2.GOT-10 k [22]测试集在平均重叠(AO)和重叠阈值0.5和0.75时的成功率(SR)方面的比较结果0.80.70.60.50.40.3LaSOT测试集上OPE的精密度图0.90.80.70.60.50.40.3LaSOT测试集上OPE的成功图0.20.1005101520253035定位误差门限4045500.20.1000.10.20.30.40.50.60.70.80.91重叠阈值图5. LaSOT测试的精度和成功图[15]数据集。训练和测试子集没有重叠。在它的协议下,我们只使用它的训练子集来训练我们的模型,并对其测试集进行评估。表2示出了在平均重叠(AO)和成功率(SR)度量方面的结果,其中重叠阈值为表3.与最先进的跟踪器的比较的0.5 0.75。SiamPW-RBO的性能略优于其他性能最佳的跟踪器,如基于内存的STMTrack”[17] 《 明 史 》 : “ 。 与 SiamRPN++ 相 比 , 我 们 的SiamRPN++-RBO在AO中获得了8.5%的显著改善,在SR 0中获得了10.3%的显著改善。5以及SR 0中的11.7%。75. 改善的部分原因是,提出的IoU引导的排序损失能够使跟踪器更准确地估计目标状态,并减轻误差累积的问题。VOT2016 [24].我们在表3中比较了VOT2016上的跟踪器。VOT2016包含60个具有挑战性的序列,并通过EAO对跟踪器进行排名。 如表3所示,我们提出的SiamRPN++-RBO优于基线SiamRPN++,EAO的绝对增 益 为 4.9% 类 似 地 , SiamBAN-RBO 实 现 了 优 于SiamBAN的良好性能,EAO为0.543。LaSOT [15]. LaSOT也是一个大规模、高质量的数据集。其测试集包含280个测试序列,平均长度为2506帧,经常用于评估长期跟踪性能。如图5所示-VOT2016数据集[24]在准确性(A),鲁棒性(R)和预期平均重叠(EAO)方面s,我们的SiamRPN++-RBO和SiamBAN-RBO分别提高了基线的AUC评分,增益分别为3.6%和1.1%4.2. 消融研究在本节中,我们对包含整个TC 128 [28]、NFS 30[23]和UAV 123 [33]数据集的组合数据集上提出的三个版本进行了广泛的分析S.该汇集的数据集包含352个不同的序列以使得能够进行彻底的分析。采用AUC评分进行评价。基于排名的优化(RBO)。我们对RBO的每个组成部分进行了彻底的消融研究。如表4所示,分类排序损失(CR)分别使SiamRPN++和SiamBAN的AUC评分提高了2.70%和1.54%这些重大成果表明,[0.633] STMT机架[0.586] SiamBAN-ACM[0.570] SiamPW-RBO[0.566]海洋在线[0.539] SiamRPN++-RBO[0.537] SiamBAN-RBO[0.535] CGACD[0.531] SiamRN[0.530] SiamGAT[0.529] FCOS-MAML[0.526]海洋离线[0.517] SiamBAN[0.510] SiamCAR[0.494] CLNet[0.489] SiamRPN++[0.333] StructSiam[0.322] DSiam精度[0.606] STMT机架[0.571] SiamBAN-ACM[0.560]海洋在线[0.558] SiamPW-RBO[0.539] SiamGAT[0.532] SiamRPN++-RBO[0.527] SiamRN[0.526]海洋离线[0.524] SiamBAN-RBO[0.521] FCOS-MAML[0.518] CGACD[0.513] SiamBAN[0.507] SiamCAR[0.499] CLNet[0.496] SiamRPN++[0.335] StructSiam[0.333] DSiam成功率跟踪器A(↑)R(↓)EAO(↑)[27]第二十七话0.5780.3120.337[60]第六十话0.5960.2660.364SiamDW [58]0.5800.2400.371[47]第四十七话0.6700.2300.442[56]第五十六话0.6100.2060.481SiamRPN++[26]0.6420.1960.463海洋[59]0.6250.1580.486[51]第五十一话0.5590.1740.441SiamBAN [8]0.6320.1490.502D3 s [32]0.6670.1580.499SiamRPN++-ACM [20]0.6660.1440.501[20]第二十话0.6470.0980.549[54]第五十四话0.6800.1400.537SiamRPN++-RBO(我们的)0.6350.1400.512SiamBAN-RBO(Ours)0.6290.1120.5438749L我JL L −·−−LaSOT [15]表5.在LaSOT、GOT-10 k和UAV 123数据集上与TransT [7]和TransT+RBO方法进行比较搜索图片clscls+clscls+ranking图6.置信图的可视化。从左至右:搜索图像,置信度图与单阶段分类损失,两阶段分类损失和分类损失+建议的排名损失,分别。CRIGR-oriIGRSiamRPN++ [26日]SiamBAN [八]《中国日报》57.9359.61C60.6361.15CC60.8760.92CC62.0862.24表4.拟议的基于排名的优化的消融分析,包括分类排名(CR),原始IoU引导排名[31](IGR-ori)和我们的IoU引导排名(IGR)在组合的TC 128,NFS 30和UAV 123数据集上的损失。CR对阳性样本和硬阴性样本之间的关系进行建模,可以帮助学习更具区分力的分类器。此外,当跟踪器配备了IoU引导的排名损失(IGR)时,I-GR分别为SiamRPN++和SiamBAN版本带来了1.45%(从60.63%到62.08%)和1.09%(从61.15%到62.24%)的收益Hard Negative Mining策略我们测试一个常规的硬否定挖掘策略,即,采用两阶段交叉熵损失,其中第一阶段选择硬负样本,第二阶段旨在优化这些硬样本。如图6所示,不幸的是,真正关心的目标与非目标区域一起被抑制,并且分类器仍然努力将目标与干扰物区分开。相反,所提出的方法,即,交叉熵损失+排序损失,不仅突出了关注的目标,而且抑制了硬诋毁者,这证实了我们的CR在提高分类器的区分度方面是有效的与RankDetNet的区别[31]。如表4所示,[31]中的原始IoU引导的排名损失,即,=rank(α(p ip j)(v iouv iou)),未能提升我们的方法。我们认为,这并不容易, 优化四个变量(pi,pj,viou,viou)一起,因为关系-两个子任务,并且在显式约束下只有两个变量要优化(等式10)。(9)在每一次迭代中。如表4所示,我们修改的损失可以进一步提高性能,这证实了更强和更明确的监督可能更适合于类无关的视觉跟踪训练。4.3. 对Transformer跟踪器的评价为了进一步评估Transformer跟踪器[7,45,52,53]上的RBO,我们选择TransT [7]方法进行比较。从表5中可以看出,TransT+RBO版本在三个数据集上均优于TransT。这表明,虽然Transformer可以通过注意机制来建模不同建议的关系,但RBO仍然可以提供额外的线索以促进离线优化。5. 结论与讨论在本文中,我们提出了一个基于排名的优化算法的暹罗跟踪。首先,我们提出了一种分类排序损失,它将分类优化问题转化为排序问题,鼓励正样本的排序高于硬负样本。在引入排序优化后,跟踪者可以选择排序最高的正样本作为关注目标,而不会被干扰项所欺骗。此外,为了协调分类和定位之间的预测一致性,我们提出了一个IoU排名损失,以优化分类和定位任务在离线训练阶段一起,从而产生的目标估计与高分类置信度和定位精度的共存在推理。局 限 性 。 从 表 5 中 , 我 们 观 察 到 我 们 的 RBO 在Transformer跟踪器上的性能增益劣于在暹罗跟踪器上的性能增益[8,26]。在未来,我们将探索更先进的排名策略,以进一步推动基于Transformer的方法。致谢本工作得到安徽省新能源与智能网联汽车产业技术创新项目(研发与产业化)的I j四个变量中的Ship缺失,并且它们可能沿着次优方向更新。因此,在我们的修改损失(方程。10)、联合优化分为安徽省重点科技项目202203f07020002。#2#12跟踪器[22]第二十二话UAV123[33]AUCP范数PAOSR0。5SR 0。75DPAUCTransT64.973.869.072.382.468.287.467.9TransT+RBO65.674.369.772.782.968.788.068.58750引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV,第850-865页,2016年。一、二[2] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在ICCV,第6182-6191页,2019年。3[3] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte.了解你的周围环境:利用场景信息进行目标跟踪. 见ECCV,第205Springer,2020年。7[4] Qi Cai , Yingwei Pan , Yu Wang , Jingen Liu , TingYao,and Tao Mei.学习统一样本加权网络进行目标检测。在CVPR中,第14173-14182页,2020年。2[5] Yuhang Cao,Kai Chen,Chen Change Loy,and DahuaLin.目标检测中的主要样本注意力。在CVPR中,第11583-11591页,2020年。2[6] Kean Chen , Jianguo Li , Weiyao Lin , John See , JiWang,Lingyu Duan,Zhibo Chen,Changwei He,andJunni Zou.利用ap损失实现精确的一阶段目标检测在CVPR中,第5119-5127页,2019年。3[7] 辛辰、宾燕、朱佳文、董王、杨晓云Transformer跟踪。在CVPR中,第8126-8135页,2021年。8[8] Zedu Chen,Bineng Zhong,Guorong Li,升平Zhang,and Rongrong Ji.用于视觉跟踪的连体盒自适应网络。在CVPR中,第6668-6677页,2020年。二四六七八[9] 陈思远,钟必能,李国荣,刘欣,唐真君,李先先,王静.学习过滤:用于鲁棒跟踪的连体关系网络。在CVPR中,第4421-4431页,2021年。六、七[10] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在ICCV,第764-773页,2017年。3[11] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.原子:通过重叠最大化进行精确跟踪在CVPR中,第4660-4669页,2019年。3[12] Xingping Dong和Jianbing Shen。用于目标跟踪的连体网络中的三重态损失在ECCV,第4592[13] Xingping Dong,Jianbing Shen,Ling Shao,and FatihPorikli.Clnet:一个紧凑的潜在网络,用于快速调整连体跟踪器。在ECCV,第378-395页,2020年。四、七[14] 费度、彭柳、魏昭、汤祥龙。基于角点检测的视觉跟踪的相关引导注意。在CVPR中,第6836-6845页,2020年。二四七[15] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Sijia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功