没有合适的资源?快使用搜索试试~ 我知道了~
7952用于实时视觉跟踪的Siamese级联区域建议网络恒帆海滨岭美国宾夕法尼亚州费城天普大学计算机与信息科学系{hengfan,hbling}temple.edu摘要最近,区域建议网络(RPN)已与暹罗网络相结合进行跟踪,并显示出良好的精度和高效率。然而,在存在类似干扰项和大尺度变化的情况下,错误地提出的一级Siamese-RPN跟踪器为了解决这些问题,我们提出了 一个 多阶段 的跟 踪框架 ,暹 罗级联 RPN( C-RPN),它包括:从深高级GT C-RPN Siamese-RPN级联的RPN序列的列表到暹罗网络中的浅底层Com-与以前的解决方案相比,C-RPN具有以下几个优点:(1)每个RPN都是使用前一阶段RPN的输出进行训练的。这样的过程刺激了硬负采样,导致更平衡的训练样本。因此,RPN在区分困难背景(即,类似的干扰器)。(2)通过为每个RPN引入一个新的特征传递块(FTB),充分利用了多层次特征,进一步提高了C-RPN利用高层语义和低层空间信息的可区分性。(3)C-RPN采用多步回归的方法,通过调整前一阶段的锚框,逐步细化每个RPN中目标的位置和形状,使定位更加准确。C-RPN使用多任务损失函数进行端到端训练。在推理中,C-RPN被部署为实时跟踪,没有任何时间适应在OTB-2013、OTB-2015、VOT- 2016、VOT-2017、LaSOT和TrackingNet上进行的大量实验中,C-RPN持续获得最先进的结果并实时运行1. 介绍视觉跟踪是计算机视觉中最基本的问题之一,在机器人、人机交互、智能车辆、监控等领域有着广泛的应用。尽管近年来取得了很大的进展,但由于许多因素,视觉跟踪仍然具有挑战性*通讯作者。图1.两个挑战序列的一期Siamese-RPN [23]和C-RPN之间的比较:Bolt 2(顶行)具有类似的牵引器,CarScale(底行)具有较大的比例变化。我们观察到C-RPN可以区分目标和干扰物 , 而 Siamese-RPN 在 Bolt 2 中 漂 移 到 背 景 。 此 外 , 与Siamese-RPN中使用单个回归变量相比,C-RPN中的多元回归可以在CarScale存在大尺度变化的情况下更好地定位目标。最好用彩色观看。包括遮挡、比例变化等。近年来,暹罗网络由于其平衡的精度和速度,在跟踪界通过将对象跟踪公式化为匹配问题,Siamese跟踪器[2,17,19,23,45,46,51,59]旨在从大量视频中离线学习通用相似性函数在这些方法中,[23]的工作 通 过 将 最 初 用 于 对 象 检 测 [38] 的 区 域 建 议 网 络(RPN)引入Siamese网络,提出了一种用于跟踪的一级Siamese-RPN。该方法利用RPN进行建议抽取,同时从多个尺度进行分类和定位,取得了良好的性能。此外,RPN的使用避免了将耗时的金字塔应用于目标规模估计[2],从而实现了超实时解决方案。1.1. 问题与动机尽管已经取得了有希望的结果,但Siamese-RPN可能会漂移到背景中,特别是在存在类似语义干扰项的情况下(见图1)。①的人。我们确定了两个原因解释这一点。首先,训练样本的分布是不平衡的:7953(1) 正样本远少于负样本,导致暹罗网络训练效果不佳;以及(2)大多数否定样本是容易的否定(非相似的非语义背景),其在学习判别分类器时贡献很少的有用信息[29]。因此,分类器被容易分类的背景样本所支配,并且当遇到困难的相似语义干扰项时会退化。其次,低层次的空间特征没有得到充分的探索。在Siamese-RPN(和其他Siamese跟踪器)中,仅探索包含更多语义信息的最后一层的特征然而,在跟踪中,背景干扰物和目标可能属于同一类别,和/或具有相似的语义特征[49]。在这种情况下,高级语义特征在区分目标/背景方面的区分性较低。除了上述问题之外,单阶段Siamese-RPN使用预定义的锚框将单个回归量应用于目标定位。当与目标具有高重叠时,这些锚预期工作良好然而,对于无模型视觉跟踪来说,目标物体的先验信息是未知的,并且很难估计目标尺度的变化。在单步回归中使用预定义的粗锚框不足以进行准确定位[3,14](再次参见图11)。①的人。在两级对象检测器(例如,更快的R-CNN [38])。第一个建议阶段快速过滤掉大多数背景样本,然后第二个分类阶段采用采样算法,如固定的前景与背景比例,以保持前景和背景之间的可管理的平衡此外,两步回归实现了精确的局部化,即使是极端形状的对象。受两阶段检测器的启发,我们提出了一个多级跟踪框架,通过级联一系列RPN来解决类不平衡问题,同时充分挖掘跨层特征,以实现鲁棒的视觉跟踪。1.2. 贡献作为第一个贡献,我们引入了一种新的多级跟踪框架,暹罗级联RPN(C-RPN),通过执行硬负采样来解决类不平衡问题[40,48]。C-RPN由从Siamese网络中的高级层到低级层级联的RPN在每个阶段(级别)中,RPN执行分类和定位,并输出该阶段中锚框的分类评分和回归偏移。然后过滤掉容易的负锚点,其余的作为硬样本,用作下一阶段RPN的训练样本。通过这样的过程,C-RPN执行逐级硬负采样。因此,训练样本的分布顺序上更加平衡,并且类-RPN的筛选器在区分更难的干扰项时依次更具区分力(见图11)。①的人。与一期SiamRPN相比,C-RPN的另一个益处是更准确的靶点定位[23]。C-RPN不是在单个回归步骤中使用预定义的粗锚框,而是由多个RPN引起的在每个阶段中,锚框(包括位置和大小)由回归器调整,这为下一阶段的回归器提供了更好的初始化因此,C-RPN可以逐步细化目标边界框,以便更好地定位,如图所示。1.一、利用网络中不同层的特征已被证明有利于提高模型识别能力[27,28,30]。为了充分挖掘视觉跟踪的高层语义和低层空间特征,我们做出了第二个贡献,一种新颖的特征转移块(FTB)。FTB使我们能够将高层特征融合到低层RPN中,而不是单独使用来自一个RPN中的单个层的特征,这进一步提高了其处理复杂背景的区分能力,从而使C-RPN具有更好的性能图2示出了C-RPN的框架。在对六个基准测试的广泛实验中,包括OTB-2013[52] , OTB-2015 [53] , VOT-2016 [20] , VOT-2016[21],2017 [21],LaSOT [10]和TrackingNet [34],我们的C-RPN实现了最先进的结果并实时运行1。2. 相关工作近几十年来,视觉跟踪得到了广泛的研究在下文中,我们讨论了最相关的工作,并请读者参考[25,41,54]最近的调查。深度追踪受图像分类成功的启发[18,22],深度卷积神经网络(CNN)已被引入视觉跟踪并表现出出色的性能[7,8,12,32,35,43,49,50]。 Wang等人[50]提出一种堆叠去噪自动编码器,以学习跟踪中对象外观建模的通用特征表示。Wang等人。 [49]通过转移预先训练的深度特征来改善跟踪,提出了一种完全卷积的网络跟踪方法。Ma等人。 [32]将深度特征应用于相关滤波器跟踪,实现了显着的增益。Nam和Han[35]提出了一种带有在线更新的CNN的轻型架构,以学习跟踪目标的通用特征。Fan和Ling [12]通过引入递归神经网络(RNN)来捕获对象结构来扩展这种方法。 Song等人 [43]在CNN中应用对手学习来学习更丰富的跟踪表示。Danelljan等人 [8]提出了连续卷积滤波器用于卷积滤波器跟踪,并在[ 7 ]中对该方法进行了优化。连体追踪。暹罗网络吸引了越来越多的-1该项目载于http://www.dabi.temple.edu/www.example.com。7954Φ(φ)特征转移块Φ2(φ)1特性转移Φ3(mm)块…3(共享权第1Φ1(mm)Φ2(φ)Φ3(φ)RPNRPN(第一阶段)(第二阶段)RPN(第三阶段)…1993年(1994年)第21(一个2一个3一个4Φ1(mm)Φ2(mm)Φ3(mm)Φ1(mm)特征转移Φ 2(mm)块特征转移块Φ3(φ) …SiameseNetwork级联区域提案网络图2. C-RPN架构的图示,包括用于特征提取的连体网络和用于顺序分类和回归的级联区域建议网络。FTB将高级语义特征传递给低级RPN,“A”表示锚框集合,这些锚框是逐步细化的最好用彩色观看。由于其平衡的准确性和效率,因此对跟踪感兴趣。Tao等人 [45]利用Siamese网络从视频中学习一个匹配函数,然后使用固定的匹配函数搜索目标。Bertinetto等人。 [2]提出了一种通过测量目标和候选人之间的区域特征相似性来跟踪的全卷积暹罗网络(SiamFC)由于其轻型结构和无需模型更新,SiamFC以80 fps的速度高效运行。Held等人。 [19]通过使用Siamese网络学习运动预测模型提出了GOTURN方法。Valmadre等人。 [46]使用Siamese网络来学习相关滤波器跟踪的特征表示。他等人[17]介绍了一种用于跟踪的双重连体网络。后来在[16]中,他们通过结合角度估计和空间掩模来改进这种双重暹罗Wanget al. [51]将注意力机制引入到Siamese网络中,以学习更具区分力的跟踪指标。值得注意的是,Li等人。 [23]将Siamese网络与RPN结合起来,提出了一种单级Siamese-RPN跟踪器,实现了出色的性能。Zhu等人 [59]利用更多阴性样本来改进Siamese-RPN跟踪器。尽管有所改进,但这种方法需要来自其他领域的大量额外训练数据。多层次特征。神经网络中来自不同层的特征包含不同的信息。高级特征由更抽象的语义线索组成,而低级层包含更详细的空间信息[30]。事实证明,使用多级特征可以使跟踪受益。在[32]中,Ma等人分别使用三个相关模型的三个不同层中的特征,并融合它们的输出以获得最终的跟踪结果。 Wang等人 [49]开发两个具有两层特征的回归模型,以区分相似的语义干扰项。级联结构。级联结构已成为一种流行的策略,以提高性能。Viola等人。 [48]提出了一种用于有效目标检测的简单特征的提升级联 Li等人 [24]第二十四话在CNN上进行人脸检测,实现了高效的人脸识别能力。 Cai等人 [3]提出了一个多阶段的对象检测框架,级联R-CNN,旨在通过顺序增加IoU阈值来实现高质量的检测。Zhang等人。 [55]利用级联通过调整锚点来改进检测结果。我们的方法。在本文中,我们专注于解决类不平衡的问 题 , 以 提 高 模 型 的 可 辨 别 性 。 我 们 的 方 法 与Siamese-RPN跟踪器[23]相关但不同,Siamese-RPN跟踪器应用一阶段RPN进行分类和定位,并跳过数据不平衡问题。相比之下,我们的方法级联了一系列RPN,通过执行硬负采样来解决数据不平衡问题,并使用多元回归逐步细化锚框,以实现更好我们的方法也与[32,49]使用多级特征进行跟踪有关。然而,与[32,49]不同的是,[32,49]中的多级特征分别用于独立模型(即,决策级融合),我们提出了一个特征转移块来融 合每个RPN的跨层特 征(即,特征级融合),提高了其从复杂背景中区分目标的能力3. 连体级联RPN(C-RPN)在本节中,我们详细介绍了暹罗级联RPN(简称为C-RPN),如图所示。二、C-RPN包含两个子网:Siamese网络和级联RPN。利用Siamese网络提取目标模板x和搜索区域z的特征。之后,C-RPN接收每个RPN的x和z我们采用特征转移块(FTB)融合RPN的高层特征,而不是只使用一层的特征RPN同时在z的特征图上执行分类和定位。基于分类分数和回归偏移,我们过滤掉容易的负锚(例如,锚7955L我我损失((图3.RPN的架构最好用彩色观看损失GTC-RPNSiamese-RPN图4.使用单个回归和多个回归的本地化。C-RPN中的多个回归可以更好地处理大比例变化以实现更准确的定位。最好用彩色观看对于每个锚点,可以计算为{ci}= corr([(z)]cls,[(x)]cls)负置信度大于预设阈值θ),并在下一阶段中细化其余用于训练RPN。{ri}= corr([z(z)]reg,[(x)]reg(一))3.1. 暹罗网络与[2]一样,我们采用修改后的AlexNet [22]来开发我们的Siamese网络。暹罗网络包括两个相同的分支,z分支和x分支,分别用于从z和x提取特征(见图2)。这两个分支被设计为共享参数,以确保应用于z和x的相同变换,这对于相似性度量学习至关重要。关于暹罗网络的更多细节可以参考[2]。与[23]仅使用Siamese网络最后一层的特征进行跟踪不同,我们利用多个级别的特征来提高模型的鲁棒性。为了方便起见,在接下来,我们将Zh(z)和Zh(x)表示为具有N层的Siamese网络2中的conv-i层的z和x的特征变换。3.2. Siamese网络在描述C-RPN之前,我们首先回顾了一阶段SiameseRPN跟踪器[23],该跟踪器由锚点的分类和回归两个分支组成,如其中,i是锚索引,并且corr(a,b)表示a和b之间的关系,其中a作为内核。每个c i是表示第i个锚点的负置信度和正置信度的2D向量。类似地,每个ri是4d向量,其表示锚点的中心点位置和大小相对于地面实况的偏移。Siamese RPN是用由两部分组成的多任务损失训练的,即, 分类损失(即,softmax损失)和回归损失(即, 平滑L1损失)。我们建议读者参考[23,38]以了解更多细节。3.3. 级联RPN如前所述,以前的Siamese跟踪器大多忽略了类不平衡的问题,导致在存在类似语义干扰器的情况下性能下降。此外,它们只使用最后一层的高层语义特征,没有充分挖掘多层次特征。为了解决这些问题,我们提出了一个多级跟踪框架,通过级联一组L(L≤N)RPN。在lth(1l≤L)期,RPNl或F融合特征在于来自FTB的卷积层和高级层的Φl(z)和Φl(x)Φl(z)和Φl(x)如下获得.ΣΦl(z)=FTBΦl−1(z),l(z)图3 .第三章。它将特征变换φ1(z)和z和x的x1(x),并输出分类分数,.Φl(x)=FTBΦl−1(x)、(x)、(2)锚点的回归偏移。 为了简单起见,我们删除下一个中的特征转换中的下标为了确保每个锚点的分类和回归,利用两个卷积层来调整其中FTB(·,·)表示FTB,如第3.4节所述。F或RPN1 , Φ 1 ( z)=φ1 ( z) 和 Φ 1 ( x)=φ1(x)。因此,阶段l中锚点的分类得分{cl}和回归偏移{rl}计算为:[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19{cl}=corr([Φ(z)],[Φ(x)])分别用于分类和回归同样我们il cls lCLS(三)将两个卷积层应用于卷积(x),但保持通道不变,并获得[卷积(x)]cls和[卷积(x)]reg。因此,分类得分{ci}和回归偏移{ri}2为了简化符号,我们以相反的顺序命名暹罗网络中的每一层,即,conv-N、conv-(N−1)、· · ·、conv-2、conv-1,用于低级到高级层。分类Conv.[客户端]Corr.cls 评分Conv.[]回归Conv.[客户端]Corr.reg. 评分Conv.[]7956我我{rl}= corr([Φl(z)]reg,[Φl(x)]reg)其中[Φl(z)]cls、[Φl(x)]cls、[Φl(z)]reg和[Φl(x)]reg通过对Φl(z)和Φl(x)执行卷积而导出。令A1表示阶段1中的锚集合。利用分类得分{cl},我们可以过滤掉Al中负置信度大于预设阈值θ的锚点,7957我一Rla ai(y)aaΦ���−(a) 感兴趣区域(b)从左至右:第1阶段、第2阶段和第3阶段的响应图图5.不同阶段的响应图。图(a)是感兴趣区域,图(b)显示了RPN在三个阶段获得的响应图我们可以看到,RPN在区分干扰项方面依次更具最好用彩色观看。其余的被形成为锚点A1+ 1的新集合,其被用于训练RPN1+ 1。 F或RP N1,A1是预定义的。此外,为了为RPN1+1的回归器提供更好的初始化,我们使用RPN 1中的回归结果{r l}来细化A 1 + 1中的锚点,从而与暹罗RPN中的单步回归相比生成更准确的定位[23],如图所示。4.第一章图2显示���′×���′×���′图6.特征传递块概述最好用彩色观看C-RPN的损失函数由所有RPN 1的损失函数组成。 对于每个RPN,损失函数使用等式计算。(4),并且,RPN表示为:ΣLC-RPN的级联结构RPNl的损失函数RRPNl由分类损失函数Lcls(softmax loss)和回归损失组成CRPN=l=1(7)函数Lloc(平滑L1损失)如下,3.4.功能转移块llℓLl*Σl∗Ll*为了有效地利用多级特性,我们引入RPN1({ci},{ri})=Lcls(ci,ci)+λ我ciLloc(ri,ri)我(四)FTB跨层融合特征,使每个RPN能够共享高级语义特征,以提高区分度。其中i是阶段l的Al中的锚索引,λa权重为平衡损失,cl表示锚i的标签,rl表示真实的无能 详细地,使用反卷积层来匹配ii不同源的特征尺寸然后,不同锚点i和地面实况之间的距离[38]后使用逐元素求和融合要素,然后rl=(r l,rl,rl,rl)是4D向量,使得ii(x)i(y)∗∗i(x)=(xrl*i(w)i(h)-xl)/wlrl=(yl l−yl)/hl宾馆(5)ReLU层。 为了确保同样的地面真相,锚定在每个RPN中,我们应用插值来重新缩放融合特征,使得输出分类和回归图对于所有RPN具有相同的分辨率。图6i(w)= log(w/wa)ri(h)= log(y/ha)其中x、y、w和h是盒子的中心坐标及其宽度和高度。变量x和xl用于阶段l的地面实况和锚点(同样用于y,w和h)。值得注意的是,与[23]使用固定锚点不同,C-RPN中的锚点通过回归变量进行逐步调整在前一阶段,计算为显示了RPN1(l >1)的特征转移。3.5. 培训和跟踪训练C-RPN的训练是在从与[23]相同的序列中采样的图像对上执行的。多任务损失函数在方程。(7)使我们能够以端到端的方式训练C-RPN。考虑到规模xl=xl−1+wl −1rl −1yl=yl −1+hl −1rl −1在两个连续帧中目标平滑变化,我们a a a i(x)a aai(y)(六)使用一个比例,每个锚点具有不同的比例。的wl= wl−1exp( rl−1)hl= hl−1exp( rl−1)锚的比率被设置为[0. 33,0。[23][24][25][26]a ai(w)aai(h)对于每个RPN,我们采用与对象检测中相同的策略。对于A1中的锚点,x1、y1、w1和h1是预定义的。[38]第38话:要有正念,要有正念,要有负念。a a a a上述程序形成了拟定的级联RPN。由于拒绝了简单的负锚,每个RPN的训练样本的分布逐渐更加平衡。因此,每个RPN的分类器在区分困难的干扰项方面依次更具区分力。此外,多层次特征融合进一步提高了处理复杂背景的分辨能力图图5通过演示每个阶段的检测响应图显示了不同RPN的区分能力例。 我们将阳性样本定义为锚点,其In-在一些实施例中,具有地面实况的联合上的交截(IOU)大于阈值τpos,并且负样本作为其具有地面实况边界框的IOU小于阈值τneg的锚。 我们从一个图像对中生成最多64个样本。跟踪. 我们制定跟踪多阶段检测。对于每个视频,我们在第一帧中预先计算目标模板的特征嵌入在新的一帧中,根据上一帧的1���×��� ×������×��� ×���′���′×���′×���′Conv3 × 3 ×���′ReLUReLUConv3 × 3 ×���′Eltw sum插值Conv3 × 3 ×���′德孔夫���×��� ×���′7958结果提取出感兴趣区域,7959t=2i(阴性)我算法一:使用C-RPN跟踪10.9OPE的成功图10.9OPE的成功图1输入:帧序列{X}T和地面实况tt=10.80.8X1的边界框b1,训练模型C-RPN;2 输出:跟踪结果{bt}T;3利用b1在X1中提取目标模板z;0.70.60.50.70.60.54 提取特征{Z(z)}L对于来自C-RPN的z0.40.4L5,t=2至Tdol=10.30.20.30.26使用bt-1提取Xt中的搜索区域x;0.10.17从C-RPN中提取x的特征{x(x)}LL8初始化锚A1;l=1000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值9,对于l=1至Ldo如果l等于1,11Φl(z)=φl(z),Φl(x)=φl(x);还有12个13Φl(z),Φl(x)←等式(2);14的端15{cl},{rl} ←等式(3);图7.与最先进的跟踪方法的比较2013年[52]和2015年[53]。C-RPN在两个基准测试中都取得了最佳结果。最好用彩色观看。4.1. OTB 2013和OTB 2015的实验我们在流行的OTB-2013上进行实验[52]i i和OTB-2015 [53],其中包括51和100个完整的-16从A1中移除任何锚i,置信度cl> θ;视频,分别。C-RPN运行速度约为36 fps。在[52]之后,我们在一次通过中使用成功17Al+1←在Al中使用{r l}使用等式(6);月18日结束19个目标提案←AL+1;20选择最佳方案作为跟踪结果bk使用[23]中的策略;21end然后在该区域上使用C-RPN执行检测在每个阶段,RPN输出锚点的分类评分和回归偏移。丢弃负评分大于θ的锚点,其余锚点在下一阶段进行细化并由RPN接管在最后一个阶段L之后,剩余的锚被视为目标建议,我们使用[23]中的策略从中选择最佳锚作为最终跟踪结果。Alg. 1总结了C-RPN的跟踪过程。4. 实验实施细节。我们在Matlab中使用MatConvNet [47]在具 有 8 GB 内 存 的 单 个 Nvidia GTX 1080 上实现C-RPN。主干Siamese网络采用修改后的AlexNet [22]。我们不是从头开始训练,而是从Ima-geNet[9]上的预训练模型中借用参数。在训练期间,前两层的参数被冻结。级数L为3。 阈值θ、τpos和τneg根据经验设置为0.95、0.6和0.3。C-RPN使用SGD在50个epoch上进行端到端训练,并且在每个epoch上从10−2到10−6进行几何退火。我们使用训练来训练C-RPN,数据来自[10]的LaSOT实验[10],并使用[39]和YT-BB [37]用于其他实验。评估(OPE),以评估不同的跟踪器。比较了15种最先进的跟踪器(SiamRPN [23],DaSi-amRPN [59],TRACA [6],ACT [4],BACF [13],ECO-HC [7]、CREST [42]、SiamFC [2]、Staple [1]、PTAV[11],[2019 -04 - 15][2019- 04 - 15][2019 - 04][2019 - 04 -15][ 2019 - 04 01:05:00][2019 - 04 01:00][32]见图。7.第一次会议。C-RPN在两个基准测试中都取得了令人满意的性能。具体而言,我们在OTB-2013和OTB-2015上分别获得了0.675和0.663的精度分数与基线SiamRPN(精确度评分为0.658和0.637)相比,我们获得了1.9%和2.6%的改善,显示了多级RPN在准确定位方面的优势。DaSiamRPN使用来自其他领域的额外负训练数据来提高处理类似干扰项的能力,并获得0.655和0.658的精度分数。在不使用额外训练数据的情况下,C-RPN的性能优于DaSiamRPN 2.0%和0.5%。OTB-2013 [52]和OTB-2015 [53]的更多结果和比较见补充材料。4.2. VOT 2016和VOT 2017上的实验VOT-2016[20]由60个序列组成,旨在评估跟踪器的短期性能。跟踪算法的整体性能使用期望平均重叠(EAO)进行评估,它同时考虑了准确性和鲁棒性。跟踪器的速度用归一化速度(EFO)表示。我们在VOT-2016上评估了C-RPN,并将其与包括基线SiamRPN [23]和VOT-2016中其他十大方法在内的11种追踪器进行了比较。图8示出了不同跟踪器的EAO。C-RPN实现了最佳结果,显著优于SiamRPN和其他方法。选项卡. 1列出了VOT- 2016上不同跟踪器的比较,我们可以看到C-RPN优于其他跟踪器-成功率成功率新加坡-暹罗[0.676]C-RPN [0.675]顶部[0.673]PTAV [0.663]SiamRPN [0.658]ACT [0.657]DaSiamRPN [0.655]ECO-HC [0.652][0.652][0.648]SINT [0.635]SiamFC [0.607]HCFT [0.605]HDT [0.603]CFNet [0.603]吻合钉[0.600]C-RPN [0.663]DasiamRPN [0.658]新加坡-暹罗[0.656]ECO-HC [0.643]SiamRPN [0.637]PTAV [0.635]ACT [0.625]冠[0.623][0.617]TRACA [0.603]SiamFC [0.582]吻合钉[0.581]SINT [0.580]CFNet [0.566]HDT [0.564]HCFT [0.562]7960[0.459] C-RPN[0.413] MDNet[0.412]生命[0.358]暹罗足球俱乐部[0.356] StructSiam[0.353] DSiam[0.311] ECO_HC[0.296] CFNet[0.285] TRACA[0.272] HCFT[0.271] SRDCF[0.269] PTAV[0.266]吻合钉[0.263] CSRDCF[0.262] U型钉_CA[0.258] SAMF[0.246] LCT[0.233] DSST[0.232] fDSST[0.228][0.214] SCT4[0.211] ASLA[0.211] KCF[0.186]中国[0.178] CT[0.172] CSK[0.168] L1APG[0.163] MIL[0.151] STC[0.136] IVT成功率0.380.360.340.320.30.28基线的预期重叠评分表2.与VOT-2017的比较[21]。最好的两个结果分别以红色和蓝色字体跟踪器基线EAO实时EAOC-RPN0.289SiamRPN [23] 0.2430.244低标准援助水平[44]CFWCR [21]CFCF [15] 0.2861211109 8 765 4 3 2 1经济合作[7] 0.280 0.078秩序图8.与VOT-2016的比较[20]。较大的(右侧)值表示性能更好。我们的C-RPN显著优于基线和其他方法。最好用彩色观看。0.80.70.80.7测试集0.4 0.40.3 0.30.2 0.20.1 0.1000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值同时具有准确性和鲁棒性,并且运行效率高。VOT-2017[21]包含60个序列,通过用10个困难序列替换VOT- 2016[20]与VOT不同2016 [20],VOT-2017 [21]通过同时考虑跟踪性能和效率引入了一种新的实时实验。我们使用基线和实时实验的EAO比较了C-RPN与SiamRPN [23]和VOT-2017中的其他十大方法如Tab.所示2,C-RPN的EAO评分为0.289,显著优于SiamRPN [23]的0.243 EAO评分。此外,与LSART [44]和CFWCR [21]相比,C-RPN显示出具有竞争力的性能。在实时实验中,C-RPN获得了最好的性能,EAO得分为0.273,优于所有其他跟踪器。4.3. LaSOT实验LaSOT [10]是最近的一个大规模数据集,旨在训练和评估跟踪器。LaSOT上有1,400个视频。我们将提出的C-RPN与LaSOT中的35种方法进行了比较,包括ECO [7],MDNet [35],SiamFC [2],[13]第13话:[14]第13话:[15]第16话:[16]第17话:[17]我们建议读者参考[10]以了解更多有关这些的图9.与LaSOT上最先进的跟踪方法的比较[10]。C-RPN在所有两种协议下的成功率都大大高于现有方法。最好用彩色观看。追踪器此外,我们还将C-RPN与最新的SiamRPN [23]跟踪器进行了比较,因为它是一个重要的基线。在[10]之后,我们报告了不同跟踪器的成功结果(SUC),如图所示9 .第九条。实验结果表明,在两种协议下,C-RPN的性能优于其他所有的跟踪器在方案I和II下,我们实现了0.459和0.455的SUC评分,分别比 第 二 好 的 追 踪 器 SiamRPN ( SUC 评 分 为 0.44 和0.433)高1.9%和2.2%与SiamFC的0.358和0.336 SUC评分相比,C-RPN分别提高了11.1%和11.9%。C- RPN在LaSOT上运行速度约为23 fps。我们建议读者参考补充材料,了解更多关于LaSOT的结果和比较的细节。4.4. TrackingNet实验TrackingNet [34]被提议用于评估野外跟踪器的性能。我们在511个视频的测试集上评估了C-RPN。在[34]之后,我们使用三个指标精度(PRE),归一化精度(NPRE)和成功(SUC)进行评估。选项卡. 3、对比展示C-RPNSiamRPNCCOTTCNNSSATMLDF缝钉DDCEBTSRBTSTAPLEpDNT[0.455] C-RPN[0.397] MDNet[0.390]生命[0.336]暹罗足球俱乐部[0.335] StructSiam[0.333] DSiam[0.324] ECO[0.304] ECO_HC[0.275] CFNet[0.259] BACF[0.250] HCFT[0.250] PTAV[0.245] SRDCF[0.244] CSRDCF[0.243]吻合钉[0.238] U型钉_CA[0.233] SAMF[0.221] LCT[0.212]被击中[0.210][0.207] DSST[0.203] fDSST[0.194] ASLA[0.191] SCT4[0.178] KCF[0.170]中国[0.158] CT[0.155] L1APG[0.149] CSK[0.139] MIL[0.138] STC[0.118] IVT平均预期重叠成功率CSRDCF [31]0.2560.100表1.详细比较VOT-2016 [20]。 最好的两[21]第二十一话0.2490.135结果分别以红色和蓝色字体突出显示MCPF [56]0.2480.060跟踪器EAO准确度故障EFOOPE在LaSOT上的成功图OPE在LaSOT上的成功Gnet [21]0.2740.060MCCT [21]0.2700.061C-COT [8]0.2670.058C-RPN0.3630.5940.959.3SiamRPN [23]0.3440.5601.1223.0C-COT [8]0.3310.5390.850.5TCNN [20]0.3250.5540.961.1SSAT [20]0.3210.5771.040.5MLDF [20]0.3110.4900.831.2缝钉[1]0.2950.5441.3511.1DDC [20]0.2930.5411.230.2EBT [58]0.2910.4650.903.0[第20话]0.2900.4961.253.7STAPLEp [20]0.2860.5571.3244.8DNT [5]0.2780.5151.181.1[0.440] SiamRPN[0.433] SiamRPN[0.340] ECO0.6[0.339] SINT[0.315] STRCF0.6[0.314] SINT[0.308] STRCF0.5[0.280] MEEM[0.277] BACF0.5[0.257] TRACA[0.257] MEEM7961表3. TrackingNet [ 34 ]上的比较,最好的两个结果分别以红色和蓝色字体突 出 显 示 。PRE NPRE SUCC-RPN[35]0.565 0.705 0.606CFNet [46] 0.533 0.654 0.578SiamFC [2] 0.533 0.663 0.571[7] 0.492 0.618 0.554[31] 0.48 0.622 0.534[26] 0.477 0.598 0.504[7] 0.476 0.608 0.541电话:+86-021 - 8888888传真:+86-021 - 8888888缝钉CA [33] 0.468 0.605 0.529BACF [13] 0.461 0.580 0.523表4. 对C-RPN中阶段数的影响#阶段一阶段二阶段三阶段SUC on LaSOT 0.417 0.446 0.455LaSOT上的速度48 fps 37 fps 23 fpsVOT-2017上的EAO 0.248 0.278 0.289表5. 对C-RPN中负锚滤波(NAF)的影响C-RPN w/o NAF C-RPN w/NAFSUC on LaSOT 0.439 0.455VOT-2017上的EAO 0.282 0.289表6.对C-RPN中特征转移阻滞的影响。“S” and “M” indicateusing single and multiple layers,VOT-2017的EAO从0.248增加3.5%,0.283.第三阶段分别比LaSOT和VOT-2017提高0.9%和0.6%。我们观察到第二阶段的改善高于第三阶段。这表明,最困难的背景是在第二阶段处理.添加更多的阶段可能会导致进一步的改进,但也计算。负锚过滤?过滤掉简单的消极因素旨在为RPN提供更均衡的训练样本,下一阶段。为了显示其有效性,我们将阈值θ设置为1,以便所有细化的锚将被发送到下一阶段。选项卡. 5显示,去除C-RPN中的负锚可以将LaSOT上的SUC从0.439提高到0.455,将VOT-2017上的EAO从0.282提高到0.289,分别提高1.6%和0.7%,这表明平衡的训练样本对于训练更具区分力的RPN至关重要。功能转移块?我们在两个基线上进行实验,以显示FTB对C-RPN性能的影响:(a)我们仅采用来自C-RPN中的一个单个卷积层(最后一层)的特征;(b)我们利用C-RPN中的多个层(最后三层),但首先对每一层执行相关,然后融合所有层的结果(即,决策级融合)。请注意,对于基线(a)和(b),我们采用级联策略。这两个基线与拟议方法的比较见表1。六、我们观察到,使用来自多个层的特征有助于提高C-RPN,不带FTB(S)C-RPN,不含FTB(M)C-RPN,带FTB(M)LaSOT从0.442下降0.7%至0.449,VOT- 2017的EAO此外,组合-SUC on LaSOT 0.442 0.449 0.455VOT上的EAO-0.278 0.282 0.289结果显示,C-RPN在所有三个指标上都达到了最佳结果。具体而言,C-RPN的PRE得分为0.619,NPRE得分为0.746,SUC得分为0.669,分别比PRE得分为0.565,NPRE得分为0.705,SUC得分为0.606的第二好跟踪器MDNet高出5.4%,4.1%和6.3%。此外,C-RPN以约32fps的速度高效运行。4.5. 消融实验为了验证不同组件的影响,我们对LaSOT(方案II)[10]和VOT-2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功