没有合适的资源?快使用搜索试试~ 我知道了~
1SiamRPN++:基于深度网络的Siamese视觉跟踪的演进李波先生SenseTime研究libo@sensetime.comVIPL,ICTfangyi. vipl.ict.ac.cn吴伟(音译)SenseTime研究wuwei@sensetime.comXing JunliangXing NLPR,CASIAjlxing@nlpr.ia.ac.cn王强NLPR,CASIAqiang.wang邮件nlpr.ia.ac.cn严俊杰SenseTime研究yanjunjie@sensetime.com摘要基于Siamese网络的跟踪器将跟踪公式化为目标模板和搜索区域之间的卷积特征互相关。然而,与最先进的算法相比,Siamese跟踪器仍然存在准确性差距,并且它们无法利用来自深度网络的功能,例如ResNet-50或更深。在这项工作中,我们证明的核心原因是缺乏严格的通过全面的理论分析和实验验证,我们通过一个简单而有效的空间感知采样策略打破了这一限制,并成功地训练了一个ResNet驱动的暹罗跟踪器,具有显着的性能增益。此外,我们提出了一种新的模型架构来执行逐层和逐深度的聚合,这不仅进一步提高了准确性,而且还减少了模型的大小。我们进行了广泛的消融研究,以证明所提出的跟踪器的有效性,该跟踪器目前在五个大型跟踪基准上获得了最佳结果,包括 OTB2015 , VOT 2018 , UAV123 , LaSOT 和TrackingNet。1. 介绍视觉目标跟踪在过去的几十年里受到越来越多的关注,一直是一个非常活跃的研究方向。它在视觉监控[49]、人机交互[27]和增强现实[50]等不同领域有着广泛的应用。尽管最近已经取得了很大进展,但由于诸如照明变化、遮挡和背景杂波等众多因素,它仍然被公认为是一项非常具有挑战性的任务[48]。最近,基于暹罗网络的跟踪器[42,1,16,44,43,25,45,54,46]在互联网上引起了广泛的关注。前三位作者贡献相当。在SenseTime项目页面:http://bo-li.info/SiamRPN++。社会各界这些Siamese跟踪器将视觉对象跟踪问题公式化为通过针对目标模板和搜索区域学习的特征表示之间的互相关来学习一般相似性图。为了确保跟踪效率,离线学习的暹罗相似性函数通常在运行期间是固定的[42,1,16]。CFNet跟踪器[43]和DSiam跟踪器[12]分别通过运行平均模板和快速转换模块更新跟踪模型。SiamRNN跟踪器[25]在Siamese网络之后引入了区域建议网络[25],并执行联合分类和回归以进行跟踪。DaSiamRPN跟踪器[54]进一步引入了分心物感知模块,并提高了模型的识别能力。尽管上述Siamese跟踪器已经获得了出色的跟踪性能,特别是对于良好平衡的精度和速度,但即使是性能最好的Siamese跟踪器,例如SiamPRN,精度仍然与跟 踪 基 准 上 的 最 先 进 水 平 [5] 有 显 著 差 距 , 例 如OTB2015 [48]。我们观察到,所有这些跟踪器都在类似于AlexNet [24]的架构上构建了自己的网络,并多次尝试使用更复杂的架构(如ResNet)[15] 但没有性能增益。受此启发,我们对现有的暹罗跟踪器进行了分析,发现其核心原因是严格平移不变性的破坏由于目标可能出现在搜索区域中的任何位置,因此目标模板的学习特征表示应该保持空间不变,并且我们进一步从理论上发现,在现代深度架构中,只有AlexNet的零填充变体满足这种空间不变性限制。为了克服这一限制并驱动具有更强大的深度架构的Siamese跟踪器,通过广泛的实验验证,我们引入了一种简单而有效的采样策略来打破Siamese跟踪器的空间不变限制我们成功42824283使用ResNet训练基于SiamRPN [25]的跟踪器,骨干网并获得显著的性能改进。受益于ResNet架构,我们提出了一个逐层特征加重结构的互相关操作,这有助于跟踪器预测相似性图从多个级别学习的特征。通过对Siamese网络结构进行互相关分析,发现其两个网络分支在参数数量上存在严重不平衡,因此进一步提出了一种深度可分离的互相关结构,该结构不仅大大减少了目标模板分支中的参数数量,而且稳定了整个模型的训练过程。此外,观察到一个有趣的现象,在相同的类别中的对象具有高的响应在相同的通道,而其余的通道的响应正交属性还可以改善跟踪性能。概括起来,这项工作的主要贡献如下:• 我们提供了对暹罗跟踪器的深入分析,并证明了当使用深度网络时,准确性的下降来自于严格平移不变性的破坏。• 我们提出了一个简单而有效的采样策略,以打破空间不变性的限制,成功地训练由ResNet架构驱动的暹罗跟踪器。• 我们提出了一个逐层的特征聚合结构的互相关操作,这有助于跟踪器预测的相似性图从多个级别学习的功能。• 我们提出了一种深度可分离的相关结构来增强互相关,以产生与不同语义相关的多个相似性图。基于上述理论分析和技术贡献,我们开发了一种高效的视觉跟踪模型,该模型在跟踪精度方面建立了新的最先进水平,同时以35 FPS高效运行。所提出的跟踪器,称为SiamRPN++,在五个最大的跟踪基准上始终获得最佳跟踪结果,包括OTB2015 [48],VOT 2018[22],UAV 123 [32],LaSOT [10],[31 ]第31话。此外,我们提出了一个使用MobileNet[19]主干的跟踪器的快速变体,该主干保持有竞争力的性能,同时以70 FPS运行。为了促进视觉跟踪方向的进一步研究,我们将发布SiamRPN++跟踪器的源代码和训练模型。2. 相关工作在本节中,我们简要介绍了最近的跟踪器,特别关注暹罗跟踪器[42,1]。此外,我们还描述了最近的发展,深体系结构。由于新基准数据集的构建[47,48,20,22,10,31]和改进的方法[17,53、6、7、18、33、9、5、45、54、51]。 标准化的长凳-marks [47,48,10]为不同算法的比较提供了公平的测试平台。每年举行的跟踪挑战赛[23,20,21,22]持续推进跟踪性能。随着这些进步,许多有前途的跟踪算法已被提出。Bolmeet al.文[3]将信号处理领域的卷积定理引入视觉跟踪,将目标模板匹配问题转化为频域的相关运算。由于这种变换,基于相关滤波器的跟踪器不仅获得了高效的运行速度,而且如果使用适当的特征,还可以提高精度[17,52,53,8,6]。随着深度学习模型在视觉跟踪中的广泛采用,基于具有深度特征表示的相关滤波器的跟踪算法[9,5]已经在流行的跟踪基准[47,48]和挑战[23,20,21]中获得了最先进的精度。最近,基于Siamese网络的跟踪器因其良好平衡的跟踪精度和效率而备受关注[42,1,16,44,43,13,25,45,54,46]。这些跟踪器将视觉跟踪公式化为交叉相关问题,并有望更好地利用深度网络的优点进行端到端学习。为了从两个分支的互相关产生相似性图,他们训练了一个Y形神经网络,该网络连接两个网络分支,一个用于对象模板,另一个用于搜索区域。此外,这两个分支可以在跟踪阶段[42,1,16,45,25,54]期间保持固定,或者在线更新以适应目标的外观变化[44,43,13]。目前最先进的暹罗跟踪器[25,54]通过暹罗网络之后的区域建议网络增强了跟踪性能,并产生了非常有希望的然而,在OTB基准测试[48]中,它们的跟踪精度仍然与ECO [5]和MDNet[33]等最先进的深度跟踪器存在相对较大的差距随 着 Krizhevsky 等 人 提 出 的 现 代 深 层 体 系 结 构AlexNet。[24] 2012年,对网络架构的研究迅速增长,提 出 了 许 多 复 杂 的 深 度 架 构 , 如 VGGNet [38] ,GoogleNet [39],ResNet [15]和MobileNet [19]。这些深度架构不仅提供了对神经网络设计的更深入理解,而且还推动了许多计算机视觉任务的发展,如目标检测[34],图像分割[4]和hu。4284人的姿态估计[40]。在深度视觉跟踪器中,网络架构通常包含不超过五个从AlexNet或VGGNet定制的组成层。这种现象被解释为浅特征主要有助于对象的准确定位[35]。在这项工作中,我们认为,暹罗赛道的性能-班次:0246810121416246810121416班次:16246810121416246810121416班次:322468101214162468101214160.160.140.120.10.080.060.040.020如果使用整个Siamese网络对模型进行适当的训练,则可以使用更深的模型来显著提高ers。3. 基于深度网络的图1.阳性样本先验概率的可视化当使用不同的随机平移时。在± 32像素范围内进行随机平移后,分布更加均匀.0.45这项工作的最重要的发现是,基于暹罗网络的跟踪算法的性能可以显着提高,如果它配备了更深的网络。然而,简单地通过直接使用更深的网络(如ResNet)来训练连体跟踪器并不能获得预期的性能改进。究其原因,主要是由于社会制度的内在限制0.400.350.300.250.200.150.1008 16 32 48 64随机移位范围96 104因此,在介绍所提出的SiamRPN++模型之前,我们首先对用于跟踪的Siamese网络进行了更深入的分析。3.1. 用于跟踪基于Siamese网络的跟踪算法[42,1]将视觉跟踪公式化为互相关问题,并从具有Siamese网络结构的深度模型中学习跟踪相似性图,一个分支用于学习目标的特征表示,另一个分支用于搜索区域。目标块通常在序列的第一帧中给出,并且可以被视为示例z。目标是在语义嵌入空间Φ(·)中从跟随的帧X中找到最相似的补丁(实例):f ( z , x ) =φ ( z ) *φ ( x ) +b ,(1)其中b用于对相似性值的偏移进行这个简单的匹配函数自然意味着设计暹罗跟踪器的两个内在• Siamese跟踪器中的收缩部分和特征提取器对严格平移不变性有一个内在的限制,即f(z,x[△τj])=f(z,x)[△τj],其中[△τj]是平移子窗算子,这保证了有效的训练和推理。• 收缩部分对结构对称性有一个内在的限制,即收缩部分的对称性。f(z,x′)=f(x′,z),适合于相似性学习。经过详细的分析,我们发现使用深度网络预防暹罗跟踪器的核心原因与这两个方面有关。具体来说,一个原因是深度网络中的填充会破坏严格的翻译不变性。另一个是RPN需要非对称特征进行分类和回归。我们将引入空间感知采样策略来克服第一个问题,并在第二节中讨论第二个问题。三点四分。图2.随机平移对VOT数据集的影响严格翻译不变性仅存在于无填充网络中,如修改的AlexNet [1]。以前的基于暹罗的网络[1,44,43,25,54]被设计为浅的以满足此限制。然而,如果所使用的网络被ResNet或MobileNet等现代网络所取代,则填充不可避免地使网络更深入,这破坏了严格的平移不变性限制。我们的假设是,违反这一限制将导致空间偏见。我们测试我们的假设,通过模拟实验的网络填充。移位被定义为在数据增加中由均匀分布产生的平移的最大范围。我们的模拟实验如下进行。首先,在三个不同的训练实验中,将目标放置在中心,具有不同的移位范围(0,16和32)。在收敛之后,我们聚合在测试数据集上生成的热图,然后在图中可视化结果。1.一、在第一次模拟中,零偏移,在边界区域上的概率退化为零。这表明,一个强大的中心偏置的学习,尽管出现的测试目标。另外两个模拟表明,增加移位范围将逐渐防止模型崩溃到这个平凡的解决方案。定量结果表明,32-shift的聚合热图更接近测试对象的位置分布证明了该采样策略有效地缓解了填充网络对严格平移不变性的破坏为了避免对对象施加强烈的中心偏差,我们通过空间感知采样策略,通过在搜索图像上均匀分布对目标进 行 采 样 , 来 训 练 具 有 ResNet-50 主 干 如 图 2 ,VOT2018上的零偏移性能降至0.14,合适的偏移(±64像素)对于训练深度暹罗跟踪器至关重要。随机移位对VOTVOT2016VOT2018EAO4285搜索目标127×127×3255×255×3图3.说明我们提出的框架。给定目标模板和搜索区域,网络通过融合来自多个Siamese Region Proposal(SiamRPN)块的输出来输出密集预测。每个SiamRPN块如右侧所示。3.2. ResNet驱动的暹罗跟踪基于以上分析,可以消除中心偏差的影响一旦我们消除了对中心位置的学习偏差,任何现成的网络(例如,、MobileNet、ResNet)可以用于在迁移学习之后执行视觉跟踪。此外,我们可以自适应地构建网络拓扑结构,并揭示深度网络的视觉跟踪性能。在本小节中,我们将讨论如何将深度网络转换到跟踪算法中。特别是,我们主要针对ResNet-50进行实验[15]。原始ResNet具有32个像素的大步长,不适合密集的连体网络预测。如图3,我们通过修改conv4和conv5块以具有单位空间步幅,将最后两个块的有效步幅从16像素和32像素减少到8像素,并且还通过扩张卷积来增加其感受野[28]。每个块输出附加额外的1×1卷积层,以将通道减少到256。由于保持所有层的填充,模板特征的空间大小增加到15,这对相关模块施加了沉重的计算负担。因此,我们裁剪中心7×7区域[43]作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。在[25]之后,我们使用交叉卷积层和全卷积层的组合来组装头部模块,用于计算分类得分(由S表示)和边界框回归器(由B表示)。Siamese RPN块用P表示。此外,我们发现仔细微调ResNet将提高性能。通过将ResNet提取器的学习率设置为比RPN部分小10倍,特征表示可以更适合于跟踪,第一个在深度暹罗网络(>20层)上实现端到端学习的公司,用于视觉跟踪。3.3. 逐层聚合在使用像ResNet-50这样的深度网络之后,聚合不同的深层变得可能。直观地说,视觉跟踪需要丰富的表示,从低到高的跨越级别,从小到大的尺度,从细到粗的分辨率即使在卷积网络中有足够的功能深度,一个孤立的层也是不够的:对这些表示进行组合和聚集改进了识别和定位的推理。在以前的作品中,只使用像AlexNet这样的浅层网络,多级特征不能提供非常不同的表示。然而,考虑到感受野变化很大,ResNet中的不同层更有意义。来自较早层的特征将主要集中在低层信息,如颜色、形状,这些信息对于定位是必不可少的,而缺乏语义信息;来自较晚层的特征具有丰富的语义信息,这在一些挑战场景(如运动模糊、巨大变形)中是有益的。假设使用这种丰富的分层信息来帮助跟踪。在我们的网络中,多分支特征被提取,以协作推断目标的定位。至于ResNet- 50,我们探索了从最后三个残差块中提取的多级特征,用于分层聚合。我们将这些输出分别称为F3(z)、F4(z)和F5(z) 如图3、conv3、conv4、conv5的输出分别送入三个SiameseRPN模块由于三个RPN模块的输出大小具有相同的空间分辨率,因此直接在RPN输出上采用加权和加权融合层组合所有输出。ing任务。与传统的Siamese方法不同,深度网络的参数以端到端的方式联合训练。据我们所知,我们是S全部=Σ5L=3αi<$Sl,Ball=Σ5L=3β iβi(二)BBox回归25×25×(4·k)SiameseSiameseRPNRPN暹罗RPNCLS25×25×(2·k)BlSL箱头克莱斯角暹罗RPNDW-Corr_1 DW-Corr_2adj_1adj_2adj_3adj_4Fl(x)Fl(z)conv1conv1pool1conv2_1pool1conv2_1conv2_2conv2_2conv2_3conv2_3conv3_1conv3_1conv3_2conv3_2conv3_3conv3_3conv4_1conv4_1conv4_2conv4_2conv4_3conv4_3conv4_4conv4_4conv4_5conv4_5conv4_6conv4_6conv5_1conv5_1conv5_2conv5_2conv5_3conv5_34286(256,256x2k)(256、256)响应图搜索区域模板(a) 互相关层(b) 上行信道互相关层(c) 深度方向互相关层图4.不同互相关层的图示。(a)互相关(XCorr)层预测SiamFC中目标模板和搜索补丁之间的单通道相似性图[1]。(b)上行通道互相关(UP-XCorr)层通过在SiamRPN中级联具有多个独立XCorr层的重卷积层来输出多通道相关特征[25]。(c)深度方向互相关(DW-XCorr)层预测模板和搜索块之间的多通道相关特征。由于分类和回归的域不同,因此将组合权重分开用于分类和回归权重与网络一起离线进行端到端优化。与以前的工作相比,我们的方法没有显式地结合卷积特征,而是分别学习分类器和回归。请注意,随着主干网络的深度显著增加,我们可以从视觉语义层次结构的足够多样性中获得实质性收益。3.4. 深度互相关互相关模块是嵌入两个分支信息的核心操作SiamFC[1]利用互相关层来获得用于目标定位的单通道响应图。在SiamRPN [25]中,通过添加一个巨大的卷积层来缩放通道(UP-Xcorr),互相关被扩展到嵌入更高级别的信息,繁重的上行通道模块使得参数分布严重不平衡(即RPN模块包含20M参数,而[25]中的特征提取器仅包含4M参数),这使得SiamRPN中的训练优化变得困难。在本小节中,我们提出了一个轻量级的交叉相关层,称为相关交叉相关(DW-图5. conv4中的相关输出通道。conv4共有256个通道,但只有少数通道在跟踪过程中具有高响应。因此,我们选择第148、222、226通道作为示例,它们分别位于图中的第2、3、4行第一行包含来自OTB数据集[48]的六个相应搜索区域不同的通道代表不同的语义,第148通道对汽车的反应最高,而对人和面孔的反应最低第222和226通道分别对人物和面孔有较高的反应.XCorr),实现高效的信息关联。DW-XCorr层包含的参数比SiamRPN中使用的UP-XCorr少10倍,而性能与之相当。为了实现这一点,采用conv-bn块来调整每个残差块的特征以适应跟踪任务。关键是,边界框预测和基于锚点的分类都是不对称的,这与SiamFC不同(见第11节)。第3.1节)。为了编码差异,模板分支和搜索分支通过两个非共享卷积层。然后,具有相同数量的通道的两个特征映射逐通道进行相关操作附加另一个conv-bn-relu块以融合不同的通道输出。最后,附加用于分类或回归的输出的最后卷积通过将互相关替换为非互相关,可以大大减少计算量和数据量。通过这种方式,模板和搜索分支上的参数数量是平衡的,使得训练过程更加稳定。此外,一个有趣的现象是说明图。五、同一类别的物体在同一通道上具有高响应(汽车在第148通道,人在第222通道,脸在第226通道),而其余通道的响应被抑制。该属性可以被理解为由深度方向互相关产生的通道方向特征几乎是正交的,并且每个通道表示一些语义信息。我们还分析了使用上通道互相关时的热图和响应图是不太可解释的。第226次42874. 实验结果4.1. 培训数据集和评估训练 我们架构的骨干网络[15]在ImageNet [37]上进行了图像标记的预训练,这已被证明是其他任务的非常好的初始化[14,28]。我们在COCO [26],ImageNetDET [37],ImageNet VID,0.700.690.680.670.66AlexNet56 5758OTB2015上的Top1 Acc vs AUCRes50Res34Res18MobileNetv266 68 70 72 74 76 78前1位访问(%)和YouTube-BoundingBoxes数据集[36],并学习如何测量一般对象之间的相似性以进行视觉跟踪的一般概念。在训练和测试中,我们使用127像素的单尺度图像作为模板补丁,255像素的搜索区域。评 价 我 们 专 注 于 OTB2015 [48] , VOT2018 [22] 和UAV123 [32]上的短期单目标跟踪。我们使用VOT 2018-LT [22]来评估长期设置。在长期跟踪中,对象可能会离开视场或长时间被完全遮挡,这比短期跟踪更具挑战性我们还分析了我们的方法在LaSOT [10]和Tracking- ingNet [31]上的推广,这是最近两个最大的单对象跟踪基准4.2. 实现细节网络架构。在实验中,我们遵循[54]的训练和推理设置。我们将两个兄弟卷积层连接到步幅减少的ResNet-50(第二节)。3.2)执行建议分类和边界框回归与5个锚。将三个随机初始化的1×1卷积层附加到conv3、conv4、conv5,用于将特征维数减小到256。优化. SiamRPN++使用随机梯度下降(SGD)进行训练。我们在8个GPU上使用同步SGD,每个小批总共128对(每个GPU 16对),这需要12个小时来收敛。我们在前5个时期使用0.001的在过去的15个epoch中,整个网络都是端到端训练的,学习率从0.005指数衰减到0.0005。使用0.0005的重量衰减和训练损失是分类损失和回归的标准平滑L1损失之和。4.3. 消融实验主干架构。特征提取器的选择是至关重要的,因为参数的数量和层的类型直接影响跟踪器的存储器、速度和性能我们比较了不同的网络架构的视觉跟踪。图6示出了使用AlexNet、ResNet-18、ResNet-34、ResNet-50和 MobileNet-v2 作 为 骨 干 网 的 性 能 。 我 们 报 告OTB2015 上 成 功 图 的 曲 线 下 面 积 ( AUC ) 相 对 于ImageNet上排名前1的准确度的性能。我们观察到SiamRPN++可以从更深层次的ConvNets中受益。图6. ImageNet上的Top-1准确率与OTB 2015上的AUC得分。骨干L3 L4 L5 Finetune Corr VOT2018 OTB2015AlexNet起来DW0.3320.3550.6580.666ResNet-50 ✓✓✓✓✓✓✓起来起来0.3710.3900.6640.684✓✓DW0.3310.669✓✓DW0.3740.678ResNet-50✓✓DW0.3200.646✓✓✓DW0.3460.677✓✓✓DW0.3360.674✓✓✓DW0.3830.683ResNet-50✓✓✓DW0.3950.673✓✓✓✓DW0.4140.696表1. VOT2018和OTB2015上申报追踪器的消融研究。L3、L4、L5分别表示conv3、conv4、conv5。Finetune表示主干是否离线训练Up/DW意味着向上信道相关和深度相关。表1还说明了通过将AlexNet替换为ResNet-50,VOT2018数据集的性能得到了很大提高。此外,我们的实验表明,微调的骨干部分是至关重要的,这产生了很大的改善跟踪性能。逐层特征聚合。为了研究逐层特征聚合的影响,我们首先在ResNet-50上用单个RPN训练了三个变体。我们根据经验发现,单独使用conv4可以实现与0. EAO为374,而深层和浅层表现为4%的下降。通过两个分支的组合,conv4和conv5获得了改善,然而在其他两个组合上没有观察到改善。尽管如此,鲁棒性提高了10%,这是我们跟踪器的关键漏洞。这意味着我们的追踪器还有改进的空间。在聚合所有三个层之后,准确性和鲁棒性都稳步提高,增益在3. 1%和1. 3%,OTB。总的来说,逐层特征聚合产生0。VOT2018的EAO评分为414,为4。0%,高于单层基线。深度相关性。我们比较了原始的上行通道互相关层与建议的深度方向互相关层。如表1所示,所提出的dependency相关增益为2。比2018年的VOT2018提高了3%,比OTB2015提高8%,AUC42880.495 0.398 0.429 0.379 0.436 0.426 0.384 0.454 0.472 0.3930.421 0.498表2.在VOT 2018的预期平均重叠(EAO)、鲁棒性和准确性方面与最先进技术进行比较VOT2018上的速度vs EAO10.90.80.70.60.50.4OPE在OTB2015上的成功案例10.90.80.70.60.50.4OTB2015上OPE的精密度图0.4500.4250.4000.3750.3500.3250.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值0.30.20.1005101520253035404550定位误差门限0.3000.2750.2500 1 210 10 10(a) 成功情节(b) 精密度图图8.比较国家的质量和速度图7.成功和精度图显示了我们的跟踪器与OTB2015数据集上最先进的跟踪器的比较。说明了依赖关系的重要性这部分是因为两个分支的平衡参数分布使得学习过程更稳定,并且收敛得更好。4.4. 与最新技术OTB-2015数据集。 标准化的OTB基准[48]提供了一个公平的鲁棒性测试平台。 暹罗的跟踪器将跟踪公式化为一次性检测任务,没有任何在线更新,从而导致在这种无重置设置基准上的性能较差。然而,我们将来自浅网络的有限表示确定为阻止基于Siamese的跟踪器超越顶级性能方法(例如C-COT变体)的主要障碍[9,5]。我们将OTB2015上的SiamRPN++跟踪器与最先进的跟踪器进行比较。图7显示了我们的SiamRPN++跟踪器在重叠搜索中产生了领先的结果与最近的DaSiamRPN[54]相比,我们的SiamRPN++提高了3. 8%的重叠和3。4%的精确度,从显着增加的深度。从深度ConvNets提取的表示对照明和背景杂波不太敏感。据我们所知,这是Siamese跟踪器首次在OTB2015数据集上获得与最先进的跟踪器相当的性能VOT2018数据集。 我们测试我们的SiamRPN++跟踪器,最新的VOT-2018数据集[22]与10种最先进的方法进行比较。VOT-2018公共数据集是用于评估在线无模型单对象跟踪器的最新数据集之一,包括60个具有不同挑战性因素的公共遵循VOT-2018的评估方案,我们采用预期平均重叠(EAO)、准确度(A)和稳健性(R)以及基于无重置的平均重叠(AO)来比较不同的VOT2018上最先进的跟踪方法我们想象预期平均重叠(EAO)相对于每秒帧数(FPS)。请注意,FPS轴为对数刻度。我们的两个变体,分别用ResNet-18(Ours-res 18 ) 和 MobileNetv 2 ( Ours-mobile ) 替 换 ResNet-50 主干。追踪器详细的比较报告于表2中。从表2中,我们观察到所提出的SiamRPN++方法在EAO、A和AO标准上实现了排名最高的性能。特别是,我们的SiamRPN++跟踪器的性能超过了所有现有的跟踪器,包括VOT2018挑战赛冠军。与VOT2018挑战赛(LADCF [22])中的最佳跟踪器相比,实现了2的性能增益。百分之五此外,我们的跟踪器比挑战赛获胜者(MFT [ 22 ])有了实质性的改进,增益为9。5%的准确度。与基线跟踪器DaSiamRPN相比,我们的方法产生了10的大幅收益。3%的鲁棒性,这是基于暹罗网络的跟踪器对相关滤波器方法的共同弱点。尽管如此,由于缺乏对模板的适应性,鲁棒性与最先进的相关性仍有差距filters方法[2]依赖于在线更新。还采用一次通过评估(OPE)来评估跟踪器,并报告AO值以证明其性能。 从表2的最后一行,我们可以观察到,与DLSTpp [ 22 ]相比,我们的方法实现了相当的性能,并且将DaSiamRPN [54]方法改进了10的绝对增益。0%。精度与速度在图8中,我们看到EAO在VOT2018上关于每秒帧数(FPS)。报告的速度是在配备NVIDIA Titan Xp GPU的机器上评估的,其他结果由VOT2018官方结果提供。从图中可以看出,我们的SiamRPN++实现了最佳性能,同时仍然以实时速度(35 FPS)运行。值得注意的是,我们的两个变体实现了与SiamRPN++几乎相同的精度,同时运行速度超过70 FPS,这使得这两个变体具有很强的竞争力。我们我们的手机LADCFMFT测试Ours-res18SiamRPNDRTDeepSTRCF1SA_Siam_RLSARTDLSTppSRCTCFCFS.A._Siam_PECOMCCTCSRDCF成功率精度DLSTpp DaSiamRPN暹罗体育会R CPT DeepSTRCF DRT RCO UPDT SiamRPN MFT LADCF 我们EAO↑0.3250.3260.3370.3390.3450.356 0.376 0.3780.3830.3850.3890.414准确度↑0.5430.5690.5660.5060.5230.519 0.507 0.5360.5860.5050.5030.600稳健性↓0.2240.3370.2580.2390.2150.201 0.155 0.1840.2760.1400.1590.234AO↑EAO428910.90.80.70.60.50.40.30.20.10.60.50.40.30.20.10.70.60.50.40.30.20.10LaSOT测试集00.10.20.30.40.50.60.70.80.91重叠阈值0.60.50.40.30.20.10LaSOT测试集00.050.10.150.20.250.30.350.40.450.5定位误差门限000.10.20.30.40.50.60.70.80.91召回00102030405060708090100索引(Indexed)图11.LaSOT上跟踪器的评估结果图9.长期跟踪性能。平均跟踪精确率-召回率曲线(左),相应的F分数曲线(右)。跟踪器标签根据F分数进行排序。0.80.70.60.50.40.30.20.10UAV123上的OPE成功图00.10.20.30.40.50.60.70.80.91重叠阈值0.80.70.60.50.40.30.20.10UAV123上OPE的精度图05101520253035404550定位误差门限表3.TrackingNet测试集在成功率、精确度和标准化精确度方面的最先进的比较AUC评分为49。百分之六。具体而言,SiamRPN++使归一化距离精度和AUC相对增加23。7%,24。9%超过MDNet [33],这是原始论文中报告的最佳跟踪器。图10.无人机123上跟踪器的评估结果VOT2018长期数据集。在最新的VOT2018挑战赛中,新引入了一项长期实验。它由35个长序列组成,其中目标可能会离开视场或长时间完全遮挡性能指标是精确度、召回率和组合F分数。我们在VOT 2018-LT上报告了所有这些指标与最先进的跟踪器[41,11]的比较。如图所示。9,在为我们的跟踪器配备长期策略后,SiamRPN++获得2. 从DaSiam LT获得2%的增益,并比最好的跟踪器高出1. F-评分9%ResNet提取的强大特征将TP和TR从我们的基线DaSi-amRPN绝对提高了2%。同时,SiamRPN++的长期版本仍然能够以21 FPS的速度运行,这比VOT 2018-LT的获胜者MBMD快近8倍[22]。UAV123数据集UAV123数据集包括123个序列,平均序列长度为915帧。除了[30]、ECO [5]、ECO-HC [5]、DaSiamRPN [54]、SiamRPN [25]中的最新跟踪器外,还添加了比较。图10示出了所比较的跟踪器的精度和成功曲线。 具体来说,我们的跟踪器实现了0.613的成功分数,以较大的幅度优于DaSiamRPN(0.586)和ECO(0.525)。LaSOT数据集。为了在更大和更具有挑战性的数据集上进一步验证所提出的框架,我们在LaSOT上进行了实验[10]。LaSOT数据集提供了一个大规模,高质量的密集注释,总共有1,400个视频,测试集中有280个视频。图11报告了我们的SiamRPN++跟踪器在LaSOT测试 集 上 的 总 体 性 能 。 无 需 花 里 胡 哨 , 我 们 的SiamRPN++模型足以实现最先进的TrackingNet数据集。 最近发布的Track-ingNet [31]提供了 大 量 的 数 据 来 评 估 野 外 的 追 踪 者 。 我 们 在SiamRPN++测试集上使用511个视频进行评估。在[31]之后,我们使用三个指标成功(AUC)、精密度(P)和标准化精密度(Pnorm)进行评估。表3显示了与具有最高AUC评分的追踪器的比较结果,表明SiamRPN++在所有三个指标上均获得了最佳结果。具体而言,SiamRPN++获得的AUC评分为73。3%,P值为69。4%,P常模评分为80。0%,优于第二好的跟踪器DaSiamRPN [54],AUC评分为63。8%,P值为59。1%,P常模得分为73。4%,9。5%,10. 3%和6. 6%,分别。总之,重要的是要注意,所有这些一致的结果都显示了SiamRPN++的泛化能力。5. 结论在本文中,我们提出了一个统一的框架,称为SiamRPN++,用于端到端训练深度Siamese网络进行视觉跟踪。我们展示了如何在Siamese Tracker上训练深度网络的理论和我们的网络由多层聚合模块和深度相关层组成,多层聚合模块组装连接的层次结构以聚合不同级别的表示,深度相关层使我们的网络能够减少计算成本和冗余参数,同时也导致更好的收敛。使用SiamRPN++,我们在VOT 2018上实时获得了最先进的结果,显示了SiamRPN++的有效性。SiamRPN++还在La- SOT和TrackingNet等大型数据集上获得了最先进的结果,显示了其通用性。[F=.629]我们的[F=.610] MBMD[F=.607] DaSiam LT[F=.546] MMLT[F=.536] LTSINT[F=.509] SYT[F=.481] PTAV plus[F=.480] FuCoLoT[F=.459] SiamVGGCSRDCF ECO SiamFC CFNet MDNet DaSiamRPNOurs[29][5][1][43][54]AUC(%) 53.455.457.157.860.6P(%)53.353.356.559.169.4P标准(%)66.365.470.573.3精度成功率F-measure精度成功率精度4290引用[1] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H.乇用于对象跟踪的全卷积连体网络。在ECCV研讨会,2016年。一二三五八[2]G.作者:J. Johander,M. Danelljan、F. Shahbaz khan和M. 费尔斯伯格揭示深度追踪的力量。在ECCV,2018年9月。7[3] D. Bolme,J.贝弗里奇湾Draper和Y.律使用自适应相关滤波器的视觉CVPR,2010。2[4] L- C. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在ECCV,2018。2[5] M.达内尔扬湾Bhat,F. Shahbaz Khan和M.费尔斯伯格Eco:用于跟踪的高效卷积算子。在CVPR,2017年。一、二、七、八[6] M. 达内尔扬湾Hager,F.S. khan和M.费尔斯伯格学习空间正则相关滤波器的视觉跟踪。在ICCV,2015年。2[7] M.达内尔扬湾Hager,F. Shahbaz Khan和M.费尔斯伯格。基于相关滤波器的视觉跟踪的卷积特征。在ICCV研讨会,2015年。2[8] M. Danelljan、F. S.汗,M。Felsberg和J. V. De Weijer。用于实时视觉跟踪的自适应颜色属性。CVPR,2014。2[9] M. Danelljan,A. Robi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功