SiamCAR：一种用于视觉跟踪的全卷积Siamese网络

107 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

视觉跟踪

像素分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43216269SiamCAR：用于视觉跟踪的Siamese全卷积分类和DongyanGuo，Zhenhua Wang，ShengyongChen中国浙江工业大学中国天津工业大学{郭冬艳，1111912011，崔英，zhhwang}@ zjut.edu.cn，sy@ieee.org摘要通过将视觉跟踪任务分解为两个子问题，即像素类别的分类和该像素处的对象边界框的回归，我们提出了一种新的全卷积Siamese网络，以逐像素的方式解决端到端的视觉所提出的框架SiamCAR由两个简单的子网络组成：一个用于特征提取的Siamese子网络和一个用于边界框预测的分类-回归子网络。与Siamese-RPN等最先进的跟踪器不同，SiamRPN++和SPM，基于区域pro-SiamCAR SiamRPN++SPMECO因此，拟议的框架既是建议，也是锚自由了因此，我们能够避免棘手的超参数调整的锚和减少人为干预。建议的框架是简单，整洁和有效的。对GOT-10 K、LaSOT、UAV 123和OTB-50等具有挑战性的基准进行了广泛的实验和与最先进的跟踪器的比较。没有花里胡哨，我们的SiamCAR以相当快的实时速度实现了领先的性能。该代码可在https://github.com/ohhhyeahhh/SiamCAR上获得。1. 介绍视觉目标跟踪由于其在智能监控、人机交互、无人驾驶等领域的广泛应用而受到广泛关注。在视觉跟踪方面取得了迅速的进展然而，它仍然是一个具有挑战性的任务，特别是对于现实世界的应用，因为对象在不受约束的记录条件下往往遭受大的照明变化，尺度变化，背景杂波和严重的闭塞等。此外，非刚性对象的外观可能会由于极端姿态变化而发生显著变化。当前流行的视觉跟踪方法[1，21，14，35，20，42，11，33]围绕基于暹罗网络的架构。连体网络制定视觉图1.所提出的SiamCAR与三种最先进的追踪器在来自GOT-10 K的三个挑战性序列上的比较。我们的SiamCAR可以准确地预测边界框，即使对象受到类似的干扰，大规模变化和大姿态变化，而SiamRPN++和SPM给出了更粗糙的结果和ECO漂移到背景。跟踪任务作为目标匹配问题，并且旨在学习目标模板和搜索区域之间的一般相似性图。由于单个相似性图通常包含有限的空间信息，因此常见的策略是在搜索区域的多个尺度上执行匹配以确定对象尺度变化[1，14，35]，这解释了为什么这些跟踪器耗时且劳动密集。SiamRPN [21]将Siamese网络附加到一个子网络，用于提取区域建议（RPN）。SiamRPN通过联合训练一个分类分支和一个回归分支来进行视觉跟踪，避免了耗时的提取多尺度特征图的步骤，以 It achievesstate-of-the- art results on multiple benchmarks.后来的作品，如DaSiam [42]，CSiam [11]和SiamRPN++ [20]改进了SiamRPN。然而，由于锚是针对区域建议而引入的，因此这些跟踪器对锚框的数量、大小和纵横比敏感，并且超参数调整方面的专业知识对于利用这些跟踪器获得成功跟踪至关重要#016#064#119#020#048#085#047#200#41743216270在本文中，我们表明，一个无锚的暹罗网络为基础的跟踪器可以比最先进的RPN为基础的跟踪器。本质上，我们将跟踪分解为两个子问题：一个分类问题和一个回归任务。分类分支旨在预测每个空间位置的标签，而回归分支考虑将每个位置回归到一个相对的边界框。利用这种分解，可以以每像素预测的方式解决跟踪任务。然后，我们制作了一个简单而有效的基于Siamese的分类和回归网络（SiamCAR），以端到端的方式同时学习分类和回归模型。以前的工作[4]利用对象语义信息来改进边界框回归。受此启发，SiamCAR被设计用来提取包含丰富类别信息和语义信息的响应图.与RPN模型[21，42，20]不同，RPN模型分别使用两个响应图进行区域提议检测和回归，SiamCAR采用一个唯一的响应图直接预测对象位置和边界框。SiamCAR采用在线训练和离线跟踪的策略，在训练过程中不使用任何数据增强。我们的主要贡献是：• 我们提出了所谓的暹罗分类和回归框架（SiamCAR）的视觉跟踪。该框架结构简单，但性能强大• 建议的跟踪器是锚和建议自由。超参数的数量已被显着减少，这使得跟踪器从COM-在训练过程中进行复杂的参数调整。• 没有花里胡哨，建议的跟踪器实现了国家的最先进的跟踪性能方面的准确性和速度。2. 相关工作本文主要综述了近年来在跟踪性能上占主导地位的暹罗RPN跟踪器家族。跟踪研究人员致力于从不同方面设计更快，更准确的跟踪器，如特征提取[16，17]，模板更新[35，12]，分类器设计[40][14]关于“回归”的定义。早期的特征提取主要采用颜色特征、纹理特征或其他手工特征。由于深度学习的快速发展，基于卷积神经网络（CNN）的特征已被广泛采用。虽然通过模板更新可以提高跟踪器的适应性，但在线跟踪的效率较低此外，模板更新遭受跟踪漂移。相关滤波方法[2，6，16，22，41，25]的引入改善了跟踪性能在效率和准确性方面都有很大的提高。目前的研究表明，基于Siamese的CNNs在线训练和离线跟踪方法在准确性和效率之间实现了最佳平衡[21，20]。作为开创性的工作之一，SiamFC [1]构建了一个完全卷积的Siamese网络来训练跟踪器。在其成功的鼓舞下，许多研究人员遵循这项工作，并提出了一些更新的模型[9，35，14，13，21，20]。. CFNet [35]将相关过滤器层引入SiamFC框架，并执行在线跟踪以提高准确性。通过用两个在线变换修改Siamese分支，DSiam [13]提出学习动态Siamese网络，该网络在可接受的速度折衷下实现了更好的跟踪精度。SA-siam [14]构建了一个具有语义分支和外观分支的双重暹罗网络这两个分支分别训练以保持特征的异质性，但在测试时合并以提高跟踪精度。为了解决尺度变化的问题，这些连体网络诉诸于多尺度搜索，导致时间消耗的增加。受用于对象检测的区域建议网络 [31]的启发，SiamRPN [21]跟踪器使用Siamese网络的输出执行区域建议提取。通过联合学习分类分支和回归分支进行区域建议，SiamRPN避免了提取多尺度特征图的耗时步骤。然而，它在处理与目标对象具有相似外观的干扰物时有困难。基于SiamRPN，DaSiamRPN [42]在训练阶段增加了硬阴性训练数据。通过数据增强，提高了跟踪器的分辨力，从而获得了更鲁棒的跟踪结果。跟踪器进一步扩展到长期视觉跟踪。尽管上述方法在许多方面改进了原始SiamFC [1]，但性能停滞主要是因为它们使用的骨干网络SiamRPN++ [20]用ResNet [15]取代AlexNet。同时在训练过程中随机移动搜索区域中的训练对象位置，以消除中心偏差。这样的修改提高跟踪精度。在这些基于RPN的跟踪器中，采用了递归函数来进行区域建议。此外，锚框可以利用深度特征图，避免重复计算，这可以显着加快跟踪过程。最先进的跟踪器，如SPM [36]和SiamRPN [21]，以非常高的帧速率进行跟踪。虽然SiamRPN++ [20]采用了非常深的神经网络，但它仍然以相当快的实时速度工作。最先进的无锚跟踪器（例如，，ECO [3]）仍然比这些基于锚的跟踪器[36，20]差得多。43216271前景背景Conv分类25×25×2CNN25×25×��Conv中心性25×25×1L T R BCNNConv回归25×25×425×25×��7×7×��CNN模版补丁骨干Conv25×25×��CNN31×31×��搜索区域暹罗子网络分类-回归子网络图2. 关于SiamCAR：左侧是具有用于多通道响应图提取的深度方向互相关层（由表示）的连体子网络。右侧示出了用于边界框预测的分类和回归子网络，其用于解码从多通道响应图中提取对象的位置和比例信息。请注意，SiamCAR可以实现为一个完全卷积的网络，它简单，整洁，易于解释。挑战GOT-10 K等基准[18]。然而，基于锚点的跟踪器的性能对锚点的超参数非常敏感，需要仔细调整以实现理想的性能。此外，由于锚箱的尺寸和纵横比是固定的，即使调整参数，这些跟踪器仍然难以处理具有大的形状变形和姿态变化的对象。在本文中，我们表明，这些问题可以显着缓解我们提出的SiamCAR。与此同时，我们证明了一个跟踪器与更简单的架构可以实现更好的性能比国家的艺术。3. 该方法现在我们详细介绍我们的SiamCAR网络。如上所述，我们将跟踪任务分解为分类和回归两个子问题，然后以逐像素的方式解决它们。如图2所示，该框架主要由两个简单的子网络组成：一个用于特征提取的Siamese网络和另一个用于边界框预测的网络。3.1. 特征提取在这里，我们利用全卷积网络的优势，构建暹罗子网络的视觉特征提取。该子网络由两个分支组成：目标分支，其将跟踪模板块Z作为输入，以及搜索分支，其将搜索区域X作为输入。这两个分支共享与其主干模型相同的CNN架构，其输出两个特征映射（Z）和（X）。为了嵌入这两个分支的信息，可以通过以⑵作为核对⑵执行互相关来获得响应映射R由于我们需要解码响应映射R，后续的预测子网络来获得目标的位置和尺度信息，我们希望R保留丰富的信息。然而，互相关层只能生成单通道压缩响应图，这缺乏有用的特征和重要的跟踪信息，如[20]所建议的，不同的特征通道通常采用不同的语义信息。受[20]的启发，我们还使用深度相关层来产生多个语义相似度图：R=（X）（Z），（1）where ⋆ denotes the channel-by-channel correlation opera-tion.生成的响应图R具有与（X）相同的通道数量，并且它包含用于分类和回归的大量信息。边缘、角点、颜色和形状等低层特征代表了较好的视觉属性，是定位不可或缺的特征，而高层特征则更好地代表了语义属性，是判别的关键许多方法利用融合低级和高级特征来提高跟踪精度[27，20]。这里，我们还考虑聚合多层深度特征以进行跟踪。我们使用修改后的ResNet-50，[20]作为我们的骨干网络。为了获得更好的识别和区分推理，我们将从骨干的最后三个剩余块中提取的特征，分别表示为F3（X），F4（X），F5（X）。具体地说，我们执行一个通道连接，国家：（X）=Cat（F3（X），F4（X），F5（X）），（2）其中Fi=3：5（X）包括256个通道。因此X（X）包含3×256个通道。43216272（i，j）宽×高×1宽×高×1宽×高 ×宽×高×2宽×高×1宽×高×2宽×高×4宽×高×4在计算回归损失之间执行深度交叉相关，使用搜索图X1（X）和模板图X2（Z），得到多通道响应图。然后将响应图与1×1内核进行卷积，以将其维数降低到256个频道。通过降维，1Lreg=I（t（）下一页Σi、jI（t（i，j））LIOU（Areg（i，j，：），t（x，y）），（四）可以显著降低参数的误码率，并且可以加快后续计算。采用最终的降维响应图R**作为输入，其中LIOU是如[38]中的IOU损失，I（·）是由下式定义的指示.分类-回归子网络I（t）=克（i，j）>0，k= 0，1，2，3（五）3.2. 边界框预测响应映射R*中的每个位置（i，j）可以映射回输入搜索区域作为（x，y）。基于RPN的跟踪器以搜索区域上的对应位置为多尺度锚框的中心，以这些锚框为参考，回归目标边界框与之不同的是，我们的网络直接对每个位置的目标包围盒进行分类和回归。相关联的训练可以通过端到端方式的完全卷积操作来完成，0否则。观察到远离目标中心的位置往往会产生低质量的预测边界框，这降低了跟踪系统的性能。在[34]之后，我们添加了一个与分类分支并行的中心分支来移除离群值。如图2所示，分支输出中心度特征图Acen，其中每个点值给出相应位置的中心度分数。Acen（i，j）中的得分C（i，j）定义为：避免了复杂的参数调整并减少了人为干预。跟踪任务分解为两个子任务：分类分支，用于预测每个位置的类别，C（i，j）=I（t）<$（i，j）.min（n，r）min（t，n，b）（6）max（t，tb）max（t，tb）和一个回归分支来计算该位置的目标边界框（参见图2，其中，C（i，j）是与对应位置（x，y）和对象中心之间的距离。子网）。对于响应映射R提取搜索区域如果（x，y）是背景中的一个位置，使用暹罗子网，分类分支C（i，j）的值被设置为0。中心性损失是输出分类特征图Acls还有reg−1Σ岑回归分支输出回归特征图Aw×h×4。这里w和h代表前的宽度和高度。Lcen=0I（t（i，j））I（t）C（i，j）logAw×h×1（i，j））==1分别绘制特征图如图所示+（1−C（i，j））log（1−Acen（i，j））。图2，Acls中的每个点（i，j，：）包含一个2D矢量，（七）其表示的前景和背景得分输入搜索区域中的对应位置。模拟总损失函数为类似地，A reg中的每个点（i，j，：）包含4D向量t（i，j）=（l，t，r，b），其表示到所述点的L=L CLS+λ1Lcen +λ2Lreg 、（8）与边界框的四边对应的位置在输入搜索区域中。由于目标和背景在输入搜索区域中所占面积的比例不是很大，所以样本不平衡不是问题。因此，我们简单地采用交叉熵损失进行分类，IOU损失进行回归。令（x0，y0）和（x1，y1）表示地面实况边界框的左上角和右下角，并且令（x，y）表示点（i，j）的对应位置，回归tar在Areg处得到t（i，j（i，j，：）可以计算。1如果t43216273（i，j）其中Lcls表示分类的交叉熵损失。常数λ1和λ2对中心度损失和回归损失进行加权。在训练过程中，我们根据经验为所有实验设置λ1= 1和λ2=3。3.3. 跟踪阶段跟踪的目的是预测当前帧中目标的边界框对于位置（i，j），所提出的方法产生6D向量Tij=（cls，cen，l，t，r，b），其中cls表示分类的前景分数。日期：˜0（i，j） =l=x−x0，t1=t=y−y0，其中，cen表示中心度评分，并且l+r和t+b表示焦油的预测宽度和高度˜2（i，j）=r=x1˜3（i，j）=0.01b=y1（三）-y.进入当前帧。在跟踪过程中，边界框的大小和长宽比通常会发生微小的变化使用t（i，j），地面实况边界框与并且可以计算预测的边界框。然后我们跨连续帧。为了使用这种时空一致性来监督预测，我们采用了尺度不不-x，t43216274CLS岑l tr bB模板序列GOT-10 k上的成功图1.00.80.6一0.40.2DC0.0图3.跟踪过程：子图A示出了一对输入而B表示模型的相应输出，其中我们表明我们的模型对对象的不同属性给出了良好的预测C示出了对应于前k个点的预测边界框。D通过对C中的框进行平均来显示最终预测的边界框。如在[21]中引入的那样改变惩罚pij以重新排序分类得分cls ，其允许更新的6D 向量PTij= （clsij× pij，cen，l，t，r，b）。然后，跟踪阶段可以被公式化为：q= arg max{（1−λd）clsij×pij+λdHij}，（9）i、j其中H是余弦窗口，λd是平衡权重。输出q是具有最高分数的查询位置，该最高分数是目标像素。由于我们的模型是以逐像素预测的方式来解决目标跟踪问题的，因此每个位置都是相对于一个预测的边界框的。在实际跟踪过程中，如果只使用q的我们观察到，位于q周围的像素更可能是目标像素。因此，我们从以下n个邻域中选择前k个点：q根据值clsij×pij。最终预测是所选k个回归框的加权平均值根据经验，我们发现设置n=8和k=3提供稳定的跟踪结果。4. 实验4.1. 实现细节拟议的SiamCAR是用Python和PyTorch实现的，并在4个RTX 2080 Ti卡上训练对于公平竞争，模板补丁和搜索区域的输入大小与[20]相同，分别为127像素和255像素。采用 [20] 中修改后的 ResNet-50 作为我们的Siamese子网的骨干。该网络在ImageNet上进行了预训练[32]。然后我们使用预训练的权重作为初始化来训练我们的模型。0.0 0.2 0.4 0.6 0.8 1.0重叠阈值图4.与GOT-10 K的比较[18]。我们的SiamCAR显著优于基线和其他最先进的方法。培训详情。在训练过程中，批量大小被设置为96，总共20个时期是通过使用随机梯度下降（SGD）与初始学习率0。001。对于前10个时期，当训练分类和回归子网络时，暹罗子网络的参数被冻结对于最后10个epoch，ResNet-50的最后3个块被解冻用于训练。整个训练阶段大约需要42小时。我们使用来自COCO [24]，ImageNet DET，ImageNet VID [32]和YouTube-BB [30]的数据训练我们的SiamCAR，用于无人机和OTB [37]的实验应该注意的是，对于GOT-10 K [18]和LaSOT[10]的实验，我们的SiamCAR仅使用官方网站提供的指定训练集进行训练，以进行公平比较。测试详情。测试阶段采用离线跟踪策略。只有序列的第一帧中的对象被采用作为模板面片。因此，目标暹罗子网络的分支可以在整个跟踪期间被预先计算采用当前帧中的搜索区域作为搜索分支的输入。在图3中，我们展示了整个跟踪过程。利用分类回归子网络的输出，通过等式（9）查询位置q。为了在广告帧之间实现更稳定和更平滑的预测，计算对应于q的前3个邻居的回归框的加权平均值作为最终跟踪结果。对于不同数据集的评估，我们使用那里提供的官方测量值，这些测量值可能彼此不同。4.2. 关于GOT 10KGOT-10 K [18]是最近发布的大规模和高多样性基准，用于野外通用对象跟踪。它包含了超过10000个真实的视频片段-SiamCAR：[0.569]SiamRPN++：[0.517]SPM：[0.513]SiamRPN_R18：[0.483]索尔：[0.447]SiamFC：[0.348]CCOT：[0.325]ECO：[0.316]MDNet：[0.299]CFNetc 2：[0.293]ECOhc：[0.286]BACF：[0.260]MEEM：[0.253]DAT：[0.251]DSST：[0.247]SAMF：[0.246]吻合钉：[0.246]SRDCF：[0.236]fDSST：[0.206]KCF：[0.203]成功率43216275跟踪器AOSR0。5SR 0。75FPS硬件语言KCF [16]0.2030.1770.06594.66CPUMATLABfDSST [6]0.2060.1870.07530.43CPUMATLABSRDCF [5]0.2360.2270.0945.58CPUMATLAB[26]第二十六话0.2460.2390.08928.87CPUMATLABSAMF [23]0.2460.2410.0847.43CPUMATLABDSST [7]0.2470.2230.08118.25CPUMATLAB[29]第二十九话0.2510.2420.04845.52CPUMATLABMEEM [39]0.2530.2350.06820.59CPUMATLABBACF [19]0.2600.2620.10114.44CPUMATLABECO-HC0.2860.2760.09644.55CPUMATLABCFnet [35]0.2930.2650.08735.62Titan XMATLABMDnet [28]0.2990.3030.0991.52Titan XPythonECO [3]0.3160.3090.1112.62CPUMATLABCCOT [8]0.3250.3280.1070.68CPUMATLABSiamFC [1]0.3740.4040.14425.81Titan XMATLAB托尔0.4470.5380.2041.00RTX 2070PythonSiamRPN R180.4830.5810.27097.55Titan XPythonSPM [36]0.5130.5930.35972.30泰坦XpPythonSiamRPN++[20]0.5170.6160.32549.83RTX 2080tiPythonSiamCAR0.5690.6700.41552.27RTX 2080tiPython表1.对GOT-10 K的评价[18]。前2个结果分别以红色和蓝色突出显示0.70.60.50.40.30.20.1LaSOT测试集上OPE的归一化精密度图0.70.60.50.40.30.20.1LaSOT测试集上OPE的精密度图0.80.70.60.50.40.30.20.1LaSOT测试集上OPE的成功图000.050.10.150.20.250.30.350.40.450.5定位误差门限00 5 10 15 20 25 30 35 40 4550定位误差门限00 0.10.20.30.40.50.60.70.80.9 1重叠阈值图5. 与LaSOT上的前20名跟踪器进行比较[10]。我们的SiamCAR显著优于基线和最先进的技术。世界移动物体通过协议确保深度跟踪器的公平比较，所有方法都使用数据集提供的相同训练和测试数据。训练数据集和测试数据集中的类是零重叠的.在上传跟踪结果后，官方网站会自动进行分析。提供的评价指标包括成功图、平均重叠（AO）和成功率（SR）。AO表示所有估计的边界框和地面实况框之间的平均重叠。SR0。5表示重叠超过0的完全跟踪的帧的比率。5，而SR0. 75表示该重叠超过0。75.我们在GOT-10 K上评估了SiamCAR，并将其与最先进的跟踪器进行了比较，包括SiamRPN++ [20]，SiamRPN [21]，SiamFC [1]，ECO [3]，CFNET [35]和其他基线或最先进的方法。所有结果均由GOT-10 K官方网站提供。图1显示SiamCAR在GOT-10 K上的表现优于所有跟踪器，表1列出了不同指标的定量结果。显然，我们的跟踪器在所有指标方面都表现最好。与SiamRPN++相比，SiamCAR的评分提高了5。2%，5.4%和9。AO、SR0. 5，SR0。75.在表1中，我们还显示了以每秒帧（FPS）为单位的跟踪帧速率。报告的速度是在一台装有RTX 2080 ti的机器上评估的，其他速度由GOT-10 K官方结果提供。如图所示，我们的SiamCAR比大多数评估的跟踪器快得多，实时速度为52。每秒27帧。[0.600] SiamCAR[0.569] SiamRPN++[0.460] MDNet[0.453]生命[0.420]暹罗足球俱乐部[0.418] StructSiam[0.405] DSiam[0.354] SINT[0.340] STRCF[0.338] ECO[0.320] ECO_HC[0.312] CFNet[0.286] HCFT[0.283] BACF[0.278] TRACA[0.278]吻合钉[0.274] PTAV[0.270] U型钉_CA[0.265] MEEM[0.254] CSRDCF[0.510] SiamCAR[0.491] SiamRPN++[0.373] MDNet[0.360]生命[0.339]暹罗足球俱乐部[0.333] StructSiam[0.322] DSiam[0.301] ECO[0.298] STRCF[0.295] SINT[0.279] ECO_HC[0.259] CFNet[0.254] PTAV[0.241] HCFT[0.239]吻合钉[0.239] BACF[0.235] U型钉_CA[0.227] TRACA[0.227] MEEM[0.220] CSRDCF[0.243]吻合钉精度精度成功率[0.507] SiamCAR[0.496] SiamRPN++[0.397] MDNet[0.390]生命[0.336]暹罗足球俱乐部[0.335] StructSiam[0.333] DSiam[0.324] ECO[0.314] SINT[0.308] STRCF[0.304] ECO_HC[0.275] CFNet[0.259] BACF[0.257] TRACA[0.257] MEEM[0.250] HCFT[0.250] PTAV[0.245] SRDCF[0.244] CSRDCF43216276OPE的精密度图-低分辨率（10）1OPE -背景杂波的精度图（20）1OPE的精度图-平面外旋转（32）10.9OPE -变形的精度图（23）0.90.90.90.80.80.80.80.70.70.70.70.60.60.50.60.50.60.50.50.40.30.20.10.40.30.20.10.40.30.20.10.40.30.20.1005101520253035404550定位误差门限005101520253035404550定位误差门限005101520253035404550定位误差门限005101520253035404550定位误差门限OPE的成功图-低分辨率（10）1OPE的成功图-背景杂波（20）1OPE成功图-平面外旋转（32）10.9OPE的成功图-变形（23）0.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.50.50.50.40.30.20.10.40.30.20.10.40.30.20.10.40.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值图6.对OTB-50 [37]的评估具有挑战性，包括低分辨率，背景杂波，平面外旋转和变形。我们的SiamCAR针对所有这些方面的影响取得了最佳效果。4.3. LaSOT结果LaSOT是最近发布的单目标跟踪基准。数据集包含3个以上。5200万个手动注释的帧和1400个视频。它包含70个类，每个类包括20个跟踪序列。如此大规模的数据集给出租车的跟踪带来了巨大的挑战。LaSOT的官方网站提供了35种算法作为基线。归一化精密度图、精密度图和一次通过评价（OPE）中的成功图被视为评价指标。我们将我们的SiamCAR与前19名跟踪器进行比较，包括 SiamRPN++ [20] ， MDNet [28] ， DSiam [13] ，ECO[3]和其他基线。SiamRPN++[20]的结果由其作者的网站提供，而其他结果由LaSOT的官方网站提供。如图5所示，我们的 SiamCAR 实现了最佳性能。与SiamRPN++相比，我们的SiamCAR将评分提高了3。1%，1. 9%和1。1%，分别为3指标. 值得注意的是，我们的SiamCAR提高了14%以上，十三岁与基线法比较，三项指标的预测值分别为7%和11%在如此大的数据集上的领先结果表明，我们提出的网络对视觉对象具有良好的泛化能力4.4. 关于OTB50OTB-50包含50个具有挑战性的视频，具有很大的变化。测试序列被手动标记为9个属性来表示具有挑战性的方面，包括照明变化、比例变化、遮挡、变形、运动模糊、快速运动、平面内旋转、平面外旋转、骨干ResNet-50ResNet-34alexnet精度0.760.7510.713FPS5277170表2.具有不同骨干结构的UAV123的比较。面外旋转、视野外、背景杂波和低分辨率。我们将我们的网络与9 种最先进的方法进行了比较，包括SiamRPN++[20]， SiamRPN [21]， SiamFC [1]和 ECO[3]。我们在OPE中评估每个跟踪器的成功图和精度图。如图6所示，所提出的SiamCAR在两个指标方面都排名第一特别是，我们的SiamCAR显着提高了跟踪精度对低分辨率，面外旋转和背景杂波的影响。结果表明，SiamCAR算法能够更好地处理复杂的干扰项和较大的姿态变化，这得益于我们的分类-回归子网络隐式解码的语义信息。4.5. 关于UAV123UAV123数据集包含123个视频序列和超过110K帧。所有序列都用直立边界框进行了充分注释。数据集中的对象看到快速运动、大尺度和照明变化和遮挡，这使得使用该数据集进行跟踪具有挑战性。我们在该数据集上将我们的SiamCAR与9种最先进的方法进行了比较，包括SiamRPN++ [20]、SiamRPN[21]、SiamFC [1]和ECO [3]。OPE的成功图和精度图用于评估总体SiamCAR [0.873]SiamRPN++[0.822]SiamRPN [0.789]澳门银河[0.749]经济-HC [0.739]cfnet [0.729]MEEM [0.618]KCFDP [0.605]SRDCF [0.603]fDSST [0.593]SiamCAR [0.786]经济-HC [0.715]SiamRPN++[0.711]SiamRPN [0.703]fDSST [0.680]SRDCF [0.648]KCFDP [0.619]MEEM [0.589]cfnet [0.575]SiamFC [0.574]SiamCAR [0.782]SiamRPN++[0.746]SiamRPN [0.742]经济-HC [0.720]MEEM [0.613]SRDCF [0.606]KCFDP [0.606]SiamFC [0.605]cfnet [0.596]吻合钉[0.582]SiamCAR [0.740]SiamRPN++[0.732]SiamRPN [0.721]经济-HC [0.692]吻合钉[0.636]SRDCF [0.609]KCFDP [0.576]cfnet [0.568]SiamFC [0.546]MEEM [0.545]SiamCAR [0.677]SiamRPN++[0.649]SiamRPN [0.601]SiamFC [0.573]经济-HC [0.564]cfnet [0.549]SRDCF [0.481]fDSST [0.446]KCFDP [0.445]MEEM [0.420]SiamCAR [0.627]SiamRPN++[0.586]经济-HC [0.577]SiamRPN [0.576]fDSST [0.543]SRDCF [0.530]KCFDP [0.495]SiamFC [0.476]吻合钉[0.476]cfnet [0.470]SiamCAR [0.601]SiamRPN++[0.598]SiamRPN [0.586]经济-HC [0.560][0.485]SiamFC [0.482]KCFDP [0.480]吻合钉[0.463]fDSST [0.454]MEEM [0.453]SiamCAR [0.588]SiamRPN++[0.573]SiamRPN [0.571]经济-HC [0.536]吻合钉[0.518]SRDCF [0.476]KCFDP [0.452]SiamFC [0.433]fDSST [0.422]cfnet [0.400]精度成功率精度成功率精度成功率精度成功率43216277SiamCAR [0.760]SiamRPN++[0.752]DasiamRPN [0.724]SiamRPN [0.710]ECO [0.688]经济-HC [0.667]SiamFC [0.648]SRDCF [0.627]吻合钉[0.614]MEEM [0.570]成功率0.9OPE的精密度图0.9OPE的成功图0.80.80.70.70.60.60.50.50.40.40.30.30.20.20.10.100 10 20 30 40 50定位误差门限00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1重叠阈值图7.对无人机123的评价我们的SiamCAR在所有评估指标上表现最佳表演在这里。如图7所示，我们的SiamCAR在两个指标上都优于所有其他跟踪器。与最先进的RPN跟踪器[20，42，21]相比，SiamCAR通过更简单的网络获得了有竞争力的结果，并且不需要精确地调整参数。4.6. 主干架构评估为了验证所提出的框架的有效性，我们比较不同的骨干体系结构的对象跟踪。表2示出了使用ResNet-50、ResNet-34和AlexNet作为主干的跟踪性能。我们报告的结果，关于精度和帧每秒（FPS）的无人机123通过更换骨干。可以看出，所提出的SiamCAR可以用不同的主链实现相当的结果。值得注意的是，使用Alexnet可以实现显然，所提出的框架可以从更深的网络中受益。通过使用ResNet50替换AlexNet，精度提高了约6。5%，而跟踪速度降低到52 FPS，这仍然是实时速度。评估还表明，通过改变骨干网络，它很容易适应拟议的SiamCAR不同的实际任务之间的权衡准确性和效率。5. 结论在本文中，我们提出了一个Siamese分类和回归框架，即SiamCAR，它可以实现深度Siamese网络的端到端训练，用于视觉跟踪。我们表明，跟踪任务可以重新解决在每像素的方式使用建议整洁的全卷积框架。所提出的框架在其架构方面非常简单，但在GOT-10 K上实现了新的最先进的结果，而无需花里胡哨和其他具有挑战性的基准。在LaSOT这样的大规模数据集上也取得了最佳性能，验证了该框架的泛化能力。由于我们的SiamCAR简单而整洁，接下来可以进行几项修改以实现进一步改进。致谢本研究得到了国家重点研发计划（ 2018YFB1305200 ）、国家自然科学基金（ 61802348 ）和浙江省自然科学基金（LQ18F030013、LQ18F030014）的部分资助。引用[1] L. 贝尔蒂内托Valmadre，J.F.亨里克斯A.Vedaldi和P.H.乇用于对象跟踪的全卷积连体网络。在ECCV，2016年。[2] D. Bolme，J.贝弗里奇湾Draper和Y.律使用自适应相关滤波器的视觉CVPR，2010。[3] M.达内尔扬湾Bhat，F.S. khan和M.费尔斯伯格Eco：用于跟踪的高效卷积算子在CVPR，2017年。[4] M. 达内尔扬湾Bhat，F.S.khan和M.费尔斯伯格通过重叠最大化进行精确跟踪。在CVPR，2019年。[5] M. 达内尔扬湾Hager，K.S.Fahad和M.费尔斯伯格学习空间正则相关滤波器的视觉跟踪。在ICCV，2015年。[6] M.达内尔扬湾Hager，K.S. Fahad和M.费尔斯伯格反犯罪空间追踪。TPAMI，2016.[7] M. 达内尔扬湾Hager和F.汗王鲁棒视觉跟踪的精确尺度InBMVC，2014.[8] M. Danelljan，A.Robinson，F.S.khan和M.费尔斯伯格Be-yond相关滤波器：学习用于视觉跟踪的连续卷积运算器。在ECCV，2016年。SiamCAR [0.614]SiamRPN++[0.610]DasiamRPN [0.569]SiamRPN [0.557]ECO [0.525]ECO-HC [0.506]SiamFC [0.485]SRDCF [0.463]吻合钉[0.450]KCFDP [0.412]精度43216278[9] X.P. Dong和J.B.沈用于目标跟踪的连体网络中的三重态损失在ECCV，2018。[10] H. Fan，L.T. Lin，F. Yang，P. Chu，G.邓世杰，余洪新。Bai，Y.徐春英Liao和H.B.凌Lasot

下载后可阅读完整内容，剩余1页未读，立即下载