SPM跟踪器：基于串并行匹配的实时视觉目标跟踪

67 浏览量更新于2023-10-20 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3643SPM跟踪器：基于串并行匹配的实时视觉目标跟踪王光庭1罗冲2熊志伟1曾文军2中国科学技术大学1微软亚洲研究院2flylight@mail.ustc.edu.cncluo@microsoft.comzwxiong@ustc.edu.cnwezeng@microsoft.com摘要视觉目标跟踪面临的最大挑战是同时要求鲁棒性和识别能力。在本文中，我们提出了一个基于SiamFC的跟踪器，命名为SPM跟踪器，以解决这一挑战。其基本思想是在两个单独的匹配阶段解决这两个要求。在粗匹配（CM）阶段通过广义训练增强鲁棒性，而在细匹配（FM）阶段通过远程学习网络增强辨别力。这两个级串联连接，因为FM级的输入建议由CM级生成它们还并行连接，因为匹配分数和框位置细化被融合以生成最终结果。这种创新的串并联结构利用了两个级的本文提出的SPM-Tracker在GPU上以120 fps的速度运行，在OTB-100上实现了0.687的AUC，在VOT-16上实现了0.434的EAO，明显优于其他实时跟踪器。1. 介绍视觉目标跟踪是计算机视觉和视频分析的基础研究课题之一给定视频的第一帧中的目标对象的边界框视觉跟踪的最大挑战可以归因于对鲁棒性和辨别力的同时要求。鲁棒性要求要求跟踪器在目标的外观由于照明、运动、视角或物体变形而改变时不丢失跟踪同时，要求跟踪器具有将目标物体从杂乱的背景或类似的周围物体中区分出来的能力这两个要求有时是矛盾的，很难同时满足。直观地，两要求需要到处理这份工作是在王光庭在MSRA实习时完成的图1.在所提出的SPM跟踪器中，串并联结构连接粗匹配和精匹配阶段通过在线培训。跟踪器在跟踪过程中不断收集阳性和阴性样本。对于生成跟踪器，正样本有助于对目标的表观变化进行建模。对于区分性跟踪器，更多的正样本和负样本有助于找到将目标与背景分离的更精确的决策边界长期以来，在线训练一直是跟踪器设计中不可或缺的一部分。最近，随着深度学习和卷积神经网络的进步，深度特征已被广泛用于对象跟踪器[34，9，39，15，7，30]。然而，具有深度特征的在线训练非常耗时。毫无疑问，许多高性能跟踪器的深度版本[9，7，3，39，34，48，53]无法再实时运行，即使在现代GPU上也是如此。虽然过多的深度特征给在线训练带来了速度问题，但它们强大的代表性也为完全放弃在线训练提供了可能性这个想法是，在给定的距离测量下，通过离线训练学习嵌入空间，可以最大化不同对象之间的类间惯性，并最小化同一对象的类内惯性[58]。注意，最大化类间惯性对应于辨别力，最小化类内惯性对应于鲁棒性。沿着这条研究路线的除了离线训练之外，SiamFC还使用互相关操作来有效地测量目标补丁与所有周围补丁之间的距离。因此，SiamFC可以在GPU上以86fps的速度运行。通过设计，SiamFC框架面临着平衡鲁棒性和区分能力的挑战。CNN图像对+精匹配粗匹配3644嵌入和处理的规模和方面ra-目标对象的变化。最近，SiamRPN [26]被提出来解决第二个挑战。它由一个用于特征提取的连体子网络和一个用于相似性匹配和盒回归的区域建议子网络组成。在一项名为DaSiamRPN [58]的后续工作中，采用了干扰感知训练来提高嵌入的泛化和区分能力在这两项工作中，视觉对象跟踪被制定为一个局部的单次检测任务。在本文中，我们设计了一个两阶段的SiamFC为基础的网络的视觉目标跟踪，旨在解决上述两个这两个阶段是粗匹配（CM）阶段，其重点是增强鲁棒性和精匹配（FM）阶段，其重点是提高鉴别能力。通过分解这两个同样重要但有些矛盾的要求，我们提出的网络有望实现更好的性能。此外，CM和FM阶段都执行相似性匹配和边界框回归。由于采用了两阶段的盒子细化算法，我们的跟踪器无需多尺度测试就能达到很高的定位精度。这项工作的关键创新是用于连接两个阶段的串并联结构。示意图如图1所示。与两级目标检测中广泛采用的串联结构类似，第二FM级的输入依赖于第一CM级的输出。从这个意义上说，CM阶段是一个提案阶段。与并行结构类似，最终匹配分数以及框位置是来自两个阶段的融合结果。这种串并联结构带来了许多优点，将在第3节中详细介绍此外，我们提出了广义训练（其中来自同一类别的对象都被视为同一对象），以提高CM阶段的鲁棒性通过用远程学习子网络代替互相关层，有了这三个创新，所产生的跟踪器实现supere-rior性能的主要基准数据集。OTB-100的AUC为0.687，VOT-16和VOT-17的EAO分别为0.434和更重要的是，推理速度在NVIDIA P100 GPU上为120 fps。本文的其余部分组织如下。我们在第二节讨论相关的工作第3节介绍了拟议在第4节中描述了SPM跟踪器的实现细节之后，我们在第5节中提供了大量的实验结果最后，我们在第6节中进行了一些讨论。2. 相关工作对象跟踪器通常分为生成跟踪器和判别跟踪器[24]，大多数现代跟踪器属于后者。一个普通的AP-区别性跟踪器的方法是建立一个二进制分类器，它表示对象和其背景之间的决策边界[24]。一般认为，自适应判别跟踪器，在跟踪过程中不断更新分类器，比他们的静态同行更强大。基于相关滤波器（CF）的跟踪器是最成功和最有代表性的自适应鉴别跟踪器之一。Bolme等人 [4]首先提出了MOSSE滤波器，该滤波器能够从单个帧产生稳定的CF，然后在跟踪过程中不断改进。MOSSE滤波器已经引起了很大的兴趣，有一堆后续工作。例如，引入内核技巧[19，20，10]来扩展CF。DSST [10]和SAMF[27]使CF中的尺度估计成为可能。SRDCF [8]被提出来减轻卷积边界的周期性影响。最近，随着深度学习的进步，深度特征的丰富代表性力量被广泛认可。有一种趋势是在基于CF的跟踪器中利用深度特征[31，9，7，3]。然而，这造成了一个两难的局面：在线训练是基于CF的跟踪器不可或缺的一部分，但是具有深度特征的在线训练非常慢。在许多现实世界的应用中，实时性是跟踪器的必备条件。面对上述困境，许多研究人员采取了另一种选择：静态鉴别跟踪器。有了高表现力的深层特征，构建高性能的静态跟踪器成为可能. SiamFC成功地实现了这一想法[2]。SiamFC采用Siamese卷积神经网络（CNN）来提取特征，然后使用简单的互相关层在搜索区域中执行密集且高效的滑动窗口评估。与目标相同大小的每个块获得相似度分数，并且具有最高分数的块被识别为新的目标位置。还有大量的后续工作[15 ， 52 ， 49] ，其中 SA-Siam [17 ， 16] 和 SiamRPN[26，58]与我们的关系最密切。基于SiamFC的方法的主要挑战是通过离线训练找到一个既鲁棒又有区分力的嵌入空间。Zhu等人。[58]提出了分心物意识训练来强调这两个方面。该算法使用不同类别的正静态图像对来提高算法的鲁棒性，使用语义负静态图像对来提高算法的判别能力。然而，在单个网络中很难sa-Siam[17]和Siam-BM [16]采用双分支网络将图像编码到两个嵌入空间中，一个用于语义相似性（更鲁棒），另一个用于外观相似性（更具鉴别力）。这种典型的并行结构没有利用语义分支固有的提议能力3645FM评分CM评分模板框模板图像ConcatCM箱形三角形候选盒搜索区域图像FM箱形三角形Conv 2/4concatBox回归分支分类分支Box回归分支分类分支ROI对齐ROIAlignConv 2/4concat精细匹配阶段粗匹配阶段特征提取输入图像图2.拟议的串并联匹配框架的细节。我们使用Siamese AlexNet [25]进行特征提取。CM阶段采用SiamRPN的网络结构[26]。RoIAlign [18]用于为每个提案生成固定长度的区域特征。FM阶段实现了远程学习的关系网络[50]最后，将两个阶段的结果进行融合，以进行决策。基于SiamFC的方法的另一个挑战是如何处理规模和形状的变化。几乎所有基于SiamFC的跟踪器都采用笨拙的多尺度测试来进行尺度调整，但边界框的纵横比在整个跟踪过程中保持不变。SiamRPN [26]通过一个优雅的区域建议网络（RPN）解决了这个问题。进行盒细化的能力也允许它放弃多尺度测试。在这项工作中，我们遵循SiamRPN使用RPN进行边界框大小调整。两阶段的改进使我们的SPM跟踪器能够实现更精确的盒子位置。SiamRPN和DaSiamRPN [58]将跟踪问题视为局部单阶段对象检测问题。最近一些关于对象检测的实证研究[22]表明，两阶段设计通常比一阶段设计更强大。这可能与硬示例挖掘[28]和区域特征对齐[18]有关。在跟踪社区中，Zhang等人 [55]采用两阶段设计进行长期跟踪。然而，他们采用的系列结构需要一个非常强大的第二阶段。他们使用MD- Net [34]进行第二阶段，这大大降低了推理速度至2fps。3. 我们的方法3.1. 串并行匹配框架我们提出了一个框架，鲁棒性和歧视性的视觉对象跟踪。所提出的SPM框架如图2所示。我们用一个连体网络-从目标块和局部搜索区域中提取特征。这之后是两个匹配阶段，即粗匹配阶段和细匹配阶段，以串并联结构组织。CM和FM阶段都产生提案的相似性得分和框位置增量。我们让CM阶段专注于鲁棒性，即以最小化同一物体的组内惯性。即使目标对象正在经历巨大的外观变化，也有望提出目标对象。然后将在CM阶段获得最高匹配分数的许多提案传递到FM阶段，并通过RoI Align[18]提取固定大小的区域特征。FM阶段的设计重点在于区分，即：以最大化不同对象之间的类间惯性。期望能将真实目标与背景或周围相似目标区分开。最后，融合来自两个匹配阶段的匹配分数和框位置以做出最终决策。拟议的SPM框架带来了一些优势，如下所述。• 鲁棒性和歧视的要求被分解，并强调在不同的阶段。它训练两个网络以实现它们各自的目标比训练同时实现两个要求的目标的单个网络• FM阶段的输入提案都是来自CM阶段的高分候选。FM舞台训练本-均衡正负比和硬负挖掘有利于提高鉴别力。3646图3. CM阶段的广义训练（GT）策略说明。给定左侧所示的模板，搜索图像1中的绿色块表示常规训练中使用的阳性样本。红色块是同一类别的其他对象的位置。GT将绿色和红色块作为阳性样本。（蓝色块表示忽略的区域。）最好用彩色观看。图4.由SiamFC [2]、SiamRPN [26]和跟踪器的CM阶段生成的互相关响应图的可视化我们的跟踪器可以鲁棒地突出目标对象，即使它有严重的变形。最好用彩色观看。• CM阶段中的框回归允许FM阶段评估与目标对象具有不同尺度或甚至不同纵横比的对齐的块融合两阶段箱回归导致更高的精度。• 由于只有少数建议被传递到FM阶段，因此没有必要使用互相关运算来计算距离。我们可以采用可训练的距离为FM舞台量身打造。在下面的两个小节中，我们将更详细地讨论3.2. 粗匹配阶段粗匹配阶段在搜索区域中寻找与目标块相似的候选块它被期望是非常鲁棒的，使得即使当目标对象由于内在或外在因素而经历剧烈的外观变化时，目标对象也不会我们在此阶段采用SiamRPN[26]中介绍的区域建议子网给定由Siamese网络提取的特征，为分类分支和回归分支计算成对相关特征图。分类分支产生候选框的相似性得分，而回归分支产生候选框的相似性得分。图5.SiamFC [2]、SiamRPN [26]和我们的SPM- Tracker输出的前K个匹配框及其相似性评分的可视化我们的跟踪器生成两个分数，分别对应于CM阶段（C）和FM阶段（F）。同一类别的对象得到高C-分数，但只有真正的目标得到高F-分数。结果表明，SPM-Tracker达到了设计目标。方块三角形。与SiamRPN类似，我们可以放弃多尺度测试，因为建议的网络以优雅的方式处理尺度和形状变化。对于CM阶段，我们提出了广义训练（GT），以提高鲁棒性。传统上，从视频的两个帧中提取的相同对象的图像对被用作正样本。在DaSiamRPN [58]中，来自检测数据集的静止图像用于通过数据增强生成正图像对。在这项工作中，我们另外处理一些图像对包含不同的对象作为阳性样本时，这两个对象属于同一类别。图3说明了我们的CM阶段和其他基于SiamFC的跟踪器中使用的分类标签。这种训练策略导致了非常普遍的嵌入，这些嵌入捕获了高级语义信息，因此对对象外观的变化不敏感。图4显示了CM阶段的反应图，并将其与SiamFC和SiamRPN（具有分心物感知训练）的反应图进行了比较据观察，我们的跟踪器是能够产生强烈的反应，即使目标物体有显着的变形。相比之下，SiamRPN [26，58]几乎不产生任何反应，SiamFC没有精确的定位。3.3. 精细匹配阶段精细匹配阶段期望捕获细粒度的外观信息，使得真实目标可以与背景或类似的周围对象区分开。FM阶段仅评估来自CM阶段的前K个如示于图2、FM阶段与CM阶段具有相同的特征对于每个建议，区域特征直接从共享特征图中裁剪。考虑到浅层特征包含了细节的外观信息，同时又具有较高的定位精度，我们将深层特征和浅层特征进行拼接融合然后，RoI Align操作[18]创建3647每个提案都有固定大小的特征图。由于在这个阶段只有有限数量的补丁进行评估，我们可以使用一个更强大的远程学习网络，而不是互相关层，来衡量相似性。另外，可以训练这样的网络以生成CM相似性分数的补充分数对于FM阶段，我们采用了[50]中提出的轻量级关系网络。关系网络的输入是来自图像对。一个1×1卷积层后面是两个全连接层，它们生成特征嵌入用于分类和箱回归。最后，通过加权和融合两个阶段的相似度和盒增量具有最高相似性得分的候选框被识别为目标对象。图5示出了由不同跟踪器输出的我们的跟踪器与对应于CM和FM阶段的两个分数相所有前景物体的高C分数表明SPM跟踪器的鲁棒性，而非目标物体的低F分数表明了辨别能力。4. 执行4.1. 网络结构和参数用于特征提取的CNN主干是标准的AlexNet [25]。它在 ImageNet 数据集上进行了预训练。与其他基于SiameFC的跟踪器不同，我们将填充操作保留在骨干网络中。这是因为RoI Align操作需要特征图和源图像之间的像素对齐。CM阶段仍然使用没有填充的中心特征在我们的简单-分割，目标图像的大小为127×127×3。其最后一个卷积层特征图的大小为 16×16×256 。只有中央的6×6×256特征被用于CM阶段，这与原始特征一致暹罗足球俱乐部FM阶段从conv2（384通道）和conv4（256通道）层中提取区域特征，并将它们连接起来。我们使用RoI Align操作为每个建议池大小为6×6×640的区域特征，其中6×6是空间大小，640是改变的数量nels。FM级中的两个全连接层是重量轻，每层只有256个神经元。4.2. 培训整个网络可以进行端到端的训练。总损失函数由四部分组成：分类损失和箱回归损失在CM阶段和FM阶段。对于 CM 阶段，当锚框与地面实况框的交并（IoU）重叠大于0.6（或小于0.3）时，锚框被分配正（或负）标签。IoU重叠落在其间的其他补丁被忽略。对于FM阶段，正（或负）tive）标签被分配给IoU重叠大于（或小于）0.5的候选框与Faster R-CNN对象检测框架[37]中相同，在两个阶段中都将框回归损失添加到正样本中我们采用交叉熵损失进行分类，采用平滑L1损失[14]进行箱回归。总损失函数可以写为：L=λ1Lcm cls+λ2Lcm b+λ3Lfm cls+λ4Lfm b，（1）其中Lcls表示分类损失，Lb表示盒回归损失。由于CM模块的箱回归损失比其他模块小得多，我们设置λ2=2和λ1=λ3=λ4=1训练图像对是从视频和静止图像中提取的。视频数据集包括VID [38]和Youtube-BB的训练集[35]。继DaSi-amRPN [58]之后，我们还使用了静态图像数据集，包括COCO [29]，ImageNet DET [38]，Cityperson[56]和WiderFace [51]。视频和静止图像之间的采样比为4：1。有三种类型的IM-年龄对，由相同实例、相同类别和不同类别表示。它们以2：1：1的比例取样。采用标准SGD优化器进行训练。在每一步中，CM阶段产生数百个候选框，其中48个框被选择用于训练FM阶段正负比设置为1：1。学习率从10−2降低到10−4。我们对网络进行了50个时期的训练，并对160，000个图像对进行了采样。每个时代4.3. 推理在推理过程中，我们从第一帧中裁剪模板图像块并将其馈送到特征提取网络。模板特征被缓存，这样我们就不需要在后续帧中计算它。给定最后一帧中的跟踪框，框位置周围的搜索图像块被裁剪并调整大小为271×271。CM阶段将搜索图像作为输入，然后输出多个框。中与跟踪框重叠最大的候选框将保留前一帧以增加稳定性。其他框通过RPN中的标准提案首先，过滤具有低分数的框。然后应用非最大抑制（NMS）。NMS阈值为0.5。最后，选择具有最高分数的K个候选框并将其传递到FM阶段。在这一步中，我们不添加形状惩罚或余弦窗口惩罚，以积极地提出框。将罐头盒的数量K设置为9，这将在第5.2节中进一步分析。我们使用五个锚点，其纵横比为[0]。33，0。五一0，2。0，3。0]。在FM阶段，相似性得分和细化框po-位置由分类头和箱回归头预测。设uc，uf为CM3648OTB-100AUCVOT-17EAOVOT-16EAOS-P模型0.6700.3230.391S-P型号+GT0.6870.3380.434表1.不同架构的消融分析。三个基准数据集上的结果是一致的，它们证明了表2. CM阶段的广义训练（GT）显著提高了性能。1.0串并联结构的优越性。和FM阶段。令Bc、Bf为调整CM和FM级之后的边界框位置分别最终得分和框坐标是来自两个模块的结果的加权和：0.680.670.660.65246810120.80.60.40.20.00.50.60.70.80.91.0u=（1−WCLS）uc+Wclsuf候选箱（一）重叠阈值（b）第（1）款B=ucBc+Wbox ufBf，（2）图6. CM模块分析：（a）AUC评分与数量可以-Wboxu f+u cWboxuf+uc双日期盒;（b）召回率与重叠阈值（其中，Wcls、Wbox是FM模块对于相似性分数和框坐标的权重。我们发现，良好的跟踪结果通常是实现时，Wcls采取一个值左右0.5Wbox的值为2或3。在应用余弦窗口[2]之后，选择具有最高分数的候选框，并通过线性插值使用前一帧中的结果更新其大小。我们的跟踪器可以使用单个NVIDIA P100 GPU和Intel Xeon E5-2690 CPU以120 fps的速度运行推理。5. 实验这项工作的三个主要贡献是：1）采用串并联结构连接两个匹配级;2)CM阶段采用广义训练; FM阶段采用关系网络进行距离测量。在本节中，我们将首先进行消融分析，以支持我们的贡献，然后在主要基准数据集上与最先进的跟踪器进行比较研究。5.1. 串并联结构我们证实了串并联结构的有效性，通过比较它与两个替代方案。表1中以“仅CM”表示的基线方案我们的实现实现比他们原始论文中报告的性能稍好（在VOT-17基准测试中为0.279 vs0.244），因为我们在训练中包含了额外的静态图像当串联添加FM级时，性能（在表1中由“CM+FM系列”表示）与基线相似（在VOT-17上更好，在OTB-100和VOT-16上更如表1所示，所提出的融合发挥重要作用的原因是这两个阶段关注跟踪器功能的不同方面：鲁棒性括号表示超过阈值0.5：0.05：0.7的平均召回）。所有实验都是在OTB-100数据集上进行的。在CM阶段和在FM阶段的鉴别功率。由一个阶段产生的匹配分数并不反映另一个能力。融合的思想已经在许多跟踪器中实践[47，13，6，17]，并已显示出有效性。5.2. CM阶段通用培训策略：为了使CM模块对对象外观变化更鲁棒，我们建议在训练期间将同一类别中的图像对作为正样本。这被称为广义训练（GT）策略。我们比较了SPM跟踪器在CM阶段使用或不使用GT策略进行训练时的性能。如表2所示，在所有三个基准数据集上实现的改进证实了该策略的有效性。一些可视化结果已经在图中呈现。图4显示GT策略有助于定位具有大变形的物体。候选箱数量：在推断期间，CM阶段将K个得分最高的候选框传递到FM阶段。一方面，K值越大，真实目标被包含在最终评价中的概率越高另一方面，较大的K意味着在FM阶段将评估更多的假阳性，这降低了速度，也可能降低准确性为了确定K，我们研究了跟踪性能与候选框数量之间的关系图6（a）显示了OTB-100的AUC如何随K变化。我们发现，当K大于7，性能趋于平坦。因此，我们在实验中选择K=9召回：候选框的召回可以用来衡量鲁棒性。我们使用召回来进一步验证GT策略和CM阶段的K选择确保公平地，我们从第一帧中裁剪模板，并且根据当前帧中的搜索区域生成SPM跟踪器，不带GTSPM跟踪器美国-[0.825][0.877]美国经济美国-[0.888]美国-[0.893][0.895] 2016年10月15日9候选人+GT-[0.901]OTB-100的AUC评分召回CM只CM+FM系列CM+FM串并联OTB-100（AUC）0.6430.6320.670VOT-17（EAO）0.2790.2960.323364910.90.80.70.60.50.40.30.20.10OPE − OTB10010.90.80.70.60.50.40.30.20.10OPE − OTB 1000 0.2 0.4 0.6 0.81重叠阈值0 10 20 30 40 50定位误差门限表3.与OTB数据集上最先进的实时跟踪器进行比较。跟踪器分为基于CF的方法、基于SiamFC的方法和其他方法。红色和蓝色的数字分别是最好和第二好的结果图7. OTB-100上的成功图和精度图AUC为0.687。该实验表明，FM阶段受益于多层特征融合。用关系网络取代互相关层：有助于SiamFC跟踪器实现高效率的一项重要创新是互相关层其在搜索区域中实现密集且有效的滑动窗口几乎所有基于SiamFC的跟踪器都遵循这种用法。我们还在CM阶段使用互相关层进行相似性匹配和框回归。但是在FM阶段，散布在搜索区域中的候选日期框使用互相关运算没有太大的因此，我们用更强大的关系网络代替互相关层，如[50]所述。实验结果验证了我们的设计选择。当在没有GT策略的情况下训练模型时，在FM阶段中使用互相关层导致OTB-100上的AUC为0.647，这略优于单阶段基线SiamRPN到前一帧的地面实况框。图6（b）示出了召回与重叠阈值重叠阈值的平均召回率[0. 5，0。[7]也计算并在括号中列出。很明显，使用单个候选框的召回率明显低于使用多个候选框的召回率。didates随着候选框的数量增加，召回率也会在K=9左右饱和之前增加。在饱和点，应用GT策略仍然可以提高召回率。这一双重成就证实了GT战略的强大。5.3. FM舞台多层特征融合：FM阶段将从共享骨干网络裁剪的区域特征作为输入。一般而言，深层特征富含高层语义信息，而浅层特征富含低层外观信息。正如许多以前的作品[43，45，39，3]所建议的那样，可以融合多层特征以实现更好的性能。我们遵循这种常见的做法，并使用FM阶段的conv2+conv4特性。为了证明多层特征融合的优势，我们比较了SPM跟踪器的性能与替代实现，只使用单层fea- tures。我们只训练和测试使用conv2、conv3或conv4的模型。在OTB-100基准测试中，这三个模型的AUC得分分别为0.666、0.675和0.676，而我们使用conv 2+conv 4的最终模型的AUC得分分别为0.666、0.675和0.676。（ 0.643 ），但明显低于基于关系网络的模型（0.670）。此外，当采用GT时，基于互相关的模型的AUC得分为0.655，而基于关系网络的模型的AUC得分为0.687。5.4. 与艺术对OTB的评价：我们的SPM跟踪器首次与最先进的实时跟踪器在OTB 2013/50/100基准上兼容。详细AUC评分总结见表3。由于篇幅所限，我们仅在图中显示了OTB-100上一次评估（OPE）的成功图和精度图。7.SPM跟踪器在所有三个OTB基准测试中的表现都远远优于其他实时跟踪器。我们还将SPM跟踪器与一些非实时性能最佳的跟踪器进行了比较，包括C-COT [9]，ECO [7]，MDNet[34] ， ADNet [54] ， TCCN [33] ， LSART [41] ， VI-TAL [40]，RTINet [53]和DRL-IS [36]。AUC评分与OTB-100上的速度曲线如图所示。8. SPM- Tracker在跟踪精度和推理速度之间取得了很好的平衡。VOT评价：SPM-Tracker在两个VOT基准数据集VOT-16和VOT-17上进行了评估。表4显示了与几乎所有性能最好的跟踪器的比较，尽管它们的速度。在实时跟踪中-因此，SPM-Tracker是迄今为止性能最好的一种，我们的[0.687]泰国-BM [0.662]SA-SIAM [0.656]ECO−hc [0.643]SiamRPN [0.637]PTAV [0.635]DasiamRPN [0.658]SiamFc −3s [0.582]吻合钉[0.578]成功率我们的[0.899]DasiamRPN [0.880]SA-SIAM [0.864]ECO−hc[0.856]暹罗-BM [0.855]SiamRPN [0.851]PTAV [0.849]吻合钉[0.784]SiamFc−3s [0.771]跟踪器AUCOTB-2013评分（OPE）OTB-100速度（FPS）基于CF的跟踪器LCT [32]0.6280.4920.56827缝钉[1]0.5930.5160.58280LMCF [46]0.6280.5330.58085CFNet [44]0.6110.5300.56875BACF [12]0.6560.5700.62135ECO-hc [7]0.6520.5920.64360MKCF up [42]0.641--150MCCT-H [48]0.664-0.64245基于SiamFC的跟踪器SiamFC [2]0.6070.5160.58286DSiamM [15]0.656--25RASNet [49]0.670-0.64283SiamRPN [26]0.6580.5920.637200[17]第十七话0.6770.6100.65750[第57话]0.637-0.62145[52]第五十二话0.642-0.62650[58]第五十八话0.6560.6020.658160泰国[16]0.6840.6170.66248Misc.东[21]0.638-0.629159PTAV [11]0.6630.5810.63525ACT [5]0.657-0.62530[23]第二十三话--0.65046我们0.6930.6530.687120精度3650我们实时边界0.700.690.680.670.660.650.640.630 1 3 10 31 100 316速度（FPS）图8.在OTB-100基准测试中性能最佳的跟踪器的性能-速度权衡。速度轴是对数的。跟踪器一VOT-16R EAO一VOT-17R EAOFPS嵴0.510.250.283---1MDNet0.540.340.257---1C-COT0.540.240.331---0.3LSART---0.490.220.3231ECO0.550.200.3750.480.270.2808UPDT---0.530.180.378-SiamFC0.530.460.2350.500.590.18886钉0.540.380.2950.520.690.16980ECO-hc0.540.300.3220.490.440.23860sa-Siam0.54-0.2910.500.460.23650暹罗-BM---0.560.260.33532SiamRPN0.560.260.3440.490.460.244200DaSiamRPN0.610.220.4110.560.340.326160我们0.620.210.4340.580.300.338120表4.在VOT基准上与最先进的跟踪器进行比较包括非实时方法（顶行）和实时方法（底行） EAO是Expected AverageOverlap的缩写。红色和蓝色的数字表示最佳和次佳结果。精度和EAO。即使与非实时跟踪器相比，SPM跟踪器也达到了最佳精度，EAO性能也是最好的。排除额外数据：与DaSiamRPN [58]相比，我们的跟踪器在训练中多使用了两个数据集（Cityperson [56]和WiderFace [51]）。为了公平比较，我们还训练了一个排除这两个数据集的模型OTB-100的AUC略微下降至0.671，但仍优于DaSiamRPN和Siam-BM。VOT-16上的EAO变为0.432，而在VOT-17上略微增加至0.347。5.5. 定性结果成功案例：在图9中，我们可视化了三个成功的跟踪案例，包括非常具有挑战性的跳跃和潜水序列。由于CM阶段的鲁棒性，我们的区域建议分支允许SPM跟踪器适应不同的对象形状。在这两个序列中，一些最好的跟踪器，如ECO [7]和MDNet [34]也失败了。图9.来自OTB-100的三个成功跟踪序列的可视化。图10.故障案例的可视化绿框是地面实况，红框是我们的跟踪结果.DaSiamRPN [58]几乎不遵循目标，但框位置不太精确。这证明了我们的两阶段框细化的优势失效案例：我们观察到两种类型的故障在SPM跟踪器，如图所示。10.在walking2和liquor序列中，当目标被类似物体遮挡时，跟踪框可能漂移。另一种类型的失败发生在地面实况目标只是对象的一部分时，如序列bird1和dog。SPM-Tracker似乎有很强的对象性，即使模板只包含一部分，它也倾向于跟踪整个对象。6. 结论我们提出了一种静态判别式跟踪器的设计与实现，称为SPM跟踪器。SPM跟踪器采用了一种新颖的串并联结构进行两级匹配。OTB和VOT基准测试结果表明，该算法具有良好的在未来，我们计划探索当目标被类似物体遮挡时漂移问题的解决方案。可能的选择包括模板更新和前后向验证。我们相信串并联匹配框架具有很大的潜力，值得进一步研究。确认我们感谢中国国家重点研发项目2017YFA0700800的资助。MDNetECOC-COTADNetTCNNLSARTDRL-ISRTINetVITALDaSiamRPNSiamRPNSA-SiamSiamBMRASNetPTAVRT-MDNetMCCT-HECO-hcOTB-100的AUC3651引用[1] Luca Bertinetto 、 Jack Valmadre 、 Stuart Golodetz 、Ondrej Miksik和Philip HS Torr。Staple：用于实时跟踪的补充在CVPR，第1401-1409页[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV，第850-865页，2016年。[3] Goutam Bhat、Joakim Johnander、Martin Danelljan、Fa-had Shahbaz Khan和Michael Felsberg。揭示深度追踪的力量。在ECCV，2018。[4] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。在CVPR，第2544-2550页[5] Boyu Chen，Dong Wang，Peixia Li，Shuang Wang，and Huchuan Lu.实时演员评论跟踪。在ECCV中，第328-345页[6] 陈大鹏，袁泽健，华刚，吴扬，郑楠宁.描述-鉴别协同跟踪。在ECCV，第345-360页[7] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，Michael Felsberg，et al. ECO：用于跟踪的高效卷积运算器。在CVPR中，第6931-6939页[8] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。学习空间正则相关滤波器的视觉跟踪。在ICCV，第4310-4318页[9] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。在ECCV，第472-488页[10] Martin Danelljan ， Fahad Shahbaz Khan ， MichaelFelsberg，and Joost Van de Weijer.用于实时视觉跟踪的自适应颜色属性。在CVPR，第1090-1097页[11] 范恒和凌海滨。并行跟踪验证：一个实时和高精度视觉跟踪的框架。在ICCV，第5487-5495页[12] H Kiani Galoogahi，Ashton Fagg，and Simon Lucey.用于视觉跟踪的学习背景感知相关滤波器。在CVPR中，第1144-1152页[13] Jin Gao，Haibin Ling，Weiming Hu，and Junliang Xing.基于迁移学习的高斯过程回归视觉跟踪。在ECCV，第188-203页[14] 罗斯·格希克。快速R-CNN。在ICCV，第1440-1448页，2015中。[15] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。在ICCV，第1763-1771页[16] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.为了更好地匹配基于暹罗网络的视觉目标跟踪器。在ECCV研讨会，2018。[17] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。在CVPR中，第4834-4843页[18] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面具R-CNN。在ICCV，第2980-2988页[19] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.利用核函数的检测跟踪的循环结构。在ECCV，第702-715页[20] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista. 用核相关滤波器进行高速跟踪。 T-PAMI，37（3）：583[21] 陈煌，西蒙·露西，德瓦·拉曼南。深度特征级联自适应跟踪的学习策略。在ICCV，第105-114页[22] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu ， AnoopKorattikara ， Alireza Fathi， Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.现代卷积对象检测器的速度/精度权衡。在CVPR中，第7310-7311页[23] Ilchae Jung 、 Jeany Son 、 Mooyeol Baek 和 BohyungHan。实时mdnet。在ECCV，第83-98页[24] Zdenek Kal

下载后可阅读完整内容，剩余1页未读，立即下载