ATOM：提高跟踪精度的新方法

200 浏览量更新于2023-10-18 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4660ATOM：通过重叠最大化进行Martin Danelljan1，1，2Goutam Bhat1，1，2Fahad Shahbaz Khan1，3Michael Felsberg11CVL，Linko？ pingUni versity，Sweden2CVL，ETHZ？rich，Switzerland3InceptionInstituteofArtificialIntelligence，UAE摘要虽然近年来在视觉跟踪鲁棒性方面取得了惊人的进步，但跟踪精度的进步却受到限制。由于焦点已定向到强大的分类器的发展，准确的目标状态估计的问题已在很大程度上被忽视。事实上，大多数跟踪器求助于简单的我们认为，这种方法从根本上是有限的，因为目标估计是一项复杂的任务，需要高层次的知识对象。我们解决这个问题，提出了一种新的跟踪体系结构，包括专用的目标估计和分类组件。高级知识在-ATOMDaSiamRPNUPDT通过广泛的离线学习将其结合到目标估计中。我们的目标估计组件被训练来预测目标对象和估计的边界框之间的重叠。通过仔细整合特定目标的信息，我们的方法实现了以前看不到的边界框精度。我们进一步引入了一个分类组件，它是在线训练的，以保证在干扰物存在的情况下具有高的辨别力。我们的最终跟踪框架在五个具有挑战性的基准上设置了一个新的最先进的。在新的大规模TrackingNet数据集上，我们的跟踪器ATOM比以前的最佳方法实现了15%的相对增益，同时运行速度超过 30FPS 。代码和型号可在https://github.com/visionml/pytracking上获得。1. 介绍通用在线视觉跟踪是一个困难和不适定的问题。跟踪方法必须基于最小的监督在线学习目标的外观模型，通常是视频中的单个起始帧。然后，该模型需要推广到目标外观的不可见方面，包括不同的姿势、视角、闪电条件等。跟踪问题可以分解为*两位作者的贡献相等。图1.将我们的方法与最先进的跟踪器进行比较基于相关性滤波器的RECT [3]缺乏显式目标状态估计组件，而是执行蛮力多尺度搜索因此，它不处理纵横比变化，这可能导致跟踪失败（第二行）。DaSi-amRPN [39]采用边界框回归策略来估计目标状态，但在平面外旋转、变形等情况下仍存在困难。我们的方法ATOM，采用重叠预测网络，成功地处理这些挑战，并提供准确的边界框预测。分类任务和估计任务。在前一种情况下，目标是通过将图像区域分类为前地和背景来鲁棒地提供图像中然后，第二个任务是估计目标状态，通常由边界框表示。近年来，跟踪研究的重点一直是目标分类。很多注意力已经投入到构建鲁棒的分类器，例如基于。过滤器[6，22，31]，并利用强大的深度特征表示[3，34]来完成这项任务。另一方面，目标估算的进展低于这种趋势在最近的VOT2018挑战赛[17]中清楚地观察到，KCF [13]和MEEM [37]等较老的跟踪器仍然获得了具有竞争力的准确性，但鲁棒性却大大事实上，大多数当前最先进的跟踪器[3，4，31]仍然依赖于通过执行多尺度搜索来进行目标估计怎么-4661然而，由于边界框估计本质上是一项具有挑战性的任务，需要对对象姿态的高级理解在这项工作中，我们着手弥合目标分类和估计之间的性能差距，在视觉对象跟踪。我们介绍了一种新的跟踪架构consisting的两个组件专为目标估计和分类。受最近提出的IoU-Net[15]的启发，我们训练目标估计组件来预测交集与并集（IoU）重叠，即目标和估计的边界框之间的Jaccard指数[14]。由于原始的IoU-Net是类特定的，因此不适合通用跟踪，我们提出了一种新的架构，用于将目标特定的信息集成到IoU预测中。我们通过引入一个基于调制的网络组件来实现这一点这进一步使我们的目标估计组件能够在大规模数据集上进行离线训练。在跟踪期间，通过简单地最大化每个帧中的预测IoU重叠来找到目标边界框。为了开发一种无缝和透明的跟踪方法，我们还重新审视了目标分类的问题，以避免不必要的复杂性。我们的目标分类组件简单而强大，由一个两层全卷积网络头组成。与我们的目标估计模块不同，分类组件是在线训练的，对场景中的干扰对象具有很高的鲁棒性。为了确保实时性能，我们解决了有效的在线优化问题，梯度下降不足。相反，我们采用了基于共轭梯度的策略，并演示了如何在现代深度学习框架中轻松实现它。我们的最终跟踪循环是简单的，交替之间的目标分类，估计和模型更新。我们对五个挑战性基准进行了全面的实验：2018年10月19日，《明史》卷123，《明史》卷124，《明史》卷125，《明史》卷126，《明史》卷127，《明史》卷128，《明史》卷129，《明史》我们的跟踪方法在所有五个数据集上都是最先进的，在具有挑战性的LaSOT数据集上实现了10%此外，我们还提供了对跟踪器的分析，以及用于重叠预测的不同网络架构。2. 相关工作在视觉跟踪的背景下，将目标分类和目标估计区分为两个独立但相关的子任务通常是有意义的。目标分类基本上旨在确定目标对象在特定图像位置处的存在然而，仅获得关于目标状态的部分信息，例如，它的图像坐标。目标估计的目的是找到完整的状态。在视觉跟踪中，目标状态通常是代表性的。由边界框表示，轴对齐[9，35]或旋转[17]。然后，状态估计减少到找到最好地描述当前帧中的目标的图像边界框在最简单的情况下，目标是刚性的，并且仅平行于相机平面移动。在这种情况下，目标估计减少到找到目标的2D图像位置，因此不需要与目标分类分开考虑。然而，在一般情况下，物体可能会经历激进的姿态和观点的变化，大大复杂的边界框估计的任务。在过去的几年中，目标分类的挑战已经通过在线有区别地训练强大的分类器成功地解决了[6，13，26]。特别是基于相关性的跟踪器[7，13，23]已经获得了广泛的普及。这些方法依赖于由离散傅立叶变换给出的循环卷积的对角化变换，以执行有效的全卷积训练和推理。相关滤波器方法通常通过在密集的2D网格中计算可靠的置信度分数来进行目标分类另一方面，精确的目标估计长期以来一直回避这种方法。即使找到一个单参数比例因子也是一个巨大的挑战[5，20]，大多数方法都采用了具有明显计算影响的蛮力多尺度检测策略因此，默认方法是单独应用分类器来执行完整的状态估计。然而，目标分类器对目标状态的所有方面都不敏感，例如，目标的宽度和高度。事实上，对目标状态的某些方面的不变性通常被认为是判别模型的一个有价值的属性，以提高鲁棒性[2，3，26]。我们不依赖于分类器，而是学习一个专用的目标估计组件。准确估计对象的边界框是一项复杂的任务，需要高级先验知识。边界框取决于对象的姿态和视点，其不能被建模为简单的图像变换（例如，均匀的图像缩放）。因此，从零开始在线学习准确的目标估计是非常具有挑战性的，如果不是不可能的话。因此，文献中的许多最新方法以大量离线学习的形式整合了先验知识[18，26，39]。特别是，由于广泛的离线训练，SiamRPN [18]及其扩展[39然而，这些暹罗跟踪方法往往在目标分类的问题上挣扎。与例如基于相关性的方法不同，大多数暹罗跟踪器不明确地考虑干扰物，因为不执行在线学习。虽然这个问题已经通过简单的模板更新技术得到了部分解决[39]，但它还没有达到强大的在线学习模型的水平。与Siamese方法相比，我们在线学习分类模型，同时还利用广泛的离线训练进行目标估计任务。4662∈∈3. 该方法在这项工作中，我们提出了一种新的跟踪方法，包括两个组件：1）离线学习的目标估计模块;以及2）在线学习的目标分类模块。也就是说，遵循目标检测的现代趋势[27，28]，我们将目标分类和估计的子问题然而，这两个任务都集成在一个统一的多任务网络架构中，如图2所示。我们采用相同的骨干网络的目标分类和估计任务。为了简单起见，我们使用了一个在ImageNet上训练的ResNet-18模型，并在这项工作中对主干进行了微调。目标估计由IoU预测器网络执行该网络在大规模视频跟踪和对象检测数据集上进行离线训练，其权重在在线跟踪期间被冻结。IoU预测器需要四个输入：i）来自当前帧的主干特征，ii）当前帧中的边界框估计，iii）来自参考帧的主干特征，iv）参考帧中的目标边界框然后，它为每个当前帧边界框估计输出预测的并集相交（IoU）分数。在跟踪期间，通过使用梯度上升最大化IoU得分来获得最终边界框。目标估计组件详见第3.1节。目标分类由另一个网络头执行。与目标估计组件不同，分类网络完全在在线跟踪过程中学习。它被专门训练为通过基于从当前帧中提取的主干特征预测目标置信度得分来将目标与场景中的其他对象区分开。训练和预测都以完全卷积的方式执行，以确保效率和覆盖率。然而，用传统的方法（如随机梯度下降）在线训练这样的网络对于我们的在线目的来说是次优的。因此，我们建议使用基于共轭梯度和高斯-牛顿的优化策略，以实现快速在线训练。此外，我们还演示了如何通过利用反向传播功能在常见的深度学习框架（如PyTorch）中轻松实现这种方法我们的目标分类方法在第3.2节中描述，我们的最终跟踪框架在第3.3节中详述。3.1. 重叠最大化目标估计在本节中，我们将详细介绍如何执行目标状态估计。我们的状态估计组件的目的是确定给定粗略初始估计的目标边界框。我们从IoU-Net [15]中获得灵感，IoU-Net最近被提出用于对象检测，作为典型的基于锚的边界框回归技术的替代方案。与传统方法相比，IoU-Net被训练为预测图像对象和图像对象之间的IoU地面实况BB预训练线下ResNet-18IoU调制在线参考图像BB估计数调制矢量0.72IoU预测器0.770.61IOUResNet-18分类器测试图像信心图2.我们的视觉跟踪网络架构概述。我们将两个模块添加到预训练的ResNet-18骨干网络（橙色）。目标估计模块（蓝色）在大规模数据集上进行离线训练，以预测IoU与目标的重叠。使用参考帧和初始目标框，计算携带目标特定外观信息的调制矢量IoU预测器组件然后接收测试帧中的特征和提议边界框以及前述调制向量。它估计每个输入框的IoU。目标分类模块（绿色）经过在线训练，以完全卷积的方式输出目标置信度输入边界框候选。然后通过最大化IoU预测来执行边界框估计。为了描述我们的目标估计组件，我们首先简要回顾IoU-Net模型。给定图像的深度特征表示xRW×H ×D和图像对象的边界框估计BR4，IoU-Net预测B和对象之间的IoU 这里B被参数化为B =（cx/w，cy/h，log w，log h），其中（cx，cy）是边界框中心的图像坐标。该网络使用精确ROI池（PrPool）[15]层来池由B给定的x中的区域，从而产生预定大小的特征图xB。从本质上讲，PrPool是自适应平均池的连续变体，其关键优势是可区分的w.r.t. 边界框坐标B.这允许通过最大化IoU w.r.t.B通过梯度上升。网络架构：对于对象检测的任务，在[15]中为每个对象类训练独立的IoU-Net。然而，在跟踪目标类一般是未知的.此外，与对象检测不同，目标不需要属于任何预定义类集合或在任何现有训练数据集中表示。因此，类特定的IoU预测器对于通用视觉跟踪几乎没有用处相反，需要通过利用第一帧中的目标注释来进行目标特定的IoU预测由于IoU预测任务的高级性质，在单个帧上在线训练甚至微调IoU-Net是不可行的因此，我们认为目标估计网络需要离线训练，以学习IoU预测的一般表示。在视觉跟踪的上下文中，其中目标对象4663× ×××参考分支ConvFC3x3地面实况BB调制矢量ResNet-18区块1-3ResNetBlock 4FCPrPool1x1ConvConcatenateFC测试分支FC转换转换5x5BB估计ResNet-181-3区ResNetBlock 43x3FCFCIOUConcatenate转换转换特征调制PrPoolPrPoolPrPool图3.我们的目标估计网络的完整架构。从测试图像中提取的ResNet-18Block 3和Block 4特征首先通过两个Conv层。然后使用PrPool层将由输入边界框定义的区域合并为固定大小池化特征通过与由参考分支返回的系数向量的逐通道乘法来调制然后，这些特征通过完全连接的层来预测IoU。所有Conv和FC层后面都是BatchNorm和ReLU。是未知的，因此，挑战是构建一个IoU预测架构，有效地利用在测试时给出的参考目标外观。我们的初始实验表明，将参考图像特征与当前帧特征融合的简单方法性能较差（见第4.1节）。我们还发现暹罗架构提供次优的结果。在这然后通过逐通道乘法由系数向量c调制这为IoU预测创建了调制的表示最终被馈送到IoU预测器模块g，由三个完全连接的层组成因此，边界框B的预测IoU由下式给出：工作，因此，我们提出了一个基于调制的网络体系结构，预测给定任意对象的IoU.ΣIoU（B）=gc（x0，B0）·z（x，B）.（一）只有一个参考图像。所提出的网络在图3中可视化。我们的网络有两个分支，它们都将ResNet-18Block 3和Block 4的主干功能作为输入。参考分支输入特征x0和参考图像中的目标边界框注释B0。它返回调制向量c（x0，B0），由大小为11Dz的正系数组成。如图3所示，该分支由卷积层、PrPool和全连接层组成。当前图像，我们想在其中估计目标边界框，通过测试分支进行处理。它首先通过将骨干特征x馈送到两个卷积层来提取深度表示，然后是具有边界框估计B的PrPool。由于测试分支提取了IoU预测的一般特征，这构成了一个更复杂的任务，与参考分支相比，它采用了更多的层和更高的池化分辨率（见图3）。得到的表示z（x，B）的大小为K K Dz，其中K是PrPool层的空间输出大小。的计算特征表示为了训练网络，我们在给定注释数据的情况下，最小化（1）在跟踪过程中，我们最大化（1）w.r.t. B估计目标状态。训练：从（1）中可以清楚地看到，整个IoU预测网络可以使用边界框注释的图像对以端到端的方式进行训练。我们使用最近引入的大规模单对象跟踪（LaSOT）数据集[8]和TrackingNet [25]的训练分割。我们从视频中采样图像对，最大间隙为50帧。与[39]类似，我们使用来自COCO数据集[21]的合成图像对来增强我们的训练数据，以获得更多样化的类。从参考图像中，我们采样一个正方形补丁中心的目标，与约5- 2倍的目标区域的面积从测试图像中，我们采样了一个类似的补丁，在位置和尺度上有一些扰动，以模拟跟踪场景。然后将这些裁剪区域调整为固定大小。对于每个图像对，我们通过将高斯噪声添加到地面真实坐标来生成16个候选边界框，同时确保最小IoU为0。1.一、我们使用图像翻转和颜色4664−√W≈WW∂w∗--WWW∈WW茨布夫WW抖动用于数据增强。如[15]，IoU被归一化为[ 1，1]。我们的头部网络中的权重使用[12]初始化。对于骨干网络，我们在训练期间冻结所有权重。我们使用均方误差损失函数，每批64个图像对训练40个epoch。使用ADAM[16]优化器，初始学习率为10−3，使用因子0。每15个历元衰变2次。rj （ w ） =<$γj （ f （ xj;w ） −yj ），其中j∈{1，. . . ，m}和rm+ k（w）=λkwk，其中k= 1，2.损失（3）则等价地写为残差向量L（w）= rj（w）rj（w ）的平方 L2 范数，其中r（w ）是所有残差 rj（ w）的连接。我们利用二次高斯-牛顿近似Lw（ωw）L（w+w），从当前估计w处的残差r（w + w）rw+ Jww的一阶泰勒展开获得，3.2. 基于快速在线学习的目标分类虽然目标估计模块提供准确的勒夫（w）=wTJTJw 2015年12月22日 +rTrw .（四）边界框输出，它缺乏鲁棒地显示的能力在这里，我们定义了rw=r（w）和Jw=π r是犯罪对象与背景之间的关系tors.因此，我们用第二个网络头来补充估计模块，其唯一目的是执行这种区分。与估计组件不同，目标分类模块专门在线训练，以预测目标置信度得分。由于目标分类模块的目标是提供对象的粗略2D位置，因此我们希望它对目标的大小和尺度是不变相反，它应该通过最小化错误检测来强调鲁棒性。模型：我们的目标分类模块是一个2层全卷积神经网络，正式定义为f（x; w）= φ2（w2<$φ1（w1<$x））.（二）这里，x是主干特征图，w=w1，w2是网络的参数，φ1，φ2是激活函数，表示标准的多通道卷积。虽然我们的框架是通用的，允许更复杂的模型用于此目的，但我们发现这样一个简单的模型在计算效率方面是足够和有益的。受最近成功的判别式过滤器（DCF）方法的启发，我们制定了一个类似的学习目标的基础上的L2分类错误，R在W处的Jacobian新的变量Wrw表示参数w的增量。高斯-牛顿子问题（4）形成了一个正定二次函数，允许部署特殊的机器，如共轭梯度（CG）方法。虽然CG的完整描述超出了本文的范围（参见[29]的完整处理），但直观地说，它在每次迭代中都会找到最佳搜索方向p和步长α由于CG算法由简单的向量运算组成，因此只需几行Python代码即可实现。CG的唯一挑战性方面是针对搜索方向p的运算JTJwp的评估。我们注意到CG已经成功地部署在一些DCF跟踪方法中[4，7，31]。然而，这些实现依赖于手工编码所有操作以便实现JTJwp，即使对于简单的模型也需要许多繁琐的工作和推导（2）。该方法还缺乏灵活性，因为架构（2）的任何微小修改（诸如添加层或改变非线性）可能需要全面的重新推导和实现工作。因此，在本文中，我们演示了如何通过利用现代深度学习框架（如PyTorch）的反向传播功能来实现CG我们的实现只需要L（w）=Σmj=1γj<$f（xj;w）−yj<$2+Σλkwk2.（三）K用户可以提供函数r（w）来计算残差，这很容易实现。因此，我们的算法适用于形式（3）的任何浅学习问题。每个训练样本特征图xj由分类置信度yjRW×H，设置为以目标位置为中心的采样高斯函数。每个训练样本的影响由权重γ控制，为了找到一个评估JTJwp的策略，我们首先考虑一个与残差r（w）大小相同的向量u。通过计算它们的内积的梯度，我们得到（r（w）Tu）= 事实上，这是一个...吉尔夫ww而wk上的正则化量由λk设置。在线学习：最小化（3）的蛮力方法是应用标准梯度下降或其随机孪生。这些方法很容易在现代深度学习库中实现，但由于收敛速度慢，不太适合在线学习。因此，我们开发了一个更复杂的优化策略，是专为这种在线学习问题，但只需要很少的实现复杂性。首先，我们将问题的残差定义为反向传播过程的标准操作，即从输出开始，在计算图中的每个节点处应用转置雅可比矩阵。因此，我们可以将标量函数s相对于变量v的反向传播定义为BackProp（s，v）= s。现在，如上所示，我们有BackProp（rTu，w）=JTu。但是，这只占JTJwp中的第二个产品。我们首先必须计算Jwp，这涉及到雅可比本身的应用（而不是它的转置）。幸运的是，函数u<$→JTu的雅可比矩阵是平凡的JT，因为函数是46652←←WWW××ρ2←−←10：α←←←← ←←厄舒×≥ −≤算法1分类组件优化。输入：净权重w，残差函数r（w），NGN，NCG1：对于i = 1，. . . ，NGNdo2：r←r（w），u←r3：h←BackProp（rTu，w）#将u视为常数4：g<$−h，p<$0，ρ1<$1，ρw<$05：对于n = 1，. . . ，NCGdo6：ρ2ρ1，ρ1gTg，βρ17：p g+βp8：q1BackProp（hTp，u）#将p视为常数9：q2BackProp（rTq1，w）#将q1视为常数ρ1qTp11：g g αq212：ww+αp十三：端14：w w+w15：结束线型因此，我们可以通过应用反向传播来转置它通过令h：=JTu=BackProp（rTu，w ），我们得到Jwp=（hTp）=BackProp（hTp，u）。给出上述结果，我们概述了算法1中的整个优化过程。它应用N个GN高斯-牛顿迭代，每个迭代包含N个CG共轭梯度迭代，用于最小化所得到的子问题（4）。每个CG 迭代需要两个 BackProp 调用，分别用于计算q1=Jwp和q2=JTq1。需要在外循环中计算h=JTu请注意，在算法1中每次调用BackProp时，内积中的一个向量被视为常数，即梯度不会通过它传播。为了清楚起见，这在算法1中作为注释突出显示。值得注意的是，优化算法几乎是无参数的，只需要设置迭代次数。与梯度下降法相比，基于CG的方法在每次迭代中自适应地计算学习率α和动量β注意g是（4）的负梯度。3.3. 在线跟踪方法我们的跟踪器ATOM是用Python实现的，使用Py-Torch。它在Nvidia GT-1080 GPU上运行超过30FPS。特征提取：我们使用ResNet-18作为我们的骨干网络。对于目标分类，我们采用块4特征，而目标估计组件使用块3和4作为输入。特征总是从图像中大小为288 288的块中提取对应于估计目标尺寸的5倍的区域。请注意，ResNet-18特征提取是共享的，并且每帧仅在单个图像块上执行。分类模型：我们的分类头（2）中的第一层由11个卷积层w1组成，它将特征维数降低到64。如[4]中，该层的目的是限制存储器和计算需求。第二层采用4 4内核w2，具有单个输出通道.我们将φ1设置为恒等式，因为我们没有观察到在该层使用非线性的任何好处。我们使用连续可微参数指数线性单元（PELU）[33]作为输出激活：不φ2（t）=t，t0且φ2（t）= α（e α 1），t0的情况。设置α= 0。05允许我们忽略损失（3）中的简单反面例子。我们发现φ2的连续可微性有利于优化。在第一帧中，我们通过应用不同程度的平移、旋转、模糊和丢弃来执行数据增强，类似于[3]，得到30个初始训练样本xj。然后，我们应用算法1，其中NGN=6和NCG=10来优化参数w。随后，我们仅优化最终层w2，每第10帧使用NGN=1和NCG= 5。在每一帧中，我们添加前向特征图xj作为训练样本，由以估计的目标位置为中心的高斯yj注释。（3）中的权重γj以学习率0更新。01. 目标估计：我们首先在预先估计的目标位置和尺度上提取特征然后，我们应用分类模型（2）并找到2D位置，最大置信度得分。这与精确估计的目标宽度和高度一起生成初始边界框B。虽然它是可能的状态估计使用这个单一的建议，我们发现，局部最大值更好地避免使用多个随机初始化。因此，我们通过向B添加均匀随机噪声来生成一组10个初始建议。使用步长为1的5次梯度上升迭代来最大化每个盒子的预测IoU（1）。通过取具有最高IoU的3个边界框的平均值来获得最终预测。没有进一步的后处理或过滤，例如，”[18]这是一个很好的例子。如前所述，该细化状态还注释训练样本（x ， j ，y，j ）。注意，在第一帧中预先计算（1）中的调制矢量c（x0，B0）硬负面挖矿：为了在存在干扰项的情况下进一步增强我们的分类组件，我们采用了许多视觉跟踪器中常见的硬否定挖掘策略[26，39]。如果在分类分数中检测到干扰项峰值，我们将该训练样本的学习率加倍，并立即使用标准设置（NGN= 1，NCG= 5）运行一轮优化如果分数低于0，我们也将目标确定为丢失。二十五虽然硬否定策略不是我们框架的基础，但它提供了一些额外的鲁棒性（见4.2节）。4. 实验我们在五个基准点上评估所提出的跟踪器ATOM：Need for Speed（NFS）[9]，UAV123 [24]，Tracking-ingNet [25]，LaSOT [8]和VOT 2018 [17]。详细结果见补充材料。46664.1. IoU预测架构分析在这里，我们研究了第3.1节中介绍的IoU预测模块的各种架构选择的影响。我们的分析是在合并的UAV123 [24]和NFS（30FPS版本）[9]数据集上进行的，总计223个视频。这些数据集包含了各种各样的视频，这些视频在许多方面都具有挑战性，例如变形，视图变化，遮挡，快速运动和干扰。我们基于重叠精度度量（OPT）来评估跟踪器，重叠精度度量（OP T）被定义为具有边界框IoU与地面真实值重叠大于阈值T的我们还报告了曲线下面积∫1(AUC)评分，定义为AUC =0OPTdT.在所有的实验中-我们报告5次运行的平均结果。参考图像：我们比较基线的方法，排除目标特定的信息，删除我们的架构中的参考分支。也就是说，基线网络仅使用测试帧来预测IoU。调查结果见表1。排除参考帧会使结果劣化超过5。5%AUC评分。这证明了利用特定于目标的外观信息以准确预测任意对象的IoU的重要性。目标外观整合：我们研究了不同的网络架构，以整合IoU预测的参考图像特征。我们比较了我们的特征调制的方法，在第3.1节，与两种替代架构。串连：来自参考和测试分支的激活在最终IoU预测层之前被级联。Siamese：为两个分支使用相同的架构，并将最终的IoU预测作为其输出的标量积。所有网络都使用相同的设置进行训练，并使用ResNet18Block3和Block4功能作为输入。为了公平比较，我们确保所有网络具有相同的深度和相似数量的可训练参数。结果示于表1中。简单地连接来自参考图像和测试图像的特征实现了56的AUC。百分之三。我们基于Siamese的架构获得了更好的结果，AUC为61。7%，0。75分中的50分百分之一。我们基于调制的方法进一步改善了结果，给出了一个绝对的，基线调制级联暹罗调制调制（模块3和4）（模块3和4）（第3和第4区块）（第3和第4区块）（第三区块）（第4组）OP0. 50（%） 68.376.367.575.173.473.6OP 0. 75（%） 38.648.437.947.644.538.9AUC（%）56.762.356.3 61.7 60.3 58.5表1.分析NFS和UAV123数据集组合的IoU预测的不同架构。对于每种方法，我们在括号中指出用作输入的主干特征层。基线方法没有使用参考分支来整合目标特定信息，结果很在不同的体系结构中，使用块3和块4的基于调制的方法实现了最好的结果。原子多尺度没有机密。 GD GD++ 无HNOP 0. 50（%）76.366.252.374.574.875.9OP 0. 75（%）48.426.035.147.447.348.1AUC（%）62.353.743.060.961.161.9表2.建议方法中的每个组件对NFS和UAV123组合数据集的影响。我们比较了目标估计组件与蛮力多尺度方法，并分析了我们的分类模块，在线优化策略和硬否定挖掘方案的影响。琵琶增益为1。2%在OP 0。50，AUC为62。百分之三。主干功能层：我们评估了使用来自主干ResNet-18的不同特征块的影响（表1）。仅使用来自区块3的特征导致AUC为60。3%，而只有区块4给出58的AUC。百分之五融合来自两个区块的特征导致显著改善，AUC得分为62。百分之三。这表明块3和块4特征具有可用于预测IoU的互补信息。4.2. 消融研究我们进行了消融研究，以证明在所提出的方法中的每个组件的影响。我们使用与第4.1节相同的数据集和评估标准。目标估算：我们比较了我们的目标状态估计组件，在第3.1节中提出，与暴力多尺度搜索方法只采用分类模型。这种方法模仿了基于相关滤波器的方法中的常见做法，以比例为1的5个尺度提取特征。02.然后在所有尺度上评估分类分量，选择具有最高置信度得分的位置和尺度作为新的目标状态。结果示于表2中。我们的方法显著优于多尺度方法8。AUC为6%。此外，我们的方法几乎使高度准确的边界框预测的百分比增加了一倍，如OP 0所测量的。75.这些结果突出了治疗- ING目标状态估计作为一个高层次的视觉任务的重要性。目标分类：我们通过将目标分类组件（第3.2节）从我们的跟踪框架中排除来研究它的影响。表2中的NoClassif仅采用目标估计模块进行跟踪，使用更大的搜索区域。所得方法实现43的AUC。0%，几乎比我们的方法少20%在线优化：我们调查的影响，算法1中提出的优化策略，通过比较，它与梯度下降。我们使用精心调整的学习率和动量参数的梯度下降approach。在称为GD的版本中，我们运行与我们的算法相同数量的BackProp操作，获得与我们的跟踪器相同的速度我们还与GD++进行了比较，它运行的迭代次数是GD的5倍，因此帧速率明显较慢在这两种情况下，提出的高斯-牛顿方法优于梯度下降，4667成功图90807060504030201000 0.2 0.4 0.6 0.81重叠阈值(a) NFS成功图90807060504030201000 0.2 0.4 0.6 0.8 1重叠阈值(b) UAV123STRCF SINT ECO DSiam StructSiam SiamFC VITAL MDNet DaSiam-ATOM[19个][32个] [4]美国[10][38][2][30][26日]RPN[39]诺姆精密度（%）34.035.4三十三点八 40.5 41.8 42.046.049.657.6成功率（%）31.4三十二点四 33.3 33.5 33.639.741.551.5表4.LaSOT数据集在标准化精度和成功率方面的最新比较DLSTpp SASiamRCPTDeepSTRCF DRTRCO Dasiam- MFT LADCF原子[17][11][17][19][31][17个][3]第一章RPN [39] [17个][36个]EAO0.3390.3450.356 0.376 0.3780.3830.3850.3890.401耐用性0.2240.2580.2390.2150.2010.1840.2760.1400.159 0.204精度0.5430.5660.5060.5230.519 0.507 0.5360.5860.5030.590表5. 公共VOT2018图4.NFS（a）和UAV123（b）上的成功图在这两种情况下我们的方法大大改进了现有技术。缝钉[1]SAMF[20]CSRDCF[22]ECO[4][39]第39话SiamFC[2]CFNet[34]MDNet[26]更新[3]原子精密度（%）47.047.748.049.241.353.353.356.555.764.8诺姆精密度（%）60.359.862.261.860.266.665.470.570.277.1成功率（%）50.453.455.456.857.157.860.661.170.3表3. TrackingNet测试集在精度、标准化精度和成功率方面的最新比较。我们的方法明显优于CIMT，在成功方面实现了15%的相对收益。大于1. 2%AUC评分（表2）。请注意，即使迭代次数增加5倍也不会提供任何显著的改进（仅为0。2%），表明收敛缓慢。硬负面挖矿：我们在没有Hard负性挖掘组件的情况下评估了我们的方法（第3.3节），结果AUC为61。9%。这表明硬否定挖掘增加了一些鲁棒性（0 。4%AUC）到我们的追踪器。4.3. 最新技术水平比较我们在五个具有挑战性的跟踪数据集上将我们的跟踪器与最先进的方法进行了比较。极品飞车[9]：我们评估30FPS版本的数据集。图4a显示了所有100个视频的成功图，在图例中报告了AUC分数。CCOT[7]和CCOT [3]均基于相关性过滤器，AUC评分为49。2%，54。2%。我们的跟踪器显著优于CIMT，相对增益为9%。无人机123 [24]：图4b显示了成功图，123视频[39]他和他的朋友们，SortSiamRPN [18]采用基于边界框回归目标估计组件。与其他方法相比，DaSiamRPN的AUC更高，为58。百分之四，由于其准确性。我们的跟踪器采用重叠最大化策略进行目标估计，通过实现65的AUC，显著优于DaSiamRPN。0%。TrackingNet [25]：这是一个最近推出的大规模数据集，由从YouTube.使用在线评估服务器在511个视频的测试集上对跟踪器进行评估。表3显示了精密度、标准化精密度和成功率方面的结果。在精度和成功方面，MDNet [26]达到了 56 分。 5% 和 60 。 6%。我们的跟踪器优于MDNet，相对收益为14%，数据集在预期平均重叠（EAO），鲁棒性（跟踪失败）和准确性方面。我们的跟踪器在EAO方面优于所有以前的方法。在精确度和成功率方面分别为16%。 LaSOT [8]：我们在由280个视频组成的测试分割上评估了我们的方法。表4显示了结果，标准化的精确度和成功。在以前的方法中，DaSiamRPN取得了最好的成功分数。我们的方法明显优于DaSiamRPN，绝对增益为10。0%的成功。VOT2018 [17]：该数据集由60个视频组成，根据鲁棒性（故障率）和准确性（在鲁棒性跟踪过程中的平均重叠）来评估性能这两个指标合并为一个指标，即预期平均重叠（EAO），它提供了整体性能排名。表5显示了我们的方法与VOT2018竞赛中前10名跟踪器的比较[17]。在顶级跟踪器中，只有DaSiamRPN使用显式目标状态估计组件，与基于DCF的同行（如LADCF[36]和MFT）相比，其精度更高我们的方法ATOM实现了最佳的准确性，同时具有竞争力的鲁棒性。此外，我们的跟踪器获得最佳EAO分数0。401，相对于LADCF有3%的增益5. 结论我们提出了一种新的跟踪体系结构与明确的目标估计和分类组件。估计组件在大规模数据集上进行离线训练我们的架构集成了目标特定的知识，通过执行功能调制。分类组件由两层全卷积网络头组成，并使用专门的优化方法在线训练。在四个跟踪基准上进行了综合实验。我们的方法提供了准确的目标估计，同时对场景中的干扰对象进行鲁棒性分析，在所有四个数据集上都优于以前的方法。鸣谢：这项工作得到了SSF（SymbiCloud）、瑞典研究委员会（ EMC2 ， grant 2018-04673）、 ELLIIT 和WASP的支持。原子[59.0][54.2]CCOT [49.2]ECO [47.0]MDNet [42.5]HDT [40.0][39.5]FCNT [39.3]SRDCF [35.3]BACF [34.2]原子[65.0]DasiamRPN [58.4]SiamRPN [57.1][55.0]ECO [53.7]CCOT [51.7]SRDCF [47.3]吻合钉[45.3]ASLA [41.5]SAMF [40.3]重叠精度[%]重叠精度[%]4668引用[1] L. 贝尔蒂内托Valmadre，S. 戈洛代茨岛 Miksik和P. H. S.乇Staple：用于实时跟踪的补充学习器。在CVPR，2016年。8[2] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H.乇用于对象跟踪的全卷积连体网络。2016年ECCV研讨会。二、八[3] G. Bhat，J.Johnander，M.Danelljan、F.S. khan和M.费尔斯伯格。揭示深度追踪的力量。在ECCV，2018。一、二、六、八[4] M.达内尔扬湾Bhat，F. Shahbaz Khan和M.费尔斯伯格ECO：用于跟踪的高效卷积算子。在CVPR，2017年。一、五、六、八[5] M. Dan e lljan，G. H？ge r，F. S. khan和M. 费尔斯贝河反犯罪空间追踪。TPAMI，39（8）：1561-1575，2017。2[6] M. 达内尔扬湾 H？ge r，F. ShahbazKhan和M. 费尔斯贝河学习空间正则相关滤波器的视觉跟踪。在ICCV，2015年。一、二[7] M. Danelljan，A. Robinson，F. khan和M.费尔斯伯格Be-yond相关滤波器：学习用于视觉跟踪的连续卷积算子。在ECCV，2016年。二、五、八[8] H.范湖，澳-地Lin，F. Yang，P. Chu，G. Deng，S.Yu，H.拜，Y. Xu，C. Liao和H.凌Lasot：用

下载后可阅读完整内容，剩余1页未读，立即下载