揭开深度追踪的性能挑战

103 浏览量更新于2023-10-13 收藏 906KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

揭开深度追踪Goutam Bhat1，Joakim Johnander1，2，MartinDanelljan1，Fahad Shahbaz Khan1，3，MichaelFelsberg11CVL，DepartmetofEle ctri calEn gineering g，Lin k¨ping gUniverity，Sweden2Zenuity，瑞典3Inception Institute of Artificial Intelligence，阿布扎比，阿联酋抽象。在通用对象跟踪领域中，已经进行了许多尝试来利用深度特征。尽管有各种期望，但与完全基于手工功能的方法相比，深度跟踪器还没有达到卓越的性能水平。在本文中，我们研究了这个关键问题，并提出了一种方法来解锁跟踪的深度特征的真正我们系统地研究了深和浅功能的特点，以及它们的跟踪精度和鲁棒性的关系。我们将有限的数据和低空间分辨率确定为主要挑战，并提出了在集成深度特征进行跟踪时应对这些问题的策略。此外，我们提出了一种新的自适应融合方法，利用深度和浅层特征的互补性质，以提高鲁棒性和准确性。在四个具有挑战性的数据集上进行了大量的实验。在VOT2017上，我们的方法显著优于挑战中表现最好的跟踪器，在EAO中的相对增益为17%1介绍通用对象跟踪是在仅给定其初始状态的情况下估计视频中该问题特别困难，主要是由于可用于在线学习目标的外观模型的有限训练数据。现有的方法依赖于丰富的特征表示来解决这一基本挑战。虽然手工制作的特征长期以来一直用于此任务，但最近的焦点已转向深度特征。深度特征的优点是它们能够编码高级信息，对复杂的外观变化和混乱不变性。尽管深度学习在各种计算机视觉任务中取得了巨大成功，但其在通用对象跟踪方面的影响有限。事实上，基于手工制作的功能的跟踪器[1，7，8，22，37]仍然提供有竞争力的结果，甚至在标准基准测试中优于许多深度跟踪器[16，36]。此外，与图像分类的趋势相反，对象跟踪器并不倾向于从更深入和更复杂的网络架构中受益（见图1）。在这项工作中，我们调查了深度网络在视觉对象跟踪方面取得有限成功的原因2Bhat等人5550454035图1：当使用从不同网络提取的深度特征时，在Need for Speed数据集[12]上的跟踪性能。在所有情况下，我们采用相同的浅层表示，包括HOG和颜色名称。基线ECO [7]没有从更强大的网络架构中受益，例如ResNet。相反，我们的方法能够利用更强大的表示，实现从手工制作的功能到更强大的网络架构的一致收益。我们区分两个关键的挑战时，通常会遇到的深度功能集成到视觉跟踪模型。首先，与传统的手工制作的方法相比，众所周知，深度模型是数据饥饿的。这成为视觉跟踪场景中的主要障碍，其中训练数据极其稀缺，并且必须从单个标记帧中学习鲁棒模型。即使经常使用预先训练的深度网络，目标模型也必须学习对不可见的外观变化具有不变性的区别性激活。深度特征的第二个挑战是准确的目标预测。精确的目标定位不仅对跟踪性能至关重要，而且还会影响模型的学习，因为新帧是由跟踪器本身注释的。因此，不准确的预测可能导致模型漂移和最终的跟踪失败。深度卷积层通常用空间分辨率换取增加的高级不变性，以解决外观变化。因此，许多跟踪器用浅层激活[11，23]或手工特征[7]补充深层表示，这就提出了如何最佳地融合浅特征和深特征的根本不同的属性以实现准确性和鲁棒性的问题。贡献：在本文中，我们分析了深，浅特征的视觉跟踪的影响特性。这是通过（i）系统地研究各种数据增强技术的影响和（ii）调查目标模型的判别学习中的准确性-鲁棒性权衡来执行的。我们的研究结果表明，广泛的数据增强导致显着的性能提升的深功能为基础的模型，而-10伤害其浅对应。此外，我们发现，深层模型应进行鲁棒性训练，而浅层模型应强调准确的目标定位。这些结果表明，深，浅+8.4%+6.2%+4.4%AUC（%）揭开深度追踪的神秘面纱3模型应独立训练，并在稍后阶段融合。作为我们的第二个贡献，我们提出了一种新的融合策略，结合深，浅的预测，以利用其互补的特点。这是通过引入预测状态的质量度量来获得的，同时考虑到准确性和鲁棒性实验在五个具有挑战性的基准上进行： Need for Speed ， VOT2017，Temple 128，UAV 123和OTB-2015。我们的研究结果清楚地表明，所提出的方法提供了一个显着的改善基线跟踪。此外，我们的方法在所有四个跟踪数据集上设置了一个新的最先进的状态。在VOT2017基准测试中，我们的方法获得了0的EAO分数。378，超过了比赛获胜者（0。323），相对收益为17%。2相关工作深度学习已经渗透到计算机视觉的许多领域。虽然这些技术也已经被研究用于视觉跟踪，但其成功有限。SINT方法[30]在视频数据集上离线学习相似性度量，并使用初始标记样本定位目标。另一种方法是直接回归给定输入补丁的相对目标位置[14，33]。Li等人[18]通过在线训练分类器，以端到端的方式解决跟踪问题FCNT [34]采用预训练的深度特征和在线训练的模型。MDNet [26]进一步使用多域过程离线预训练模型。遵循端到端的理念，最近的工作[31，28]研究了将判别相关滤波器（DCF）[3，10]集成为深度网络中的计算块[31]的工作将DCF集成到Siamese框架中[2]。此外，[28]采用DCF作为端到端训练的单层其他DCF方法专注于从固定的预训练深度网络中集成卷积特征Ma等人[23]提出了独立DCF跟踪器的分层集成方法，以组合多个卷积层。Qi等人[27]学习每个特征图的相关过滤器，并将各个预测与修改的Hedge算法相结合。张等人提出的MCPF跟踪器。[38]将深度DCF与粒子滤波器相结合。Danelljan等人[11]提出了连续卷积算子跟踪器（C-COT），以有效地集成多分辨率浅层和深层特征图。随后的ECO跟踪器[7]在性能和效率方面改进了C-COT跟踪器。在这项工作中，我们采用了ECO跟踪框架，因为它的多功能性和受欢迎程度：在最新版本的VOT 2017 [16]中，前10名跟踪器中有5个是基于ECO或其前身C-COT的。3分析深度特征以进行跟踪深度学习在许多计算机视觉领域带来了显着的性能改进，例如对象分类，检测和语义分割。然而，其影响尚未在通用4Bhat等人视觉目标跟踪在本节中，我们分析了深度跟踪器性能低于预期的原因，并提出了解决这些问题的策略。3.1动机在我们寻求更好地了解跟踪的深功能，我们调查他们的属性，以及研究的浅功能。深度学习的一个众所周知的问题是需要大量的标记训练数据。尽管如此，仍需要数千个训练样本来微调预训练的深度网络以执行新任务。然而，这样的数据量在视觉跟踪场景中不可用，其中最初仅提供单个标记帧。这在学习用于视觉跟踪的基于深度特征的模型时构成了一个重大挑战。为了最大限度地利用可用的训练数据，深度学习方法通常采用数据增强策略。然而，数据增强很少用于视觉跟踪。事实上，Bolme等人的开创性工作。[3]利用增强的灰度图像样本来训练判别跟踪模型。从那时起，现有技术的深度DCF跟踪方法已经忽略了数据增强作为用于获取附加训练数据的策略。第3.3节中因此，我们对数据增强技术进行了彻底的研究，目的是更好地理解用于跟踪的深度特征。集成深度特征时的另一个挑战是它们的低空间分辨率，妨碍了目标的准确定位基于低级手工特征的对象跟踪器主要针对准确的目标定位进行训练，以避免长期漂移。然而，这可能不是表现出根本不同属性的深层特征的最佳策略。深度特征通常捕获高级语义，同时对于例如小的平移和比例变化。从这个角度来看，训练深度模型以强调鲁棒性而不是准确性可能是有益的这促使我们分析模型学习中涉及的准确性/鲁棒性权衡，以获得更多关于深层和浅层特征属性的知识该分析在第3.4节中进行。3.2方法为了更清楚地了解深层和浅层特征，我们的目标是隔离它们对整体跟踪性能的影响。因此，该分析是用专门采用浅或深特征的基线跟踪器来执行的。这种独特的治疗使我们能够直接测量的影响，例如，分别对浅特征和深特征进行数据增强我们使用最近推出的ECO跟踪器[7]作为基线，因为它具有最先进的性能。对于浅层特征，我们采用了方向一致性直方图（HOG）[5]和颜色名称（CN）[35]的组合，因为它已用于许多跟踪方法[7，10，19，15，21]。对于深度表示，我们首先将分析限制在ResNet-50，使用来自第四个卷积块的激活。对其他网络的推广是进一步的揭开深度追踪的神秘面纱5见第5.4节。整个分析在OTB-2015 [36]数据集上进行。3.3数据增强数据增强是一种标准策略，用于缓解有限训练数据的问题。它可以导致学习模型对未知数据的更好泛化。然而，由于模型对小平移或尺度变化的不变性增加，数据增强也可能导致视觉跟踪上下文中的较低准确度。因此，不清楚数据扩充是否有助于跟踪。我们分别研究了不同的数据增强技术对浅层和深层特征的影响。我们考虑以下数据增强技术：翻转：样品水平翻转。旋转：从一组固定的12个角度旋转，范围从−60◦到60◦。移位：在特征提取之前水平和垂直地移位n个像素。所得到的特征图向后移位n/s个像素，其中s是特征提取的步幅。模糊：使用高斯滤镜模糊。这被期望模拟运动模糊和比例变化，这两者在跟踪场景中通常遇到。丢弃：样本的通道丢弃。这通过将20%的特征通道随机设置为零来执行。像往常一样，其余的特征通道被放大，以便保留样本能量。图2a显示了数据增强对跟踪性能的影响（AUC评分[36]）。可以看出，深度特征在平均值处一致地受益。所有的遗传算法，例如针对高精度的遗传算法，在跟踪性能上都有超过1%的改进。最大的改进是使用“blur”平均值获得的，其中在不使用数据增强的情况下，获得了4%的增益。同时，浅层特征不会从数据增强中受益深特征和浅特征的行为的这种令人惊讶的差异可以通过它们相反的性质来解释。深度特征捕获对所应用的增强（如“flip”）不变的更高级别的语义信息，并且可以从该信息中获得，如在a处的深度特征。另一方面，浅层特征捕获受诸如“闪烁”或“闪烁”之类的特征阻碍的低级信息。在这种情况下，每次使用数据都对训练造成伤害。3.4耐用性/准确度权衡在比较跟踪器的性能时，有两个重要的标准：准确性和鲁棒性。前者是目标在检索期间被定位的准确程度的度量。另一方面，风险在于，在具有挑战性的情况下，系统对故障的恢复能力及其恢复能力。换句话说，鲁棒性是目标被成功定位的频率的度量通常，准确性和鲁棒性两者都是重要的，并且令人满意的结果是可靠的。6Bhat等人AUC（%）456646436226058156054-152-2(a) 数据扩充501/2 1/4 1/8 1/16 1/32因子(b) 标签评分函数宽度图2：数据增强（a）和标签评分函数宽度（b）对OTB-2015上浅（蓝色）和深（红色）特征的影响。结果报告为曲线下面积（AUC）。虽然深特征显著受益于数据增强，但是结果对于浅特征恶化。类似地，清晰标记函数对于浅特征是有益的，而深特征受益于宽标记函数。由于这些性质之间的相关性较弱，因此寻求它们之间的折衷[17]。这种权衡可以在跟踪器的构造和训练中控制在区别性跟踪框架中，可以通过仅提取非常接近目标位置的正样本来学习外观模型也就是说，只有非常精确的位置被视为目标外观的正样本。相反，增加从中提取目标样本的区域允许更积极的训练数据。这具有促进模型的泛化和鲁棒性的潜力，但是当目标样本中的变化变得太大时，也可能导致差的辨别能力我们分析了训练跟踪模型的效果，当使用浅或深的功能时，不同程度的准确性-鲁棒性权衡。在基于DCF的跟踪器（诸如基线ECO）中，从其提取正训练样本的区域的大小ECO针对该任务采用高斯函数，其中标准偏差与具有因子σ的目标大小成比例。我们分析了浅部和深部特征的不同σ值。图2b示出了该实验的结果。我们观察到，深度特征在以下情况下被利用得最好：使用更高的σ值进行训练，其中σ=1给出最佳结果。这种行为可以归因于深度特征的不变性。由于它们对于小的平移是不变的，因此训练深度特征以获得更高的准确性可能导致次优模型。另一方面，浅特征在用低σ训练时表现最好，而在用较高σ训练时给出较差的结果。这是由于浅特征捕获低水平、较高分辨率特征，并且因此非常适合于给出高精度的事实。此外，由于它们对小变换的大方差，该模型是绝对AUC增量（%）揭开深度追踪的神秘面纱7412表1：数据增强（表示为Aug）和更宽的标签得分函数（表示为σ）对深度特征的影响。结果以OTB-2015数据集上的AUC评分显示。数据扩充和更广泛的标签分数都提供了显着的改善。当采用这两种技术时获得最佳结果ResNet ResNet+Aug ResNet+σ ResNet+Aug+σAUC56.2 61.5 60.562.0无法处理由较高σ所暗示的较大数量的正训练样本，导致性能较差。3.5意见来自第3.3节和第3.4节的上述结果表明，通过使用数据增强和通过训练以提高鲁棒性而不是准确性，深度模型显著改善。我们进一步评估了数据增强和更高σ对深度模型的综合影响。表1显示了OTB-2015数据集的AUC测量结果。基线跟踪器（左）不使用数据扩充，而是使用默认值σ= 1。结合第3.3节中评价的所有数据增强技术提供了5的改进。AUC超过基线3% 使用σ参数为1的训练进一步将结果改进0。百分之五因此，我们的分析表明，在训练基于深度特征的模型时，使用数据增强和更广泛的标签函数的好处。因此，第3.3节和第3.4节的结果突出了深特征和浅特征的互补性质。它们对应的模型需要在数据和注释方面进行不同的训练，以便最好地利用它们的真正潜力。因此，我们认为浅层和深层模型应该独立训练然而，这提出了如何融合这些模型以利用其互补特性的问题，我们将在下一节中讨论。4模型预测如前所述，深模型和浅模型在准确性和鲁棒性方面具有不同的特性。这在图3中展示，图3示出了来自示例帧的浅模型和深模型的检测分数我们提出了一种新的自适应融合方法，旨在充分利用它们的互补性，基于第4.1节中描述的质量测量。在第4.2节中，我们展示了如何推断深度和浅权重并获得最终的目标预测。4.1预测质量度量我们的目标是找到一个质量指标的目标预测，给定的检测得分y在搜索区域的图像。我们把分数y看作是8Bhat等人2(a) 图像样本（b）深痕（c）浅分数（d）熔合刻痕图3：由样本帧的深模型和浅模型产生的检测分数的可视化（a）。深度分数（b）包含具有高置信度的鲁棒模式，但其仅允许粗略定位。同时，浅分数（c）具有能够实现准确定位的尖峰，但也包含干扰物模式。我们的方法通过自适应地为每个模型找到最佳权重来融合这些分数，从而产生清晰且明确的分数函数（d）。图像坐标，其中y（t）∈R是位置处的目标预测得分t∈R2.我们要求质量度量奖励目标预测的准确性和鲁棒性。前者与预测周围的检测分数的锐度有关更尖锐的峰值指示更准确的定位能力。预测的鲁棒性来自于Mar-到干扰器峰值。如果裕度很小，则预测是模糊的。另一方面，大的裕度指示预测的置信度显著高于在其他候选位置处的置信度。我们提出最小加权置信度作为候选目标预测t*的质量度量，ξt*{y}=min不y（t*）−y（t）（t−t.（一）分子中的置信裕度计算为候选预测t*处的置信得分y（t*）与位置t处的得分y（t）之间的差。边缘由t和位置t之间的距离加权，由距离度量计算，满足<$（0）= 0和lim |τ| →∞∆（τ）= 1。我们还假设∆是两次连续可微的，并且在τ= 0处有一个正定的Hessian。出于我们的目的，我们使用∆（τ）= 1 − e−κ|τ|二、（二）这里，κ是控制转变速率Δ（τ）→ 1的参数，当|τ |正在增加。正如我们将看到的，κ有一个直接的解释，与接近目标预测t≈t*的质量度量（1）的行为有关。从定义中(1)因此ξt*{y} ≥0当且仅当y（t*）是y的全局最大值。为了验证所提出的质量度量（1）具有提高准确性和鲁棒性的期望特性，我们分析了（a）t远离预测t的情况和（b）当t→t时的情况。在前一种情况下，我们得到揭开深度追踪的神秘面纱911111|0意味着|≫ 0 implying that ∆ (t − t∗) ≈ 1. 在这种情况下，y（t*）−y（t）* *ξt*{y} ≤（t−t≈y（t）−y（t），无论何时|t−t|0。（三）因此，质量度量ξt*{y}近似地由到预测t*的紧邻邻域之外的最显著干扰项峰值y（t）的分数差限定。因此，大的质量度量ξt*{y}确保不存在使预测模糊的干扰项。相反，如果存在具有类似得分y（t）≈y（t*）的次级检测峰y（t），则预测的质量为低ξt*{y} ≈0。在另一种情况下，我们研究如何措施（1）促进一个准确的预测，通过分析限制t→t。我们假设检测得分函数y定义在连续域ΩR2上，并且连续可微分两次。通过应用适当的方法，该假设对于离散分数y仍然有效。插值ECO框架实际上输出具有直接连续解释的分数，由其傅立叶系数参数化。在任何情况下，我们假设预测t*是y的局部最大值。我们将y在t处的梯度和Hessian分别表示为y（t）和Hy（t）因为这是一个当地的马克西-我们得到y（t*）=0且0≥λ*≥λ*，其中λ*，λ*是特征值1 2 1 2的Hy（t*）。利用（2），我们得到结果4ξt*{y} ≤|λ∗| .（四）κ注意，特征值|λ∗|表示得分函数y在峰值t* 处的最小曲率。因此，在本发明中，|λ∗|是峰t * 的锐度的量度。质量界限（4）与锐度成比例|λ∗|.因此，高质量值ξt*{y}确保峰值是独特的，而平坦的峰值将导致低质量值。参数κ控制鲁棒性和预测准确性之间的权衡。从（4）可以得出，κ表示锐度|λ∗|它产生至多为1的质量。我们的方法可以推广到尺度变换和其他更高维的状态空间，通过扩展到整个状态向量的t。在本文中，我们采用2维平移和1维尺度变换。在下一节中，我们将展示（1）可以用于联合查找预测t*以及浅得分和深得分的最优重要性权重。4.2目标预测我们提出了一种基于质量度量（1）的融合方法，该方法结合了深层和浅层模型预测以找到最佳状态。令yd和ys分别表示基于深特征和浅特征的分数融合得分作为两个得分yβ（t）=βdyd（t）+βsys（t），（5）[4]参见补充材料中的推导。10Bhat等人检测分数保证金保证金保证金保证金= 0.4= 0.2= 0.1= 0翻译图4：基于解决优化问题（7）的我们的融合方法的图示。对于模型权重β的特定选择，绘制了一维检测得分yβ（t）（蓝色曲线），其中候选状态t对应于全局最大值。（7c）的左手侧（虚线）针对不同的温度值绘制。松弛变量ξ，表示余量。我们找到满足不等式（7c）的ξ的最大值，在这种情况下为ξ =0。4.其中β=（βd，βs）分别是深度和浅度分数的权重我们的目标是联合估计得分权重β和目标状态t*，使质量度量最大化（1）。这是通过最小化损失来实现的.22 Σ最小化：Lt*（β）=−ξt*{yβ}+µβd+βs（6a）受制于：βd+ βs= 1，βd≥ 0，βs≥ 0。（6b）注意，我们添加了一个正则化项，由参数控制µ，惩罚权重的大偏差。分数权重本身被约束为非负的并且总和为1。为了优化（6），我们引入松弛变量ξ=ξt*{yβ}，从而产生等价的最小化问题.22 Σminimize：Lt*（ξ，β）=−ξ+µβd+βs（7a）服从：βd+βs= 1，βd≥ 0，βs≥ 0（7b）yβ（t*）−ξ∆（t*−t）≥yβ（t），t∈ Ω。（7c）图4中示出了该重新表述的问题和约束（7c）的可视化对于任何固定状态t*，（7）对应于一个二次规划（QP）问题，可以使用标准技术解决。在实践中，我们基于来自深分数和浅分数的局部最大值对候选状态Ω的有限集合进行随后，通过求解三参数QP问题，对每个状态t*∈Ω优化（7），增加最小的计算开销。然后，我们选择具有最低总体损失（7a）的候选状态t*作为我们的最终预测。5实验5.1实现细节我们的跟踪器在Matlab中使用MatConvNet [32]实现根据3.4节的分析，我们选择σd= 1/ 4和σs= 1/ 16作为深标记和浅标记评分值揭开深度追踪的神秘面纱11在训练模型时，分别使用函数如第3.3节所述，我们仅对深度特征采用所提出的数据增强技术。对于第4节中给出的融合方法，正则化参数μin（6）被设置为0.15。我们将距离度量（2）中的κ参数设置为与目标大小成使用单独的验证集设置所有参数，如下一节所述。然后，我们在所有实验中对所有数据集使用相同的参数集。5.2评价方法我们在四个具有挑战性的基准测试中评估了我们的方法：最近推出的NeedFor Speed（NFS）[12]，VOT2017 [16]，UAV123 [24]和Temple128[20]。NFS由100个高帧率（240 fps）视频及其30 fps版本组成。我们使用30fps版本的数据集进行实验。平均重叠精密度（OP）和曲线下面积（AUC）评分用作评价指标。OP分数被计算为视频中的帧的百分比，其中相交于并集（IOU）与地面实况重叠超过特定阈值。在IOU阈值[0， 1]的范围内绘制所有视频的平均OP，以获得成功图。该图下的面积给出AUC评分。详情请参阅[36]。由于dropout增强的随机性，我们在每个序列上运行我们的跟踪器10次，并报告平均得分，以稳健地估计所有数据集的性能。有关VOT2017、UAV123和Temple128的详细信息，请参见第5.5节。验证集：我们使用流行的OTB-2015数据集[36]的一个子集作为我们的验证集，用于调整所有超参数。OTB-2015数据集通常用于跟踪社区的评估然而，近年来数据集已经饱和，其中几个跟踪器[7，26]在阈值0处实现了超过90%的OP评分。5、由于大多数视频比较简单。相反，我们主要感兴趣的是在具有挑战性和未解决的情况下提高跟踪性能，其中深度特征非常重要。因此，我们从OTB-2015构建硬视频的子集以形成我们的验证集，称为OTB-2015。H.为了找到OTB-2015中最难的视频，我们考虑了四个基于深度特征的跟踪器的每个视频结果，这些跟踪器在数据集上具有最高的整体性能：ECO[7]，C-COT [11]，MDNet [26]和TCNN [25]。我们首先选择平均IOU小于0的序列。6对于四个跟踪器中的至少两个。我们进一步删除与VOT2017数据集重叠的序列。得到的剩下的73个更简单的视频形成了OTB-E数据集，我们在消融研究中将其用作测试集以及NFS数据集。5.3消融研究我们首先调查的影响，从第3节中的跟踪框架，采用深和浅的功能的意见。为了独立地评估我们的贡献，我们将模型预测与（5）中的模型预测进行融合，并使用固定的权重β。通过改变这些权重，我们可以进一步分析深度的贡献。12Bhat等人OP-0.5，NFS656055500 0.51浅重（个）OP-0.75，NFS3230282624220 0.51浅重（个）OP-0.5，OTB-E98969492900 0.51浅重（个）OP-0.75，OTB-E706560555045400 0.5 1浅重（个）Ours Fusion Ours Sum ECO图5：在IOU阈值为0时使用OP分数的跟踪鲁棒性和准确性的分析。5和0。在NFS和OTB-E数据集上分别为75。我们绘制了我们的方法的性能，使用固定权重（红色）的和融合，针对一系列不同的浅权重βs。这些结果也与基线ECO进行了比较（橙色）和我们的自适应融合（蓝色）。对于广泛的β s值，我们的和融合方法在两个数据集上的鲁棒性优于基线ECO。我们的自适应融合在准确性和鲁棒性方面都达到了最佳性能和浅模型到最终的跟踪精度和鲁棒性。我们采用广泛使用的PASCAL标准作为鲁棒性的指标。它使用IOU阈值0测量成功跟踪帧的百分比。5，相当于OP为0。5. 此外，如果IOU高于0，则我们认为定位是准确的。75，因为这是上半部分[0。75，1]的IOU范围[0. 5， 1]表示成功跟踪的帧。图5绘制了针对浅模型权重βs的不同值的NFS和OTB-E上的如上所述的准确性和鲁棒性指标。在所有情况下，深度权重都设置为βd=1−βs。我们还展示了基线ECO的性能，使用相同的一组深和浅的功能。我们注意到我们的具有固定和融合的跟踪器在宽范围的权重βs下优于基线ECO。这证明了为深度和浅度特征采用专门定制的训练程序的重要性，如第3.5节所述。尽管通过我们对深特征和浅特征的分析获得了上述改进，但我们注意到，最佳鲁棒性和准确性是相互排斥的。并且甚至不能通过仔细选择权重参数βs来获得。虽然浅特征（大βs）有利于准确性，但深特征（小βs）对于鲁棒性至关重要。图5还显示了我们提出的自适应融合方法的结果（第4节），其中模型权重β是动态的。在每帧中计算与使用具有固定权重的和融合相比，我们的自适应方法在不牺牲鲁棒性的情况下实现了更高的精度。图6示出了我们的自适应融合方法的定性示例。5.4推广到其他网络随着深度学习的出现，近年来已经提出了许多网络架构。在这里，我们研究了我们的发现在不同深度网络中的泛化能力。表2显示了所提出的方法和基线 ECO 在三种流行架构上的性能： VGG-M [4] ，GoogLeNet [29]和ResNet-50 [13]。结果以AUC报告成功率（%）成功率（%）成功率（%）成功率（%）揭开深度追踪的神秘面纱13(a) βd= 0。01β s = 0。99（b）βd=0。90β s = 0。10（c）βd= 0。10β s = 0。90（d）βd= 0。87β s = 0。13图6：我们的融合方法的定性示例。针对来自足球序列的四个帧示出了自适应计算的模型权重βd、βs。浅层模型在序列（a）的早期，在任何显著的外观变化之前是突出的。之后，当遇到遮挡、杂波和平面外旋转（b，d）时，我们的融合由于其优越的鲁棒性而强调深度模型。在（c）中，目标经历尺度变化，我们的融合利用浅层模型以获得更好的准确性。表2：我们的跟踪器跨不同网络架构的泛化。结果以NFS和OTB-E数据集上的AUC分数示出。基线ECO未能利用更复杂的架构的能力。相反，我们的方法提供了一致的收益超过ECO时，转向更先进的网络。VGG-MOTB-E NFSGoogLeNetOTB-E NFSResNet-50OTB-E NFSECO74.8 45.374.4 45.474.3 45.7我们74.2 49.776.0 51.678.0 54.1NFS和OTB-E数据集上的分数。ECO未能利用更复杂、更深入的架构：GoogLeNet和ResNet。在ResNet的情况下，我们的方法实现了3的显著增益。7%和8。OTB-E和NFS数据集分别为4%这些结果表明，我们在第3节中的分析和第4节中提出的融合方法可以推广到不同的网络架构。5.5State-of-the-Art在这里，我们将我们的跟踪器与四个具有挑战性的跟踪数据集上的最先进的方法进行补充材料中提供了更多细节VOT2017数据集[16]：在VOT2017上，包含60个视频，在准确性（成功跟踪期间的平均重叠）和稳健性（失败率）方面评估了跟踪性能然后使用融合了准确性和鲁棒性的预期平均重叠（EAO）度量来获得总体排名。评价指标计算为15次运行的平均值（更多详情见[16]表3中的结果在EAO、稳健性和准确度方面给出我们的方法显著优于排名第一的方法LSART，相对增益为17%，实现了EAO评分为0的情况。378. 在鲁棒性方面，我们的方法获得了17%的相对增益相比，LSART。此外，我们在准确性方面取得了最佳结果，证明了我们方法的整体有效性。极品飞车数据集[12]：图7a示出了所有100个视频的成功图。AUC评分报告在图例中在以前的方法中，14Bhat等人我们的[54.1]CCOT [49.2]ECO [47.0]MDNet [42.5]HDT [40.0]FCNT [39.3]SRDCF [35.3]BACF [34.2]吻合钉[33.4]MEEM [29.7][62.2]ECO [60.5]C-COT [59.7]DeepSRDCF [54.1]SRDCF [51.6]吻合钉[50.9]MEEM [50.6]HCF [48.8]SAMF [46.7]DSST [41.1]重叠精度[%]重叠精度[%]表3：在VOT2017基准测试中，在预期平均重叠（EAO）、稳健性（故障率）和准确性方面与最新技术水平进行比较。我们与比赛中排名前10位的选手进行了比较。我们的跟踪器在EAO中获得了17%的显著相对增益，与排名第一的方法（LSART）相比MCPF SiamDCF CSRDCF CCOT MCCT GnetECO CFCF CFWCR LSART我们的EAO0.2480.2490.2560.2670.2700.274 0.2800.2860.3030.3230.378耐用性0.4270.4730.3560.3180.3230.276 0.2760.2810.2670.2180.182准确度0.5100.5000.4910.4940.5250.502 0.4830.5090.4840.4930.532成功图成功图成功图90 90 9080 80 8070 70 7060 60 6050 50 5040 40 4030 30 3020 20 2010 10 1000 0.2 0.4 0.6 0.81重叠阈值(a) NFS00 0.2 0.4 0.6 0.81重叠阈值(b) 办公室12800 0.2 0.4 0.6 0.8 1重叠阈值(c) UAV123图7：NFS（a）、Temple128（b）和UAV123（c）数据集上的成功图。我们的跟踪器在所有数据集上的表现都显着优于最先进的技术。CCOT [11]和ECO [7]的AUC评分为49。2%，47。0%。我们的方法显著优于CCOT，相对增益为10%。Temple128数据集[20]：图7b显示了所有128个视频的成功图在现有的方法中，ECO的AUC得分为60。百分之五我们的方法优于ECO，AUC得分为62。百分之二。UAV123数据集[24]：该数据集由从UAV平台捕获的123个空中跟踪视频组成图7c示出了成功图。在现有的方法中，ECO实现了53的AUC评分。7%。我们的方法通过设置一个新的最先进的AUC为55，优于ECO。0%的百分比。6结论我们进行了系统的分析，以确定视觉跟踪的深度特征低于预期性能的关键原因。我们的分析表明，单独定制浅层和深层特征的训练对于获得高鲁棒性和准确性至关重要。我们进一步提出了一种新的融合策略，结合深和浅的外观模型，利用其互补的特点。在四个具有挑战性的数据集上进行实验。我们的实验结果清楚地证明了所提出的方法的有效性，导致所有数据集上的最先进的性能。致谢：这项工作得到了瑞典战略研究基金会（SymbiCloud）、瑞典研究委员会（EMC 2，起始资助2016-05543）、CENIIT资助（18.14）、瑞典国家计算基础设施和Wallenberg AI，自治系统和软件计划的支持。我们的[55.0]ECO [53.7]C-COT [51.7]SRDCF [47.3]吻合钉[45.3]ASLA [41.5]SAMF [40.3][39.9]MEEM [39.8]被击中[38.7]重叠精度[%]揭开深度追踪的神秘面纱15引用1. 贝尔蒂内托湖Valmadre，J.，Golodetz，S.，Miksik，O.，Torr，P.H.S.：Staple：用于实时跟踪的补充学习器见：CVPR（2016）2. 贝尔蒂内托湖Valmadre，J.，Henriques，J.F.，Vedaldi，A.，Torr，P.H.：用于目标跟踪的全卷积连体网络在：ECCV研讨会（2016）3. Bolme，D.S.，贝弗里奇，J.R.，德雷珀，文学士，吕耀明：使用自适应相关滤波器的视觉目标跟踪。在：CVPR（2010）4. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：中的魔鬼回归详情：深入研究卷积网络。arXiv预印本arXiv：1405.3531（2014）5. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。载于：CVPR（2005年）6. Danelljan，M.， Bhat，G.， Gladh，S.， Khan，F.S.， Felsberg，M.：用于视觉跟踪的深度运动和外观线索。模式识别字母（ 2018 ）。https://doi.org/10.1016/j.patrec.2018.03.0097. Danelljan，M.，Bhat，G.，Shahbaz Khan，F.，Felsberg，M.：ECO：用于跟踪的高效卷积算子在：CVPR（2017）8. Danelljan，M.，Hager，G.，Khan，F.S.，Felsberg，M.：判别尺度空间跟踪。IEEE Transactions on Pattern Analysis and Machine Intelligence（2016）9. 当我在这里的时候，M.， H¨a g e r，G.， ShahbazKhan，F.， Felsberrg，M. ：用于基于相关滤波器的视觉跟踪的卷积算法在：ICCV研讨会（2015）10. 当我们在一起时， M. ， H g e r ，G. ， ShahbazKhan ， F. ， Felsberrg ， M.Learninggspatily正则化相关滤波器用于视觉跟踪。In：ICCV（2015）11. Danelljan，M.，Robinson，A.，Khan，F.，Felsberg，M.：超越相关滤波器：学习用于视觉跟踪的连续卷积算子。In：ECCV（2016）12. 香港加卢加希Fagg，A.，黄，C.， Ramanan，D. Lucey，S.：速度需求：更高帧率目标跟踪的基准。2017 IEEE国际计算机视觉会议（ICCV）。pp. 1134-1143。IEEE（2017）13. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77014. Held，D. Thrun，S.，Savarese，S.：学习使用深度回归网络以100 fps的速度跟踪。In：ECCV（2016）15. Hong，Z.，陈志，Wang，C.，中国地质大学，Mei，X.，Prokhorov，D.，Tao，D.：多悬挂物跟踪器（集合）：一种受认知心理学启发的对象跟踪方法。在：IEEE计算机视觉和模式识别会议的进展。 pp. 74916. Kristan，M.， Leonardis，A.，妈妈，J。， Felsberg，Pflu g felder，R.， M.，Cˇehovin，L.，Voj'ır，T. 和H g e r，G.，是的。这些病毒会导致2017年的所有结果。In：ICCV workshop（2017）17. Kristan，M.，妈妈，J。， Leonardis，A.， Voj'ı r，T.， Pflu g felder r，R. P.Ferna'ndez，G.，Nebehay，G.，Porikli，F.，Cehovin，L.：一种新的单目标跟踪器性能评估方法。TPAMI38（11），213718. Li，H.，李，Y.，Porikli，F.：Deeptrack：学习判别特征表示通过卷积神经网络进行视觉跟踪。电影BMVC（2014）19. 李，Y.，Zhu，J.：一种基于特征融合的尺度自适应核相关滤波跟踪器。欧洲计算机视觉会议。pp. 254-265. Spuringer（2014）16Bhat等人20. Liang，P.，Blasch，E.，Ling，H.：编码用于视觉跟踪的颜色信息：算法和基准。TIP24（12），563021. Lukeˇziˇc，A.， Voj´ıˇr，T.， Cˇehovin，L.，妈妈，J。， Kristan，M. ：Discr iminatve crre-具有信道和空间可靠

下载后可阅读完整内容，剩余1页未读，立即下载