跟踪模型优化技术及性能评估

48 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6718循环优化跟踪模型杨天宇1，2徐鹏飞3胡润波3柴华3安东尼B。陈21腾讯人工智能实验室2香港城市大学3滴滴出行摘要在本文中，我们设计了一个跟踪模型，包括响应生成和边界框回归，其中第一部分产生一个热图，以指示对象在不同位置的存在，第二部分回归相对边界框移动到安装在滑动窗口位置的锚。由于在两个组件中使用了可调整大小的卷积滤波器来适应对象的形状变化，我们的跟踪模型不需要枚举不同大小的锚点，从而节省了模型参数。为了有效地使模型适应外观变化，我们提出离线训练一个递归神经优化器来更新元学习设置中的跟踪模型，它可以在几个梯度步骤中收敛模型。这提高了更新跟踪模型的收敛速度，同时实现更好的性能。我们在OTB、VOT、LaSOT、GOT-10K 和 TrackingNet 基准上对我们的跟踪器 ROAM 和ROAM++进行了广泛的评估，我们的方法与最先进的算法相比表现良好。1. 介绍通用视觉对象跟踪是在视频序列中仅给定目标的初始位置来估计目标的边界框通常，从第一帧学习的初步模型需要连续更新以适应由旋转、照明、遮挡、变形等引起的目标的外观变化。然而，随着跟踪的进行，有效地优化初始学习模型具有挑战性。用于模型更新的训练样本通常基于估计的边界框来收集，这可能是不准确的。这些小误差将随着时间的推移而积累，逐渐导致模型退化。为了避免模型更新，这可能会引入破坏模型的不可靠的训练样本，几种方法[4，43]通过仅比较第一帧与后续帧来研究跟踪，使用基于学习的判别式和不变的深连体特征嵌入的相似性函数。然而，由于在长期跟踪中通常出现的剧烈外观变化，训练这样的其他方法要么通过模板的指数移动平均值更新模型[16，44]，这稍微提高了性能，要么用手工设计的SGD方法优化模型[33，41]，这需要多次迭代才能收敛，从而阻止实时速度。限制SGD迭代次数可以实现接近实时的速度，但代价是由于损失函数没有充分优化而导致模型更新质量差。近年来，人们在利用鲁棒的在线学习分类器定位目标方面做了大量的工作，而很少关注设计精确的包围盒估计。大多数跟踪器简单地采取多尺度搜索，假设对象的长宽比在跟踪过程中不会改变，这在现实世界中经常被违反。最近，SiamRPN [23]借用了对象检测中的区域建议网络[ 37 ]的思想，将跟踪任务分解为两个分支：1）将目标从背景中分类，以及2）基于参考安装在不同位置上的锚框来回归精确的边界框。如VOT基准测试[19，20]所示，SiamRPN在边界框估计方面实现了更高的精度，但由于没有在线模型更新，因此与最先进的方法[8，9，26]相比鲁棒性较低此外，SiamRPN在特征图的每个空间位置上安装具有不同纵横比的锚，以处理可能的形状变化，这在计算和存储方面都是冗余的。在本文中，我们提出了一个跟踪框架，它是由两个模块组成：响应生成和边界框回归，其中第一部分产生一个响应地图，以指示覆盖的锚框安装在滑动窗口位置的对象的可能性，和第二部分预测边界框移动从锚，以获得细化矩形。我们建议每个位置仅使用一种尺寸的锚钉，而不是像SiamRPN中那样列举锚钉的不同长宽比，该方法通过双线性插值来消除相应卷积滤波器的形状变化，节省了模型参数和计算时间。为了有效地使跟踪模型适应跟踪过程中的外观变化，我们提出了一种递归模型优化方法，以学习更有效的梯度下降，该方法可以在1-2步内收敛模型更新，并更好地推广到未来的帧。关键的想法是训练一个神经优化器，可以控制-6719在几个梯度步骤中将跟踪模型边缘化到好的解决方案在训练阶段，首先使用神经优化器更新跟踪模型，然后将其应用于未来帧以获得用于最小化的误差信号。在此特定设置下，所得优化器使跟踪分类器比基于SGD的优化器显著更快地收敛，特别是对于学习初始跟踪模型。总的来说，我们的贡献是：我们提出了一个跟踪模型，由可调整大小的响应生成器和边界框回归器，其中只有一个大小的锚是在每个空间位置上使用，其相应的卷积滤波器可以适应形状变化的双线性插值。我们提出了一个递归神经优化器，它是在元学习设置中训练的，它以更快的收敛速度递归地更新跟踪模型。我们在 OTB 、 VOT 、 LaSOT 、 GOT10k 和TrackingNet等大规模数据集上进行了全面的实验，与现有技术相比，我们的跟踪器取得了良好的性能。2. 相关工作视觉跟踪预测热图以指示对象的位置通常用于视觉跟踪社区[3，4，4，9，13，16，45]。其中，SiamFC[4]是最流行的方法之一，由于其速度快，性能好然而，大多数基于响应生成的跟踪器，包括SiamFC，通过简单的多尺度搜索机制估计边界框，这是无法处理纵横比的变化。为了解决这个问题，最近的SiamRPN[23]及其扩展[11，22，52]提出像在对象检测[37]中一样训练边界框回归器，表现出令人印象深刻的性能。与在每个空间位置上枚举一组具有不同长宽比的预定义锚点不同，我们采用了一个可调整大小的锚点来适应物体形状的变化，从而节省了模型参数和计算时间。在线模型更新是SiamFC缺乏的另一个重要模块。最近的工作通过引入各种模型更新策略来改进SiamFC[ 4 ]，包括通过卷积LSTM [48]，动态记忆网络[49，50]，其中对象信息写入可寻址外部存储器并从其读取目标模板过滤器的重复生成，以及分心物感知增量学习[53]，其利用硬负项。在目标周围装上金属板来抑制干扰物应该注意的是，所有这些算法本质上都是通过用新生成的目标模板线性插值旧的目标模板来实现与使用梯度下降的优化方法相比，这远远不是最优的，梯度下降直接使跟踪损失最小化以适应新的目标外观。代替使用Siamese网络来构建卷积滤波器，其他方法[26，34，41]通过执行gra来生成滤波器。在第一帧上的梯度下降，这可以在随后的帧期间连续优化特别是，[34]提出在元学习设置中训练初始但是，在后续帧中，仍然采用传统的SGD算法对跟踪模型进行优化，对新出现的图像适应能力差，模型更新速度慢与这些跟踪器相比，我们的离线学习递归神经优化器在初始模型和模型更新上都应用了元学习，这使得模型初始化和更新只需一个或两个梯度步骤，从而获得更快的运行速度和更好的准确性。学会学习。学习学习或元学习有着悠久的历史[2，32，38]。随着最近将元学习应用于少数分类[31，36]和强化学习[12，39]的成功，它重新受到关注。开创性的工作[1]设计了一个离线学习的优化器，使用梯度下降，并显示出有前途的性能相比，传统的优化方法。然而，它不能很好地推广大量的下降步骤。为了缓解这个问题，[28]提出了几种训练技术，包括参数缩放和与凸函数的组合，以协调优化器的学习过程。[46]还通过设计具有动态适应输入和输出缩放的分层RNN架构来与其他为每个参数更新输出增量的作品相比，由于梯度尺度不同，容易出现过拟合，我们将递归神经网络产生的自适应学习率与计算的梯度相关联，以快速收敛模型更新。3. 该算法我们的跟踪器由两个主要模块组成：1）可调整大小以适应形状变化的跟踪模型;以及2）负责模型更新的神经优化器。跟踪模型包含两个分支，其中响应生成分支通过预测置信度得分图来确定目标的存在，并且边界框回归分支通过回归安装在滑动窗口位置上的框锚的坐标移位来离线学习的神经优化器使用元学习框架进行训练，以在线更新跟踪模型，以便适应外观变化。请注意，响应生成和边界框回归都建立在从主干CNN网络计算的特征图上。整个框架简要说明图。13.1. 可调整大小的跟踪模型相关滤波器[16]和MetaTracker [34]等跟踪器这个设定是基于这样的假设：···6720W⌈⌉`（t−1）Meta损失帧特征提取器跟踪模型预测标签特征F ... F...Fθ（t−1）（t−1）cfn（t−1）更新损失历史帧1iNθreg-Oθ（t−1）`（t−1）B1 我... BN未来帧特征F（t+δ）θ（t）温度范围（t）cf温度范围（t）regM（t+δ）B（t+δ）图1：ROAM++的管道给定一小批训练块，这些训练块基于预测的对象框进行裁剪，提取深度特征作者：Featur eExt r actor. 固定大小的跟踪模型θ（t-1）被收缩到当前目标大小，产生收缩的跟踪模型θ（t-1），如（2，3）中所示。然后使用θ（t−1）预测每个样本的响应图和边界框，使用地面真值标签计算更新损失θ（t−1）及其梯度θ（t−1）接下来，将由先前的学习率、当前参数、当前更新损失及其梯度组成的按元素的堆栈I（t-1）输入到按坐标的LSTM O中，以生成如（11）中的自适应学习率λ（t-1）。然后，使用一个梯度下降步骤（由f表示）来更新模型，如（9）中所示。最后，我们在随机选择的未来帧上应用更新的模型θ（t），以获得如（13）中的最小化的Meta损失。在跟踪过程中，目标的期望比不发生变化，但这经常被违反。因此，动态地使卷积滤波器适应对象形状变化是期望的，这意味着滤波器参数的数量可以在视频中的帧之间以及在不同序列之间变化。然而，当为每个滤波器使用单独的学习率时，这使神经优化器的设计复杂化其中，使用双线性插值将卷积滤波器的大小调整为φ=（fr，fc）。滤波器大小根据先前图像块中的对象的宽度和高度（w，h）来计算（并且对于对称性，滤波器大小是奇数），ρh ρhfr=c−cmod 2+1，（4）参数.为了简化元学习框架并更好地考虑每个参数的学习率，我们定义了fc=ρwcρwc以2+1方式调整的方案（5）- 固定形状的卷积滤波器，其在与特征图进行卷积之前使用双线性插值被扭曲到期望的目标大小。在后续帧中，循环优化器更新固定形状跟踪模型。请注意，MetaTracker [34]也会调整滤波器的大小以适应模型初始化的对象大小，然而，MetaTracker在后续帧中保持与初始滤波器相同的形状，而不是动态地将卷积滤波器调整为后续帧的对象大小具体地，跟踪模型θ包含两个部分，即相关滤波器θcf和边界框回归滤波器θreg。它们都被扭曲以适应目标的形状变化θ=[θcf，θreg]，（1）其中ρ是用于扩大滤波器大小以覆盖一些上下文信息的比例因子，并且c是特征图的步幅由于可调整大小的过滤器，在执行边界框回归时，不需要枚举锚框的不同纵横比和尺度。我们只在每个空间位置上使用一个大小的锚点，其大小对应于回归滤波器的形状（aw，ah）=（fc，fr）/ρ，（6）这节省了回归滤波器参数，并实现了更快的速度。注意，我们每τ帧更新滤波器大小及其对应的锚框，即，在每次模型更新之前，在离线训练和测试/跟踪阶段。通过这种修改，我们可以初始化-θcfθ˜=W（θcf=W（θ，φ），（2），φ），（3）M1... 我... MN（t−1）λ（t−1（吨）CNNCNNregreg6721使用θ（0）对跟踪模型进行调整，并在后续帧中对其进行循环优化，而无需担心形状跟踪对象的变化。6722⊙我O·−（吨）我N3.2. 递归模型优化传统的优化方法由于学习速率小、学习空间有限，存在收敛速度θ（t−1），是元素乘法。学习率是使用LSTM递归生成的，其输入包括先前的学习率λ（t−2）、当前的学习率λ（t参数θ（t−1）、当前更新损耗θ（t−1）及其梯度，训练样本，同时简单地提高学习率有训练损失的风险。相反地，成分θ（t−1）（t−1），我们设计了一个递归神经网络优化器，它被训练成在几个梯度内收敛到一个好的解。（t−1）=[λ （t−2），<$θ（t−1）<$（t−1），θ（t−1），n（t−1）]、（10）步骤1，更新跟踪模型。我们的关键思想是基于这样一个假设，即最好的优化器应该能够更新模型，以便在未来的帧上很好地泛化。在离线训练阶段，我们使用我们的递归神经优化器对跟踪模型执行一步梯度更新，然后最大限度地一旦离线学习阶段完成，我们就使用这个学习过的神经优化器来循环更新跟踪模型，以适应外观变化。以这种方式训练的优化器将能够快速收敛模型更新λ（t−1）=σ（O（I（t−1）;ω）），（11）其中（; ω）是由ω参数化的坐标式LSTM [1]，它在所有输入维度上共享参数，σ是限制预测学习率的S形函数。 LSTM输入（t-1）形成通过沿新的轴2逐元素地堆叠4个子输入。当前更新损失Δ t（t-1）是从n个更新样本的小批量计算的，以很好地概括未来的帧跟踪。我们将响应生成网络表示为G（F;θcf，φ），将边界框回归网络表示为R（F;θreg，φ），其中F是特征图输入（t−1）=1Σnnj=1L（Fj，Mj，Bj;θ（t−1），φ（t−1）），（12）和θ是参数。跟踪损失包括两个部分：响应损失和回归损失，L（F，M，B;θ，φ）=<$G（F;θcf，φ）−M<$2+其中，收集更新样本（Fj，Mj，Bj其中τ是帧间隔在模型更新期间进行在线跟踪。最后，我们在一个随机选择的模型上测试新更新的模型θ（t）。θ R（F;θreg，φ）−Bs（七）未来帧3并获得Meta丢失，其中，第一项是L2损失，第二项是平滑L1损失[37]，B表示地面真值（吨）=L（F（t+δ），M（t+δ），B（t+δ）;θ（t），φ（t−1）），（十三）盒子注意，我们采用了参数化的边界框坐标[37]。M是使用2D高斯函数以及地面实况对象位置（x0，y0）和大小（w，h）构建的对应标签图，其中δ在[0，τ1]内随机选择。在线下培训阶段，我们执行上述-在小批量视频上执行预定过程并获得平均Meta丢失以优化神经优化器，.M（x，y）=exp−α.（x−x0）22XΣΣ（y−y0）22y（八）<$=1NTLVi，（14）其中（σx，σy）=（w/c，h/c），α控制响应图的形状。请注意，我们在测试期间执行模型更新时我们只在离线训练中使用地面实况。典型的跟踪过程使用历史训练示例来更新跟踪模型，然后在后续帧上测试该更新的模型，直到下一次更新。我们通过循环优化跟踪模型，然后在未来的框架上进行测试，在元学习范式中模拟这种情况。具体地，跟踪网络通过以下方式更新：θ（t）=θ（t−1）−λ（t−1）<$$>θ（t−1）<$（t−1），（9）其中，λ（t-1）是与跟踪模型参数具有相同维度1我们在实验中只使用一个梯度步骤，而考虑多个步骤是简单的。σσLL+不6723VVOLi=1t=1其中N是批量大小，T是模型更新的数量，ip（）是从训练集中采样的视频剪辑。应当注意，初始跟踪模型参数θ（0）和初始学习速率λ（0）也是训练的。能够变量，这些变量与神经优化器共同学习. 通过最小化平均Meta损失，我们旨在训练神经优化器，其可以更新跟踪模型以在后续帧上很好地概括，以及学习跟踪模型的有益初始化，其广泛适用于不同的任务（即，视频）。整个训练过程在算法1中详细描述。2因此，我们得到|θ|× 4矩阵，其中|θ|是θ中的参数数。注意，当前更新损耗<$（t-1）被广播为具有与其他向量兼容的形状为了更好地理解这个过程，我们可以将LSTM的输入视为一个小批量向量，其中|θ|是批量大小，4是输入向量的维度。3我们发现，使用多个未来帧并不能提高性能，但在离线训练阶段花费更多时间。6724VV（0）OLLL−−ǫǁ − ǁU−L{···−}←θO-λ算法1我们框架输入：p（）：通过培训录像分发。输出量：θ（0），λ（0）：初始跟踪模型和学习率。ω：递归神经优化器。一曰：初始化所有网络参数。2：不做就做无RFS预测学习率关于RFS预测学习率3：画一个小批量的视频：Viblog（V）图2：离线训练4：所有我5：计算θ（一）（0）（0）（9）.（右），而不是产生类似的学习率SIM-6：计算Meta损失（1）使用（13）。7：对于t=1+τ，1+2τ，，1+（T1）τdo8：使用神经优化器计算自适应学习率λ（t-1），如（11）所示。9：使用（9）计算更新的模型θ（t）10：计算Meta损失（t）使用（13）。11：结束12：结束13：使用公式14 计算平均Meta损失。14：通过计算<$的梯度更新θ（0），λ（0），ω。15：结束while3.3. 随机滤波器缩放由于过度拟合，神经优化器很难很好地概括新任务，如[1，28，46]中所讨论的。通过分析神经优化器的学习行为，我们发现我们初步训练的优化器将预测类似的学习率（见图1）。2左）。我们将此归因于对具有相似量级的网络输入的过拟合。下面这个简单的例子说明了...拟合问题。假设神经优化器最小化的目标函数4是g（θ）=xθy2。最佳的元素学习率是1/2x2，因为我们可以在一个梯度下降步骤中实现最低的损失0 θ（t+1）=θ（t）1/2x2g（θ（t））= y/x。注意，opti-错误学习率取决于网络输入x，因此如果所学习的神经优化器没有看到x的足够的幅度变化，则其倾向于过拟合。为了解决这个问题，我们将跟踪模型θ与随机采样的向量θ相乘，该向量在离线训练的每次迭代期间具有与θ相同的维度[28其中（κ，κ）是区间内的均匀分布，[κ，κ]，κ是控制标度范围的范围因子然后将目标函数修改为g（θ）=g（θ）。以这种方式，网络输入x在实践中被间接缩放而不修改训练样本（x，y）因此，学习的神经优化器被迫预测自适应学习。对不同数量级的输入进行比较（见图1）。2[4]我们在（7）中的实际损失函数包括L2损失和平滑L1损失;为了简单起见，这里我们考虑一个具有L2损失的简单线性模型。对输入进行线性化，提高了算法的泛化能力。4. 通过建议的框架进行在线跟踪离线训练产生神经优化器、初始跟踪模型θ（0）和学习率λ（0），然后我们使用它们来执行在线跟踪。整体流程类似于离线训练，除了我们不计算Meta损失或其梯度。模型初始化。给定第一帧，初始图像块被裁剪并以所提供的地面实况边界框为中心。然后，我们通过将对象拉伸到不同的长宽比和尺度来将初始具体地，目标被拉伸[swr，sh/r]，其中（w，h）是初始对象宽度和高度，并且（s，r）是比例和纵横比因子。然后我们使用这些示例以及离线学习的θ（0）和λ（0）来执行一步梯度更新以构建如（9）中的初始模型θ（1）边界框估计。我们首先通过响应生成找到目标的存在，然后通过边界框回归预测准确的框来估计对象边界框我们在生成的响应上采用[23]中使用的惩罚策略，以抑制尺度和纵横比变化较大的估计框。此外，我们还将响应图乘以类高斯运动图以抑制大的运动。由对应于响应图的最大得分的锚计算的边界框是最终预测。为了使结果平滑，我们将这个估计的对象大小与前一个进行线性插值。我们将我们的具有边界框回归的神经优化跟踪模型表示为ROAM++。我们还设计了跟踪器的基线变体，它使用多尺度搜索来估计对象框而不是边界框回归，并将其表示为ROAM。模型更新。我们每τ帧更新模型。虽然离线训练使用之前的τ帧来执行模型的一步梯度更新，但在实践中，我们发现使用多个步骤可以进一步提高跟踪过程中的性能（参见第二节）。6.2）。因此，我们在实验中采用了使用前2τ帧的两步梯度更新。训练步骤6725CSO×× ×--× × × × ××5. 实现细节补丁裁剪。给定对象（x0，y0，w，h），图像块的ROI具有相同的中心。10.90.80.70.60.5OPE的精密度图10.90.80.70.60.5OPE的成功图ter（x0，y0）并取更大的尺寸S=Sw=Sh=γ wh，0.40.4其中γ是ROI比例因子。然后，将ROI的大小调整为用于批量处理的固定大小S × S网络结构。我们使用前12个卷积层-0.30.20.100 10 2030 40500.30.20.1000.2 0.40.6 0.8 1[16]第16话：一个人，一个人。定位误差门限重叠阈值托尔移除顶部的最大池化层以增加特征图的空间分辨率。响应生成网络和边界框回归网络都由两个卷积层组成，第一层是降维层512 64 1 1（内通道、外通道、高度、宽度），第二层是相关层64 1 21 21或回归层6442121分别作为第二层。我们使用两个堆叠的LSTM层，其中20个隐藏单元用于神经优化器O。ROI比例因子为γ=5，搜索大小为= 281.滤波器大小的比例因子为ρ=1。五、响应生成使用α = 20，CNN特征提取器的特征步幅为c=4。用于初始图像块增强的尺度和纵横比因子s、r选自0。八一一2，生成9对（s，r）的组合。RFS中使用的范围因子为κcf=1。6，κreg=1。35岁。培训详情。我们使用ADAM [18]优化，在4个GPU上使用16个长度为31的视频片段（每个GPU 4个视频）来训练我们的框架。我们使用 ImageNet VID[21]，TrackingNet [30]，LaSOT [10]，GOT10k [17]，ImageNet DET [21]和COCO [25]的训练分割训练在训练过程中，我们随机提取视频数据集的连续序列片段，并重复相同的静止图像以形成图像数据集的视频片段。请注意，我们通过轻微拉伸和缩放图像来随机增强训练剪辑中的所有帧。我们使用1 e-6的学习率作为初始回归参数θ（0）和初始学习率λ（0）。对于递归神经优化器，我们使用1 e-3的学习率。两种学习率每5个epoch都乘以0.5。我们使用PyTorch工具箱[35]在Python中实现我们的跟踪器，并在具有NVIDIA RTX2080 GPU和Intel（R）Core（TM）i9 CPU@3.6 GHz的计算机上进行实验。我们的跟踪器ROAM和ROAM++分别以13 FPS和20 FPS运行。(See详细速度比较的补充资料）6. 实验我们在六个基准上评估我们的跟踪器：OTB-2015[47]，VOT-2016 [19]，VOT-2017 [20]，LaSOT [10]，GOT-10k [17]和TrackingNet [30]。5由于两个分支中参数的大小不同，我们对θcf和θreg使用不同的范围因子κ图3：OTB-2015上的精度和成功图。VOT-2016VOT-2017EAO（↑）A（↑）R（↓）EAO（↑）A（↑）R（↓）关于我们0.4410.5990.1740.3800.5430.195漫游0.3840.5560.1830.3310.5050.226MetaTracker0.3170.519----DaSiamRPN0.4110.610.220.3260.560.34SiamRPN+0.370.580.240.300.520.41C-RPN0.3630.594-0.289--SiamRPN0.3440.560.260.2440.490.46ECO0.3750.550.200.2800.480.27DSLT0.3430.5450.219---CCOT0.3310.540.240.2670.490.32钉0.2950.540.380.1690.520.69嵴0.2830.510.25---MemTrack0.2720.5310.3730.2480.5240.357SiamFC0.2350.5320.4610.1880.5020.585表 1 ： VOT-2016/2017 的结果。评价指标为期望平均重叠值（EAO）、准确度值（A）、鲁棒性值（R）。表现最好的3个跟踪器分别用红色、绿色和蓝色着色6.1. 与最新技术我们将我们的ROAM和ROAM++与最近基于响应生成的跟踪器进行了比较，包括 MetaTracker [34] 、Duplex [26]、MemTrack [49]、CREST [41]、SiamFC[4]、CCOT [9]、ECO [8]、Staple [3]以及最新技术水平的跟踪器，包括 OTB 和 VOT 数据集上的SiamRPN[23]、DaSiamRPN [53]、SiamRPN+ [52]和C-RPN [11]。对于使用SGD更新的方法，SGD步骤的数量遵循其实现。OTB 图3呈现了OTB- 2015数据集上的实验结果，该数据集包含具有11个注释的视频属性的100个序列。我们的ROAM和ROAM++都达到了与顶级ECO相似的AUC，并优于所有其他跟踪器。具体而言，我们的ROAM和ROAM++分别超过MetaTracker [34]，这是使用传统优化方法进行模型更新的元学习跟踪器的基线，在成功图上分别为6.9%和6.7%，证明了所提出的循环模型优化算法和可调整大小的边界框回归的有效性。此外，我们的ROAM和ROAM++的性能都大大优于最近基于 Meta 学习的跟踪器 MLT[7]（ROAM/ROAM++：0.681/0.680 vs MLT：0.611）以下OTB-2015的AUC指标VOT。表1显示了VOT-2016和VOT-2017数据集的比较性能。我们的ROAM++在VOT-2016和VOT-2017上精度成功率SiamRPN+ [0.923]ECO [0.910][0.908]价格[0.907]ROAM++[0.904]CCOT [0.898]DasiamRPN [0.881]MetaTrader 5[0.856]C-RPN [0.853]SiamRPN [0.851]冠[0.838]MemTrack [0.820]吻合钉[0.784]澳门银河[0.771]ECO [0.691][0.681]浏览++[0.680]CCOT [0.671]SiamRPN+[0.665]DasiamRPN[0.658]价格[0.658]C-RPN [0.639]MetaTrader 5[0.637]SiamRPN [0.637]MemTrack [0.626]冠[0.623]SiamFC [0.582]吻合钉[0.581]6726都获得了最佳EAO特别是67270.6OPE的精密度图0.8OPE的成功图Staple CSRDCF ECOhc ECO SiamFC CFNet MDNetROAM ROAM++0.50.7[3]第一章[27日][八]《中国日报》[八]《中国日报》[4]美国[第四十四届][33个]0.40.60.5AUC（↑）0.5280.5340.5410.5540.5710.5780.6060.6200.670预处理（↑）0.4700.4800.4780.4920.5330.5330.5650.5470.623诺姆预处理（↑） 0.6030.6220.6080.6180.6630.654 0.7050.695 0.7540.30.20.10.40.30.20.1表3：TrackingNet上的结果。评价指标包括成功图的曲线下面积（AUC）、精密度、标准化精密度。表现最好的三个跟踪器分别用红色、绿色和蓝色表示005101520253035404550000.10.20.30.40.50.60.70.80.91OPE的成功图1OPE的成功图1定位误差门限重叠阈值0.80.8图4：LaSOT测试数据集0.60.6MDNet CF2ECO CCOT GOTURN SiamFC SiamFCv2ROAMROAM++0.40.4[33个][29日][八]《中国日报》[9]第一章[第十五条][4]美国[第四十四届]AO（↑）0.2990.315 0.316 0.3252019 -03- 2400：00：00SR 0。5（↑）0.3030.297 0.3090.3282016 - 05 - 2400：00：00SR 0。75（↑）0.0992017年12月31日2016年12月31日0.2000.2 0.4 0.6重叠阈值0.2000.2 0.4 0.6重叠阈值表2：GOT-10 k的结果评估指标包括平均重叠（AO），成功率为0.5重叠阈值。(SR0的情况。5），重叠阈值为0.75时成功率最高。(SR0的情况。75）。表现最好的三个跟踪器分别用红色、绿色和蓝色表示。我们的ROAM++和ROAM与基于RPN的没有模型更新的跟踪器相比，在鲁棒性值上表现出更好的性能，证明了我们的递归模型优化方案的有效性。此外，我们的ROAM++和ROAM在VOT- 2016的EAO上的表现分别优于基线MetaTracker [34LaSOT LaSOT [10]是最近提出的大规模跟踪数据集。我们根据基准测试的前10名性能跟踪器[10]评估我们的 ROAM ，包括 MDNet [33] ， VITAL [42] ，SiamFC [4]，StructSiam [51]，DSiam [14]，SINT [14]，ECO [8]，STRCF [24]，ECOHC[8][9][10][11][12][14][15][16][17][18][19280个视频图4给出了LaSOT测试集上的精度图和成功图的比较结果。我们的ROAM++在基准测试中与最先进的跟踪器相比取得了最好的结果，在精度图和成功图上分别提高了19.3%和12.6%，超过了第二好的MDNet- 一万。GOT-10 k [17]是最近提出的用于对象跟踪的大型高度多样化数据集。训练集和测试集之间的对象类别没有重叠，这遵循一次性学习设置[12]。因此，在其在线服务器上测试跟踪器按照他们的协议，我们只使用这个数据集的训练分割来训练我们的ROAM。表2显示了GOT-10 k测试数据集的详细比较结果。我们的ROAM++和ROAM都以很大的优势超过了其他跟踪器。特别是，我们的ROAM++获得了0.465的AO，SR 0。第50.532和SR 0 。75的0.236，优于SiamFCv2，分别提高24.3%、31.7%和63.9%追踪网。TrackingNet [30]通过过滤来自Youtube-BB[5]的较短视频剪辑，提供了超过30 K的视频，其中约有14 M密集的边界框注释。表3给出了Tracking- ingNet测试数据集的详细比较结果。我们的ROAM++超越了其他国家-[0.445] ROAM++[0.373] MDNet[0.368]漫游[0.360]生命[0.339]暹罗足球俱乐部[0.333] StructSiam[0.322] DSiam[0.301] ECO[0.298] STRCF[0.295] SINT[0.279] ECO_HC[0.259] CFNet[0.447] ROAM++[0.397] MDNet[0.390]漫游[0.390]生命[0.336]暹罗足球俱乐部[0.335] StructSiam[0.333] DSiam[0.324] ECO[0.314] SINT[0.308] STRCF[0.304] ECO_HC[0.275] CFNetROAM-oracle [0.742]澳门金沙城中心[0.699]价格[0.675]新加坡元[0.636]ROAM-w/o RFS [0.636]价格[0.675]ROAM-GRU [0.668]ROAM-FC [0.647]ROAM-ConstLR [0.612]精度成功率成功率成功率6728图5：使用不同ROAM变体的OTB-2015消融研究最先进的跟踪算法对所有三个评估指标。详细地说，我们的ROAM++在AUC、精度和归一化精度上分别比性能最好的跟踪器 MDNet提高了10.6%、10.3%和6.9%。6.2. 消融研究为了更深入的分析，我们从各个方面研究我们的跟踪器请注意，为了简单起见，所有这些消融都只在ImageNet VID数据集上训练。不同模块的影响。To verify the effective- ness ofdifferent modules, we design four variants of ourframework: 1) SGD: replacing recurrent neural optimizerwith traditional SGD for model updating (using the samenumber of gradient steps as ROAM); 2) ROAM-w/o RFS:training a recurrent neural optimizer without RFS; 3)SGD- Oracle: using the ground-truth bounding boxes tobuild updating samples for SGD during the testing phase(using the same number of gradient steps as ROAM); 4)ROAM- Oracle: using the ground-truth bounding boxes tobuild up- dating samples for ROAM during the testingphase.结果如图所示。5（左）。与基线SGD相比，ROAM在AUC上获得了约6%的改善在离线训练过程中没有RFS，跟踪性能由于过拟合而大幅下降。ROAM-Oracle的性能优于SGD-Oracle，这表明在相同的更新样本下，我们的离线学习神经优化器比传统的SGD方法更有效此外，这两种算法（SGD-oracle和ROAM-oracle）的AUC得分均高于其正常版本，表明可以通过提高更新样本的质量来提高跟踪精度。Neural Optimizer的架构为了研究神经优化器的更多架构，我们提出了我们方法的三种变体：1）ROAM-GRU：使用两个堆叠的门控递归单元（GRU）[6]作为我们的神经优化器;2) ROAM-FC：使用两个线性全连接层，67290.70.670.640.610.58不同梯度阶跃ROAMSGD（7e-6）新加坡元（7e-7）0 2 4 6 8 10 12 1416迭代图6：AUC与OTB-2015上的梯度步骤。图8：OTB-2015上初始学习率和更新学习率的直方图0.40.200.60.40.20Car2402000帧号0.150.10.0500.40.20鹿050帧号0.150.10.0500.30.20.10鱼0200400帧号0.30.20.100.40.20跳0 200帧号用于模型优化。为什么ROAM可以工作？如[34]中所讨论的，直接使用学习的初始学习率λ（0）在后续帧中进行模型优化可能会导致发散。这是因为模型初始化的学习速率相对大于后续帧所需的学习速率，因此导致模型优化不稳定。图7：ROAM和SGD之间的更新丢失（顶行）和Meta丢失（底行）比较。用双曲正切激活函数作为神经网络优化器;3) ROAM-ConstLR：使用学习的恒定元素学习率进行模型优化，而不是自适应生成的学习率。图5（右）显示了结果。使用 ROAM-GRU略微降低了AUC，而ROAM-FC与ROAM相比具有显著更低的AUC，显示了我们的递归结构的重要性。此外，ROAM-ConstLR的性能下降验证了使用自适应学习率进行模型更新的必要性。更新中的更多步骤在离线训练期间，我们只执行一步梯度下降以优化更新损失。我们研究了在ROAM和SGD的测试阶段使用多个梯度步长对跟踪性能的影响（见图1）。（六）。我们的方法可以通过多个步骤进一步改进，但当使用太多步骤时会逐渐减少。这是因为我们的框架在离线阶段没有经过训练来执行这么多我们还为SGD使用了两个固定的学习率，其中较大的是7 e-66，较小的是7 e-7。使用较大的学习率，SGD可以比使用较小的学习率更快地达到其最佳性能，而两者具有相似的最佳AUC。我们的ROAM始终优于SGD（7 e-6），显示了自适应元素学习率的优越性。此外，具有1-2个梯度步长的ROAM优于使用大量步长的SGD（7-e7），这表明ROAM的改进的通用化更新损失和Meta损失比较。为了显示我们的神经优化器的有效性，我们比较了ROAM和SGD之间的更新损失和Meta损失随时间的变化，在图2中的OTB-2015的几个视频的两个梯度步骤之后。7（更多示例见补充材料）。在相同的梯度更新次数下，与传统的SGD算法相比，神经网络优化算法的损失更小，收敛速度更快，泛化能力6MetaTracker使用此学习率。第特别地，初始模型θ（0）被离线训练以广泛地适用于不同的视频，这因此需要相对较大的梯度步长来适应特定的任务，从而导致相对较大的λ（0 ）。对于后续帧，外观变化可能有时很图8显示了OTB-2015上初始学习率和更新学习率的直方图。大多

下载后可阅读完整内容，剩余1页未读，立即下载