Siamese跟踪器模型更新的学习方法：通过使用UpdateNet-SiamFC替代手动制作的更新函数来预测新的目标模板，提高跟踪器的准确性

105 浏览量更新于2023-10-16 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4010学习Siamese跟踪器的模型更新Lichao Zhang1，Abel Gonzalez-Garcia1，Joost van de Weijer1，Martin Danelljan2，Fahad ShahbazKhan3，41西班牙巴塞罗那自治大学计算机视觉中心2计算机视觉演示器y，ETHZürich，瑞士3阿联酋Inception人工智能研究所4计算机视觉设计师，林克平大学，瑞典{lichao，agonzalez，joost}@ cvc.uab.es，martin. vision.ee.ethz.ch，fahad. liu.se摘要Siamese方法通过从当前帧中提取外观模板来定位下一帧中的目标通常，该模板与来自前一帧的累积模板线性组合，导致信息随时间的指数衰减。虽然这种更新方法导致了改进的结果，但其简单性限制了通过学习更新可能获得的潜在收益。因此，我们建议用一种学习的方法来代替手工制作的更新函数UpdateNet-SiamFC暹罗足球俱乐部更新。我们使用一个卷积神经网络，称为UpdateNet，它给出了初始模板，已更新的模板和当前帧的模板，旨在估计下一帧的最佳模板。UpdateNet结构紧凑，可以轻松集成到现有的暹罗跟踪器中。我们证明了所提出的方法的一般性，通过将其应用到两个暹罗跟踪器，SiamFC和DaSiamRPN。在VOT2016，VOT2018，LaSOT和TrackingNet数据集上的广泛实验表明，我们的UpdateNet有效地预测了新的目标模板，优于标准的线性更新。在大规模TrackingNet数据集上，我们的UpdateNet以绝对增益改进了DaSiamRPN的结果成功率为3.9%。代码和模型可在https://github.com/zhanglichao/updatenet上获得。1. 介绍通用视觉对象跟踪是在给定其初始位置的情况下预测目标对象在视频的每一帧中的位置的任务。跟踪是计算机视觉中的基本问题之一，跨越广泛的应用，包括视频理解[34]，监视[12]和机器人[29]。这是一项极具挑战性的任务图1. 模型更新之间的定性比较。我们学习使用UpdateNet更新模型模板。当与SiamFC [1]等Siamese跟踪器结合时，我们学习的更新策略可以有效地适应当前情况，而不是通常使用的简单线性更新。这是由于频繁的外观变化、各种类型的遮挡、干扰物对象的存在以及诸如运动模糊或照明变化的环境方面。当前，存在两种流行的跟踪范例：暹罗跟踪方法[1，27，41，50]和跟踪-检测方法[3，7，11，19，32，47，48]。在这项工作中，我们考虑暹罗跟踪器，因为它们提供了竞争力的准确性，同时实现了令人印象深刻的计算效率。这些跟踪器的基本原理是将对象外观模板与测试帧中搜索区域的对应对象模板和搜索区域的特征通过在大型数据集上离线训练的深度神经网络这样的训练策略已被证明为跟踪任务提供了出色的视觉描述符[1，50]。在原始的暹罗跟踪器[1]中，对象模板在第一帧中初始化，然后在视频的其余部分保持固定。然而，外观变化通常很大，并且未能更新模板可能导致跟踪器的早期故障在这种情况下，#063#290#291#008#015#016#022#199#2264011重要的是使模型适应当前的目标外观。为了解决这个问题，最近的暹罗跟踪器[27，41，50]已经使用具有固定学习率的运行平均值实现了简单的线性更新策略[36]。该策略假设跨视频中的所有帧以及跨不同视频的外观变化速率恒定。在实践中，对于不同的跟踪情况，对象模板的更新要求变化很大因此，一个简单的线性更新往往不足以应付不断变化的更新需求，并推广到所有可能遇到的情况。此外，该更新在所有空间维度上也是恒定的，这不允许局部化的部分更新。这在诸如部分遮挡的原位尤其有害，其中仅模板的某个部分需要更新。最后，对初始模板的过度依赖可能会遭受灾难性的漂移和无法从跟踪故障中恢复。在本文中，我们提出学习目标模板更新本身.我们的学习更新策略利用目标和图像信息，因此是自适应的每一个特定的情况下，目前的cir- cumstances。在我们的方法中，更新的模板被计算为以下各项的函数：（i）初始地面实况模板，（ii）来自所有先前帧的累积模板，以及（iii）当前帧中的预测对象位置处的特征模板因此，新的累积模板包含对象的当前外观的有效历史概要更具体地，上述模板更新函数被实现为卷积神经网络UpdateNet。这是一个紧凑的模型，可以与任何暹罗跟踪器相结合，以提高其在线更新能力，同时保持其效率属性。此外，它足够复杂，可以学习有效模板更新的细微差别，并具有足够的适应性来处理大量的跟踪情况。我们通过将UpdateNet与两个最先进的Siamese跟踪器相结合来评估它：SiamFC [1]和DaSi-amRPN [50]。通过对常见跟踪基准测试（如VOT2018 [22]）的广泛实验，我们演示了我们的UpdateNet如何提供增强的更新能力，从而提高跟踪性能（见图1）。我们还在最近的LaSOT数据集[13]中展示了结果，该数据集由于包含丰富的长期序列而更具说服力。总的来说，我们提出了一个有效的模型来学习如何有效地更新对象模板在线跟踪过程中，可以应用到不同的现有暹罗跟踪器。2. 相关工作跟踪框架。现有的跟踪方法要么基于检测跟踪，要么采用模板匹配。基于检测跟踪的目标跟踪器将目标定位问题归结为一个分类问题，其决策边界是利用目标和背景的图像块在线学习判别分类器得到的。在通过检测进行跟踪的方法中，基于判别相关滤波器的跟踪器[19，48，11，7]最近在几个跟踪基准上显示出优异的性能[42，43，24，22]。这些跟踪器从目标外观的示例补丁中学习相关滤波器，以在目标外观和背景外观之间进行区分。另一个主要的跟踪框架是基于模板匹配，通常使用暹罗网络[1，40，41，18，27，50]，通过空间互相关实现相似性网络。Bertinetto等[1]提出了一种基于双流结构的暹罗跟踪器。一个流基于包含要跟踪的对象的样本图像来提取对象模板另一个流接收目标图像中的大搜索区域这两个输出互相关以生成搜索区域的响应图许多跟踪器已经扩展了SiamFC架构[40，16，41，27，50，49]用于跟踪。基于Siamese的跟踪器由于在计算速度和跟踪性能之间提供了良好的平衡然而，这些方法中的大多数难以鲁棒地对目标进行分类，特别是在由于没有在线学习而存在干扰物的情况下在这项工作中，我们分析了Siamese跟踪器在模板模型更新方面的局限性，并提出了一种解决方案。更新对象模板大多数跟踪器要么使用简单的线性插值来更新每帧中的模板[3，19，9，11，20，5]，要么不更新初始模板。[1，41，27，50]。这种更新机制在大多数跟踪情况下是不够的，因为目标对象可能会遭受由变形、快速运动或遮挡引起的外观变化。此外，固定的更新计划还导致对象模板更关注最近的帧[10]，而忘记了对象的历史应用。为了解决这个问题，Danelljanet al. [10，11]提出在计算当前相关滤波器时包括历史帧的子集作为训练样本，这导致比传统的线性逐帧更新更好的尽管如此，在存储器中存储多个样本导致计算和存储器使用增加，这反过来又严重降低了跟踪速度。ECO跟踪器[7]试图通过将训练样本的分布建模为高斯混合来缓解这个问题这大大减少了所需的存储，4012˜GT0与保守的更新策略（仅每五帧）相结合，导致提高的跟踪效率。即使有更多的先前样本，相关滤波器仍然通过对其对应样本的滤波器进行平均来更新（仍然是线性插值更新）。最近，Yanget al.[45]采用长短期记忆（LSTM）来通过在线跟踪期间将先前的模板存储在存储器中来估计当前模板，这在计算上是昂贵的并且是相当复杂的系统。Choi等人[6]也使用模板存储器，但使用强化学习来选择存储的模板之一这种方法不能从多个帧中积累信息。[33]的元跟踪器通过预先训练的方法扩展了第一帧中目标模型的初始化，但在在线跟踪中仍然需要线性更新。Yao等人[46]建议离线使用SGD学习CF跟踪器的更新系数。而相关滤波器的解决方案仍然是手工制作的方式，这些系数是固定的，在跟踪过程中不更新。为了适应对象的变化，Guoet al. [15]提出通过傅立叶域中的正则化线性回归来计算相对于初始模板的变换矩阵由于在估计变换时仅考虑初始模板，因此该方法忽略了在跟踪期间观察到的历史对象变化此外，他们将变换矩阵计算为傅立叶域上的闭合形式解，这会遇到与边界效应相关的问题[21]。相反，我们的工作使用了一个功能强大但易于训练的模型来更新对象模板，不仅基于第一帧，而且还基于使用所有先前帧的累积模板，利用观察到的训练数据。此外，我们的UpdateNet经过训练，可以学习如何根据观察到的训练跟踪数据有效地更新对象模板。3. 更新对象模板在本节中，我们将介绍如何在在线跟踪期间更新对象模板的方法。我们首先回顾标准更新机制，跟踪和识别其缺点。然后，我们介绍了我们的公式来克服这些问题，并详细描述了我们的模型和训练过程。本文的重点是暹罗跟踪器。然而，请注意，我们的方法不限于暹罗跟踪器，并且相同的公式可以应用于其他类型的跟踪器，例如DCF [19、11、7]。3.1. 标准更新几种最近的跟踪方法[4，3，19，40，41，27，50]使用简单的平均策略来更新给定新数据样本的对象这种策略可以追溯到早期的跟踪方法[36]，并且由于其可接受的结果，长期以来一直是在线更新的标准尽管它的局限性。模板被更新为具有随时间指数衰减的权重的运行平均值。指数权重的选择产生用于更新模板的以下递归公式，Ti=（1−γ）Ti−1+γTi。（一）这里，i是帧索引，Ti是仅使用当前帧计算的新模板样本，并且Ti是累积模板。更新速率γ通常被设置为固定的小值（例如，γ= 0。01）遵循对象的外观在连续帧中平滑且一致地变化的假设。在DCF跟踪器中（例如[3，19]），T对应于相关滤波器。相反，在暹罗跟踪器中，T是由全卷积特征提取器从特定帧虽然原始的SiamFC跟踪器[1]不执行任何模型更新，但最近的Siamese跟踪器[1，41，27，50]采用（1）来更新其模板。虽然模板平均提供了一种整合新信息的简单方法，但它有几个严重的缺点：• 它为每个视频应用恒定的更新速率，尽管可能由多种因素（如摄像机运动）导致不同的更新需求甚至在同一视频中，对对象模板的所需更新可以在不同时间动态地变化。• 更新也是恒定的沿所有空间维度的模板，包括通道尺寸。这可以防止只更新模板的一部分，例如在部分闭塞的情况下是理想的。• 跟踪器无法从漂移中恢复。部分地，这是由于它失去了对出现模板T0的访问，这是唯一的模板，这是毫无疑问的对象。• 更新函数被约束为先前外观模板的非常简单的线性组合。这严重限制了更新机制的灵活性，当目标经历复杂的外观变化时，这一点很重要。考虑更复杂的组合函数有望改善结果。3.2. 学习以更新我们通过提出一个学习自适应更新策略的模型来解决上面列出的缺点。由于本文的重点是暹罗跟踪器，这里T为了解决简单模板平均的局限性，我们提出学习通用函数Φ，其根据下式更新模板：Ti=φ（T0，Ti−1，Ti）.（二）学习函数φ基于初始地面实况模板TGT、最后累积的模板Ti−1和模板Tiexl2计算更新的模板。4013˜0000一期+1一期+10˜˜0˜˜一期+1˜GTGTGT˜L2=<$φ（T，Ti1，T）−T<$.（三）˜图2. 我们的UpdateNet跟踪框架概述。（左）对象模板的在线更新由UpdateNet执行，UpdateNet接收初始地面实况模板、最后累积模板和当前预测模板作为输入，并输出更新的累积模板。（右）使用到下一帧上的地面实况对象模板的距离训练UpdateNet。从当前帧中的预测目标位置。本质上，该函数更新了先前累积的模板Ti−1通过整合由下式当前帧Ti.因此，φ可以适应于基于当前模板和累积模板之间的差异，此外，它还考虑了每帧中的初始模板TGT，这提供了高度可靠的信息，并增加了对模型漂移的鲁棒性。函数φ被实现为卷积神经网络，它具有强大的表达能力和从大量数据中学习的能力。我们称这个神经网络为UpdateNet，并在下面的部分详细描述它3.3. 使用UpdateNet跟踪框架我们在这里提出的UpdateNet的结构，并描述它是如何应用于在线跟踪。图2（左）显示了初始帧中的给定对象位置，所有其他输入都基于预测位置。因此，TGT是UpdateNet可以用来指导更新的最可靠的信号。出于这个原因，我们采用了残差学习策略[17]，其中UpdateNet学习如何修改当前帧的地面实况模板TGT。这是通过添加一个从TGT到UpdateNet输出的跳过连接来实现的。该方法仍然考虑对象的历史外观的集合以用于更新，但是将这种更新以最准确的样本为中心。我们还尝试了从其他输入中添加跳过连接，以及根本没有剩余学习（参见第二节）。4）.3.4. 培训UpdateNet我们训练我们的UpdateNet来预测下一帧中的目标模板，即预测的模板Ti应该匹配从地面实况提取的模板T GT在下一帧中使用位置的自适应对象更新策略概述（图2，右）。直觉带暹罗追踪器的更新网我们提取深层特征这个选择的背后是TGT是最佳模板，从具有固定的全卷积网络的图像区域中，采用与SiamFC跟踪器[1]中相同的特征提取器。我们从初始帧中的地面实况对象位置（图2中的数字0）提取TGT为了获得当前帧的Ti，我们使用累积的来自所有先前帧Ti-1的模板来预测对象帧i中的位置（紫色虚线），并从该区域提取特征（蓝色实线）。请注意，Ti−1对应于上次UpdateNet的输出步骤，为了简洁，这里没有示出我们将在下一帧中搜索目标时使用。为了实现这一点，我们通过最小化更新后的模板与下一帧的地面真实模板之间的欧几里得距离来训练UpdateNet，定义为GT GT0−ii +12在本节的其余部分中，我们将描述用于生成训练数据的过程，并介绍UpdateNet的多阶段训练方法。用累积的fea提取特征TGT和Ti训练样本。为了将UpdateNet训练成迷你-GTturesTi− 1形成UpdateNet的输入这个输入就是通过一系列卷积层处理（sec.4.3）并输出预测的新累积模板Ti。对于第一帧，我们将Ti和Ti−1设置为T0，因为之前没有任何帧。UpdateNet使用的唯一地面实况信息是mize（3），我们需要成对的输入三元组（T0，Ti−1，Ti）和输出反映跟踪器更新需求的TGT在网上申请。初始帧T0和目标帧Ti+1的目标模板可以通过从相应帧中的地面实况位置提取特征而容易地获得。如果是当前帧...4014˜˜˜˜K˜˜Ti= φi的t0，Ti−1，Tii i−1i然而，使用地面实况位置表示在实践中很少遇到的情况，对于这种情况，当前帧中的预测位置非常准确。这种不切实际的假设使更新偏向于期望关于Ti的非常小的变化，因此UpdateNet无法学习有用的更新函数。因此，我们需要通过使用不完美的对数来提取Ti样本用于训练第i帧中的缩放。我们可以通过使用累积模板Ti−1来模拟这种情况，理想地呈现在线跟踪期间发生的定位误差。多阶段训练。理论上，我们可以使用UpdateNet输出的累积模板Ti−1然而，这将迫使培训是经常性的，使过程-在繁琐和效率低下。为了避免这种情况，我们将训练过程分成连续的阶段，迭代地细化UpdateNet。在第一阶段，我们使用标准的线性更新在训练数据集上运行原始T0=（1−γ）T0+γT0，（4）其为每一帧生成累积的模板和实际预测的位置。我们将更新速率γ设置为跟踪器的推荐值。这相当于在跟踪推理过程中对UpdateNet的可能输入的第一近似，尽管使用的是不太复杂的线性更新策略。在每一列后面的火车上-执行阶段k∈ {1，.，K}，我们使用前一阶段训练的UpdateNet模型来获得累积模板和对象位置预测如下4.2. 评价数据集和方案我们根据标准跟踪基准评估结果：VOT 2018/16[23]，LaSOT [13]和TrackingNet [31]。VOT2018/16 [23]. VOT2018数据集有60个公共测试序列，共有21，356帧。使用它作为最新版本的VOT挑战赛。VOT协议规定，当评估的跟踪器出现故障时，当与地面实况的重叠低于给定阈值时，在故障后五帧在正确位置重新初始化。用于对跟踪器进行排名的主要评估度量是预期平均重叠（EAO），其是准确度（A）和鲁棒性（R）的组合我们还使用VOT2016[24]进行比较，它与VOT2018 [22]有10个不同的序列。我们使用提供的工具包计算所有结果[22]。LaSOT [13]. LaSOT是包括长期序列的更大且更具挑战性的数据集，在使用该数据集的最近工作之后[26，14]，我们报告了方案II的结果，即LaSOT测试装置。测试子集中有280个序列，总共690K帧。LaSOT数据集[13]遵循OTB的OPE标准[42]。它由精度图和成功图组成，精度图用中心定位误差来衡量，成功图用预测的边界盒与地面实况的除了精度图和成功图之外，LaSOT还使用归一化精度图来应对目标尺寸和图像分辨率好吧GTk−1k−1对于不同的帧和视频有很大的差异这严重影响了精度度量。我们用的是-这样的训练数据样本非常类似于推断时的预期数据分布，因为它们是由UpdateNet输出的。我们研究了实验部分中的总级数K的合适值（sec. 4）.4. 实验4.1. 训练数据集我们使用最近的大规模单对象跟踪（LaSOT）[13]来训练我们的UpdateNet。LaSOT拥有70个类别的1，400个序列，总计352万帧。每个类别正好包含20个序列，使数据集在各个类别之间保持平衡。它还提供包含超过1，000帧（平均2，512帧）的较长序列我们使用了官方的训练和测试分割，这保持了均衡的类分布。事实上，我们只采用了一个子集，其中包含来自20个随机选择的类别的20个训练序列，总共有45，578帧。我们通过实验发现，cess图和归一化精度图来评价本文中的我们使用他们的代码[13]来创建所有图。TrackingNet [31]. 这是一个由野外视频组成的大规模跟踪数据集。它总共有30，643个视频，分为30，132个训练视频和511个测试视频，平均470，9帧。它使用精度、归一化精度和成功作为评估指标。4.3. 实现细节我们使用SiamFC [1]和DaSiamRPN [50]作为我们的基础跟踪器，主干 Siamese 网络采用修改后的AlexNet。除了更新组件之外，我们不执行任何更改。SiamFC的原始实现不执行任何对象更新。当γ = 0时，我们从CFNet [ 40 ]中获得线性更新率。0102用于在训练阶段 1 中生成模板。我们使用原始版本的DaSiamRPN，它不使用任何更新策略。分析了线性更新速率对跟踪性能的影响 . 四点七为了训练UpdateNet，我们设置了一组模板，包括-GT GT这足以学习有效的更新策略，并且额外的数据只会带来很小的性能提升，同时会增加训练时间。ingT0、T i−1、T i和Ti+1作为输入。他们都是从同一个视频中连续采样。值得注意的是，Ti−1和Ti是由真实的跟踪过程生成的.（五）4015˜00一期+100无更新线性更新网络UpdateNet（K=1）Ti−10.214 0.49 0.5800UpdateNet（K= 3）TGT0.262 0.52 0.49表1. VOT 2018上的消融研究[22]。我们提出了SiamFC的几种更新策略[1]。结果以EAO、准确度的归一化加权平均值（A）和稳健性评分的归一化加权平均值（R）报告“跳过”列指示跳过连接的来源（如果有的话）。这里， K 是UpdateNet训练的阶段数。而TGT关于TGT 是地面实况模板图3. SiamFC累积模板的可视化我们将所有训练对象模板存储在磁盘上，使用线性/无更新（阶段k= 1）或以前版本的UpdateNet（k>1）提取。设模板大小为H×W×C。UpdateNet是一个双层卷积神经网络：一个1×1×3·C×96 卷积层，其次是 ReLU 和第二个1×1×96×C 卷积层。对于 SiamFC ， H=W= 6 和 C=256，而DaSiamRPNC= 512。在第一阶段，权重从零开始初始化，并且学习速率在每个时期从10-6到10- 7以几何方式降低。在下一阶段，权重由最佳模型从最后一个阶段开始，学习率在每个时期从10−7到10−8递减。我们用大小为64的小批量训练模型50个epoch。我们使用随机梯度下降（SGD），动量为0.9和0.0005的重量衰减。4.4. 消融研究我们通过对不同组件的消融方法开始评估，以分析它们的贡献最后的表演。表1显示了在EAO指标下使用VOT 2018[22]数据集在表的中间，它示出了当相对于TGT进行剩余训练时，用UpdateNet的第一阶段更新对象模板是有益的，因为所学习的最新策略基于可靠的对象样本。此外，我们的多阶段训练进一步提高了UpdateNet实现的性能，与没有更新的原始SiamFC相比，总性能提高了7.4%。对于本文的其余部分，我们使用在3个阶段上训练的UpdateNet，并从TGT跳过连接。4.5. 表示更新分析本节试图提供有关UpdateNet实现的性能改进的见解。暹罗网络被训练成将图像投影到一个‘Frame’用于提取模板，我们在'GT'中显示了其前四个通道对于空间相关性最大的特征空间。最新的策略对学习到的特征进行操作，可能会干扰它们的相关能力，并可能损害跟踪性能。为了研究更新策略对特征的干扰，我们在图3中可视化了线性更新和UpdateNet的SiamFC累积模板。我们还包括从带注释的边界框中提取的地面实况模板。对于每个模板，我们显示了地面实况模板中四个最动态通道的特征图，排列在2×2的网格中。出于比较的原因，使用地面实况对象位置而不是在跟踪期间预测的位置。此外，在每个累积模板旁边，我们还显示了将模板与搜索区域相关联时生成的响应图。我们观察到几个有趣的属性，erties，支持在实践中看到的性能增益。首先，使用UpdateNet的累积模板比线性更新中的模板更接近地面实况（参见例如，第一示例，在帧38右下通道上突出显示）。第二，响应图在UpdateNet的对象位置上往往更清晰，这表明我们的策略不会对学习到的特征的所需相关属性产生负面影响。最后，线性更新的累积模板以非常慢的速率变化，并且明显地不能跟上视频中表现出的外观变化。为了进一步研究这种观察，我们建议量化相邻帧的模板之间的变化率对于每个i ∈ {1，… 我们计算平均值，#155#227#354#372SiamFC更新SkipEAO（↑）A（↑）R（↓）Fra#38线性-0.1880.500.59UpdateNet（K= 1）-0.2050.480.58#45UpdateNet（K= 1） TGT0.2500.500.53UpdateNet（K= 2） TGT0.2570.510.504016|E|1.2101图4. 连续帧之间的更改速率。我们提供了两个示例视频（顶部，中间）的单独结果和VOT2018中所有视频的平均结果。年龄差异为δi=1μE|Ti−Ti−1|，其中N是视频中的帧的数量，并且总和在特征图的每个元素上运行（例如，E=6× 6 × 256）。我们在图4中呈现了结果。底部行包含所有60个视频的平均变化率δ在VOT2018 [22]。显然，线性更新策略不能提供地面实况模板的特征另一方面，UpdateNet提供了一种更具适应性的策略，其幅度基本上顶部和中间行还显示了图 3 中两个单独序列的变化率，即我们可以看到UpdateNet在高变化时期模仿真实模板，正如其极端的高相关性所示。这导致预测更好的响应图，如图3所示。4.6. 通用性和跟踪速度在本节中，我们通过将其应用于图5所示的其他暹罗跟踪器来评估我们的UpdateNet的通用性。它提供了VOT2018在EAO方面的跟踪速度结果。我们衡量跟踪速度的帧每秒（FPS），并使用对数尺度上的轴。我们观察到我们改进了暹罗跟踪器，例如。SiamFC [1]和DaSiamRPN [50]通过添加非常小的时间开销。最后，图6显示了最高性能的跟踪器。我们比较了包括DRT [37]，DeepSTRCF [28]，LSART [38]，[48 ]，[49]，[49]，[49]，[49]，[22][23][24][ 25][26][27][28][29在顶级跟踪器中，我们的方法在保持非常高的效率的同时实现了卓越的性能。此外，我们的跟踪器在基本跟踪器DaSiamRPN[50]上获得了2.8%的性能相对增益。图5. VOT2018上的EAO与速度。我们比较了我们的更新与两个不同的暹罗跟踪器结合对国家的最先进的方法。UpdateNet可以大大提高跟踪性能，而不会显著影响速度。图 6. EAO 在 VOT2018 上的表现。我们将我们的方法与VOT2018上的最先进方法进行了比较。我们提出的方法实现了卓越的性能。4.7. 微调线性更新速率上一节中的线性更新使用作者[ 40 ]推荐的SiamFC更新速率（γ= 0. 0102）和原始跟踪器的DaSiamRPN [50]（γ= 0）。我们现在研究线性更新策略是否可以在测试集上微调更新速率时带来更高的我们测试了几个更新率均匀采样从 [0 ， 0 。 2] 间隔。图 7 显示了DaSiamRPN（浅绿色）和SiamFC（深绿色）的线性更新性能顶部的红色虚线和中间的粉色虚线分别是我们在DaSiamRPN和SiamFC上应用的UpdateNet的性能。我们可以看到，SiamFC的峰值per-cycle确实在0.01和0.05之间实现。对于DaSiamRPN，原始跟踪器没有更新的性能最好，这证明了对于离线训练的更复杂的Siamese跟踪器，在线线性更新甚至会损害性能。这表明，即使是微调的线性更新也不能进一步改善其结果。此外，我们的UpdateNet优于所有更新速率值，无需任何手动微调。尽管一些视频需要更高的更新率，但我们可以看到，dateNet-DaSMFSF起来路iaMFCMSiaDSEM我CFCSMFC-SiadateNetCPR_MECOFCCFRCT不LSARCFSTREPDe不博士PNAMRSiDa不PDUNRpIAM起来不CFLAD书SOCCER1所有4017图8. LaSOT测试装置的评价。遵循OPE方案II的标准化精度和成功图图7. VOT 2018上DaSiamRPN和SiamFC的线性更新率评价[22]。x轴是更新速率值。y轴是VOT方案的EAO 评分[22] 。红色和粉色虚线分别是我们使用DaSiamRPN 和SiamFC的UpdateNet性能D暹罗[第十五条]MemTrack[45个]Sia线性MFCUpdateNetDaSiamRPN线性UpdateNetEAO0.1810.2730.2350.2890.4390.481一0.4920.5330.5290.5430.6190.610R2.9341.4411.9081.3200.2620.206表 2. VOT2016 上其他更新策略的结果。DSiam [15] 和MemTrack [45]使用SiamFC作为基础跟踪器。最好的两个结果分别以红色和蓝色字体突出显示随着更新速率的增加，更新速率连续且快速地减小，证明固定且一般的更新速率对于所有视频是不合适的。4.8. 与其他更新策略的最近的一些方法[15，45]提出了暹罗跟踪器的替代更新策略。表2列出了在VOT 2016上与DSiam [15]和MemTrack [45]的比较，因为[45]仅报告了该VOT版本的结果（有关VOT 2018上的DSiam结果，请参见图5）。我们的更新网络导致更有效的更新和更高的跟踪性能，同时也适用于不同的暹罗架构。尽管DaSiamRPN已经表现出色，但UpdateNet带来了4.2%的改进，达到了最先进的水平。此外，我们的方法在鲁棒性方面产生了5.6%的绝对增益，这是暹罗跟踪器的一个共同弱点。4.9. LaSOT数据集我们在最近的LaSOT数据集上测试了我们的模型[13]。由于长期序列在LaSOT中很常见，因此跟踪器的更新组件至关重要，因为可能会出现更突然的变化，并且对象外观可能会进一步偏离输入对象模板。我们展示了前 10 名跟踪器，包括 MDNet [32] ， VITAL[35]，Struct-[2019- 04 -15][2019- 04 - 19][2019 - 04- 05][2019- 0图8中的SiamFC [1]和DaSiamRPN [50]。结果按照官方方案提供我们可以看到表3. TrackingNet上最先进的比较。我们的UpdateNet显著提高了DaSiamRPN [50]，在精度和成功方面的最好的两个结果分别以红色和蓝色字体突出显示UpdateNet如何增强DaSi- amRPN的更新能力因此，我们具有学习更新策略的跟踪器这进一步证明了自适应更新策略在精确目标定位方面的优势。4.10. TrackingNet数据集我们使用三个评估指标（表3）在TrackingNet [31]的测试集上评估我们的UpdateNet-DaSiamRPN 。与DaSiamRPN相比，我们的UpdateNet +DaSiamRPN在精度、归一化精度和成功率方面获得了3.4%、1.9%和3.9%的绝对收益UpdateNet导致所有三个指标的显着性能改进。这显示了学习模型更新如何在多个数据集和不同的测量下极大地受益于暹罗跟踪器。5. 结论暹罗跟踪器通常使用简单的线性更新规则来更新它们的外观模板。我们确定这种线性更新的几个缺点，并建议学习更新步骤作为一个优化问题。我们采用了一个神经网络，创造UpdateNet，学习如何更新当前累积的模板给定的第一帧，当前帧的外观模板，和前一步的累积模板。建议的更新网络是通用的，可以集成到所有的暹罗跟踪器。在四个基准数据集（VOT2016，VOT 2018，LaSOT和TrackingNet）上的比较结果表明，所提出的更新方法确实显着提高了跟踪器相对于标准线性更新（或相对于根本不更新）的性能。鸣谢。我们感谢西班牙项目TIN 2016 - 79717-R，并提及加泰罗尼亚自治区CERCA计划。原子[八]《中国日报》ECO[七]《中国日报》CFNet[第四十届]MDNet[32个]Sia线性MFCUpdateNetDasia线性mRPNUpdateNet精密度（%）64.849.253.356.553.353.159.162.54018引用[1] LucaBertinetto，JackValmadre，JoaBertinetoFHenriques，AndreaVedaldi，and Philip HS Torr.用于对象跟踪的全卷积连体网络。2016年ECCV研讨会。一二三四五六七八[2] Goutam Bhat ， Joakim Johander ， Martin Danelljan ，Fahad Shahbaz Khan，and Michael Felsberg.揭示深度追踪的力量。在ECCV，2018。7[3] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。CVPR，2010。一、二、三[4] David S Bolme，Bruce A Draper和J Ross Beveridge。合成精确滤波器的平均值。CVPR，2009。3[5] Jongwon Choi ， Hyung Jin Chang ， Tobias Fischer ，Sangdoo Yun，Kyuewang Lee，Jiyeoup Jeong，YiannisDemiris，and Jin Young Choi.用于高速视觉跟踪的上下文感知深度特征压缩。在CVPR，2018年。2[6] Janghoon Choi、Junseok Kwon和Kyoung Mu Lee。通过强化决策的视觉跟踪。CoRR，abs/1702.06291，2017。3[7] Martin Danelljan，Goutam Bhat，F Shahbaz Khan，andMichael Felsberg. ECO：用于跟踪的高效卷积算子。在CVPR，2017年。一二三八[8] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪在CVPR，2019年。七、八[9] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。学习空间正则相关滤波器的视觉跟踪。在ICCV，2015年。2[10] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。训练集的自适应净化：判别式视觉跟踪的统一公式在CVPR，2016年。2[11] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。在ECCV，2016年。一、二、三[12] Ali Emami ， Farhad Dadgostar ， Abbas Bigdeli ， andBrian C Lovell.时空定向能量特征在视频监控鲁棒视觉跟踪中的作用。InAVSS，2012. 1[13] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。CoRR，abs/1809.07845，2018。二、五、八[14] 范恒和凌海滨。用于实时视觉跟踪的连体级联区域建议网络。CoRR，abs/1812.06148，2018。5[15] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。InICCV，2017. 三、八[16] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。在CVPR，2018年。2[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。4[18] David Held Sebastian Thrun和Silvio Savarese学习使用深度回归网络以100 fps的速度跟踪。在ECCV，2016年。2[19] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista. 用核相关滤波器进行高速跟踪。TPAMI，37（3）：583-596，2015. 一、二、三[20] Hamed Kiani Galoogahi Ashton Fagg Simon Lucey学习用于视觉跟踪的背景感知相关滤波器。InICCV，2017. 2[21] Hamed Kiani Galoogahi，Terence Sim，and Simon Lucey.具有有限边界的相关滤波器。CVPR，2015。3[22] Matej Kristan

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

Siamese跟踪器模型更新的学习方法：通过使用UpdateNet-SiamFC替代手动制作的更新函数来预测新的目标模板，提高跟...

最新资源

Siamese跟踪器模型更新的学习方法：通过使用UpdateNet-SiamFC替代手动制作的更新函数来预测新的目标模板，提高跟...

Siamese网络训练和预测guide

综合运用各种建模方法提高预测模型的准确度.pdf

SiamFC目标跟踪算法实战

siamese-pytorch-master

这是谁提出的Siamese跟踪器

用python写一个siamfc算法

单目标跟踪算法学习路线

基于深度学习的目标跟踪算法

帮我写一个多目标跟踪模型

Siamese R-CNN

siammot: siamese multi-object tracking

请详细介绍下目标跟踪算法有哪些

详细说明目前目标跟踪现状

vs编程实现目标行人的跟踪。

基于pytorch的目标跟踪

Siamese是对比学习方法吗

目标检测算法的国内外研究现状带参考文献

modelscope命令行下载模型路径

深度学习目标跟踪，多目标跟踪

详述Siam-CAR算法

最新资源