实时目标感知视觉跟踪的深度Meta学习

10 浏览量更新于2023-10-13 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

911用于实时目标感知视觉跟踪的深度Meta学习Janghoon ChoiASRI，欧洲经委会部，首尔大学ultio791@snu.ac.krCSE的JunseokKwon School中央大学jskwon@cau.ac.krKyoung Mu LeeASRI，欧洲经委会部，首尔大学kyoungmu@snu.ac.kr摘要在本文中，我们提出了一种新的在线视觉跟踪框架的基础上，暹罗匹配网络和元学习网络，运行在实时的速度。传统的基于深度卷积特征的区别性视觉跟踪算法需要分类器或相关滤波器的连续重新训练，这涉及解决复杂的优化任务以适应目标对象的新外观。为了减轻这个复杂的过程，我们提出的算法结合并利用元学习者网络，通过添加目标感知特征空间来为匹配网络提供目标对象的新外观信息。从元学习者网络的单个前向传递立即提供针对目标特定的特征空间的参数通过消除跟踪过程中不断求解复杂优化任务的必要性，实验结果表明，我们的算法在实时速度下执行，同时保持与其他最先进的跟踪算法的竞争性能1. 介绍视觉目标跟踪是计算机视觉研究领域中的一个基础和实际问题，在自动监控、图像稳定、机器人等领域有着广泛的应用。给定对象的初始边界框注释，视觉跟踪算法旨在在视频的整个后续部分中跟踪指定对象，而不会在各种情况下丢失对象，例如照明变化、模糊、变形、快速运动和遮挡。最近，随着深度学习和卷积神经网络（CNN）[27]在计算机视觉应用中因其丰富的表示能力和泛化能力[26，40，43]而越来越多地使用，已经有许多关于利用CNN的丰富和一般特征表示进行视觉跟踪任务的研究[50，31，36，48，45]。大多数算法都包含了搜索上下文补丁目标修补拟议的视觉跟踪系统匹配网络Meta信息元学习者网络目标特定特征空间自适应特征空间一般特征空间图1：提出的视觉跟踪器的动机。我们的框架结合了一个元学习者网络以及一个匹配网络。元学习器网络从匹配网络接收元信息，并向匹配网络提供鲁棒匹配和跟踪所需的自适应目标特定特征空间。卷积特征用于对象识别系统[26，43，40]。在这些特征表示的顶部，训练额外的分类器或相关滤波器以用于对目标对象的在线适应[36，21，48，31，9，30，7，56]。虽然这些方法在使用深度表示的众所周知的基准和数据集[4，51]中成功地获得了高性能指标，但这些算法中的大多数都没有被设计为集成结构，其中两个不同的系统（即，深度特征网络系统和目标分类器系统）是分开构建和训练的，而不是紧密关联的。当框架被简单地应用于视觉跟踪问题时，这导致了几个问题，其中分类器系统不断需要更新以适应目标对象的表观变化，而阳性样本的数量非常有限。由于更新操作需要使用诸如随机梯度下降（SGD）[36]的912拉格朗日乘子[21]和岭回归[21，9，7]，大多数具有深度表示的跟踪算法在20fps以下的低速下运行，从而使实时应用无法实现。此外，由于更新通常是利用跟踪过程中获得的少量目标外观模板来实现的，虽然这种策略是不可避免的，但由于正训练样本不足，分类器容易过拟合并失去泛化能力为了处理这种普遍的过拟合问题，大多数算法将手工制作的正则化项与训练超参数调整方案结合起来，以获得更好的结果。我们的方法解决了上述问题，通过建立一个视觉跟踪系统，将一个暹罗匹配网络的目标搜索和元学习网络的自适应特征空间更新。我们使用类似于[2]的全卷积连体网络结构来搜索给定帧中的目标对象，其中可以使用特征图之间的互相关操作快速且有效地完成目标搜索。对于元学习者网络，我们提出了一个参数预测网络，其灵感来自于用于少数学习问题的元学习方法的最新进展[35，47，14]。所提出的元学习器网络被训练以向匹配网络提供额外的卷积核和信道注意信息，使得匹配网络的特征空间可以自适应地修改以采用在跟踪过程中获得的新的外观模板而不会过拟合。元学习器网络仅看到来自匹配网络的最后一层的梯度，给出用于出现的新训练样本。我们还采用了一种新的Meta学习者网络的训练方案，通过防止元学习者网络生成导致匹配网络过拟合的新参数来保持特征空间的泛化能力通过结合我们的元学习器网络，目标特定的特征空间可以通过单次向前传递立即构建，而无需任何迭代计算进行优化，并且没有固有的过拟合，提高了跟踪算法的性能。图1说明了所提出的视觉跟踪算法的动机我们通过在5个不同的视觉跟踪数据集[51，12，29，33，4]中显示一致的性能增益，同时保持48 fps的实时速度，证明了我们方法的有效性。2. 相关工作一般视觉跟踪方法：传统的跟踪算法可以在很大程度上分为两个approaches。一种方法基于先前观察到的示例构建目标该生成模型可以用于通过找到可以被最佳地去除的区域来在即将到来的帧中找到目标。由模型描述，其中稀疏表示和线性子空间表示经常被使用[41，54，55，32]。另一种方法旨在建立一个判别式分类器来区分目标区域和背景区域。该判别分类器可用于通过解决二进制分类问题[20，22，8，53，17，23]来找到即将到来的帧中的目标区域。最近，自[3]和[20]的开创性工作以来，相关滤波器由于其在傅立叶频域中的简单性和计算效率而在视觉跟踪方法中获得了极大的普及基于相关滤波器学习框架提出了许多新方法，例如颜色属性特征[10]，使用多分辨率特征图[38，9]，精确尺度估计[6]，空间正则化[6]和因子化卷积算子[5]。使用深度表示的视觉跟踪方法：随着深度卷积网络应用于广泛的计算机视觉任务的日益普及，许多新颖的视觉跟踪算法利用卷积神经网络（CNN）的强大表示能力从[50]开始，其中使用去噪自动编码器的编码器表示[36]使用VGG-M网络的特征表示[43]和[48]也使用了VGG特征图。许多基于卷积滤波器的跟踪算法还通过在网络的特征图上训练相关滤波器来利用CNN的强大表示能力最近的方法包括分层相关滤波器[31]、相关滤波器的自适应对冲[38]、连续卷积算子[9]、特征的顺序训练[49]和空间正则化[7]。除了基于相关滤波器的算法之外，最近出现了设计用于视觉跟踪的他们采用了通常用于立体匹配[52]和补丁匹配[16]问题的双流连体架构网络[45]和[19]训练了一个连体网络来学习共享卷积表示的两个补丁相似性函数。[2]提出了一种更端到端的视觉跟踪方法，其中Siamese网络可以在搜索补丁中定位样本补丁。他们使用一个完全卷积的架构，采用了互相关层，显着降低了计算的复杂性。基于[2]的框架，最近的方法结合了三重丢失[11]，区域建议网络[28]，用于抑制语义干扰的干扰感知特征[58]以及用于语义和外观特征的双重连体网络[18]。用于少量图像识别任务和视觉跟踪的Meta学习方法：最近有一些方法可以使用Meta学习方法从一些给定的例子中学习分类[47，14，39，35]。在[47]中，作者提出了一种网络架构，该架构采用非参数最近邻模型的特性来解决913元学习者网络：提供目标特定的参数化训练样本FC1FC2FC3靶特异信息元信息（损失梯度）Conv. 内核康卡特目标补丁按通道关注L2归一化&互相关∗康卡特响应图上下文补丁conv1conv2conv3conv4conv5匹配网络：通用贴片匹配暹罗网络图2：所提出的视觉跟踪框架的概述。匹配网络向元学习者网络提供使用训练样本获得的损失梯度形式的元信息然后，元学习者网络以卷积核和通道注意力的形式向匹配网络提供目标特定信息N路，k次学习任务，其中给出了一个小的支持集。[14]使用预先训练的网络作为良好的初始化，然后训练元学习器，以根据几个给定的示例有效地微调网络在[35]中，使用了配备快速和慢速权重的元学习者和基础学习者的两级结构。Meta学习器以损失梯度的形式从基学习器获取元信息，然后在保持泛化能力的同时为基学习器提供快速参数化最近，[37]提出了一种基于元学习器的优化器，类似于[14]的视觉跟踪任务，他们选择[44]和[36]作为基线算法来显示其更新步骤的有效性，减少了训练迭代的次数，从而提高了基线方法的速度。而我们的方法的目的是使用元学习器以实时速度进行单次迭代来更新网络，为网络提供新的自适应内核和特征空间表示而不会过拟合，这可以通过我们的正则化训练方案来实现。3. 使用Meta-Learner进行在下面的小节中，我们首先提供了我们提出的视觉跟踪框架的概述，其中给出了我们的框架和视觉跟踪过程的简要说明然后，我们描述了我们的框架的组件的实施和培训的细节。3.1. 拟定方法3.1.1组件我们的框架主要由两部分组成，一个匹配网络和一个元学习者网络。匹配网络是一个完全卷积的连体网络，它将两个图像作为输入，其中x表示为目标的图像块，z表示包含目标的较大上下文区域匹配网络获取这些输入，使用N-层特征提取器CNN网络工作ΦW（·），并通过特征图之间的互相关操作产生最终响应图fW（x，z）这个过程可以是前按如下方式挤压，fW（x，z）=φW（x）<$φW（z），（1）其中，ω表示两个特征图之间的互相关算子，并且w={w1，w2，.，表示特征的每一层的训练的核权重的提取器CNN。为了训练特征提取器CNN，我们最小化给定为（fW（x，z），y）的可微分损失函数，其中损失函数测量fW的预测的不准确性，给定y作为地面实况响应图。元学习者网络提供具有目标特定权重的匹配网络，给定目标X的图像块，其中上下文块zδ={z1，.，zM}，并在目标附近进行裁剪。到914使权重适应目标块，我们使用匹配网络的最后一层的损失函数的平均负梯度δ作为，算法1：使用元学习者网络进行视觉跟踪输入：长度为L的跟踪序列初始目标状态s1ΣM1∂ℓ(f （x，z），y（x，z）对应的初始目标模板xδ=−Wi i，（2）output：跟踪的目标状态stMi=1wN//对于跟踪序列中的每一帧其中，y=i是假设目标位于上下文内的正确位置时生成的二进制响应图对于t=2到L，获得候选上下文图像z′，先前目标状态st-1;基于帕奇兹岛元学习者网络是基于δ的特性根据目标在经验上不同的事实。然后，给定δ作为输入，Meta学习者网络工作gθ（·）可以生成对应于输入的目标特定权重w目标，w目标=gθ（δ），（3）其中θ是元学习器网络的参数。新的权重用于更新匹配网络使用等式中的匹配网络获得响应图y。（1）或eq.（4）;对y应用余弦风owh，找到响应最大的位置和尺度，得到新的状态st;//如果确信，则将上下文图像存储在内存如果y∈[st]>τ，则基于st获得新的上下文图像zt并存储它在记忆中，端fWadapt（x，z）=φWadapt（x）*φWadapt（z），（4）//每T帧更新一次权重如果（tmodT）==0，则其中wadapt={w1，w2，...， [wN，wtarge t]}，将wtarget连接到最后一层的w N以进行特征提取。元学习者网络还为特征图的每个通道生成通道级sigmoid注意力权重，以进一步调整特征表示空间，其中权重可以通过通道级乘法来应用。图2示出了所提出的方法的概述。端端在最小熵度量（5）下从存储器z中选择M个样本zδ获得损失梯度δ，如等式中所示。（2）;获得目标特定的自适应权重w_target，如在等式（三）更新w适应于（4）中的匹配网络3.1.2跟踪算法跟踪以简单明了的方式执行，以确保快速性能。给定目标块x及其先前状态，可以基于先前状态来裁剪新帧中的上下文图像z通过匹配网络处理两个图像，估计响应响应图，其中假阳性样本可能存在于对应的上下文图像中。找到具有最小熵的响应图可以定义为，Σargmin−ρ（yi[p]）log（ρ（yi[p]）），（5）映射y=fWadapt（x，z）的值。的新位置yi∈yp∈P目标可以通过找到响应映射yh，其中是逐元素乘法算子，h是余弦窗函数，用于惩罚大规模流离失所。目标的尺度变化可以通过使用与x匹配的z的多个尺寸裁剪来覆盖。比例变化也会受到惩罚，并通过常数进行阻尼，以确保目标大小随时间的平滑变化。在追踪的过程中，我们会记住上下文图像为z_mem={z_1，...，zK}以及用于跟踪yk={yk1，.， yK}。只有当它被认为是可信的时，我们才将连续图像z存储到存储器，其中对应的映射y中的最大响应值超过某个阈值τ。更新外观模型在目标的情况下，我们根据[53]中关于y的最小输入y标准从该存储器中选择M个样本，而不进行替换。这个标准是用来避免歧义的其中p对应于响应图中所有可能位置P的集合中的位置，并且ρ（·）是归一化函数。使用所选择的M个外观样本zδ，使用下式获得目标自适应权重w_target元学习器网络，如（2）和（3）中所示，然后匹配网络如（4）中所示被更新，并且它被用于跟踪后续帧中的对象。由于过于频繁地更新模型对于性能来说是不必要和麻烦的，因此我们只像其他算法[5]中那样每T帧更新一次模型在算法1中描述了整个跟踪过程。3.2. 网络实施和培训3.2.1匹配网络匹配网络由共享特征提取器CNNφ（·）、通道注意力步骤、特征提取器CNNφ 2组成。915输入Meta损失梯度）在（7）缓解标签不平衡的功能。损失函数使用Adam [25]优化器进行优化，学习率为10−4，批量大小为8，并运行95000次迭代。3.2.2元学习者网络然后，我们在预处理之后训练元学习者网络，图3：元学习者网络的训练方案。元学习器网络使用损失梯度δin（2）作为元信息，从匹配网络导出，其解释了其在当前特征空间中的自身状态[35]。然后，（3）中的函数g（·）学习从该损失梯度到自适应权重w_target的映射，其描述目标特定的特征空间。元学习者网络可以通过最小化（7）中的损失函数来训练，其测量自适应权重w目标在拟合n ∈ w个示例{z1，...， zM′}正确。归一化步骤和互相关步骤。对于特征提取，我们使用具有5个卷积层的CNN，在前两个卷积层之后应用内核大小为3和步幅为2的2个池化层。在每个卷积层之后插入批归一化层。CNN的整体结构类似于[2]，其中ker-每层的单元尺寸和输入/输出尺寸为w1：11×11×3×128，w2： 5×5×128×256，宽3：3×3×256×384，w4：3 × 3 × 384 × 256，w5：1 × 1 × 256 × 192。对于输入，我们对于x使用大小为127×127×3的RGB图像，对于z使用大小为255×255×3的RGB图像，匹配网络产生大小为17×17的响应图。为了训练匹配网络，我们使用了ILSVRC 2015[42]使用来自ILSVRC 2017数据集的额外训练数据从视频数据集进行对象检测，该数据集包含训练集中4000个视频中的30类对象和验证集中的1314个视频，总共11566个。训练匹配网络。元学习者网络gθ（·）由3个全连接层和2个中间层组成，中间层有512个单元。每个中间层后面都有一个保留概率为0的丢弃层。七是训练。对于输入，使用大小为1×1×256×192的梯度δ，并且生成大小为1×1×256×32的输出w目标这些新内核用于更新通过将wtarget连接到Siamese匹配网络的最后一层的kernelsw5来提供更新所需的额外特征空间，从而获得大小为1×1×256×（192+32）。为了训练元学习者网络，我们使用了1314个视频，ILSVRC视频数据集的验证集培训过程如下所述首先，从对象轨迹随机采样锚目标图像x然后，从相同的ob中随机采样M′个上下文块物体的轨迹如在zreg={z1，...，zM′}，其中M′≥M。然后，从z_reg中选择M个块以形成zδ，其中我们可以执行这些样本与目标im的匹配使用生成的二进制响应图y_i，通过（2）获得梯度δ，假设ta_r_get位于z_i的中心。标准数据扩充技术（例如水平翻转、噪声、高斯模糊、平移）。我们可以通过最小化关于参数θ的损失函数来训练元学习者网络gθ（δ）：Σ依赖对象轨迹。视频的每个帧都用出现的对象的边界框符号进行argminθzi∈zreg（fwadapt（x，zi），y），其中（七）在视频中。我们只使用训练集中的视频来训练匹配网络。在训练时，从图1中的对象轨迹随机采样（x，z）对。一个选定的视频剪辑。然后，地面实况响应图生成y∈ {−1，+1}17×17，其中目标位置的值为+1，否则为−1对于损失函数f（fW（x，z），y），我们使用定义为的逻辑损失函数，n（fW（x，z），y）=wadapt={w1，w2，.， [wN，gθ（δ）]}。训练元学习者网络以生成仅拟合zδ中的示例的新权重wtarget=gθ（δ）（即，M′=M）可以导致元学习者网络生成将使匹配网络过拟合zδ中的样本的权重。为了防止这种过拟合问题，在训练时需要一个正则化方案对于自然正则化，选择M′=2M，使得权重可以适合较大的示例集合zreg而不是较小的集合zδ。1|P|Σp∈Pζ（y[p]）·log（1+exp（−fW（x，z）[p]·y[p]）），（六）这鼓励匹配网络在跟踪时具有更好的泛化特性对于实验，使用M=8和M′=16，并且使用学习率为10- 4的Adam优化器，具有8个视频的批次。其中p表示响应图中的每个可能位置P的集合中的位置，并且ζ（y[p]）是权重训练执行11000次迭代。图3示出了元学习者网络的训练方案。Meta学习者映射函数中国（3）参数设置=()（目标特定权重）��={�� ,��（更新重量）输出你好，你好，反向传播损失函数916MLTSiamFC结构暹罗D暹罗CFNetSintSRDCFPTAVECO-HC吻合钉CABACFDSSTHDTOTB-20150.6110.5820.621-0.5860.5800.5980.6350.6430.5980.6300.5200.564OTB-20130.6210.6070.6380.6420.6110.6350.6260.6630.6520.6210.6780.5540.603LaSOT协议I0.3680.3580.3560.3530.2960.3390.3390.2690.3110.2620.2770.233-LaSOT第二号0.3450.3360.3350.3330.2750.3140.3140.2500.3040.2380.2590.207-FPS485845454345256035352410表1：OTB [51]和LaSOT [12]数据集的定量结果。MLT表示所提出的算法。该算法在OTB数据集上表现出有竞争力的性能，并在大规模LaSOT数据集上优于其他算法，利用元学习器提供的额外特征空间获得性能增益OPE的AUC用于性能测量。MLT MLT-mtMLT-mt+ft由边界框和11个挑战属性的帧。OTB-2013数据集包含51个序列，OTB-表2：OTB、LaSOT、TC-128、UAV 20 L和VOT-2016数据集。在所有数据集中，与MLT-mt和MLT-mt+ft相比，建议的MLT 对于性能测量，显示了所有除了VOT-2016的基线实验，其中显示了A-R重叠评分。最好的结果用黑体字写着。4. 实验结果4.1. 评价环境我们的算法使用Ten- sorFlow 1.8.0 [1]库在Python中实现，并在具有32 GB RAM的Intel Core i7- 4790 K4GHz CPU和具有12 GB VRAM的GeForce GTX TITANX（Maxwell）GPU的系统上执行该算法的平均运行速度为48。在OTB-2015数据集中的100个视频上为1fps[51]。我们考虑了[1]的3个尺度变化。00，1/1。035，1. 以适应目标的比例变化，其中比例变化由常数0来平均化。97并以常数衰减的0。五十九余弦窗口h被应用，惩罚因子为0。二十五元学习者网络每T=30帧更新权重，并且阈值τ=0。5用于选择置信样本。在整个评价过程中，所有数据集的所有参数都是固定的。4.2. 实验和分析对象跟踪基准（OTB）[51]是一种视觉跟踪基准，广泛用于评估视觉跟踪算法的性能。该数据集包含总共100个序列，每个序列都是注释帧。最近引入的大规模视觉跟踪数据集包含1400个序列，平均长度为2512帧（83秒），每个序列最少1000帧，总共352万帧，其中每个帧都用边界框注释来注释。它包含70个对象类别，每个类别包含20个序列。与OTB相比，LaSOT包含的序列是OTB的14倍，帧总数是OTB的59倍，对象类别也更多样。对于评估协议，协议I采用所有1400个序列进行评估，协议II使用280个视频的测试子集，其中成功图的AUC用于两个协议的性能度量。我们还对TC-128 [29]，UAV 20 L [33]和VOT-2016[4]数据集进行了内部比较，以显示我们的元学习者更新方案的有效性。VOT-2016是用于VOT挑战[4]的数据集，它包含总共60个带有边界框注释的视频。VOT数据集的基线实验在错过目标时执行跟踪器的重新初始化，而无监督实验只是让跟踪器从第一帧运行到最后。Temple Color-128（TC-128）数据集[29]包含128个用边界框注释的真实世界彩色视频，具有11个挑战因子。UAV20L [33]数据集包含20个视频序列，平均长度为2933.5帧，其中一些序列的目标离开视频帧（视野外）。所有实验均未使用明确的失效检测或再检测方案。4.2.1定量分析元学习者网络的效果：我们对申报的跟踪器（MLT）进行了内部比较OTB-20150.6110.5640.5232015数据集包含OTB数据集的所有100个序列OTB-20130.6210.5710.510作为评估指标，我们使用OPE成功率评估-LaSOT协议I0.3680.3570.331比较预测边界框的距离度量LaSOT第二号0.3450.3300.305与地面实况边界框，以获得intersec，公司简介0.4980.4770.419（二）以“以德为本”，以“以德为本”。无人机20L0.4350.3660.342具有比给定的变化阈值更大的分数的预测VOT-2016基线0.5370.5140.517旧评分值。最后的分数是通过测量-VOT-2016无监督0.4210.4120.411计算每个追踪器的曲线下面积（AUC）大-单目标跟踪（LaSOT）[12]数据集是一个917图4：OTB-2015数据集8个挑战属性的成功图以及基线跟踪器MLT-mt和MLT-mt+ft，其中MLT-mt是仅具有固定权重的匹配网络而没有元学习者网络的变体，并且MLT-mt+ft利用在跟踪时获得的训练样本对conv 5（内核w5）执行在线微调。为了公平比较，基线跟踪器在整个ImageNet视频检测数据集上进行预训练，包括验证集，最后一个卷积层的内核大小1×1×256×224。对于MLT-mt+ft方法，我们使用Adam优化器以10- 3的学习率每50帧微调匹配网络30次迭代。如表2所示，元学习者网络改进了基线匹配网络的性能，并产生更好的跟踪结果。在OTB、LaSOT、TC-128、UAV 20 L和VOT 2016数据集中，MLT始终优于MLT-mt和MLT-mt+ft。结果表明，元学习器网络生成的自适应权重对于诱导每个目标的自定义特征空间和导致准确的视觉跟踪是有效的此外，MLT-mt+ft的结果表明，在线微调没有手工挑选的超参数和正则化方案容易导致过拟合少数训练样本，导致性能较低。与其他跟踪器的比较：我们将我们的跟踪算法MLT与OTB和LaSOT数据集上的12种跟踪算法进行比较，即SiamFC [2]，StructSiam [57]，DSiam [15]，CFNet [46]，SINT [45]，SRDCF [8]、PTAV [13]、ECO-HC [5]、吻合钉CA[34]，BACF [24]、DSST [6]和HDT [38]，其中大多数是实时算法。如表1所示，与基于深度表示的其他跟踪算法相比，MLT在OTB数据集上实现了有竞争力的准确性尤其是我们与SiamFC及其变体（StructSiam、DSiam和CFNet）相比，在LaSOT上能够获得显著的性能增益，其中没有变体能够优于原始SiamFC。我们还分别分析了MLT的性能相对于8个不同属性的OTB视频。每个视频具有不同的属性，诸如平面内旋转、平面外旋转、运动模糊、低分辨率、比例变化、照明变化、背景杂波和遮挡。图4示出MLT对低分辨率、遮挡和尺度变化是鲁棒的在模糊的低分辨率图像中，目标的外观经常与背景中的其他物体的外观MLT可以通过使用元学习器网络为每个目标定制特征空间来区分这些外观。此外，MLT可以从背景的负面例子中学习，并且比其他跟踪器更好地处理遮挡。4.2.2定性分析图图5示出了由SiamFC、SRDCF、HDT、CNN-SVM、DSST和所提出的算法MLT产生的定性跟踪结果。所有跟踪器都在OTB-2015数据集中的所有视频上进行了测试，其中选定视频的跟踪结果5、由于篇幅的限制。MLT稳健而准确地跟踪目标，尽管有几个具有挑战性的条件，如盒序列中的遮挡Rubik序列中的姿势变化，背景技术在人3序列中，Girl2序列中的快速运动，和Car24序列中的尺度变化。这些定性跟踪结果表明，所提出的MLT成功地利用了元学习器网络的能力，并利用为每个目标定制的自适应权重来提高跟踪精度，而不会失去泛化能力。为918（一）（c）第（1）款（b）第（1）款（d）其他事项（e）（f）图5：定性结果。（a）box、（b）girl2、（c）rubik、（d）car24、（e）human3和（f）blurBody序列的跟踪结果。绿色、蓝色、青色、黄色、紫色和红色边界框分别表示SiamFC、SRDCF、HDT、CNN-SVM、DSST和MLT的跟踪结果。左上角的黄色数字表示帧编号。表明目标特定的权重有助于跟踪器适应各种目标外观变化并定位目标，并且通过抑制背景中干扰物的不正确响应来有效避免误报。图6：目标特定特征空间的效果的可视化。这示出了一些示例图像块z（第1和第4行），其中响应图y的变化在应用由我们的元学习器生成的我们的自适应权重w目标之前（第2和第5行）和之后（第3和第6参考，我们附上了一个补充视频，其中包含OTB-2015数据集的更多定性结果。此外图图6示出了特定于目标的特征空间如何修改响应图的一些示例，从而展示了元学习器如何在视觉跟踪任务中受益。我们示出了示例图像块z，其中目标对象固定在图像的中心，在特定于目标的特征空间修改之前和之后具有响应图。响应地图9195. 结论本文提出了一种基于深度元学习器网络构建的目标特定特征空间所提出的跟踪算法通过用元学习器网络生成目标特定的自适应权重来适应目标外观，其中匹配网络提供元信息梯度作为学习信号。我们的算法旨在自定义的特征空间，以区分特定的目标外观从背景中，以准确地跟踪目标，而不会过拟合。实验结果表明，该算法在包括LaSOT在内的5个大规模跟踪数据集定量和定性的算法显示了竞争力的跟踪性能的多个视觉跟踪数据集与几个具有挑战性的跟踪条件，相比其他视觉跟踪算法，而运行在48fps的实时速度。致谢这项工作得到了韩国科学和信息通信技术部资助的IITP基金的支持（No.2017-0-01780，用于视频理解的事件识别/关系推理和学习知识系统的技术开发）。920引用[1] Martın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， et al.Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。6[2] LucaBertinetto，JackValmadre，JoaBertinetoFHenriques，An-drea Vedaldi，and Philip HS Torr.用于对象跟踪的全卷积连体网络。 arXiv 预印本 arXiv ： 1606.09549 ，2016。二、五、七[3] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。CVPR，2010。2[4] LukaCˇeh o vin、Al esˇLeonardis和MatejKristan。视觉目标跟踪性能措施的重新审视。IEEE TIP，25（3）：1261-1274，2016。一、二、六[5] Martin Danelljan、Goutam Bhat、Fahad Khan和MichaelFelsberg。Eco：用于跟踪的高效卷积算子。在CVPR，2017年。二四七[6] MartinDanelljan ， GustavHaüger ， FahadKhan ，andMichaelFelsberg.用于鲁棒视觉跟踪的精确尺度估计。InBMVC，2014. 二、七[7] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。基于相关滤波器的卷积特征在ICCV研讨会，2015年。一、二[8] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。学习空间正则相关滤波器的视觉跟踪。CVPR，2015。二、七[9] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。在ECCV，2016年。一、二[10] Martin Danelljan ， Fahad Shahbaz Khan ， MichaelFelsberg，and Joost Van de Weijer.用于实时视觉跟踪的自适应颜色属性。CVPR，2014。2[11] Xingping Dong和Jianbing Shen。用于目标跟踪的连体网络中的三重态损失。在ECCV，2018。2[12] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。 arXiv预印本arXiv：/1809.07845，2018. 二、六[13] 范恒和凌海滨。并行跟踪验证：一个实时和高精度视觉跟踪的框架。InICCV，2017. 7[14] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。二、三[15] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。InICCV，2017. 7[16] Han Xufeng，Thomas Leung，Yangqing Jia，Rahul Suk-thankar，and Alexander C Berg. Matchnet：Unifying fea-ture and metric learning for patch-based matching.CVPR，2015。2[17] Sam Hare，Amir Saffari，and Philip Torr. Struck：使用内核的结构化输出跟踪。见ICCV，2011年。2921[18] Anfeng He ，Chong Luo ，Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。在CVPR，2018年。2[19] David Held Sebastian Thrun和Silvio Savarese学习使用深度回归网络以100 fps的速度跟踪。在ECCV，2016年。2[20] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.用核相关滤波器进行高速跟踪。IEEETPAMI，37（3）：583-596，2015年。2[21] Seunhoon Hong ， Tackgeun You ， Suha Kwak ， andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。ICML，2015。一、二[22] Zhibin Hong，Zhe Chen，Chaohui Wang，Xue Mei，Danil Prokhorov，and Dacheng Tao.多悬挂物跟踪器（集合）：一种受认知心理学启发的对象跟踪方法。CVPR，2015。2[23] Zdenek Kalal，Krystian Mikolajczyk，and Jiri Matas.跟踪-学习-检测IEEE TPAMI，34（7）：1409- 1422，2012年。2[24] Hamed Kiani Galoogahi Ashton Fagg Simon Lucey学习用于视觉跟踪的背景感知相关滤波器。InICCV，2017.7[25] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。ICLR，2015年。5[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。NIPS，2012年。1[27] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.1[28] Boli，Junjie Yan，Wei Wu，Zheng Zhu，and XiaolinHu.基于暹罗区域投影网络的高性能视觉跟踪。在CVPR，2018年。2[29] 梁鹏鹏、埃里克·布拉什和凌海滨。用于视觉跟踪的编码颜色信息：算法和基准。IEEE TIP，24（12）：5630-5644，2015年。二、六[30] Alan Lukezic，Tomas Vojir，Luka Cehovin Zajc，JiriMatas，and Matej Kristan.具有信道和空间可靠性鉴别相关滤波器。在CVPR，2017年。1[31] Chao Ma ， Jia-Bin Huang ， Xiaokang Yang ， Ming-Hsuan Yang.用于视觉跟踪的分层卷积特征CVPR，2015。一、二[32] 薛梅和凌海滨。使用l1最小化的鲁棒视觉跟踪。ICCV，2009年。2[33] Matthias Mueller，Neil Smith，Bernard Ghanem。无人机跟踪基准测试与模拟器。在ECCV，2016年。二、六[34] Matthias Mueller，Neil Smith，Bernard Ghanem。上下文感知相关滤波器跟踪。在CVPR，2017年。 7[35] Tsendsuren Munkhdalai和Hong Yu。Meta网络。在ICML，2017. 二三五[36] Hyeonseob Nam和Bohyung Han。视觉跟踪的多域卷积神经网络学习。CVPR，2015。一、二、三922[37] Eunbyung Park和Alexander C Berg。元跟踪器：用于视觉对象跟踪器的快速和鲁棒的在线适应。在ECCV，2018。3[38] Yuankai Qi ， Shengping Zhang ， Lei Qin ， HongxunYao，Qingming Huang，Jongwoo Lim，and Ming-HsuanYang.对冲深度跟踪。在CVPR，2016年。二、七[39] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。InICML，201

下载后可阅读完整内容，剩余1页未读，立即下载