基于相关滤波器的联合表示和截断推理的深度学习跟踪模型

86 浏览量更新于2023-10-13 收藏 924KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于相关滤波器的联合表示和截断推理学习跟踪姚英杰1[0000 - 0002 - 3533 - 1569]、吴晓河1[0000 - 0001 - 6884 - 9121]、张磊2[0000 - 0002 - 4424 - 4942]、单世光3[0000 - 0002 - 8348 - 392X]，王梦左一（右）[0000−0002−3330−783X]1哈尔滨工业大学，哈尔滨1500012匹兹堡大学3362 Fifth Avenue，Pittsburgh，PA 152133中国科学院计算技术研究所，北京，100049{yaoyoyoyogurt，xhwu.cpsl.hit，cszhanglei} @ gmail.com，sgshan@ict.ac.cn，wmzuo@hit.edu.cn摘要基于相关滤波器（CF）的跟踪器通常包括两个模块，即，特征表示和在线模型自适应。在用于CF跟踪器的现有离线深度学习模型中，模型自适应通常被放弃或者具有封闭形式的解决方案，以使得以端到端的方式学习深度表示是可行的。然而，这样的解决方案未能利用CF模型的进步，并且与最先进的CF跟踪器相比不能实现有竞争力的准确性。在本文中，我们研究了深度表示和模型自适应的联合学习，其中引入了一个更新器网络，通过将当前帧表示，跟踪结果和最后一个CF跟踪器作为输入来更好地跟踪未来帧通过将表示器建模为卷积神经网络（CNN），我们截断了交替方向乘法器（ADMM），并将其解释为更新器的深度网络，从而产生了我们的学习表示和截断推理模型（RTINet）。实验表明，我们的RTINet跟踪器实现了良好的跟踪精度对国家的最先进的跟踪器，其快速版本可以运行在 24 fps 的实时速度代码和预训练模型将在https://github.com/tourmaline612/RTINet公开。关键词：视觉跟踪·相关滤波器·卷积神经网络·展开优化1介绍近年来，相关滤波器（CF）在视觉跟踪方面取得了显著的进步和最先进的性能通常，基于CF的方法学习CF的特征表示模型自适应以及图像序列。因此，基于CF的跟踪性能的进步主要是由特征表示和CF学习模型的改进驱动的特征表示的发展见证了2Yao等人从手工制作的HOG [16]和ColorNames（CN）[11]到深度卷积神经网络（CNN）特征[7，22，26]的演变。他们的结合也被采用[6，10]。同时，随着空间正则化[7-9]、连续卷积[10]、目标响应自适应[2]、上下文正则化[23]、时间正则化[20]和其他复杂的学习模型[6，17，34]的引入，学习模型也得到了不断改进由于CNN在计算机视觉中取得了前所未有的成功[14，19，27，28]，研究深度CNN的离线训练以用于 CF跟踪器中的特征表示和模型自适应不幸的是，CF跟踪中的模型自适应通常需要解决复杂的优化问题，并且与深度表示一起离线训练并不简单。为了实现针对视觉跟踪指定的深度表示的离线训练，建议Siamese网络解决方案[1，4，29]通过学习匹配器来区分补丁是否与第一帧中注释的范例图像匹配来绕过模型自适应。在[1，4，29]中，跟踪器从第一帧开始是固定的，并且不能适应外观时间变化的目标。对于深度表示和模型自适应的联合离线训练，Valmadre et al.[30]采用原始CF形式，因为其模型自适应具有封闭形式的解决方案，并且可以被解释为可微分CNN层。而不是直接考虑模型适应，郭等人。[13]提出了一个动态的暹罗网络建模的时间变化，而Choi等人。[5]利用元学习器网络的前向传递为连体网络提供新的外观信息然而，这些方法未能利用CF模型的持续改进[7，8，10，17]，甚至可能无法在为分类和检测任务预先训练的深度特征上部署高级CF模型来实现可比较的跟踪准确性。针对上述问题，本文提出了一种双层优化公式以及RTINet架构，用于基于CF的跟踪中深度表示和模型自适应的联合离线学习。为了利用CF跟踪的进步，较低级别的任务通过结合背景感知建模采用更复杂的CF模型[17]，其可以从大空间支持中学习具有有限边界效应的CF。并在未来框架上定义了任务驱动学习和提高跟踪精度的上层目标通过展开优化，我们截断了用于解决较低级别任务的交替方向乘法器（ADMM），以形成我们的RTINet，它可以被解释为基于另一个representor网络提供的深度表示的更新器网络。因此，我们的RTINet模型支持深度表示和截断推理的端到端离线训练。此外，截断推理的任务驱动学习也有助于提高基线CF跟踪器的有效性[30]。实验表明，CNN与先进的CF跟踪器相结合可以提高跟踪性能，深度表示和截断推理的联合学习也提高了跟踪精度。与最先进的跟踪器相比，我们的RTINet跟踪器实现了良好的跟踪精度，其快速版本可以实现24 fps的实时速度。联合表示与截断推理学习3总而言之，这项工作的贡献有三方面：1. 我们提出了一个框架，即，RTINet，用于深度表示和模型自适应的离线训练我们没有将CNN与标准CF跟踪器[30]相结合，而是将其与高级CF跟踪器（即，BACF [17]）可以大幅度地提高跟踪性能2. 高级CF的模型自适应通常需要解决复杂的优化问题，使得难以联合训练代表者和更新者网络。为了解决这个问题，我们通过展开ADMM算法来设计更新器网络，并定义未来帧的损失来指导模型学习。3. 实验表明，我们的RTINet实现了良好的准确性对国家的最先进的跟踪器，而其快速版本可以执行实时速度。2相关工作深度CNN在许多具有挑战性的视觉任务中表现出出色的性能[12，27]，并激发了许多作品在基于CF的跟踪器中采用深度特征[6，7，22]。这些方法简单地使用由预训练用于图像分类的CNN生成的特征表示多个连体网络，例如，SINT [29]、GOTURN [15]和SiameseFC [1]已被用于CNN特征提取器的离线学习以进行跟踪，但特征提取器和跟踪器对于第一帧都是固定的，这使得它们的性能通常不如现有技术。作为补救措施，Guo et al.[13]和Choi et al.[5]学习在线更新特征提取器以适应跟踪期间的外观变化。而不是学习更新的特征提取器，Valmadre等人。[30]采用简单的由于原始CF具有封闭形式的解决方案，因此可以将其解释为可微分CNN层，并实现深度表示和模型自适应的联合学习。上述这些方法未能利用CF模型的持续改进[7，8，10，17]，并且无法与基于深度特征的高级CF模型竞争。另一个相关的工作是Park等人的元跟踪器。其自动学习用于现有跟踪器的在线模型自适应的快速梯度方向（例如，MDNet [24]）。相比之下，我们的RTINet专注于基于CF的跟踪中的深度表示和模型自适应的联合离线学习此外，大多数先进的CF跟踪器被公式化为约束优化，这不能像元跟踪器[25]那样通过梯度下降容易地解决。因此，我们截断了用于求解BACF的ADMM算法[10，17]以设计更新器网络，然后提出了我们的RTINet，它可以实现深度表示和截断推理的端到端离线训练此外，截断推理的离线学习也有利于提高基线优化算法的有效性[32，33]。4Yao等人y−t2zf伊2Lρ2⊤¨Σ¨¨3该方法在本节中，我们将介绍我们的RTINet方法，用于CF跟踪器中深度表示和模型自适应的联合离线训练为此，我们首先简要回顾最近的CF跟踪器，即，BACF [17]，提供一些见解，然后介绍我们的RTINet的公式，网络架构和学习。3.1再访BACF设zt∈Rm×n×L，ft表示当前帧的特征表示x t，并且CF在帧处被指定。IinCFbaΣsedtrackers，tracking可以通过首先计算响应图来执行Ll=1 zt，l ft，l as thezt和ft之间的互相关，然后根据最大的反应地图。这里，表示卷积算子，并且可以使用快速傅里叶变换（FFT）有效地执行互相关，使得CF在视觉跟踪中非常令人鼓舞和深入研究。原始CF模型通过解决以下问题来更新CF，¨1¨分钟f2¨ΣLl=1¨2¨¨t，l l¨+¨λΣL2l=1fl其中，是基于帧t处的跟踪结果的高斯形函数，并且λ是正则化参数。最近，许多先进的CF模型已被建议，以改善原始CF，导致视觉跟踪的持续性能改善。在这里，我们以BACF [17]为例，它通过背景感知建模更好地利用真实负样本来BACF模型可以等效地公式化为，¨1¨分钟f， h2¨ΣLt−l=1zt，l¨2¨升¨λ2000年，fl = M h，（2）其中M是用于裁剪图像的中心块的二进制选择矩阵。BACF模型可以有效地解决使用交替方向的乘法器（ADMM）。相应地，等式11的增广拉格朗日函数可以是：(2)可以表示为，L（f，h，µ）=¨¨L¨y−z¨⋆f¨+λΣL简体中文（zh_cn）ρΣL2磅l=1t，l 升¨2l=1 µl（fl−Mhl）+2 l=1 fl−Mhl、（3）其中μ表示拉格朗日乘数，ρ是惩罚参数。通过引入g =1μ，对等式11的{f，h}的优化被实现。（3）可以等价形成为，L（f，h， g）=¨ΣL¨y−z¨¨2¨⋆f¨+ λρΣL联系我们f −Mh+ g2.（四）2磅l=1t，l l¨¨22ll ll=1*f1212联合表示与截断推理学习5t+1tADMM算法然后可以被应用于交替地更新h、g和f，（k+1）λ2 ρL(k)⊤(k)2h= argmin2hl + glg（k+1）= g（k）+ f（k）−Mll l¨l¨2（五）（k+1）1升ΣL（k+1）（k+1）2f= arg min2¨yt−zt，l¨ fl¨ +2l=1 fl−M hl+ glf？l=1？我们注意到f （ k+1 ）和h （k+1 ）上的子问题有封闭解。一旦解f*到Eqn。（2），则在帧t+1处采用的CF可以利用定义为的线性插值更新规则来获得f=（1−η）f+ηf*（6）其中η表示在线自适应速率。基于BACF [17]的制定和优化，我们进一步解释了其扩展CFNet [30]的动机以及深度表示和模型自适应的联合离线学习：1. 在CFNet中，深度表示与最简单的CF跟踪器[16]集成请注意，许多高级CF模型，例如BACF [17]在跟踪精度方面可以显著优于简单CF。因此，很自然地推测深度表示和BACF的组合可以导致改进的跟踪性能。2. CFNet只考虑传统CF的一个原因是它具有封闭形式的解决方案，并且可以被解释为可微分的CNN层。对于BACF，方程的解是：(2)定义特征表示zt和模型参数λ的隐式函数，限制其与CNN表示的集成。幸运的是，当迭代次数固定时（即，截短推断[32，33]），来自等式的ft+1然后可以将（5）和（6）表示为特征表示和模型参数的显式函数因此，通过展开 BACF的ADMM优化，可以促进用于视觉跟踪的截断推理的端到端离线学习3. 此外，在[17]中的手工特征上执行BACF。由Φ（·;Wf）表示，具有参数Wf的全卷积网络。因此，通过令Zt=ψ（Xt;Wf），深度表示和截断推理两者可以从注释序列联合离线学习。受上述讨论的启发，我们在下面首先介绍了一个用于深度表示和截断推理的联合学习的双层优化框架，然后介绍了我们的RTINet的架构和学习。3.2模型配方设z t= ψ（xt; W F）是x t的深度表示，其中W F表示表示网络ψ（·;W F）的参数。当然，我们要求H6Yao等人−y）Ll电话+1电话+1LLΣ=所学习的CF f t+1= ηft+（1 η）ft在跟踪未来帧的目标方面应该是有效的。因此，BACF和深度表示的集成可以被公式化为双层优化问题。min¨¨¨¨t+1ΣL-zt+1，l*（ηf*+（1−η）f¨2¨¨t，l¨，λ，ρ，M，η¨∗¨l=1¨ ¨2¨L¨¨ ¨2（七）S.T. f = arg min¨yt−zt，lfl¨+λ h，F ¨S.T. f = M h¨l=1然而，f*定义了zt和ft+1的隐函数，这使得计算梯度变得困难对于展开ADMM优化，当迭代次数K固定时，所有f（1），. 、f（K）和ft+1可以表示为zt、yt和ft的函数。对于深度表示和截断推理的联合学习，我们还稍微修改了BACF模型和ADMM算法，以使模型参数λ和M，算法参数ρ和η都是迭代的和可迭代的，即。例如，Θ={Θ⑴，…其中Θ（k）={λ（k），M（k），ρ（k），η（k）}。为了提高学习跟踪器的鲁棒性，我们要求ft+1也可以应用于第（t+为了简化训练，我们进一步引入（k）电话+1 =η（k）f （k）+（1-η（k））ft，并且在f（k）处的reuireth也表现良好。以综合考虑上述因素，提出了RTINet的整体模型对于表示和截断推理的联合学习KüL¨2minL（W，F，Θ） =¨¨yt+1−¨ψl（xt+1;WF）f（k）¨¨（八）哪里¨¨k=1l=1t+1，l¨f（k）=FInt（f （k），ft;η（k））=η（k）f （k）+（1-η（k））ft，（9）h（k）=Fh （f（k−1），g（k−1）;λ（k），ρ（k），M（k））（10a）。.ΣΣ−1。Σ。ΣI+ρ（k）M（k）M（k）ILρ（k）M（k）ILf（k−1）+g（k−1）（k）（k−1）（k−1）（k）（k）gl=Fg(g,f，h; M）（10b）=g（k−1）+ f（k−1）−M（k）斜纹布（k）L （k）（k）（k）L（k）贝加尔夫=Ff（zt，yt， g∗，h;ρ，M）（10c）z=ΣL，q=ρ （k）h（k）−ρL（k）g（k）+z（t），l◦y（t）Lρ（k）+l=1∗t，l◦ zt，l当r∈·=F（·）d etI L是在大小为L×L的rix处的iitym，且h（k）=F（M（k）h（k））。f （k）canbeLFΣLzΣ联合表示与截断推理学习7电话+1∼·--{zt，yt}（xt;WF）g（0）F（g，Gg（1）FGg（2）…FGg（K）h（1）Ff（zt，yt，g，h）h（2）Ff…h（K）Fff（0）Fh（f，f（1）Fhf（2）Fhf（K）Xtxt1F不F F（1(1)（(1)（一）（二）（二）（二）（二）t1不Fft1（1）f...ff（K）（K）（K）（K）tt 1（1不222J 伊zLL1t 1t1，lt1，l宾馆（1）J 伊zL2t 1t1，lt1，l中文（简体）J 伊zKt1tt1，lf（K）（xtt1t1t1{zt1，yt 1}图1.RTINet架构概述，包括一个representor网络和一个updater网络。在推理学习中，我们按照等式（1）递归地计算h、g和f。(9)（10c）在每个阶段中。通过对k（k）的插值得到。在第一个例子中，f （0）和g（0）初始化为零。总而言之，我们的RTINet由两个子网络组成：（i）生成深度表示的表示器网络，以及（ii）更新CF模型的更新器网络。当代表网络采用全卷积网络结构，更新器网络基于方程递归定义（9）（10c）。关于表示器和更新器架构的更详细的解释将在下一小节中给出。3.3RTINet的体系结构图 1提供了RTINet体系结构的概述，其中包括一个代表者网络和一个更新者网络。对于表示网络ψ（; WF），我们采用VGG-M [3]的前三个卷积（conv）层。在每个卷积操作之后采用ReLU为了处理不同大小的目标，我们将补丁大小调整为224× 224作为输入，并生成大小为13× 13× 512的特征图对于更新器网络φ（zt，yt， ft;Θ），我们遵循展开的ADMM优化来设计网络架构。如图1，给定z t，y t，我们初始化f（0）=0和g（0）= 0。在更新器网络的第一级中，(i) 节点Fh（f，g）以f（0）和g（0）为输入生成h（1），（ii）节点Fg（g，f，h）以g（0）、f（0）和h（1）为输入生成g（1），最后（iii）节点Ff（z，y，g，h）以z t、y t、g（1）和h（1）为输入生成f（1）。通过重复K个阶段，我们可以得到f（K），然后节点FInt（f，f t）将f（K）和f t作为输入，生成f t+1。注意，所有节点Fg、Fh、Ff和FInt都是可微的。因此，利用带注释的视频序列，更新器网络和表示器网络两者都可以通过最小化等式11中的模型目标来端到端地训练。（八）、8Yao等人--¨t+1，lt+1，l¨′′Θ（η（ρ（M（λ（λ（k′）Jk=（k′）Jkht+1·λ（k′）ht+13.4模型学习在本小节中，我们提出了一种逐阶段学习方案来学习模型参数Wf和Θ ={Θ（k）}k=1，2，...，K。在第一（k ′-1）个学习阶段之后，我们可以获得当前模型参数W_F和{Θ（k）}k=1，2，···，（k′-1）。Denotebyθ（k）=λ（k），M（k），ρ（k），η（k）。为了确定该模型，我们将逐阶段损失函数定义为：¨ ¨2L′ ¨¨Jk′=¨yt+1−l=1z f（k）¨¨ .（十一）然后，我们介绍了梯度计算，用于更新模型参数的随机梯度下降（SGD）算法。根据Eqns.（9）（10c），我们有以下观察结果：（k′）′′(a) f t+1 是f（k），ft和η（k）的函数;(b) h（k′）是f（k′−1），g（k′−1），λ（k′），ρ（k′）和M（k′）的函数;(c) g（k′）是g（k′-1），f（k′-1），h（k′）和M（k′）的函数;(d) f（k′）是z，y，h（k′），g（k′），ρ（k′）和M（k′）的函数.t t将这些观测值与Eqn合并。（11.），得到了JkΣ′的表达式w.r.t. 第k级中的Θ（k），即， k′ Jk′ =具体地，对于在Θ（k’）中的随机数，w具有：∇′J′=∇'J'（k′）夫η（k）k（k）kt+1η（k）t+1′ ′∇“J”='J'′f（k）+'J'′h（k）ρ（k）kf（k）kρ（k）（k′）h（k）kρ（k）（k′）（k′）（十二）∇M(k′)Jk′=∇f(k′)Jk′∇M(k′)f+g（k′）Jk′M（k′）gK+h（k′）Jk′M（k′）h∇′ ′()在这些补充材料中，定义了f（k′）Jk′、g（k′）Jk′和h（k′）Jk ′此外，Jk′还应用来更新模型参数WF以及{Θ（k）}k=1， 2，···，（k′-1），为了联合表示，并且在-推理学习因此，我们也给出了Jk′w.r.t.的梯度Handdf（k′−1）asfollows，（k′−1），g（k′−1），∇h(k′−1)Jk′=∇g(k′−1)Jk′∇h(k′−1)g （k′−1）+f（k′−1）Jk′g（k′−1）f（k′−1）∇g(k′−1)Jk′=∇g(k′)Jk′∇g(k′−1)g（k′）+h（k′）Jk′g（k′−1）h（k′）（十三）f（k′−1）Jk′=（k′）+h（k′）Jk′f（k′−1）h（k′）推导的详细内容请参见补充资料因此，我们可以将梯度反向传播到（k ′− 1），...， 1层和表示w或kψ（·;W_F）。在了解到这些信息后，我们可以F′′′′′联合表示与截断推理学习9′−′通过学习Θ（k+Ι）并微调Wf和{Θ（k）}k= l， 2，···，k’来进行第（k+ Ι）个阶段式训练，直到第K个阶段式训练结束。最后，在在线跟踪过程期间，采用所有模型参数W、F和Θ用于目标4实验在本节中，我们首先描述实现细节，然后与与我们的方法高度相关的基线跟踪器进行比较。为了全面分析，进行消融研究以调查联合特征表示学习和逐阶段训练方案的效果。最后，我们将提出的RTINet与OTB-2015 [31]，TB-50 [31]上的最先进的跟踪器进行了来自OTB-2015的50个更具挑战性的序列），TempleColor-128 [21]和VOT 2016 [18]数据集。我们的方法在MATLAB 2017a中使用MatConvNet库实现，所有实验都在配备Intel i7 CPU 4.0GHz，32GB和单个NVIDIA GTX 1080 GPU的PC上运行。4.1实现细节训练集。为了训练RTINet，我们使用了2015年版的ImageNet大规模视觉识别挑战（ILSVRC 2015）数据集，该数据集由来自30个不同对象类别的4,500多个视频对于每个视频，我们选取20个连续的帧，其中目标尺寸不大于图像尺寸的50%然后，随机选择2，000个序列进行训练，并将剩余序列用作有效序列。为了避免targ√etdistort√ion的流量，我们裁剪以目标为中心的大小为5W H×5WH的正方形区域，其中W和H分别表示目标的宽度和高度。裁剪后的区域进一步调整为224× 224作为RTINet的输入培训详情。由于直接用所有参数训练RTINet并不简单，因此我们将表示器网络和更新器网络的训练解耦为两个步骤：（1）首先保持表示器网络固定，并以分级方式训练更新器网络对于阶段k，我们将更新的网络的每个部分划分为两个阶段k（即，第一阶段k和第二阶段k）。例如， λ（k），ρ（k），η（k）和M（k））与前一阶段k-1中的训练参数的关系。然后用50个时期训练更新器网络，其中前一阶段中的所有参数都（2）在对更新器网络进行阶段训练之后，我们再应用50个epoch来联合训练表示器网络和更新器网络。在训练期间，我们使用预训练的VGG-M模型初始化表示器网络的卷积层[3]。对于模型参数，我们在第一个阶段中将λ（ 0），ρ（0），η（0）和M（0）设为1，1，0.013和二进制选择矩阵。我们使用随机梯度下降（SGD）作为优化器，小批量大小为16，学习率从10−2到10−5呈指数衰减。10Yao等人表1.与OTB-2015上的基线CFNet变体的比较。跟踪器CFNet-conv 1 CFNet CFNet-conv 1-Rep CFNet-Rep RTINet-conv 1 RTINetAUC53.656.854.858.064.368.2FPS847582.76823.39.0表2.与OTB-2015上的基线BACF变体的比较。跟踪器BACF BACF-VGGM BACF-Rep RTINet-VGGM stdBACF-Rep RTINetAUC61.563.164.066.564.268.2FPS35.36.16.58.97.09.04.2与CFNet与我们的RTINet最相关的方法是CFNet [30]，它也被提出用于深度表示和CF跟踪器的联合学习。相比之下，我们的RTINet的更新器网络是基于BACF的展开优化设计的[17]。在这里，我们评估所提出的方法的两个变体：具有三个卷积层的RTINet及其快速版本，即，RTINet-conv1与一个卷积层，并将它们与CFNet，CFNet-conv 1及其两个变体进行比较，其特征由RTINet表示器提取，即，OTB-2015上的CFNet-conv 1-Rep和CFNet-Rep。按照[31]中的方案，我们在表1中报告了曲线下面积（AUC）和跟踪速度方面的结果。我们有两个观察结果。(1)具有RTINet特征的CFNet变体的表现优于CFNet-conv 1和CFNet，AUC增益分别为1.2%和(2)在AUC方面，两个RTINet变体都优于其对应物，表明RTINet在学习特征表示和截断推理方面是有效的。特别是，RTINet在OTB-2015数据集上比CFNet带来了11.4%的AUC增益。至于快速版本，RTINet-conv 1也比其基线CFNet-conv 1高出10.7%。RTINet甚至在OTB-2015上实现了68.2%的AUC，远远超过其他跟踪器。我们欠的改进都引入了先进的BACF跟踪器和截断推理到RTINet框架。我们还报告了不同跟踪器的平均FPS。虽然最佳速度属于CFNet-conv 1（84 fps）和CFNet-conv 1-Rep（82.7 fps），但RTINet以9 fps运行并达到最先进的跟踪精度。实际上，RTINet中的大部分计算成本来自更深层次的CNN特征提取。当采用conv 1特性时，RTINet-conv 1实现了24 fps的实时速度，同时仍然对CFNet表现良好。联合表示与截断推理学习11表3.通过不同阶段数的训练的RTINet的AUC得分数量的级12345678910篮球62.075.969.164.369.469.168.968.968.868.8BlurCar177.183.081.281.180.680.780.580.480.380.3CarDark76.285.783.382.982.282.181.681.782.282.3人类444.157.055.657.761.551.052.251.552.052.3玩具60.161.163.162.862.161.962.862.862.763.0OTB-201559.668.267.267.266.366.065.666.366.066.24.3消融研究在本节中，我们深入分析了联合特征表示和截断推理学习以及逐阶段训练的效果共同学习。为了研究联合学习的效果，我们将特征表示和截断推理学习解耦，这导致RTINet的四种变体：BACF-VGGM（具有来自预训练的VGG-M的固定卷积特征的BACF）、BACF-Rep（具有学习的RTINet表示的BACF）、RTINet-VGGM（具有来自预训练的VGG-M的固定卷积特征的RTINet）和完整的RTINet模型。此外，我们还将学习到的RTINet表示和模型参数λ、η和M应用于标准BACF，从而得到标准BACF-Rep。表2显示了具有HOG特征的默认BACF和OTB-2015上的BACF变体的AUC评分。从表 2 可以看出，与相应的 BACF 变体相比， RTINet 和 RTINet-VGGM显著改善了AUC评分这可以归因于更新器网络中的截断推理学习确实有益于跟踪性能。此外，RTINet还将RTINet-VGGM的性能提高了1.7%的AUC增益，BACF-Rep比BACF-VGGM获得了0.9%的增益，验证了表示学习的有效性值得注意的是，在我们的RTINet中，推理学习比特征学习更能提高性能，这意味着预训练的VGG-M确实具有良好的表示和泛化能力。总之，学习的特征表示和截断推理都有助于提高跟踪精度，这共同解释了我们的RTINet的良好性能。阶段性学习。在第3节中，我们提出了一个阶段式训练方案来学习模型参数。特别地，我们使用截断ADMM优化来求解BACF [17]公式因此，我们分析了级数对跟踪性能的影响表3通过在0 TB-2015数据集上设置不同的阶段数给出了所有序列以及几个代表性序列上的RTINet的平均AUC评分具有一个阶段的RTINet表现不佳，AUC为59.6%，甚至低于BACF（61.5%）。这是合理的，因为仅具有一个阶段的RTINet类似于简单CF而不是高级BACF模型。得益于先进的BACF，RTINet实现了12Yao等人∼对于大多数序列，在2 - 5次迭代内具有显著更好的性能。RTINet的最佳AUC得分为68.2%，在OTB-2015上通过两个阶段获得，表明可以学习有效的求解器还可以发现，增加阶段数会导致AUC适度降低。一个可能的原因是，对于较少数量的级，RTINet专注于最小化等式11中的上损耗。(7)并且有利于准确性。对于更大数量的级，RTINet可以开始最小化等式1中的较低损耗。(7)而不是准确性。(a)(b)（c）第（1）款图2. (a)每个阶段的学习的λ、ρ、η。(b)前两个阶段的M可视化。(c)使用离线训练的10阶段RTINet对用于测试的阶段数量进行评估。学习参数的可视化。各阶段的参数离线训练，然后在跟踪过程中保持固定。图2（a）示出了表3中使用的学习的逐阶段λ、ρ、η可以注意到，λ、ρ、η的值从第四阶段开始变得稳定根据表3，当级数为2时获得最佳跟踪精度因此，我们在图1中呈现了针对前两个阶段的学习到的M的可视化第2段（b）分段。从图在图2（a）（b）中，我们有两个观察结果：（1）每个阶段都有其特定的参数值，（2）学习的Ms放松了二元裁剪操作，这与BACF中采用的M略有不同我们还注意到，BACF中的M和我们学习的M都被调整为跟踪中的特征图大小。收敛对跟踪的影响。通常，ADMM算法被用来解决约束凸优化问题，并保证收敛。因此，讨论在用固定数量的阶段训练RTINet之后迭代次数的影响是有趣的。为此，我们训练了一个10阶段的RTINet，并通过在跟踪中使用不同的迭代次数在OTB-2015上进行测试。根据图2（c），在4次迭代之后获得最佳跟踪精度。然后，RTINet可以专注于最小化较低的损耗，并且更多的迭代不会带来准确性的任何增加。图2（c）还示出了跟踪速度的曲线图。比较表3和图4。从图2（c）可以看出，用小K直接训练RTINet比先训练一个10阶段的RTINet，然后用小迭代对其进行测试要好。联合表示与截断推理学习13OPE的成功图1OPE的成功图10.9OPE的成功图0.90.80.90.80.80.70.70.60.50.40.30.20.10.70.60.50.40.30.20.10.60.50.40.30.20.100 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.8 1重叠阈值(a) TB-50(b) OTB-2015(c) 模板颜色-128图3. TB-50、OTB-2015和TempleColor-128数据集上不同追踪器的重叠成功图。4.4与最新方法的我们将RTINet与几种最先进的跟踪器进行比较，包括基于CF的跟踪器（即，ECO [6]、C-COT [10]、DeepSRDCF [7]、BACF [17]、STAPLE-CA [23]）和基于学习的CNN跟踪器（即，MDNet [24]、MetaSDNet [25]、MetaCREST [25]、SiameseFC [1]、DSiamM [13]和SINT [29]）。请注意，所有结果都是通过使用公开可用的代码或作者提供的结果进行公平比较而获得的。实验在TB- 50 [31]、OTB-2015 [31]、TempleColor-128 [21]和VOT-2016 [18]上进行。在前三个数据集上，我们遵循[31]中提供的OPE方案，并呈现按AUC评分排序的成功图。在VOT-2016上，我们从准确性、鲁棒性和预期平均重叠（EAO）方面0 TB-2015和TB-50。图3（a）（b）显示了OTB-2015和TB-50基准的竞争跟踪器所提出的RTINet在两个数据集上排名前3，与ECO和MDNet等顶级跟踪器实现了相当的性能[24]。此外，RTINet在OTB-2015上的AUC得分为68.2%，分别比CFNet和BACF高出11.4%和6.7%图 3 中，我们还将 RTINet 与最近提出的元跟踪器 [25] （即，MetaSDNet和MetaCREST）。同样，我们的RTINet在AUC评分方面优于MetaSDNet和MetaCREST即使是快速版本RTINet-conv 1也优于MetaCREST，与MetaSDNet相当在TB-50中更具挑战性的序列上，我们的RTINet仍然与最先进的ECO不相上下，在竞争对手中排名第二具体来说，RTINet的表现优于其他基于学习的跟踪器，包括SiameseFC [1]，DSiamM [13]和SINT [29]，并超过其基线CFNet [30]10.7%。与CFNet和BACF相比，RTINet的优势可以归因于高级BACF模型的结合，以及深度表示和截断推理的联合学习。最后，我们分析了性能方面的属性。RTINet在11个属性中的6个属性上的性能排名前3，在其他属性上与最先进的性能不相上下给出了详细的计算结果ECO [0.648]MDNet [0.645]RTINet [0.637]MetaSDNet [0.627]C-COT [0.620]MetaCREST [0.590][0.561]DeepSRDCF [0.560]BACF [0.559]吻合钉_CA [0.538]SINT [0.533]CFNet [0.530]暹罗足球俱乐部[0.516]ECO [0.687]RTINet [0.682]MDNet [0.678]C-COT [0.673]MetaSDNet [0.658]DeepSRDCF [0.635]MetaCREST [0.632]BACF [0.615]DSiamM [0.605]吻合钉_CA [0.600]暹罗足球俱乐部[0.582]SINT [0.577]CFNet [0.568]RTINet [0.602]ECO [0.597]C-COT [0.574]ECO_HC [0.549]DeepSRDCF [0.537]SRDCF [0.517]吻合钉[0.509]BACF [0.498]CFNet [0.441]成功率成功率成功率14Yao等人表4.在VOT-2016数据集的EAO、鲁棒性和准确性方面与最先进的跟踪器进行比较。跟踪器ECO C-COT DeepSRDCF SRDCF HCFT Staple BACF RTINetEAO0.374 0.3310.2760.2470.220 0.295 0.2330.298精度0.540.520.510.520.470.540.560.57稳健性0.720.851.171.501.381.351.881.07在补充材料中结果进一步验证了我们提出的RTINet的有效性第128章. 图图3（c）示出了TempleColor-128上的成功图RTINet对ECO表现良好，AUC评分为60.2%，并且相对于BACF和C-COT实现了显著改善，分别增加了10.4%和2.8%。特别是，与其对应的CFNet相比，RTINet提高了16.1%的大幅度的性能结果进一步证明了联合表示和截断推理学习的有效性。VOT2016. VOT2016上的定量结果也以表4中的准确度、稳健性和EAO。RTINet实现了有前途的性能，在准确性和鲁棒性方面都比BACF，SRDCF和DeepSRDCF表现得更好。特别是，它在准确性方面获得了最好的结果，值为0.57，在鲁棒性和EAO方面表现第三值得注意的是，RTINet在准确性方面优于ECO，但在鲁棒性方面不如ECO，这可以归因于在式（1）中的训练损失中仅考虑准确性。(8)关于RTINet5结论本文提出了一种用于视觉跟踪中深度表示和模型自适应联合学习的RTINet框架。我们采用深度卷积网络进行特征表示，并将CNN与高级BACF跟踪器集成。为了解决CNN架构中的BACF，我们通过展开BACF模型的ADMM优化来将模型自适应网络设计此外，一个贪婪的阶段明智的学习计划，介绍了联合学习的深度表示和截断推理的注释视频序列。三个跟踪基准的实验结果表明，我们的RTINet跟踪器实现了良好的性能与国家的最先进的跟踪器相比。此外，我们的快速版本的RTINet可以运行在实时（24 fps）在一个适度的牺牲精度。以BACF为例，我们的RTINet在结合CF建模的进步以提高基于学习的跟踪器的性能方面提供了一些启示，因此值得在未来的工作中进行深入研究。谢谢。本工作得到了国家自然科学基金的部分资助，基金号为61671182和61471146。联合表示与截断推理学习15引用1. 贝尔蒂内托湖Valmadre，J.，Henriques，J.F.，Vedaldi，A.，Torr，P.H.：充分利用计算机资源，将数据存储在工作中，以进行数据挖掘。In：ECCV.pp. 8502. Bibi，A.，Mueller，M.Ghanem，B.：用于相关滤波跟踪的目标响应自适应。In：ECCV.pp. 4193. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：魔鬼的回归细节：深入研究卷积网络。电影BMVC（2014）4. Chen，K.，Tao，W.：一劳永逸：用于视觉训练的双流卷积神经网络。TCSVTPP，15. 崔，J.，Kwon，J.，Lee，K.M.：基于目标特定特征空间的实时视觉跟踪的深度

下载后可阅读完整内容，剩余1页未读，立即下载