没有合适的资源?快使用搜索试试~ 我知道了~
280549x49x3217x17x32训练图像:255x255x3★33x33x149x49x32CNNCNN作物相关滤波器基于相关滤波的跟踪端到端表示学习杰克·V·阿尔马德雷·卢卡·贝尔蒂内特 和亨利·安德里亚 ·V·埃达尔迪·菲利普·H·乔。S. 牛津大学{name.surname}@ eng.ox.ac.uk测试图像:255x255x3图1:建议的网络架构CFNet概述。这是一个不对称的暹罗网络:在将相同的卷积特征变换应用于两个输入图像之后,“训练图像”被用于学习线性模板,该线性模板然后被应用于通过互相关来搜索“测试图像”。摘要相关滤波器是一种训练线性模板来区分图像及其平移的算法它非常适合于对象跟踪,因为它在傅立叶域中的公式化提供了快速解决方案,使检测器能够每帧重新训练一次。然而,使用相关滤波器的先前作品已经采用了手动设计或针对不同任务训练的特征。这项工作是第一个通过解释相关滤波器学习器来克服这一限制的,相关滤波器学习器具有封闭形式的解决方案,作为深度神经网络中的可扩展层这使得能够学习与相关滤波器紧密耦合的深度特征实验表明,我们的方法具有重要的,tant的实际好处,允许轻量级架构,以实现国家的最先进的性能在高帧速率。1. 介绍深度神经网络是一种强大的学习工具-在计算机视觉应用中使用图像表示。然而,在线训练深度网络,以便从一个或几个示例中捕获以前看不见的对象类平等的第一作者。很有挑战性这个问题在诸如视觉对象跟踪的应用中自然出现,其中目标是在序列开始处的边界框的单独监督下重新检测视频上的对象主要的挑战是缺乏目标对象的先验知识,目标对象可以是任何类别的。最简单的方法是忽略先验知识的缺乏,并使预训练的深度卷积神经网络(CNN)适应目标,例如通过使用随机梯度下降(SGD),深度网络优化的主力[31,25,35]。由于训练数据极其有限,参数数量庞大,这是一个非常困难的学习问题。此外,SGD对于在线适应来说是相当昂贵的[31,25]。对这些缺点的一个可能的答案是没有网络的在线适配。最近的工作集中在学习可用作统一对象描述符的深度嵌入[3,12,28,17,5]。这些方法使用离线训练的Siamese CNN来区分两个图像块是否包含相同的对象。这个想法是,一个强大的嵌入将允许通过相似性检测(从而跟踪)对象,绕过在线学习问题。然而,使用固定度量来比较外观防止学习算法利用可能有助于辨别的任何视频特定线索。另一种策略是使用在线学习-2806相关滤波器(Correlation Filter,CF)CF是一种有效的算法,它通过非常有效地解决大型岭回归问题来学习区分图像块与周围块[4,13]。它已被证明是非常成功的目标跟踪(例如。[6,18,22,2]),其中其效率使得跟踪器能够在每一帧上动态地调整其对象的内部模型。它的速度归功于一个傅立叶域公式,它允许岭回归问题只需要几个应用程序的快速傅立叶变换(FFT)和廉价的元素明智的操作来通过设计,这样的解决方案比像SGD这样的迭代求解器更有效,并且与嵌入方法相反,仍然允许对特定视频进行定制因此,挑战在于将CF的在线学习效率与离线训练的CNN特征这已经在几个作品中完成了(例如[21,7,9,31]),其已经表明CNN和CF是互补的,并且它们的组合导致改进的性能。然而,在上述工作中,CF只是简单地应用于预训练的CNN特征之上,而没有对这两种方法进行任何深度集成。深度架构的端到端训练通常优于单独训练单个组件。原因在于,以这种方式,所有组件中的自由参数可以共同适应和合作以实现单个目标。因此,自然会问CNN-CF组合是否也可以端到端训练,具有类似的益处。实现这种集成的关键步骤是将CF作为可区分的CNN层进行解译,以便错误可以通过CF传播回CNN特征。这是具有挑战性的,因为CF本身就是学习问题的解决方案。因此,这需要对大型线性方程组的解进行微分。本文给出了相关滤波器导数的一个封闭形式的表达式。此外,我们证明了我们的方法在端到端训练CNN架构中的实际效用。我们提出了一个广泛的调查,将CF到Bertinetto等人的全卷积连体框架的效果。[3]的文件。我们发现,CF并没有改善足够深的网络的结果。然而,我们的方法使几千个参数的超轻量网络在多个基准测试中实现最先进的性能,同时以高帧率运行。2. 相关工作自从Bolmeet al. [4],相关过滤器在跟踪社区中非常受欢迎。为改善这一状况作出了显著的努力,例如,通过减轻周期性边界[10,15,8],结合多分辨率特征图[21,9]并使用更鲁棒的损失[26]来增强目标为了简单起见,在这项工作中,我们采用的相关滤波器的基本配方。最近,已经引入了几种基于暹罗网络的方法[28,12,3],由于其简单性和竞争性性能而引起了跟踪社区的兴趣。对于我们的方法,我们更喜欢建立在全卷积的Siamese架构[3]上,因为它强制要求外观相似性函数应该与平移交换。在其核心,我们引入的相关滤波器层相当于计算正则化反卷积问题的解决方案,不要与有时被称为“反卷积层”的上采样卷积层混淆在SGD之类的al-taxms足以训练深度网络之前,Zeileret al. [34]介绍了一种深层架构,其中每一层都解决了卷积稀疏编码问题。相比之下,我们的问题有一个封闭形式的解决方案,因为相关滤波器采用二次正则化,而不是1-范数正则化。先前已经研究了在训练期间通过解决方案将梯度反向传播到优化问题的想法。Ionescu等人[14]和Murray[24]分别给出了SVD和Cholesky分解的反向传播形式,使梯度下降能够应用于计算线性方程组或特征值问题的解的网络。我们的工作可以理解为一个有效的反向传播过程,通过解决一个系统的线性方程组,其中矩阵具有循环结构。当迭代地获得优化问题的解时,另一种方法是将迭代视为递归神经网络,并显式展开固定次数的迭代[36]。Maclaurin等人[23]更进一步,通过整个SGD学习过程反向传播梯度,尽管这在计算上要求很高,并且需要明智的簿记。Gould等人[11]最近考虑区分一般argmin问题的解决方案,而不将其限制于迭代过程。然而,在相关滤波器的情况下,这些方法是不必要的,因为它具有封闭形式的解决方案。通过学习算法的反向传播引起了与元学习的比较。最近的工作[30,1]已经提出了前馈架构,其可以被解释为学习算法,使得能够通过梯度下降进行优化。而不是采用一个抽象的定义学习,ING,本文传播梯度通过一个传统的学习问题,已经被广泛使用。2807ρi我3. 方法在介绍CFNet架构(第3.3节)之前,我们简要介绍了一个用于学习Siamese网络嵌入的框架(第3.1节)以及使用这种嵌入进行对象跟踪(第3.2节)。我们接下来推导出网络中主要新成分的评估和反向传播的表达式,相关过滤器层,它在前向传递中执行在线学习(第3.4节)。3.1. 全卷积Siamese网络我们的出发点是一个类似于[3]的网络,我们稍后对其进行修改,以允许模型可以被解释为相关滤波跟踪器。全卷积Siamese框架考虑包括训练图像x′和测试图像z′1的对(x′,z′)。图像x′表示感兴趣的对象(例如,以第一视频帧中的目标对象为中心的图像块),而z′通常较大并且表示搜索区域(例如,下一个视频帧)。两个输入都由具有可学习参数ρ的CNN f ρ处理。这产生两个特征图,然后将其互相关:gρ(x ′,z ′)=fρ(x ′)<$fρ(z ′).(一)当量1相当于在测试图像z′上执行图案x′的穷举搜索。目标是响应图的最大值(等式左侧)。1)与目标位置相对应。为了实现这一目标,网络是离线训练的,数百万个随机对(x′,z′),从一个集合,通过提取以先前估计的位置为中心的、面积为对象大小的四倍的窗口,在每个新帧中获得。对象的新位置被取为具有最高分数的位置。原始的全卷积Siamese网络简单地将每帧与对象的初始外观进行比较。相比之下,我们在每个帧中计算一个新的模板,然后将其与移动平均中的前一个模板相结合。3.3. 相关滤波器网络我们建议修改的基线暹罗网络的eq。1,在x和互相关运算符之间具有相关滤波器块。所得到的架构如图1所示。这种变化可以形式化为:hρ , s , b( x′, z′) =sω( fρ ( x′) ) <$fρ(z′)+b(3)CF块w=ω(x)计算标准CF模板w从训练特征映射x=fρ(x′)通过求解a傅立叶域中的岭回归问题[13]。其EF-FECT可以被理解为制作对翻译鲁棒的区别性有必要引入标量参数s和b(尺度和偏倚),以使评分范围适合逻辑回归。离线训练然后以与连体网络相同的方式执行(第3.1节),在等式中用h替换g二、我们发现,重要的是在训练图像中为相关滤波器提供大的上下文区域,这与Danelljan等人的发现一致。[8]和Kiani等人。[15 ]第10段。为了减少圆形边界的影响,将特征图x预乘以余弦我[29][2视频. 每个示例都有一个标签ci的空间图,{-1,1}中的值,其中真实对象位置属于正类,所有其他位置属于负类。训练通过最小化训练集上的元素逻辑损失来进行argminn(gρ(x ′,z ′),ci).(二)我3.2. 跟踪算法网络本身只提供了一个函数来衡量两个图像块的相似性。要将该网络应用于对象跟踪,有必要将其与描述跟踪器的逻辑的过程相结合。类似于[3],我们采用简单的跟踪算法来评估相似性函数的效用。在线跟踪是通过简单地评估网络在前向模式下执行的。将目标对象的特征表示与搜索区域的特征表示进行比较,其中请注意,图1中架构的前向传递完全对应于具有CNN特征的标准CF跟踪器[13,6,22,3]的操作,如先前工作[21,7]中所提出的。然而,这些早期的网络不是端到端训练的。新颖之处在于计算CF模板相对于其输入的导数,以便结合CF的网络可以进行端到端的训练。3.4.相关滤波器现在,我们将展示如何通过相关滤波器解决方案有效地反向传播梯度,并且通过傅立叶域以封闭配方。给定标量值图像x ∈Rm×m,相关滤波器是模板w ∈Rm×m,其与图像x<$δ−u的每个循环移位的内积尽可能接近期望的响应y[u][13],最小化1注意,这与[3]不同,在[3]中,目标对象和搜索区域分别表示为z和x。(u∈U2−u,w−y[u])=w x − y2。(四)2808^^您的位置:nnnn1∇ˆℓ=−^k◦α^◦∇ˆℓˆ1−∗^ˆ∇ℓ=k◦∇ℓynn∗−1^−11n∗^图2:相关滤波器的内部计算图。方框表示函数,其在等式(1)中定义。7,圆圈表示变量。这里,U={0,. . .,m−1}2是图像的域,y ∈ Rm×m是第u个元素是y[u]的信号,δτ是平移的狄拉克δ函数δτ[t]= δ[t − τ]。在这一节中,我们使用卷积来表示循环卷积,*表示循环互相关。回想一下,与平移δ函数的卷积等价于transla- tion(x <$δτ)[t]=x[t− τmodm]。使用二次正则化来防止过拟合,问题是要找到反向传播 我们采用符号表示,如果x ∈X=Rn是计算最终标量损失<$∈ R的计算图中的变量,则<$x<$∈ X表示偏导数(<$x<$)i 的 向 量=1000/1000 xi.如果 如果y ∈ Y=Rm是图中的另一个变量,它是根据y=f(x)从x直接计算出来的,则函数f的所谓反向传播映射是从y∈ Y到x∈ X的线性映射.附录D给出了一个教程回顾的学术背景。简而言之,反向传播映射是线性映射,它是微分的伴随。这一特性被Ionescuet al. [14]使用矩阵微分计算反向传播映射。而他们使用矩阵内积。为了通过相关滤波器找到反向传播的线性映射,我们首先取系统的微分,argminw天卫二(五)方程中的方程项6定义模板wW2N2dk=1(dx <$x+x <$dx)其中n = |U|是实例的有效数量。最佳模板w必须满足方程组(通过拉格朗日对偶获得,参见附录C,dk <$α+k <$dα=1dyn=dαnx+αndx(八)补充材料)然后对每个方程进行傅里叶变换,重新排列,得到每个因变量的微分,k=1(x <$x)+λδk α=1yn(六)图2作为其输入变量的微分的线性函数(在傅立叶域中)w=α⋆xd^k=1^其中k可以被解释为定义电路的信号n(dx<$x+x<$dx)d^α=^kd^y−d^kα^(9a)(9b)Lant线性核矩阵,并且α是由约束优化问题的Lagrange乘子这相当于EQ。五、的解决方案eq.6、可以用--d^w=d^αn◦ x^+α^◦ d^x.(9c)在傅立叶域中有效地计算[13],^k=1(x^∗◦x^)+λ✶α^=k◦y^w^=α^x^(7a)(7b)(7c)请注意,虽然这些是复杂的方程,但这只是因为它们是实方程的傅里叶变换导数本身都是相对于实变量计算的这些线性映射的伴随定义了从Wrw到Wrx和Wry的整个反向传播映射。我们将推导过程推迟到附录B,并在此给出最终结果。其中,我们使用x^=Fx来表示离散F\T范围。ˆ ˆ变量的形式,x表示复共轭,表示逐元素乘法,并表示符号。一个人。逐元素乘法的逆是逐元素标量求逆。请注意,eq.7在傅立叶域中更有效地计算,因为它们涉及逐元素操作而不是更多αn−∗ ∗k α∇ˆxℓ=α^◦∇ˆw ℓ+2x^◦Re{∇ˆkℓ}.(十)昂贵的卷积或矩阵运算符(Eq. (六)。更多-逆卷积问题(找到α,使得k ∈ α=1y)是傅立叶域中的对角方程组的解(方程式:第7b段)。需要计算前向傅里叶变换,开始和最后的逆变换。扩展到多通道图像是微不足道的,并在附录E(补充材料)中给出。1∗∗2809有趣的是,我们注意到,由于我们有损失相对于“期望”响应的梯度然而,在实践中,我们没有发现学习这个参数,以提高跟踪精度相比,传统的选择一个固定的高斯响应[4,13]。4. 实验我们实验的主要目的是研究在训练过程中加入相关滤波器的效果。我们首先比较Bertinetto等人的对称连体建筑。[3]的文件。然后,我们将端到端训练的CFNet与一个变体进行比较,其中特征被替换为针对不同任务训练的特征。最后,我们证明了我们的方法达到了最先进的结果。4.1. 评价标准流行的跟踪基准,如VOT [16]和OTB [32,33],已经使所有地面实况注释可用,并且不强制执行验证/测试分割。然而,为了避免在设计选择和超参数选择中过度拟合测试集,我们将OTB-2013,OTB-50和OTB-100作为我们的测试集,并将来自VOT- 2014,VOT-2016和Temple-Color [19]的129个视频作为我们的验证集,排除任何已经分配给测试集的视频。我们在4.2、4.3和4.4节中对验证集进行了所有的跟踪实验,这些验证集具有相同的与OTB基准测试[32,33]一样,我们根据所有帧中预测矩形和地面实况矩形的平均重叠(交集)来量化跟踪器在给定阈值τ处的成功率对应于其中与地面实况的重叠至少为τ的帧的分数。这是针对0和1之间的100个阈值的均匀范围计算的使用该曲线下的面积来比较跟踪器。模仿OTB的TRE(Temporal Robustness Evaluation)模式,我们依次选择三个等距点,并从每个点运行跟踪器直到结束。与 OTB评估不同,当目标丢失时(即,与地面实况的重叠变为零)终止跟踪器,并且对于所有剩余帧报告为零的重叠。尽管有大量的视频,我们仍然发现相似性网络的性能随着训练的进行而变化很大。为了减轻这种影响,我们对使用网络参数在时期55、60、... . .,95,100(最终5452504846444240383634321 2 3 4 5网络深度(层)图3:不同网络深度的跟踪器精度,在验证集的129个视频上。误差线表示两个标准偏差。更多详情请参见第4.2节。所有数字最好用彩色观看。epoch)以减少方差。这十个结果用于估计结果分布的标准差虽然优选的是训练所有网络以使用不同的随机种子多次收敛,但这将需要显著更多的资源。4.2. 与暹罗基线的图3和图4比较了两种方法在不同深度网络的验证集上的准确性。深度为n的特征提取网络在第n个线性层之后终止,包括后面的ReLU但不包括后面的池化层(如果有的话)。我们的基线在两个方面与[3]略有不同。首先,我们将网络的总步长从8减少到4(2个在conv1,2个在pool1),以避免使用小特征图训练相关滤波器。其次,我们总是将最终层限制为32个输出通道,以保持具有较大特征图的方法的高速。这些变化对SiamFC的跟踪性能没有负面影响。结果表明,CFNet显着优于基线时,浅层网络用于计算特征。具体来说,它为深度1和2的网络分别带来了31%和13%的相对改善。在深度3、4和5处,差异就没有什么意义了。CFNet相对不受网络深度的影响,而基线的性能随着深度的增加而稳定和显着地增加。似乎相关滤波器使距离度量适应训练图像的内容的能力不太重要,给定一个充分表达的嵌入函数。CF层可以被理解为对测试时间过程的先前知识进行编码。当有足够的模型可以用来计算时,这种先验可能变得多余,甚至过度限制基线CFNet平均重叠(IOU %)28100.80.70.60.50.40.30.20.10CFNet -conv 1基线-conv 10.10.2 0.3 0.4 0.5 0.6 0.7 0.81重叠阈值0.80.70.60.50.40.30.20.10CFNet -conv 2基线-conv 20.10.2 0.3 0.4 0.5 0.6 0.7 0.81重叠阈值0.80.70.60.50.40.30.20.10CFNet -conv 5基线-conv 50.10.2 0.3 0.4 0.5 0.6 0.7 0.81重叠阈值图4:验证集上单个跟踪器的矩形重叠成功率。实线和虚线表示分别以0.01和0的运行平均学习率更新模板的方法。5856545250484644424038363432301 2 3 4 5网络深度(层)5452504846444240383634321 2 3 4 5网络深度(层)图5:使用通过不同方法获得的特征时相关滤波器跟踪器的准确性。误差条表示两个标准差。详情请参见第4.3节。空间和数据是可用的。我们认为这解释了当使用两个以上的卷积层时CFNet性能的饱和。图4还显示,更新模板总是有帮助的,无论是基线还是CFNet架构,无论是在任何深度。4.3. 特征转移实验这项工作的动机是假设在训练过程中合并CF将产生更适合用CF跟踪的特征现在,我们将端到端训练的CFNet与使用替代来源特征的变体进行比较:Baseline+CF和ImageNet+CF。结果示于图5中。为了获得曲线基线+CF,我们训练了所需深度的基线Siamese网络,然后在跟踪期间将这些特征与CF相结合。结果表明,在离线训练期间考虑CF在深度一和深度二处是至关重要的。然而,当添加更多的卷积层时,它似乎是多余的,因为结合CF使用来自基线的特征可以实现简单。图6:CFNet与架构的“常数”变体的比较误差线表示两个标准偏差。ilar性能。ImageNet+CF变体采用了从经过训练的网络中提取的特征,以解决ImageNet分类挑战[27]。结果表明,这些特征通常是将CFs与CNN结合的首选[7,9,21,25,31,35],明显比CFNet和基线实验学习的特征差这些特征在更深层的表现特别差并不令人惊讶,因为这些层在训练分类时预计具有4.4. 适应的重要性对于多通道CF,模板w的每个通道p可以通过wp=αxp获得,其中α本身是样本x的函数(附录C,补充材料)。为了验证在测试时解决岭回归问题应提供的在线自适应的重要性,我们提出了一个Baseline+CFImageNet+CF基线CFNet成功率CFNet常数基线CFNet成功率平均重叠(IOU %)成功率平均重叠(IOU %)2811OTB-50 OTB-100OPETREOPETREOPETRE方法速度(fps)IOU预处理IOU预处理IOU预处理IOU预处理IOU预处理IOU预处理CFNet-conv18357.871.458.671.748.861.351.063.653.665.855.967.6CFNet-conv27561.174.664.077.953.066.056.570.256.869.360.673.2基线+CF-conv 36761.074.863.176.853.866.557.470.858.971.161.173.4CFNet-conv54361.173.662.675.753.967.056.670.158.671.160.872.7基线-conv 55261.875.364.077.351.764.156.169.158.871.461.673.7SiamFC-3s [3]60.773.561.875.051.663.955.569.258.270.260.572.8缝钉[2]60.072.561.774.250.963.454.167.558.171.660.472.8LCT [22]61.278.059.474.249.262.549.561.756.269.256.968.2SAMF [18]––––46.260.751.465.653.969.057.771.4DSST [6]55.467.556.668.445.256.648.460.151.363.1––表1:OTB工具包为OTB-2013、OTB-50和OTB-100数据集生成的重叠性能(IoU)和精度。第一个和第二个最佳结果在每列中突出显示。详情参见第4.5节。图6将CFNet与其常量变量进行了比较。CFNet始终更好,这表明为了改进基线Siamese网络,通过定义拉格朗日乘子的逆卷积问题的解决方案进行反向传播至关重要。4.5. 与最新技术我们使用OTB-2013/50/100基准来确认我们的结果与最先进的水平相当。本节中的所有数字都是使用OTB工具包[32]获得的。我们报告了图5中CFNet的三个最佳实例(CFNet-conv 2,CFNet-conv 5,Baseline+CF-conv 3),基线的最佳变体(Baseline-conv 5)和最有前途的单层网络(CFNet-conv 1)的结果。我们将我们的方法与可以实时操作的最先进的跟踪器进行比较:SiamFC-3s [3]、Staple [2]和LCT [22]。我们还包括最近的SAMF [18]和DSST [6]以供参考。对于本节的评估,我们为每个架构使用不同的跟踪超参数集,选择这些参数是为了在随机搜索300次迭代后最大化验证集的性能。补充材料中提供了更多细节。对于OTB中存在的少数灰度序列,我们使用exclu重新训练每个架构,灰度图像。报告了OPE(一次通过)和TRE(时间稳健性)评估的重叠(IoU)和精度评分[33]对于OPE,跟踪器仅在每个序列上从开始到结束运行一次。对于TRE,跟踪器从20个不同的起始点开始,并从每个起始点运行直到结束。我们观察到,与OPE相比,这确保了更稳健和可靠的结果。与对验证集的分析类似,CFNet-conv 2是表现最好的,其精度与Baseline-conv 5相当,后者拥有大约30倍的参数。总的来说,我们提出的最佳CFNet变体优于(尽管是适度的)5048464442403836343240 50 60 70 80 90 100 110帧每秒图7:CFNet和Siamese基线的跟踪器精度与速度。标签指示网络深度。CFNet使更好的准确性,以获得更高的速度使用- ING浅网络。误差线表示两个标准偏差。详情参见第4.6为了关注我们的贡献的影响,我们决定避免包括正交改进,这通常可以在跟踪文献中找到(例如,边界框回归[25],多个线索的集合[22,2],光流[28])。4.6. 速度和实际效益前面的章节已经证明,当特征提取网络相对较浅时,将相关滤波器集成到连体网络中有明显的好处。浅网络实际上是有利的,因为它们需要更少的操作和更少的存储器来评估和存储。为了理解这种权衡,图7报告了CFNet和基线的速度和准确性。542534基线CFNet3121平均重叠(IOU %)2812=.d^x,Re{d^k}<$x ^<$∇ˆℓ=x^ˆ◦Re{∇ℓ}.(十二)^ ^您的位置:n^1nˆ埃克塞特,dkxˆ^^ ^您的位置:∗n3^ ^您的位置:改变网络深度2.该图表明,对于需要在高帧率下操作的精确跟踪算法的从业者来说,双层CFNet可能是它以每秒75帧的速度运行,其参数不到五层基线的4%,仅需600kB存储。这对于具有有限存储器的嵌入式设备可能特别感兴趣。相比之下,像Deep-SRDCF [7]和C-COT [9]这样的方法,使用开箱即用的深度特征进行相关滤波,运行速度要慢几个数量级。即使是单层CFNet也仍然具有竞争力,尽管其参数不到五层基线的1%,并且需要低于100kB的存储。5. 结论对象的大小为0.97。为了避免对象大小的突然转变,使用学习率为0.6的滚动平均值来更新尺度。代码和结果可在线获取3.B. 相关滤波器的反向传播算法如附录D(补充材料)所述,反向传播映射是线性映射的伴随,即微分。相关滤波器的这些线性映射9 .第九条。我们可以自由地获得这些伴随映射在傅立叶域,因为Parseval设J1表示等式中的映射dx → dk9a.因此,对内积的处理. ^1^^这项工作提出了相关滤波器网络,一个不对称的架构,反向传播梯度通过在线学习算法来优化Fdk,FJ1(dx)=dk,n(dxx+xdx)=1^说谎特征表示法这是可行的,通过建立一个有效的反向传播映射的循环方程组的解决方案我们的实证研究表明,对于足够深的我们相信,这证明了在有足够训练数据的情况下,深度学习的力量然而,在训练过程中将相关滤波器合并到相似性网络中确实使浅层网络能够与其较慢的深层网络相媲美。未来的研究可能包括扩展帐户2n给出了反向传播映射2xnk类似地,对于线性映射dk,dy <$→ dα在方程中。9b,<$Fdα,FJ2(dk,dy)<$=.d^α,k−1[1dy−d^k<$α^]=.1^k−d^α,d^y+。−^k−αd^α,d^k,(13)反向传播映射是用于随时间的自适应,以及通过用于相关任务的学习问题(例如一次性学习和域自适应)的反向传播梯度。y∇ˆkℓ=−^k−∗◦ 中文(简体)(15)A. 实现细节我们遵循[3]的程序以使损失最小化对于线性映射dx,dα <$→ dw在方程中。9c,<$F dw,FJ(dx,dα)<$=<$d^w,d^α<$$>x^+α^<$∗◦ d^x(等式2),其中Xavier改进的参数初始化并且使用大小为8的小批量我们使用ImageNet Video的所有3862个训练视频[27],包含超过100万个注释帧,每帧有训练针对100个时期进行,每个时期采样大约12对(x′,z′),=d^α,d^wx+d^wα,d^x,(16)反向传播映射是∇ˆαℓ=x^◦(∇ˆwℓ)、(十七)∇ˆxℓ=α^◦∇ˆw ℓ.(十八)我我每个视频都是随机提取的,因此它们最多相隔100帧。在跟踪期间,将空间余弦窗口与分数图相乘以惩罚大位移。在尺度空间中的跟踪是通过在前一个对象的尺度上和在任一侧的一个相邻尺度上评估网络来实现的,几何步长为1.04。 不鼓励通过将将上面的两个表达式结合起来,等式中的整个相关滤波器块的反向传播映射。10个。鸣 谢 。 这 项 研 究 得 到 了 Apical 有 限 公 司 的 支 持 ,EPSRC授权Seebibyte EP/M013774/1和ERC授权ERC-2012-AdG 321162-HELIOS,HELIOS-−∗2813DFR 00200,2速度是使用4.0GHz Intel i7 CPU和NVIDIATitan XGPU。3www.robots.ox.ac.uk/www.example.com2814引用[1] L.贝尔蒂内托F. Henriques,J.瓦尔马德尔山口H. S. Torr和A.维达尔迪学习前馈一次性学习器。参见NIPS 2016,第523-531页,2016年。2[2] L. 贝尔蒂内托Valmadre,S. 戈洛代茨岛 Miksik和P. H. S.乇Staple:用于实时跟踪的补充学习器。在CVPR 2016中,第1401-1409页,2016年。二、七[3] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H. S.乇用于对象跟踪的全卷积连体网络。ECCV 2016研讨会,第850-865页,2016年一二三五七八[4] D. S.博尔梅贝弗里奇湾A. Draper和Y. M.律使用自适应相关滤波器的视觉目标跟踪。在CVPR 2010,2010。二三五[5] K. Chen和W.涛.一劳永逸:用于视觉跟踪的双流卷积神经网络。arXiv预印本arXiv:1604.07507,2016. 1[6] M. 达内尔扬湾 H?ge r,F. khan和M. 费尔斯贝河用于鲁棒视觉跟踪的精确尺度估计。在BMVC 2014,2014。二、三、七[7] M.达内尔扬湾Hager,F. Shahbaz Khan和M.费尔斯伯格。基于相关滤波器的视觉跟踪的卷积特征。在ICCV2015研讨会,第58二三六八[8] M.达内尔扬湾Hager,F. Shahbaz Khan和M. 费尔斯伯格学习空间正则相关滤波器的视觉跟踪。在ICCV 2015中,第4310-4318页,2015年。二、三[9] M. Danelljan,A. Robinson,F. S. khan和M.费尔斯伯格超越相关滤波器:学习用于视觉跟踪的连续卷积算子。参见ECCV 2016,第472二、六、八[10] J. A. Fernandez和B. Vijayakumar零混叠消除滤波器。在2013年图像和信号处理与分析国际研讨会上,第101-106页2[11] S. Gould,B.费尔南多,A.Cherian,P.安德森河S. Cruz和E.小郭。参数化argmin与argmax问题的区分及其在双层最佳化上的应用。arXiv预印本arXiv:1607.05447,2016年。2[12] D. Held,S. Thrun和S. Savarese学习使用深度回归网络以100 fps的速度跟踪。参见ECCV 2016,第749-765页。施普林格,2016年。一、二[13] J. F.恩里克斯河Caseiro,P. Martins,and J.巴蒂斯塔核化相关滤波器的高速跟踪。IEEE TPAMI,37(3):583-596,2015年。二三四五[14] C.约内斯库岛Vantzos和C.斯明奇塞斯库具有结构层的深层网络的矩阵反向传播。在ICCV 2015中,第2965-2973页,2015年。二、四[15] H. Kiani Galoogahi,T.Sim和S.露西具有有限边界的相关在CVPR 2015中,第4630-4638页二、三[16] M. 克里斯坦A. 莱昂纳迪斯,J. 马塔斯M. 费尔斯伯格R. 普夫卢格费尔德河,湖Ceho vin,T.我也是G.H?ger,A.卢克兹·克雷奇,G. Fer na'ndez等视觉对象测试架VOT2016挑战结果。2016. 5[17] L. Leal-Taix e′,C. Canton-Ferre r和K. 申德尔河通 过 跟踪学习:Siamese CNN用于强大的目标关联。在CVPR2016研讨会,第33-40页,2016年。1[18] Y. Li和J. Zhu.特征融合的尺度自适应核相关滤波跟踪器。参见ECCV 2014,第254- 265页二、七[19] P. Liang,E.Blasch和H.凌编码颜色信息的视觉跟踪:算法和基准。IEEE Trans-actions on Image Processing,24(12):5630-5644,2015。5[20] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。参见CVPR 2015,第3431-3440页,2015年。2[21] C. 妈,杰-B. Huang,X.杨和M.-H. 杨用于视觉跟踪的分层卷积特征。在ICCV 2015中,第3074-3082页,2015年。二、三、六[22] C.妈,X。杨角,澳-地Zhang,M. H.杨长期相关跟踪。参见CVPR 2015,第5388二、三、七[23] D. Maclaurin,D. Duvenaud和R. P·亚当斯通过可逆学习的基于梯度的超参数优化。在ICML 2015,2015。2[24] I.默里 Cholesky分解的微分。arXiv预印本arXiv:1602.07527,2016年。2[25] H. Nam和B.韩视觉跟踪的多域卷积神经网络学习。在CVPR 2016中,第4293-4302页,2016年。一、六、七[26] A. 罗德里格斯河N. 博德蒂湾诉K. 诉Kumar和A.马-哈拉诺比斯。最大容限相关滤波器:一种新的定位和分类方法。IEEE Transactions on Image Processing,22(2):631-643,2013。2[27]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。六、八[28] R. Tao,E. Gavves和A. W. M.史默德斯暹罗即时搜索跟踪。在CVPR 2016中,第1420一、二、七[29] J. Valmadre,S. Sridharan和S.露西使用静态统计快速学习检测器。在ACCV 2014中,第99114. Springer,2014. 3[30] O.维尼亚尔斯角Blundell,T. Lillicrap、D. Wierstra等人匹配网络进行一次性学习。参见NIPS 2016,第3630-3638页,2016年。2[31] N. Wang,S.Li,长穗条锈菌A.Gupta和D.-Y. 杨传输丰富的功能层次结构,以实现强大的视觉跟踪。arXiv预印本arXiv:1501.04587,2015年。一、二、六[32] Y. Wu、J. Lim和M.- H.杨在线对象跟踪:基准。参见CVPR 2015,第2411-2418页,2013年。五、七[33] Y. Wu,J.Lim和M.H. 杨对象跟踪基准。TPAMI,37(9):1834-1848,2015. 五、七[34] M. D. Zeiler,D.Krishnan,G.W. Taylor和R.费格斯。反卷积网络。参见CVPR 2010,第2528-2535页2[35] M. Zhai,M. J. Roshtkhari和G.森用于在线对象跟踪的外观模型arXiv预印本arXiv:1607.02568,2016。1、6[36] S. Zheng,S. Jayasumana湾Romera-Paredes,V.维尼特,Z. Su,D.杜角,澳-地Huang,和P. H. S.乇作为递归神经网络的条件随机场。在ICCV 2015中,第1529-1537页,2015年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功