没有合适的资源?快使用搜索试试~ 我知道了~
1学习判别模型预测跟踪Goutam Bhat*Martin Danelljan*Luc Van Gool RaduTimofteCVL,ETHZuürich,Switzerland摘要目前的努力,对端到端的可训练的计算机视觉系统提出了重大的挑战,视觉跟踪的任务。 与大多数其他视觉问题相比,跟踪需要在推理阶段在线学习鲁棒的目标特定外观模型。为了实现端到端的可训练性,目标模型的在线学习由于强加的挑战,流行的暹罗范例简单地预测目标特征模板,而忽略在推理过程中的背景外观信息。因此,预测模型具有有限的目标-背景区分度。我们开发了一个端到端的跟踪体系结构,能够充分利用目标和背景的出现,对目标模型预测的ance信息。我们的archi- tecture是从一个歧视性的学习损失,通过设计一个专用的优化过程,是能够预测一个强大的模型,只有几次迭代。此外,我们的方法是能够学习的关键方面的区别损失本身。 建议的跟踪器集 在6个跟踪基准上的新的最先进技术,达到0的EAO分数。VOT2018上的440,同时运行超过40FPS。代码和型号可在https://github.com/visionml/pytracking获得。1. 介绍通用目标跟踪是估计视频序列中每帧中任意目标的状态的任务在最一般的设置中,目标仅由其在序列中的初始状态定义目前大多数方法通过构建目标模型来解决跟踪问题,该目标模型能够区分目标和背景外观。由于目标特定的信息仅在测试时可用,因此目标模型不能在离线训练阶段中学习,例如在对象检测中。相反,目标模型必须在推理阶段本身通过利用给定的目标信息来构建*两位作者的贡献相等。Siamese based Ours的照片图1.由使用i)Siamese方法(中间)和ii)我们的方法(右)获得的目标模型提供的目标对象(红框)的置信度图该模型预测的连体时尚,只使用目标的外观,努力区分目标干扰对象的背景。相比之下,我们的模型预测架构还集成了背景外观,提供卓越的鉴别能力。在测试时间视觉跟踪问题的这种非常规性质在追求端到端学习解决方案时带来了重大挑战。上述问题已经最成功-充分解决了暹罗学习范式[2,22]。这些方法首先学习特征嵌入,其中两个图像区域之间的相似性通过简单的互相关来计算。然后通过找到与目标模板最相似的图像区域在该设置中,目标模型简单地对应于从目标区域提取的模板特征。因此,跟踪器可以容易地使用成对的注释图像进行端到端训练。尽管它最近取得了成功,暹罗学习框架遭受严重的限制。首先,暹罗跟踪器在推断模型时仅利用目标外观。这完全忽略了背景外观信息,而背景外观信息对于区分场景中的类似对象至关重要(见图1)。其次,所学习的相似性度量对于未包括在离线训练集中的对象不一定可靠,导致较差的泛化。第三,暹罗公式61826183不提供强大的模型更新策略。相反,最先进的方法诉诸于简单的模板平均[45]。与其他最先进的跟踪方法相比,这些限制导致较差的鲁棒性[20在这项工作中,我们引入了一种替代的跟踪架构,以端到端的方式进行训练,直接解决了所有上述限制。在我们的设计中,我们从最近的跟踪者中成功应用的歧视性在线学习过程中汲取灵感[6,9,29]。我们的方法是基于一个目标模型预测网络,这是来自一个歧视性的学习损失,通过应用迭代优化过程。该架构经过精心设计,可实现有效的端到端训练,同时最大限度地提高预测模型的区分能力。这是通过两个关键设计选择确保最少数量的优化步骤来实现的。首先,我们采用一个最陡下降的方法,计算一个最佳步长,在每次迭代。其次,我们集成了一个有效初始化目标模型的模块。此外,我们introduce显着的灵活性到我们的最终架构,通过学习歧视性学习损失本身。我们的整个跟踪架构,以及骨干特征提取器,训练使用注释跟踪- ING序列,通过最大限度地减少未来帧的预测误差。我们对7个跟踪基准进行了全面的实验:VOT 2018 [20]、LaSOT [10]、Tracking- ingNet [26]、GOT10k [16]、NFS [12]、OTB-100 [42]和UAV123 [25].我们的方法在所有7个数据集上实现了最先进的结果,同时运行速度超过40 FPS。我们还提供了一个广泛的实验分析的建议提出的架构,显示每个组件的影响2. 相关工作近年来,随着各种方法的发展,通用对象跟踪经历了惊人的进步。最近,基于暹罗网络的方法[2,22,38]由于其端到端训练能力和高效率而受到了广泛关注。这个名字来源于为了学习- fline的相似性度量而部署的连体网络架构。Bertinetto等[2]利用全卷积架构进行相似性预测,从而获得超过100 FPS的高跟踪速度。Wang等人[41]学习剩余注意力机制以使跟踪模型适应当前目标。Li等[22]使用区域建议网络[33]来获得准确的边界框。暹罗方法的一个关键限制是它们不能将来自背景区域或先前跟踪帧的信息并入模型预测中。最近的一些尝试旨在解决这些问题。Guo等[13]学习特征变换以处理目标外观变化并抑制背景。Zhu等[45个]通过在在线跟踪期间从目标模板中减去相应的图像特征来处理背景干扰尽管进行了这些尝试,暹罗跟踪器尚未达到采用在线学习的最先进跟踪器所达到的高水平的鲁棒性[20]。与Siamese方法相比,另一个跟踪器家族[6,7,29]在线学习判别分类器以将目标对象与背景区分开。这些方法可以有效地利用背景信息,从而在多个跟踪基准上实现令人印象深刻的鲁棒性[20,42]。然而,这样的方法依赖于更复杂的在线学习过程,这些过程不能在端到端学习框架中容易地制定。因此,这些方法通常限于从预先训练用于图像分类的深度网络中提取的特征[9,24]或手工制作的替代方案[8]。最近的一些工作旨在将现有的基于区分性在线学习的跟踪器制定为神经网络组件,以便从端到端训练中受益。Valmadre等人[40]将相关滤波器(CF)[15]的单样本闭合形式解集成到深度网络中。Yao等人[44]在BACF [18]跟踪器中展开ADMM迭代,以在复杂的多阶段训练过程中学习特征提取器和一些跟踪超参数然而,BACF模型学习受限于傅立叶域CF公式的单样本变体,其不能利用多个样本,需要用于模型自适应的滤波器的ad-hoc线性组合。仅使用少量图像来学习预测目标模型的问题与元学习密切相关[11,27,28,32,34,35,39]。一些作品已经朝着这个方向进行跟踪。Bertinetto等[1]元训练网络以预测跟踪模型的参数。Choi等人[5]利用元学习器来预测特定于目标的特征空间,以补充用于估计暹罗跟踪器中的相似性的一般目标无关特征空间Park等人[31]开发采用初始目标独立模型的然而,恒定步长仅适用于模型的快速初始自适应,并且在迭代应用时不能提供最佳收敛。3. 方法在这项工作中,我们开发了一个判别模型预测跟踪体系结构。与连体追踪器一样,我们的方法受益于端到端培训。然而,不像暹罗,我们的架构可以充分利用背景信息,并提供自然和强大的手段更新目标模型的新数据。我们的模型预测网络源自两个主要原则:(i)促进学习目标模型中的鲁棒性的区别性学习损失;以及(ii)强大的优化策略。6184j=1特征提取器F初始模型f(0)模型预测因子D更新模型f(i)最终模型f比分预测图2.我们的跟踪架构中的目标分类分支的概述给定一个带注释的训练集(左上角),我们使用骨干网络提取深度特征图,然后使用额外的卷积块(Cls Feat)。特征图然后被输入到模型预测器D,模型预测器D由初始化器和递归优化器模块组成。模型预测器输出对从测试帧提取的特征图执行目标分类的卷积层的权重。确保快速收敛。经过如此精心的设计Strain={(xj,cj)}n的深度特征映射xj∈ Xgen-我们的体系结构可以预测目标模型在只有几个迭代,而不损害其辨别能力。在我们的框架中,目标模型构成卷积层的权重,提供目标分类分数作为输出。我们的模型预测架构通过将一组边界框注释的图像样本作为输入来计算这些权重。模型预测器包括初始化器网络,其仅使用目标外观有效地提供模型权重的初始估计。这些权重然后由优化器模块处理,同时考虑目标和背景外观。通过设计,我们的优化器模块拥有很少的可学习参数,以避免过度学习。由特征提取器网络F产生。 每个样品与对应的目标中心坐标cj∈R2配对。给定这些数据,我们的目标是预测目标模型f=D(Strain)。模型f被定义为卷积层的滤波器权重,该卷积层的任务是在特征空间X中区分目标和背景外观。我们从最小二乘法中获得灵感基于回归的跟踪问题,已经看到近年来取得了巨大的成功[6,7,15]。然而,在这项工作中,我们推广了传统的最小二乘损失应用于跟踪在几个方向,允许最终的跟踪网络学习最佳损失的数据。一般来说,我们认为形式的丧失,在离线训练期间适合某些课程和场景。因此,我们的模型预测器可以推广到看不见的对象,这是至关重要的通用对象跟踪。L(f)=|S1火车|Σ(x,c)∈S列r(x*f,c) +λf2.(一)我们最终的跟踪架构由两个分支组成:一个目标分类分支(见图2),用于区分目标和背景,以及一个边界框估计分支,用于预测准确的目标框。这两个分支从公共主干网络输入深度特征目标分类分支包含卷积块,提取分类器操作的特征。给定样本的训练集和对应的目标框,模型预测器生成目标分类器的权重。然后将这些权重应用于从测试帧中提取的特征,以便计算目标置信度分数。对于边界框估计分支,我们利用在[6]中引入的基于重叠最大化的整个跟踪网络,包括目标分类,边界框估计和骨干模块,在跟踪数据集上离线训练。3.1. 判别式学习损失在本节中,我们描述了用于导出模型预测架构的判别学习损失。模型预测器D的输入由训练集组成这里,*表示卷积,λ是正则化因子。函数r(s,c)基于目标置信度分数s=x*f和地面实况目标中心坐标c计算每个空间位置处的残差。最常见的选择是r(s,c)=s−yc,其中yc是每个位置的期望目标分数,通常设置为高斯分布以c为中心的函数[4]。然而,简单地采用差异迫使模型回归校准的置信分数,通常为零,对于所有阴性样本。这需要大量的模型容量,迫使学习集中在负数据样本上,而不是实现最佳的辨别能力。此外,采用简单的差异并不能解决目标和背景之间的数据不平衡问题。为了缓解数据不平衡的后一个问题,我们使用空间权重函数v。下标c表示对目标中心位置的依赖性,如第3.4节中所详述。为了适应第一个问题,我们修改的支持向量机的哲学的损失。我们在r中采用铰链状损失,将零处的分数裁剪为背景区域中的max(0,s)该模型因此壮举CLS壮举CLSInitializer模型模型优化器Conv骨干骨干训练集测试架6185dα在不增加损失的情况下,可以自由地预测背景中容易样本的大负值另一方面,对于目标区域,我们发现添加类似的铰链损失max(0,1−s)是不利的。虽然乍一看是矛盾的,但这种行为可以归因于目标和背景类别之间的基本不对称,部分原因是数量上此外,准确校准的目标置信度确实是有利的。或当前模型估计。我们通过推导出一种更精细的优化方法来解决这个问题,只需要少量的迭代来预测强判别滤波器f。核心思想是基于最速下降法计算步长α,这是一种常见的优化技术[30,36]。我们首先用当前估计f(i)处的二次函数来近似损失,在跟踪场景中,例如用于检测目标丢失。因此,我们需要标准最小二乘的性质L(f)≈L~(f)=1(f-f2(i))TQ(一)(f-f(一))+(4)在目标邻域中的回归。为了适应最小二乘回归和铰链损失的优点,我们定义了残差函数,r(s,c)= vc·(mcs+(1 − mc)max(0,s)− yc)。(2)目标区域由掩模m限定,具有val。(f − f(i))T<$L(f(i))+L(f(i))。这里,滤波器变量f和f(i)被视为向量,并且Q(i)是正定方阵。最陡下降然后通过找到最小化的步长α来进行近似损失(4)i. n的梯度方向Σ(3)。这C在每个空间位置处的区间mc(t)∈[0,1]中的UE通过求解dL~f(i)-αL(f(i))=0,可以得到:t∈R2. 同样,下标c指示对目标中心坐标。(2)中的公式是capa-能够根据相对于目标中心c的图像位置将损失的行为从标准最小二乘回归连续地改变为铰链损失。在目标区域设置mc≈1,在背景区域设置mc≈0,会产生上述所需的行为但如何最佳地设置Mc是不清楚的,特别是在目标和背景之间的虽然经典的策略是使用试错法手动设置掩码参数,但我们的端到端公式允许我们以数据驱动的方式学习事实上,如第3.4节所述,我们的方法学习了损失中的所有自由参数:目标掩码mc,空间权重vc,正则化因子λ,甚至回归目标yc本身。3.2. 基于优化的体系结构在这里,我们推导出网络架构D,其通过隐式地最小化误差(1)来预测滤波器f=D(Strain)。该网络的设计,制定一个优化程序。从等式(1)和(2)我们可以很容易地得到一个损耗L相对于滤波器f的梯度的闭合表达式(参见补充材料)。的直接选择是然后使用步长α采用梯度下降,f(i+1)= f(i)− αL(f(i))。(三)然而,我们发现这种简单的方法是不够的,即使学习率α(标量或系数特定)是由网络本身学习的(见4.1节)。它经历滤波器参数f的缓慢自适应,需要迭代次数的大量增加。这会降低效率,并使离线学习变得复杂。梯度下降法收敛慢很大程度上是由于步长α恒定,不依赖于数据6186βf2L(f(i))α=L(f(i))TQ(i)L(f(i))。(五)在最速下降中,公式(5)用于计算滤波器更新(3)的每次迭代中的标量步长α二次模型(4)以及由此得到的步长(5)取决于Q(i)的选择。例如,通过使用缩放单位矩阵Q(i)=1,我们得到具有固定步长α=β的标准梯度下降算法。另一方面,我们现在可以整合将二阶信息引入优化过程。2最明显的选择是将Q(i)=L(f(i))设置为损失( 1 )的Hessian ,其对应于二阶泰勒近似(4)。然而,对于我们的最小二乘公式(1),高斯-牛顿方法[30]提供了一种强大的替代方案,具有显著的计算优势,因为它只涉及一阶导数。因此,我们设置Q(i)=(J(i))TJ(i),其中J(i)是f(i)处的残差的雅可比行列式。事实上,矩阵Q(i)或雅可比矩阵J(i)都不需要被显式构造,而是被实现为一系列神经网络操作。详见补充资料。算法1描述了我们的目标模型预测器D。请注意,我们的优化器模块也可以很容易地用于在线模型自适应这是通过利用来自先前跟踪的帧的新样本连续地扩展训练集Strain来实现的然后将优化器模块应用于该扩展训练集,使用当前目标模型作为初始化f(0)。3.3. 初始滤波器预测为了进一步减少D中所需的优化递归的数量,我们引入了一个小的网络模块来预测初始模型估计f(0)。我们的初始化器网络由卷积层和精确的ROI池组成[17]。后者从6187j=1K∆j=1算法1目标模型预测器D.1.5输入:样本Strain={(x,j,c,j)}n,迭代Niter1一曰: f(0)←ModelInit(Strain)#初始化滤波器(第3.3节). . ,Niter − 1 do#优化器模块循环3:L(f(i))←FiltGrad(f(i),Strain)#使用(1)-(2)4:h←J(i)L(f(i))#应用(2)的雅可比矩阵0.505:α←L(f(i))2/h2#计算步长(5)012345678910距目标中心的距离6:f(i+1)←f(i)-αL(f(i)) #更新滤波器7:结束目标区域并将它们汇集到与目标模型F相同的大小。然后在S训练中的所有样本上对合并的特征图进行平均以获得初始模型f(0)。与在暹罗跟踪器中一样,这种方法仅利用目标外观。然而,我们的初始化器网络不是预测最终模型,而是只提供合理的初始估计,然后由优化器模块处理以提供最终模型。3.4. 学习判别学习损失在这里,我们描述如何学习残差函数(2)中的自由参数,定义损失(1我们的残差函数包括标签置信度得分yc、空间权重函数vc和目标掩码mc。虽然这些变量是在当前基于判别式在线学习的跟踪器中手工构建的,但我们的方法实际上是从数据中学习这些函数。我们根据到目标中心的距离这是由问题的径向对称性激发的,其中相对于目标的样品位置的方向是不重要的。相反,到样品位置的距离起着关键作用,特别是在从目标到背景的过渡中。因此,我们使用径向基函数ρk来参数化yc、mc和vc,并学习它们的系数φk。因为在-例如,在位置t∈R2处的标签yc由下式给出:NΣ−1yc(t)=φyρk(t− c)。(六)k=0我们使用三角基函数ρk,定义为.max(0,1 − |d−k|),k< N− 1图3.学习的回归标签(yc)、目标掩码(mc)和空间权重(vc)的图。标记显示结的位置。每个量的初始化以虚线示出。得到掩码mc,我们通过将(6)的输出传递给Sigmoid函数来将值约束为区间[0,1]我们使用N=100个基函数,并将节点位移设置为∆ = 0。1的深度特征空间X的分辨率。对于离线训练,回归标签yc被初始化为离线分类损失中使用的相同高斯zc,如第3.6节所述。权函数vc初始化为常数vc(t)= 1。最后,我们使用缩放的双曲正切函数初始化目标掩模m系数φk以及λ作为模型预测网络D的一部分进行学习(见第3.6节)。yc、mc和vc的初始值和学习值如图3所示。值得注意的是,我们的网络学会了在目标中心增加权重vc,并在模糊过渡区域减少它。3.5. 边界框估计我们利用[6]中介绍的重叠最大化策略给定参考目标外观,训练边界框估计分支以预测目标与测试图像上的一组候选框之间的IoU重叠通过从目标的参考外观计算调制矢量,将目标信息集成到IoU预测中。所计算的向量用于对来自测试图像的特征进行调制,然后将其用于IoU预测。IoU预测网络相对于而言相对于相对输入框进行协调,从而允许在跟踪期间通过最大化预测的IoU来细化候选数据。我们使用与[6]中相同的网络架构3.6. 线下培训在这里,我们描述我们的离线训练过程。在ρk(d)=∆max(0, min(1, 1 +d−k∆)),k=N−1(七)Siamese方法中,网络使用图像对进行训练,使用一个图像预测目标模板并使用一个图像预测目标模板。上述公式对应于结点位移为∆的连续分段线性函数。注意,最后一种情况k = N-1表示远离目标中心的所有位置,因此可以相同地处理。我们使用一个小的∆,以实现在目标-背景过渡的回归标签的准确分别使用(6)中的系数φv和φm类似地参数化函数v。和m 为了柏油-另一个用于评估跟踪器。相比之下,我们的模型预测网络D输入来自序列的多个数据样本的集合S训练。为了更好地利用这一优势,我们在成对的集合(Mtrain,Mtes t)上训练我们的完整跟踪架构。每个集合M={(Ij,bj)}N个帧 包括图像I,j与其对应的目标边界配对boxesbj. 使用M训练预测目标模型,然后在测试帧M测试上评估目标模型。很特别,我们的火车-K K值6188.¨N学习允许模型预测器D学习如何更好地利用多个样本。通过对序列中长度为Tss的随机段进行采样来构造集合然后,我们构建M训练和M测试,分别从第一和第二半段的N帧给定对(M训练,M测试),我们首先将图像通过主干特征提取器来构建训练S训练并测试目标模型的S测试从形式上讲,训练集被获得为Strain={(F(Ij ),cj ):(Ij ,bj)∈Mtrainn},其中cj是框bj的中心坐标。 这被输入到目标预测器f = D(S_train)。目的是预测模型F,该模型F是有区别的并且很好地推广到未来的不可见帧。因此,我们仅在测试样本S检验上评估预测模型f,类似地使用M检验获得。根据3.1节的讨论,我们使用背景样本的铰链计算回归误差.s−z,z> T预测的IoU在M测试和地面事实中重叠我们通过将其与目标 分 类 损 失 ( 9 ) 组 合 来 训 练 完 整 跟 踪 架 构 , 如Ltot=βLcls+Lbb。培训 详情:我 们使用 Tracking- ingNet [26],LaSOT[10],GOT 10 k [16]和COCO [23]的训练分割数据集。骨干网络使用ImageNet权重初始化。我们通过每个epoch采样20,000个视频来训练50个epoch,在单个Nvidia TITAN X GPU上的总训练时间不到24小时。我们使用ADAM [19],学习率衰减为0。每15个周期2个。目标分类损失权重被设置为β=102,并且我们在训练期间使用(9)中的Niter= 5通过相对于目标注释对随机平移和缩放进行采样来提取(M训练,M测试)中的图像块。我们将基本比例设置为目标大小的5倍,以包含重要的背景信息。对于每个序列,我们使用Tss=60的段长度对N帧= 3个测试和训练帧进行采样。标签分数zc使用以下标准偏差构造:(s,z)=.(八)max(0,s),z≤T1/4,并且我们使用T = 0。05的回归误差(8)。我们采用ResNet架构这里,阈值T基于标签置信度值z定义目标和背景区域。对于目标区域z > T,我们取预测置信度得分s与标签z之间的差,而对于背景z≤T,我们仅惩罚正置信度值。总目标分类损失计算为所有测试样本的均方误差(8)。然而,代替仅评估最终目标模型f,我们对优化器在每次迭代i中获得的估计f(i)①的人。该方法为目标预测模块引入了中间监督机制,有利于训练收敛.此外,我们的目标不是训练特定数量的递归,而是自由地在线设置所需的优化递归数量。因此,相等地评估每个迭代f(i)是自然的。用于离线训练的目标分类损失由下式给出为骨干。对于模型预测器D,我们使用从具有16的空间步幅的第三块提取的特征。我们将目标模型f的核大小设置为4 ×4。3.7. 在线跟踪给定具有注释的第一帧,我们采用数据增强策略[3]来构建包含15个样本的初始集合S训练。然后使用我们的判别模型预测架构f=D(Strain)来获得目标模型。对于第一帧,我们采用10个最陡的下降递归,初始化模块后。我们的方法允许目标模型可以很容易地更新,通过添加一个新的训练样本的S训练时,目标预测,有足够的信心。我们通过丢弃最旧的样本来确保最大内存大小为50。在跟踪过程中,我们通过每20帧执行两次优化器递归,或者一次递归来细化目标模型f1 ΣN iterL=¨xΣ¨2 .(九)每当检测到干扰物峰值时。 边界框估计cls¨c¨iteri=0(x,c)∈S检验这里,回归标签zc被设置为以目标c为中心的高斯函数。请注意,滤波器初始化器(3.3节)的输出f(0)尽管没有明确地表示以避免混乱,但是(9)中的x和f(i)都取决于特征提取网络F的参数。模型迭代f(i)另外取决于模型预测器网络D中的参数。对于边界框估计,我们将[6]中的训练过程扩展到图像集,通过计算M训练中的第一帧上的调制矢量并从M测试中的所有图像中采样候选框。边界框估计损失Lbb被计算为使用与[6]中相同的设置执行信息。4. 实验我们的方法是使用PyTorch在Python中实现的,并且在单个Nvidia GTX 1080 GPU上使用ResNet-18主干以57 FPS运行,使用ResNet-50以43 FPS运行。4.1. 分析我们的方法在这里,我们进行了广泛的分析所提出的模型预测架构。在包含整个OTB-100 [42]、NFS(30 FPS版本)[12]和UAV 123 [25]数据集的组合数据集上进行实验。这个汇集的数据集包含323个不同的视频,以实现彻底的分析。使用AUC评估跟踪器Σ6189初始GD SD AUC58.2 61.6 63.8表1.在OTB-100、NFS和UAV 123数据集上分析不同的模型预测架构仅使用目标信息进行模型预测(Init)的架构实现了58的AUC评分。百分之二。建议的最速下降为基础的架构(SD)提供了最好的结果,优于梯度下降法(GD)超过2。2% AUC评分。SD +初始化+FT +Cls +损失AUC 58.7 60.0 62.6 63.3 63.8表2.分析初始化器模块(+Init)的影响,训练骨干(+FT),使用额外的Conv。块(+Cls)和损失(+Loss)的离线学习,通过一次递增地添加一个。基线SD构成了我们基于最陡下降的优化器模块,以及在ImageNet上训练的ResNet-18。[42] I'm sorry.由于跟踪器的随机性,我们总是报告5次运行的平均AUC评分。我们使用ResNet-18作为此分析的骨干网络。优化器模块的影响:我们比较我们的建议方法,利用最速下降(SD)基于architec-真的,有两种替代方法。Init:在这里,我们只使用初始化器模块来预测最终的目标模型,这对应于在我们的approach.因此,类似于Siamese方法,仅目标外观信息用于模型预测,而背景信息被丢弃。GD:在该方法中,我们使用(3)中学习的系数步长α用梯度下降(GD)算法替换最速下降。所有网络都使用相同的设置进行训练。该分析的结果示于表1中。由初始化器网络预测的模型仅使用目标信息,其AUC得分为58。百分之二。可以利用背景信息的梯度下降方法提供了实质性的改进,实现了61的AUC得分。百分之六。这突出了采用判别学习进行模型预测的重要性。我们的最速下降方法获得了最好的结果,比GD好2。百分之二。这是由于最速下降的优越收敛特性,对于离线学习和快速在线跟踪很重要。模型预测架构分析:在这里,我们分析的关键方面的影响,提出的discrimi-本地在线学习架构,逐步增加他们一次一个。结果示于表2中。基线SD构成了我们基于最陡下降的优化器模块以及在ImageNet上训练的固定ResNet-18网络也就是说,类似于当前最先进的判别方法,我们不对脊骨进行微调。我们在优化器模块中使用回归误差(8),而不是学习判别损失。该基线方法实现了58的AUC评分。百分之七。通过添加模型初始化器模块(+Init),我们实现了一个没有更新模型平均我们的AUC61.7 61.7 63.8表3. OTB-100、NFS和UAV 123数据集上不同模型更新策略的比较。DRT RCO UPDT DaSiam- MFT[37][20个][3]第一章RPN[45][20]LADCF[43]原子Si[6]amRPN++DiMP-18 DiMP-50[21日]EAO0.356 0.376 0.3780.3830.3850.3890.4010.4140.4020.440稳健性0.201 0.155 0.1840.2760.1400.1590.2040.2340.1820.153精度0.519 0.5070.5860.5050.5030.5900.6000.5940.597表4. VOT2018数据集在预期平均重叠(EAO)、准确性稳健性方面的最新比较。1的显著增益。AUC评分为3%。进一步训练整个网络,包括骨干特征提取器,(+FT)导致2的重大改进。AUC评分为6%这证明了通过端到端学习来学习适合于跟踪的专门特征的优势。使用附加卷积块来提取分类特定特征(+Cls)产生0的进一步改进。7%AUC评分。最后,学习判别损失(2)本身(+损失),如第3.4节所述,将AUC分数提高了另一个0。百分之五这示出了通过最大化模型在未来帧上的泛化能力来学习隐式在线损失的益处。在线模型更新的影响:在这里,我们分析了在线更新目标模型的影响,使用来自先前跟踪帧的信息。我们比较了三种不同的模型更新策略。i)无更新:模型在跟踪期间不更新。相反,由我们的模型预测器Di在第一帧中预测的模型被用于整个序列。ii)模型平均:在每个帧中,使用当前和新预测的模型的线性组合来更新目标模型,如在跟踪中通常采用的[15,18,40]。iii)我们的:目标模型是使用在线构建的训练集获得的,如3.7节所述。朴素模型平均法在没有更新的情况下未能改善基线方法(见表3)。相比之下,我们的方法在AUC得分上获得了约2%的显著增益,这表明我们的方法可以有效地在线适应目标模型4.2. 最新技术水平比较我们比较我们提出的方法DiMP与国家的最先进的方法在七个具有挑战性的跟踪基准。示出了我们的方法的两个版本的结果:DiMP-18和DiMP-50分别采用ResNet-18和ResNet-50作为骨干网络。VOT2018 [20]:我们在2018年版本的视觉对象跟踪(VOT)挑战赛上评估了我们的方法,该挑战赛由60个具有挑战性的视频组成使用测量精度(平均重叠成功率)评估跟踪器完全跟踪的帧)和鲁棒性(故障率)。这两种措施相结合,以获得EAO(预期平均重叠)得分用于排名跟踪器。结果示于表4中。在先前的方法中,6190DiMP-50 [56.9]DiMP-18 [53.2]原子[51.5]SiamRPN++[49.6]MDNet [39.7]重要[39.0]SiamFC [33.6]StructSiam [33.5]DSiam [33.3]ECO [32.4]成功图80706050403020ECO SiamFC CFNet MDNet更新 DaSiam- ATOM SiamRPN++DiMP-18 DiMP-50[七]《中国日报》[2][29日][3]第一章RPN [45][21][22] [23]精密度(%)49.253.353.356.5五十五点七59.1 64.869.466.668.7诺姆精密度(%)61.866.665.470.5七十二73.3 77.1 78.580.1成功(AUC)(%)55.457.157.860.6 61.163.8 70.373.372.374.0表5.TrackingNet测试集在精度、标准化精度和成功率方面的最新比较MDNet CF2 ECO CCOT GOTURN SiamFC SiamFCv2 ATOMDiMP-18 DiMP-50[29日][24][7][9][14][2][40][6]10SR 0.50(%)30.329.7 30.9 32.8 37.5 35.3 40.4 63.467.2 71.700 0.20.40.6 0.8 1SR0。75(%)9.98.8十一点一 10.7 12.4 9.8 14.4 40.244.649.2AO(%)29.931.5 31.6 32.5 34.7 34.837.4重叠阈值图4. LaSOT数据集上的成功图。SiamRPN++实现了最佳精度和EAO。怎么-表6.在平均重叠(AO)和重叠阈值0时的成功率(SR)方面,对GOT10k测试集进行最新技术水平比较。5和0。75.然而,它的鲁棒性远不如基于判别学习的方法,如MFT和LADCF。与上述方法类似,SiamRPN++采用ResNet-50进行特征提取。我们的方 法 DiMP-50 采 用 相同的 骨 干 网 络 , 显 著 优 于SiamRPN++,相对增益为6。3%,在EAO。此外,与SiamRPN++相比,我们的方法的失败率降低了34%,同时达到了相似的准确性。这表明,判别模型预测是鲁棒跟踪的关键。LaSOT [10]:我们在由280个视频组成的测试集上评估了我们的方法。图4中示出了成功图。与其他数据集相比,LaSOT具有更长的序列,平均每个序列2500帧。因此,在线模型自适应对于该数据集至关重要。之前的最佳方法ATOM [6]采用在线判别学习,具有预先训练的ResNet-18特征。我们的端到端训练方法,使用相同的骨干架构,优于ATOM,相对增益为3。3%,显示了端到端培训的影响DiMP-50进一步改善了结果,AUC评分为56。9%。这些结果表明,强大的模型适应能力,我们的方法对长序列。TrackingNet [26]:我们在大规模TrackingNet数据集的测试集上评估了我们的方法。结果示于表5中。SiamRPN++的AUC评分为73,令人印象深刻。百分之三。我们的方法,用同样的ResNet-如在SiamRPN++中的50骨架,通过实现74的AUC评分而优于所有先前的方法。0%。GOT10k [16]:这是一个包含超过10,000个视频的大规模数据集,其中180个形成了用于评估的测试集有趣的是,在训练和测试拆分之间的对象类中没有重叠,这提高了对看不见的对象类的泛化。为了确保公平的评估,跟踪器被禁止使用外部数据集进行训练。我们通过仅使用GOT10k列车分割重新训练我们的跟踪器来遵循此协议。结果示于表6中。ATOM的平均重叠(AO)评分为55。百分之六。我们的ResNet-18版本优于ATOM,相对增益为4。百分之一。 我们的ResNet-50版本达到了61的最佳AO评分。1%,验证了我们的跟踪器的强大的泛化能力。ECOhc DaSiam-ATOM CCOT MDNet ECO SiamRPN++ UPDTDiMP-18 DiMP-50[七]《中国日报》RPN [45][6]美国[9]第一章[29日][七]《中国日报》[21日][3]第一章NFS--58.448.842.246.6-53.761.062.0OTB-100 64.365.866.968.267.869.169.670.266.068.4UAV123 50.658.664.451.352.852.561.354.564.365.4表7. NFS、OTB-100和UAV 123数据集在AUC评分方面的最新比较。Need for Speed [12]:我们在30FPS版本的数据集上评估了我们的方法,其中包含具有快速移动对象的挑战性视频。所有100个视频上的AUC分数在表7中示出。先前最好的方法ATOM实现了58的AUC得分。百分之四我们的方法优于ATOM,相对增益为4。4%和6。使用ResNet-18和ResNet-50分别为2%0 TB-100 [42]:表7示出了所有受试者的AUC评分。数据集中的100个视频在所比较的方法中,UPDT以70的AUC得分获得最佳结果。百分之二。我们的DiMP-50实现了68的AUC评分。4%,与其他最先进的方法相比具有竞争力。UAV123 [25]:该数据集由从无人机捕获的123个低空航拍视频组成。AUC方面的结果示于表7中。在之前的方法中,SiamRPN++的AUC评分为61。百分之三。DiMP-18和DiMP-50显著优于SiamRPN++,实现AUC评分64。3%,65。4%,分别。5. 结论我们提出了一个跟踪体系结构,是在一个端到端的方式离线训练我们的方法是来自一个歧视性的学习损失,通过应用迭代优化过程。通过采用基于最速下降此外,我们的方法学习离线训练期间的判别损失,最小化的预测误差看不见的测试帧。我们的方法在6个跟踪基准上设置了一个新的最先进的状态,同时以超过40FPS的速度运行。鸣谢:这项工作得到了ETH General Fund(OK)和Nvidia的硬件资助。重叠精度[%]6191引用[1] LucaBertinetto,Jo aoF. 亨里克斯,杰克V阿尔马德雷,菲利普H. S. Torr和Andrea Vedaldi.学习前馈一次性学习器。在NIPS,2016年。2[2] LucaBertinetto,JackValmadre,JoaBertinetoFHenriques,AndreaVedaldi,and Philip HS Torr.用于对象跟踪的全卷积连体网络。2016年ECCV研讨会。一、二、八[3] Goutam Bhat、Joakim Johnander、Martin Danelljan、Fa-had Shahbaz Khan和Michael Felsberg。揭示深度追踪的力量。在ECCV,2018。六七八[4] David S.放大图片作者:John W.德雷珀和雷文。使用自适应相关滤波器的视觉对象跟踪。CVPR,2010。3[5] Janghoon Choi、Junseok Kwon和Kyoung Mu Lee。基于目标特定特征空间的实时视觉跟踪的深度Meta学习。CoRR,abs/1712.09153,2017。2[6] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. ATOM:通过重叠最大化进行精确跟踪。在CVPR,2019年。二、三、五、六、七、八[7] Martin Danelljan,Gou
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功