没有合适的资源?快使用搜索试试~ 我知道了~
6288按实例检测跟踪:元学习方法王光庭1罗冲2孙晓燕2熊志伟1曾文军2中国科学技术大学1微软亚洲研究院2wgting96@gmail.com{cluo,xysun,wezeng} @ microsoft.comzwxiong@ustc.edu.cn摘要我们认为跟踪问题作为一种特殊类型的对象检测问题,我们称之为实例检测。通过适当的初始化,检测器可以通过从单个图像学习新实例来快速转换为跟踪器。我们发现,模型不可知的元学习(MAML)提供了一个策略来初始化检测器,满足我们的需求。我们提出了一个原则性的三步方法来建立一个高性能的跟踪器。首先,选择任何使用梯度下降训练的现代对象检测器。其次,使用MAML进行离线训练(或初始化)。第三,使用初始帧执行域自适应。我们按照这个过程建立了两个跟踪器,命名为Retina-MAML和FCOS-MAML , 基 于 两 个 现 代 检 测 器 RetinaNet 和FCOS 。 对 四 个 基 准 的 评 估 在 OTB-100 上 , Retina-MAML 达 到 了 有 史 以 来 最 高 的 AUC 0.712 。 在TrackingNet上,FCOS-MAML以0.757的AUC和0.822的标准化精度这两个跟踪器都以40 FPS实时运行1. 介绍给定在初始帧中定义目标对象的边界框,视觉对象跟踪的目标是自动确定对象在随后的每一帧中的位置和范围。跟踪问题与检测问题密切相关,甚至可以看作是一种特殊类型的目标检测,我们称之为实例检测。主要区别在于对象检测定位某些预定义类的对象,并且其输出不区分类内实例。但对象跟踪只寻找一个特定的实例,这可能是任何已知或未知的对象类,这是在初始帧中指定的。由于这两个任务之间的相似性,一些目标检测技术被 广 泛 用 于 目 标 跟 踪 。 例 如 , 区 域 提 案 网 络(RPN),这项工作是在光庭在微软研究院实习时完成的图1:MAML提供了一种有效的方法来初始化实例检测器。使用单个训练图像,检测器可以快速适应新的域(实例)。它能够在后续帧中定位目标对象,即使对象有显着的外观变化。在Faster R-CNN检测器[30]中提出,已在SiamRPN跟踪器及其变体中采用[21,20,43]。多纵横比锚点的引入解决了之前跟踪器一直存在的框估计问题。它大大提高了基于暹罗网络的跟踪器的性能。最近,IoU网络[14]再次成为对象检测的创新,被ATOM和DiMP [6,3]应用于对象跟踪,并展示了强大的功能。除了这些从物体检测中借用先进组件来组装跟踪器的方法之外,我们认为另一种选择是直接将现代物体检测器转换为高性能跟踪器。这将使跟踪器不仅保留先进的组件,而且还保留基本探测器的整体设计。主要的挑战是如何获得检测器的良好初始化,以便一旦给出新实例,它可以有效地将实例信息注入网络而不会过度拟合。图1说明了这个想法。检测器在适配之前可以表现得像一般对象检测器但在对单个训练图像进行域自适应后,它能够黄等人最近的工作训练图像域适应适应前测试图像适应后6289[13]与我们有着相似的观点,但他们仍然将跟踪视为两步任务,即类级对象检测和实例级分类。在第一个子任务中,涉及模板图像,并且使用单独的分支来处理模板。在这项工作中,我们正在寻找一个简洁的解决方案来实现我们的想法。构造的跟踪器看起来就像一个正常的检测器,没有额外的分支或任何其他修改的网络架构。我们发现,模型不可知Meta学习(MAML)[10]提供了一种学习策略,可以在我们设计时初始化检测器,陛下基于MAML,我们提出了一个三步的过程来转换任何现代检测器到一个高性能的跟踪器。首先,选择任何经过梯度下降训练的检测器其次,使用MAML在大量跟踪序列上训练检测器。第三,当给定测试序列的初始帧时,用几步梯度下降来微调检测器在该域自适应步骤之后,可以获得一个像样的跟踪器在跟踪过程中,当收集到目标的新外观时,检测器可以用更多的样本进行训练,以实现更好的自适应能力。根据所提出的程序,我们基于高级对象检测器RetinaNet [24]和FCOS [34]构建了两个实例检测器,名为Retina-MAML和 在离线训练过程中,我们进一步在MAML中引入了一个核可学习的学习率,以提高基于梯度更新的表达能力。在OTB、VOT、TrackingNet和LaSOT四个主要基准上对跟踪器进行了评估系统比较表明,这两个跟踪器实现竞争力的性能对国家的最先进的(SOTA)跟踪器。在OTB-100上,Retina-MAML和FCOS-MAML似乎是性能最好的跟踪器,AUC分别为0.712和0.704。Retina-MAML的EAO为VOT-2018上的0.452。FCOS-MAML在TrackingNet上的AUC为0.757,在排行榜上排名第一。此外,这两个跟踪器都以40 FPS实时运行。2. 相关工作2.1. 基于CNN的视觉目标跟踪随着深度学习和卷积神经网络(CNN)在各种计算机视觉任务中的巨大成功,出现了越来越多的基于CNN的跟踪器。我们将基于CNN的跟踪器分为两类,这取决于是否使用显式模板。大多数基于暹罗网络的跟踪器[2,21,20,36]属于第一类,我们称之为基于模板的方法。目标外观信息存储在显式模板中。在SiamFC [2]中,使用相同的方法从模板和搜索区域中提取特征。离线训练的CNN然后采用互相关运算来计算匹配分数。SiamFC的一个主要缺点是它只评估与初始框形状相同的候选框SiamRPN [21]通过借用对象检测器的RPN思想解决了这个问题。后来,SPM-Tracker [36]借用了两级检测器的架构,并实现了改进的性能。目前,这一类别中性能最好的跟踪器是ATOM [6]和DiMP [3],它们利用最先进的IoUNet [14]进行精确的对象定位。基于模板的方法通常运行非常快,因为用于提取特征的CNN不需要在线更新。然而,随着跟踪的进行,新的目标外观应该被集成到模板中以获得更好的性能。但大多数方法缺乏有效的模板在线更新模型。这种限制为基于模板的跟踪器创造了性能上限。另一类是无模板方法[27,28,15],其目的是以微调参数的形式将目标外观信息存储在神经网络设计无模板跟踪器的挑战是如何快速地将实例信息注入网络而不过度拟合。MDNet [28]将CNN分为共享层和特定于域的层。共享层提供合理的初始化,并且特定于域的层使用新实例进行在线训练由于传统训练策略的限制,MD- Net需要多次迭代才能收敛,而较少的迭代次数会导致性能严重下降。因此,MDNet速度太慢,无法用于实时场景。我们发现无模板跟踪器是一个很好的解决方案。它们不需要维护外部模板,网络架构看起来就像一个检测器。领域自适应和在线更新可以通过统一的在线训练 过 程 来 实 现 。 然 而 , 这 仍 然 是 相 当 chal-challenging,以实现良好的性能速度权衡这种类型的跟踪器。2.2. Meta学习及其在跟踪中的应用元学习的目标是在各种学习任务上训练模型,这样它就可以只使用少量的训练样本来解决新的当我们将对象跟踪视为实例检测任务时,跟踪器在各种实例检测任务上进行训练,以便它可以快速学习如何仅使用来自初始或先前帧的一个或几个训练样本来检测新实例。我们发现跟踪任务是应用元学习的一个很好的例子。模型不可知元学习(MAML)[10]是元学习的重要算法。它帮助网络学习一组适合微调的良好初始化参数。在训练期间,模型的参数被显式地训练,使得少量的6290我我我我我我我训练损失1培训损失2训练损失N01更新更新空对空导弹更新中国Params0更新一F(,)00我联系测试损失0测试损失1试验损失N-1试验损失N前向计算内层梯度外层梯度图2:我们的培训管道示意图。第一行是内部训练循环。SGD优化的几个步骤在支持图像上执行。每一步更新后的参数用于计算基于测试图像的元梯度。最好看的颜色梯度步骤与少量的训练数据,从新任务将在该任务上产生良好的泛化性能。 MAML最突出的优点是它与任何使用梯度下降训练的模型兼容,并适用于各种不同的学习问题。正因为如此,MAML是实现我们想法的完美候选者,即将任何高级对象检测器(使用梯度下降训练)转换为跟踪器。后来,MAML++[1]引入了一组技巧来稳定MAML的训练。MetaSGD [23]建议为每个参数训练可学习的学习率。在对象跟踪领域,Meta-Tracker [29]是第一个将MAML用于MDNet的域自适应步骤的。MetaRTT [16]进一步将MAML应用于在线更新步骤。基本上,他们的主要目的是加快前雇员的在线培训,tor,这样当只有初始帧可用时,它可以快速适应新的实例在本节中,我们将介绍使用MAML学习实例检测器的方法。构建跟踪器的完整步骤将在下一节中详细介绍。该学习步骤中的训练数据是在每帧上具有目标对象的地面实况标记的视频形式上,给定视频Vi,我们收集一组训练样本,用Ds表示。 它也被称为Meta学习中的支持集。检测器模型被定义为h(x;θ0),其中x是输入图像,θ0是检测器模型的参数。检测器我们在支持集上更新检测器,k步梯度下降(GD)算法:θ k<$GD k(θ0,Ds)得双曲正弦值.网络 追踪 器,包 括 MDNet [28]、 CREST [31]和 RT-MDNet [15]。我们认为,既然Meta学习提供了一种机制,可以快速调整深度网络来建模特定对象并避免过拟合,为什么不直接将现代对象检测器转换为跟踪器,而不是使其θk=θk−1 -α1|Ds|Σ(x,y)∈Dsθk−1L(h(x;θk−1),y),(一)让一个慢的跟踪器更快?Huang等人[13]我也有同样的想法。他们提出了通过MAML学习检测头中的Meta层。然而,他们仍然在跟踪器的第一部分引入了一个模板,称为类级对象检测。复杂的设计导致速度缓慢。3. 使用MAML学习实例检测器其中L是损失函数,(x,y)是数据标签对,支持集。 在Eqn. (1)被称为内-层次优化为了评估训练检测器的泛化能力,我们从同一视频Vi收集另一组样本Dt,它们被称为目标集。我们通过应用经过训练的检测器来计算目标集上的损失,可以写为:将检测器转换为实例检测器(跟踪器)的关键是提供检测器的良好初始化F(θ,D)=10i|Dt|ΣL(h(x;θk(x,y)∈Dt),y)(二)6291我我其中Di={Ds,Dt}表示组合支撑集,其中α是与θk大小相同的张量。不-我我目标设定总体培训目标是找到一个任何跟踪视频的良好初始化状态θ0它可以被公式化为:tation表示元素级乘积。 然而,设置-提高每个参数的学习率,型号尺寸。相比之下,我们以内核方式排列可学习的学习率。 具体来说,对于卷积-θ*=arg min1ΣNF(θ,D),(3)含C出来 输出通道,我们定义一个学习θ0 不我我其中N是视频的总数。在Eqn. (3)称为外层优化,可以通过基于梯度的方法(如Adam [18])来解决。外层梯度通过内层计算图反向传播关于检测器h的唯一假设是它是可微的。因此,这种方法很容易适用于大多数基于深度学习的检测器。图2示出了该训练流水线。在训练阶段,我们只从数据集中采样一对图像。根据DaSiamRPN [43]的实践,这两个图像可能来自相同序列或不同序列。第一幅图像将被放大/缩小一个常数因子(在我们的实验中为1.08),以便为内部优化构建一个具有三幅图像的支持集。将第二幅图像作为单幅图像的目标集,计算外层损失。我们使用4步GD进行内部优化,使用Adam求解器[18]进行外部优化。为了稳定训练和增强检测器的能力,我们对原始MAML算法进行了以下修改。多步损耗优化。 MAML++ [1]建议在每一步内部GD之后取参数,以最小化目标集上的损失,而不是仅使用最后一步之后数学上,Eqn。(2)可以改写成:每个卷积核的速率,这只会引入额外数量的Cout可学习参数,这些参数在模型中可以忽略不计。4. Retina-MAML和FCOS-MAML本节提供了构建跟踪器的建议的三步过程的详细信息。具体来说,我们将介绍检测器的选择,离线训练的 细 节 , 以 及 两 个 跟 踪 器 命 名 为 Retina-MAML 和FCOS-MAML的在线跟踪过程4.1. 检测器由于MAML是一种与模型无关的学习方法,我们可以自由选择任何使用梯度下降训练的现代检测器作为构建跟踪器的基础作为这个方向的第一次尝试,我们选择了两个单级检测器,它们比两级检测器运行得更快,而且相当容易操作。然而,在我们的方法中,我们没有看到使用两阶段检测器的任何障碍单级检测器通常由一个骨干网络和两个头组成,即分类头和回归头。骨干网络为输入图像生成特征图。基于特征图,对对象进行评分和定位。RetinaNet [24]是一种代表性的单级对象检测器。特征图中的每个像素都与几个预定义的先前框或锚点相关联分类头被训练以分类每个锚是否具有足够的F(θ0,D)=1我|Dt|ΣΣKγkL(h(x;θk),y),(4)与物体重叠的部分。回归头被训练来预测每个锚点之间的相对差异,我(x,y)∈Dtk=0其中,K是内部层级步骤的数量,γk是每个步骤的损失重量。请注意,我们的公式与MAML++中的公式略有不同。初始化参数θ0(更新前)也会导致外层损失。在我们的实验中,我们发现这个技巧对于稳定梯度至关重要。Kernel-wise learnable learning rate. 在标准MAML中,内部层优化中的学习率α是预定义的常数。MetaSGD[23]建议为模型中的每个参数指定一个可学习的学习率。因此,等式11中的GD算法可以被简化。(1)可以重写为:对应的地面实况框。 类似的设计可以在许多现有的检测器中发现,这些检测器被分组为基于锚的检测器家族。最近,无锚检测的概念受到了很多关注。顾名思义,没有定义锚点。FCOS [34]是这一类别中的代表性探测器。在骨干网络生成特征图之后,训练分类头以分类特征图中的每个像素是否在对象的中心区域内同时,回归头直接估计从像素到对象边界的四个偏移图3描绘了无锚和基于锚的检测器之间的核心设计差异。接下来,我们对所选的检测进行一些简化θ=θ−α⊙1k +1k|Ds|我Σ(x,y)∈DsθkL(h(x;θk),y),(5)RetinaNet和FCOS。这些简化提高了跟踪器的速度,但不会影响跟踪性能。我们相信是这样的,因为视觉对象跟踪是每-6292Cls. 分支(a) 基于锚点的探测器(b) 无锚探测器共享图层冻结线下可训练Reg. 分支在线可训练图3:(a)基于锚点的检测器预测锚点和地面实况框之间的相对黄色虚线框表示锚。(b)无锚检测器直接估计从像素到对象边界的四个偏移在视频序列上逐帧形成。随后的视频帧具有强的时间相关性,因此前一帧中的目标对象的位置和范围提供了当前帧中的位置和范围的接近估计。通常,跟踪是在方形搜索区域上执行的,该搜索区域在被传递到跟踪网络之前被进一步缩放到固定大小。从跟踪器因此,没有必要在RetinaNet和FCOS中使用主要用于处理大规模变化的FPN此外,FCOS的vanilla版本使用三个网络头,一个通用回归头和两个中心/分类头。由于跟踪只需要对目标和非目标进行分类,因此只保留中心分支来产生分类分数。第二步是使用离线MAML训练初始化检测器。由于详细的算法已经在上一节中介绍,我们在这里提供实现细节。网络架构。图4描述了我们用于MAML训练的检测网络。在这两个检测器中,用于特征提取的CNN主干是ResNet-18。前三个块中的参数使用ImageNet进行预训练,并在离线训练期间冻结最后一个块(块-5)被丢弃,使得输出特征图的步幅为8。我们制作两个独立的block-4副本,并将它们放在各自的分支中。这不是我们工作方法的必要处理,只是为了让我们在跟踪期间分析在线更新的效果对于RetinaNet,我们预先定义了一个大小为64×64像素的锚框。在我们的实验中,我们发现这种单锚点设置的性能略优于SiamRPN中的多锚点设置[21]。图4:我们采用ResNet-18作为主干。 第一在ImageNet预训练后冻结了三个区块,并删除了区块5。在离线训练期间,在分类分支和回归分支中独立地训练块4。在线训练仅涉及可训练层的子集。4.2. 离线MAML培训损失定义。对于Retina-MAML,当锚框与地面实况框的交集-并集(IoU)重叠大于0.5(或小于0.3)时,锚框被分配正(或负)标签我们分别使用焦点损失和平滑L1损失来训练分类分支和回归分支。对于FCOS-MAML,我们采用L2损失来监督中心性分数的训练。回归分支中的损失函数是L1损失。训练数据。遵循其他现代跟踪器[6,3],我们使用四个数据集进行离线训练,即MS-COCO[25] , GOT10k [12] , TrackingNet [26] 和 LaSOT-train[8]。在LaSOT和TrackingNet中,我们每三帧或十帧只采样一帧。训练图像被裁剪并调整大小为263×263的分辨率。标准数据增强机制,如随机缩放和移位被采纳。优化. 如第3节所述,我们在离线训练期间使用4步GD进行内部优化。内核可学习的学习率α被初始化为0.001。多步损失权重γk被初始化为相等贡献,并逐渐退火到(0.05,0.10,0.2,0.30,0.35),给予后面的步骤更多的权重和关注对于外层优化,采用Adam优化器[18]初始学习率为0.0001。在每次迭代中,对32对图像进行采样。检测器被训练20个epoch,每个epoch迭代10,000次。为了加速训练,我们在前15个epoch中使用一阶近似[1]4.3. 在线培训和跟踪第三步是当给定新的视频序列时的域自适应在初始帧中,6293i=1i=1算法1在线跟踪算法输入:帧序列{Ii}N,检测器h(·;θ),初始化边界框B1,更新间隔u。输出:跟踪结果{Bi}N1:生成搜索区域图像。S1←SR(I1,B1)2:初始化支持集. Ds← {DataAug(S1)} 3:方程中的模型更新(一). θ← GD5(θ,Ds)4:对于i= 2,...,N是否第五章:检测边界框中表示的对象并进行评分。{Bj,cj}M←h(SR(Ii,Bi−1);θ)表1:MAML训练允许检测器快速适应新的领域,因此是将检测器转变为跟踪器的关键detj=16:如果所有cj<0。1然后7:Bi←Bi−18:继续9:如果结束10:将惩罚和窗口先验添加到{Bj,c}M拉施德jj=1∗11:选择得分最高的方框c。 Bi← Bdet12:线性插值形状。Bi←Inter(Bi,Bi−1)13:更新支持集Ds。14:如果imodu= 0或检测到干扰项,则图15:等式15中的模型更新 (一). θ← GD1(θ,Ds)16:如果结束0 5 10 15 20 25许多措施0 5 10 15 20 25许多措施17:结束(a) 损失曲线跟踪由地面实况边界框指示。根据给定的边界框生成分辨率为263×263的面片与离线训练一样,我们也采用放大/缩小数据增强来构建支持集。跟踪器通过5步GD更新,如所述在等式中(五)、在域自适应之后,检测器现在能够跟踪后续帧中的目标对象。对于每个搜索区域块,检测器定位数百个可扩展边界框,然后将其传递到标准后处理流水线,如SiamRPN [21]中所建议的。具体地说,形状惩罚函数和余弦窗函数被应用于每个候选。最后,具有最高分数的候选框被选择作为跟踪结果,并且其形状通过与前一帧中的结果的线性插值来平滑。在跟踪过程中,支持集逐渐扩大。跟踪器可以基于更新的支持集以预定义的间隔在线训练。这个过程通常被称为在线更新跟踪。如果跟踪结果的分数高于预定义的阈值,则将其添加到支持集中。我们在支持集中缓冲最多30个训练图像当图像数量超过限制时,除初始样本外的早期样本将被丢弃在每n帧之后(在我们的实现中n=10)或者当检测到干扰峰值时(当峰旁瓣比大于0.7时),我们执行在线更新。在这种情况下,我们只使用1步GD来保持较高的跟踪速度。平均而言,我们的追踪器可以在单个NVIDIA P100 GPU卡上以40 FPS运行在线跟踪程序在Alg. 1.一、(b) 可视化图5:MAML检测器和基线检测器在域自适应过程中的比较.(a)训练图像和测试图像上的定量损失。(b)相应分数图的可视化MAML检测器收敛速度快,泛化能力强KLLR incls reg.OTB-100(AUC)VOT-18(EAO)LaSOT(AUC)TrackingNet(AUC)C0.6280.6610.3130.3680.4900.5020.7330.737C0.6760.3150.5040.744CC0.7040.3920.5230.757表2:内核可学习学习率的消融分析Cls.和reg.分别表示分类分支和回归分支。5. 实验5.1. 消融研究元学习是将检测器转变为跟踪器的关键。简而言之,实例检测器可以通过以下方式构建1.0MAML基线0.80.60.40.23.02.52.0MAML基线1.51.00.5基线步骤5 基线步骤20第20步:第一步培训形象基线步骤5 基线步骤20第20步:第一步训练损失测试图像测试损失检测器域适应OTB-100(AUC)VOT-18(EAO)LaSOT(AUC)TrackingNet(AUC)基线之前后0.4600.4870.1370.1740.3910.3910.6010.634MAML之前后0.4640.6710.1620.3410.3870.5110.6260.7436294表3:在线更新策略10.90.80.70.60.50.40.30.20.10OPE − OTB10010.90.80.70.60.50.40.30.20.10OPE − OTB 100埃吉基线跟踪器无需在线更新,0 0.2 0.4 0.6 0.8 1重叠阈值0 10 20 30 40 50定位误差门限一个很好的性能-速度权衡。在线更新两个分支是跟踪短序列的最佳选择。在线MAML训练和域自适应(初始帧的在线训练),在线更新进一步提高了性能。在本节中,我们使用FCOS-MAML来进行消融研究,该研究以离线MAML训练和在线更新为中心。实验在四个跟踪基准[39,19,8,26]上进行,遵循官方评估协议。5.1.1离线MAML培训在没有MAML训练的情况下,可以使用标准梯度下降来训练一般的对象检测器。然而,这样的检测器不能够仅通过使用来自初始帧的样本的几个更新步骤来进行域自适应为了证明MAML训练的重要性,我们在同一数据集上使用标准GD和MAML离线训练FCOS检测器。在本小节中,它们被称为基线检测器和MAML检测器。性能见表1。没有域自适应,这两个检测器在跟踪任务中表现不佳。这是自然的,因为他们不记得跟踪目标的任何信息。然而,域适应后,5步GD,MAML检测器显示出明显的优势,基线检测器。OTB-100的AUC从0.464大幅改善至0.671。相比之下,基线检测器只稍微受益于域适应。从图中我们可以对这两个检测器有一个更直观的印象。5. 图5(a)示出了在域适配期间的两个检测器。请注意,这两个检测器在此过程中使用相同的GD算法,但MAML检测器具有更好的自适应能力。对于训练图像,在仅一步GD更新之后,MAML检测器的损失迅速下降到一个小值。基线检测器的收敛速度要慢得多,在20步更新后损失仍然很大。图的右边。图5(a)示出了测试图像上的损失甚至随着训练的进行而上升。图5(a)可视化了由两个检测器生成的训练和测试图像上的响应图MAML检测器在训练图像和测试图像中经过5步GD后都能清晰地定位跟踪目标,而基线检测器即使经过20步GD也没有任何进展。图6:OTB-100上的成功图和精度图。5.1.2核可学习率该模型从梯度中学习有关目标对象的信息。我们建议以内核方式使用可学习学习率(KLLR)。这些学习率引导梯度的方向,并加强了我们模型的力量。在本节中,我们训练几个FCOS- MAML检测器,无论是否使用KLLR。表2中的实验结果表明,该模型在分类分支和回归分支中都可以受益于5.1.3在线更新策略我们的跟踪器执行两种类型的在线训练,一种是在初始帧上进行域适应,另一种是在跟踪过程中收集的样本上。后者被称为在线更新。虽然域自适应是实例检测器的必备训练过程,但在线更新是可选的。我们首先评估最简单的基线,它根本不执行在线更新。令人惊讶的是,该方案在所有四个基准测试中都实现了具有竞争力的性能,如表3所示。这个版本的FCOS-MAML可以非常快地运行,最高可达85 FPS。当采用在线更新时,FCOS-MAML以略微降低的速度实现了增加的比较最后两行,我们有一个有趣的发现,这与传统智慧相反。以前认为,在线更新回归分支可能会损害跟踪器的性能,由于聚合的错误。然而,我们的结果表明,除了LaSOT数据集是由很长的序列,在线更新两个分支似乎是最好的选择。5.2. 与SOTA跟踪器的比较对OTB的评价:我们在OTB 2013/50/100基准上评估了我们的跟踪器FCOS-MAML和Retina-MAML [39]。我们遵循一次通过评估(OPE)方案,并报告成功图的AUC评分。表4将我们的跟踪器与最近一些性能最好的跟踪器进行了比较。在0 TB-100上,FC 0 S-MAML和RetinaNet-MAML 分别实现了0.704和0.712的显著AUC评分。据我们所知,Retina-MAML是OTB上性能最好的跟踪器。视网膜−MAML [0.712]FCOS−MAML [0.704]SiamRPN ++[0.696]ECO [0.691]SPM [0.687]DiMP [0.686]生命[0.682]MDNet [0.678]原子[0.667]MetaTrader 5[0.658]视网膜−MAML [0.926]生命[0.918]SiamRPN++[0.915]ECO [0.910]MDNet [0.909]FCOS −MAML [0.905]SPM [0.899]DiMP [0.899]MetaTrader 5[0.880]原子[0.879]成功率精度在线cls reg.OTB-100(AUC)VOT-18(EAO)TrackingNet(AUC)LaSOT(AUC)速度(FPS)C0.6710.6900.3410.3940.7430.7470.5110.5238558CC0.7040.3920.7570.496426295TrackingNetAUC N-精密度LaSOT试验AUCC-RPN [9]0.6690.7460.455SiamRPN++[20]0.7330.8000.496SPM [36]0.7120.7790.471原子[6]0.7030.7710.515DiMP-18 [3]0.7230.7850.532DiMP-50 [3]0.7400.8010.569FCOS-MAML0.7570.8220.523Retina-MAML0.6980.7860.480表6:TrackingNet和LaSOT上的SOTA跟踪器的比较。我们给出了成功图的AUC和归一化精度(N-prec.)。表4:在OTB数据集上与SOTA跟踪器的比较。跟踪器分为基于CF的方法、基于暹罗网络的方法、基于元学习的方法和其他方法。红色和蓝色的数字分别是最好和第二好的结果EAO精度稳健性DRT [33]0.3560.5190.201SiamRPN++[20]0.4140.6000.234[4]0.3780.5360.184LADCF [40]0.3890.5030.159原子[6]0.4010.5900.204DiMP-18 [3]0.4020.5940.182DiMP-50 [3]0.4400.5970.153FCOS-MAML0.3920.6350.220Retina-MAML0.4520.6040.159表5:在VOT-2018上与SOTA跟踪器的比较。我们的追踪器中使用的主干是ResNet-18。在此表中,Meta-Tracker和UnifiedDet是两个最新的跟踪器,它们也使用MAML来辅助在线培训。与它们相比,我们的跟踪器在AUC上实现了超过8%的第一次,基于元学习的方法被证明是非常有竞争力的主流解决方案。OTB-100上的详细六、VOT评价:我们的跟踪器在VOT- 2018基准测试中进行了测试[19],并与六个SOTA跟踪器进行了比较。我 们 遵 循 官 方 评 估 协 议 , 并 采 用 预 期 平 均 重 叠(EAO),准确性和鲁棒性作为指标。结果见表5。Retina-MAML 在 EAO 标 准 上 达 到 了 最 高 的 性 能 ,FCOS-MAML也表现出了很强的性能。有趣的是,FCOS-MAML在所有跟踪器中具有最高的准确性我们在图中观察到类似的现象。6为OTB数据集。当重叠阈值大于0.7时,FCOS-MAML获得这表明无锚检测器可以预测非常精确的边界框。对LaSOT和TrackingNet的评价:TrackingNet[26][10][11][12][13][14][15][16][17][18][19][1sun跟踪这两个数据集的评价结果详见表6。结果表明,FCOS-MAML对SOTA跟踪器表现良好,尽管其中许多使用更强大的主干ResNet-50。与使用与我们相同骨干网络的最新DiMP-18跟踪器相比,FCOS-MAML在TrackingNet上显示出显著的增益,在LaSOT上略有损失。我们怀疑我们直接的在线更新策略可能不适合LaSOT中常见的非常长6. 结论在本文中,我们提出了一个三步的程序,将一个一般的目标检测器到跟踪器。离线MAML训练为检测器的快速自适应和有效的在线更新做好准备。结果实例检测器是一个优雅的无模板跟踪器,它充分受益于对象检测的进步。虽然这两个构建的跟踪器在具有短视频的数据集中实现了与SOTA跟踪器的竞争性能,但它们在LaSOT上的性能仍有改进的空间。在未来,我们计划研究长序列的在线更新策略。跟踪器AUCOTB-2013评分(OPE)OTB-100速度(FPS)CFNet [35]0.6110.5300.56875BACF [17]0.6560.5700.62135ECO-hc [7]0.6520.5920.64360MCCT-hc [37]0.664-0.64245ECO [7]0.7090.6480.6878RTINet [42]-0.6370.6829MCCT [37]0.714-0.6958SiamFC [2]0.6070.5160.58286新加坡[11]0.6770.6100.65750RASNet [38]0.670-0.64283SiamRPN [21]0.6580.5920.637200C-RPN [9]0.675-0.66323SPM [36]0.6930.6530.687120SiamRPN++[20]0.6910.6620.69635[29]第二十九话0.6840.6270.658-[41]第四十一话0.6420.6100.62650UnifiedDet [1]0.656-0.6473MLT [5]0.621-0.61148[22]第二十二话0.6700.5970.63980MDNet [28]0.7080.6450.6781[32]第三十二话0.7100.6570.6822原子[6]-0.6280.67130DiMP [3]0.6910.6540.68443FCOS-MAML0.7140.6650.70442Retina-MAML0.7090.6760.712406296引用[1] Antreas Antoniou,Harrison Edwards,Amos Storkey.如何训练你的妈妈。arXiv预印本,2018年。[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV,第850-865页,2016年。[3] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在ICCV,2019年。[4] Goutam Bhat , Joakim Johander , Martin Danelljan ,Fahad Shahbaz Khan,and Michael Felsberg.揭示深度追踪的力量。在欧洲计算机视觉会议(ECCV)的会议记录中,第483-498页[5] Janghoon Choi、Junseok Kwon和Kyoung Mu Lee。用于实时目标感知视觉跟踪的深度Meta学习。在ICCV,第911-920页[6] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.原子:通过重叠最大化进行精确跟踪在CVPR中,第4660-4669页[7] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. Eco:用于跟踪的高效卷积算子。在CVPR中,第6638-6646页[8] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Sijia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling. Lasot:用于大规模单个对象跟踪的高质量基准。在CVPR中,第5374-5383页[9] 范恒和凌海滨。用于实时视觉跟踪的Siamese级联区域投影网络在CVPR中,第7952-7961页[10] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML,第1126-1135页[11] Anfeng He , Chong Luo , Xinmei Tian , and WenjunZeng.用于实时目标跟踪的双重连体网络。在CVPR中,第4834-4843页[12] Lianghua Huang, Xin Zhao, and Kaiqi Huang. Got-10k:用于野外通用对象跟踪的大型高多样性基准测试arXiv预印本arXiv:1810.11981,2018。[13] Lianghua Huang,Xin Zhao,and Kaiqi Huang.弥合侦查与跟踪之间的差距:统一的方法。在ICCV,第3999-4009页[14] 蒋博瑞,罗瑞轩,毛嘉源,肖特特,蒋云英获取用于精确对象检测的定位置信度在ECCV,第784-799页[15] Ilchae Jung 、 Jeany Son 、 Mooyeol Baek 和 BohyungHan。实时mdnet。在ECCV,第83-98页[16] Ilchae Jung , Kihyun You , Hyeonwoo Noh , MinsuCho,and Bohyung Han.通过元学习进行实时对象跟踪:高效的模型自适应和一次性通道修剪。arXiv预印本arXiv:1911.11170,2019。[17] Hamed Kiani Galoogahi Ashton Fagg Simon Lucey学习用于视觉跟踪的背景感知相关滤波器。在ICCV,第1135-1143页[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[19] Matej Kristan , Ales Leonardis , Jiri Matas , MichaelFels- berg , Roman Pflugfelder , Luka Cehovin Zajc ,TomasVojir , GoutamBhat , AlanLukezic ,Abdelrahman Eldesokey , et al. The sixth visual objecttracking vot20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功