弥合检测和跟踪之间的差距：一个统一的方法

91 浏览量更新于2023-10-12 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3999弥合检测和跟踪之间的差距：一个统一的方法Lianghua Huang1，2 Xin Zhao1，2 * 黄凯琪1，2，31中国科学院自动化研究所CRISE2中国科学院大学，中国3中国科学院脑科学与智能技术卓越中心，中国北京huanglianghua2017@ia.ac.cn，{xzhao，kqhuang}@ nlpr.ia.ac.cn摘要在过去的十年中，目标检测模型已经成为许多检测跟踪算法的一个重要来源。最近的深度跟踪器借鉴了最新的对象检测方法的设计或模块，例如边界框回归，RPN和ROI池，并且可以提供令人印象深刻的性能。在本文中，而不是重新设计一个新的检测跟踪算法，我们的目标是探索一个通用的框架，直接在几乎任何先进的目标检测器上构建跟踪器。为此，必须弥补三个关键差距：（1）目标检测器是类特定的，而跟踪器是类不可知的。(2)对象检测器不区分类内实例，而这是跟踪器的关键功能。(3)节奏线索是重要的稳定长期跟踪，而他们不考虑在静止图像检测器。为了解决上述问题，我们首先提出了一个简单的目标引导模块，用于引导检测器定位目标相关的物体。然后，采用元学习器的检测器快速学习和适应的目标分心分类器在线。我们还引入了一个锚定的更新策略，以减轻过拟合的问题。该框架分别在SSD [40]和FasterRCNN[15]（典型的一级和两级检测器）上实例化。OTB，UAV123和NfS上的实验验证了我们的框架，并表明我们的跟踪器可以从更深的骨干网络中受益，而不是许多最近的跟踪器。1. 介绍视觉对象跟踪是指在视频中顺序定位指定运动对象的任务，仅给定其初始状态。它目前是计算机视觉的一个活跃研究领域，近年来取得了重大进展[57，31，30，12]。然而，由于诸如对象交互等几个因素*通讯作者干扰、杂乱背景、遮挡和目标变形[43，24]。在复杂场景中精确定位指定对象以及区分不同对象对于跟踪至关重要，同时，在对象检测领域中广泛研究了跟踪[15，37，39]。实际上，目标检测算法已经成为许多流行跟踪器的核心。例如，相关滤波器先前应用于对象检测（例如，UMACE [41]和ASEF [6]），后来进行了改进并适用于跟踪[5，22，23，9，8]。类似的示例包括MD-Net[45，26]和GOTURN [21]中使用的边界框回归[13，49]， Struck [17]中应用的结构化输出SVM [4]，SiamRPN [34，59，32]中使用的区域建议网络[15]以及ATOM跟踪器[7]中使用的精确ROI池[25检测模块可以在更高的定位精度[13，25]和/或对遮挡和背景杂波的更好的可辨别性[4，6，15]方面改进跟踪器这项工作的目标不是重新设计一个新的基于检测的跟踪器。相反，我们想探索一个简单而通用的框架，用于在先进的深度探测器上构建跟踪器。我们这样的框架工作的动机有三个方面：1）检测算法专门用于精确定位和区分复杂场景中的对象，这可能会导致更准确和鲁棒的跟踪器。2)重用检测模型减少了跟踪中的重复工作，从而可以更专注于跟踪特定的问题，如目标域适应性和时间依赖性。3)这样的框架潜在地使能多任务模型，即，视觉目标的联合检测和跟踪，这是接近行业的需求。然而，制定这样一个框架并不简单，必须解决几个问题。首先，对象检测仅适用于特定类别，而跟踪器应该跟踪任意移动对象[30，24]。其次，检测器不能区分类内实例，然而，这是鲁棒跟踪器的关键能力。最后，视频中的时间线索对于稳定跟踪很重要，而它们不是4000信箱掩码引导目标检测逐元素产生式深度级连接示例图像示例特征框类查询特征调制特性查询图像传统目标检测(a)（b）第（1）款图1：（a）我们的检测跟踪框架的整体架构。该体系结构由两个分支组成，一个用于生成目标特征作为指导，另一个是普通的对象检测器。这两个分支通过目标引导模块（TGM）桥接。蓝色虚线表示传统的对象检测过程，而红色箭头表示所提出的引导对象检测的过程。(b)TGM的轮廓。该模块的输入是样本和搜索图像特征，并且其输出并入有目标信息的调制特征图。后续检测过程保持不变。注意，（a）中的检测模型几乎可以被任何现代目标检测器所取代。在对象检测方法中考虑。为了解决上述问题，在这项工作中，我们认为跟踪作为一个联合任务的单镜头目标检测和少数镜头实例分类。前者是一个类级别的子任务，发现所有目标样的候选人，而后者是一个实例级别的子任务，区分目标从distractor。我们提出了一种用于一次性对象检测的目标引导模块，该模块构建在由骨干网络和几个顶层（即，检测头和可选的建议和ROI池化层）。该模块对目标和搜索区域特征以及它们在骨干网络中的相互作用进行编码，作为引导，以将基本检测器集中在一小组目标状物体上。在第二子任务中，将学习实例分类器以区分目标和检测到的干扰物。然而，在这样小的样本集上直接训练分类器将导致显著的过拟合。在本文中，我们介绍了模型不可知元学习（MAML）[14，1]算法，用于解决少镜头学习问题。MAML学习敏感的初始参数，可以快速适应新的任务，只需几个样本和几次训练迭代。简而言之，它学会了微调。我们发现检测器注意，以这种方式，仅需要一次引导检测来过滤掉类间和类内干扰项。图1概述了整个框架，其中基本检测器可以被几乎任何现代对象检测算法所取代。在本文中，我们实例化了基于SSD [40]和FasterRCNN [15]的框架，分别是典型的一级和二级检测器。相应的跟踪模型如图3和图4所示。对于SSD，由于检测是在具有不同分辨率的多个层上执行的本文的主要贡献总结如下。• 据我们所知，我们提出了第一个通用框架，用于在基于深度学习的对象检测器上构建通用对象跟踪器。• 我们建议考虑跟踪作为一个联合任务的一次性目标检测和少数拍摄实例分类，我们提出了一个有效的目标制导模型，规则和元学习者来处理各自的子任务。• 我们开发了一种新的锚定更新策略，以避免在线学习过程中的模型漂移。• 我们在OTB [57]，UAV123 [42]和NfS [28]基准上测试我们的模型，并报告最先进的跟踪性能。我们的消融研究还表明，我们的方法可以受益于更深的主干网络，而不是许多最近的深度跟踪器[3，34]。2. 相关作品物体检测。目标检测是将图像中的目标定位并分类到一组预定义的类别[11，13，40，15，39]的任务。最先进的方法基于深度神经网络，其中通常采用在ImageNet [10]上预训练的卷积神经网络（CNN）作为骨干架构。对于一级检测器[47，40，37]，附加的卷积层被附加到执行对象类别和位置的密集预测的主干对于两级检测器[15，19]，4001内部优化循环反向传播支持图像示例图像查询图像外部优化循环图2：我们的培训流程概述在训练阶段，我们从视频帧中采样样本，支持和查询图像的三元组每个三元组按时间顺序从同一视频中采样。我们以样本图像为指导，对支持图像和查询图像进行检测。在支持图像上计算的损失用于微调元层（即，检测器的头），我们希望更新后的模型，以推广和执行良好的查询图像，这是通过反向传播我们的模型的所有参数的基础上查询图像上的损失。红色箭头表示优化期间的反向传播路径内部优化循环仅更新头层参数，而外部优化循环更新架构中的所有参数。首先将区域建议网络（RPN）应用于生成的类不可知对象候选，然后从特征图中独立地裁剪每个候选，并将其馈送到头层中以估计其类和位置。由于浅CNN层和深CNN层具有互补的表示，即，位置感知和语义特征，它们通常在最近的方法中联合用于检测[40，37，36]。对象检测模型是在大型图像数据集上训练的，一旦训练好，模型就只能对特定的类进行检测。另一方面，我们的方法将检测算法推广到具有单次注释样本的。通过检测进行跟踪。由于这两个任务之间的高度相关性，在过去的几十年里，许多跟踪方法都是由目标检测模型驱动的。它们包括跟踪-学习-检测（TLD）[27]、基于相关滤波器的跟踪器[5，22，23，24，25]、基于相关滤波器的跟踪器[5，22，23，24]、基于相关滤波器的跟踪器[ 5，22，23]、基于相关滤波器的跟踪器[5，22，23，24]。9，8]，结构化输出跟踪[17]，siamese回归网络[21]、暹罗区域建议网络[34，32]和通过重叠最小化的跟踪[7]，仅举几例。采用对象检测算法中的模块和设计来提高准确性（例如，边界框[21，45，34]中使用的回归）和/或增强稳定性（例如，在[27]中使用的重新检测机制）的跟踪。在这项工作中，而不是重新设计一个新的跟踪检测算法，我们的目标是探索一个通用框架的可能性，用于构建跟踪器上的深度检测器，从而促进模块的可重用性和跟踪特定问题的重点研究。少拍学习。少样本学习的目标是学习通用的表示，可以转移到新的任务，只有少数样本。有几种关于少数学习的范例，包括度量学习[29，51，52]，网络参数预测[55，2]，学习梯度更新的递归神经工作[44，48]和学习微调[14，35，1，46]。我们的工作是最相关的学习微调基于方法，即。模型不可知的Meta学习（MAML）算法[14，1]。MAML学习敏感的初始网络参数，这些参数可以在新任务中快速微调，只需几个样本和几次迭代。我们选择MAML是因为它的简单性，它可以在不同的模型上工作，而不需要改变它们的架构。4002b=13. 该方法3.1. 概述在这项工作中，我们提出了一个通用的框架，用于在由两个组件组成的探测器上构建跟踪器：1）目标引导模块，其引导基础检测器找到目标相关对象;以及2）将目标与周围干扰物区分开的少量实例分类器。具体而言，所提出的目标引导模块编码目标和搜索区域特征以及它们在主干中的相互作用，同时保持剩余的检测过程不变。另一方面，基于模型不可知的Meta学习（MAML）算法开发了少量分类器[14，1]。MAML学习敏感的初始参数，快速微调，从只有几个样本。在我们的例子中，我们使用检测器的分类头作为初始实例分类器，并从大量训练数据中学习对特定目标进行微调。在这种方式中，少次学习模块不向检测器添加新的参数，并且在测试期间，需要一次引导检测来过滤掉类间和类内的干扰。我们的框架的整体架构如图1所示，而其训练过程如图2所示。在训练阶段，我们从视频帧中采样三元组用于模型优化。每个三元组由按时间顺序从视频中采样的三个裁剪图像组成，即样本图像、支持图像和查询图像。前模板图像代表目标引导，告诉探测器支持图像用于微调检测器的分类头，如上一段所述，我们期望更新后对支持图像进行微调称为内部优化循环，而对查询图像进行优化称为外部优化循环。由于内部和外部优化是在不同的帧上进行的我们的模型的训练过程如图2所示，其中完整的框架可以从端到端进行训练。本节的其余部分组织如下。第3.2节和第3.3节分别描述了我们的目标引导模块和少拍学习器。第3.4节详细介绍了在线跟踪过程，我们在第3.5节中介绍了基于SSD [40]和FasterRCNN [15]的框架的两个实例。3.2. 目标引导物体检测我们介绍了一个目标引导模块的一次性目标检测是可插拔的，在这个意义上说，它不会改变其基地检测器的整体架构的骨干后续检测程序保持不变。具体来说，该模块首先对目标特征执行ROI池化，然后是卷积层将输出转换为大小为C×1 ×1的调制器，其中C是特征通道的数量;则调制器是用于对搜索图像的特征通道进行重新加权。然后，原始和调制的搜索区域特征以及上采样的目标全局表示被连接起来，然后被馈送到1×1卷积层以合并特征。以这种方式，骨干网络对目标和搜索区域特征以及它们的相互作用进行编码，为后续检测提供足够的信息。模块的结构如图1（b）所示。我们采用与基本检测器相同的损失函数，即，用于分类的交叉熵损失和用于边界框回归的平滑 L1损失[40，15]。损失在RPN（用于一级和二级探测器）和可选ROI层（用于二级探测器）的输出上计算。我们使用在线硬否定挖掘（OHNM）[40，15]来加速训练和提高性能。注意，对于两阶段检测器，由于我们在RPN阶段更加强调召回率，并将区分延迟到ROI层，因此在计算RPN的分类损失时，我们使用3：13.3. 用于领域自适应的少镜头学习虽然第3.2节中提出的目标引导模块可以将检测器聚焦在目标相关对象上，但我们在早期实验中发现，该模块仍然难以区分这些检测到的对象。我们假设的主要原因是，周围的负面没有考虑在指导，从而削弱了-ing的可辨别性的检测器。为了弥补这一点，我们建议在小样本集上显式学习分类器。然而，从头开始直接训练这样的小数据是耗时的，并且可能导致严重的过拟合。相反，在这项工作中，我们使用少量学习来解决这个问题[14，35，29]，其目的是从大型训练数据中学习可转移的知识，这些知识可以推广到只有少数样本的新任务。具体来说，我们采用模型不可知的 Meta 学习（ MAML ）算法 [14] 来训练目标 -干扰物分类器。MAML学习网络初始化，可以在新的、看不见的任务上快速微调，只需几个训练样本和几次迭代。简而言之，它学会了微调。具体到我们的模型，我们发现检测器在训练模块将目标和搜索区域特征作为输入，阶段，我们采样三元组{zb，sb，qb}B从视频帧，并且输出与检测器的4003i−1NN22212060222示例图像VGG-161206030030019191024191910241010512附加要素图层查询图像L1 L2 L3图3：我们的框架在SSD上的实例化[40]。我们采用SSD与VGG-16 [50]作为骨干。原始SSD在6个不同的卷积层上执行对象检测，增加了接收场，每个卷积层负责特定大小的对象。在我们的工作中，我们只使用它的前3个骨干层，在图中表示为L1，L2和L3目标引导模块附加到每一层，具有与感受野一致的增加的引导图像分辨率运算符E1、E2和E3表示在L1、L2和L3层提取特征从视频中按时间顺序采样的图像，即样本图像、支持图像和查询图像。对于具有元参数θ的引导检测器hθ，我们期望学习初始θ=θ0，使得在支持集（zb，sb）上进行N步梯度更新以获得θN之后，检测器在查询集（zb，qb）上表现良好。第i个梯度更新步骤（zb，sb）可以表示为：θb=θb−α<$θL（z，s）（hθb），（1）不同的样本（分别为支持集和查询集），从而确保了微调的泛化能力。图2显示了训练过程的概述。我们在实验中发现，在跟踪过程中对分类头和回归头进行微调会比调整分类头带来更好的性能，同时只会略微增加计算成本。第4.2节提供了详细的定量分析。在这种情况下，上述公式中的θ表示pa。ii−1Bbi−10探测器头层的半径。我们直接雇用其中α表示学习率，L（zb，sb）（hθb）是优化θ 0的探测器损耗。由于这些设置在支持集（zb，sb）上计算的损失，经过（i-1）步，梯度更新在我们的例子中，L（zb，sb）是分类损失。我们可以将元损失定义为：ΣB与大多数基础探测器直接兼容，COM-可以从端到端训练完整的框架，其中在内部和外部优化循环期间仅更新θ0，而检测器的其他参数仅在以下期间更新：LMeta（θ0）=L（z，q）（hθb（θ）），（2）执行外部优化循环。BBN0i=1其中我们明确地表示了 θb 对 θ0 的依赖性。 Lmeta（θ0）根据在批处理中的所有三元组上使用初始化的总损失来测量θ 0的质量。元参数Θ〇的所得更新可表达为：ΣBθ0=θ0−βθL（zb，qb）（hθb（θ0）），（3）b=1其中β表示θ 0的学习率，L（zb，qb）是查询集（zb，qb）上的损失。我们参考Eq。（1）作为内优化循环，而Eq.（3）作为外优化循环。由于微调和损失评估是在3.4. 在线跟踪方法在线学习。在跟踪过程中，我们采用3.3节中描述的少镜头学习算法来在线适应引导检测模型。具体地，使用等式更新探测器的头部参数。（1）在第一帧以及对于具有在线收集的样本的每T帧。由于少样本学习器从少量数据中学习到快速在第一帧处，我们使用随机水平翻转和随机裁剪来生成16个训练样本，并且用N1 =5次训练迭代来微调检测器对于其他帧，每帧收集一个训练样本，并且在更新期间，我们使用Nr=1次训练迭代来调整模型。检测结果38385124004示例图像RoIAlign类框查询图像图4：我们的框架在FasterRCNN上的实例化[15]。样本和查询图像被送入主干，并使用目标引导模块桥接，而随后的区域建议和ROI分类和回归过程保持不变。我们使用VGG [50]或ResNet [20]作为主干来评估模型。锚定更新。尽管较小的Nr被设置用于在线更新，但是仍然存在过拟合的风险，因为在元学习者的离线训练阶段期间，从未确保连续学习的泛化能力因此，我们引入锚定更新策略来消除由锚定损失引起的过拟合[33]。具体地，在第一帧处学习的参数，即，θ1=f（θ0;z1，s1）其中f（θ;z，s）=θ−αθL（z，s）（hθ），在整个跟踪过程中被存储。当在步骤t进行微调时，更新的参数θt被定义为来自最后一个校验点θt-1以及来自初始参数θ0的更新的组合：θt=λf（θ0;zt，st）+（1−λ）f（θt−1;zt，st）。（四）我们称θ0为锚参数。通过Eq。4、在线优化时锚定参数具有固定的权重，从而减轻了过拟合问题。目标定位。我们使用检测输出搜索目标位置。具体而言，对于非最大值抑制（NMS）之前的检测结果，我们使用余弦窗口对位置变化进行了归一化，并使用非归一化拉普拉斯函数[34]对尺度和纵横比变化进行了归一化典型目标检测模型的框架：[40]和FasterRCNN [15]。SSD是一种单阶段对象检测器，它利用单个完全卷积网络来预测密集空间位置处的对象类别和边界框。相比之下，FasterRCNN是一个两阶段的对象检测器。它首先使用区域建议网络（RPN）生成类不可知的对象建议，然后这些建议从特征图中准确裁剪并馈送到另一个网络以预测它们的类和精确位置。我们基于SSD的跟踪器如图3所示。我们使用VGG-16 [50]作为主干。原来的SSD检测对象在6个不同的骨干层与增加的感受野，每个负责检测一个特定范围的大小的对象在这项工作中，我们只使用前3个骨干层，基本对象的大小范围从30，60到111像素。为了引入上下文信息，我们将样本图像裁剪为目标大小两倍的正方形。然后我们将其重新缩放为三种不同的分辨率选项，即，60×60、120×120和222×222根据SSD的基本尺寸。调整大小的范例图像是在不同的主干层上用作检测器搜索区域设置为目标大小的5倍，并调整为300×300。我们使用三个目标引导模块在多个层次上桥接样本和检测器。psr- -一种|dr+ds−1|=eσ，（5）在内部优化循环期间（参见第3.3节），仅更新探测器其中DR和DS表示纵横比和比例变化，而σ是设置为0的缩放因子。55在我们的实验中。我们根据它们的重新加权得分对检测进行排名，并找到最佳检测结果B*。目标中心被更新为B的中心，而目标大小以0的学习率平滑地更新为B。二百七十五3.5. SSD和FasterRCNN上的恢复虽然我们的模块是通用的，适用于不同的对象检测器，在本文中，我们实例化我们的基于FasterRCNN的跟踪器如图4所示。除非在消融研究中另有规定，否则我们使用ResNet-50 [20]作为其骨干。搜索区域是目标大小的5倍，并重新缩放为480×480。样本在-age是目标大小的两倍，并重新缩放为192 ×192。目标引导模块获取样本并搜索区域特征作为输入，并输出与FasterRCNN骨干网络大小相同的特征图。其余检测程序保持不变。在内部优化循环期间，仅对RoI头层的参数进行优化。4005表1：我们的方法中的每个组件对OTB-2013数据集上的跟踪性能。我们比较了几次学习和蛮力梯度去，表 3 ： OTB-2013 和 OTB-2015 数据集在曲线下面积（AUC）指标方面的最新比较。”““然后，然后，评估锚定更新的有效性ing方案，微调边界框回归头部和多分辨率引导图像。基线没有Anch。没有注册无多-（SSD）GD更新FinetuningRes.AUC0.6370.551 0.6120.6090.629OP0.8130.698 0.7800.7730.807表2：骨干网络对跟踪性能的影响，在OTB-2013上评估。结果表明，从VGG-16到ResNet-50，我们的跟踪性能随着网络深度的增加而提高，而使用ResNet-101进一步增加网络深度并没有带来改善。VGG-16ResNet-34ResNet-50ResNet-101AUC0.6390.6470.6560.642OP0.7930.8100.8290.825很好的协调。4. 实验我们在四个具有挑战性的数据集上对提议的跟踪框架进行了全面评估：2013 [56]和2015 [57]版本的目标跟踪基准（OTB），UAV 123 [42]和Need for Speed（NfS）[28]。我们还进行了实验，以分析我们的组件的有效性，以及网络深度对跟踪性能的影响。4.1. 实现细节训练基础检测模型使用在COCO数据集上预训练的权重进行初始化[38]。然后，我们使用GOT-10 k [24]数据集训练我们的引导模型，这是最近提出的跟踪数据集，由大约10，000个视频组成，属于560多个对象类。优化. 我们采用随机梯度下降（SGD），一批中有32个三元组来训练我们的模型。整个架构从端到端训练了50，000次迭代，学习率从0.01到0.0005呈指数衰减内部优化循环的学习率由方程式（1）α=0。05.我们使用5×10−4表示权重衰减，0。九是动力。我们的跟踪器是用Python实现的，使用PyTorch。我们基于SSD的跟踪器运行在NVIDIA GTX-1080 GPU上的速度超过10 fps，而基于FasterRCNN的追踪器与ResNet-50主干的速度为3fps。表4：在曲线下面积（AUC）指标方面，UAV 123和NfS数据集的最新UAV123NFSSiamFC [3]0.523-SiamRPN [34]0.571-[59]第五十九话0.5840.395ECO [8]0.5370.470我们的（SSD）0.5310.491我们的（FRCNN）0.5860.5154.2. 消融研究我们研究了第3节中提出的各种设计选择的影响。该分析是在OTB-2013 [56]数据集上进行的，该数据集由51个跟踪视频组成。我们基于重叠精度（OP）和曲线下面积（AUC）度量来评估追踪器。OPτ定义为边界框重叠大于阈值τ的成功跟踪帧的百分比，而AUC定义为∫1AUC=0 OPudu. 我们使用τ = 0。5在下面的OP评价少拍学习。我们将我们在3.3节中介绍的少次学习算法与用于模型微调的暴力梯度下降（GD）方法进行了比较。对于GD，我们在从OTB-2015中采样的10个视频的验证集上使用不同的迭代和学习速率进行测试，这些视频与OTB-2013不重叠，并找到具有最高AUC的最佳设置用于评估。表1列出了结果。与我们的基线相比，采用GD的跟踪器将AUC评分降低了8.6%。这证明了我们学习的微调的有效性，它比暴力GD更好地推广。我们还可以从表1中得出结论，与微调分类头相比，更新分类和边界框回归层两者导致更好的性能。OTB-2013OTB-2015SiamFC [3]0.6070.582CFNet [53]0.6110.568DSiam [16]0.656-RASNet [54]0.6700.642SiamRPN [34]-0.637[59]第五十九话-0.658[18]第十八话0.6770.657ECO [8]0.7090.694[第58话]0.6420.626我们的（SSD）0.6370.620我们的（FRCNN）0.6560.6474006锚定更新。我们比较了有和没有锚定更新的跟踪器。表1显示，引入锚定更新显著提高了我们的跟踪器的AUC约2.5%和OP 3.3%，这验证了我们的锚定更新机制的有效性。引导图像。当在具有不同分辨率的多个骨干层上执行对象检测时，如在SSD[40]中，我们将目标引导模块附加到每个层。我们比较了使用多个大小的指导图像，这是一致的层的感受野，使用相同大小的指导图像在所有层的性能性能比较如表1所示。通过比较基线结果与多项研究结果。我们发现，使用不同的样本大小可以提高AUC和OP方面的性能。主干网络深度。我们使用越来越深入的不同骨干网络测试基于FasterRCNN的跟踪器。评估了四个主链，包括VGG-16 [50]，ResNet-34，ResNet-50和ResNet-101[20]。我们用不同的骨干重新训练跟踪器，并在OTB-2013上评估性能结果见表2。配备ResNet-50主干的跟踪器的性能明显优于VGG-16和ResNet-34，尽管深入到ResNet-101并没有带来进一步的改进。这表明我们的模型可以从更深的网络中受益，这与许多最近的深度跟踪器[8，3，34]相反，其中引入更深的网络会导致类似甚至更差的性能。4.3. 最新技术水平比较我们总结了配备SSD和FasterRCNN（在表3和表4中表示为FRCNN）检测器的跟踪器与四个具有挑战性的跟踪数据集上的最先进方法的比较OTB2013 [56]：数据集由51个视频组成，使用AUC（第4.2节中介绍）评价性能表3显示了结果。SiamFC采用siamese全卷积网络在目标和候选之间执行密集的com-cumulative，而SiamRPN则通过密集的边界框回归对其进行扩展。 SA-Siam是引入语义特征分支的两分支SiamFC。DSiam和RASNet扩展了SiamFC的动态更新机制和注意力模块，而CFNet则将Siamese结构与相关过滤器相结合。 ECO是一个基于相关滤波器的跟踪器，它利用多级特征和紧凑的滤波器，而MemTrack则基于长短期记忆网络进行在线学习。我们基于FasterRCNN的跟踪器实现了65.6%的AUC，与RASNet（67%）和DSiam（65.6%）相当，同时优于MemTrack和 SiamFC。OTB2015是OTB2013的扩展，它包含100个跟踪视频。表3中列出了OTB2015上最先进的跟踪器的比较。我们基于FasterRCNN的跟踪器实现了64.7%的AUC，比SiamRPN高出约1%，比MemTrack高出约2.1%。基于SSD的方法还实现了性能接近MemTrack。我们的跟踪器在OTB2013和OTB2015基准测试中的竞争性能验证了我们框架的有效性。UAV123 [42]：该数据集由从无人机平台捕获的123个空中视频组成。表4显示了结果。DaSiamRPN追踪器实现了58.4%的竞争性我们基于FasterRCNN的跟踪器实现了58.6%的AUC我们的SSD跟踪器还可以获得53.1%的AUC分数，这接近于更复杂的ECO跟踪器的性能。Need for Speed [28]：该数据集由100个使用高帧率相机拍摄的视频组成。我们在其30 FPS版本上评估结果示于表4中。ECO和DaSiamRPN分别实现了39.5%和47%的 AUC我们基于SSD的跟踪器在AUC上获得了2.1%的绝对增益，而基于FasterRCNN的跟踪器将ECO提高了4.5%。5. 结论我们提出了第一个通用框架，用于在基于深度学习的对象检测器上构建通用对象跟踪器。跟踪问题被分解成一个联合任务的单镜头目标检测和少数镜头实例分类。我们引入了一个轻量级的目标引导模块，用于一次性目标检测，该模块在检测器的主干中编码目标特征，同时保持后续检测阶段的完整性。对于第二个子任务，我们使用元学习算法来学习分类器在少量数据上的快速收敛。该框架旨在促进模块的可重用性，并将研究重点放在跟踪特定的问题上。我们在SSD和FasterRCNN上实例化的模型在四个具有挑战性的基准测试中显示了最先进的性能。我们在消融研究中进一步表明，我们基于FasterRCNN的跟踪器可以从更深的主干中受益。确认国家自然科学基金项目（批准号：2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 61602485号61673375）、国家重点研究发展计划（批准号：2016YFB1001005）和中国科学院项目（批准号：QYZDB-SSW-JSC006）。4007引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。arXiv预印本arXiv：1810.09502，2018。[2] 卢卡·贝尔蒂内托，约翰·阿托·F·恩里克斯，杰克·V·阿尔马德雷，菲利普·托尔和安德烈·韦达尔迪。学习前馈一次性学习器。神经信息处理系统进展，第523-531页，2016年[3] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。[4] Matthew B Blaschko和Christoph H Lampert。学习使用结构化输出回归定位对象。在欧洲计算机视觉会议上，第2-15页。Springer，2008.[5] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。2010年IEEE计算机协会计算机视觉和模式识别会议，第2544- 2550页。IEEE，2010。[6] David S Bolme，Bruce A Draper和J Ross Beveridge。合成精确滤波器的平均值。2009年IEEE计算机视觉与模式识别会议，第2105- 2112页。IEEE，2009年。[7] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪arXiv预印本arXiv：1811.07628，2018。[8] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在IEEE计算机视觉和模式识别会议论文集，第6638-6646页，2017年。[9] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。欧洲计算机视觉会议，第472-488页。施普林格，2016年。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[12] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。arXiv预印本arXiv：1809.07845，2018。[13] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[14] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017.[15] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[16] 青果、封维、策周、黄睿、王松。学习动态连体网络的视觉目标跟踪。 IEEEInternational Conference onComputer Vision，2017。[17] Sam Hare 、 Stuart Golodetz 、 Amir Saffari 、 VibhavVineet、Ming-Ming Cheng、Stephen L Hicks和Philip HSTorr。Struck ：使用内核的结构化输出跟踪。IEEEtransactionsonpatternanalysisandmachineintelligence，38（10）：2096[18] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。在IEEE计算机视觉和模式识别会议论文集，第4834-4843页[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[21] David Held Sebastian Thrun和Silvio Savarese学习使用深度回归网络以100 fps的速度进行跟踪。欧洲计算机视觉会议，第749-765页。施普林格，2016年。[22] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.利用核函数的检测跟踪的循环结构欧洲计算机视觉会议，第702-715页Springer，2012.[23] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.用核相关滤波器进行高速跟踪。IEEEtransactionsonpatternanalysisandmachineintelligence，37（3）：583[24] Lianghua Huang ，Xin Zhao ，and Kaiqi Huang. Got-10k：用于野外通用对象跟踪的大型高多样性基准测试arXiv预印本arXiv：1810.11981，2018。[25] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检

下载后可阅读完整内容，剩余1页未读，立即下载