目标感知深度跟踪算法的研究与优化

78 浏览量更新于2023-10-19 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1369目标感知深度跟踪李欣1马超2吴宝源3何振宇1杨黎明4，51哈尔滨工业大学深圳2上海交通大学人工智能研究所MoE人工智能重点实验室3腾讯人工智能实验室4加州大学默塞德分校5Google CloudAIxinlihitsz@gmail.comchaoma@sjtu.edu.cnwubaoyuan1987@gmail.comzhenyuhe@hit.edu.cnmhyang@ucmerced.edu摘要现有的深度跟踪器主要使用为表示的通用对象识别任务预先训练的尽管在许多视觉任务中取得了成功关键问题是在视觉跟踪中，感兴趣的目标可以是具有任意形状的任意对象因此，预先训练的深度特征在对任意形式的这些目标进行建模以将它们与背景区分开方面不太有效。在本文中，我们提出了一种新的方案来学习目标感知功能，0.70.680.660.640.620.60.58成功率（OPE）与OTB-2015数据集其可以比预先训练的深度特征更好地识别经历显著外观变化的目标。-0.5 0 0.5 1跟踪速度（101.5 2 2.5FPS）为此，我们开发了一个回归损失和排名损失，以指导目标活跃和规模敏感的功能的生成。我们根据反向传播的梯度来识别每个卷积滤波器的重要性，并基于用于表示目标的激活来选择目标感知特征。目标感知功能与视觉跟踪的暹罗匹配网络相大量的实验结果表明，该算法在精度和速度方面优于现有的方法。1. 介绍视觉跟踪是计算机视觉的基本问题之一，有着广泛的应用。给定第一帧中由边界框指定的目标对象这是具有挑战性的，因为-10的目标对象随时间经历显著的外观变化，并且可能暂时离开视场。在深度学习取得进展之前，传统的跟踪器主要包括：*通讯作者。图1. 跟踪精度与OTB-2015数据集上的速度。水平和垂直坐标分别对应于跟踪速度和AUC重叠比分数。的所提出的算法实现了良好的性能对国家的最先进的跟踪器。由特征提取模块和决策机制组成。最近最先进的深度跟踪器使用为对象识别任务预先训练的深度模型来提取特征，同时更加强调设计有效的决策模块。虽然各种决策模型，如相关滤波器[15]，回归器[14，35，38，37]和分类器[16，29，32]，被广泛探索，但对学习更具鉴别力的深度特征的关注要少得多。尽管现有的深度跟踪器具有最先进的性能当使用预先训练的深度特征作为目标表示时，可能会出现许多问题。首先，视觉跟踪中的目标可以是任意形式，例如，在预训练模型的训练集中看不到的对象或不包含该对象的一个特定部分，VITALECO STRCFCCOTMetaSDNetDAT数据库我们MCCT-HMCPFACT嵴DaSiamRPNECO-HCBACFDSiamMTRACACFNetSiamFC吻合钉成功率（AUC）X1370用于对象识别任务的ness信息。也就是说，来自通用图像的预训练CNN模型对感兴趣的目标对象是不可知的，并且在将其与背景分离方面效果较差。其次，即使目标对象出现在预训练模型的训练集中，从最后的卷积层中提取的深度特征也只保留高级视觉信息，这对于精确定位或尺度估计来说效率较低。第三、基础特征150100500-50-100-150-200-200-100 0 100目标感知功能150100500-50-100-150-200-200-100 0 100最先进深度跟踪器[29，35，36]需要高COM，作为来自预训练模型的深度特征的推定负载(a) 类内目标（行人）的分布。是高维的（见图1）。为了缩小这一差距，它是非常重要的，利用深的功能，特别是与目标对象的视觉跟踪。为了解决上述问题，我们提出了一个目标感知深度跟踪（TADT）模型。我们的工作基于以下观察。通过反向传播分类神经网络获得的gra-animation很好地表明了类特定的显着性[33]。通过使用全局平均池，梯度生成-500-50-100基础特征-100-50050100500-50-100目标感知功能-100-50050100由卷积滤波器产生的图像可以确定用于表示目标对象的滤波器的重要性。为了选择最有效的卷积滤波器，我们设计了两种类型的客观损失，以在第一帧中的预训练深度模型上执行反向传播。我们使用铰链损失将预先训练的深度特征回归到由高斯函数生成的软标签，并使用梯度来选择目标活动卷积滤波器。我们使用具有成对距离的排名损失来搜索尺度感知卷积滤波器。激活选定的最重要的过滤器是这项工作中的目标感知功能。图2显示了使用t-SNE方法的目标感知功能[27]。注意，目标感知深度特征在分离具有相同语义标签的不同目标对象方面比预先训练的深度特征更有效当我们利用一小组卷积滤波器来生成目标感知特征时，特征数量显著减少，这可以减少计算负载。我们将所提出的目标感知功能与Siamese匹配网络[2]集成，用于视觉跟踪。我们在五个基准数据集上评估了拟议的跟踪器，包括 OTB-2013 [45] ， OTB-2015[46]，VOT-2015 [19，20] ，VOT-2016 [18]和Temple Color-128 [24]。消融研究的广泛实验表明，所提出的目标感知特征在准确性和跟踪速度方面比暹罗跟踪器的预训练模型更有效本文的主要贡献概括如下：• 我们建议学习目标感知的深度特征用于视觉跟踪。我们开发了回归损失和排名损失，以选择最有效的卷积过滤器以生成目标感知特征。我们缩小了(b) 类间目标的分布。图2. 使用t-SNE方法的预训练分类CNN特征和目标感知特征。在这个例子中，我们从每个视频中随机选择20帧。图中的每个点表示一帧中的目标。(a)所有点都属于行人类，但在不同的视频中。目标感知特征对每个视频的类内差异更敏感，这对于区分目标和干扰物至关重要（b）不同颜色的点属于不同的物体类别。目标感知功能更有效地分离不同类别的对象，可用于删除不相关的过滤器并保留目标活动过滤器。预先训练的深度模型和用于视觉跟踪的任意形式的目标对象之间的间隙• 我们将目标感知功能与视觉跟踪的暹罗匹配网络相结合。目标-具有减少的特征数量的感知特征也可以加速暹罗跟踪器。• 我们广泛评估所提出的方法在五个基准数据集。我们发现暹罗追踪者与现有技术的方法相比，所提出的目标感知特征在有效性和效率方面表现良好。2. 相关工作视觉跟踪一直是一个活跃的研究课题在文献中。在下文中，我们主要讨论基于梯度的深度模型上的代表性深度跟踪器和相关问题深层追踪者。将深度学习模型应用于视觉跟踪的一个值得注意的问题是，训练样本有限，并且只有第一帧中目标对象的地面真实视觉外观可用。一Human7Human9路口Human7Human9路口鹿狗自行车鹿狗自行车1371另一方面，大多数现有的深度跟踪器使用针对特征表示的对象分类任务而预训练的深度模型。几个跟踪器[26，42]利用浅层和深层特征的互补特性来实现鲁棒性和准确性的能力。来自多个层的深层特征也被集成用于视觉跟踪[10，32，7，3]。然而，预先训练的深度特征的组合可能并不总是带来性能增益，这是由于不可见目标、不兼容分辨率和增加维度的问题，如Bhat等人所证明的。[3]的文件。另一方面，许多跟踪器[16，6，28，17，35，47，12]通过改进决策模型来开发，包括支持向量机，相关滤波器，深度分类器和深度回归器。Nam和Han [29]提出了一种多域深度分类器，结合硬否定挖掘，边界框回归和在线样本收集模块进行视觉跟踪。VITAL跟踪器[36]利用对抗学习来生成有效的样本，并通过成本敏感的损失来解决类不平衡问题然而，由于在线训练样本的有限性，这些模型在有噪声的情况下可能会偏离目标对象，并且需要很高的计算量。为了利用具有一般对象的数据集进行跟踪，许多基于暹罗的跟踪器[2，39，11，21，14]将跟踪视为匹配问题并学习相似性度量网络。通过比较初始目标模板和当前帧中搜索区域的特征来进行跟踪。一些跟踪器[44，52，13]已经通过引入注意机制来开发，以更好地匹配模板和搜索区域-S.虽然这些Siamese框架在大型视频数据集上进行了预训练，但成对训练样本仅告诉两个样本是否属于同一目标，而没有类别信息。也就是说，暹罗跟踪器不完全利用与特定目标对象有关的语义和对象信息。在这项工作中，我们从预训练的CNN中选择最具鉴别力和尺度敏感的卷积滤波器来生成目标感知的深度特征。所提出的特征增强了目标在语义和对象方面的区分性表示强度，这有助于Siamese跟踪框架在鲁棒性和准确性方面与最先进的方法相比表现良好基于代理的深度模型。开发了几种基于梯度的模型[49，33]，以确定CNN特征的每个通道在描述特定对象类时的重要性GCAM模型[49]通过沿特征通道计算加权和来生成类活动图，该加权和基于每个输入像素处的梯度指示属于给定类标签的相应重要性特征通道的权重是由所有梯度的全局平均池计算的在这个频道里。与这些使用分类损失的基于梯度的模型不同，我们专门为跟踪任务设计了回归损失和排名损失，以确定哪些卷积滤波器是活跃的，以描述目标并对尺度变化敏感。3. 目标感知功能在本节中，我们将介绍如何学习视觉跟踪的目标感知特征。我们首先分析了来自预训练分类深度模型的特征在此基础上，提出了目标感知特征模型，包括区分性特征生成模型和基于梯度回归和排序损失的尺度敏感特征生成组件。3.1. 预训练CNN对通用视觉识别有效的特征与对特定对象跟踪有效的特征之间的差距由以下问题引起。首先，预先训练的CNN特征对目标的语义和对象信息是不可知的，这些信息很可能不会出现在离线训练数据中。不同于其他视觉任务（例如，分类、检测和分割），其中用于训练和测试的类别是预定义的和一致的，在线视觉跟踪需要处理任何对象标签的目标。其次，预训练的CNN专注于增加类间差异，提取的深度特征对类内变化不敏感。因此，这些特征对于跟踪器准确估计尺度变化并将目标与具有相同类别标签的干扰物区分开第三，预先训练的深度特征被每个类别标签稀疏地激活（即，类间差异主要与几个特征通道有关），特别是在更深卷积网络中。当应用于跟踪任务时，只有少数卷积滤波器在描述目标时是活跃的。大部分卷积滤波器包含冗余和不相关的信息，这导致高计算负载和过拟合。图2显示了使用t-SNE方法[27]的预训练深度特征和拟议目标感知特征的分布。几种解释神经网络的方法表明，卷积滤波器在捕获类别级对象信息方面的重要性可以通过相应的梯度来计算[49，33]。在基于梯度的制导方法的基础上，我们构造了一个目标感知的特征模型，跟踪.给定具有输出特征空间X的预先训练的CNN特征提取器，可以基于信道重要性矩阵生成子空间X'，χ′=χ（χ; χ），（1）1372i、j图3. 所提出的算法的框架。该框架由一个通用的CNN特征骨干网络、一个目标感知模型和一个相关匹配模块组成。利用回归损失部分（即，岭损失）和排名损失部分，从预训练的CNN中选择具有目标活跃和尺度敏感信息的目标感知滤波器进行对象识别。相关匹配模块计算模板和搜索区域之间的相似性分数。分数图的最大值指示目标位置。其中，SNR是选择最重要信道的映射函数第i个通道的重要性通过下式计算基于其对拟合标签图的贡献，即，Lreg相对于输入特征Xin的推导。根据链式法则和Eq.3、回归的梯度G=GAPL（）、（2）斯塔兹岛损失计算如下：简体中文Xo（i，j）其中GAP（·）表示全局平均池化函数，L是设计损耗，zi表示输出特性= ×Xin （i，j）（四）第i个过滤器。对于视觉跟踪，我们利用回归损失（第3.2节）和排名损失（第3.3节）的gra-来提取目标感知特征。3.2. 通过回归在预先训练的分类网络中，每个卷积滤波器捕获特定的特征模式，并且所有滤波器构造包含不同对象性先验的特征空间训练好的网络主要根据这些过滤器的子集识别特定的对象类别。对于视觉跟踪任务，我们可以通过识别那些对目标区域有效而对背景无效的滤波器来获得与目标有关的对象信息。为此，我们将与目标中心对齐的图像块中的所有样本Xi，j回归到高斯标签图-i2+j2Y（i，j）=e2σ2，其中（i，j）是相对于tar的偏移。get，σ是内核宽度。为了提高计算效率，我们将问题表示为岭回归损失，Lreg=<$Y（i，j）−W<$Xi，j<$2+λ<$W<$2，（3）其中，ω表示卷积运算，W是回归量权重。每个过滤器的重要性都可以通过一般CNN目标感知离线数据一般CNNCorrConvConv脊损失秩损失梯度梯度间隙间隙1373Σ= 2（Y（i，j）−Xo（i，j））×W，i、j其中Xo是输出预测。用回归损失的梯度和Eq. 2.找到了能够区分目标和背景的目标主动滤波器。与预训练的深度特征相比，生成的特征具有以下优点。我们选择一部分特定于目标的过滤器来生成有区别的深度特征。这不仅消除了模型过拟合问题，而且减少了特征的数量。目标感知特征对于表示训练集中的任意目标或未见过的对象是有效的图4（c）通过对所有通道求平均值，可视化地比较了在有和没有回归损失的情况下学习的深度特征。3.3. 通过排名为了生成尺度敏感的特征，我们需要找到对目标尺度变化最活跃的过滤器。由于目标呈现不连续，因此目标的精确尺度很难计算，但我们可以通过一个模型来获得最接近的尺度，该模型可以告诉哪一个具有更接近的配对样本大小。因此，我们将问题表述为1374(a) 输入图像(b)Conv 4 -1 w/o和w/ ranking+回归损失(c)Conv 4 -3 w/o和w/回归损失（d）目标感知图4. 原始和学习的目标感知特征的可视化。通过对所有通道进行平均来生成可视化图像。每行从左到右是输入图像、没有和具有用于学习尺度敏感特征的排名和回归损失的预训练深度特征（Conv 4 -1）、没有和具有用于学习对象敏感特征的回归损失的预训练深度特征（Conv 4 -3）、以及总体目标感知深度特征。请注意，原始的预训练特征在描述目标时并不有效，而目标感知特征可以很容易地将目标与背景分离开来。排序模型，并将大小更接近目标大小的训练样本排序得更高。等级损失的梯度指示滤波器对尺度变化敏感的重要性为了便于实现，我们利用了一个平滑的近似排名损失[23]，定义如下：4. 跟踪过程图3显示了所提出的跟踪器的总体框架。我们将目标感知特征生成模型与Siamese框架集成，原因如下.L秩= log 1 +Σ（xi，xj）∈Σexp（f（xi）−f（xj）），（5）两个原因第首先，暹罗框架简洁，因为它通过比较目标和搜索区域的特征来执行跟踪。第二，暹罗框架可以突出拟议其中（xi，xj）是成对训练样本，大小与xi相比，xj更接近目标尺寸，f（x;w）是预测模型。此外，训练对的集合关于f（x）的L秩的导数计算为[23]：特征模型，因为其性能仅取决于特征的有效性。我们通过以下模块简要介绍跟踪过程。跟踪器初始化。拟议的跟踪框架Lrank=−1 Σf（x）{\displaystylef（x）}{\displaystylef（x）}包括预先训练的特征提取器，目标感知特征模块和连体匹配模块。预-f（x）L秩Ω训练的特征提取器在分类器上离线训练，其中，zi，j=zi−zj，zi是一个独热向量，第i个元素为1，其他元素为0。通过反向传播，特征可以通过以下方式计算：任务，目标感知部分仅在第一帧中训练在初始训练中，回归损失和排名损失部分分别进行训练，一旦网络收敛，我们就计算每个损失的梯度。利用梯度，特征生成模型选择Lrank= ×BRL等级=×W，（7）具有最高重要性的过滤器的固定数量s-xin埃克斯岛xinx in（xin）来自预先训练的CNN的核心最后的目标感知通过堆叠这两种类型的要素其中W是卷积层的滤波器权重在上述梯度的排名损失和方程。2、找到了对尺度变化敏感的滤波器。考虑到我们只需要目标对象的尺度敏感特征，我们结合回归和排名损失来找到对目标既活跃又对尺度变化敏感的过滤器。图4（b）通过对所有通道进行平均，直观地比较了使用和不使用所提出的模型生成的深度特征。1375filters.考虑到标量差异，这两种类型的特征通过除以它们的最大通道总和（一个通道中的所有值的总和）来重新缩放。在线检测。在推理阶段，我们使用目标感知特征直接计算初始目标与当前帧中搜索区域之间的相似性分数。这是通过卷积运算（即，Siamese框架中的相关层）和输出-1376这是一张反应地图。响应图中的值指示其对应位置是真实目标的置信度。给定初始目标x1和当前帧中的搜索区域zt，帧t中的预测目标位置计算为：p=argmaxχ′（x1）χ′（zt），（8）p其中 * 表示卷积运算。规模评价。为了评估目标的尺度变化，我们固定模板的大小，并将当前帧中搜索区域的特征图重新缩放为更小、更大和固定的特征图。在跟踪过程中，所有这三个特征图与目标模板进行比较。通过查找包含最高响应的分数图来执行尺度评估5. 实验结果在本节中，我们首先介绍了所提出的跟踪器的实现然后，我们在五个基准数据集上对所提出的算法进行了评估，并将其与最先进的方法进行了比较。此外，我们进行消融研究，以分析每个模块的有效性源代码和更多结果可以在 https ： zn.github.io/TADT-project-page/上找到。5.1. 实现细节我们在Matlab中使用MatConvNet工具箱[41]在具有32 G内存，i7 3.6GHz CPU和GTX-1080 GPU的PC上平均跟踪速度为33.7 FPS。我们使用VGG-16模型[34]作为基础网络。为了保持更细粒度的空间细节，我们使用Conv 4 -3和Conv 4 - 1层的激活输出作为基础深度特征。在初始训练中，收敛损失阈值设置为0.02，最大迭代次数为50。我们从Conv 4 -3层中选择前250个重要过滤器用于学习目标活动特征，并从Conv 4 -1层中选择前80个重要过滤器用于学习尺度敏感特征。对于Siamese框架，我们使用初始目标作为模板，并从当前帧中以目标尺寸的3倍裁剪搜索区域。如果目标模板太大或太小，我们将其调整为适当的大小。对于规模评估，我们生成了一个具有三个S-规模的建议金字塔，即，45/47、1和45/43倍于之前的目标大小。我们将金字塔的相应变化惩罚设置为0.990、1和1.005。5.2. 整体性能我们在五个基准数据集上评估了所提出的算法，包括 OTB-2013 ，OTB-2015 ， VOT-2015， VOT-2016 和Temple color-128。将所提出的算法- m与最先进的跟踪器进行了比较，包括表1. OTB数据集上的实验结果。列出了OTB-2013和OTB-2015数据集的AUC评分。符号 * 表示运行速度由作者报告，因为源代码不可用。从上到下，跟踪器大致分为三类：基于相关滤波器的跟踪器、非实时深度跟踪器和实时深度跟踪器。跟踪器OTB-2013OTB-2015实时FPSBACF [17]0.6570.621Y30MCPF [48]0.6770.628N1.8MCCT-H [43]0.6640.642N10CCOT [10]0.6720.671N0.2[22]第二十二话0.6830.683N3.1ECO [7]0.7020.694N3.1DRT [38]0.7200.699N1.0*DSiamM [11]0.6560.605N18ACT [4]0.6570.625N15CREST [35]0.6730.623N2.4[52]第五十二话0.6890.655N10 *[25]第二十五话0.6830.660N2.5DAT [31]0.7040.668N0.79LSART [37]0.6770.672N1.0*MDNet [29]0.7080.678N1.1重要[36]0.7100.682N1.2SiamRPN [21]0.6580.637Y71*RASNet [44]0.6700.642Y简体中文新加坡[13]0.6760.656Y50*CFNet [40]0.6110.586Y41SiamFC [2]0.6070.582Y49机场班车[5]0.6520.602Y65[51]第五十一话0.6680.654Y97TADT0.6800.660Y33.7基于相关滤波器的跟踪器，例如SRDCF [9]，Staple[1]，MCPF [48]，CCOT [10]，ECO [7]，BACF [17]，[38]第22话，不求回报，只求回报，只求回报。时间深度跟踪器，如MDNet [29]，CREST [35]，L-SART [37] ， FlowT [52] ， DALK [25] ， MetaSDNet[30]，VI-[2019 - 03 -23][2019 - 03][2019 -03- 01][2019 - 01] 19 -01：0[11]，RASNet [44]，SA-Siam [13]，SiamRPN，[51]第51话在下文中，我们将介绍每个数据集的结果和分析。OTB数据集。具有50个序列的OTB-2013数据集和具有额外50个序列的扩展OTB-2015数据集是两个广泛使用的跟踪基准。OTB数据集中的序列具有各种各样的跟踪挑战性，例如光照变化，尺度变化，变形，遮挡，快速运动，旋转和背景杂波。OTB基准采用中心位置误差（CLE）和重叠率（OR）作为基本指标[45]。基于CLE和OR，使用精确度和成功图来评估总体跟踪，137710.8OPE的精密度图10.8OPE的成功图表2. 在VOT-2015数据集上的实验结果。符号（*）表示作者报告的数字0.60.40.2001020 30 40500.60.40.200 0.2 0.40.60.8 1定位误差阈值重叠阈值(a) OTB-2013数据集10.80.60.40.20OPE的精密度图DasiamRPN [0.867]TADT（我们的）[0.866][0.864]ECO-HC [0.856]SiamRPN [0.851]BACF [0.824]TRACA [0.814]吻合钉[0.784]CFNet [0.777]澳门银河[0.771]0 10 20 30 4050定位误差门限10.80.60.40.20OPE的成功图TADT（我们的）[0.660][0.656]DasiamRPN [0.654]ECO-HC [0.643]SiamRPN [0.637]BACF [0.621]TRACA [0.602]CFNet [0.586]SiamFC [0.582]吻合钉[0.578]0 0.2 0.4 0.6 0.81重叠阈值表3. VOT-2016数据集上的实验结果。符号（*）表示作者报告的数字(b) OTB-2015数据集图5. OTB-2013和OTB-2015数据集上的成功和精度图。表演。精度图测量CLE在给定阈值（通常设置为20像素）内的帧的百分比。成功图计算OR大于给定阈值的成功帧的百分比。成功图的曲线下面积（AUC）主要用于对跟踪算法进行排名。表1显示了OTB-2013和OTB- 2015数据集上三类跟踪器在实时跟踪器组中，所提出的算法在OTB-2013数据集（AUC评分：0.680）和OTB-2015数据集（AUC评分：0.660）。与离线训练的最先进的暹罗跟踪器相比，该算法在OTB-2015数据集上实现了最佳性能。这是因为所提出的目标感知深度特征最好地利用了目标的对象性和语义信息，并且对它们的外观变化以及尺度变化具有鲁棒性。基于相关滤波器的跟踪器（DRT和ECO）由于多特征融合和在线更新方案的优点，在所有比较的跟踪器中获得最佳性能非实时深度跟踪器都能获得良好的AUC分数。然而，他们遭受耗时的在线训练和模型过拟合。该算法采用简洁的Siamese框架和少量的深度特征集，实现了33.7 FPS的实时跟踪速度。这证明了所提出的目标感知特征的有效性，因为暹罗跟踪框架的性能仅取决于特征的区分能力。图5显示了所提出的跟踪器相对于最先进的实时跟踪器的良好性能。做到使为了表示，我们在该图中仅示出了实时跟踪器（≥25F-PS），并且其他跟踪器的完整结果可以在表1中找到。VOT数据集。我们在VOT-2015数据集上验证了所提出的跟踪器。该数据集包含60个具有各种挑战的短VOT基准从两个方面评估跟踪器：鲁棒性和准确性，这是从OTB基准不同。跟踪器的鲁棒性是通过故障次数来衡量的当预测和地面实况之间的重叠率变为零时，检测到故障在失败的5帧之后，跟踪器被重新初始化以跟踪目标。跟踪器的精度是通过预测结果与地面实况之间的平均重叠率来衡量的。基于这两个指标，预期平均重叠（EAO）用于整体性能排名。表2显示了VOT-2015数据集上的实验结果建议的跟踪器对这个数据集上的最先进的跟踪器表现良好。我们获得了第二好的EAO评分（0.327），具有最好的准确性（ 0.59 ）和接近最好的稳健性评分（ 1.09 ）（0.95）。配备光流的FlowTrack获得最佳EAO评分（0.341）。然而，与建议的跟踪器（33.7 FPS）相比，它以s-低速（12 FPS）运行对于VOT-2016数据集，所提出的跟踪器获得了最佳准确度分数（0.55）和第二佳EAO分数（0.299）。与C-COT跟踪器相比，该算法获得了最好的EAO分数（0.331）和最好的鲁棒性（ 0.85 ），该算法运行速度更快（ 33.7 vs. 0.3FPS）。总体而言，所提出的跟踪器在准确性，鲁棒性和运行速度方面表现良好。它[0.898]TADT（我们的）[0.896]DasiamRPN [0.896][0.894]SiamRPN [0.884]经济-HC [0.874]BACF [0.861]SiamFC [0.809]CFNet [0.785]吻合钉[0.782]TADT（我们的）[0.680][0.676]DasiamRPN [0.668]SiamRPN [0.658]BACF [0.657]ECO-HC [0.652][0.652]SiamFC [0.607]吻合钉[0.593]CFNet [0.589]精度精度成功率成功率跟踪器EAO↑准确度↑失败↓FPSSiamFC [2]0.2920.541.4249缝钉[1]0.300.571.3950新加坡[13]0.310.591.2650*EBT [50]0.3130.451.024.4*DeepSRDCF [8]0.3180.561.01*[52]第五十二话0.3410.570.9510 *TADT0.3270.591.0933.7跟踪器EAO↑准确度↑失败↓FPS新加坡[13]0.2910.541.0850*EBT [50]0.2910.470.94.4*缝钉[1]0.2950.541.250C-COT [10]0.3310.530.850.3TADT0.2990.551.1733.71378值得注意的是，在没有在线更新或离线训练的情况下实现了良好的性能。这证明了所提出的具有目标活动和尺度敏感信息的深度特征的有效性，这有助于区分目标对象和背景。Temple color-128 dataset. 我们报告了Temple color-128数据集的结果，该数据集包括128个颜色序列，并使用AUC得分作为评估指标。表4示出了所提出的算法在AUC s-核心为0.562的实时跟踪器中实现了所提出的跟踪器不是专门为这些颜色序列设计的，也没有利用自适应在线方案，但它实现了良好的性能和实时运行这表明了该算法的通用性。表4. Temple color-128数据集上的实验结果。符号（*）表示作者报告的数字。方法双曲线下面积实时FPSMCPF [48]0.545N1*[22]第二十二话0.553N6C-COT [10]0.567N1*MDNet [29]0.590N1ECO [7]0.600N3[22]第二十二话0.601N3缝钉[1]0.498Y50BACF [17]0.52Y35*ECO-HC [7]0.552Y30TADT0.562Y33.75.3. 消融研究在本节中，我们分析了所提出的方法，OTB数据集，包括OTB-2013和OTB-2015数据集，以研究不同损失和不同层特征的贡献。表5列出了各变异AUC评分的重叠率。Conv 4 -3和Conv 4 -1层输出的特征- s分别表示为Conv 4 -3和Conv 4 -1。我们基于回归损失、排名损失和随机选择（随机选择相同数量的过滤器）比较不同特征层的结果，分别表示为回归、排名和随机。与随机选择模型相比，回归损失方案在OTB-2013和 OTB-2015 数据集上获得了 Conv 4 -1 （ +4.3% 和+4.4%）和Conv 4 -3我们将这些收益归因于回归损失的好处，这有助于选择最有效的卷积滤波器来生成目标感知的判别特征。通过利用目标的客观性和语义信息，生成的特征能够有效地区分目标，从背景中获取，并且对目标变化具有鲁棒性-S.来自Conv 4 -1和Conv 4 -3层的回归损失引导特征的组合略微提高了这两个数据集上的平均值（+0.7%和+0.7%）。这表明，虽然这些滤波器来自不同的层，但以相同的损失引导的这些滤波器当组合由不同损失引导的不同 CNN 层时，改进变得更大（ +1.8% 和+1.6%）。这种改进得益于基于排序损失的特征的尺度敏感信息，其更加强调空间细节。表5中最后两行的比较证明了排序损失的有效性。表5. OTB数据集上的消融研究。Conv4-1Conv4-3OTB-2013OTB-2015兰德–0.6020.597–兰德0.6180.610回归–0.6450.646–回归0.6620.644回归回归0.6690.651回归+排名回归0.6800.6606. 结论在本文中，我们提出学习目标感知特征，以缩小预训练的分类深度模型和跟踪任意形式的目标之间的差距。我们的关键在于，不同损失引起的梯度指示相应的滤波器在识别目标对象中的重要性。因此，我们建议通过从预训练的CN-N层中选择最有效的过滤器来学习具有回归损失和排名损失的目标感知深度特征我们将目标感知特征模型与Siamese跟踪框架相结合，并证明了其有效性和效率的视觉跟踪。总之，我们提供了一种新的方法来处理使用预先训练的高维深度特征来表示跟踪目标时的问题在五个公开数据集上的实验结果表明，该算法对最先进的跟踪器表现良好。致谢这项工作部分得到了国家自然科学基金的支持（编号：61672183）、广东省国家自然科学基金会（编号：2015A030313544 ）、深圳市研究会（编号： JCYJ20170413104556946 ， J-CYJ 20170815113552036 ， JCYJ20160226201453085），沈-国家重点研发计划（2016YFB1001003），国家科学技术委员会（18DZ1112300），国家自然科学基金会（NSF），职业资助号1149783，以及Adobe、Verisk和NEC的礼物。李欣获得了国家留学基金管理委员会的奖学金。1379引用[1] Luca Bertinetto 、 Jack Valmadre 、 Stuart Golodetz 、Ondrej Miksik和Philip HS Torr。Staple：用于实时跟踪的补充学习器。2016年在IEEE计算机视觉和模式识别。六七八[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在2016年欧洲计算机视觉研讨会上。二三六七[3] Goutam Bhat、Joakim Johnander、Martin Danelljan、Fa-had Shahbaz Khan和Michael Felsberg。揭示深度追踪的力量。2018年欧洲计算机视觉会议。3[4] Boyu Chen，Dong Wang，Peixia Li，Shuang Wang，and Huchuan Lu.实时演员评论跟踪。2018年欧洲计算机视觉会议。6[5] Jongwon Choi ， Hyung Jin Chang ， Tobias Fischer ，Sangdoo Yun，Kyuewang Lee，Jiyeoup Jeong，YiannisDemiris，and Jin Young Choi.用于高速视觉跟踪的上下文感知深度特征压缩。在IEEE计算机视觉和模式识别会议上，2018年。6[6] 蔡宗元，张进，尹尚斗，等.基于自适应视觉跟踪的注意力相关滤波器网络.北京：计算机科学出版社，2001.在 IEEE Confer-ence on Computer Vision and PatternRecognition，2017年。3[7] Martin Danelljan，Goutam Bhat，F Shahbaz Khan，andMichael Felsberg. Eco：用于跟踪的高效卷积算子。在IEEE计算机视觉和模式识别会议上，2017。三六八[8] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg 。基于相关滤波器的卷积特征IEEEInternationalConferenceonComputerVisionWorkshops，2015。7[9] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。学习空间正则相关滤波器的视觉跟踪。IEEE计算机视觉和模式识别会议，2015。6[10] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在2016年欧洲计算机视觉会议上。三六七八[11] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。IEEEInternational Conferenceon Computer Vision，2017。三、六[12] 韩宝亨，沈积，和哈特维希亚当。分支：卷积神经网络在线集成跟踪的正则化。2017年在IEEE计算机视觉和模式识别会议上发表。3[13] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。IEEE计算机视觉和模式识别会议，2018年。三六七[14] David Held Sebastian Thrun和Silvio Savarese学习使用深度回归网络以100 fps的速度跟踪。在2016年的欧洲计算机视觉会议上。第1、3条[15] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.用核相关滤波器进行高速跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，37（3）：583-596，2015。1[16] Seunhoon Hong ， Tackgeun You ， Suha Kwak ， andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。在2015年机器学习国际会议上。第1、3条[17] Hamed Kiani Galoogahi Ashton Fagg Simon Lucey学习用于视觉跟踪的背景感知相关滤波器。在IEEE计算机视觉和模式识别会议上，2017。三六八[18] MatejKristan，Ales Leonardis，Ji Jagri Matas，MichaelFelsberg，RomanPflugfelde r，LukaCeh o vin，To ma'spuvoj'ır？， Gust a v H a？ge r，AlanLu kez？ic？，Gust av oFerna？ndez，etal. 视觉对象跟踪投票2016挑战赛结果。在2016年欧洲计算机视觉研讨会上

下载后可阅读完整内容，剩余1页未读，立即下载