深度回归跟踪器的收缩损失及性能评估

3 浏览量更新于2023-10-14 收藏 1.3MB PDF 举报

目标跟踪

数据不平衡

身份认证购VIP最低享 7 折!

30元优惠券

具有收缩损失的Xiankai Lu1，3， Chao Ma2，Bingbing Ni1，4，Xiaokang Yang1，4，Ian Reid2，and Ming-HsuanYang5，61上海交通大学2阿德莱德大学3Inception人工智能4SJTU-UCLA机器感知与推理联合中心5加州大学默塞德分校6谷歌公司抽象。回归跟踪器直接学习从目标对象的规则密集样本到软标签的映射，以估计目标位置，软标签通常由于快速跟踪和易于实现的潜力，回归跟踪器最近受到越来越多的关注。然而，现有技术的深度回归跟踪器的性能不如判别相关滤波器（DCF）跟踪器。我们确定训练回归网络的主要瓶颈是极端的前景-背景数据不平衡。为了平衡训练数据，我们提出了一种新的收缩损失来惩罚简单训练数据的重要性此外，我们应用残差连接来融合多个卷积层及其输出响应映射。在没有花里胡哨的情况下，所提出的深度回归跟踪方法在包括0 TB-2013、0 TB-2015、Temple-128、UAV-123和VOT-2016的五个基准数据集上对最先进的跟踪器表现良好，特别是与DCF跟踪器相比。关键词：回归网络，收缩损失，目标跟踪1介绍近年来，人们对开发用于各种视觉应用的视觉对象跟踪算法的兴趣越来越大。现有的检测跟踪方法主要包括两个阶段来执行跟踪。第一阶段在前一帧中的目标对象周围绘制大量样本并且第二阶段将每个样本分类为目标对象或背景。相比之下，一阶段回归跟踪器[1-8]直接学习从目标对象的规则密集采样到由高斯函数来估计目标位置。一阶段回归跟踪器最近受到越来越多的关注，因为它们可能比两阶段跟踪器更快和更简单。最先进的一级跟踪器[1-5]主要基于判别相关滤波器（DCF）而不是深度回归网络。尽管近期前两位作者对这项工作的贡献相当。通讯作者是C. Ma（c.ma @ adelaide.edu.au）。2X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨#0046#0100我们CRESTHCFTC-COTECOFig. 1.与最先进的跟踪器相比的跟踪结果。所提出的算法超越了现有的基于深度回归的跟踪器（CREST [8]），并且对DCF跟踪器（ECO [5]，C-COT [4]和HCFT [3]）表现良好。基准测试[9，10]，DCF跟踪器几乎没有利用端到端训练的优势因为学习和更新DCF独立于深度特征提取。在在这篇文章中，我们研究了深度回归跟踪器的性能瓶颈[6-8]，其中回归网络是完全可微的，并且可以端到端训练。由于回归网络比DCF更有潜力利用大规模训练数据，我们认为深度回归跟踪器至少可以和DCF跟踪器一样好我们确定了阻碍深度回归跟踪器实现最先进准确性的主要瓶颈，即回归学习中的数据不平衡问题对于建立在二进制分类器上的两级跟踪器，数据不平衡已经被广泛研究。也就是说，正样本远少于负样本，并且大多数负样本属于容易训练的数据，这对分类器学习的贡献很小。尽管回归学习中的数据不平衡也具有相关性，但我们注意到当前的一阶段回归跟踪器[6作为有效性的证据，最先进的DCF跟踪器通过使用类高斯图[12]、空间可靠性图[13]或二进制图[14]重新加权样本位置来提高跟踪精度。在这项工作中，为了打破瓶颈，我们重新审视了回归学习中的收缩估计器[15]我们提出了一种新的收缩损失来处理学习回归网络过程中的数据不平衡具体地，我们使用Sigmoid类函数来惩罚来自背景的简单样本的重要性靠近边界的样本）。这不仅提高了跟踪精度，而且加速了网络收敛。所提出的收缩损失与最近提出的焦点损失[16]不同，因为我们的方法仅惩罚了简单样品的重要性，而焦点损失部分减少了有价值的硬样品的损失（见第3.2节）。我们观察到，深度回归网络可以通过最好地利用跨多个卷积层的多级语义抽象例如，FCNT [6]融合了在VGG-16 [17]的conv 4 -3和con 5-3层上独立学习的两个回归网络，以提高跟踪精度。然而，在多个卷积层上独立学习回归网络不能充分利用跨卷积层的多级语义在这项工作中，我们建议应用残差连接来分别融合多个卷积层及其输出响应图。所有的连接都是完全可区分的，允许我们的回归网络进行端到端的训练具有收缩损失的3为了公平比较，我们使用标准基准设置来评估所提出的深度回归跟踪器所提出的算法表现良好，对国家的最先进的方法，特别是在比较与DCF跟踪器。图1示出了两个挑战性序列上的此类示例。这项工作的主要贡献概述如下：– 我们提出了新的收缩损失来处理数据不平衡的问题学习深度回归网络。收缩损失也有助于加速网络收敛。– 我们应用残差连接来分别融合多个卷积层及其输出响应图。我们的方案充分利用了跨多个卷积层的多级语义抽象。– 我们广泛评估所提出的方法在五个基准数据集。我们的方法对最先进的跟踪器表现良好我们成功地缩小了深度回归跟踪器和DCF跟踪器之间的差距2相关工作视觉跟踪一直是一个活跃的研究课题，有着广泛的调查[18，19]。在本节中，我们首先讨论使用两阶段分类模型和一阶段回归模型的代表性跟踪框架然后，我们简要回顾了分类和回归学习中的数据不平衡问题两阶段跟踪。该框架主要包括两个阶段来执行跟踪。第一阶段使用随机采样、规则密集采样[20]或区域建议[21，22]在先前估计的位置周围生成一组候选目标样本第二阶段将每个候选样本分类为目标对象或背景。已经做出了许多努力来学习阳性和阴性样本之间的区别性边界。示例包括多实例学习（MIL）[23]和Struck [24，25]方法。最近的深度跟踪器，如MDNet [26]，DeepTrack [27]和CNN-SVM [28]，都属于两阶段分类框架。尽管在具有挑战性的对象跟踪基准测试[9，10]上表现良好，但我们注意到两阶段深度跟踪器遭受沉重的计算负载，因为它们直接将图像级别的样本馈送到分类神经网络中。与目标检测不同，视觉跟踪更强调样本之间的微小位移以实现精确定位。两阶段深度跟踪器几乎没有从ROI池化[29]的最新进展中受益，其不能突出高度空间相关的样本之间的差异。单级跟踪。一阶段跟踪框架将整个搜索区域作为输入，并通过学习的回归器直接输出响应图，该回归器学习输入特征与由高斯函数生成的软标签之间的映射。一级跟踪器的一个代表性类别是基于判别相关滤波器[30]，其循环地回归所有相关滤波器。4X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨将输入图像的移位版本转换为软标签。通过将相关性计算为傅立叶域中的逐元素乘积，DCF跟踪器实现了迄今为止最快的速度。许多扩展包括KCF [31]，LCT [32，33]，MCF [34]，MCPF [35]和BACF [14]。通过使用深度功能，DCF跟踪器，如DeepSRDCF [1]，HDT [2]，HCFT[3]，C-COT [4]和ECO [5]，在基准数据集上表现出卓越的性能。在[3]中，Ma et al.提出学习不同卷积层上的多个DCF，并且经验地融合输出相关图以定位目标对象。在[4]中利用类似的想法来组合多个响应图。在[5]中，Danelljan et al.减少特征通道以加速学习相关滤波器。尽管最高性能，DCF跟踪器独立地提取深度特征以学习和更新相关滤波器。在深度学习时代，DCF跟踪器很难从端到端训练中受益。另一类代表性的单级跟踪器是基于卷积回归网络的。最近的FCNT [6]，STCT[7]和CREST [8]跟踪器属于这一类。FCNT首次尝试在两个CNN层上学习回归网络。不同层的输出响应图根据它们的置信度进行切换以定位目标对象。在STCT中利用集成学习来选择CNN特征通道。CREST [8]在单个卷积层上学习基础网络和残差网络。融合基础网络和残差网络的输出图以推断目标位置。我们注意到，当前的深度回归跟踪器的性能不如DCF跟踪器。我们确定回归学习中的主要瓶颈是数据不平衡问题。通过平衡训练数据的重要性，单阶段深度回归跟踪器的性能可以比最先进的DCF跟踪器显着提高。数据不平衡。数据不平衡问题在学习社区中得到了广泛的研究[11，36，37]。有用的解决方案涉及数据重新采样[38-对于视觉跟踪，Li etal.[44]使用时间采样方案来平衡正样本和负样本，以便于CNN训练。Bertinetto等人[45]平衡得分图中正负样本的丢失，用于预训练暹罗全卷积网络。MDNet [26]跟踪器表明，在训练分类网络期间挖掘硬负样本至关重要。最近关于密集对象检测的工作[16]提出了焦点损失，以减少不平衡样本的损失。尽管重要，但当前的深度回归跟踪器[6-8]很少关注数据不平衡在这项工作中，我们建议利用收缩损失惩罚简单的样本对学习回归网络的贡献很小。所提出的收缩损失与焦点损失[16]的显著不同之处在于，我们仅对容易样品的损失进行惩罚，同时保持硬样品的损失不变，而焦点损失也部分减少了硬样品的损失。3该算法我们在一阶段回归框架内开发我们的跟踪器。图2显示了所提出的回归网络的概述为了促进回归具有收缩损失的5H图二.用于跟踪的拟议深度回归网络的概述。左：固定的特征提取器（VGG-16）。右：回归网络在第一帧中训练并逐帧更新。我们将残差连接应用于卷积层和输出响应图。所提出的网络有效地利用了跨卷积层的多级通过使用收缩损失，我们的网络打破了回归学习中数据不平衡的瓶颈，并快速收敛学习，我们提出了一种新的收缩损失来处理数据不平衡。我们进一步应用残差连接来分别融合卷积层及其输出响应图，以充分利用跨卷积层的多级语义。在下文中，我们首先简要回顾一下深度回归然后，我们提出了详细的建议收缩损失。最后，我们讨论了剩余连接方案。3.1卷积回归卷积回归网络将输入的密集采样回归到通常由高斯函数生成的软标签。在这里，我们将回归网络公式化为一个卷积层。形式上，学习回归网络的权重是为了解决以下最小化问题：arg minW X−Y2+λW2，（1） W其中*表示卷积运算，W表示卷积层的内核权重。注意，在等式（1）中没有偏置项。(1)当我们设置偏置参数为0。X表示输入要素。Y是软标签的矩阵，并且每个标签y∈Y的范围从0到1。λ是正则化项。我们通过搜索输出响应图的最大值的位置来估计目标平移。卷积核W的大小是固定的（例如，5× 5）或与输入特征X的大小成比例。设η为学习率。我们通过最小化平方损失来迭代优化W：L（W）=<$W <$X−Y <$2+λ<$W <$2LWt = Wt−1−ηW，（二）Conv1WConv2Conv3Conv4Conv5信道还原DeConvh/16w/16小时/8最大池化Conv4_3Conv5_3Conv5_3'最大池化W/8Conv5_3''最大池化最大池化信道降维响应图小时/8搜索区域W/8Conv4_3'预测卷积卷积6X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨10.910100.8200.7200.630300.5400.4400.350500.20.060.050.040.030.020.0110410310210160102030405060700.16000102030405060701000.10.20.30.40.50.60.70.80.91回归标签值(a) 输入贴片(b)软标签Y（c）输出P（d）历史|P − Y|图三. (a)输入补丁。(b)通过高斯函数生成相应的软标签Y用于训练。(c)输出回归图P.（d）绝对差值的直方图|P − Y|.注意，具有小的绝对差分数的简单样本主导训练数据。3.2收缩损失为了学习卷积回归网络，输入搜索区域必须包含目标对象周围的大量背景（图3（a））。由于周围背景包含有价值的上下文信息，大面积的背景有助于增强目标对象与背景的区分能力。然而，这也增加了来自背景的容易样本的数量这些简单的样本总共产生了很大的损失，使得学习过程不知道接近目标的有价值的样本形式上，我们用P表示每次迭代中的响应映射，P是一个大小为m×n的矩阵。 pi，j∈Pi，i∈[1，m]，j∈[1，n]上的点i成为目标对象的概率。令l是估计的可能性p与其对应的软标签y之间的绝对差，即， L = |p − y|. 注意，当绝对差l较大时，位置（i，j）处的样本更可能是硬样本，反之亦然。图3（d）示出了绝对差的直方图。注意，具有小的绝对差分数的简单样本主导训练数据。根据绝对差l，回归学习中的平方损失可以公式化为：L2= |p−y|2= 12。（三）最近关于密集对象检测的工作[16]表明，向熵损失添加调制因子有助于缓解数据不平衡问题。调制因子是输出可能性的函数，其目标是减少来自简单样本的损失。在回归学习中，这相当于使用绝对差项l的指数形式来重新加权平方损失，如下所示：LF= 1γ·L2= 12+γ。（四）为了简单起见，我们将参数γ设置为1，因为我们观察到性能对该参数不敏感。因此，回归学习的焦点损失等于L3损失，即，LF=13。注意，作为权重，绝对差l，l∈[0，1]不仅惩罚简单样本（即，l<0. （5）但也会惩罚硬样品（即， l> 0。（五）。通过重新访问收缩估计器[15]和频率具有收缩损失的710.90.80.70.60.50.40.30.20.100.5 - 0.4 - 0.3 - 0.2 - 0.100.10.20.30.40.50.60.70.80.91输入值10.90.80.70.60.50.40.30.20.10L2损失L3损失收缩损失00.10.20.30.40.50.60.70.80.91绝对差l(a) 调制因子（b）损耗比较图4.第一章（a）用不同的超参数调节（5）中的因子（b）平方损失（L2）、焦点损失（L3）和建议的回归学习收缩损失之间的比较所提出的收缩损失仅减少来自容易样品的损失（l<〇. 5）和保持从硬样品（l > 0.5）无变化。成本敏感加权策略[37]在学习回归网络中，我们提出了一个相对于L的调制因子来重新加权平方损失，以仅惩罚简单样本，而不是使用绝对差L调制函数具有S形函数的形状，如：f（l）=11+ exp（a·（c−l））、（五）其中a和c是分别控制收缩速度和局部化的超参数。图4（a）示出了具有不同超参数的调制函数的形状当应用调制因子来加权平方损失时，我们将建议的收缩损失表示为：L2LS = 1 + exp（a·（c − l））。（六）如图4（b）中所示，所提出的收缩损失仅惩罚容易样品的重要性（当l<〇. 5）并且保持硬样品的损失不变（当l> 0。5）当与平方损失（L2）相比时焦点损失（L3）惩罚容易和困难的样品。当将收缩损失应用于Eq. (1)，我们采用成本敏感加权策略[37]并利用软标签的值作为重要性因素，例如，exp（Y），以突出有价值的稀有样品。总之，我们重写Eq。(1)其中用于学习回归网络的收缩损失为：exp（Y）·W X−Y22LS（W）= 1 + exp（a·（c −（W <$X − Y）+ λ<$W（七）我们将a的值设置为10，以快速缩小权重函数，将c的值设置为0.2，以适应l的分布，范围从0到1。与其他损失的广泛比较表明，所提出的收缩损失不仅提高了跟踪精度，而且加快了训练速度（见5.3a=10，c=0.2a =5，c=0.2a=10，c=0.4调制幅度损失8X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨节）。具有收缩损失的9（a）ECO [5]（b）CREST [8]（c）Our图五.融合卷积层的不同方案。ECO [5]独立地学习多个卷积层上的相关滤波器。CREST [8]在单个卷积层上学习基础和残差回归网络我们首先使用残差连接融合多个我们的回归网络充分利用了跨多个卷积层的多级语义，而不仅仅是将响应图集成为ECO和CREST。3.3卷积层连接众所周知，CNN模型由强调不同层次语义抽象的多个卷积层组成。对于视觉跟踪，具有细粒度空间细节的早期层有助于精确定位目标对象;而后面的层保持对显著的外观变化鲁棒的语义抽象。为了利用这两个优点，现有的深度跟踪器[3，5，6]在多个卷积层上开发独立的模型，并将相应的输出响应图与经验权重相结合。对于学习回归网络，我们观察到语义抽象在处理外观变化方面比空间细节起着更FCNT利用conv4和conv5层，而CREST [8]仅使用conv4层。我们在5.3节中的研究还表明，当使用conv4和conv5层作为特征主干时，回归跟踪器表现良好。为了整合在卷积层上生成的响应图，我们使用残余连接块来充分利用目标对象的多级语义抽象在图3中，我们将我们的方案与ECO [5]和CREST [8]方法进行了比较。DCF跟踪器ECO [5]独立地学习conv1和conv5层上的相关滤波器CREST [8]在conv4层上学习基础和残差图3（c）中提出的方法在学习回归网络之前融合了conv4和conv5层在这里，我们在连接之前使用反卷积操作来对conv5层进行上采样我们减少特征通道以减轻计算负荷，如[46，47]所示。我们的连接方案类似于构建剩余网络的选项C [46]。消融研究证实了该方案促进回归学习的有效性（见第5.3节）。4跟踪框架我们详细介绍了建议的回归跟踪器的管道。在图2中，我们展示了提出的深度回归网络的概述，其中包括模型conv1conv5conv4conv5conv4Corr. 滤波器Corr. 滤波器1 x 1转换w x h转换1 x 1转换1 x 1转换1 x 1转换1 x 1转换2X2去卷积w x h转换10X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨初始化、目标对象定位、尺度估计和模型更新。为了训练，我们裁剪以前一帧中的估计位置为中心的补丁。我们使用VGG-16 [17]模型作为主干特征提取器。具体地，我们采取的conv4 3和conv5 3层的输出响应作为特征来表示每个补丁。通过残余连接的融合特征被馈送到建议的回归网络。在跟踪过程中，给定一个新的帧，我们裁剪一个搜索补丁集中在最后一帧中的估计位置。回归网络将该搜索块作为输入并输出响应图，其中最大值的位置指示目标对象的位置一旦获得估计的位置，我们使用[48]中的比例金字塔策略进行比例估计。为了使模型适应外观变化，我们逐帧增量更新回归网络。为了减轻噪声更新，最后T帧中的跟踪结果和软标签被用于模型更新。5实验在本节中，我们首先介绍实现细节。然后，我们在五个基准数据集上评估了所提出的方法，包括OTB-2013 [49]，OTB- 2015 [9]，Temple128 [50]，UAV 123 [51]和VOT-2016 [10]，并与最先进的跟踪器进行了比较最后，我们提出了广泛的消融研究不同类型的损失，以及它们的收敛速度的影响。5.1实现细节我们使用Caffe工具箱[52]在Matlab中实现了所提出的深度收缩损失跟踪器（DSLT）所有实验都在具有Intel i7 4.0GHz CPU和NVIDIA TITANX GPU的PC上进行我们使用VGG-16作为骨干特征提取器。我们应用1×1卷积层将conv4 3和conv5 3的通道从512减少到128。我们用Adam[53]算法训练回归网络考虑到不同层上的输出回归图的最大值之间的大差距，我们将学习率η设置为conv5 3中的8e -7和conv4 3中的2e -8在在线更新期间，我们将学习率分别降低到2e -7和5e -9。用于模型更新的帧T的长度被设置为7。软标签由具有与目标大小成比例（0.1）的核宽度的二维高斯函数生成。对于比例估计，我们将比例变化的比率设置为1.03，并将比例金字塔的级别设置包括所有训练过程的平均跟踪速度为每秒5.7帧。源代码可在https://github.com/chaoma99/DSLT上获得。5.2整体性能我们广泛评估我们的方法上五个具有挑战性的跟踪基准。我们遵循基准协议，与最先进的跟踪器进行公平比较对于 OTB [49 ， 9] 和Temple128 [50]数据集，我们报告了具有收缩损失的11OTB−2013上OPE的精度图1OPE在OTB上的成功图-201310.80.80.60.40.60.40.20.200 102030 405000 0.2 0.4 0.6 0.8 1定位误差门限OTB−2015上OPE的精度图1重叠阈值OPE在OTB上的成功图-201510.80.80.60.60.40.40.20.200 102030 405000 0.2 0.4 0.6 0.8 1定位误差门限重叠阈值见图6。OTB-2013 [49]和OTB-2015 [9]数据集使用一次通过评估（OPE）的整体性能。我们的跟踪器对国家的最先进的方法表现良好具有距离精度（DP）和重叠成功（OS）图的一次通过评估（OPE）的结果。距离精度图的图例包含20个像素处的阈值分数，而重叠成功图的图例包含每个跟踪器的曲线下面积（AUC）分数参见补充文档中所有基准数据集的完整结果OTB数据集。该数据集有两个版本。OTB-2013 [49]数据集包含50个具有挑战性的序列，OTB-2015 [9]数据集扩展了OTB-2013数据集，增加了50个视频序列。所有序列覆盖了广泛的挑战，包括遮挡、照明变化、旋转、运动模糊、快速运动、平面内旋转、平面外旋转、视野外、背景杂波和低分辨率。我们公平地比较了所提出的DSLT与最先进的跟踪器，其主要分为三类：（i）一阶段回归跟踪器，包括CREST [8] ， FCNT [6]， GOTURN [54] ，SiameseFC [45];（ii）一阶段DCF跟踪器，包括ECO [5]，C-COT [4]，BACF [14]，DeepSRDCF [1]，HCFT [3]，HDT [2]，SRDCF [1 2]、KCF [31]和[55];和（iii）两级跟踪器，包括MEEM [56]，TGPR [57]，SINT [58]和CNN-SVM [28]。如图6所示，所提出的DSLT在0 TB-2013上实现了最佳距离精度（93.4%）和第二佳重叠我们的DSLT远远优于最先进的深度回归跟踪器（CREST [8]和FCNT [6]）。我们把DSLT的良好表现归因于两个原因。首先，本文提出的收缩年龄损失有效地缓解了回归学习中的数据不平衡问题作为价格[0.934][0.930]冠[0.908][0.890]C −COT [0.890]HDT [0.889]SINT [0.882]FCNT [0.856]DeepSRDCF [0.849]BACF [0.841][0.838]澳门银河[0.809]ECO [0.709]价格[0.683]顶部[0.673]C−COT [0.666]SINT [0.655]BACF [0.642]DeepSRDCF [0.641][0.626]泰国足球会[0.607]HCFT [0.605]HDT [0.603]FCNT [0.599]ECO [0.910]DSLT [0.909]C−COT [0.879]冠[0.857]DeepSRDCF [0.851]HCFT [0.842]BACF [0.813]SRDCF [0.789]MEEM [0.781]FCNT [0.779]MUSTER [0.774]澳门银河[0.771]KCF [0.692]TGPR [0.643]ECO [0.690]DSLT [0.660]C−COT [0.657]DeepSRDCF [0.635]冠[0.635][0.613]SRDCF [0.598]暹罗足球俱乐部[0.582]MUSTER [0.577]HCFT [0.566]FCNT [0.551]MEEM [0.530]KCF [0.475]TGPR [0.458]精度精度成功率成功率10X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨0.90.80.70.60.5精密度图0.90.80.70.60.5[0.5972]成功图0.40.4DSLT [0.5865]C−COT [0.5737]冠[0.5549]0.30.20.3 DeepSRDCF [0.5367]MEEM（实验室）[0.5000]0.2撞击（HSV）[0.4640]碎片（HSV）[0.4075]0.10.1KCF（HSV）[0.4053]MIL（OPP）[0.3867]CN2 [0.3661]005101520253035404550距离阈值000.10.20.30.40.50.60.70.80.91重叠阈值见图7。使用一次通过评估的Temple Color 128 [50]数据集的总体性能。我们的方法排名第一的距离精度和第二的重叠成功。0.90.80.70.60.50.40.30.20.10OPE的精密度图0.90.80.70.60.50.40.30.20.10OPE的成功图0 10 20 30 4050定位误差门限0 0.2 0.4 0.6 0.8 1重叠阈值见图8。UAV-123 [51]数据集上使用一次通过评估（OPE）的整体性能。建议DSLT方法排名第一。结果表明，该方法能自动挖掘出最具鉴别力的样本，并消除了简单样本带来的干扰其次，我们利用残差连接方案来融合多个卷积层，以进一步促进回归学习，因为跨卷积层的多级语义得到了充分利用。此外，我们的 DSLT 对所有 DCF 跟踪器（如 C-COT ， HCFT 和DeepSRDCF）都表现良好请注意，ECO通过探索深层功能和手工制作的功能来实现最佳结果。在OTB-2015上，我们的DSLT在距离精度和重叠成功率方面均排名第二。Temple Color 128数据集。该数据集[50]由128个彩色视频序列组成。Temple 128的评估设置与OTB数据集相同除了上述基线方法外，我们还公平地比较了Temple 128作者评估的所有跟踪器，包括Struck [24]，Frag [59]，KCF [31]，MEEM [56]，MIL图7示出了与ECO、C-COT和CREST跟踪器相比，所提出的方法以较大的裕度实现了最佳距离精度。我们的方法在重叠成功率方面排名第值得一提的是，我们的回归跟踪器在跟踪小目标方面表现良好Temple-128包含大量小目标物体。我们的方法达到了80.73%的最佳精度，远远优于国家的最先进的。DSLT [0.8073][0.7981]C −COT [0.7811]冠[0.7309]DeepSRDCF [0.7377]MEEM（实验室）[0.7081]被击中（HSV）[0.6448]碎片（HSV）[0.5382]KCF（HSV）[0.5607]MIL（OPP）[0.5336]CN2 [0.5056]DSLT [0.746]ECO [0.741]SRDCF [0.676]MEEM [0.627]SAMF [0.592]MUSTER [0.591][0.586]被击中[0.578][0.571]贴现现金流量[0.526]KCF [0.523]CSK [0.488]价格[0.530]ECO [0.525]SRDCF [0.464]ASLA [0.407]SAMF [0.396]MEEM [0.392]MUSTER [0.391]被击中[0.381][0.356]DCF [0.332]KCF [0.331]CSK [0.311]MOSSE [0.297]精度精度成功率成功率12X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨表1.VOT-2016的整体性能与前7名跟踪器的比较EAO：预期平均重叠。AR：准确度等级。RR：稳健性等级。ECOC-COT钉嵴DeepSRDCF MDNet SRDCF DSLT[五]《中国日报》[4]美国[63个][八]《中国日报》[1]第一章[26日][12个]（我们的）EAO 0.36750.33100.29520.29900.27630.25720.24710.3321AR1.721.631.822.091.951.781.901.91RR1.731.901.951.952.852.883.182.15UAV123数据集该数据集[51]包含由无人机（UAV）获得的123个视频序列。我们用几种代表性方法评估了所提出的DSLT，包括ECO[5]，SRDCF [12]，KCF [31]，MUSTER [55]，[2019 - 05 - 15][2019 - 05] 1TLD [62]。图8示出了所提出的DSLT的性能在距离精度和重叠成功率方面略优于ECOVOT-2016数据集。VOT-2016 [10]数据集包含60个具有挑战性的视频，这些视频通过以下属性进行注释：遮挡，照明变化，运动变化，大小变化和相机运动。整体性能由期望平均重叠（EAO）、准确性等级（AR）和稳健性等级（RR）来衡量。主要的标准，EAO，考虑到每帧的准确性和失败的数量我们将我们的方法与最先进的跟踪器进行比较，包括ECO [5]，C-COT [4]，CREST [8]，Staple [63]，SRDCF[12]，DeepSRDCF [1]，MDNet [26]。表1示出了我们的方法比表现最好的ECO跟踪器表现稍差，但明显好于其他跟踪器，例如最近的C-COT和CREST跟踪器。VOT-2016报告[10]建议使用EAO指标将严格的最新水平限制为0.251所提出的DSLT实现了0.3321的高得多的EAO。5.3消融研究我们首先分析了损失函数的贡献和剩余连接方案的有效性。然后我们讨论了回归学习中不同损失的收敛速度。损失函数分析首先，我们用平方损失（L2）或焦点损失（L3）代替建议的收缩损失。我们评估了OTB-2015 [9]数据集上的替代实现。总的来说，建议的DSLT与收缩损失显着提前的平方损失（L2）和焦点损失（L3）的一个大的margin。我们在图9中给出了两个序列的定性结果，其中具有L2损失或L3损失的跟踪器都无法跟踪经历大的外观变化的目标，而所提出的DSLT可以鲁棒地定位目标图10显示了OTB-2015数据集的定量结果。请注意，具有L2损失的基线跟踪器在两个距离精度方面都比CREST [8]好得多（87.0% vs.83.8%）和重叠成功率（ 64.2%vs.63.2%）。这清楚地证明了卷积层连接方案的有效性具有收缩损失的13DSLT（收缩损失）L2损失L3损失图9.第九条。Biker和Skating1序列的定量结果与L2损失和L3损失相比，该方法具有更好的鲁棒性.OTB−2015上OPE的精度图1OPE在OTB上的成功图-201510.80.80.60.60.40.40.20.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值见图10。OTB-2015 [9]数据集上不同损耗和不同层连接的消融研究。其将残差连接应用于卷积层和输出回归图两者，而不是像CREST那样仅应用于输出回归图。此外，我们使用在线硬否定挖掘（OHNM）[26]实现了一种替代方法，以完全排除简单样本的损失我们将挖掘阈值设置为0.01。我们的DSLT优于OHNM方法显着。因此，我们的观察结果与[16]一致，即简单样本仍然有助于回归学习，但它们不应该主导整个梯度。此外，OHNM方法手动设置阈值，这几乎不适用于所有视频。特征分析我们进一步评估卷积层的有效性我们首先删除卷积层之间的连接所得到的DSLT m算法类似于CREST。图10示出了当与DSLT相比时，DSLT m具有约0.3%（DP）和0.1%（OS）的性能下降。这肯定了在回归学习之前融合特征的重要性此外，我们将conv33与conv4 3或conv5 3融合。 DSLT 34和DSLT 35的较差性能表明，对于学习回归网络，语义抽象比空间细节更重要。类的内核大小DSLT [0.909]L3_loss [0.887]DSLT_m [0.879]OHNM [0.876]DSLT_34 [0.872]L2_loss [0.870]DSLT_35 [0.868]冠[0.857]DSLT [0.660]DSLT_m [0.651]L3_loss [0.649]OHNM [0.647]DSLT_34 [0.646]DSLT_35 [0.644]L2_loss [0.642]冠[0.635]成功率精度14X. Lu，C.马，B。Ni、X.扬岛，智-地里德和MH.杨损失图765432100 50 100 150 200 250300收缩损失L3损失L2损失OHNM迭代次数不同损失函数见图11。训练损失图（左）和OTB-2015数据集上每个序列的平均训练迭代（右）。收缩损失收敛最快并且需要最少的迭代次数来收敛。由于卷积回归层与输入特征大小成比例，因此我们不评估较早的层的计算效率。收敛速度。图11比较了OTB-2015数据集[9]上使用不同损失的收敛速度和所需的训练迭代。总体而言，使用收缩损失的训练损失快速且稳定地下降。因此，收缩损失在跟踪期间需要最少的迭代来收敛6结论我们重新审视了基于深度回归网络的一阶段跟踪器，并确定了阻碍一阶段回归跟踪器实现最先进结果的瓶颈，特别是与DCF跟踪器相比主要瓶颈在于学习回归网络中的数据不平衡我们提出了新的收缩损失，以促进学习回归网络具有更好的准确性和更快的收敛速度。为了进一步改进回归学习，我们利用跨多个卷积层的目标对象的多级语义抽象作为特征。我们将残差连接应用于卷积层及其输出响应映射。我们的网络是完全可区分的，可以进行端到端的训练。我们成功地缩小了单阶段深度回归跟踪器和DCF跟踪器之间的性能差距五个基准数据集上的广泛实验表明，所提出的跟踪器的有效性和效率相比，国家的最先进的算法。致谢。这项工作得到了中国国家重点研究与发展计划（2016YFB1001003），国家自然科学基金（61527804，61521062，U1611461，61502301和61671298），111计划（B07022）和STCSM（17511105401和18DZ2270700）。C.妈妈和我。Reid感谢澳大利亚研究委员会通过机器人视觉卓越中心（CE140100016）和获奖者奖学金（FL130100102）提供的支持。B. Ni由C hina的T h ou s and You out t h al en t s P l an提供。 M. -H. Yangissupportedby NSF CAREER（1149783）.平均迭代次数直方图5045403542.7138.3236.1633.453025201510500收缩损失L3损失L2损失OHNM平均训练迭代次数训练损失具有收缩损失的15引用1. 当我们在一起时，M.， Hger，G.， Khan，F. 美国， Felsberrg，M. ：用于基于相关滤波器的视觉跟踪的卷积算法。在：ICCV研讨会。（2015年）2. 齐，Y.，Zhang，S.，（1991），中国农业科学院，秦岭，Yao，H.，黄，Q，Lim，J. Yang，M.：对冲深度跟踪。在：CVPR中。（2016年）3. 马，C.，Huang，J.B.，杨，X.，Yang，M.H.：用于视觉跟踪的分层卷积特征。In：ICCV. （2015年）4. Danelljan，M.，Robinson，A.，Shahbaz Khan，F.，Felsberg，M.：超越相关滤波器：学习用于视觉跟踪的连续卷积算子。In：ECCV.（2016年）5. Danelljan，M.，Bhat，G.，Shahbaz Khan，F.，Felsberg，M.：Eco：用于跟踪的高效在：CVPR中。（2017年）6. Wang，L.，美国，欧阳，W.王，X.，Lu，H.：使用完全卷积网络进行视觉跟踪。In：ICCV. （2015年）7. Wang，L.，美国，欧阳，W.王，X.，Lu，H.：STCT：用于视觉跟踪的顺序训练卷积网络。在：CVPR中。（2016年）8. Song，Y.，马，C.，贡湖张杰，Lau R.W.H. Yang，M.H.：Crest：用于视觉跟踪的卷积残差学习。In：ICCV. （2017年）9. 吴，Y.，Lim，J.Yang，M.：对象跟踪基准。TPAMI 37（9）（2015）10. Kristan，M.，Leonardis，A.，Matas，J.，等：视觉对象跟踪VOT2016挑战赛结果。在：ECCV研讨会。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度回归跟踪器的收缩损失及性能评估

多目标跟踪系统数据融合算法的性能评估

深度学习跟踪器是什么

深度学习的跟踪器的有点

多目标跟踪评价指标是用来评价算法的还是用来评价跟踪器的

基于CNN-Transformer的跟踪器代码实现

基于深度学习的目标跟踪算法的发展过程

深度收缩残差网络有那些

最大功率点跟踪的独立光伏(pv)电站建模和性能评估

transformer单目标跟踪器

深度强化学习轨迹跟踪

Python视频跟踪器

深度学习目标跟踪，多目标跟踪

微分跟踪器matlab

如何指定跟踪器跟踪指定车辆，并返回其坐标

如何评估MOTA，有没有python版的评估脚本

多目标跟踪中的IDF1什么意思

OpenCV如何获取跟踪器数据

基于全局推理都RGBT目标跟踪值得改进的方向

构造跟踪器什么作用，如何跟踪车辆

python中单一跟踪器是什么

最新资源