鲁棒视觉目标跟踪的组特征选择和判别滤波器学习

77 浏览量更新于2023-10-12 收藏 15.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

............group spatial attributes across channelsgroup channel attributes across spatial dimensions79500鲁棒视觉目标跟踪的联合组特征选择和判别滤波器学习0Tianyang Xu 1 , 2 Zhen-Hua Feng 2 Xiao-Jun Wu 1 � Josef Kittler 201 江南大学物联网工程学院，中国无锡 2 英国萨里大学视觉、语音和信号处理中心（CVSSP）0tianyang xu@163.com, z.feng@surrey.ac.uk, wu xiaojun@jiangnan.edu.cn, j.kittler@surrey.ac.uk0摘要0我们提出了一种新的基于组特征选择的判别相关滤波器（GFS-DCF）的视觉目标跟踪方法。该方法的关键创新在于在通道和空间维度上执行组特征选择，从而准确定位多通道特征对滤波系统的结构相关性。与广泛使用的空间正则化或特征选择方法相比，据我们所知，这是首次提倡DCF跟踪中的通道选择。我们证明了我们的GFS-DCF方法能够显著提高配备深度神经网络特征的DCF跟踪器的性能。此外，我们的GFS-DCF实现了联合特征选择和滤波器学习，实现了学习滤波器的增强区分性和可解释性。为了进一步提高性能，我们通过对滤波器施加低秩逼近的方式，自适应地整合历史信息，使其在时间帧之间平滑。通过设计，跟踪过程中动态学习特定的时空通道配置，突出相关特征，减轻较少区分性表示的性能下降影响，减少信息冗余。在OTB2013、OTB2015、VOT2017、VOT2018和TrackingNet上获得的实验结果证明了我们的GFS-DCF的优点以及其优于现有最先进跟踪器的优越性。代码公开可用于https://github.com/XU-TIANYANG/GFS-DCF。01. 引言0在视频序列中一致准确地跟踪任意对象是一项非常具有挑战性的任务。这些困难是由于在无约束场景中对象的外观变化的广泛范围所引起的。在现有的跟踪算法中，基于判别相关滤波器（DCF）的跟踪器[27]在最近的基准测试[81, 82, 53, 43]和Visual Object Tracking（VOT）挑战[36, 32, 33,34]等竞赛中展示了有希望的结果。高性能DCF跟踪器的成功归因于三个方面：空间正则化、时间平滑和鲁棒的图像特征表示。关于第一个点，由于自然图像和视频是从三维空间投影到二维平面上的，空间正则化通过潜在地赋予学习的滤波器特定的注意机制，通过聚焦于较少模糊的区域来增强区分性，从而直接提高跟踪的准确性[15, 49, 31, 87]。其次，基于视频序列是由连续动态场景的离散图像采样形成的这一事实，反映了0组空间正则化0组通道正则化0低秩时间平滑性0判别滤波器学习0多通道特征期望响应图学习滤波器帧 t0学习0图1.与传统的DCF范式相比，我们的GFS-DCF对相关滤波器的学习进行了通道和空间组特征选择。在通道和空间维度上强制执行组稀疏性，以突出具有增强的区分性和可解释性的相关特征。此外，还在时间帧之间采用低秩时间平滑约束来提高学习滤波器的稳定性。0现有的跟踪算法，判别相关滤波器（DCF）的跟踪器[27]在最近的基准测试[81, 82, 53, 43]和Visual ObjectTracking（VOT）挑战[36, 32, 33,34]等竞赛中展示了有希望的结果。高性能DCF跟踪器的成功归因于三个方面：空间正则化、时间平滑和鲁棒的图像特征表示。关于第一个点，由于自然图像和视频是从三维空间投影到二维平面上的，空间正则化通过潜在地赋予学习的滤波器特定的注意机制，通过聚焦于较少模糊的区域来增强区分性，从而直接提高跟踪的准确性[15, 49, 31,87]。其次，基于视频序列是由连续动态场景的离散图像采样形成的这一事实，反映了79510构建外观模型时连续帧的时间平滑性已被证明可以提高其泛化能力[17, 40, 13,51]。第三，随着稳健图像特征提取方法的发展，例如方向梯度直方图（HOG）[12]，颜色名称（CN）[80]和卷积神经网络（CNN）特征[37, 70, 47,19]，DCF-based跟踪器的性能得到了极大的提升[6, 34,33]。毫无疑问，DCF-based跟踪的最新进展在很大程度上归功于使用稳健的深度CNN特征。尽管通过为跟踪器配备稳健的图像特征在视觉跟踪方面取得了快速进展，但多通道特征与滤波系统的结构相关性尚未得到充分研究。特别是由于视觉跟踪可用于训练的样本数量有限，DCF-based跟踪器通常使用在其他计算机视觉任务上预训练的深度网络，例如在ImageNet上训练的VGG [64]或ResNet[24]。在这种情况下，对于任意对象提取的深度特征通道（图）可能超过数千个，可能不是紧凑的。它们可能包含不相关和冗余的描述符，它们的存在可能会降低目标检测性能。然而，现有DCF范式中的判别性、信息相关性、信息冗余和高维特征表示之间的张力尚未得到系统研究。我们认为，在通道维度上进行降维以抑制不相关特征和冗余对于深度神经网络特征非常重要。为了纠正上述疏忽，我们提出了一种基于DCF的视觉目标跟踪的新的组特征选择方法，即GFS-DCF。更具体地说，我们通过在空间和通道维度上执行组特征选择来减少高维多通道特征的信息冗余和不相关性，从而得到紧凑的目标表示。需要强调的是，我们的GFS-DCF与现有的DCF-based跟踪器有很大的不同，后者仅使用空间正则化或选择。此外，由于监督帧间数据拟合可能会导致预测中的过度变异，我们限制学习到的预测器（滤波器）在时间维度（帧）上平滑。图1描述了所提出的GFS-DCF方法的基本学习方案。给定第t帧中目标的预测位置，我们首先提取多通道特征。然后，使用提取的特征和期望的响应图来学习用于预测下一帧目标的相关滤波器。在滤波器学习阶段，通道-空间组特征选择和低秩约束的组合自适应地识别出用于稳健判别性滤波器学习的特定时间-空间-通道配置。结果，相关特征得到突出，以提高判别性并减少冗余。我们的GFS-DCF方法的主要贡献包括：0• GFS-DCF方法的主要贡献包括：0•一种新的多通道图像表示的组特征选择方法，减少了空间和通道维度上的维度。据我们所知，这是第一篇同时考虑空间和通道维度上特征压缩的工作。根据我们的实验，所提出的组通道特征选择方法在使用深度CNN特征时显著提高了基于DCF的跟踪器的性能。0•用于获得连续帧之间高度相关的滤波器的时间平滑性正则化项。为此，我们使用了一种高效的低秩逼近方法，将学习到的滤波器限制在具有一致的时间-空间-通道配置的低维流形中。0•GFS-DCF在多个知名基准测试中的全面评估，包括OTB2013 [81]，OTB2015 [82]，VOT2017 [33]，VOT2018[34]和TrackingNet[55]。结果表明了GFS-DCF的优点，以及其在现有最先进的跟踪器上的优越性。02. 相关工作0现有的视觉目标跟踪方法包括模板匹配[48]、统计学习[2]、粒子滤波器[1]、子空间学习[62]、判别相关滤波器[27]、深度神经网络[61]和Siamese网络[91, 77,39]。在本节中，我们重点关注基于DCF的方法，因为它们在最近的跟踪竞赛（如VOT [32,34]）中表现出色。至于其他的视觉跟踪方法，读者可以参考综述[65, 82, 32,38]。DCF的发展中的一个开创性工作是MOSSE[7]，它将跟踪任务形式化为判别性滤波器学习[8]，而不是模板匹配[10]。循环矩阵的概念[21]通过CSK[26]引入到DCF中，使用填充的搜索窗口为学习阶段生成更多的背景样本。此外，空间-时间上下文[86]和核技巧[27]被用来改进学习公式，考虑到局部外观和非线性度量。DCF的范式进一步扩展了尺度检测[41, 14,16]、结构化补丁分析[42, 46, 45]、多线索融合[71, 50, 28,4, 72]、稀疏表示[88, 90]、支持向量机[75,92]、增强的采样机制[89, 54]和端到端深度神经网络[73,67]。尽管DCF在视觉目标跟踪中取得了巨大的成功，但在非受限场景中实现高性能跟踪仍然是一个非常具有挑战性的任务。主要的障碍包括：空间边界效应、有限的特征表示能力和时间滤波器退化。�Wt = arg minWt279520受限于特征表示是从高性能视觉跟踪的角度来看最重要的因素[76]，在DCF-based跟踪器中广泛使用了手工设计和深度特征的组合[18, 27,6]。然而，尚未考虑到多通道特征在滤波器学习系统中的结构相关性。高维表示的冗余和干扰阻碍了学习密集滤波器的有效性。为了统一空间和通道维度上的信息选择过程，我们的GFS-DCF同时进行组特征选择和判别性滤波器学习。0为了减轻循环结构引起的边界效应问题，SRDCF[15]引发了对空间正则化的兴趣[17, 51, 13,40]，通过使用预定义的空间加权函数为滤波器的中心区域分配更多能量。类似的想法已经通过使用预定义的掩码对训练样本或学习到的滤波器进行修剪来追求[20, 49, 31,40]。与这些方法不同，为了实现空间正则化，LSART强制输出集中在目标的特定区域[69]。上述方法的一个共同特点是它们都基于固定的空间正则化模式，例如预定义的掩码或加权函数。为了实现自适应的空间正则化，LADCF[83]在滤波器学习阶段嵌入了动态空间特征选择。由于这一创新，它在公共的VOT2018数据集[34]中取得了最好的结果。上述空间正则化方法减少了源自背景的歧义，并为跟踪提供了相对较大的搜索窗口。然而，这些方法只考虑了沿空间维度的信息压缩。相比之下，我们的GFS-DCF方法在通道和空间维度上执行组特征选择，从而得到更紧凑的目标外观描述。0其次，由于特征表示是从高性能视觉跟踪的角度来看最重要的因素[76]，在DCF-based跟踪器中广泛使用了手工设计和深度特征的组合[18, 27,6]。然而，尚未考虑到多通道特征在滤波器学习系统中的结构相关性。高维表示的冗余和干扰阻碍了学习密集滤波器的有效性。为了统一空间和通道维度上的信息选择过程，我们的GFS-DCF同时进行组特征选择和判别性滤波器学习。0为了减轻时间滤波器退化的问题，SRDCFdecon[17]和C-COT[51]在滤波器学习阶段通过收集多个先前帧来反映历史线索，从而增强了鲁棒性和时间平滑性。为了减轻计算负担，ECO[13]通过对历史帧进行聚类并使用投影矩阵来处理固有的计算复杂性。另一方面，我们的GFS-DCF通过将学习到的滤波器约束为跨帧平滑，使用高效的低秩近似方法，从而对时间外观变化具有鲁棒性。因此，相关的空间通道特征在一个动态的低维子空间中得到了一致的突出显示。03. 基于DCF的视觉目标跟踪0给定视频中对象的初始位置，视觉目标跟踪的目标是在连续的视频帧中定位对象。假设我们有对象在第t帧中的估计位置。为了在第(t+1)帧中定位对象，DCF[27]使用一对训练样本{Xt,Y}学习多通道滤波器Wt∈RN×N×C，其中Xt∈RN×N×C是从第t帧提取的C通道特征的张量，Y∈RN×N是标识对象位置的期望响应图。为了获得Wt，DCF将目标函数形式化为一个正则化的最小二乘问题：0k = 1 Wkt � Xkt − 0F + R(Wt)，(1)0其中�是循环卷积运算符[26]，Xkt∈RN×N是第k个通道的特征表示，Wkt∈RN×N是相应的判别滤波器，R(Wt)=λ∑Ck=1∥Wkt∥2F是正则化项。上述优化任务的闭式解可以在频域中高效地获得[27]。在跟踪阶段，从第一帧学习到的滤波器直接用于定位第二帧中的目标。对于其他帧，滤波器的更新方式为：0Wt = αWt + (1 − α)Wt−1，(2)0其中α∈[0,1]是预定义的更新率。给定第(t+1)帧中的搜索窗口，我们首先提取多通道特征Xt+1。然后使用第t帧学习到的相关滤波器Wt在频域高效地估计响应图：0ˆR =0k = 1 ˆXkt+1 ⊙ ˆWkt，(3)0其中ˆ∙表示离散傅里叶变换（DFT），⊙表示逐元素乘法。通过逆DFT得到的原始响应图中具有最大值的元素对应于预测的目标位置。04. 基于群组特征选择的DCF04.1. GFS-DCF0在基于DCF的视觉目标跟踪中，从一个大的搜索窗口中提取多通道特征，其中只有一个小区域是感兴趣的。在这种情况下，多通道图像特征通常是冗余的，并且可能在预测阶段带来不确定性。为了解决这个问题，空间特征选择或正则化在现有的基于DCF的跟踪器中被广泛使用，例如使用固定的2(4)RS(W) =N�i=1N�j=1∥wij:∥2 ,(5)125 10 20 30 40 50 60 70 80 90 100Spatial Selection Ratio (%)5254565860626466AUC (%)GFS-DCF (Hand-Crafted Features)10 20 30 40 50 60 70 80 90 100Channel Selection Ratio (%)5254565860626466AUC (%)GFS-DCF (Hand-Crafted Features)125 10 20 30 40 50 60 70 80 90 100Spatial Selection Ratio (%)5254565860626466AUC (%)GFS-DCF (ResNet)125 7.5 10 20 30 40 50 60 70 80 90 100Channel Selection Ratio (%)5254565860626466AUC (%)GFS-DCF (ResNet)RC(W) =C�k=179530空间掩膜[31, 49, 40,13]。最近，提出了一种基于学习的自适应掩膜[83]，用于向基于DCF的视觉跟踪注入空间正则化，实现了在VOT2018公共数据集[34]上的最佳性能。然而，现有文献中缺少旨在减少特征通道间的信息冗余和噪声的研究，特别是适用于数百或数千个深度CNN特征图的研究。为了弥补这一差距，本文提出了一种新的特征选择方法，即群组特征选择（GFS），用于基于DCF的视觉目标跟踪。与以前的研究相比，我们的GFS-DCF在原始DCF优化任务中引入了群组特征选择，包括空间和通道维度。此外，使用低秩正则化项来实现学习滤波器在跟踪过程中的时间平滑性。我们假设相关滤波器的学习是针对第t帧进行的，并简化起见省略下标“t”。我们的GFS-DCF的目标函数为：0W = arg min W0k = 1 Wk � Xk − Y0空0F + λ1RS(W) + λ2RC(W) + λ3RT(W)，0其中，R S ( W )是空间特征选择的空间组正则化项，R C (W )是通道选择的组正则化项，R T ( W )是时间正则化项，λi是平衡参数。这些正则化项在本节的其余部分中详细介绍，并在第4.4节中给出了上述优化任务的解决方案。04.2. 组空间-通道正则化0引入分组是为了利用科学意义上有意义的先验知识[30]。考虑到当前特征表示的多通道性质和跟踪对象的空间一致性，分组信息被用于R S 和R C中，通过将各个变量分配到具有特定视觉含义（空间位置和通道属性）的特定组中来实现空间-通道选择。这种策略在视觉数据科学中已被证明是有效的[57, 3, 85, 29, 22, 78,79]。为了在空间域中进行组特征选择，我们将空间正则化项定义为：0在其中，我们使用ℓ2范数来获得每个空间位置的分组属性，该范数是在所有特征通道上计算的。具体来说，我们将多通道特征张量的一阶和二阶的第i个位置和第j个位置的所有元素进行连接，0（a）手工特征0（b）深度CNN特征图2.使用（a）手工特征或（b）深度CNN特征在OTB2015上进行空间和通道组特征选择的比较，由选择比率参数化。0将矩阵W∈R N × N ×C转化为向量wij：=[wij1,...,wijC]�，如图1所示。分组属性是通过ℓ2范数获得的，然后使用所有空间分组属性的隐式ℓ1范数来规范相关滤波器的优化。这自然地通过将所有通道中的所有元素进行分组来在空间域中注入稀疏性。这种结构化的空间稀疏性能够实现鲁棒的组特征选择，反映了空间域中特征的联合贡献。在我们的初步实验中，我们发现在使用手工特征时，所提出的空间域组特征选择能够提高DCF跟踪器的性能。然而，当我们尝试将空间特征选择应用于深度CNN特征时，改进效果较小。我们认为主要原因是深度CNN特征图中的一个元素代表更高级的概念，因此在这些特征上进行空间特征选择无法从背景中实现细粒度的目标区域选择。例如，我们在所提出的方法中使用ResNet50[24]的'res4x'层的特征图。每个深度CNN特征图的分辨率为13×13，在原始输入图像中，每个像素对应一个16×16的区域。在如此低分辨率的特征图上进行空间选择无法获得非常精确的空间特征选择结果。但是，深度CNN特征通常具有许多通道，这导致了信息冗余的注入。为了解决这个问题，我们提出了在通道维度上定义组正则化项的通道选择方法：0W k �� F , (6)0其中，我们使用Frobenius范数来获得特征通道{Wk}Ck=1的分组属性。再次注意，隐式地，（6）中的约束是一种稀疏诱导的ℓ1范数。0在实践中，为了进行空间/通道特征选择，我们使用方程（5）和方程（6）中的度量。具体来说，vectWt =�Ut−1, vec (Wt)⊥�R�W⊤t−1001�,(9)R =�Σt−1Σ⊤t−1vec (Wt)0ˇw⊤tI − Ut−1U⊤t−1ˇwt�,(10)RT (W) = λ3C�k=1��Wkt − Wkt−1��2F .(11)L =��C�k=1Wkt ⊛ Xkt − Y��2F+ λ1C�k=1��W′kt��F+λ2N�i=1N�j=1��w′ijt��2 + λ3C�k=1��Wkt − Wkt−1��2F+µ2C�k=1��Wkt − W′kt + Γkµ��F,(12)79540首先，在空间/通道域中计算组属性，然后根据预定义的比例消除与最低分组属性相对应的通道/空间维度上的特征。这种选择策略在许多先前的研究中已经被广泛使用[84, 59,66]。此外，所提出的特征选择方法分别应用于每种单独的特征类型。为了评估所提出的空间和通道组特征选择方法的有效性，我们将所提出的GFS-DCF与OTB2015数据集上的经典DCF公式进行比较。结果如图2所示。需要注意的是，选择比例为100%的条形图代表没有特征选择的原始DCF跟踪器，使用手工制作的特征或深度CNN特征。我们使用颜色名称、强度通道和HOG进行手工制作的特征，以及ResNet50进行深度特征。详细的实验设置在第5.1节中介绍。如图所示，对于手工制作的特征，使用空间选择比例在5%�40%范围内取得了显著的改进。但是，对于手工制作的特征，通道选择不能提高性能。在手工制作的特征上执行通道选择的唯一优点是，在将特征压缩到60%大小时，我们可以保持性能。对于深度特征，仅使用空间特征选择对性能的改进很小。但是，深度特征从通道选择正则化中获益显著，即使我们只使用原始通道的5%，AUC也从55.49%增加到63.07%。这些结果表明，深度特征在通道之间高度冗余，并且存在不良干扰。评估验证了所提出的空间-通道组特征选择策略。因此，所提出的方法通过所提出的组空间-通道正则化提供了降维的空间，从而提高了性能。虽然与深度特征相比，手工制作的特征以相对较高的分辨率以固定的方式提取，但是不同的通道考虑了不同的属性，在空间维度上存在更多的冗余和模糊性。结果支持结论，即通过使用所提出的组特征选择嵌入的滤波器学习方案可以改善跟踪性能。04.3. 时域平滑性0尽管特征选择在许多计算机视觉和模式识别任务中取得了成功，但在信息冗余存在的情况下，解的不稳定性是一个问题[52]。为了缓解这个问题并考虑外观变化[62]，我们通过注入时域平滑性来提高学习的相关滤波器的鲁棒性。具体而言，对视频帧之间的估计施加低秩约束，以便使得0在滤波器设计中促进时域相干性。我们将约束定义为最小化：0rank(Wt)−rank(Wt−1)，(7)0其中，Wt=[vec(W1),...,vec(Wt)]∈R N2C×t是一个矩阵，每一列存储着矢量化的相关滤波器W。在这里，约束条件(7)在帧之间施加了低秩特性，因为它从第二帧开始影响了选择过程。然而，计算rank(Wt)是低效的，特别是在具有许多帧的长期视频中。因此，我们使用其充分条件作为替代：d(Wt−Ut−1)，(8)0其中Ut−1=�t−1k=1Wk/(t−1)是所有先前学习的滤波器的均值，d是一个距离度量。以下是充分性的简要证明。证明：给定Wt−1和Ut−1，Wt的均值向量受到Wt的影响。我们将其表示为ˇwt=0t ( W t − U t − 1 ) � . 用 W t − 1 表示为0其奇异值分解为 W t − 1 = U t − 1 Σ t − 1 W � t − 1 ，我们有，0和0其中 I ∈ R N 2 Ct × N 2 Ct 是单位矩阵， ⊥ 对向量vec ( W t ) 执行正交化，到矩阵 U t − 1 。如果 W t =U t − 1 ，那么 Σ t − 1 优于 R 的特征值。因此， R 与W t 具有相同的特征值。 □因此，我们建议通过正则化项自适应地强制执行时空低秩性质：04.4. 解决方案0由于所提出的公式的凸性，我们应用增广拉格朗日方法[44]来优化方程（4）。具体而言，我们引入松弛变量 W ′ =W ，并构造以下拉格朗日函数：ˆwijt =�I −ˆxijt ˆxHijt(λ3 + µ/2) N 2 + ˆxHijt ˆxijt�q,(13a)w′kijt = max�0, 1 −λ1µ ∥Pk∥F−λ2µ ∥pij∥2�pkij, (13b)Γ= Γ + µ (Wt − W′t) ,(13c)00.20.40.60.8100.20.40.60.8179550其中 Γ 是与 X 大小相同的拉格朗日乘子， Γ k 是其第 k 通道， µ是相应的惩罚项。然后，采用交替方向乘子法[9]进行迭代优化，保证收敛性，具体如下[60]：0其中 q = (ˆ x ij t ˆ y ij /N 2 + µ ˆ w ′ ij t − µ ˆ γ ij + λ 3 ˆw ij t − 1 ) / ( λ 3 + µ ) 且 p k ij = w k ij + γ k ij /µ .05. 评估05.1. 实现和评估设置0我们使用MATLAB2018a实现了GFS-DCF。GFS-DCF在一台配备有Intel XeonE5-2637 v3 CPU和NVIDIA GeForce GTX TITAN XGPU的平台上的速度为每秒8帧（fps）。我们设置 λ 1 =10 和 λ 2 = 1用于组特征选择。为了保证选择的通道和空间单元的固定数量，我们设置通道选择比率 r c 和空间选择比率 r s来截断剩余的通道和空间单元。我们使用颜色名称（CN）、HOG、强度通道（IC）提取手工特征，并使用ResNet-50[24,74]提取深度CNN特征。对于手工特征，我们设置参数为 rc = 90% ， r s = 10% ， λ 3 = 16 和 α = 0 . 6。对于深度特征，我们设置参数为 r c = 7 . 5% ， r s =90% ， λ 3 = 12 和 α = 0 . 05。我们在几个知名的基准测试集上评估了所提出的方法，包括OTB2013/OTB2015 [81, 82]，VOT2017/VOT2018 [33,34]和TrackingNet测试数据集[55]，并将其与一些最先进的跟踪器进行了比较，如VITAL [68]，MetaT [58]，ECO[13]，MCPF [89]，CREST [67]，BACF [31]，CFNet[73]，CACF [54]，ACFN [11]，CSRDCF [49]，C-COT[51]，Sta- ple [4]，SiamFC [5]，SRDCF [15]，KCF[27]，SAMF [41]，DSST[16]以及VOT挑战赛中的其他先进跟踪器，即CFCF[23]，CFWCR [25]，LSART [69]，UPDT [6]，SiamRPN[91]，MFT [34]和LADCF[83]。为了衡量跟踪性能，我们遵循相应的协议[82, 32,35]。我们使用精度曲线和成功曲线[81]来评估OTB2013和OTB2015。进一步采用四个数值，即中心位置误差（CLE），距离精度（DP），重叠精度（OP）和曲线下面积（AUC），来衡量性能。对于VOT2017和VOT2018，我们采用预期平均重叠（EAO），准确性值和鲁棒性来评估性能[32]。对于TrackingNet，我们采用成功率00 10 20 30 40 50 定位误差阈值0精度0OTB2013 - 精度图00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0OTB2013 - 成功率图0图3.GFS-DCF中不同正则化项的比较，评估了OTB2013上的DP和AUC。图例中的DP和AUC分别表示精度图和成功率图。0表1.在OTB2015的不同视频上，根据所有帧的矢量化滤波器堆叠形成的矩阵的秩进行不同方法的比较。（最好的三个结果用红色、蓝色和棕色突出显示。）0视频[#帧数] KCF CACF ECO C-COT GFS-DCF0鹿 [71] 71 14 4 3 20篮球 [725] 526 134 23 10 90男孩 [602] 274 63 19 8 40David3 [252] 252 53 8 3 60女孩 [500] 267 57 18 8 50SUV [945] 701 49 16 4 60滑冰者 [160] 160 38 19 3 50女人 [597] 384 111 15 6 70使用得分、精度得分和归一化精度分析结果[55]。05.2. 割舍研究0我们首先评估GFS-DCF中每个创新组件的效果，包括空间选择项RS（SS）、通道选择项RC（CS）和低秩时间平滑项RT（LR）。基线是原始DCF跟踪器，配备相同的特征（手工制作和深度特征）和更新速率。我们构建了5个跟踪器，即BaseLine、BaseLineSS、BaseLine CS、BaseLine LR和BaseLineALL，以分析内部有效性。在OTB2013上评估的结果如图3所示。根据图中的结果，提出的通道选择、空间选择和低秩平滑项改善了经典DCF（BaseLine）的性能。与经典DCF相比，分组通道/空间选择项RC/R S（BaseLine CS/BaseLineSS）在DP和AUC方面显著提高了性能，分别提高了10.1%/6.1%和10.6%/6.7%。这些结果与图2一致，证明了多通道表示中的冗余和噪声，以及执行组特征选择以实现简洁性的优势。另一方面，低秩时间平滑项RT70809012300.20.40.60.8100.20.40.60.8100.20.40.60.8100.20.40.60.81HOGBACF77.6%82.4%CSRDCF70.5%79.4%SRDCF71.1%76.7%LADCF78.5%83.1%GFS-DCF78.2%85.2%HOG+CNECO78.0%85.1%C-COT75.7%84.1%GFS-DCF81.5%86.3%HOG+CN+VGG-MECO84.9%91.0%C-COT82.3%90.3%GFS-DCF85.5%91.2%79560输入 KCF CACF ECO C-COT GFS-DCF 图4.使用David3在OTB2015上的滤波器可视化。我们将第50帧（第一行）和第200帧（第二行）的相应滤波器可视化。为了更好地显示稀疏性，我们通过收集所有通道上的能量来呈现获得的滤波器的热图。00.01 0.1 1 10 100 参数值0图5. 在OTB2015上评估λ1、λ2和λ3的影响。0(基线LR)还提高了跟踪性能。直观地解释，跨时间帧的低秩约束使得学习的滤波器对外观变化更加不变。为了验证实际的低秩特性，我们进一步收集每个帧的滤波器，将它们连接在一起并计算秩。为了保证收集到的滤波器的质量，我们只考虑一些简单的序列，其中所有涉及的跟踪器都能够在整个帧中成功跟踪目标，即滤波器能够有效地将目标与周围环境区分开来。结果如表1所示，我们简化的正则化项Equ.(11)只考虑滤波器模型就能够实现低秩特性。注意，C-COT和ECO也具有低秩特性，但是需要在学习阶段考虑历史外观，增加了复杂性和存储开销。我们进一步在图4中展示了5个不同跟踪器的滤波器。注意，ECO和C-COT通过空间正则化实现稀疏性，能量更集中在中心区域。相反，我们的GFS-DCF实现了无需预定义掩码或加权的稀疏性。滤波器会自适应地收缩到特定的组（通道/空间单元）。因此，我们的GFS-DCF甚至可以在中心区域内收缩元素。此外，我们对λ1、λ2和λ3进行了敏感性分析。如图5所示，我们的GFS-DCF在λ1、λ2∈[0.01, 100]和λ3∈[10,100]范围内实现了稳定的性能。虽然我们必须设置7个参数，但选择比例是最关键的，如图2所示。我们使用阈值修剪运算符来固定所选空间单元和通道的比例，以实现对正则化参数的鲁棒性。00 10 20 30 40 50 位置误差阈值0精确度0OTB2013 - 精确度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0OTB2013 - 成功率曲线00 10 20 30 40 50 位置误差阈值0精确度0OTB2015 - 精确度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0OTB2015 - 成功率曲线0图6.在OTB2013和OTB2015上的实验结果。精确度曲线中的DP在图例（第一列）中报告，成功率曲线中的AUC在图例（第二列）中报告。0表2. 在OTB2015上使用不同特征的跟踪结果。0特征方法 OP DP0rameters。最后，所有组件的组合（基线ALL）成为我们的GFS-DCF跟踪器（图3），与单独组件相比，它实现了最佳性能。结果证明了所提出的分组和低秩公式的有效性。05.3. 与最先进技术的比较0OTB我们在图6中报告了OTB2013和OTB2015的精确度和成功率曲线。总体而言，我们的GFS-DCF在DP和AUC方面优于所有其他最先进的跟踪器。与第二名跟踪器相比，GFS-DCF在OTB2013和OTB2015上的DP/AUC分别提高了1.5% /1.2%和1.4% / 0.2%。为了实现数学公式的公平比较-KCFSAMFDSSTSRDCFSiamFCStapleC-COTCSRDCFACFNOP/CLEOTB201360.8/36.369.6/29.059.7/39.276.0/36.877.9/29.773.8/31.483.7/15.674.4/31.975.0/18.7TB5047.7/54.359.3/40.545.9/59.566.1/42.768.0/36.866.5/32.380.9/12.366.4/30.363.2/32.1OTB201554.4/45.164.6/34.653.0/49.171.1/39.773.0/33.270.2/31.882.3/14.070.5/31.169.2/25.3CACFCFNetBACFCRESTMCPFECOMetaTVITALGFS-DCFOP/CLEOTB201377.6/29.878.3/35.284.0/26.286.0/10.285.8/11.288.7/16.285.6/11.591.4/7.495.0/5.92TB5068.1/36.368.8/36.770.9/30.368.8/32.669.9/30.981.0/13.273.7/17.081.3/12.582.8/12.4OTB201573.0/33.173.6/36.077.6/28.277.6/21.278.0/20.984.9/14.879.8/14.286.5/9.989.0/10.3ECO [13]CFCF [23]CFWCR [25]LSART [69]UPDT [6]SiamRPN [91]MFT [34]LADCF [83]GFS-DCFEAO0.2800.2860.3030.3230.3780.3830.3850.3890.397CACF [54]53.59%46.72%60.84%ECO [13]56.13%48.86%62.14%MDNet [56]61.35%55.53%71.00%GFS-DCF60.90%56.57%71.79%79570表3. OTB2013、TB50和OTB2015上的OP和CLE结果。（最佳三个结果用红色、蓝色和棕色突出显示。）0（% / 像素）0速度（fps）82.7 11.5 15.6 2.7 12.6 23.8 2.2 4.6 13.80（% / 像素）0速度（fps）18.1 8.7 16.3 10.1 0.5 12.5 0.8 1.3 7.80表4. VOT2017/VOT2018上的跟踪结果。（最佳三个结果用红色、蓝色和棕色突出显示。）0准确度 0.483 0.509 0.484 0.493 0.536 0.586 0.505 0.503 0.5110鲁棒性 0.276 0.281 0.267 0.218 0.184 0.276 0.140 0.159 0.1430此外，我们还使用OTB2015上相同的特征将我们的方法与最先进的跟踪器进行了比较。如表2所示，无论使用何种特征，我们的GFS-DCF都优于几乎所有其他方法，证明了该方法的优势。我们还在OTB2013、TB50和OTB2015上报告了所有涉及的跟踪器的详细OP、CLE和速度（fps），如表3所示。在OTB2013上，我们的GFS-DCF跟踪器实现了95.0%的OP和5.92像素的CLE。与基于端到端深度神经网络的最新VITAL和MetaT跟踪器相比，我们的性能提升分别为3.6%/1.48像素和8.4%/5.58像素。在TB50上，GFS-DCF在OP方面优于C-COT（1.9%），但CLE较低（0.1像素）。此外，在OTB2015上，我们的跟踪器在OP/CLE方面优于许多最新的跟踪器，即CSRDCF（18.5%/20.8像素），CACF（16.0%/22.8像素），C-COT（6.7%/3.7像素），BACF（11.4%/17.9像素）和ECO（4.1%/4.5像素）。VOT表4呈现了在VOT2017/VOT2018数据集[34]上获得的结果。我们的方法实现了最佳的EAO得分0.397，超过了最新的先进跟踪器，如LADCF、UPDT和SiamRPN。此外，GFS-DCF的报告准确性（0.511）和鲁棒性（0.143）结果也位居前三，证明了所提出的组选择框架的有效性。TrackingNet我们还在TrackingNet[55]评估服务器（511个测试序列）上报告了结果，如表5所示。我们的GFS-DCF在归一化精度方面达到了71.97%，证明了与其他最先进方法相比的优势。总之，所提出的GFS-DCF跟踪方法在性能上具有先进性，与最先进的方法相比具有优势。0表5. 在TrackingNet测试集上的评估。0方法成功率精度归一化精度0具有有利的速度的最先进的跟踪器。06. 结论0通过学习空间-通道组稀疏判别相关滤波器，受到连续帧之间的低秩逼近的约束，我们提出了一种具有出色性能的有效外观模型。通过重新制定外观学习模型，以融入组稀疏正则化和时间平滑性约束，我们在低维流形上实现了自适应的时空通道滤波器学习，并提高了学习模型的可解释性。对视觉目标跟踪基准的广泛实验结果表明，与最先进的跟踪器相比，我们的方

下载后可阅读完整内容，剩余1页未读，立即下载