无监督深度跟踪：无标签视频上的视觉跟踪

59 浏览量更新于2023-10-17 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1308无监督训练：前向跟踪监督培训：向前和向后跟踪无监督深度跟踪王宁1宋一兵2马超3周文刚1刘伟2李厚强11中国科学技术大学GIPAS中国科学院重点实验室2腾讯AI实验室3上海交通大学人工智能研究所MoE人工智能重点实验室dynamicstevenson@gmail.com，wn6149@mail.ustc.edu.cn，chaoma@sjtu.edu.cnzhwg@ustc.edu.cnwl2223@columbia.edu，lihq@ustc.edu.cn摘要本文提出了一种无监督的视觉跟踪方法。与现有的使用大量注释数据进行监督学习的方法不同，我们的CNN模型是以非监督方式在大规模未标记视频上训练的。我们的动机是一个鲁棒的跟踪器应该在前向和后向预测中都是有效的（即，跟踪器可以在连续的帧中向前定位目标对象，并在第一帧中回溯到其初始我们建立我们的框架的暹罗相关过滤网络，这是训练使用未标记的原始视频。同时，我们提出了一个多帧验证方法和成本敏感的损失，以促进非监督学习。在没有花里胡哨的情况下，所提出的无监督跟踪器实现了完全监督跟踪器的基线准确性此外，无监督框架在利用未标记或弱标记数据以进一步提高跟踪精度方面表现出潜力1. 介绍视觉跟踪是计算机视觉中的一项基本任务现有技术的深度跟踪方法[1，46，15，55，27，60，58，54，4，19，33，34]通常使用预训练的CNN模型进行特征提取。这些模型以监督的方式进行训练，需要大量带注释的地面实况标签。手动注释总是昂贵和耗时的，而大量的未标记的视频在互联网上很容易获得。如何利用未标记的视频序列进行视觉跟踪是一个值得研究的问题。注释序列未标记序列图1.监督学习和无监督学习的比较。通过监督学习的视觉跟踪方法需要为训练视频的每一帧提供地面实况标签。通过前向跟踪和后向验证，我们训练无监督跟踪器没有重量级的注释。在本文中，我们提出通过无监督学习从头开始学习视觉跟踪我们的直觉依赖于观察，即视觉跟踪可以以向前和向后的方式进行。最初，给定在第一帧上注释的目标对象，我们可以在后续帧中向前跟踪目标对象当向后跟踪时，我们使用最后一帧中的预测位置作为初始目标注释，并将其向后跟踪到第一帧。期望经由后向跟踪的第一帧中的估计的目标位置与初始注释相同。在测量前向和后向目标轨迹之间的差异之后，我们的网络通过考虑轨迹一致性以无监督的方式1进行训练，如图所示。1.一、通过利用未标记视频中的连续帧，我们的模型通过重复执行向前跟踪和向后验证来学习定位目标。所提出的无监督学习方案的目的是获得一个通用的特征表示，而不是*Y. Song和W.刘先生为通讯作者。这项工作已经完成当N.王是腾讯人工智能实验室的实习生源代码和结果可在https://github.com/594422814/UDT上获得。1在本文中，我们不区分术语无监督和自我监督，因为两者都是指没有地面实况注释的学习1309严格要求追踪一个完整的物体对于视频序列，我们在第一帧中随机初始化一个边界框，它可能不会覆盖整个对象。然后，所提出的模型学习跟踪以下序列中的边界框区域。这种跟踪策略与基于部分[30]或基于边缘[28]的跟踪方法相似，这些方法专注于跟踪目标对象的子区域。由于视觉对象跟踪器不应该只关注完整的对象，因此我们在训练过程中使用随机裁剪的边界框进行跟踪初始化。我们将所提出的无监督学习集成到基于Siamese的相关过滤器框架中[54]。该网络在训练过程中包括两个步骤我们注意到，向后验证并不总是有效的，因为跟踪器可以成功地从偏转或错误的位置返回到初始目标位置。此外，未标记视频中的严重遮挡等挑战将进一步降低网络表示能力。为了解决这些问题，我们提出了多帧验证和成本敏感的损失，以有利于无监督训练。多帧验证增加了前向和后向轨迹之间的差异，以减少验证失败。同时，代价敏感损失减轻了训练过程中噪声样本的干扰。所提出的无监督跟踪器是有效的基准数据集上。广泛的实验结果表明，在没有铃铛和哨子的情况下，所提出的非监督跟踪器实现了与基线完全监督跟踪器相当的性能[1，49，54]。当与其他改进（如自适应在线模型更新[9，7]）集成时，所提出的跟踪器表现出最先进的性能。值得一提的是，无监督框架显示出利用未标记的互联网视频来学习跟踪场景的良好特征表示的潜力。给定有限的或有噪声的标签，无监督的方法表现出与相应的监督框架相当的结果。此外，我们还通过使用更多的未标记数据来进一步提高跟踪精度。秒4.2显示了对不同训练配置的完整分析。总之，我们的工作有三方面的贡献• 我们提出了一种基于Siamese相关滤波器主干的无监督跟踪方法，该方法通过向前和向后跟踪来学习。• 我们提出了一种多帧验证方法和成本敏感的损失，以提高无监督学习的性能。• 在标准基准上的大量实验表明，所提出的方法具有良好的性能，并揭示了无监督学习的潜力在视觉跟踪。2. 相关工作在本节中，我们对深度跟踪方法、前向-后向轨迹分析和无监督表示学习进行了文献综述。深度视觉追踪现有深度跟踪方法或者离线学习用于在线跟踪的特定CNN模型或者简单地利用现成的深度模型（例如，VGG [43，3]）进行特征提取。暹罗跟踪器[1，46，49，54，55，15，27，60，58]将跟踪任务制定为相似性匹配过程。他们通常离线学习跟踪网络，而不是在线微调模型另一方面，一些跟踪器采用现成的CNN模型作为特征提取的骨干。它们基于初始帧增量地训练二进制分类层[37，45，39]或回归层[44，31这些方法通常实现高精度，同时消耗巨大的计算成本。基于判别相关滤波器（DCF）的跟踪器[2，16，8，30，5，52，18]通过使用密集采样的候选项解决岭回归问题来解决跟踪任务，这也受益于强大的现成深度特征（例如，[35、40、53、7]）。主要区别在于深度DCF跟踪器仅使用现成的模型进行特征提取，而不在线训练额外的层或微调CNN模型。与上述使用现成模型或监督学习的深度跟踪器不同，所提出的方法使用野外未标记的数据从头开始训练网络。前向-后向分析。正倒向轨迹分析在文献中得到了广泛的研究。跟踪 - 学习 - 检测（ Tracking-learning-detection，缩写为STD）[20]使用Kanade-Lucas-Tomasi（KLT）跟踪器[47]来执行前向-后向匹配以检测跟踪失败。Lee等人。 [25]提出通过比较一对前后向轨迹之间的几何相似性、循环权重和表观一致性来选择可靠的基础跟踪器。然而，这些方法依赖于经验metrics来识别目标轨迹。此外，重复执行前向和后向跟踪为在线跟踪带来了沉重的计算成本。因此，在TrackingNet [36]中，前向-后向跟踪用于数据注释和跟踪器评估。在这项工作中，我们重新审视了这个计划，以一种不受监督的方式训练深度视觉跟踪器无监督表示学习。我们的框架涉及无监督表示学习。在[26]中，通过对序列进行排序来学习特征表示。大规模无标记数据在[24]中进行了探索。Vondrick等人。 [50]提出预测未来帧的视觉表示。Wang和Gupta [56]使用KCF跟踪器[16]对原始视频进行预处理，然后选择一对跟踪图像以及另一个随机补丁，用于使用排名损失学习CNN。我们的方法不同于[56]，1310.22模板修补程序搜索修补程序前向跟踪使用初始标签#1#2搜索修补程序模板修补程序(a) 无监督学习动机（b）使用Siamese网络的图2.无监督深度跟踪概述。我们在（a）中展示了我们的动机，我们向前和向后跟踪以计算网络训练的一致性损失。详细的训练过程如（b）所示，其中无监督学习被集成到Siamese相关滤波器网络中。请注意，在在线跟踪期间，我们只向前跟踪以预测目标位置。两个方面首先，我们将跟踪算法集成到无监督训练中，而不仅仅是利用现成的跟踪器作为数据预处理工具。其次，我们的无监督框架与跟踪目标函数相结合，因此学习的特征表示在呈现通用目标对象方面是有效的。在视觉跟踪社区中，无监督学习很少被触及。据我们所知，唯一相关但不同的方法是基于自动编码器的方法[51]。然而，编码器-解码器是一个通用的无监督框架[38]，而我们的无监督方法是专门为跟踪任务设计的。3.1. 重新审视相关性跟踪判别相关滤波器（DCF）[2，16]将搜索块的输入特征回归到目标定位的高斯响应图。在训练DCF时，我们选择一个带有地面实况标签Y的模板补丁X。滤波器W可以通过如下求解岭回归问题来学习：min<$W <$X−Y <$2+λ<$W <$2，（1）W其中λ是正则化参数，并且λ表示循环卷积。当量1可以在傅立叶域中有效地计算[2，8，16]，并且DCF可以通过以下方式计算：3. 该方法图2（a）显示了蝴蝶序列的一个例子W=F−1F（X）<$F<$（Y）F<$（X）<$F（X）+λ、（二）以说明前向和后向跟踪。在实际应用中，我们在未标记的视频中随机绘制边界框来进行前向和后向跟踪.给定一个随机初始化的边界框标签，我们首先向前跟踪以预测其在后续帧中的位置。然后，我们反转序列，并将最后一帧中的预测边界框作为伪标签向后跟踪。经由后向跟踪预测的边界框预期与第一帧中的原始边界框相同。我们使用网络训练的一致性损失来测量向前和向后轨迹之间的差异。所提出的无监督暹罗相关滤波器网络的概述如图所示第2段（b）分段。在下文中，我们首先回顾基于相关滤波器的跟踪框架，然后说明我们的无监督深度跟踪方法的细节其中，f是逐元素乘积，F（·）是离散傅立叶变换（DFT），F −1（·）是逆DFT，*表示复共轭运算。在每个子-在给定搜索块Z的情况下，可以在傅立叶域中计算对应的响应图RR= W <$Z = F−1（F<$（W）<$F（Z））。（三）上述DCF框架从使用模板补丁X学习目标模板W开始，然后将W与搜索补丁Z卷积以生成响应。最近，Siamese相关滤波器网络[49，54]将DCF嵌入到Siamese框架中，并构建了两个共享权重分支，如图所示第2段（b）分段。第一个分支是模板分支，它以模板片X为输入，提取其特征，通过DCF进一步生成目标模板第二个是搜索分支，初始标签特征#1响应#2响应#1伪标签一致性损失CNN#2CNNCNNCNN相关滤波器相关滤波器#1#2#1#2反向跟踪使用伪标签一致性损失计算前向跟踪后向跟踪模板搜索模板搜索Σ13112.我的宝贝将搜索块Z作为特征提取的输入。然后将目标模板与搜索补丁的CNN特征卷积以生成响应图。Siamese DCF网络的优点在于，特征提取CNN和相关滤波器都被制定为端到端框架，因此学习到的特征与视觉跟踪场景更相关。一致性损失计算。经过前后向跟踪，得到了响应图RT. 理想情况下，RT应该是高斯标记，峰值位于初始目标位置。换句话说，RT应该与最初给定的标签YT一样相似。因此，可以通过如下最小化重构误差来以无监督的方式训练表示网络kθ（·）3.2. 无监督学习原型给定两个连续的帧P1和P2，我们裁剪伦=RT-YT2.（六）模板和从它们中搜索补丁。通过进行前向跟踪和后向验证，所提出的框架不需要对监督训练进行地面实况最初的区别我们执行计算损失的反向传播，更新网络参数。在反向传播过程中，我们遵循Siamese相关滤波器方法[54，59]来更新网络：P1中的边界框和预测边界框将为网络学习制定一致性损失。Lun温度θ（T）=F−1Lun（F（⋆联合国（F（向前追踪。我将继续努力，创造属于自己的辉煌。Lun= F−1。Lun好吧关系过滤器网络跟踪初始包围盒重新，在帧P1中的gion。在从第一帧P1裁剪模板块T之后，对应的目标模板WT∂ϕθ(S)（F（（七）可以计算为：-1。F（θ（T））<$F<$（YT）<$F<$（（T））<$ F（（T））+λ3.3. 无监督学习的改进所提出的无监督学习方法构造目标函数的基础上的一致性，θθRT和YT。在实践中，跟踪器可能偏离其中，θ（·）表示具有可训练网络参数θ的CNN特征提取操作，YT是模板补丁T的标签。这个标签是一个高斯响应中心-在初始边界框中心处进行线列一旦我们获得了学习的目标模板WT，来自帧P2的搜索块S的响应图可以通过下式计算：RS=F−1（F<$（WT）<$F（<$θ（S）。（五）如果面片S的真实高斯标号是可用的，则可以通过计算RS与真实高斯标号之间的L2距离来训练网络在下文中，我们展示了如何通过利用反向轨迹验证来训练没有标签的网络向后跟踪。在生成帧P2的响应映射RS之后，我们创建以其最大值为中心的伪高斯标签，其由YS表示。在反向跟踪中，我们在搜索补丁和模板补丁之间切换角色通过将S作为模板片，我们使用伪标签YS生成目标模板WS。目标模板WS可以使用等式（1）来学习。（4）用S代替T，用YS代替YT。然后，我们通过Eq.（5）用WS代替WT，用T代替S。请注意，我们只使用一个Siamese相关滤波器网络来向前和向后跟踪。网络参数θ在跟踪步骤期间是目标在前向跟踪过程中，但在后向过程中仍然返回到原始位置。然而，由于预测的一致性，所提出的损失函数并不惩罚这种偏差同时，原始视频可能包含无信息甚至损坏的训练样本，这些样本具有遮挡，这会使无监督学习过程恶化。我们提出了多帧验证和成本敏感的损失来解决这些限制。3.3.1多帧验证我们提出了一种多帧验证方法，以减轻不准确的定位问题，这是不惩罚的方程。（六）、我们的直觉是在向前和向后跟踪过程中涉及更多的帧，以减少验证失败。Eq.中的重建误差（6）倾向于被放大，并且计算的损失将有助于训练过程。在无监督学习期间，我们涉及另一帧P3，它是P2之后的后续帧。我们从P2中裁剪出一个搜索补丁S1，从P3中裁剪出另一个搜索补丁S2.如果生成的响应图RS1不同于其对应的地面实况响应，则该误差在下一帧P3中趋于变得更大。结果，在向后跟踪中更可能破坏一致性，并且生成的响应图RT更可能偏离YT。通过简单地在向前和向后跟踪期间涉及更多的搜索补丁，WT=F、（四）+、.1312S1S2S1不2运动˜˜运动Σ2下降运动我我2我2运动S1不 2S2S12我1ii模版补丁搜索补丁#2模版补丁搜索修补程序#1#1 #2#1...#3偶然成功错误累积搜索修补程序#2未标记的野生模板或搜索补丁图3.单帧验证和多帧验证。单帧验证中的不准确定位可能无法捕获，如左图所示通过涉及更多帧，如右图所示，我们可以累积定位误差以打破图4.训练样本生成的说明。所提出的方法简单地作物和调整大小的中心区域从未标记的视频作为训练补丁。在向前和向后跟踪期间的预测一致性。其中R1和Ri是第i列将更有效地惩罚不准确的定位，如图所示3 .第三章。在实践中，我们使用三个帧来验证，改进的一致性损失被写为：Lun=RT−YT2，（8）其中RT是在反向跟踪步骤期间由附加帧生成的响应图。ing对，Yi和Yi分别是对应的初始和伪标签。当量（9）计算从帧P1到P2和从帧P2到P3的目标运动差。Ai的较大值指示目标在该连续轨迹中经历较大的移动另一方面，我们可以解释，大值的Ai代表了硬训练对，网络应该更加关注。我们将运动权重和二进制权重归一化如下，3.3.2成本敏感损失A我Aidrop A我运动我们在第一帧P1中随机初始化边界框区域以用于前向跟踪。该边界框区域norm=ni=1 A我下降A我运动、（10）可以包含有噪声的背景上下文（例如，闭塞目标）。图5示出了这些区域的概览。为了减轻背景干扰，我们提出了一种成本敏感的损失，以排除网络训练的噪声样本。其中n是小批量中的训练对的数量小批量中的最终无监督损失计算如下：nL=Ai·R−Y。（十一）在无监督学习过程中，我们从训练序列中构建多个训练对每个训练联合国i=1规范 ¨TT¨2一对由帧P1中的一个初始模板块T和分别来自后续帧P2和P3的两个搜索块S1和S2这些训练对形成训练批来训练暹罗网络。在实践中，我们发现很少有损失极高的训练对会阻止网络训练收敛。为了减少噪声对的贡献，我们排除了10%的包含高损失值的训练对它们的损失可以用Eq.（八）、为此，我们将二元权重Ai分配给每个训练对，并且所有权重元素形成权重向量Adrop。它的10%的元素是0，其他的是1。除了噪声训练对之外，原始视频还包括大量仅包含背景或静止目标的无信息图像块。对于这些补丁，对象（例如，天空、草或树）几乎不动。直觉上，大幅度运动的目标对网络训练的贡献更大.因此，我们为所有训练对分配运动权重向量Amotion 每个元素Ai可以计算iA=+，（9）3.4. 无监督训练详情网络结构。我们遵循DCFNet [54]使用只有两个卷积层的浅连体网络。这些卷积层的滤波器大小为3×3×3×32和3×3×32×32。此外，我们认为，采用局部响应归一化（LRN）层，卷积层的结束。这种轻巧的结构可以实现非常高效的在线跟踪。培训数据。我们选择广泛使用的ILSVRC 2015[42]作为我们的训练数据，与现有的苏-跟踪器在数据预处理步骤中，现有的监督方法[1，49，54]需要每个帧的地面实况标签。同时，它们通常丢弃目标被遮挡的帧，或者目标部分在视野之外的帧，或者目标很少出现在跟踪场景中的帧（例如，蛇）。这需要耗时的人机交互来预处理训练数据。相比之下，我们不预处理任何数据，只是在每帧中裁剪中心补丁。补丁大小是整个图像的一半，并进一步调整为125×125，··1313[80.6]第八季UDT-弱[78.9]UDT-更多数据[76.9][76.7]第二季UDT [76.0]UDT-标准损失[74.5]UDT-单轨迹[73.2]成功率OPE的精密度图1OPE的成功图10.9 0.90.8 0.80.7 0.70.60.50.40.30.20.100 10 20 30 4050定位误差阈值（像素）0.60.50.40.30.20.100 0.2 0.4 0.6 0.81重叠阈值图5. ILSVRC 2015 [42]中随机裁剪的中心贴片示例。大多数补丁包含有价值的内容，而有些则不太有意义（例如，最后一行的补丁）。如图所示的网络输入。4.第一章我们从视频中的连续10帧中随机选择三个裁剪的补丁。我们将三个补丁中的一个设置为模板，其余的作为搜索补丁。这是基于假定位于中心的目标对象不太可能在短时间内移出裁剪区域。我们跟踪出现在裁剪区域中心的对象，而不指定它们的类别。裁剪区域的一些五、3.5. 在线对象跟踪在离线无监督学习之后，我们在线跟踪目标对象，然后进行正向跟踪，如第二节所示。3.2.为了适应对象外观变化，我们在线更新DCF参数如下：Wt=（1−αt）Wt−1+αtW，（12）其中αt∈[0，1]是线性插值系数。目标比例通过具有比例因子 {a， |a=1. 015 ， s={-1 ， 0 ， 1}}followowing[10]. 我们将所提出的无监督深度跟踪器表示为UDT，其仅使用标准的增量模型更新和尺度估计。此外，我们使用了一个先进的模型更新，自适应地改变αt以及一个更好的 DCF 公式 [7] 。改进后的跟踪器记为UDT+。4. 实验在本节中，我们首先分析我们的无监督学习框架的有效性。然后，我们在标准基准上与最先进的跟踪器进行比较，包括OTB-2015 [57]，Temple-Color [29]和VOT-2016 [21]。4.1. 实验细节在我们的实验中，我们使用了动量为0.9的随机梯度衰减（SGD）和权重衰减图6.OTB-2015数据集上不同配置的UDT跟踪器的精度和成功图[57]。在腿端，我们显示了在20像素阈值和曲线下面积（AUC）得分的距离精度。0.005来训练模型。我们的无监督网络训练了50个epoch，学习率从10−2到10−5呈指数衰减，小批量大小为32。所有的实验都在4.00GHz Intel Core I7- 4790 K和NVIDIA GTX 1080Ti GPU的计算机上执行。在OTB-2015 [57]和TempleColor [29]数据集上，我们使用具有20像素距离精度（DP）和重叠成功图的曲线下面积（AUC ）的一次通过评估（ OPE）。在VOT2016 [21]上，我们使用预期平均重叠（EAO）来衡量性能4.2. 消融研究和分析无监督学习和监督学习我们使用相同的训练数据[42]通过完全监督学习来训练我们的网络。图图6显示了评估结果，其中完全监督的训练配置在AUC分数下将UDT提高了3%稳定的训练。我们通过使用不同的配置来分析我们的稳定训练的有效性。图6示出了多个学习的跟踪器的评估结果。UDT-StandardLoss指示来自跟踪器的结果在不使用硬样品重新称重的情况下学习（即，在Eq.（9））。UDT-单轨迹表示仅使用第二节中的原型框架学习的跟踪器的结果。3.2.结果表明，多帧验证和代价敏感损失提高了准确性。使用高质量的训练数据。我们通过使用高质量的训练数据来分析性能变化。在ILSVRC 2015 [42]中，我们没有随机裁剪补丁，而是添加了从[-20，+20]像素到地面的偏移量用于训练样本收集的真值边界框这些补丁包含比随机裁剪的更有意义的对象结果表明，该方法是可行的。6表明我们的跟踪器使用弱标记样本（即，UDT-弱）产生与有监督聚类相当的结果。注意，通过现有对象检测器或光流估计器预测的目标位置通常在相对于地面实况的20个像素偏移内。这些结果表明，当使用较少的交流电源时，UDT实现了与监督配置UDT-完全监督[62.6]UDT-弱[61.4]UDT-更多数据[60.1]UDT-Finetune [60.0]UDT [59.4]UDT-标准损失[58.6]UDT-单轨迹[57.4]查准率1314表1.在OTB-2015基准测试中，与完全监督的基线（左）和最先进的（右）跟踪器的比较结果[57]。评价指标为AUC评分。我们的无监督UDT跟踪器与左侧所示的基线方法相比表现良好，而我们的UDT+跟踪器与右侧所示的最新最先进的监督跟踪器实现了相当的结果。跟踪器SiamFC[1]第一章DCFNet[五十四]CFNet[49个]UDT D暹罗[14个]东[17个]HP[13个国家]sa-Siam[第十五条]SiamPRN[27日]RASNet[55个]SACF[59个]暹罗里[12个]RT-MDNet[19个]MemTrack[58个]结构暹罗[60个]UDT+AUC评分（%）58.258.056.859.460.562.960.165.763.764.263.359.265.062.662.163.2速度（FPS）8670657025159695016083238650504555精选由现有检测或流估计方法产生的标签少镜头域自适应。我们从OTB-2015 [57]中的视频中收集前5帧，第一帧中只有地面实况边界框可用。使用这些有限的样本，我们使用前向-后向管道通过100次迭代微调我们的网络这个训练过程大约需要6分钟。结果（即，UDT-Finetune）10.90.80.70.60.50.40.30.20.10OPE的精密度图ACT [84.2]UDT+[83.1]ACFN [79.4]SiamFC [77.1]CSR-DCF [77.0]UDT [76.0]SCT [76.0]CFNet [74.8]KCF [69.6]DSST [68.9]0 10 20 30 4050定位误差阈值（像素）10.90.80.70.60.50.40.30.20.10OPE的成功图UDT+[63.2]ACT [62.5]UDT [59.4]SiamFC [58.2]CSR-DCF [58.1]ACFN [57.0]CFNet [56.8]SCT [53.7]DSST [51.8]KCF [48.5]0 0.2 0.4 0.6 0.81重叠阈值显示性能进一步增强。我们的离线无监督训练学习一般特征表示，可以将其转移到特定领域（例如，OTB）图7.OTB-2015数据集[57]上最近实时跟踪器的精度和成功图使用少量镜头适应。这种域自适应与MDNet [37]相似，但我们的初始参数是以无监督的方式离线学习的。采用更多未标记的数据。最后，我们利用更多未标记的视频进行网络训练。这些额外的原始视频来自OxUvA基准[48]（总共337个视频），这是Youtube-BB的子集[41]。图六、0.90.80.70.60.50.40.30.20.1OPE的精密度图0.90.80.70.60.50.40.30.20.1OPE的成功图我们的UDT-MoreData跟踪器获得性能改进-00 10 20 30 40 50定位误差阈值（像素）00 0.2 0.4 0.6 0.8 1重叠阈值片段（0.9% DP和0.7% AUC），说明未标记数据可以推进无监督训练。然而，在下文中，我们仍然使用仅在[42]上训练的UDT和UDT+跟踪器进行公平比较。4.3. 最新技术水平比较OTB-2015数据集。我们使用最先进的实时跟踪器（包括 ACT [4] 、 ACFN [6] 、 CFNet [49] 、 SiamFC [1] 、SCT）[5]， CSR-DCF [32]，DSST [8]和KCF [16]使用预处理。Sion和Success plots度量。图7和表1表明，所提出的无监督跟踪器UDT与基线监督方法（即，SiamFC 和CFNet）。同时，建议的UDT跟踪器超过DSST算法的一个很大的保证金。由于DSST是一种基于DCF的跟踪器，具有精确的尺度估计，性能的提高表明我们的无监督特征表示比经验特征更有效。在图7和表1中，我们没有与一些显著的非实时跟踪器进行比较。例如，MDNet [37]和ECO [7]可以在OTB-2015数据集上产生67.8%和69.4%的AUC，但它们远非实时。在表1中，我们还与最近提出的监督跟踪器进行了比较这些最新的方法主要基于Siamese网络，并使用ILSVRC进行训练[42]。一些跟踪器（例如，SA-Siam[15]和RT-MDNetUDT+[71.7]澳门银河[68.8]UDT [65.8]CSR-DCF [64.7]SCT [62.7]CFNet [60.7]KCF [54.9]DSST [53.4]UDT+[54.1]UDT [50.7]SiamFC [50.3]CSR-DCF [47.7]SCT [46.6]CFNet [45.6]DSST [40.5]KCF [38.7]查准率查准率成功率成功率1315图8. Temple-Color数据集[29]最新的实时跟踪器。[19]）采用预先训练的CNN模型（例如，AlexNet[23]和VGG-M [3]）用于网络初始化。SiamRPN[27]还使用了来自Youtube-BB数据集的更多标记的训练视频[41]。与现有方法相比，所提出的UDT+跟踪器不需要数据标签或现成的深度模型，同时仍然实现了相当的性能和效率。模板颜色数据集。Temple-Color [29]是一个更具挑战性的基准，具有128色视频。我们将我们的方法与第二节中所示的最先进的跟踪器进行四点三。所提出的UDT跟踪器对SiamFC和CFNet表现良好，如图所示。8.VOT2016数据集。此外，我们报告了VOT2016基准的评估结果[21]。根据VOT报告[22]，预期如表2所示，我们的UDT跟踪器的性能与基线跟踪器相当（例如，SiamFC）。改进的UDT+跟踪器与最先进的全监督跟踪器（包括SA-Siam [15]，Struct- Siam [60]和MemTrack [58]）相比表现良好。属性分析。在OTB-2015基准上，我们毛皮-1316706050403020100UDT-完全UDT SiamFC CFNet图9.基于OTB-2015数据集的属性评估[57]。这11个属性分别是背景杂波（BC）、变形（DEF）、快速运动（FM）、平面内旋转（IPR）、照明变化（IV）、低分辨率（LR）、运动模糊（MB）、遮挡（OCC）、平面外旋转（OPR）、视图外（OV）和尺度变化（SV）。表2.在VOT2016基准上与最先进的基线跟踪器进行比较[21]。评价指标包括准确性、失效（超过60个序列）和预期平均重叠（EAO）。向上的箭头表示较高的值对于相应的度量更好，反之亦然。跟踪器准确度（↑）失效（↓）EAO（↑）FPS（↑）ECO [7]0.54-0.3746C-COT [11]0.52510.3310.3PyMDNet [37]--0.3042新加坡[15]0.53-0.29150泰国[60]--0.26445[第58话]0.53-0.27350SiamFC [1]0.53990.23586SCT [5]0.481170.18840DSST [8]0.531510.18125KCF [16]0.491220.192170UDT（我们的）0.541020.22670UDT+（我们的）0.53660.30155如图所示，他们分析了不同挑战下的性能变化。9.第九条。在大多数情况下，建议的UDT跟踪器优于SiamFC和CFNet跟踪器。与全监督UDT跟踪器相比，无监督UDT在光照变化（IV）、遮挡（OCC）和快速运动（FM）场景下不能实现类似的跟踪精度这是因为目标外观变化在这些视频序列中是如果没有强有力的监督，建议的跟踪器是不是有效的学习一个强大的特征表示，以克服这些变化。定性评价。我们在视觉上将所提出的UDT跟踪器与一些监督跟踪器（例如，ACFN、SiamFC和CFNet）和基线DCF跟踪器（DSST）八段极具挑战性的视频虽然建议的UDT跟踪器没有采用在线改进，我们仍然观察到UDT有效地跟踪目标，特别是UDT SiamFC CFNet ACFN DSST图10.我们提出的UDT和其他跟踪器（包括SiamFC [1]，CFNet [49]，ACFN [6]和DSST）的[8]来自OTB-2015的8个挑战视频从左到右和从上到下分别是篮球，董事会，铁人，汽车，跳水，龙宝宝，博尔特和老虎1在具有挑战性的铁人和跳水视频序列如图所示。10个。值得一提的是，这样一个强大的跟踪器是使用未标记的视频学习的，没有地面实况监督。限制. （1）如属性分析中所讨论的，我们的无监督特征表示可能缺乏处理复杂场景的对象信息。(2)由于我们的方法涉及向前和向后跟踪，计算负荷是另一个潜在的缺点。5. 结论在本文中，我们提出了如何训练一个视觉跟踪器使用未标记的视频序列在野外，这是很少研究的视觉跟踪。通过设计一个无监督的Siamese相关滤波器网络，我们验证了我们的前向后无监督训练流水线的可行性和有效性。为了进一步促进无监督训练，我们扩展了我们的框架，考虑多帧，并采用成本敏感损失。大量的实验表明，所提出的无监督跟踪器，没有花里胡哨，作为一个坚实的基线，并实现了与经典的完全监督跟踪器的结果。最后，无监督框架在视觉跟踪中显示出诱人的潜力，例如利用更多的未标记数据或弱标记数据来进一步提高跟踪精度。鸣谢。这项工作得到了博士的部分支持。后强根据合同编号973计划，2015CB351803和国家自然科学基金，合同号：61836011，及部分授予博士。周文刚，国家自然科学基金委，合同号：61822208和61632019，中国科协青年这项工作得到了中国国家重点研究发展计划（2016YFB1001003），STCSM（18DZ1112300 ）的部分支持。AUC评分（%）1317引用[1] LucaBertinetto，JackValmadre，JoaBertinetoFHenriques，AndreaVedaldi，and Philip HS Torr.用于对象跟踪的全卷积连体网络。在ECCV，2016年。[2] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。CVPR，2010。[3] 肯·查特菲尔德，凯伦·西蒙尼扬，安德里亚·维达尔迪，和安德鲁·齐瑟曼.魔鬼的回归细节：深入研究卷积网络。InBMVC，2014.[4] Boyu Chen，Dong Wang，Peixia Li，Shuang Wang，and Huchuan Lu.实时“演员-评论家”跟踪。在ECCV，2018。[5] Jongwon Choi、Hyung Jin Chang、Jiyeoup Jeong、Yian-nis Demiris和Jin Young Choi。使用注意调制分解与整合的视觉追踪。在CVPR，2016年。[6] Jongwon Choi，Hyung Jin Chang，Sangdoo Yun，TobiasFischer，Yiannis Demiris，and Jin Young Choi.用于自适应视觉跟踪的注意相关滤波网络在CVPR，2017年。[7] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在CVPR，2017年。[8] MartinDanelljan ， GustavHaüger ， FahadKhan ，andMichaelFelsberg.用于鲁棒视觉跟踪的精确尺度估计。InBMVC，2014.[9] MartinDanelljan，Gusta vH aüger，FahadShahbazKhan和Michael Felsberg。训练集的自适应净化：判别式视觉跟踪的统一公式在CVPR，2016年。[10] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。学习空间正则相关滤波器的视觉跟踪。在ICCV，2015年。[11] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。在ECCV，2016年。[12] Xingping Dong和Jianbing Shen。用于目标跟踪的连体网络中的三重态损失。在ECCV，2018。[13] Xingping Dong ， Jianbing Shen ， Wenguan Wang ， YuLiu，Ling Shao，and ZhaohPorikli.超参数优化用于连续深度q学习跟踪。在CVPR，2018年。[14] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。InICCV，2017.[15] Anfeng He ， Chong Luo ， Xinmei Tian ， and WenjunZeng.用于实时目标跟踪的双重连体网络。在CVPR，2018年。[16] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista. 用核相关滤波器进行高速跟踪。TPAMI，37（3）：583[17] 陈煌，西蒙·露西，德瓦·拉曼南。深度特征级联自适应跟踪的学习策略。InICCV，2017.[18] Jianglei Huang和Wengang Zhou。Re2ema：正则化和重新初始化的指数移动平均，用于对象跟踪中的目标模型更新。在AAAI，2019年。[19] Ilchae Jung 、 Jeany Son 、 Mooyeol Baek 和 BohyungHan。实时mdnet。在ECCV，2018。[20] Zdenek Kalal，Krystian Mikolajczyk，and Jiri Matas.跟踪-学习-检测TPAMI，34（7）：1409-1422，2012.[21] Matej Kristan ， Jiri Matas ， Ales Leonardis ， MichaelFelsberg ， LukaCehovin ， Gustav oFerna'ndez ，TomasVojir，Hager，andet al. The visual object trackingvot2016 challenge results.2016年ECCV研讨会[22] 马特·吉·克里斯坦、吉里·马塔斯、阿莱·莱昂纳迪斯、托姆·奥

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

无监督深度跟踪：无标签视频上的视觉跟踪

无监督连体跟踪的可靠性提升

基于深度神经嵌入的视频无监督学习

"深度学习视觉跟踪综述与评估

无监督夜间航空跟踪：基于UDAT框架的领域适应性研究

有监督深度学习变化检测和无监督深度学习变化检测方法区别

无监督深度图像先验(DIP)全程

设计并验证一种基于语义分割的无监督深度估计算法

基于深度学习的计算机视觉综合应用:自选图像或视频数据,利用深度学习算法(cnn、ga

深度学习有标签和无标签

基于深度学习的视觉场景识别研究内容

深度学习是不是无监督的？

基于单目视觉的深度估计方法

Python视频跟踪器

matlab目标跟踪

深度学习跟踪器是什么

基于深度学习的目标跟踪算法

视觉跟踪技术的科学问题

计算机视觉目标跟踪看法

传统图像处理的目标跟踪有哪些

最新资源