元更新器用于解决长期视觉跟踪中的问题

26 浏览量更新于2023-10-23 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6298使用元更新器的1 2 1∗1 1 4 3、戴凯南，张云华，王东，李建华，卢沪川，杨1大连理工大学信息与通信工程学院2阿姆斯特丹大学3中科智云科技有限公司4鹏程实验室dkn2014@mail.dlut.edu.cn，uva.nl，wdice@dlut.edu.cnjianhual@dlut.edu.cnlhchuan@dlut.edu.cn，xiaoyun.intellicloud.ai摘要长期视觉跟踪由于比短期跟踪更接近实际应用而受到越来越多的关注。大多数排名靠前的长期跟踪者采用离线训练的连体架构，因此，他们无法从在线更新的短期跟踪者的巨大进步中受益然而，由于长期的不确定性和噪声观测，直接引入基于在线更新的跟踪器在这项工作中，我们提出了一个新的离线训练元更新，以解决一个重要的，t但未解决的问题：跟踪器是否已准备好在当前帧中更新？所提出的元更新器可以有效地以顺序方式集成几何、判别和外观线索，然后使用设计的级联LSTM模块来挖掘顺序信息我们的元更新器学习二进制输出来指导跟踪器的更新，并且可以很容易地嵌入到不同的跟踪器中。这项工作还引入了一个长期跟踪框架，包括一个在线本地跟踪器，一个在线验证器，一个基于SiamRPN的重新检测器和我们的Meta更新器。在VOT 2018 LT、VOT 2019 LT、OxUvALT、TLP和LaSOT基准测试上的大量实验结果表明，我们的跟踪器的性能明显优于其他计算算法。我们的项目可以在网站上找到：https://github.com/Daikenan/LTMU。1. 介绍视觉跟踪的研究已经开始从短期跟踪转向大范围的长期跟踪，大致有两个原因。首先，长期跟踪比短期跟踪更接近实际应用。短期跟踪基准（OTB [46]，VOT2018 [23]，TC128 [31]，仅举几例）中的序列平均长度通常处于第二水平，而平均长度通常处于第二水平。* 通讯作者：王东博士，wdice@dlut.edu.cn我们原子 *_LT原子 *原子 *原子 * LT我们CLGSSiamDW LTF-score0.5270.6510.6970.6740.665PR0.5890.6850.7210.7390.697Re0.4770.6210.6740.6190.636图1. VOT 2019 LT上代表性长期跟踪结果“ATOM*”是我们基于ATOM的本地跟踪器[ 9 ]，“Ours”表示具有元更新的长期跟踪器。“ATOM* LT”表示“我们的”，没有元更新程序。“CLGS”请参阅第3节和第4节了解更多详情。长期跟踪数据集中的平均帧长度（如VOT 2018 LT[23]、VOT 2019 LT [24]和OxUvALT [42]）至少在分钟的水平上。其次，长期跟踪任务还需要跟踪器具有处理频繁消失和再现的能力（即，具有很强的再检测能力）1.基于深度学习的方法已经主导了短期跟踪领域[30，47，35]，从一次性学习[41，2，15，28，26，12，53，29]或在线学习[37，10，8，21，40，7，49，50，9]。中间-实际上，后一种方法（例如，ECO [8]，ATOM[9]）更准确（训练数据更少），但比for-mer（例如，SiamFC [2]、SiamRPN [28]）。一个奇怪的现象是，很少有领先的长期跟踪器利用在线更新的短期跟踪器进行本地跟踪，1有关长期跟踪的更多资源，请访问github.com/wangdongdut/Long-term-Visual-Tracking。6299ing. VOT2018LT的获奖者MBMD [51]利用一个经过训练的回归网络直接回归局部区域中的目标边界框，并使用在线学习的最近的SPLT [48]方法利用[51]中相同的 SiamRPN 模型进行局部跟踪。 SiamFC+R [42] 是OxU-vALT报告中的最佳方法，为原始SiamFC [2]配备了简单的重新检测方案。一个重要的原因是，在线更新是一把双刃剑的跟踪。在线更新捕捉目标和背景的外观变化，但不可避免地污染了模型与噪声样本。由于长期不确定的观察结果，在线更新的风险在长期跟踪中被放大。基于上述分析，本文试图从两个方面来提高系统的长期跟踪性能首先，我们设计了一个长期的跟踪框架，利用在线更新的跟踪器进行本地跟踪。如图1所示，通过将 ATOM* 扩展为长期跟踪器（ ATOM*LT），跟踪性能得到了显著改善，但仍然比CLGS和SiamDW LT方法差。其次，我们提出了一种新的元更新器，以有效地指导跟踪器的更新。图1表明，在添加我们的元更新器后，所提出的跟踪器实现了非常有希望的跟踪结果。我们的主要贡献可归纳如下。• 提出了一种新的离线训练的元更新器，以解决一个重要但未解决的问题：呃准备好在当前帧中更新了吗？所提出的元更新器有效地指导了在线跟踪器的更新，不仅方便了跟踪器，而且具有良好的泛化能力。• 在基于SiamRPN的重检测器的基础上，引入了一个长期跟踪框架，文件，和一个在线本地跟踪与我们的元更新。与其他方法相比，我们的长期追踪框架可受惠于低风险的在线更新短期追踪工具的优势。• VOT 2018 LT、VOT 2019 LT、OxUvALT、TLP和LaSOT长期基准测试表明，所提出的方法在性能上大大优于现有技术的跟踪器2. 相关工作2.1. 长期视觉跟踪虽然大规模长期跟踪基准-s [23，42]自2018年开始出现以来，研究人员一直重视长期跟踪任务（如基于关键点[17]，基于建议[54]，基于检测器[22，32]等方法）。经典算法是跟踪-学习-检测（tracking-learning-detection，ARMA）方法[22]，其将长期跟踪作为本地跟踪器（具有前向-后向光学滤波器）和全局重新检测器（具有弱分类器）。遵循这个想法，许多研究人员[34，32，42]试图用不同的本地跟踪器和不同的全局重检测器来处理长期跟踪问题。其中，本地跟踪器和全局重检测器也可以采用相同的强大模型[32，26，51，48]，配备有重检测方案（例如，随机搜索和滑动窗口）。这些跟踪器的一个关键问题是如何在局部跟踪器和全局重检测器之间切换。通常，他们使用本地跟踪器的输出来进行自我评估，即，以确定跟踪器是否丢失目标这种方式具有高风险，因为本地跟踪器的输出并不总是可靠的，并且有时会意外地误导切换器。VOT2018LT的获奖者MBMD方法[51]通过额外的在线更新深度分类器进行本地和全局交换。该跟踪器利用基于SiamPRN的网络，在局部搜索区域或每个滑动窗口中回归目标。最近的S-PLT方法[48]利用[ 51 ]中相同的SiamPRN进行跟踪和重新检测，用一个线性训练的匹配网络代替[ 51 ]中的在线验证器，并通过使用他们提出的略读模块来加速跟踪器。一个奇怪的现象是，大多数排名靠前的长期跟踪器（如MBMD [51]，SPLT[48]和SiamRPN++[26]），还没有采用优秀的在线更新跟踪器（例如，E- CO[8]、ATOM [9]）进行本地跟踪。其中一个根本原因是长期不确定的观察结果导致在线更新的风险因长期跟踪而在这项工作中，我们试图通过设计一个高性能的长期跟踪与元更新器来解决这个问题2.2. 视觉跟踪的在线更新对于视觉跟踪，在线更新起着至关重要的作用以在跟踪过程中捕获目标及其周围背景的外观变化。为了实现这一目标，设计了许多方案，包括模板更新[6，55，29]、增量子空间学习[39，43]，在线学习分类器[16，37，8，9]，仅举几例。然而，在线更新在平衡动态信息描述和意外噪声引入方面是一把双刃剑。当目标消失时，长时间积累误差、收集不适当的样本或过度拟合可用数据很容易降低跟踪器的性能并导致跟踪漂移，特别是对于长期跟踪。为了应对这一困境，至少从两个方面做了许多努力。第一个目标是通过恢复或聚类噪声观测来提取在线收集的样本[43，8]。另一个有效的尝试是设计一些准则来评估当前跟踪结果的可靠性，以去除不可靠的样本或拒绝不适当的更新。这些标准包括置信度分数[37]、最大（MAX）响应[9]、峰旁瓣比（PSR）[9]、平均6300搜索区域切换下一帧全球检测找到目标框全局搜索结果复位验证器更新？更新？Meta-更新器本地跟踪SiamRPN候选框验证器置信度分数本地跟踪器平均峰-相关能量[44]和MAX-PSR [32]。这些方法通常利用跟踪器但是，利用跟踪器的输出对跟踪器的可靠性进行自我评估在这项工作中，我们提出了一种新的神经网络训练的元更新器，以顺序的方式整合多个线索。元更新器输出一个二进制的s-核来指示跟踪器是否应该在当前帧中更新，这不仅显着提高了我们的长期跟踪器的性能，而且很容易被嵌入到其他在线更新的跟踪器。最近，已经提出了一些基于元学习的方法[25，38，27，18，5，29]所有这些方法集中于解决有效地和/或有效地更新跟踪器的外观模型）。相比之下，我们的元更新器被设计为处理“何时更新”的问题，它可以与许多“如何更新”的算法相结合，以进一步提高跟踪性能图2.拟议的长期跟踪框架。更好地查看放大的颜色。3. 使用Meta-Updater进行长期跟踪3.1. 长期跟踪框架总体框架如图2所示。在每个帧时，局部跟踪器以局部搜索区域为输入，输出跟踪对象的包围盒。然后，验证器评估当前跟踪结果的正确性。如果输出验证分数大于预定义阈值，则跟踪器将继续在下一帧中进行局部跟踪。如果分数小于阈值，我们使用更快的R-CNN检测器[4]来检测下一帧中的所有可能的候选者，并裁剪关于每个候选者的局部搜索区域。然后，SiamPRN模型[51]将每个区域作为输入并输出相应的候选框。这些边界框被发送到验证器，用于识别是否存在目标。当验证者发现目标时，本地跟踪器将被重置以适应当前目标的出现。在进入下一帧之前，收集所有历史信息并将其发送到建议的元更新器中。最后，元更新器引导在线跟踪器在这项工作中，我们实现了一个改进的ATOM跟踪器（表示为ATOM跟踪器）作为我们的本地跟踪器，它应用了ATOM 方法 [ 9 ] 的分类分支进行定位，并利用SiamMask 方法 [45] 进行规模估计 2 。我们使用RTMDNet方法[21]作为我们的验证器，其验证阈值设置为0。力量与缺陷与最近排名靠前的长期跟踪器（如MBMD[51]和S-PLT [48]）相比，我们框架的主要优势在于将在线更新的本地跟踪器嵌入到长期跟踪框架中。这一思想使长期跟踪解决方案受益于短期跟踪器的进展，并尽可能统一短期和长期跟踪问题。一个不完美的地方是，由于长期的不确定观测，在线更新的风险被放大了（因为除了第一帧之外，任何帧的结果在跟踪过程中都没有绝对的准确性）。因此，我们提出了一种新的元更新器来处理这个问题，并获得更强大的跟踪性能。3.2. 元更新器为了捕捉目标及其周围背景的外观变化，必须更新跟踪器。然而，不适当的更新将不可避免地使跟踪器退化，并导致跟踪漂移。为了解决这个难题，我们试图回答一个重要但尚未解决的问题：跟踪器是否已准备好在当前帧中更新？具体来说，我们提出了一个Meta-更新器确定跟踪器是否应该更新-无论是否在当下，通过整合历史跟踪结果。这些历史结果包括几何的，歧视性的，和外观线索在一个连续的方式。我们基于在线跟踪器在每个帧中输出响应图（例如， ECO [8] 、 ATOM[9]）。很容易将我们的Meta更新器推广到其他类型的跟踪器（如MDNet [37]）。3.2.1元更新程序的顺序信息给定在线跟踪器T，在第t帧中，我们将输出响应图表示为Rt，将输出边界框表示为bt，并且将结果图像（根据bt裁剪）表示为It，re-t。第一帧中的目标模板表示为I0。直观的解释如图3所示。目标模板响应图结果图像۷۷包装盒搜索区域帧t图3.对本作品中某些概念的直观解释我们开发我们的元更新挖掘序列2在原始的ATOM方法[9]中，规模估计是通过一个经过训练的实例感知IoUNet [20]进行的在实践中，我们发现SiamMask方法[45]可以提供更准确的尺度估计，部分原因是对像素注释的强有力监督。6301不S不不不h =o不不¨图4.不同置信度分数与代表性框架的图示。更好地查看放大的颜色。图5.提出了三级级联LSTM。其中fA。.，WA是将目标和候选嵌入到判别欧几里得空间中的嵌入函数WA代表其职业培训。网络工作参数。作为在[33]中提出，网络f A.，WA可以是有效的-信息，集成几何，歧视，和ap-在给定的时间段内，几何提示。在第t帧中，跟踪器输出边界框bt=[xt，yt，wt，ht]作为跟踪状态，其中（x，y）表示左上角的水平和垂直坐标，（w，h）是目标的宽度和高度。该边界框本身仅反映当前环境中被跟踪对象的几何形状。用三重和分类损失函数的组合训练。分数SA测量跟踪结果It和目标模板I0之间的距离。该模板匹配方案不受噪声观测的影响。顺序信息。我们将上述几何、判别和外观线索集成到序列矩阵中，如Xt= [xt-t+1;. ;xt−1;xt] ∈Rd×ts，其中xt∈Rd×1是由sC集中的列向量，frame. 然而，consec-RAt中的一系列边界框有效帧包含有关目标的重要运动信息，例如速度、加速度和尺度变化。辨别线索。视觉跟踪可以被认为是一个分类任务，以区分目标从其周围的背景，因此，一个在线跟踪器应该有良好的判别能力本身。我们将置信度s-core s C定义为响应图Rt（1）的最大值。对于不输出任何响应图的一些跟踪器（例如，vt，s t，和bt。 d是集中线索的维度，而ts是一个时间步长，以平衡历史经验，目前的观察。这个顺序信息可以通过下面的级联LSTM方案进一步挖掘。3.2.2级联LSTMLSTM。在这里，我们简要介绍了LSTM的基本思想和概念[14]，使本文自成一体。其数学描述如下。ft =σ（Wf xt + Uf ht−1 + bf）MDNet [37]），获得这种信心也不难⎪⎨it =σ（Wixt+Uiht−1 + bi）根据分类概率或边际得分。s C= max（Rt）。（一）图4表明，在跟踪过程中，置信度得分并不稳定（见第89帧和第261帧）。在这项工作中，我们还利用卷积神经网络（CNN）来彻底挖掘响应图中的信息，并获得响应向量vR，ot=σ（Woxt+ Uoht−1+ bo），ct= ft⎩t t t其中σ（. ）表示逐元素S形函数，丹（. ）代表逐元素正切运算，⊙是元素乘法。W、U和b表示需要学习的权重矩阵和偏置向量下标f，i，o和c代表遗忘门，输入vR=fR .ΣRt; WR 、（二）栅极、输出栅极和存储器单元。其他变量定义如下。 (a)xt：输入向量，其中f R（. ;。）表示具有参数WR的CNN模型。输出向量 vR隐式地编码当前帧中的跟踪器的可靠性信息，并且由后续模型进一步处理外观提示。对跟踪器的可靠性及其输出的自我评估对外观变化敏感因此，我们采用模板匹配方法作为重要补充，并将外观评分定义为LSTM单元;（b）ft：遗忘门的激活向量;(c) it：输入门的激活向量;（d）〇t：输出门的激活向量;（e）ht：隐藏状态向量;以及(f)ht：单元状态向量。三级级联LSTM。在获得第3.2.1节中给出的序列特征Xt之后，我们将其馈送到三级级联LSTM模型中，如图5所示。的三个LSTM的时间步长逐渐减小以提取顺序信息并聚焦于最近帧。投入产出关系见表1。超级-A？Ast=f.ΣIt，WA-fA .I0，WAΣ¨（2）（3）ିିି�ଵଵି�ଵିିି�ଵଵିିି�ଵଶି�ଵ最新进展LSTMLSTMିିି�ଵଵଵଶିିି�ଵଶିିି�ଵLSTM测试ଷଷି�ଵଵଶଷFC………………………6302不脚本i表示第i阶段LSTM。最后，输出h3由两个完全连接的-6303Y|不t−1不不不不表1.级联LSTM模型的输入输出关系输入xt − ts+1，.，xt − t1 + 1，.，xt − t2 +1，.，XtLSTM1→ LSTM2h 1，… h 1，… h 1; c 1t−t1+1t −t2+1t tLSTM2→ LSTM3h 2，.，氢，碳t−t2+1t t输出H3不ed层以生成二进制分类分数，指示跟踪器是否应该更新。3.2.3Meta-Updater培训样品采集。我们在不同的训练视频序列3上运行本地跟踪器，并记录跟踪结果。所有帧中的结果然后，我们将这些结果分为配备其元更新器MU（T）。MUk（T）是在第k次迭代之后学习到的元更新器（k= 0意味着没有元更新器）。K在本工作中被设置为33.2.4泛化能力前述介绍是关于输出响应图的在线更新的跟踪器。对于没有响应图的跟踪器（例如，MDNet [37]，RT-MDNet [21]），我们可以简单地移除子网fR，并使用剩余信息训练元更新器。对于一些跟踪器，这些跟踪器是在线更新的累积-.一系列时间片，表示为Y=vtvtt=tsΣ。...v=1随着时间的推移（如ECO [8]），我们的元更新器能够净化用于更新的样本池。用于v是视频索引，是培训的数量，昆斯湾以及tv是第v个视频的总帧t_t_h给定帧，如果元更新器的输出为0，则当前跟踪结果将不会添加到样本中Yv=vt−ts+1vt−ts+2、...、 yv，yv，其中ts表示池（即，不用于更新）。如果一个多-时间步。每个时间片yv包括边界框、响应图、响应分数和预测目标IM。第t帧中的年龄以及相应的目标模板。更多详细描述见第3.2.1节4.然后，我们确定Yv的标签为：.1，如果IoU（b v，g v）>0。5使用在线更新的跟踪器（例如我们的长期跟踪器，ATOM* 用于本地跟踪，RTMDNet用于验证），我们可以使用来自所有跟踪器的信息作为输入，只训练一个元更新器，然后使用它来指导所有的元更新器。l追踪器的更新。第4.3节显示了我们的元更新器l（Yv）=t t ，（4）t0，如果 IoU（bv，gv）= 03.3. 实现细节t t下面的所有网络都是使用随机梯度进行训练的。其中IoU代表Intersection-over-Union标准。IoU介于0和0之间的切片。5在培训阶段没有采用，以保证培训的持续性，聚散bv是第t帧中的输出边界框梯度体面的优化器，与0的势头。9 .第九条。训练样本均来自LaSOT [11]训练集。匹配网络fA. 匹配网络f A采用-tv5采用ResNet-50架构，拍摄107×107图像在视频V中，并且GT是对应的地面实况。等（4）表示确定给定时间片的标签基于目标在当前是否被成功定位来挖掘（即，第t个）帧。图6显示了用于训练元更新器的一些正面和负面样本算法1迭代训练方案对于k=，0;kK;k+，+do运行 T，MUk（T），并记录跟踪结果收集训练样本Yk及其标签Lk训练元更新器MUk+1（T）端模特训练在这项研究中，本地跟踪器和元更新器是紧密耦合的。跟踪器影响用于训练其元更新器的样本收集过程元更新器将改变跟踪器的性能，并进一步间接影响样本收集。因此，我们提出了一个迭代训练算法，如算法1所示。符号{T，MU（T）}用于表示本地跟踪器3对于每个序列，我们在第一帧中使用地面实况初始化目标，然后在后续帧中跟踪它。这严格遵循在线单目标跟踪的实验设置跟踪器以自己的方式在线更新。yv的含义与x t略有不同，因为CNN模型的参数也需要训练。5训练序列在每一帧中都注释了地面实况。补丁作为输入。对于每个目标，我们在每帧中随机采样地面实况周围的边界框。我们选择IOU大于0的补丁。7作为正数据，并使用来自基于SiamRPN的网络[51]但不属于目标的具有高置信度分数的框作为负数据。网络fA的批量大小是16，我们训练它60000次迭代。初始学习率为10- 4，每200000次迭代除以10。匹配网络在训练我们的元更新器的其余网络时被单独训练和固定。子网f R. 输入响应映射首先被调整为50 × 50，由两个卷积层处理，然后是全局平均池化层。输出为1×1×8矢量。该子网络与级联LSTM和两个完全连接的层联合训练具有完全连接层的LSTM。三阶段cas-caded LSTM在每个LSTM单元中具有64个单元。将Ts、T1和T2分别设置为20、8和3遗忘偏置设置为1。0的情况。输出最终被发送到两个具有64个隐藏单元的完全连接的层中，以获得最终的二进制值。LSTM的每个训练阶段的批量大小为16，并以10- 4的学习率通过100，000次迭代进行训练。4. 实验我们使用Tensor在PC机上实现了我们的跟踪器，该PC机具有Intel-i9 CPU（64 G RAM）和NVIDIAVy，y6304模板模板模板模板图6.用于元更新器训练的正样本和负样本的图示前两行显示了两个积极的例子，而最后两行显示了消极的例子。事实上，在帧之间没有间隔，间隔5仅仅是为了清晰的可视化。GTX2080Ti GPU（11G内存）。跟踪速度约为13fps。我们根据五个基准评估我们的跟踪器：VOT2018LT[23]，VOT2019LT [24]，OxU-[11][12][13][14][15][16][17][18][19]4.1. 定量评价表2.我们的跟踪器和15种最先进的方法在VOT2018LT数据集上的比较[23]。最好的三个结果分别以红色、蓝色和绿色显示。跟踪器根据F分数从上到下排列。Tracker F-score Pr Re LTMU（Ours）0.690 0.7100.672SiamRPN++0.629 0.649 0.6090.6160.6330.6002008 - 2009两年期达暹罗LT 0.607 0.6270.588PTAV +0.481 0.595 0.404FuCoLoT 0.480 0.539 0.432SiamVGG 0.459 0.552 0.3932017年12月31日西亚姆足球俱乐部0.4330.6360.328根据跟踪F分数对不同的跟踪器进行排序。Pr、Re和F-score的详细定义可以在VOT 2018挑战官方报告中找到[23]。我们将我们的跟踪器与官方跟踪器的VOT2018MBMD [51] 、 SiamRP- N++ [26] 和 SPLT[48]），并在表2中报告评价结果。结果表明，本文提出的跟踪器在性能上大大优于其它跟踪器.VOT2019LT. VOT2019LT [24]数据集包含50个视频，总共215294帧，是最新的长期跟踪数据集。每个序列平均10 个长期目标消失，每个平均持续 52 帧。与VOT2018LT [23]相比，VOT2019LT带来了更多的挑战，因为它引入了15个更困难的视频和一些不常见的目标（例如，船、公牛和降落伞）。其评价方案与VOT 2018 LT 相同。表 3 显示，我们的追踪器在VOT2019LT挑战赛中获得第一名。表3.我们的跟踪器和八个竞争算法在VOT2019LT数据集上的性能评估。最好的三个结果分别以红色、蓝色和绿色显示。使用F分数测量将跟踪者从上到下排名。SiamFCDet0.401 0.4880.341追踪器F-scorePRReHMMTxD0.335 0.3300.339LTMU（我们的）0.6970.7210.674SAPKLTF0.323 0.3480.300CLGS0.6740.7390.619ASMS0.306 0.3730.259SiamDW LT0.6650.6970.636VOT2018LT. 我们首先将我们的跟踪器与VOT2018LT数据集上的其他最先进的算法进行比较[23]，2009年12月31日SiamRPNsLT 0.5560.7490.443Siamfcos-LT 0.520 0.493 0.549它包含了35个具有挑战性的不同物体的序列，CooSiam0.5080.4820.537s（例如，人、汽车、摩托车、自行车和动物）ASINT0.5050.5170.494总长度为146817帧。每一个序列FuCoLoT0.4110.5070.346平均捕获12个长期目标失踪，平均持续40帧。精度评定VOT 2018 LT数据集[23]主要包括跟踪精确度（Pr）、跟踪召回度（Re）和跟踪F-score。Dif-OxUvALT。OxUvA长期（表示为OxUvALT）数据集[42]包含337个视频中的366个对象轨迹，选自YTBB。此数据集中的每个视频持续MMLT0.5460.5740.521LTSINT0.5360.5660.510SYT0.5090.5200.4996305平均2.4分钟，远长于其他常用的短期数据集（如OTB2015 [46]）。[37 ]第37话图7显示了我们的跟踪器在所有竞争方法中获得了最佳结果。目标以1 Hz的频率稀疏标记数据集被分成两个不相交的子集， dev 和 test 。在这项工作中，我们遵循OxUvALT中的开放挑战0.90.80.7LaSOT测试集0.80.70.6LaSOT测试集这意味着跟踪器可以使用除YTBB验证集之外的任何数据集进行训练，并使用OxUvALT测试子集进行测试。在OxUvALT数据集中，采用三个标准来评估不同的跟踪器，包括真阳性率（TPR），真阴性率（TNR）和0.60.50.40.30.20.1000.10.20.30.40.50.60.7重叠阈值0.80.910.50.40.30.20.1005101520253035404550定位误差门限最大几何平均值（MaxGM）。TPR测量TNR给出了被报告为存在的存在对象的分数以及位置准确度，并且TNR给出了被报告为不存在的不存在帧的 MaxGM使TPR和TNR之间的折衷（即， MaxGM=图7.使用LaSOT对不同跟踪器进行一次性评估。更好地查看放大的颜色。TLP。TLP数据集[36]包含来自真实世界场景的50个高清视频，平均每帧13500帧。顺序我们遵循一次性评估（成功和最大值0≤p ≤1（（1−p）·TPR）（（1−p）·TNR +p）），精确度）来评估TLP数据集上的不同跟踪器。用于对不同的跟踪器进行排序。我们比较我们的跟踪器具有三种最近的算法（MBMD [51]，SPLT [48]和GlobalTrack [19]）和[42]中报道的十种算法（如LCT[34]，EBT [54]，EBT [22]，ECO-HC [8]、BACF [13]、Staple [1]、MDNet [37]、SIN-T [41]，SiamFC [2]和SiamFC+R [42]）。表4显示，我们的追踪器在MaxGM和TPR方面表现最好，同时保持了非常有竞争力的TNR值。表4.我们的跟踪器和13个竞争算法在OxUvALT数据集上的性能评估。最好的三个结果分别以红色、蓝色和绿色显示。跟踪器根据MaxGM值从上到下排列。跟踪器MaxGMTPRTNRLTMU（我们的）0.7510.7490.754SPLT0.6220.4980.776GlobalTrack0.6030.5740.633MBMD0.5440.6090.485SiamFC+R 0.454 0.427 0.4812019年12月31日0.396 0.292 0.537MDNet 0.472 0如图8所示，我们的跟踪器实现了最佳结果在所有竞争的方法中。图8.使用TLP对不同跟踪器进行一次性评估更好地查看放大的颜色。4.2. 消融研究在本小节中，我们对我们的使用LaSOT数据集的元更新器[11]。元更新程序的不同时间步长。首先，我们研究了不同时间步长的影响。一个合适的时间步长可以实现历史信息和当前观测之间的良好权衡。表5显示了当时间步长设置为20时获得的最佳性能。表5.不同时间步长对元更新器的影响Sint0.3260.4260时间步长510203050ECO-HC0.3140.3950成功0.5530.5640.5720.5700.567SiamFC0.3130.3910精度0.5480.5610.5720.5690.565LaSOT LaSOT数据集[11]是具有高质量注释的最新大型数据集之一。它包含1400个具有挑战性的序列（1120个用于训练，280个用于测试），具有70个跟踪类别，平均每个序列2500帧。在这项工作中，我们遵循我们的元更新器的不同输入。对于我们的长期跟踪器，元更新器的输入包括边界框（B）、置信度得分（C）、响应图（R）和表观得分（A）。我们通过从元更新中单独删除它们来验证它们的贡献。表6中报告了详细的结果，显示每个输入都对我们的元更新器有贡献（w/o表示“没有”）。表6.我们的元更新器的不同输入的有效性一次性评估（成功和精确度）来评估在LaSOT的测试集上使用不同的追踪器。图7显示了我们的跟踪器和十种最先进算法的成功和精度图，包括Dimp 50 [3]，Dim-p18 [3]，GlobalTrack [19]，SPLT[48]，ATOM [9]，SiamRP-N++ [26] ， ECO （ python ） [8] ， StructSiam [52] ，DSiam [55]，[0 .57 2 ] LTMU （我们的）[0 .56 8 ]迪普50[0 .53 4 ]迪普18[0 .51 7 ]全球追踪[0 .50 1 ]原子[0 .4 9 6] Siam RPN ++[0 .42 6 ] SPLT[0 .39 7 ] M D N et[0 .39 0]生命[0 .36 8 ] EC O （ pytho n ）[0 .3 3 5] Stru ctSiam[0 .33 3 ] DSiam[0 .32 5 ] RTM D N e t[0 .32 4] EC O[0 .25 9 ] BAC F[0 .57 2 ] LTM U （我们的）[0 .56 4 ]迪普50[0 .53 3 ]迪普18[0 .52 8 ]全球追踪[0 .50 0 ]原子[0 .49 1 ] Siam RPN ++[0 .39 6 ] SPLT[0 .37 3 ] MD N et[0 .36 3 ] EC O （pytho n ）[0 .36 0 ]生命[0 .33 3 ] Stru ctSiam[0 .32 2 ] DSiam[0 .31 9 ] RTMD N e t[0 .30 1 ] EC O[0 .23 9 ] BAC F成功率精度EBT0.2830.3210BACF0.2810.3160钉0.2610.27306306不同输入w/oCw/o Rw/o Bw/o A Ours0.561 0.568 0.563 0.5490.572精密度0.558 0.566 0.562 0.5400.572迭代步骤的评估。表7表明，随着k的增加，性能逐渐提高。6307表7.评估我们级联LSTM的迭代步骤01 2 3成功精密度0.535 0.5580.5660.5724.3. 讨论泛化能力和速度分析。我们注意到，我们的元更新程序很容易嵌入到其他轨道-在网上学习。为了展示这种良好的泛化能力，我们将我们的元更新器引入到四种跟踪算法中，包括ATOM，ECO（官方Python实现），RTMDNet和我们的基本跟踪器（使用阈值来控制更新）。图9示出了在LaSOT数据集上不具有和具有Meta更新器的不同跟踪器的跟踪性能，并且它证明了所提出的元更新器可以一致地提高不同跟踪器的跟踪精度。表8报告了不具有和具有所提出的元更新器的那些跟踪器的运行速度因此，我们可以得出结论，我们的元更新器具有良好的泛化能力，可以持续提高跟踪精度，几乎不会牺牲效率。更新了错误的观察结果。更高的recal-1意味着跟踪器更有可能接受用正确的观察来更新。我们还定义了一个真正的负率（TNR），以更多地关注错误的观察，TNR = TN/（TN+FP）。较高的TNR值意味着跟踪器更强烈地拒绝用错误的观测值更新。表9示出了具有和不具有其元更新器模块的不同跟踪器的统计结果元更新器的使用稍微牺牲了更新recal-1，这意味着与没有元更新器相比，一部分正确的观测没有被用于更新跟踪器。这一现象对跟踪器性能影响不大相比之下，元更新器的使用显著提高了Pr和TNR值，表明跟踪器受到错误观测的污染要少得多。因此，在线更新的风险将大大降低。表9.我们的元更新器对不同跟踪器的有效性0.90.80.70.60.50.40.3LaSOT测试集0.80.70.60.50.40.3LaSOT测试集0.20.1000.10.20.30.40.50.60.70.80.91重叠阈值0.20.1005101520253035404550定位误差门限5. 结论这项工作提出了一种新的长期跟踪框架-图9.我们的元更新器（MU）的泛化能力使用LaSOT测试数据集评估不具有和具有元更新器的不同跟踪器更好地查看放大的颜色。表8.速度比较不同的跟踪器没有和元更新器（MU）。跟踪器FPS原子40ECO49RTMDNet41Ours-MU15跟踪器ATOM+MUECO+MURTMDNet+MU我们FPS32383213为什么我们的元更新器工作？我们运行一个没有元更新器和有元更新器的跟踪器，并记录跟踪器u= 1表示跟踪器已更新，否则表示未更新。l= 1表示跟踪器可以更新;否则，不能更新。地面真值l的定义与等式（4）相同（1）真阳性（TP）：l=1，u=1;(2) 假阳性（ FP ）： 1 = 0，u = 1; （ 3 ）真阴性（TN）：1=0，u=0;和（4）假阴性（FN）：l=1，u=0。然后，我们可以获得更新精度（Pr），并更新回忆（ Re ）为 Pr = TP/ （ TP+FP ）， Re = TP/（TP+FN），Re = 0. 更高的精度意味着跟踪器使用建议的元更新器。结合其他排名靠前的跟踪器，我们的框架利用基于在线更新的跟踪器进行本地跟踪，这使得长期跟踪性能受益于具有在线更新的优秀短期跟踪器（如ATOM）。更重要的是，本文提出了一种新的元更新器，该元更新器通过将几何线索、判别线索和外观线索以顺序的方式集成，来确定跟踪器当前是否需要更新。这种方法大大降低了长期跟踪的在线更新风险，并有效地指导跟踪器最近五个长期基准测试的大量实验结果表明，我们的长期跟踪器比其他最先进的方法实现了更好的性能。实验结果还表明，我们的元更新器具有良好的泛化能力。谢谢。本文得到国家自然科学基金项目（批准号：）的部分资助. 61872056、61771088、61725202、U1903215，部分国家重点研发计划项目，批准号：2018AAA0102001，部分由中央大学基础研究基金资助。DUT19GJ201.[0.57 2]我们的[0.53 9] Ours-M U[0.52 4]原子+MU[0.50 1]原子[0.38 8] EC O（pytho n ）+MU[0.36 8] EC O（pytho n ）[0.36 6] RTM DN et+MU[0.32 5] RTM DN et成功率[0.572 ]我们的[0.535 ] Ours-MU[0.512 ]原子+MU[0.500 ]原子[0.363 ] EC O （python ）+M U[0.363 ] EC O （python ）[0.353 ] RTMDN et+M U[0.319 ] RTMDN et跟踪器PRReTNRRTMDNet0.5990.9930.402RTMDNet+MU0.9090.9020.898ECO0.5831.0000.000ECO+MU0.8520.8950.803原子0.7650.9970.310ATOM+MU0.9310.8860.845Ours-MU0.8670.9940.479我们0.9520.8740.862精度6308引用[1] LucaBertinetto，JackValmadre，StuartGolodetz ， On-drej Miksik ， and Philip H.S. 乇Staple：用于实时跟踪的辅助学习器。在CVPR，2016年。[2]

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

元更新器用于解决长期视觉跟踪中的问题

基于长短期记忆网络的挖掘机器人视觉跟踪系统设计.pdf

[202105]长时视觉目标跟踪前沿简介1

视觉跟踪技术的科学问题

卡尔曼滤波视觉跟踪 matlab

迭代法在计算机视觉中的运用

opencv实现视觉目标跟踪

仿真环境 yolo视觉跟踪

opencv机器人视觉跟踪

视觉目标检测与跟踪pdf

Python视频跟踪器

计算机视觉目标跟踪看法

基于YOLO的双目视觉跟踪小车

无人机的视觉跟踪怎么实现，请详细

计算机视觉目标跟踪分析

深度神经网络解决计算机视觉问题的基本原理是什么

详细介绍gtsam优化库，包括开发团队，哪个国家的，什么时候的，用于解决什么问题

写一篇1000字关于KCF的高速跟踪算法的研究意义

用于计算机视觉的transformer

强化学习在机器人视觉中的作用

如果用于视觉系统，我需要哪些突触数据？为什么会使用到STDP？

最新资源