视觉目标跟踪中的干扰子感知连体网络及其应用

82 浏览量更新于2023-10-13 收藏 1.16MB PDF 举报

视觉目标跟踪

增量学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

一种用于视觉目标跟踪的干扰子感知连体网络Zheng Zhu* 1，2[0000−0002−4435−1692]，Qiang Wang* 1，2，Bo Li* 3，WeiWu 3，Junjie Yan3，and Weiming Hu1， 21中国科学院大学，中国北京2中国科学院自动化研究所，中国北京3商汤科技集团有限公司，中国抽象。近年来，暹罗网络由于其准确性和速度的平衡而引起视觉跟踪界的极大关注然而，大多数连体跟踪方法中使用的特征只能区分前景和非语义背景。由于空间背景通常被认为是干扰物，影响了暹罗跟踪器的鲁棒性在本文中，我们专注于学习分心感知的暹罗网络，以实现准确和长期的跟踪。为此，在传统的暹罗跟踪器中使用的功能进行了我们观察到，训练数据的不平衡分布使得学习的特征具有较低的区分性。在离线训练阶段，引入有效的采样策略来控制这种分布，使模型专注于语义干扰项。在推理过程中，设计了一种新的干扰子感知模块来执行增量学习，该模块可以有效地将一般的嵌入转移到当前的视频域。此外，我们通过引入一个简单而有效的局部到全局搜索区域策略，扩展了所提出的长期跟踪方法。在基准点上的大量实验表明，我们的方法显着优于最先进的方法，在VOT2016数据集中产生9.6%的相对增益，在UAV20L数据集中产生35.9%的相对增益。所提出的跟踪器可以在短期基准上以160 FPS执行，在长期基准上以110 FPS执行关键词：视觉跟踪·干扰感知·连体网络1介绍视觉目标跟踪是在变化的视频序列中自动定位特定目标的过程，是视觉分析、自动驾驶、姿态估计等计算机视觉领域的一个基本问题跟踪的核心问题是如何在具有遮挡、视野外、变形、背景杂乱和其他变化的挑战性场景中准确有效地检测和定位对象[38]。* 前三位作者对这项工作的贡献相等。这项工作是Zheng Zhu和QiangWang在SenseTime Group Limited实习时完成的。2Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Hu最近，遵循相似性比较策略的跟踪的Siamese网络由于其良好的性能而在视觉跟踪社区中引起了极大的关注[31，8，2，36，33，7，37，16]。SINT [31]，GOTURN [8]，SiamFC [2]和RASNet [36]学习先验深度Siamese相似性函数并将其用于运行时固定方式。CFNet [33]和DSiam[7]可以分别通过运行平均模板和快速变换学习模块在线更新跟踪模型。SiamRPN [16]在Siamese网络之后引入了区域建议网络，从而将跟踪制定为一次性本地检测任务。虽然这些跟踪方法获得了平衡的精度和速度，但有3个问题需要解决：首先，在大多数连体跟踪方法中使用的特征只能区分前景和非语义背景。语义背景通常被认为是一种贬损器，当背景杂乱时，性能不能得到保证。其次，大多数暹罗跟踪器无法更新模型[31，8，2，36，16]。虽然它们的简单性和固定模型性质导致高速，但这些方法失去了在线更新外观模型的能力，而在线更新外观模型通常对于跟踪场景中的剧烈外观变化第三，最近的暹罗跟踪器采用局部搜索策略，这不能处理完全遮挡和视图外的挑战。在本文中，我们探索学习分心感知暹罗地区建议网络（DaSiamRPN），以实现准确和长期的跟踪。SiamFC使用加权损失函数来消除正样本和负样本的类别不平衡然而，它是低效的，因为训练过程仍然由容易分类的背景示例主导。在本文中，我们发现训练数据中非语义背景和语义干扰项的不平衡如图1、SiamFC上的反应图无法区分人物，即使是穿白裙子的运动员也能与目标人物获得很高的相似度。高质量的训练数据对于端到端学习跟踪器的成功至关重要。我们得出结论，表示网络的质量在很大程度上取决于训练数据的分布。除了从现有的大规模检测数据集中引入正对之外，我们还在训练过程中显式地生成不同的语义负对。为了进一步鼓励歧视，一个有效的数据增强策略定制的视觉跟踪开发。经过离线训练后，表示网络可以很好地泛化到大多数类别的对象，这使得跟踪一般目标成为可能。在推理过程中，经典的暹罗跟踪器只使用最近邻搜索来匹配正模板，当目标经历显著的外观变化和背景杂波时，这可能表现不佳。特别地，在上下文中存在相似的外观对象（干扰物）使得跟踪任务更加艰巨。为了解决这个问题，周围的上下文和时间信息可以提供关于目标的额外线索，并有助于最大限度地提高辨别能力。本文提出了一种新的干扰子感知DaSiameseRPN3模块的设计，它可以有效地将一般的嵌入到当前的视频域，并在推理过程中增量捕捉目标的外观变化。此外，大多数最近的跟踪器都是针对短期场景定制的，其中目标对象始终存在。这些作品专门集中在几个系列的短序列上，其仅能满足实践者除了短期跟踪中的挑战性情况之外，严重的视野外和完全遮挡在长期跟踪中引入了额外的挑战。由于传统的暹罗跟踪器缺乏区分特征，并采用局部搜索区域，他们无法处理这些挑战。受益于DaSiamRPN中学习到的干扰感知功能，我们通过引入一个简单而有效的局部到全局搜索区域策略来扩展所提出的长期跟踪方法。这显著提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。我们在广泛的短期和长期跟踪基准上验证了所提出的DaSiamRPN框架的有效性：VOT2016 [14]，VOT2017 [12]，OTB2015 [38]，UAV20L和UAV123 [22]。在短期VOT 2016数据集上，DaSiamRPN在预期平均重叠方面实现了9.6%的相对增益，与排名最高的方法ECO相比[3]。在长期的UAV 20 L数据集上，DaSi-amRPN的曲线下面积为61.7%，比当前性能最好的跟踪器高出35.9%。除了良好的性能外，我们的跟踪器还可以以远远超过实时速度的速度执行：在短期数据集上为160 FPS，在长期数据集上为110 FPS。所有这些一致的改进表明，所提出的方法建立了一个新的国家的最先进的视觉跟踪。1.1贡献本文的贡献可以概括为以下三个方面：1、详细分析了传统暹罗跟踪器的特点我们发现训练数据中非语义背景和语义干扰项的不平衡是学习的主要障碍2 、提出了一种新的干扰子感知的暹罗区域建议网络（DaSiamRPN）框架，在离线训练中学习干扰子感知特征，并在在线跟踪推理过程中显式抑制干扰子。3，我们通过引入一个简单而有效的局部到全局搜索区域策略来扩展DaSiamRPN以执行长期跟踪，该策略显着提高了我们的跟踪器在视野外和完全遮挡挑战中的性能在短期和长期视觉跟踪基准的综合实验中，所提出的DaSiamRPN框架获得了最先进的精度，同时以远远超过实时速度的性能。2相关工作基于Siamese网络的跟踪。暹罗跟踪器遵循相似性比较策略的跟踪。[31]这是一个开创性的工作。4Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Huply使用运行时固定但学习先验深度暹罗相似性函数来搜索与起始帧作为后续工作，Bertinetto et.al [2]提出了一个完全卷积的Siamese网络（SiamFC）来估计两帧之间的特征相似性区域。RASNet [36]通过使用剩余注意力网络学习注意力机制来推进这种相似性度量。与SiamFC和RASNet不同，在GOTURN跟踪器[8]中，使用深度回归网络预测连续帧之间的运动这三个跟踪器能够在GPU上分别以86 FPS，83FPS和100FPS执行，因为没有在线进行微调。CFNet [33]将相关滤波器解释为Siamese跟踪框架中的但与SiamFC相比，性能的提高有限。FlowTrack[40]利用Siamese架构中的运动信息来提高特征表示和跟踪精度。值得注意的是，CFNet和FlowTrack可以高效地在线更新跟踪模型。最近，SiamRPN [16]通过在Siamese网络之后引入区域建议网络，将跟踪制定为一次性本地检测任务，该网络通过大规模图像对进行端到端离线训练。跟踪功能。视觉特征在包括视觉跟踪在内的计算机视觉任务中起着重要作用。Possegger et.al [26]提出了一个干扰感知模型项来抑制视觉上分散注意力的区域，而在其框架中使用的颜色直方图特征不如深度特征鲁棒。DLT [35]是开创性的深度学习跟踪器，它使用多层自动编码器网络。该特征以无监督的方式在80M Tiny Image数据集[32]的一部分上进行预训练。Wang等人。[34]在视频库上学习一个两层神经网络，其中对特征学习施加了时间上的慢度约束DeepTrack [17]从二进制样本中学习两层CNN分类器，不需要预训练过程。UCT [39]将特征学习和跟踪过程制定为统一的框架，使学习的特征与跟踪过程紧密耦合。长期跟踪。传统的长期跟踪框架可以分为两组：早期的方法将跟踪视为与几何模型匹配的局部关键点描述符[25，24，21]，而最近的方法通过将短期跟踪器与检测器相结合来执行长期跟踪。后一类的开创性工作是TLD [10]，它提出了一个无记忆的流群作为短期跟踪器和并行运行的基于模板的检测器。Ma等人。[20]提出了KCF跟踪器和随机蕨类分类器的组合作为用于校正跟踪器的检测器同样，MUSTER [9]是一个长期跟踪框架，它将KCF跟踪器与基于SIFT的检测器相结合，该检测器也用于检测遮挡。Fan和Ling [6]将DSST跟踪器[4]与CNN检测器[31]相结合，该检测器验证并可能纠正短期跟踪器的建议。DaSiameseRPN5(a)ROI（b）SiamFC（c）SiamRPN（d）SiamRPN+（e）我们的图1：暹罗网络跟踪器的响应热图的可视化。（a）显示搜索图像。(b-e)显示了由SiamFC、SiamRPN、SiamRPN+（使用干扰项训练）和DaSiamRPN生成的热图。3分心感知的连体网络3.1传统暹罗网络在详细讨论我们提出的框架之前，我们首先回顾了传统的基于暹罗网络的跟踪的特征[2，16]。暹罗追踪者在他们的核心使用度量学习。我们的目标是学习一个嵌入空间，可以最大限度地提高不同对象之间的类间惯性和最小化同一对象的类内惯性。导致暹罗跟踪器流行和成功的关键贡献是它们平衡的准确性和速度。图1显示了SiamFC和SiamRPN的响应图。可以看出，对于目标，那些背景差异较大的目标也获得了高分，甚至一些无关的物体也获得了高分。在SiamFC中获得的表示通常用于训练数据中类别的判别学习。在SiamFC和SiamRPN中，成对的训练数据来自同一视频的不同帧，并且对于每个搜索区域，非语义背景占据大多数，而语义实体和干扰项占据较少。这种不平衡的分布使得训练模型很难学习实例级表示，但倾向于学习差异在前景和背景之间。在推理过程中，使用最近邻搜索区域中最相似的对象，而在第一帧中标记的背景信息被省略。跟踪序列中的背景信息可以被有效地利用，以增加如图1所示的鉴别能力。1e.为了消除这些问题，我们建议在离线训练过程中主动生成更多的语义对，并显式地抑制在线跟踪中的干扰项。3.2分心物感知训练高质量的训练数据对于视觉跟踪中的端到端表示学习的成功至关重要我们引入了一系列的策略，以提高泛化的学习功能，并消除训练数据的不平衡分布。6Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Hu(a)检测对（b）来自（c）的负对同类别不同类别图2：（a）通过增强静止图像从检测数据集生成的正对。(b)来自同一类别的负对。(c)不同类别的负对。正对类别的多样性可以促进泛化能力的提高。原始SiamFC是在ILSVRC视频检测数据集上训练的，该数据集仅由约4，000个逐帧注释的视频组成[28]。最近，SiamRPN [16]探索使用稀疏标记的Youtube-BB [27]视频，其由每30帧注释一次的超过200，000个视频组成在这两种方法中，训练数据的目标对来自同一视频中的不同然而，这些视频检测数据集仅包含很少的类别（VID为20[28]，Youtube-BB为 30 [27]），这不足以训练用于暹罗跟踪的高质量和广义特征此外，SiamRPN中的边界框回归分支在遇到新类别时可能会得到较差的预测由于标记视频既耗时又昂贵，因此在本文中，我们通过引入大规模ImageNet Detection [28]和COCO Detection [18]数据集来大大扩展阳性对的类别如图如图2（a）所示，通过增强技术（平移、调整大小、灰度et.al），来自检测数据集的静止图像可以用于生成用于训练的图像对。正对的多样性能够提高测试的分辨率和准确性。语义否定对能提高区分能力。我们将SiamFC [2]和SiamRPN [16]中的较少区分表示归因于两个不平衡的训练数据分布水平第一个不平衡是语义否定对稀少由于背景在SiamFC和SiamRPN的训练数据中占大多数，因此大多数负样本是非语义的（不是真实对象，只是背景），并且它们可以很容易地分类。也就是说，SiamFC和SiamRPN学习前景和背景之间的差异，语义对象之间的损失被大量的容易否定所淹没另一个不平衡来自于组内干扰子，它们在跟踪过程中通常表现为硬负样本在本文中，语义否定对被添加到训练过程。所构造的否定对由相同类别和不同类别的标记目标组成。来自不同类别的负对可以帮助跟踪器避免在挑战中漂移到任意对象，例如DaSiameseRPN7(a) 一般暹罗跟踪器（b）分心感知暹罗跟踪器图3：我们提出的分心感知暹罗地区建议网络（DaSiamRPN）的图示。DaSiamRPN充分利用了目标和背景信息，能够抑制跟踪过程中干扰物的影响。视图和完全遮挡，而来自相同类别的负对使跟踪器专注于细粒度表示。负面的例子如图所示。2（b）和图第2段（c）分段。为视觉跟踪定制有效的数据扩充。为了释放暹罗网络的全部潜力，我们定制了几种数据增强策略用于训练。除了常见的平移、尺度变化和光照变化外，我们观察到运动模式可以很容易地由网络中的浅层来建模我们明确地在数据增强中引入3.3干扰感知增量学习最后一小节中的训练策略可以显着提高离线训练过程中的区分能力。然而，仍然很难区分两个具有相似属性的对象。 3a. SiamFC 和SiamRPN使用余弦窗口来抑制干扰项。以这种方式，当对象的运动混乱时，性能不能得到保证大多数现有的基于Siamese网络的方法在遇到快速运动或背景杂波时提供较差的性能。总的来说，潜在的缺陷主要是由于一般表示域和特定目标域的不对准。在本节中，我们提出了一个干扰感知模块，以有效地将一般表示转移到视频域。暹罗跟踪器学习相似性度量f（z，x），以将样本图像z与嵌入空间中的候选图像x进行比较：f（z，x）=（z）（x）+b·（1）其中表示两个特征图之间的互相关，b·表示在每个位置中相等的偏差。样本的最相似对象将被选择为目标。为了充分利用标签信息，我们将目标上下文中的硬负样本（干扰项）整合到相似性度量中。在8Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming HuΣΣnΣDaSiamRPN，采用非最大抑制（NMS）算法，对每帧图像中的潜在干扰项di进行D：={di∈ D，f（z，di）> h∩di/= zt}，其中h是预定义阈值，zt是帧t中的所选目标，并且该集合的数量|D|=n.具体地说，我们首先在每帧中得到17个17×17× 5的建议，然后使用NMS来减少冗余候选。得分最高的提案将被选为目标zt。对于其余的，具有大于阈值的分数的提议被选择为干扰项。在此之后，我们引入一种新的干扰感知目标函数，以重新排名的建议P具有top-k相似的样本。最终选择的对象表示为q：αf（d，p）q=argmaxp∈Pf（z，pk）−i=Σ1nαi（二）ki=1新因子αi控制干扰项d i的影响，新因子αi用于控制每个干扰项di的影响。值得注意的是，通过直接计算，计算复杂度和存储器使用增加n由于等式（1）中的互相关运算是线性运算符，因此我们利用该属性来加速干扰子感知目标：（d）q=argmaxpk∈P（（z）−i=1ii=1αii）（pk）（3）与SiamRPN相比，它使跟踪器能够以相当的速度运行这种关联定律也启发我们以学习率βt递增地学习目标模板和干扰物模板：ΣTβ β（z）ΣTβαΣnα（d ）的方式01-02pk∈Pt=1tt−Tβtt=1ti =1Tβtn ii，tαi）中国（4）t=1t=1i=1这种干扰感知跟踪器可以将现有的相似性度量（一般）适应于新域（特定）的相似性度量。权重因子αi可以被视为具有稀疏正则化的对偶变量，样本和干扰项可以被视为相关滤波器中的正样本和负样本。实际上，在我们的框架中建模的在线分类器因此，所采用的分类器，预计将优于这些只使用一般的相似性度量。3.4用于长期跟踪的在本节中，DaSiamRPN框架被扩展用于长期跟踪。除了短期跟踪中的挑战性情况之外，严重的视野外和完全遮挡在长期跟踪中引入了额外的挑战，如图2所示4.第一章短期跟踪中的搜索区域（SiamRPN）不能覆盖目标重新出现时，从而无法跟踪后续帧。我们提出了一个简单而有效的短期跟踪阶段和故障之间的切换方法Σ我我 KDaSiameseRPN9分数重叠0得分和重叠1 10.5 0.50600 620 640 660 680 700 720 740 760 78080帧(a) SiamRPN中的评分和重叠0600 620 640 660 680 700 720 740 760 780 800帧(b) DaSiamRPN中的评分和重叠图4：视频人7在视野外挑战中的跟踪结果。第一行：SiamRPN和DaSiamRPN的跟踪快照。第二行：两种方法的检测分数和相应的重叠。重叠被定义为跟踪结果和地面实况之间的交集。红色：地面实况。绿色：追踪盒。蓝色：搜索区域框。例在失败的情况下，一个迭代的局部到全局的搜索策略的目的是重新检测的目标。为了执行切换，我们需要识别失败跟踪的开始和结束。由于干扰子感知训练和推理实现了高质量的检测分数，因此可以采用它来指示跟踪结果的质量。图4示出了SiamRPN和DaSiamRPN中的检测分数和相应的跟踪重叠。SiamRPN的检测评分不具有指示性，即使在视野外和完全遮挡的情况下也可能仍然很高。也就是说，SiamRPN倾向于在这些挑战中找到任意对象，这导致跟踪中的漂移。在DaSiamRPN中，检测评分成功指示跟踪阶段的状态。在故障情况下，我们逐渐增加搜索区域的局部到全局的策略。具体地，当指示跟踪失败时，搜索区域的大小以恒定步长迭代地增长如图4、局部到全局搜索区域覆盖目标，恢复正常跟踪。值得注意的是，我们的跟踪器采用边界盒回归检测目标，因此可以放弃耗时的图像金字塔策略。在实验中，所提出的DaSiamRPN可以在长期跟踪基准上以110 FPS执行。4实验实验在广泛的具有挑战性的跟踪数据集上进行，包括VOT2015 [13]，VOT2016 [14]和VOT2017 [12]，每个数据集有60个视频，UAV20L [22]20个长期视频，UAV123 [22] 123个视频和OTB2015 [38]分数重叠得分和重叠10Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Hu0.4066 61 56 51 46 41 36 31 26 21 16 1161049454137332925211713951(a)EAO on VOT 2016（b）EAO on VOT 2017图5：VOT2016（a）和VOT2017（b）的预期平均重叠图100个视频。所有跟踪结果均由官方实现提供，以确保公平比较。4.1实验细节使用ImageNet [28]预训练的修改后的AlexNet [15]如SiamRPN [16]中所述使用前三个卷积层的参数是固定的，只有最后两个卷积层是微调的。总共执行了50个epoch，并且在对数空间中的学习率从10- 2降低到10- 4。我们从VID [28]和Youtube-BB [27]中提取图像对，方法是选择间隔小于100的帧并执行第3.2节所述的裁剪程序。在ImageNet Detection[28]和COCO Detection [18]数据集中，通过增强静态图像来生成图像对进行训练为了处理基准测试中的灰色视频，在训练期间将25%的对转换为灰度。平移在12个像素内随机执行，并且随机调整大小的范围从0.85变化到1.15。在有限阶段，方程（2）中的二阶特征因子α∈E0. 5，αisetto1foreΣachdistractor，andtheincrementalee rara r公式（4）设为t−1（η）i，其中η = 0。01.在长期跟踪中i=01−η我们发现局部到全局的一步迭代是足够的。具体而言是在短期阶段和定义的故障情况中的搜索区域的大小分别被设置为255和767进入和离开故障情况的阈值设置为0.8和0.95。我们的实验使用PyTorch在具有Intel i7，48G RAM，NVIDIA TITAN X的PC上实现。所提出的跟踪器可以在短期基准上以160 FPS执行，在长期基准上以110FPS执行。4.2VOT数据集本节使用了最新版本的 Visual Object Tracking 工具包（ vot 2017-challenge该工具包采用基于重置的方法。每当检测到故障（与地面实况的零重叠）时，跟踪器在故障后五帧性能以准确度（A）、鲁棒性（R）和预期平均重叠（EAO）来衡量此外，VOT2017还引入了实时实验。我们将所有这些指标与VOT2015、VOT2016和VOT2017上的一些最新的最先进的跟踪器进行了比较。0.4DaSiamRPN0.350.30.30.25SiamFC0.20.20.150.10.10.05DaSiameseRPN11VOT2016上评估的EAO曲线如图所示 5a和70个其他国家的最先进的跟踪器进行比较。我们的基线跟踪器SiamRPN在VOT2016上的EAO为0.3441，已经超过了大多数最先进的技术。然而，与排名第一的跟踪器ECO（0.375）相比仍然存在差距，它改进了多级特征图上的连续卷积算子。最值得注意的是，所提出的DaSiamRPN获得了0.411的EAO，比现有技术高出相对9.6%。此外，我们的跟踪器以160 FPS的最新速度运行，比C-COT快500倍，比ECO快20倍对于VOT2017的评价，图。图5b报告了我们与其他51个最先进的跟踪器在EAO评分方面的结果。DaSiamRPN以0.326的EAO得分排名第一。在排名前5的跟踪器中，CFWCR、CFCF、ECO和Gnet应用连续卷积算子作为基线方法。表现最好的LSART [30]将目标分解为补丁，并将补丁相似性的加权组合应用于核化岭回归。虽然我们的方法在概念上更简单，功能强大，也很容易遵循。图5b还揭示了由红点表示的实时实验中的EAO值。我们的跟踪器显然是最好的，其实时EAO为0.326，比最新的最先进的实时跟踪器CSRDCF++高出相对53.8%。表1显示了VOT2015、VOT2016和VOT2017的准确度（A）和稳健性（R）以及预期平均重叠（EAO）SiamRPN的基线方法可以每秒处理惊人的200帧，同时仍然获得与最先进技术相当的性能我们发现SiamRPN的性能增益主要是由于其准确的多锚点回归机制。为了提高跟踪器的鲁棒性，我们提出了干扰子感知模块，使跟踪器更加协调。因此，我们的方法，EAO为0.446，0.411和0.326的三个基准，优于所有现有的跟踪器的大幅度提高。我们相信，持续的改进表明，我们的方法通过训练过程和在线推理做出了真正的贡献。4.3无人机数据集的最新比较UAV [22]视频是从低空无人驾驶飞行器捕获的。该数据集包含长期评估子集UAV20L和短期评估子集UAV123。评估基于两个指标：精密度图和成功图。UAV20L是一个长期跟踪基准，包含20个序列，平均序列长度为2934帧。除了短期跟踪中的在该实验中，将所提出的方法与[22]中的最近跟踪器此外，ECO [3]（最先进的短期12Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Hu表1：公共短期基准的表现比较OP：阈值为0.5时的平均重叠精密度;DP ： 20 像素的平均距离精度 ; EAO ：预期平均重叠和平均速度（FPS）。红色粗体和蓝色斜体表示最佳和次佳性能。跟踪器OTB-2015VOT2015VOT2016VOT2017FPSOP DPA R EAOA R EAOA R EAOSiamFC 73.0 77.0 0.533 0.88 0.2890.53 0.46 0.2350.50 0.59 0.18886CFNet69.9 74.7- -- -- -75钉70.9 78.40.57 139 03000.54 0.38 0.295 0.520.69 0.16980CSRDCF 70.7 78.70.56 0.86 0.3200.51 0.24 0.3380.49 0.36 0.25613BACF76.7 81.50.591.56-- -- -35ECO-HC 78.4 85.6- -0.54 0.30 0.3220.49 0.44 0.23860嵴77.5 83.7- -0.51 0.25 0.283- -1MDNet85.4九十点九0.60 0.69 0.3780.54 0.34 0.257- -1C-COT82.0 89.80.54 0.82 0.300.54 0.24 0.3310.490.320.267 0.3ECO84.991.0- -0.550.200.3750.480.270.2808SiamRPN 81.9 850.58 1.13 0.3490.560.26 0.3440.49 0.46 0.244 200我们86.588.00.63 0.66 0.4460.610.220.4110.340.326 1600.90.80.70.60.50.40.30.20.1OPE的成功图0.90.80.70.60.50.40.30.20.1OPE的精密度图0.90.80.70.60.50.40.30.20.1OPE的成功图0.90.80.70.60.50.40.30.20.1OPE的精密度图000.10.20.30.40.50.60.70.80.91重叠阈值005101520253035404550定位误差门限000.10.20.30.40.50.60.70.80.91重叠阈值005101520253035404550定位误差门限图6：UAV [22]数据集上的成功和精度图。第一和第二子图是UAV20L的结果，第三和最后子图是UAV123的结果跟踪器）、PTAV [6]（最先进的长期跟踪器）、SiamRPN [16]（基线）、SiamFC [2]和CFNet [33]（代表性Siamese跟踪器）进行比较。包括成功图和精度图的结果如图所示六、它清楚地表明，我们的算法，表示为DaSiamRPN，优于国家的最先进的跟踪器显着在这两个措施。在成功图中，我们的方法获得了0.617的AUC评分，显著优于最先进的短期跟踪器SiamRPN [16]和ECO [3]。相对改善幅度分别为35.9%和41.8%。与有资格执行长期跟踪的PTAV [6]，MUSTER [9]和TLD [10]相比，所提出的DaSiamRPN相对于这些跟踪器的性能分别为45.8%，87.5%DaSiamRPN [0.617]SiamRPN [0.454]ECO [0.435]PTAV [0.423]SiamFC [0.399]CFNet [0.349]SRDCF [0.343]MUSTER [0.329]SAMF [0.317]MEEM [0.295][0.270]DCF [0.208]KCF [0.198]TLD [0.197]CSK [0.194]DaSiamRPN [0.838]PTAV [0.624]SiamRPN [0.617]SiamFC [0.613]ECO [0.604]CFNet [0.570]MUSTER [0.514]SRDCF [0.507]MEEM [0.482][0.459]SAMF [0.457]TLD [0.336]贴现现金流量[0.321]KCF [0.311]CSK [0.309]DaSiamRPN [0.586]SiamRPN [0.527]ECO [0.525]ECO−HC [0.506]SiamFC [0.498]SRDCF [0.464]CFNet [0.436]SAMF [0.396]MEEM [0.392]MUSTER [0.391][0.356]DCF [0.332]KCF [0.331]CSK [0.311]TLD [0.283]DaSiamRPN [0.796]SiamRPN [0.748]ECO [0.741]SiamFC [0.726]ECO−HC [0.725]SRDCF [0.676]CFNet [0.651]MEEM [0.627]SAMF [0.592]MUSTER [0.591][0.586]贴现现金流量[0.526]KCF [0.523]CSK [0.488]TLD [0.439]成功率精度成功率精度DaSiameseRPN130.70.60.50.40.30.20.1OPE-完全闭塞的成功图（9）0.90.80.70.60.50.40.30.20.1OPE-Out-of-View的成功图（13）0.80.70.60.50.40.30.20.1OPE的成功图-背景杂波（5）0.90.80.70.60.50.40.30.20.1OPE-部分闭塞的成功图（18）000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.9 1重叠阈值图图7：UAV20L上的成功图在彩色显示屏上观看效果最佳213.2%。在精度图中，我们的方法获得了0.838的分数，分别比最先进的长期跟踪器（PTAV [6]）和短期跟踪器（SiamRPN [16]）的性能高出34.3%和35.8%。DaSiamRPN在该长期跟踪数据集中的优异性能可归因于干扰感知特征和局部到全局搜索策略。对于详细的性能分析，我们还报告了UAV20L的各种挑战属性的结果，即：完全遮挡、视野外、背景杂乱和部分遮挡。图7表明，我们的跟踪器有效地处理这些具有挑战性的情况，而其他跟踪器获得较低的分数。特别地，在完全遮挡和背景杂波属性中，所提出的DaSiamRPN相对于SiamRPN [16]的性能分别为153.1%和393.2%。UAV123数据集上的结果包括123个序列，平均序列长度为915帧。除了[22]中的最新跟踪器外，还添加了ECO [3]，PTAV [6]，SiamRPN[16]，SiamFC [2]，CFNet [33]用于比较。图6示出了所比较的跟踪器的精度和成功曲线图。所提出的DaSiamRPN方法在成功率和精度分数方面优于所有其他跟踪器。具体而言，我们的方法实现了0.586的成功分数，其以较大的裕度优于SiamRPN（0.527）和ECO（0.525）方法。4.4OTB数据集的最新比较我们使用众多快速和最先进的跟踪器评估了所提出的算法，包括SiamFC [2]，CFNet [33]，Staple [1]，CSRDCF [19]，BACF [11]，ECO-HC [3]、CREST [29]、MDNet [23]、CCOT [5]、ECO [3]和基线追踪器SiamRPN [16]。所有跟踪器在第一帧中用地面实况对象状态初始化。平均重叠精密度（OP）和平均距离精密度（DP）见表1。在实时跟踪器中，SiamFC和CFNet是最新的基于Siamese建议DaSiamRPN跟踪器优于所有这些跟踪器的准确性和速度上的一个很大的利润对于OTB上最先进的比较，在视觉跟踪数据集上训练的MDNetC-COT和ECO实现了最先进的性能，但它们的跟踪速度DaSiamRPN [0.486]PTAV [0.357]ECO [0.238]SiamFC [0.238]CFNet [0.220]MUSTER [0.200]SiamRPN [0.192]SAMF [0.174][0.170]MEEM [0.163][0.159]TLD [0.154]KCF [0.115]DCF [0.110]CSK [0.082]DaSiamRPN [0.592]SiamRPN [0.479]ECO [0.412]PTAV [0.389]SiamFC [0.386]SRDCF [0.329]CFNet [0.322][0.309]SAMF [0.262]MEEM [0.253][0.241]TLD [0.212]CSK [0.209]KCF [0.191]DCF [0.188]DaSiamRPN [0.513]PTAV [0.435]ECO [0.244]CFNet [0.243]SiamFC [0.239]MUSTER [0.230]MEEM [0.212]DSST [0.211]SAMF [0.201]SRDCF [0.156]KCF [0.148]DCF [0.140]TLD [0.111]SiamRPN [0.104]CSK [0.074]DaSiamRPN [0.595]SiamRPN [0.423]PTAV [0.415]ECO [0.409]SiamFC [0.366]CFNet [0.328][0.320]MUSTER [0.305]SAMF [0.288]MEEM [0.274][0.249]TLD [0.201]KCF [0.192]DCF [0.187]CSK [0.182]成功率成功率成功率成功率14Zheng Zhu，Qiang Wang，Bo Li，Wei Wu，Junjie Yan andWeiming Hu表2：我们的算法在VOT 2016 [14]和UAV 20 L [22]上的消融分析组件SiamRPNDaSiamRPN检测数据中的阳性对？✦✦✦✦语义否定对✦✦✦注意力分散的更新✦✦长期跟踪模块✦EAO在VOT20160.3440.3680.3890.411–UAV20L中的AUC45.447.248.649.861.7对于实时应用来说还不够快。基线追踪器SiamRPN获得的OP评分为81。9%，比CCOT稍差。SiamRPN的瓶颈是鲁棒性差。由于训练和推理中的干扰感知机制都集中在提高鲁棒性上，因此所提出的DaSiamRPN跟踪器实现了3. DP改善0%，最佳OP评分为86。OTB2015上的5%4.5消融分析为了验证我们的算法中的每个组件的贡献，我们实现和评估我们的方法的四个变化。分析结果包括VOT2016上的EAO [14]和UAV20L上的AUC [22]。如表2所示，SiamRPN是我们的基线算法。在VOT2016中，当在训练中添加检测数据时，EAO标准从0.344增加到0.368。同样，当在训练和推理中采用负对和干扰感知学习时，两者的性能都提高了近2%。在UAV 20 L中，检测数据、训练中的否定对和干扰感知推理的性能提高了1%-2%。当采用长期跟踪模块时，AUC标准从49.8%增加到5结论在本文中，我们提出了一个分心感知暹罗框架，准确和长期的跟踪。在离线训练过程中，提出了一种干扰感知的特征学习方案，该方案可以显着提高网络的区分能力在推理过程中，设计了一种新的干扰子感知模块，有效地将一般的嵌入转移到当前的视频域。此外，我们通

下载后可阅读完整内容，剩余1页未读，立即下载