基于部分的显著目标跟踪方法

124 浏览量更新于2023-10-13 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9866显著性相关的目标跟踪周子坤1，裴文杰1，*，李欣2，王宏鹏1，2，郑峰3，何振宇1，*1哈尔滨工业大学深圳2鹏程实验室3南方科技大学zhouzikunhit@gmail.comwenjiecoder@outlook.comxinlihitsz@gmail.comwanghp@hit.edu.cnzhenyuhe@hit.edu.cnzfeng02@gmail.com摘要大多数现有的基于深度学习的跟踪器以整体策略执行跟踪，其旨在学习整个目标的深度这些方法难以跟踪具有各种外观变化的目标。为了解决这个限制，另一种类型的方法采用基于部分的跟踪策略，该策略将目标划分为相等的块并并行跟踪所有这些块。通过对这些块的跟踪结果求和来推断目标状态。这样的跟踪器的潜在限制是并非所有的补丁对于跟踪都是同样信息丰富的。一些无法区分的贴剂可能会在本文中，我们建议跟踪的显着的局部部分的目标是区分，本地跟踪。特别是，我们提出了一个细粒度的显着性挖掘模块，以捕捉本地显着性。此外，我们设计了一个显著性关联建模模块，将捕获的显著性关联在一起，以学习样本和搜索图像之间的有效相关表示，用于状态估计。五个不同的数据集上的广泛的实验表明，所提出的方法对国家的最先进的跟踪器表现良好。1. 介绍视觉目标跟踪的目的是在给定目标的初始状态的情况下，预测跟踪序列中的目标状态。获取第一个序列帧中的对象。它是计算机视觉的基础研究课题，具有广泛的应用，包括视频监控，机器人和运动分析。虽然受益于深度神经网络对图像的出色特征学习的深度跟踪器[6，36，38，44]近年来取得了很大进展，但跟踪具有各种实时外观变化的目标，例如变形，遮挡和视点变化等。，仍然是一项极具挑战性的任务。经典类型的深度跟踪方法[2，7，25， 49]在整体战略中执行跟踪，该战略旨在*通讯作者。预测框#164#177#195我们的DW-Corr PG-Corr图1.给定跟踪序列中的搜索图像，我们的SAOT首先捕获目标的局部显著性（黄点），其对于跟踪是有区别的，然后将捕获的显著性关联在一起，以学习目标样本与搜索图像之间的精确相关性，用于反映目标状态。因此，我们的模型可以生成比DW-Corr [25]（在整体跟踪策略中）和PG-Corr [32]（在基于部分的策略中）更精确的相关特征，并相应地预测更精确的边界框。通过对所有通道进行平均来可视化相关性特征（红色表示较高的相关性）。较大尺寸的显著点指示较高的显著性值。学习整个目标对象的精确深度特征表示，然后在搜索图像中定位目标。一个突出的例子是基于Siamese的跟踪器[1，25，26，29，39]，其通过Siamese神经网络在同一特征空间中学习目标样本和搜索图像的深度表示，然后通过它们之间的特征匹配来执行目标跟踪。这种方法在目标保持稳定外观接近样本的普通场景中表现良好，但在目标变化很大的具有挑战性的场景中挣扎。这是因为搜索图像中的目标样本和目标状态之间的全局外观差距导致不可避免的跟踪误差。在线学习跟踪器[8，18，38]是另一种典型的方法，旨在适应外观显著性我们的DW-Corr PG-Corr第164章第164章第164章第177章第177章第177章第195章第195章第195章相关性特征#164#177#1959867通过学习在线滤波器来检测目标的变化然而，这些方法仍然在整体策略中执行跟踪，因此很难处理剧烈的外观变化。与整体跟踪策略相反，另一种类型的现有跟踪方法[32，34，46，48]采用基于部分的策略，其首先跟踪目标对象的局部部分，然后通过总结这些部分的跟踪结果来这些基于部分的方法的一个共同的方式是将目标平均地划分成规则的块，然后并行地对所有这些块执行跟踪。虽然这样的基于部分的跟踪策略减轻了跟踪外观变化目标的困难一些不具有区分性的部分难以被跟踪，并且可能对推断全局目标状态产生不利影响。在本文中，我们遵循基于部分的跟踪策略，并提出了显着性相关的对象跟踪器（SAOT）。我们的SAOT和其他基于部分的跟踪方法之间的关键区别在于，SAOT专注于捕获和跟踪目标的局部显著性，这些局部显著性对于跟踪是有区别的，而不是简单地并行跟踪所有分区的补丁。具体来说，我们设计了一个细粒度的显着性挖掘机制，以捕捉局部显着性的目标，是有区别的，很容易本地化的搜索图像。随后，通过对这些捕获的显著性之间的相互作用进行建模来将它们关联在一起，以学习目标样本与搜索图像之间的全局相关性，这可以精确地反映搜索图像中的目标状态我们的SAOT设计背后的理论基础是：1）目标中的显著局部区域比其他区域更容易被精确地跟踪，可以在各种外观变化中保持一致的独特性; 2）显著性之间的不同关联对应于同一目标的不同外观，使得我们对所捕获的显著性之间的关联进行建模以适应实时外观变化。因此，我们的SAOT是能够应付各种外观变化的目标在跟踪过程中，如变形和遮挡。图1呈现了跟踪体操运动员的示例，其中体操运动员的外观在显示期间显著变化由于捕获的显著性对外观变化具有鲁棒性，因此我们的模型预测的边界框比基于DW-Corr [25]和PG-Corr [32]预测的边界框要精确得多，DW-Corr [25]和PG-Corr [32]分别采用整体策略和基于部分的策略。所提出的SAOT的跟踪策略类似于分治算法，其首先以高置信度处理局部显著性，然后将它们关联在一起以实现全局解最后，我们做出了以下贡献：1）设计了一个细粒度的显著性挖掘模块，以捕获局部显著性。这些目标对于跟踪是有区别。2)我们提出了一个显着性关联建模模块，将捕获的显着性关联在一起，以学习样本和搜索图像之间的有效的3)我们在五个基准测试（OTB2015，NFS30，LaSOT，VOT2018和GOT10k）的定量和定性评估中实现了与最先进方法相比的良好性能，证明了我们SAOT的有效性。2. 相关工作本部分主要从整体策略和局部策略两个角度对相关追踪器进行了探讨。整体战略追踪器许多基于暹罗的跟踪器[1，25，26，39]在整体策略中执行跟踪这样的跟踪器通过特征匹配来测量样本与搜索图像之间的相似性以局部化目标，其中样本的特征图被视为整体内核以对搜索图像执行互相关。他们中的大多数[1，25，26，49]使用来自第一帧的提出了几种基于自适应暹罗的方法[15，28，45，51]，其使用历史目标状态来更新样本的表示，以解决这一限制。许多在线学习跟踪器[18，38]也在整体策略中执行跟踪。这些跟踪器使用在线收集的样本学习相关滤波器[6，8，10，18]或卷积滤波器[2，7，虽然自适应基于暹罗的跟踪器[28，45，51]和在线学习跟踪器[18，38]根据历史帧对目标信息进行建模，但由于整体跟踪策略，它们在处理目标的剧烈实时外观基于部件的跟踪器。许多传统的跟踪器[31，34，46，47，48]采用基于部件的策略来处理变形和遮挡的挑战。大多数文献[34，46，47，48]都是直接对目标的所有等分块进行并行跟踪，而不是根据块的可分辨性选择易于跟踪的块。因此，较少区分的块可能不利地影响这些方法的适应性。RPT [31]在蒙特卡罗框架中估计目标的随机采样补丁的可靠性，并使用多个传统相关滤波器跟踪可靠然而，在RPT中使用投票方案组合补丁的预测位置，其只能估计粗略的目标状态。此外，上述基于部件的跟踪器是基于不太具有代表性的手工制作特征设计的，这限制了它们的跟踪性能。PG-Net [32]是最近提出的基于部分的深度跟踪器;它分解样本的特征图9868∈F∈CLS显著性关联建模图像显著性值显著性邻接矩阵Reg搜索图像M×CFs相似映射g全局相关表示提取器特征滤波器在线M 像素到像素匹配×逐元素乘积C深度连接+元素求和图2.提出的显着性相关对象跟踪器（SAOT）的架构。它包含两个核心模块：1）显著性挖掘模块，捕获目标的显著性; 2）显著性关联建模模块，将捕获的显著性关联起来以学习有效的相关表示用于状态估计。Reg和Cls分别表示回归和分类头转换成空间和通道内核，以执行与搜索图像的像素到全局匹配。与大多数基于部分的跟踪器类似，该方法也同等对待表示样本的局部部分的所有空间核，而不考虑它们的可辨别性。与PG-Net不同，我们的SAOT采用显着性挖掘机制，专注于样本的判别部分。此外，我们显式地建模捕获的显着性之间的相互作用，以有效地将它们关联起来，而不是像PG-Net那样通过全局匹配直接组合部分的匹配结果。3. 显著性关联对象跟踪器给定初始目标的示例图像和跟踪序列中的搜索图像，我们的显著性相关对象跟踪器（SAOT）的目标是学习它们之间的鲁棒相关表示，这能够有效地应对跟踪过程中目标对象的各种外观变化，例如变形和遮挡。为此，我们的SAOT首先捕获的局部显着性的目标对象，是歧视性的跟踪所提出的显着性挖掘模块，然后模型之间的关联，这些显着性学习有效的全球相关性功能之间的目标exemplar和搜索图像的精确跟踪。3.1. 总体框架图2示出了所提出的SAOT的总体框架，其由两个核心模块组成：显著性挖掘模块和显著性关联建模模块。以跟踪序列中的样本图像和搜索图像作为输入，我们的SAOT首先采用Siamese特征提取器来学习深度表示FxRhx×wx×c和FsRhs×ws×c分别用于目标样本（根据边界框从样本图像中裁剪）和搜索图像在这里，我们采用广泛使用的ResNet [17]在Imagenet[12]上预训练作为特征提取器，因为它具有出色的图像特征学习性能。显着性挖掘模块被设计为捕获目标样本的局部显着性，其是用于跟踪的区分性的。它计算相似性图来测量Fx和Fs之间的像素到像素的对应关系，并选择局部尖锐的最大值点作为显著性。这些捕获的显著性对应于样本的最有区别的区域，其可以以高置信度和准确度容易地定位。然后通过SAOT的显著性关联建模模块将捕获的显著性关联在一起，以学习样本和搜索图像之间的有效全局相关性表示。期望所获得的相关表示通过聚合搜索图像中的所有显著性的分布以及它们之间的学习到的相互作用来精确地反映搜索图像中的目标状态最后，通过用于置信度估计的分类头和用于预测目标的包围盒的回归头来3.2. 显著性挖掘通常，并非目标样本的所有局部区域都容易被跟踪。因此，我们设计了显著性挖掘模块来捕获与目标样本的可区分的局部区域相对应的显著性，这些区域可以容易地在搜索图像中定位。所提出的显著性挖掘模块分两步执行显著性挖掘：1）为目标样本Fx的特征图中的每个像素构建相似度图，以获得搜索图像中匹配分数的分布; 2）基于所获得的相似性图来测量Fx中的每个像素的显著性值以选择显著性。相似性映射的构建。如图3所示，评估器显著性提取器特征Fx显著性聚集图构建分享分类图回归图+9869·Ψ图3. 显著性挖掘模块的结构。该算法首先通过对Fx和Fs进行逐像素匹配来构造相似性图，然后根据相似性图计算Fx中每个像素的显著性值。通过测量Fx中的每个像素与Fs中的每个像素之间的像素到像素的匹配程度，为Fx中的每个像素构造相似性图。具体地，位于Fx中的（u，v）处的像素与位于Fs中的（p，q）处的像素之间的匹配度被公式化为：S（（u，v），（p，q））=f（Fx，（u，v），Fs，（q，p）），（1）图4. 具有不同峰分布的两个相似性图。表面图显示相似性值。注意，由白色虚线圆圈表示的主瓣具有不同的大小。和旁瓣的定义分别粗略地表示在最大值点附近与峰值分布相关 μΦ和σΦ是旁瓣的S（u，v）相对于速度的平均值和标准差。在初始定义[4]中，任意相似性映射的主瓣Ψ的大小我们认为，这样的定义是不合理的，因为没有考虑到相似性图图4显示了相似性图的两个示例，在最大值点周围具有不同的峰值分布，这显然对应于主瓣的不同大小。其中F阳离子 x，（u，v）表示在L0处的向量表示。我们不固定主瓣的大小，而是定义边界-主瓣Ψ的y作为峰周围的最接近的轮廓，（u，v），并且类似的表示适用于Fs ，（p ，q）。在本文中，f是指用于测量两个向量之间的相似性的核函数tors. 在我们的实现中，余弦相似性运算符其高度值等于相似性图的平均值因此，相似性图S（u，v）中的峰分布的强度γ被定义为：对于f采用，这是高效且有效的距离度量。因此，Eq. 1通过以下公式计算：Ψ，region（S（u，v））|contour（avg（S（u，v），γ（S（u，v））=PSR（S（u，v）;region（S（u，v））−Ψ），（四）S（（u，v），（p，q））为Fx，（u，v）·Fs，（q，p）、（二）Fx，（u，v）其中Vg（S（u，v））是相似性图的平均值。我们用于显著性评估的另一个度量是哪里表示内积运算符。所实现的Fx中位置（u，v）处的像素与Fs中的所有像素之间的相似性形成单通道相似性图，表示为当S（u，v）∈Rhs×ws.峰分布的浓度，其与最大点周围的峰分布的覆盖面积成因此，我们测量相似性图S中的峰分布的浓度c显著性评价。对于示例fea中的每个像素-主瓣AΨ（S（u，v））：（u，v）图Fx，其相似性图中的最大点被认为是被视为匹配位置（具有最大置信度）c（S（u，v））=A−1（S（u，v））的情况。（五）搜索图像中的该像素。我们基于相似性图中最大点周围的峰值分布的测量来评估该像素的显著性。具体来说，我们考虑两个测量：峰分布的强度和浓度。峰值分布的强度用于测量最大值与整个相似性图中的其他值相比的相对强度。测量峰分布强度的一种直接方法是峰旁瓣比（PSR）[4]，其定义为：max（S（u，v））−µΦ（S（u，v））结合所定义的强度和浓度，我们通过下式评估相似性图S（u，v）的显著性ys（S（u，v））的质量s（S（u，v））=γ（S（u，v））[c（S（u，v））]α，（6）其中α是在强度和浓度的影响之间平衡的超参数。该设计背后的基本原理是，所定义的强度和浓度共同揭示了最大点周围的峰分布的锐度。更大的显著性值s意Fx，（0，0）Fx，（h1，w1）X xFx相似映射显著性值hx wx cs（S（u，v））Fshs ws hx wx公司简介像素到像素匹配9870味着样本的特征图中的对应像素PSR（S（u，v）;Φ）=σΦ（S（u，v））.（三）plarFx对于跟踪更有辨别力，并且更容易在搜索图像Fs的特征图中被定位。其中，Φ表示旁瓣w.r.t.相似性图S（u，v）中的峰值分布，其被定义为S（u，v）e的区域，包括最大点周围的相邻区域（称为主瓣Ψ）。这里是主瓣考虑到应该鼓励跟踪器专注于跟踪目标样本的中心区域，将正则化项（其是高斯掩模）添加到显著性评估度量s中：9871∈.|∈C|∈C×∈∈M∈∈（m）Lxk=1（m）--sk=1s（S（u，v））=γ（S（u，v））[c（S（u，v））]α+λgμ，σ（u，v）. （七）显著性gg非显著性节点在此，gμg，σg（u，v）是与示例特征Fx的中心对准的高斯函数，并且λ是平衡权重。在端到端训练期间，梯度可以通过显著性评估度量反向传播，并且我们在补充材料中详细描述了其反向传播。基于等式（1）中定义的显著性评估度量在图7中，我们计算样本F x的特征图中的每个像素的显著性，并选择K个最显著的像素作为捕获的显著性的集合P x=pkK。搜索图像Fs的特征图中的这些显著性的匹配位置构成搜索图像Ps={pk}K中的显著性集合的对应物。显著性之间的连接相邻者图5. 两种连接被认为是用于构建显着图。显着性之间的连接被用来模拟它们之间的相互作用，和邻居之间的那些用于相邻节点之间的特征融合。在Ps中。此外，我们还连接每个节点在Fg到它的八个邻居进行相邻节点之间的特征融合的相邻信息交互。包括这两种类型的边的结果连接集表示为如图5所示3.3. 显著性-联想建模所捕获的显著性（其是用于跟踪的目标的有区别的局部部分）通过SAOT的显著性关联建模模块进一步关联到一起，以学习样本与搜索图像之间的有效全局相关性表示。得到的相关表示最后用于估计搜索图像中的目标状态以进行跟踪。为了精确地对上述指定连接之间的相互作用进行建模，边缘权重由所提出的显着性关联建模模块学习，而不是固定为二进制值。特别地，我们使用一个两层感知网络来学习之前指定的每个连接的边权重。因此，加权邻接矩阵ARN×N，N=hs ws，对于显著性图由下式建模：关联所捕获的显著性的直观方式是在这些局部显著性之间进行连接以形成能够表征整个焦油的全局图一个ij=σ（φ2（ReLU（φ1（vivj），如果边i，j>;0，否则。（八）获取. 按照这种方式，我们的SAOT的显着性关联建模模块分两步执行显着性关联：1）在所捕获的显著性之间构造有效图以模拟这些显著性之间的交互; 2）基于所构建的图来聚合显著性以学习样本与搜索图像之间的全局相关性表示。显着图的构建。在构建显着图时，我们考虑节点特征的两种类型的信息：1）相似性图S，其包含样本的每个局部部分到搜索图像的精确对应信息; 2）搜索图像Fs的特征图。两种类型的信息，具有相同大小的特征图（hs ws），在深度上连接在一起。因此，可以考虑得到的堆叠特征图（表示为Fg）其中viRhxwx+c和vjRhxwx+c是连接中两个节点的特征。 φ1和φ2表示两个全连接层的参数，而σ表示将边权重变换为位于（0，1）的Sigmoid函数。所捕获的显著性的聚合。显著性关联建模的第二步是根据所构建的显著性图来聚合显著性信息。有多种方式来执行图形聚合。我们选择图卷积网络（GCN）[23]，因为它的有效性和方便性可以集成到整个模型中进行端到端训练。具体来说，我们构建了两层GCN来执行显着性聚合。受Li et al.启发[27]采用A的高阶多项式来模拟节点间的多尺度相互作用。形式上，第1层图卷积被公式化为：作为一个图，它有总的hs ws常规节点，而每个X（l+1）=σ（Σwm=1AmX（l）Θ（l）），（9）在级联之前通过对应的显著性值来更强调所捕获的显著性。而且其中m和M分别是多项式阶数和阶数的总数。在这里，wm是用于的可训练权重。1 1图中捕获的K个显著性的位置是独立的。在显着性挖掘模块中获得的P中的cated构建显着图的关键步骤是通过连接边来建模节点之间的交互。由于我们的目标是将捕获的显著性关联起来以实现跟踪目标的有效全局表示，因此我们在指定的K个显著性之间进行成对的边缘连接命令M。A=D~−2A~D~2是正常i化相邻y矩阵[23]，其中A~=A+I并且D~是A ~的对角矩阵。X（l）RN×dl和X （l+1）RN×dl+1是第l层所有节点的输入和输出特征。其中dl和dl+1是对应的特征尺寸，并且d0等于节点特征尺寸（h x w x+c）。 Θ（l）∈Rdl×dl+1表示可学习的参数。节点由维度为hx wx+c的向量特征表示。请注意，相似性图是标准化的M9872×××××m阶的L层上的矩阵。σl是层l处的激活函数。通过构建显著性图并进一步执行显著性聚合，SAOT的显著性关联建模模块能够学习目标样本与搜索图像之间的全局相关性表示，其进一步用于预测搜索图像中的3.4. 跟踪框架我们的模型可以很容易地集成到各种典型的跟踪框架。如图2所示，我们将我们的算法与典型的在线学习跟踪器（即在线判别滤波器[2]）集成在一起。由我们的算法输出的全局相关表示被馈送到用于预测分类图的分类头和用于预测目标的边界框的回归头特别地，分类头的输出p〇用于经由加权的逐元素求和来正则化由在线判别滤波器产生的响应图pr，以生成最终分类图pcls。由回归头预测的边界框（其对应于pcls中的最大分类得分）被用作最终跟踪结果。分类和回归头均按照FCOS [40]设计。端到端参数学习。整个模型SAOT以端到端的方式进行训练具体来说，我们采用IoU损失[37]和二进制交叉熵（BCE）损失[11]分别以离线方式训练回归和分类头。在线判别滤波器按照DiMP [2]进行训练，DiMP [2]的离线训练与我们的SAOT的训练联合执行。4. 实验4.1. 实验装置实作详细数据。我们使用ResNet [17]的conv- 3和conv-4的融合特征作为 SAOT 的 Siamese 表示，其中根据SKNet [30]计算融合权重。目标样本根据其边界框从样本图像的特征图中裁剪，并由PrPool [20]层合并以获得其精确表示，其大小设置为8 8。搜索图像的面积是目标图像的52倍，大小调整为288288.式中的λ和σg7已设置分别为1和2。K被设置为48。 pr被设置为0.8 。我们使用 COCO [33] ， GOT10k [19] ，TrackingNet [35]和LaSOT [13]的训练分割来训练我们的模型。在训练过程中，ResNet中的参数被冻结，而其他参数则使用ADAM [22]进行优化，学习率从1衰减10−3至810-6和权重衰减为1 10-4除了那些线鉴别滤波器，其训练设置遵循DiMP [2]。代码和原始结果见https://github.com/ZikunZhou/SAOT.git。表1. AUC和精密度（Pre.）在OTB2015和NFS30上的SAOT的六种变体最好的分数用粗体标出。变体OTB2015 NFS30 AUC制备给药前AUC基础模型0.6510.8600.5970.703PPFM0.6870.8810.6250.736Pam0.7010.9090.6410.761SAOT（我们的）0.7140.9260.6560.778DW-Corr0.6910.8840.6170.712PG校正0.6930.8960.6190.711数据集和指标。我们在OTB2015 [43]，NFS30 [21]，LaSOT [13]，VOT2018 [24]，[19]第109话：具体地，0TB2015和NFS30均他们使用精度和成功来衡量跟踪性能，并使用成功图的曲线下面积（AUC）进行排名。LaSOT是一个大规模数据集，总共包含1，400个序列，测试集中包含280个序列。它使用precision、标准化精度和成功作为性能度量。VOT2018包含60个序列，并使用预期平均重叠（EAO）来衡量跟踪器的整体性能。GOT 10 k在训练和测试分割中分别包含10，000和180个序列;它使用平均重叠（AO）和成功率（SR）作为性能度量。4.2. 消融研究为了研究每个拟议组件的有效性，我们使用六种SAOT变体进行消融研究：1) 基模型，其中只包含特征提取器，分类和回归头，和SAOT的在线过滤器。这里，分类和回归头是在搜索图像Fs的特征图上构造的。2) PPFM通过像素到像素的特征匹配来计算样本与搜索图像之间的相似性映射S，它使用两层CNN来调整S和Fs的堆叠特征图以生成相关表示，在其上构造分类和回归头3) PAM，其通过将所有局部部分同等地视为显著性来关联所有局部部分以生成相关表示没有捕获显著性。我们将这样的模型称为部分关联模型。4) SAOT，我们的完整模型，它与显着性相关联，而不是像PAM那样与所有局部部分相关联。5) DW-Corr，它在我们的框架中采用深度交叉相关[25]来取代显着性挖掘和显着性关联建模模块。6) PG-Corr，它在我们的框架中采用像素到全局交叉Cor关系[32]。表1呈现了这些变体在OTB2015 [43]和NFS30 [21]基准上的实验结果。构建的相似性映射的效果。基础模型和PPFM之间的性能差距清楚地证明了在有限元分析中构建相似性图的好处98730 0.1 0.2 0.3 0.4 0.50.2 0.4 0.610.950.90.850.80.750.70.650.610.950.90.850.80.750.70.650.60.50.450.46 1秩序0.550.551015202530354045500.550.500.10.20.30.40.50.60.70.8图8.VOT2018上不同跟踪器的预期平均重叠和平均运行速度。符号 * 表示速度由作者报告，因为代码不可用。图6. OTB2015上不同跟踪方法的精度和成功图表2. 不同追踪方法对NFS30的AUC。0.80.80.70.70.60.50.40.30.20.10.60.50.40.30.20.1表3.GOT10k上不同跟踪器的AO和SR。D暹罗 SiamRPN 原子海洋 DiMP PrDiMP 我们的[16]++[25][7][49][2][9][3]AO0.4170.5180.5560.611 0.6110.6340.6360.640SR0。50.4610.6180.6340.721 0.7170.738-0.749000GradNet [28]、ATOM [7]、SiamRPN++ [25]、C-RPN[14]、图7. LaSOT测试集上不同跟踪方法的归一化精度和成功图真实空间来对样本和搜索图像之间的细粒度相似性进行建模。关联建模的效果。与PPFM相比，PAM在OTB2015和NFS30上的AUC性能分别提高了1.4%和1.6%这些结果验证了通过对匹配的局部部分之间的成对相互作用进行建模来关联匹配的局部部分的益处，这生成了更鲁棒的相关表示。显着性挖掘机制的效果。PAM和我们的SAOT之间的比较表明了所提出的显着性挖掘机制的有效性，其在OTB2015和NFS30上的AUC中分别进一步提高了1.3%和1.5%的跟踪性能。该机制成功地使跟踪器能够专注于对跟踪有区别的目标的局部显著性。不同相关性计算方法的比较。与我们的SAOT相比，DW-Corr和PG-Corr在OTB 2015和NFS 30上的AUC性能分别降低2.3%/2.1%和3.9%/3.7%。它展示了通过挖掘显著性并将其关联来学习相关表示的优越性。4.3. 与最先进的跟踪器的在本文中，我们将我们的SAOT与17种代表性的最先进方法在五个基准上进行了比较，包括OTB2015，NFS30，LaSOT，VOT2018和GOT10k。的比较中涉及的方法包括16个整体策略跟踪器（KYS[3]，Ocean [49]，SiamBAN [5]，Sia-mAttn [44]，PrDiMP [9]，Retina-MAML [41]，DiMP[2]，GCT [15] 、 SPM [42] 、 DaSiamRPN [50] 、 SiamRPN[26]、和DSiam [16]）和一个基于部分的跟踪器（PG-Net[32]）。我们在下面讨论每个数据集的实验结果。OTB2015。图6显示了OTB2015上的精度和成功图。我们的算法实现了最好的AUC得分为0.714和最好的精度得分为0.926。请注意，DiMP [2]，Ocean [49]和我们的SAOT都是基于相同的在线判别过滤器构建的的差异DiMP和Ocean采用整体跟踪策略进行跟踪，而我们的方法采用基于部分的策略。我们的方法优于这两种方法的大幅度（2.8%和3.0%的AUC，分别），这表明了所提出的方法的有效性。NFS30。表2报告了NFS30的AUC评分。虽然PrDiMP[9]和KYS [3]在该数据集上表现良好，AUC得分分别为0.635和0.634，但所提出的SAOT实现了0.656的最佳AUC得分，分别将这两个跟踪器的跟踪性能提高了2.1%和2.2%。LaSOT 我们遵循协议II [13]在LaSOT的测试集上评估拟议的SAOT图7显示了标准化精密度和成功图。我们的SAOT在AUC和归一化精度方面都达到了最佳性能。与Ocean [49]和DiMP [2]相比，我们的方法在AUC和归一化精度方面分别实现了5.6%/4.8%和5.7%/6.0%的显着性能增益。VOT2018.图8显示了VOT2018上不同跟踪器的EAO评分。尽管Ocean [49]获得了令人印象深刻的0.489的EAO评分，但我们的方法进一步将EAO评分提高了1.2%。此外，与现有的基于在线判别滤波的方法相比，该方法具有更好的鲁棒性。RPN [50] ++[25][7][5][2][3][9]达西亚姆SiamRPN 原子 SiamBAN DiMP KYS PrDiMP我们的AUC 0.395 0.503 0.584 0.594 0.619 0.6340.635零点六五六9874预测框DW-CorrPG-CorrOurs#0170#0195#0172#0666#0548#2074#0075#1037#0170#0195#0172#0666#0548#2074#0075#1037DW-Corr特征#0170#0195#0172#0666#0548#2074#0075#1037PG校正特征#0170#0195#0172#0666#0548#2074#0075#1037我们的相关性特征图9. 我们的SAOT，DW-Corr和PG-Corr之间的定性比较四个具有挑战性的跟踪序列（左两个变形和其他两个干扰）。我们的SAOT能够学习比DW-Corr和PG-Corr生成的更精确的相关性特征。因此，我们的SAOT预测更精确的边界框比其他两种方法。在具有变形的两个挑战序列（左）和具有干扰项的两个挑战序列（右）上的边界框。我们的模型预测更精确的相关性特征和边界框比其他两种方法，这意味着其更好的能力来处理变形和干扰，因为捕获的显着性是强大的变形和干扰。显着图的可视化图10示出了图10. 10个目标样本的显著性图。显著性图通过可视化由等式（1）计算的显著性得分来获得7对于每个样本的整个特征图。对于每个样本，前5个最显著的局部区域以绿点指示与KYS [3]和PrDiMP [9]相比，我们的SAOT在EAO中分别实现了3.9%和5.9%的实质性性能增益。我们还在图8中报告了不同跟踪器的平均运行速度，这些跟踪器在VOT2018上使用带有RTX2080 GPU的同一台PC进行了测试，没有重置。我们的SAOT以29 FPS运行，实现了实时性能。GOT10K。我们遵循定义的协议[19]来训练我们的SAOT，以便在GOT10k上对其进行评估表3报告了GOT10k测试集的AO和SR评分与Ocean [49]和DiMP[2]相比，所提出的方法在AO中实现了2.9%/2.9%的性能增益，在SR0中实现了2.8%/3.2%的性能增益。5所示。此外，我们的算法执行fa-[19]这些经验--GOT10k上的心理结果，其训练集和测试集不共享对象类，验证了我们的方法在不同对象类中的泛化能力。4.4. 定性研究为了更深入地了解我们的方法，我们将相关性表示和显着性值可视化。相关性表示的可视化我们直观地比较了我们的SAOT和其他两个变体DW-Corr和PG-Corr。图9显示了相关性特征和十个目标样本的显著性图。我们观察到，建议的显着性评价指标分配高显着性值的局部区域，是歧视性的跟踪。5. 结论在这项工作中，我们提出了显着性相关的对象跟踪器（SAOT），它首先处理区分局部显着性，然后将它们关联起来，以实现全局解决方案。具体来说，我们的SAOT采用建议的显着性挖掘模块来捕获目标对象的显着性，这是强大的目标变形和干扰。此外，我们提出了一个显着性关联建模模块，通过建模它们之间的相互作用来关联捕获的显着性，学习一个精确的相关表示，以反映目标状态。所提出的方法实现了良好的性能对国家的最先进的跟踪器在五个数据集。致谢本研究得到了国家自然科学基金的资助（U2013210、62006060、62002241），深圳市研究会广东省2019冠状病毒病防控专项研究项目（JCYJ20210324120202006）（2020 KZDZDX 1227）、深圳市高校稳定支持计划基金（ GXWD20201230155427003 -20200824125730001）。9875引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCVW，2016年。[2] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 学习判别模型预测跟踪。在ICCV，2019年。[3] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte.了解你的周围环境：利用场景信息进行目标跟踪。在ECCV，2020年。[4] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。CVPR，2010。[5] Zedu Chen，Bineng Zhong，Guorong Li，升平Zhang，and Rongrong Ji.用于视觉跟踪的连体盒自适应网络。在CVPR，2020年。[6] 戴克南，王东，卢沪川，孙冲，李建华.通过自适应空间正则化相关滤波器的视觉跟踪。在CVPR，2019年。[7] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪在CVPR，2019年。[8] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在CVPR，2017年。[9] Martin Danelljan Luc Van Gool和Radu Timofte用于视觉跟踪的概率回归。在CVPR，2020年。[10] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习连续卷积算子的视觉跟踪。在ECCV，2016年。[11] Pieter-Tjerk De Boer，Dirk P Kroese，Shie Mannor，andReuven Y Rubinstein.关于交叉熵方法的教程。Annals ofOperations Research，134（1）：19[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[13] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。在CVPR，2019年。[14] 范恒和凌海滨。用于实时视觉跟踪的Siamese级联区域投影网络在CVPR，2019年。[15] Junyu Gao，Tianzhu Zhang，and Changsheng Xu.图卷积跟踪。在CVPR，2019年。[16] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。InICCV，2017.[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[18] JoaoFHenriques ， RuiCaseiro ， PedroMartins ，andJorgeBatista.用核相关滤波器进行高速跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，37（3）：5839876[19] Lianghua Huang，Xin Zhao，and Kaiqi Huang. Got-10k：用于野外通用对象跟踪的大型高多样性基准测试。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。[20] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位

下载后可阅读完整内容，剩余1页未读，立即下载