图卷积跟踪：充分利用时空信息的高性能视觉目标定位方法

116 浏览量更新于2023-10-17 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4649图卷积跟踪高俊宇1，2，3，张天柱1，2，4，徐长胜1，2，31模式识别国家重点实验室，中国科学院自动化研究所2中国科学院大学（UCAS）3鹏程实验室，深圳，中国4中国科学技术大学{junyu.gao，csxu}@ nlpr.ia.ac.cn，tzzhang10@gmail.com摘要近年来，暹罗网络的跟踪取得了良好的性能。然而，现有的大多数siamese方法没有充分利用时空目标外观建模在不同的上下文情况下。实际上，时空信息可以提供多种特征来增强目标的表示，而上下文信息对于目标定位的在线自适应是非常重要的。为了综合利用历史目标样本的时空结构并从上下文信息中获益，本文提出了一种新的高性能视觉跟踪方法--图卷积跟踪（Graph Convolutional Tracking，GCT）具体而言，GCT联合将两种类型的图卷积网络（GCN）合并到一个用于目标外观建模的连体框架中。在这里，我们采用时空GCN模型的结构化表示的历史目标范例。此外，上下文GCN被设计为利用当前帧的上下文来学习用于目标定位的自适应特征。在4个具有挑战性的基准测试上的广泛结果表明，我们的GCT方法在每秒运行约50帧的情况下对最先进的跟踪器表现良好1. 介绍视觉跟踪是计算机视觉领域的一项基本任务，它是在变化的视频序列中自动定位目标对象。它具有各种应用，例如智能视频监控，人机交互，机器人和自动驾驶，仅举几例[71，33，13，24，74，42，17]。尽管有许多近年来取得了进展[38，3，45，9，66，36，20，82，22]，由于巨大的挑战，例如遮挡、背景杂波、照明变化、尺度变化、运动模糊、快速运动和变形，视觉跟踪仍然是困难的。#0015#0034#0056#0011#0060#0124GCT SiamFC TRACA ECO-HC图1.我们提出的跟踪器与流行的SiamFC跟踪器[2]和其他两种最先进的方法的比较。最近，通过连体网络进行的跟踪在跟踪社区中引起了越来越多的关注，其在端到端框架中学习目标对象与当前搜索图像的可识别块之间的相似性度量借助强大的深度网络和用于离线训练的大规模标记视频帧，基于暹罗的跟踪器实现了有利的性能和效率。一个值得注意的例子是SiamFC跟踪器[2]，它在嵌入空间中学习匹配函数，并赢得了VOT2017实时挑战[33，32]。然而，根据现有跟踪基准[70，71]的结果，SiamFC并没有达到比许多其他类型的跟踪器更好的准确性，例如ECO-HC [10]和TRACA [5]。图1还显示，当目标对象具有显著的外观变化时，SiamFC会遇到困难[25]。为了提高基于siamese的方法的鲁棒性，已经提出了各种策略，例如注意力学习[66]，动态更新[23]和结构化建模[84]，这些策略已经获得了有前途的性能。尽管取得了上述显著进展，但大多数基于连体的跟踪方法并未充分利用不同背景情况下的时空目标外观建模：（1）许多连体跟踪器使用来自第一帧的初始目标模板来匹配候选块[60，2，36]。然而，由于视觉跟踪是一种4650图2.我们的动机的说明。从下到上：（1）在时空外观建模中，将历史目标实例图像转换为ST图，其中每个目标部分对应于图节点（在该示例中为红色、绿色、蓝色节点）。通过利用该图，考虑不同的目标部分以生成用于表示目标对象的鲁棒ST特征。(2)在上下文引导的特征自适应中，当前搜索图像提供有用的前景/背景信息，这有助于进行特征自适应的图学习。在这里，红色和绿色部分比蓝色部分更重要，因为蓝色部分用于更新目标外观模型但忽略来自当前搜索图像的上下文信息的plars。受上述观察的启发，期望在当前搜索图像的上下文信息下自动捕获目标外观的时空模式。在基于拼接的方法的跟踪过程中，目标样本序列可以被组织为三维时空图，其中每个目标部分被视为一个节点。虽然3DCNN [62]可以应用于时空建模，但它在计算上是昂贵的[52]，并且不能处理任意的图形结构。最近，图卷积网络（GCN）可以对任意图中不同节点之间的依赖关系进行建模并传播消息，已经受到越来越多的关注，并成功地应用于各种计算机视觉任务[35，46，67，72，56]。到目前为止，GCN在视觉跟踪中的应用还有待探索。本文提出了一种基于连体框架的端到端图卷积跟踪（GCT）方法，该方法能够综合考虑历史帧的时空目标外观结构和目标的连续性特征，并能有效地跟踪目标。部分被遮挡在当前搜索图像中。利用自适应特征，可以实现鲁棒的目标定位。随着场景变化的动态过程，在连续帧中的目标对象表现之间存在来自不同帧和位置的特征为目标外观建模提供了不同的信息[76，61]，例如不同的部分和视点，运动，变形和不同的照明。在跟踪过程中，为了表征目标对象的旋转和平移不变性，图像块可以被建模为网格图[8]。如图2的底部所示，来自历史范例图像的不同目标部分可以被组织为时空图，其中ST特征可以被全面地学习以用于表示目标外观。（2）目标对象的周围环境对跟踪性能有很大影响[48]。然而，现有的暹罗跟踪方法大多忽略了搜索图像的上下文信息来指导目标外观模型的自适应。由于缺乏在线适应性，它们很难很好地捕捉到搜索图像中目标对象、背景或情况的变化我们指出，视觉跟踪可以受益于当前的上下文信息。如图2的顶部所示，在当前上下文的帮助下，学习一个新的图作为自适应指导。基于学习的图，用于目标定位的特征可以自适应地改变，通过聚焦于前两部分（绿色和红色部分）而不太关注最后部分（蓝色部分），因为该部分被包含在搜索图像中。虽然一些方法利用注意力学习[87，66]或转换学习[23]进行在线适应，但它们仅使用先前的目标示例。当前搜索图像的文本信息如图所示在图3中，对于目标外观建模，我们构建了一个时空图，以形成历史目标样本的结构化表示一个时空GCN（ST-GCN）学习一个强大的目标外观模型在这个图上，并产生一个时空特征（ST特征）。此外，结合上下文信息的当前搜索图像的目标定位，我们结合ST-功能和上下文功能，以产生一个自适应图。一个上下文GCN（CT-GCN），然后在这个图上运行，并生成自适应功能的目标定位。为了使跟踪高效，所有的学习过程都在离线训练中进行。我们在五个流行的跟踪基准上验证了我们方法的有效性和效率[70，71，33，40，47]。总之，本文的主要贡献有三个方面：• 探索了端到端图卷积跟踪框架。据我们所知，这是第一个在深度连体网络中训练GCN用于视觉跟踪的工作。• ST-和CT-GCN都设计在连体网络中。GCT可以联合实现目标的时空外观建模和上下文建模.用于鲁棒目标定位的引导自适应学习。• 在五个视觉跟踪基准上的大量实验结果表明，所提出的GCT算法对最先进的跟踪算法表现良好实时运行2. 相关工作由Siamese Network提供。使用深度学习进行视觉跟踪的一种简单而有效的方式是#t自适应特征上下文图学习当前搜索图像目标定位- 时间图ph值历史目标示例图像图节点目标件空间边缘时间边缘自适应边缘ST-特征闭塞（ST-Gra空间时空外观建模#t-3上下文引导的特征自适应#t-2#t-14651直接应用连体网络作为目标对象和候选块之间的匹配函数[60，2，26，63，23、66、87、36]。开创性的工作SINT [60]在离线阶段学习匹配函数，并将其应用于在线跟踪中找到最相似的目标候选者。尽管SINT具有良好的跟踪性能，但由于候选采样过程，其速度仅为2 fps。为了提高跑步速度，Bertinettoet al. [2]提出了一个全卷积的Siamese框架（SiamFC）来进行嵌入空间中的相似性学习，该框架在GPU上运行近86 fps。最近，已经提出了更多的基于siamese网络的跟踪方法，具有实时高质量。Guo等[23]提出了一种动态暹罗网络（DSiam），它采用变换学习模型进行自适应在线学习。Wang等人[66]在连体学习中引入不同类型的注意机制，缓解了过拟合问题，提高了连体学习的分辨能力。此外，还采用了其他策略来提高连体跟踪的性能，例如双重学习[25]，三重损失优化[12]，区域建议网络[36]，对抗学习[68]，深度强化学习[30]，分心物感知模块[86]和结构化建模[84]。与上述方法不同的是，我们是第一个在siamese网络中利用图卷积算子来全面建模目标对象的结构化线索的方法之一，该方法可以联合考虑时空结构和当前上下文信息。结构化目标外观建模。为了应对视觉跟踪场景中的各种挑战，已经提出了许多跟踪算法来将结构信息施加到目标外观建模上。一些跟踪器探索视觉跟踪中的时空建模-本文在端到端的siamese框架下，充分利用目标的时空结构和搜索图像的上下文信息进行目标定位。计算机视觉的图形神经网络。近年来，任意结构图的神经网络的推广引起了人们的极大关注有两种典型的方法来开发图神经网络。一方面，一些方法采用前馈神经网络以空间方式对另一方面，谱方法通过傅立叶域中的卷积在图上提供定义良好的局部化算子[31]。对于计算机视觉任务，Wanget al.[67]提出将视频表示为捕捉相似关系和时空关系的时空区域图。为了对用于人类动作识别的动态骨架进行建模，Yanet al.[72]提出了一种具有几种类型内核的时空图卷积Shen等人[56]UTI-EGRACTOR卷积算子来学习用于人重新识别的探针-图库关系。Gao等人利用图神经网络来提高视频分类[18]和零拍摄视频分类[19]的性能3. 图卷积跟踪在这项工作中，我们提出了一个图卷积跟踪器，GCT，它联合执行时空目标appearance建模和上下文引导的自适应学习在一个端到端的方式。图3概述了基于连体架构（SiamFC）的拟议跟踪算法的流水线[2]。SiamFC学习相似性函数-在学习的卷积特征嵌入空间φ（我们表示Z=φ（z），X=φ（x））中比较127×127的样本图像z和255×255的[76，59，57，87，37，61，77，79，83]。然而，这些方法要么不是端到端可训练的[76，37]，要么只使用整体目标外观模型[57，87，61，21]。f（z，x）=φ（z）<$φ（x）+b=Z<$X+b，（一）例如，虽然FlowTrack [87]利用光流从帧间运动线索中获益，但它仅采用整体模型进行目标表示，忽略了局部目标部分之间的交互等详细信息。最近，将目标对象分解为若干部分的基于部分的方法已经被积极地研究[8，78，22，39，7，8，80，20，82，85]。例如是提出了光谱跟踪方法[8]，以通过图形滤波器对每个像素的局部化周围区域进行操作。随着深度学习技术的发展，一些基于部分的方法以端到端的方式学习结构化信息[84，15]。Zhang等人[84]利用条件随机场作为消息传递模块，学习暹罗网络中局部结构。然而，现有的基于部分的跟踪器在定位目标对象时，只考虑了前一帧的空间结构信息，很难利用长时间的时间信息。在其中，R表示两个特征图之间的互相关，b∈R表示每个位置的偏差。通过使用E-Q. （1）、从搜索图像中最相似的补丁将被选为目标对象。SiamFC算法具有良好的跟踪效率和可扩展性，但在整个跟踪过程中仅使用第一帧作为固定模板，难以利用不同背景下目标外观的时空结构。事实上，来自不同帧和位置的特征为目标外观建模提供了多样化和丰富的信息[76]，例如不同的部件和视点、运动、变形和不同的照明。对于目标定位，这些特征应该在当前搜索图像的上下文信息的指导下在时空域中自适应地聚集。为此，我们设计了一个图卷积变换到siamese架构中，共同考虑目标外观建模。465222J图3.我们的GCT的流水线，它可以联合执行时空目标外观建模和上下文引导的特征适应在一个连体框架。具体来说，我们使用一个ST-GCN模型的历史样本的时空图。然后，生成的ST特征与当前上下文特征相结合，以学习自适应图，CT-GCN使用该自适应图来产生自适应特征。该特征通过用于目标定位的互相关层（XCorr）在搜索图像嵌入上进行评估利用当前搜索图像的上下文信息：f （ zt−T ： t−1 ， xt ） =<$GCN （ Zt−T ： t−1 ， Xt ）<$Xt+b，（2）其中<$GCN表示所提出的图卷积变换。其目的是在当前搜索图像的上下文信息的指导下，学习先前帧t-T：t-1中的目标对象的鲁棒时空特征年龄嵌入Xt. T控制记录历史信息的时间范围。然而，学习BCGCN不是有效的，因为它遭受用于对当前上下文信息Xt和每个历史样本之间的消息传递进行建模的高计算负担。目标模板。Y[u]∈{+1，−1}是如[2]中的地面真值标签，R[u]=V2[u]·Xt[u]是响应分数。下面，我们首先介绍一下我们的初步情况，主要构建块GCN [31]，它将CNN推广到图形。然后，我们说明了ST-GCN和CT-GCN。最后介绍了我们的跟踪方法的细节。3.1. 初步：图卷积网络给定一个无向图G=（V，E），G有M个结点V，结点间的一组边E，一个无向雅森矩阵A∈RM ×M，一个度矩阵Λii=一个ij。我们-将图卷积的线性变换模拟为垫层Z. 为了降低计算成本，我们图信号X∈RD×M（列-t−T：t−1进一步将GCN分解为两个序列图，时空GCN（ST-GCN）GCN（CT-GCN）1.1和GCN（CT-GCN）1.2。因此，德-n向量Xi·∈RD是第i处的特征表示，节点）与过滤器W ∈RD×C：V=Λ−1AΛ−1XW，（5）组成配方为：其中A=A+I，I是单位矩阵。ΛˆiiAJi j.f（zt-T：t-1，xt）=f（Zt-T：t-1，Xt）f（Zt-T：t）自适应特征提取器2利用V1和当前搜索图像嵌入Xt的上下文信息来学习自适应特征V2，然后通过互相关在搜索图像嵌入Xt上对其进行评估。在在离线训练阶段，样本-实例对的损失通常表示为逻辑函数[2]：在这个公式中，输出是C×M矩阵V。注意，GCN可以通过堆叠多个图卷积层来构建，该图(5)，每层后面跟着非线性操作（如ReLU）。读者可以参考[31]了解更多细节和深入讨论。3.2. 基于ST GCN的目标外观建模目标对象的时空结构是鲁棒视觉跟踪的关键。然而，大多数现有的基于连体网络的方法要么描述目标出现-L（ zt−T：t−1，xt，Y）=1|∇|Σu∈log（1+exp（−Y[u]R[u]）），（四）在端到端的训练中忽略历史信息，导致对显著的外观变化的高敏感性。在本节中，我们-其中，n是搜索中所有移动位置的集合并且u表示与图像相同大小的样本=4653对时空图进行签名以形成结构化表示，历史范例（目标对象）序列的位置465411i=11i=t−1ii=t−1具体来说，示例分支（图3的顶部）中的共享ConvNetφ获取历史示例图像在图3的底部xt作为输入，共享ConvNet产生实例em-{z}t−T作为输入，并产生相应的EM-层Xt∈RD1×Mx.获取全局信息ii=t−1层理{Zi}t−T.这里，Zi∈RD1×Mz，其中D1和Mz表示特征维数，部分分别。尽管可以利用其他自动零件生成方法[84，67]，但为了简单和高效，我们遵循[7，8]考虑每个D1×1×1将特征图Zi的网格作为目标部件。执行目标对象的时空建模，我们构建了一个无向ST-图G=（V，E）在一个示例嵌入-搜索图像时，我们使用卷积层，通过最大池化层生成大小为D1×1的全局特征xt。这里，卷积层有D2个滤波器，核大小为3×3，步长为1，池化层的大小为Mx。将全局特征xt作为当前的上下文信息，我们使用去卷积层来获得一个扩展的特征Xt，它的大小与S T-功能V1. 然后，通过逐元素地将X t与V1融合，1 1 1丁序列与Mz部分（节点）和T帧的特点内样本和样本间的关系。在gr a phG1 中，节点集V1={vij|i=t−1，.， t−T，j=1，...，Mz}由样本嵌入序列中的所有目标部分组成。边缘集合E1由两种类型的边缘组成：（1）空间边缘ES表示每个帧处的样本内连接：ES=添加如下：Vx=V1+Xt，（7）其中Vx考虑目标对象的时空特征和当前帧的上下文信息两者为了执行用于鲁棒特征自适应的图学习，我们使用Vx来生成自适应图G2=（V2，E2），其中{vijvik|1≤j，k≤Mz，jk}。与[8]类似，邻接矩阵A2定义为：我们采用全连通图来描述空间重构，因为所有的目标部分都可能有相互作用，Aji=exp（g（Vx，i）<$h（Vx，j））各种外观变化。此外，在我们的前2μMzexp（g（Vx，i）h（Vx，j、（8）））实验中，我们发现全连通图达到了性能良好，同时需要较少的图卷积其中Vx，i是Vx的第i列向量，g（·）和h（·）是层比其他类型的图，如k-最近邻图[8]。(2)按照[72]，我们将连续帧中具有与时间边缘ET={vijvi+1 ，j}相同位置的部分连接起来。因此，信息可以在时域中传播。对于这两种类型的边缘，在V1中的MzT个节点中，每个节点最多与Mz+1个节点相连，从而使ST图稀疏，降低了图卷积的计算量基于ST图，我们可以得到相应的邻接矩阵A1，并将方程（1）的多个图卷积层叠加起来。（5）构建ST-GCN。 ST-GCN然后生成细化的特征向量{Z}t-T对于时空图的每个节点，Z∈RD2×Mz. 为了减少以下层的计算负担，我们然后沿时间轴聚集特征以产生紧凑ST特征V1∈RD2×Mz：两个1×1卷积层和D1滤波器。通过学习的图形，我们能够构建CT-GCN通过等式(5)该方法以ST特征为输入，产生自适应特征V2∈RD1×Mz，用于跟踪过程中的目标定位。3.4. 提出的跟踪算法网络结构。如图3所示，我们使用在ImageNet [54]上预训练的修改后的AlexNet [34]作为共享ConvNet。前三个卷积层的权重是固定的，只有最后两个卷积层是微调的。我们还添加了一个额外的3×3conv层，以减少输出通道维数为D1=256。的部分样本图像和搜索图像的嵌入次数分别为Mz=6×6=36和Mx=22×22=484。对于ST-GCN，我们采用2个图卷积层，输出信道维数为512，V1=最大池化T（[Zt−T ，Zt−T+1 、...、Zt−1]），（6）256（D2）。CT-GCN还具有2个图形卷积层-有384和256频道。[69]我们其中MaxPoolingT操作应用于时间范围T。然后，将V1作为CT-GCN的输入。3.3. 通过CT GCN进行目标特征自适应我们的框架不仅模型的目标样本之间的时空结构，但也结合了当前搜索图像的上下文信息，以指导自适应特征学习。为了充分利用上下文信息，我们将一个图学习模型集成到我们的框架中，如图3所示，它生成了一个自适应图结构，用于指导CT-GCN。如图所示4655将LeakyReLU应用为两个ST-GCN和CT-GCN。离线训练我们使用来自ImageNet大规模视觉识别挑战赛（ILSVRC 2015）[54]的视频对象检测数据集的视频作为训练数据。该数据集包含近4500个视频，总计超过100万个注释帧。在对象的每个视频片段中，我们在最近的100帧内收集T+1我们使用前一个T帧作为样本图像，最后一个作为搜索图像。我们采用ADAM优化器，学习率为465620304050的情况。005并将权重衰减设置为5e−5。该模型训练了50个epoch，批量大小为24。追踪推理对于跟踪器初始化，我们将第一帧作为样本图像持续T次。我们在实验中设定T=10。在跟踪过程中，我们使用间隔τ=7来更新样本图像，这使得我们的方法能够有效地记住长范围的历史信息。具体来说，对于每个τ10.80.60.40.20OPE的成功图最高[2fps][0.673]GCT[50fps][0.670]MetaCREST[12fps][0.667]ADNet[3fps][0.659]BACF[35fps][0.657]ACT[30fps][0.657]PTAV[25fps][0.654]ECO-HC[60fps][0.652]TRACA[101fps][0.652]MCCT-H[45fps][0.641]0 0.2 0.4 0.6 0.81重叠阈值10.80.60.40.20OPE的精密度图CREST[2fps][0.908]ACT[30fps][0.905]ADNet[3fps][0.903]TRACA[101fps][0.898]HDT[10fps][0.889]MetaCREST[12fps][0.883]PTAV[25fps][0.879]ECO-HC[60fps][0.874]GCT[50fps][0.873]MUSTER[4fps][0.865]0 10 20 30 40 5定位错误阈值0帧，第一个样本图像被删除，新的添加了示例。我们使用0的比率。4要平滑新(a) OTB-2013基准测试结果[70]样本与初始样本。如图3所示，目标中心可以通过定位由互相关层生成的响应图RG由于深度网络中的不同层从不同的角度描述目标[45，25]，我们进一步使用共享ConvNet的第5个conv层的特征来生成另一个响应映射RS。最终的响应图是通过平衡RG和RS与10.80.60.40.20OPE的成功图重叠阈值10.80.60.40.20OPE的精密度图定位错误阈值0系数γ：R=γRG+（1−γ）RS。γ被设置为0。7 .第一次会议。在[2]中，响应图中进一步添加了余弦窗口，以惩罚大位移。规模估算为了处理尺度变化，我们按照[2]在当前搜索图像的三个尺度上搜索，尺度因子为1。0375{-1，0，1}。我们通过线性插值来更新尺度，因子为0.59以提供阻尼。为了进一步提高跟踪器的速度，我们只使用响应图RS来估计尺度，这在实验中也显示出良好的性能。讨论GCT由ST-GCN和CT-GCN组成，可以在端到端的框架中联合执行时空目标外观建模和上下文信息的特征自适应。对于ST-GCN，我们设计了一个固定的时空图，考虑到两个因素。(1)由于时空图是具有MzT节点的大图，固定邻接矩阵A1比微调更有效[18]。请注意，另一种基于图的跟踪方法[8]也采用固定图进行外观建模。（2）虽然时间边缘可能不连接连续帧中的相同目标部分，但消息仍然可以在任何相关部分之间传递，因为每个帧中的空间边缘是完全连接的。此外，ST-GCN具有多层结构，可以扩大每个节点的感受野。对于CT-GCN，我们使用搜索图像来提供丰富的上下文信息，例如目标对象和周围背景，用于指导特征自适应1。在结束后-在大规模训练视频的离线训练结束后，在线跟踪过程中，可以自动自适应地生成具有不同ST特征和上下文特征的图G2.这两种类型的GCN的有效性在我们的实验中得到了验证。1在连体学习中，样本图像还包括目标对象周围的背景信息。(b) OTB-2015基准测试结果[71]图4. OTB数据集上的定量结果。我们的GCT方法对最先进的跟踪器表现良好。0.80.70.60.50.40.30.20.10IV OPR SV OCC DEF MB FM IPR OV BCLRGCTECO-HCSTRCFPTAVMCCT-H法TRACASiamFC图5.OTB上7个实时跟踪器的11个属性比较2015年，在AUC。所提出的GCT方法与现有技术相比表现4. 实验结果我们对4个具有挑战性的数据集进行了广泛的实验2，包括具有50个序列的OTB-2013对象跟踪基准[70]，其更新版本OTB- 2015 [71]，具有100个序列，具有60个视频的VOT 2017基准[33]和具有123个空中跟踪视频的UAV 123基准[47]我们的跟踪器是在Tensor-Flow上实现的. 硬件环境包括Intel E5-2687 3.0GHz CPU，256GB RAM和NVidia 1080Ti GPU。4.1. OTB实验评价方案。根据最近发表的方法[84，73，81，57]中使用的方案，我们报告了一次通过评估（OPE）的结果[70]。评估基于两个指标：成功图和精度图。(1)成功图说明了成功帧的比率2http://nlpr-web.ia.ac.cn/mmc/homepage/jygao/gct_cvpr2019.html（我们GCT的项目页面）GCT[50fps][0.648]ADNet[3fps][0.647]ECO-HC[60fps][0.643]MetaCREST[12fps][0.637]STRCF[31fps][0.632]PTAV[25fps][0.631]MCCT-H[45fps][0.628]ACT[30fps][0.625]CREST[2fps][0.624]BACF[35fps][0.622]ADNet[3fps][0.880]ACT[30fps][0.859]ECO-HC[60fps][0.856]MetaCREST[12fps][0.855]GCT[50fps][0.854]HDT[10fps][0.848]PTAV[25fps][0.841]CREST[2fps][0.839]MCCT-H[45fps][0.834]BACF[35fps][0.824]成功率AUC成功率精度精度0 0.2 0.4 0.6 0.810104657表1.基于AUC评分，与OTB- 2013和OTB-2015上的6种最先进追踪器进行比较。我们的方法提供了与最先进的跟踪器相当的结果。0.350.30.25方法MDNet[49]SANet[15]ECO[9]CCOT[11][43]第四十三话[第58话]GCT（我们的）0.20.15OTB-201370.868.670.967.268.371.067.0OTB-201567.869.269.167.166.068.264.8速度（FPS）2.6 1.0 6.0 0.6 5.7 1.549.80.10.05494541373329252117139 5 1在阈值范围[0，1]内，其中曲线下面积（AUC）包含在图例中。(2)精度图显示了平均距离精度以及阈值范围，并报告了每个跟踪器在20像素处的平均距离精度（DP）基线方法。我们评估我们的GCT方法与29在OTB基准[70，71]和其他国家的跟踪器-在顶级会议上展示的最先进的跟踪方法图6.VOT 2017挑战的EAO评分比较灰色水平线表示VOT2017最新技术水平界限。0.30.250.20.150.10.05049454137332925211713 9 5 1和期刊，包括MetaCREST（ECCV 2018）[50]，ACT（ECCV 2018）[4]、MCCT-H（CVPR 2018）[64]、TRA-CA（CVPR 2018）[5]，STRCF（CVPR 2018）[37]，CREST(ICCV 2017）[57]、PTAV（ICCV 2017）[14]、BACF（IC-CV 2017）[16]、ECO-HC（CVPR 2017）[9]、ACFN（CVPR2017）[6]、ADNet（CVPR 2017）[73]、CSR-DCF（CVPR2017）[44]、Staple CA（CVPR 2017）[48]、CFNet（CVPR2017 ） [63] ， SINT （ CVPR 2016 ，仅适用于 OTB-2013）[60]，缝钉（CVPR 2016）[1]、HDT（CVPR 2016）[51]、SiamFC（ECCVW 2016）[2]，SRDCF（ICCV 2015）[10]，MUSTER(CVPR2015）[29]，CNN-SVM（ICML 2015）[28]，RPT(CVPR 2015）[39]、KCF（T-PAMI 2015）[27]和MEEM(ECCV 2014年）[75]。定量评价。图4说明了组件跟踪器的总体性能的成功和精度图。为了说明，我们只绘制顶部10种方法排名所提出的GCT方法表现良好，AUC为（67. 百分之六十四。8%）和DP（87. 3%，85。OTB-2013和OTB-2015上分别为4%）。SINT [60]、CFNet [63]和SiamFC[2]是三种最先进的基于暹罗的跟踪器，其结果的AUC评分为63。5%，61。0%，60。2013年OTB的7%。与它们相比，我们的方法获得了3的绝对增益。5%，6.0% ， 6 。百分之三。另一个基于暹罗的跟踪器DaSiamRPN [86]的AUC s-核心为65。OTB-2015上的9% ，略优于我们的方法（ 64 。 8% ）。然而，DaSiamRPN使用其他大规模数据集进行模型训练，例如COCO Detection数据集[41]和Youtube-BB [53]。这种策略也可以用来进一步提高我们方法的性能总体而言，与最先进的技术相比，拟议的GCT实现了更好或相当的结果。注意，我们的方法的DP分数不是很显著，这可能由于响应图（17×17）的分辨率较低，以及在目标定位中的插值过程，使得目标这可以通过训练具有高-解析响应图[65]。我们还将GC-T与当前最顶级的非实时跟踪器进行了比较，包括MDNet（CVPR 2016）[49]，SANet（CVPRW 2017）[15]，E-GCTSiamFCLSART[0.323]CFWCR[0.303]CFCF[0.286]ECO[0.280]GCT[0.274]Gnet[0.274]MCCT[0.270]CCOT[0.267]CSRDCF[0.256]SiamDCF[0.249]MCPF[0.248]GCT[0.269]CSRDCF++[0.212]SiamFC[0.182]ECOhc[0.177]缝钉[0.170]KFebT[0.169]ASMS[0.168]SSKCF[0.164]CSRDCF[0.158]UCT[0.145]MOSSEca[0.139]4658图7.在VOT2017挑战赛上进行实时实验的EAO评分。GCT表现最好。CO（CVPR 2017）[9]、CCOT（ECCV 2016）[11]、DCOST （ EC-CV 2018 ） [43] 和 VITAL （ CVPR2018）[58]。在表1中，算法在两个基准上的AUC分数与运行时速度一起呈现。我们的方法具有相当的性能，并实现了显着的速度提高。此外，MDNet，SANet和VITAL使用来自相同ALOV/OTB/VOT域的视频训练和测试深度模型进行跟踪，由于过拟合问题，这在VOT挑战中是禁止的[2]。基于属性的评价。我们进一步分析了我们的GCT跟踪器在不同属性下的性能，OTB-2015基准。图5显示了GCT和其他七种最先进的实时跟踪器的比较。具体来说，我们的方法在11个属性中的6个属性下达到最佳效果对于其余五个，GCT表现良好。4.2. VOT2017上的实验我们将我们的GCT与VOT 2017基准的最先进方法进行了比较[33，32]。性能评估的预期平均重叠（EAO），这反映了鲁棒性和准确性。图6报告了我们与其他51个跟踪器在EAO评分方面的结果。如VOT 2017报告[33]所示，EAO值超过0的跟踪器。203将被视为最先进的方法。我们提出的GCT排名第五，EAO评分为0。274.图7显示了VOT 2017实时实验中的EAO s-核心。我们的跟踪器在EAO得分为0的情况下实现了最佳性能。269，并大大优于其他实时方法。4.3. 无人机123的实验最后，我们在最近提出的空中视频数据集UAV123 [47]上评估了所提出的GCT，该数据集有123个UAV跟踪序列，超过110K帧。将GCT与[47]中报告的所有14种追踪器以及其他实时最先进方法（包括MCCT-H [64]、STRCF [37]、ECO-HC [9]和Staple [1]）进行比较。图8再次46590.8OPE的成功图0.8OPE的精密度图OPE的成功图1OPE的成功图10.60.60.80.80.40.40.60.60.20.20.40.4000.200.4 0.6 0.8 1 0102030 40 50.20.2重叠阈值定位错误阈值000 0.2 0.4 0.6 0.8100 0.2 0.4 0.6 0.8 1图8.无人机123基准的定量结果[40]。我们重叠阈值重叠阈值所提出的GCT方法表现良好。表2.分析我们在OTB-2013和OTB- 2015上的方法。从左到右显示一次逐步积分一个组件的影响。OTB-2013年（%）SiamFC= SiamS-GCN60.7 62.5公司简介64.9公司简介67.0OTB-2015年（%）57.760.263.564.8FPS（OTB-2015）76.166.758.649.8表明我们提出的GCT表现良好。4.4. 进一步说明组分贡献。为了验证我们框架中每个组件的贡献，我们在OTB-2013和OTB- 2015基准测试中实现并评估了我们方法的四个变体。在表2中，呈现了从左到右逐渐添加一个组件的影响为了简单起见，我们在这里使用 OTB-2015 的结果进行首先是基准SiamFC3，它删除了以下GCN模块，仅使用响应图RS进行目标定位。然后在SiamFC上添加空间GCN（S-GCN），并在跟踪过程中使用融合的响应图。具体地，S-GCN移除ST-GCN中的时间边缘并且设置T= 1。S-GCN的绝对增益超过SiamFC2。5%，这表明基于部分的空间建模在视觉跟踪中是有用另外，结合我们提出的ST-GCN将我们的AUC评分提高到63。5%，导致相对收益5. 与S-GCN相比，5%显著的结果清楚地表明了我们的时空外观建模的有效性最后，我们将CT-GCN添加到我们的框架中，获得了2的相对增益。与ST-GCN相比，0%表2还显示了我们的组件对跟踪器速度的影响总体而言，建议GCT与ST-GCN和CT-GCN实现了最佳的跟踪性能和良好的运行时速度。ST-GCN的详细分析。为了定量分析不同深度的ST-GCN，我们设计了另外两种变体，ST-1 L和ST-4L。ST-1 L具有1个图形卷积层，输出通道数为256。4层型号ST-4L的通道号为512→1024→512→256。在图9的左侧，我们没有发现太多通过在我们的2层ST-GCN上添加更多层来获得增益模型为了使我们的跟踪器高效，我们将ST-GCN中的层数设置为2。我们还探索了其他图3由于此基线是我们自己实现的，因此结果与初始SiamFC跟踪器略有不同[2]图9.基于OTB- 2013基准的ST-GCN和CT-GCN消融研究。ST-GCN的结构。如图9所示，我们设计了两个基线ST-knn-2L和ST-knn-4L，它们采用[8]中使用的8-最近邻图来表示空间边缘。虽然ST-knn-4L可以实现与我们的方法相似的性能，但它的效率较低，因为它需要更多的图卷积层。CT-GCN的详细分析。我们还评估了CT-GCN中不同层数的效果，并在ST-GCN中设计了类似的基线图9（b）显示了CT-1L效果较差，CT-4L运行速度较低。此外，为了验证CT-GCN的有效性，我们开发了一种基线方法CT-noGCN，它去除了图卷积层。CT-noGCN仅使用Eq.（8）通过线性组合产生我们可以发现，我们提出的GCT优于它的相对增益为2。百分之三。实际上，GCT可以基于学习的图进一步进行相关部分之间的消息传递，这比与生成的分数的线性组合更好。5. 结论本文提出了一种图卷积跟踪框架，该框架可以在统一的框架中联合实现时空目标外观建模和上下文感知自适应学习，以实现鲁棒的目标定位我们表明，通过精心设计的时空GCN和上下文GCN，建议GCT实现国家的最先进的结果在准确性和速度。在四个具有挑战性的基准测试中进行了大量的实验，证明了该算法的性能。在未来，我们打算探索其他类型的图神经网络的视觉跟踪，如图嵌入和图注意力模型。我们也将把我们的方法应用到其他的计算机视觉任务中，例如。多目标跟踪和人员重新识别。确认这项工作得到了国家自然科学基金 61432019 ，61572498 ， 61532009 ， 61728210 ， 61721004 ，61751211，61572296、61720106006和U1705262，以及Key Re-中国科学院前沿科学研究计划，批准号：QYZDJ-SSW-JSC 039，北京市自然科学

下载后可阅读完整内容，剩余1页未读，立即下载