基于变压器的单目标鉴别跟踪器的设计与实现

124 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9856基于变压器俞斌1、2、唐明2、郑林宇1、2、朱桂波1、2、王金桥1、2、3、冯浩4、冯雪涛4、卢汉青1、21中国科学院大学人工智能学院2中国科学院自动化研究所模式识别国家重点实验室3ObjectEye Inc.4阿里巴巴集团{于斌，唐姆，林宇，郑国柱，王建奎，卢华琪}@ nlpr.ia.ac.cn{yuanning.fh，xuetao.fxt} @ alibaba-inc.com摘要端到端鉴别跟踪器显著地改善了现有技术的状态，然而鲁棒性和效率的改善受到传统鉴别模型的限制，即最小二乘回归在本文中，我们提出了DTT，一种新的单目标鉴别跟踪器，基于编码器-解码器Transformer架构。通过自我和编码器-解码器注意机制，我们的方法能够以端到端的方式利用丰富的场景信息，有效地消除了对手工设计的判别模型的需要在在线跟踪中，给定一个新的测试帧，密集预测在所有空间位置执行。不仅是位置，而且目标对象的包围框以鲁棒的方式获得，简化了区分跟踪流水线。DTT概念简单，易于实现。它在GOT-10 k、LaSOT、NfS和TrackingNet等四个流行的基准测试中表现出最先进的性能，同时运行速度超过50 FPS，证实了其有效性和效率。我们希望DTT可以为单目标视觉跟踪提供一个新的视角1. 介绍通用视觉跟踪是计算机视觉领域中的一个长期课题，并且在过去几十年中引起了越来越多的关注。尽管近年来取得了重大进展[2，6，7，19，23，26，33，34，41，42]，但由于许多因素，如非常有限的在线训练样本，大的外观变化和沉重的背景杂波，视觉近年来，基于暹罗网络的跟踪器[1，5，11这些方法将视觉跟踪任务表述为目标匹配问题并且旨在学习目标模板和搜索区域之间的一般相似性度量（参见图1B）。1（a））。强大的骨干网络[19]和有效的建议网络[11]被提出来实现有希望的结果。然而，暹罗学习框架不能有效地利用背景信息来提高区分度。相反，现代判别式跟踪器[2，3，42]能够利用背景信息，并且通常通过最小化回归损失来学习自适应判别模型（参见图2）。（b）款。虽然他们已经取得了领先的性能在几个基准[15，16，35]，我们指出，这样的跟踪方案有以下三个限制。1)所应用的回归模型（即，基于最小二乘的回归）对于鲁棒跟踪来说是粗糙和不充分的，因为常规模型通常不能保留详细的场景信息并对背景中的干扰项之间的关系进行编码。2)现代判别模型只能有助于定位，因此必须依赖于其他方法，如ATOM [6]用于最终预测的边界框，从而导致分离的跟踪流水线。3)在在线跟踪中，在模型预测器[2]和边界框细化模块[6]中都需要迭代解，这对大多数嵌入式设备不友好，并且可能对效率产生负面影响。为此，我们提出了一种新的歧视性跟踪器与变压器，称为DTT，这是一个概念上简单，高效和强大的跟踪架构。DTT的核心优势是它可以有效地利用丰富的场景信息进行分类和边界框回归。具体来说，DT-T建立在编码器-解码器Transformer架构[32]上，其中通过卷积神经网络（CNN）获得的训练图像的特征被馈送到编码器，如图所示。第1段（c）分段。由于编码器中的自注意机制，其输出，称为判别，9857(a) 一个简单的暹罗跟踪管道。(b) 判别式跟踪流水线。(c) 所提出的DTT的简化架构图1：我们的方法的简化框架以及两个主要的跟踪方案。与以往的跟踪方法不同它使得能够有效地利用特征中的丰富场景信息用于定位和边界框回归，简化了判别跟踪流水线。特征嵌入包含了丰富的场景全局和局部信息，有利于区分性跟踪。通过在大规模跟踪数据集上进行端到端训练，区分性特征嵌入可以突出视觉跟踪任务的最具区分性的表示，有效地消除了对手工设计的区分性模型预测器的需要解码器接收测试图像特征作为三个输入中的一个（参见图1B）。2）的情况。通过自注意模块，提取关于测试图像的局部和全局信息并包含在每个像素的特征嵌入中，使得能够在所有空间位置处进行密集预测，以实现更准确和鲁棒的然后，在接下来的交叉注意模块中，利用区分性嵌入来产生用于预测的融合特征嵌入第最后，类似于暹罗跟踪器[5，13]，我们的预测头由分类分支和边界框回归分支组成，用于鲁棒和准确的跟踪。此外，考虑到模型更新的重要性，随着其在视觉跟踪中的效率，我们采用了一个简单而有效的更新方法，以适应我们的DTT的变化的场景和目标在线跟踪。没有花里胡哨的东西，整个管道是整洁的，直接的，易于实现。在四个流行的基准测试GOT-10 k[15]，LaSOT [10]，NfS [16]和TrackingNet [24]上进行的广泛实验表明，DTT在所有数据集上都达到了最应发布代码。总之，我们的贡献有四个方面。1. 我们提出了一种新颖的和概念上简单的判别式跟踪器，称为DTT，这是基于一个编码器-解码器Transformer架构。2. DTT能够利用丰富的场景信息，并在端到端的学习管道中生成判别特征嵌入，从而无需集成传统的判别模型。3. DTT允许密集预测以鲁棒的方式获得目标对象的位置和边界框，简化了判别式跟踪框架的流水线。4. 实验结果表明，DTT是与国家的最先进的跟踪器没有铃声和whis- tles。我们希望这种有效和高效的方法可以提供一个新的视角，视觉跟踪。2. 相关工作基于暹罗网络的跟踪器最近，基于暹罗网络的跟踪器由于其端到端训练能力和高效率而引起了视觉跟踪社区的极大关注[1，5，12，13，19，20，36，37，38，3937、39]。SiamFC [1]采用全卷积Siamese网络来提取目标的特征图。它可以高速运行，因为它的重量轻的结构和无需更新。为了获得更准确的目标边界框，SiamRPN [20]将区域建议子网络引入SiamFC，而不是多级规模搜索策略。SiamRPN++ [19]和SiamDW [37]通过不同的方法消除了填充等负面影响，并将ResNet[14]等现代深度神经网络引入到基于Siamese网络的跟踪器中。最近，SiamBAN [5]和SiamCAR [13]采用完全卷积网络来直接对对象进行分类，并在每个空间位置回归其边界框，从而消除了锚点的棘手超参数调整然而，基于暹罗网络的跟踪器通常限于互相关的机制，因此不能CNN相似性度量预测头CNNCNN模型预测器FLoc边界框优化CNN目标定位CNNTransformer编码器预测头CNNTransformer解码器测试图像训练图像训练图像测试图像模板测试图像9858E∈RE∈RE∈RR∈RE∈R∈有效地利用背景信息来将目标与干扰物或杂乱场景区分开。因此，我们的跟踪器能够编码丰富的场景信息，以生成有区别的特征嵌入。在线判别式跟踪器在线判别式跟踪器[2，6，7，23，28，29，31，40，42]在过去几十年中很流行，因为它们可以有效地利用背景信息并在多个具有挑战性的基准上实现最先进的结果[15，17，18，35]。最近，DiMP [2]和DCFST [42]提出了两种端到端的可训练架构，它们将区分模型预测器集成到离线训练中，以学习区分模型的最佳特征。我们的方法遵循利用背景信息和端到端框架的思想。然而，我们不假设通过学习的判别嵌入-基于最小二乘的回归对于视觉跟踪任务是理想的并且足够有判别力。不同的是，我们建议直接生成有区别的特征嵌入，并使它们适应端到端学习管道中的视觉跟踪任务此外，我们的判别特征嵌入不仅可以有助于鲁棒定位，而且还可以用于边界框回归。与我们的工作更相关的是，KYS [3]还通过构建状态向量来利用场景信息，并且其编码也通过最小化跟踪损失来进行端到端训练。然而，由于每个状态向量的接收场和稠密对应的计算是局部的和有限的，在没有额外的表观模型的情况下，精度会严重下降。与KYS不同的是，我们的DTT简洁，直接和高效。注意图像识别。Transformers [32]中使用的自我注意机制将输入的每个元素的信息与其他元素相关联-S.最近，基于Transformer的架构已被应用于各种任务，例如对象检测[4]。我们成功地适应Transformer架构的单对象视觉跟踪方案，并使用它来学习强判别特征嵌入分类和约束盒回归。3. 该方法3.1. 用于鉴别跟踪的Transformer编码器给定训练样本及其对应的标签，诸如基于最小二乘的回归的常规判别方法旨在学习判别模型，该判别模型可以用于通过最小化判别损失来判别特征空间中的目标和背景外观。然而，由于传统判别方法的局限性，求解的模型可能无法捕获数据这可能有利于视觉跟踪，例如，详细的纹理特征和场景中干扰物之间的关系。不同的是，在这项工作中，我们指出，判别跟踪任务可以在一个直接的方式完成，而无需优化的判别模型，如果训练图像本身的特征嵌入包含足够的判别表示鲁棒跟踪，并可以有效地利用在线跟踪。为了实现这一点，我们使用了Transformer架构[32]。具体而言，我们采用多头自注意机制，以细化每个元素的特征嵌入，同时考虑所有其他元素。Transformers强大的关系建模能力使输出特征嵌入与原始卷积特征相比包含更多更强的判别表示。形式上，我们让查询QHW×C，按键KHW×C和值VHW×C表示自注意模块的输入三元组，其中H、W和C分别表示输入卷积特征的高度、宽度和通道数。我们还引入了固定位置嵌入YHW×C如在DETR [4]中所做的，以消除不同空间位置的歧义。如图所示 2、给定整形后的训练图像特征XHW×C，我们有Q=X+Y，K = X + Y，V = X。最后，通过标准的多头自注意层和编码器中的前馈网络（FFNs）得到鉴别特征嵌入FHW×C，整个过程定义为F = Enc（X）。通过在大规模跟踪数据集上进行端到端训练，区分性特征嵌入与跟踪任务紧密耦合，并且能够突出视觉跟踪的最具区分性的表示。注意，所有训练图像都被裁剪并以目标对象为中心，以使网络重新识别目标对象的位置并有利于训练过程。3.2. 用于鉴别跟踪的Transformer解码器在DTT解码器也有一个标准的Transformer器架构。每一层由一个多头自注意模块、一个多头交叉注意模块和FFNs组成与检测任务[4]中的常见设置不同，我们的方法接收测试图像特征ZHW×C作为一个输入，而不是学习的查询嵌入[4]。为了使Transformer模型利用测试图像的位置信息，如在编码器中所做的，将固定位置编码添加到用于自注意模块的输入键和查询元素的测试图像特征因此，通过自注意模块，关于测试图像的局部和全局信息被学习并包含在每个像素的特征嵌入中，使得能够在测试图像的所有空间位置处进行密集预测9859N×V+K+Q空间位置编码Transformer编码器预测头TransformerM×解码器E∈R··i、ji、j-[×−[×边界框类图2：建议的DTT的详细架构训练图像和测试图像的特征分别被馈送到编码器和预测头由分类分支和边界框回归分支组成。更准确和强大的跟踪功能。注意，在先前跟踪器[5，13]的密集预测中，全局回归分支以计算该位置处的目标边界框形式上，最终预测通过下式获得关于测试图像的场景信息不能对每个预测有贡献，从而导致较差的泛化，特别是在杂乱的场景中。Pcls宽×高×2P注册宽×高×4=cls（R），=Reg（R），（一）下面的交叉注意模块提供了一种有效的方式来利用区分性嵌入F，其中键和查询分别是F和前方自我注意模块的输出，并且还补充有位置嵌入（参见图1B）。2）的情况。形式上，解码器的输出，称为交叉注意特征嵌入RHW×C，由Dec（Z，F）获得。与以前的判别方法[2，6，31]中只有一个通道的响应图相比，交叉注意特征嵌入包含更多的判别表示其中cls（）和reg（）分别表示用于分类和边界框回归的FFN。每个空间位置处的2-D矢量，即，表示测试图像中的对应位置的前景和背景得分。在每个空间位置的4-D矢量，即，P_reg=（l，t，r，b），表示从测试图像中的对应位置到边界框的四个边的距离。然后，预测的边界框b（i，j）=（x，y，w，h）isgiv enby关于训练和测试图像，并且可以用于目标定位和边界框回归。x=m+（r−l）/2，w=l+r，y=n+（b−t）/2，h=t+b，（二）3.3. 边界框预测由于交叉注意特征嵌入具有与测试图像特征相同的空间大小，因此R中的每个空间位置（i，j）可以通过（m，n）=（i，s/2，j）映射到测试图像中的对应位置（m，n）。s/2），其中s表示网络的步幅。类似于以前的作品[13，30]，我们的预测头部由预测每个位置的类别（前景或背景）的分类分支和其中（x（，y（））、w（和h（表示预测边界框的中心、宽度和高度。3.4. 训练损失训练损失由边界框回归损失和分类损失组成对于回归分支，由于远离目标对象的中心的位置倾向于产生低质量的预测边界框[13]，因此对应的预测对回归分支没有贡献。添加规范FFN添加规范多头自注意FFNFFN添加规范FFN添加规范多头交叉关注添加规范多头自注意VVKK+++Q+Q9860·−−L表1：与GOT-10 k上最先进的跟踪器的比较[15]。跟踪器会场骨干AOSR 0。5SR 0。75FPS硬件MDNet [25]CVPR'16VGG-M0.2990.3030.0991.52Titan XCCOT [8]ECCV'16VGG-M0.3250.3280.1070.68CPUSiamFC [1]CVPR'16AlexNet0.3740.4040.14425.81Titan XCFNet [31]CVPR'17AlexNet0.2930.2650.08735.62Titan XECO [7]CVPR'17VGG-M0.3160.3090.1112.62CPU原子[6]CVPR'19ResNet-180.5560.6340.40220.71GTX-1050SiamRPN++[19]CVPR'19ResNet-500.5170.6160.32549.83公司简介DiMP [2]ICCV'19ResNet-500.6110.7170.49234.05GTX-1050D3S [22]CVPR'20ResNet-500.5970.6760.46225公司简介SiamCAR [13]CVPR'20ResNet-500.5790.6770.43752.27公司简介海洋[38]ECCV'20ResNet-500.6110.721-25V100KYS [3]ECCV'20ResNet-500.6360.7510.51520公司简介DCFST [42]ECCV'20ResNet-500.6380.7530.49825泰坦XpDTT我们ResNet-500.6340.7490.51454.5泰坦XpDTT*我们ResNet-500.6890.7980.62254.5泰坦Xp如果位置落在椭圆之外，则回归损失以目标对象为中心的tic区域，即位置-s落在椭圆区域内/外被视为前地/背景。形式上，类似于[13]，我们通过使用最高前景分数被选择为（i*，j*）。最后，预测的边界框b（i*，j*）由等式（1）计算。（二）、更新在网上跟踪，使我们的跟踪模式-为了对目标和背景的变化具有较强的鲁棒性，我们采用移动平均的方法每10帧更新一次鉴别特征嵌入。首先，我们裁剪了im-1Lreg=ΣΣI（b）（1 −IoU（b，b））的情况下，以预测目标为中心的年龄块，并获得新的当前帧中的判别嵌入由Ft（三）其中b（i，j）=（x，y，w，h）表示真实边界框的中心、宽度和高度，并且IoU（）是计算预测边界框和真实边界框的交集与并集的面积比的函数。函数I（·）定义为编码器然后，我们经验性地如下更新区别性特征嵌入F~。F~=（1-γ）F~+γFt，（6）其中γ是权重参数。4. 实验I（b）（i，j））=1,4（xx）2w2+4（yy）2h21，（4）<4.1. 实现细节0，否则。对于另一个分支，我们应用交叉熵损失[13，30]cls进行分类。DTT的总体训练损失为L=λ1Lcls+λ2Lreg，（5）其中λ1和λ2是折衷超参数。在训练期间，在我们的实验中，我们凭经验设置λ1=λ2=13.5.在线跟踪初始化给定具有注释的第一帧，图像块被裁剪并以地面实况目标为中心，具有目标区域的4 -2倍的区域，然后被馈送到编码器以获得初始判别嵌入F0。预测给定一个新的测试图像，我们首先通过等式计算预测Pcls和Preg（一）.然后，位置与I（b（i，j））i、j（i，j）（i，j）（i，j）9861×××特征提取我们的跟踪器的搜索区域根据经验设置为比对象边界框大4倍[13，19]。裁剪的训练图像和测试图像首先被调整为255 255，然后被馈送到特征提取网络，其中ImageNet [9]预训练的ResNet- 50 [14]被用作骨干网络。为了获得详细的空间信息，我们在conv4块中使用步长为1且atrous速率为2的atrous卷积。然后，为了效率，我们仅使用conv4块特征并添加11卷积以将输出特征通道减少到256，而不利用可以进一步提高性能的conv3块和conv5块特征最后，为了适合编码器和解码器的输入格式，训练图像特征和测试图像特征都被重新整形为HW_C的大小，然后分别表示为X和Z。训练细节编码器和解码器的层被设置为2，即，M=N=2。其他超参数9862图3：GOT-10 k的成功图[15]。我们的DTT优于其他最先进的方法。设置遵循DETR [4]。为了提高效率，我们仅使用GOT-10 k [15]数据集的训练分割训练DTTDTT使用随机梯度下降（SGD）进行训练，其中20个图像对的小批量遵循[13]中的设置。在不过多考虑训练效率的情况下，我们还使用大规模训练数据集（ GOT-10 k [15] ，TrackingNet [24]，LaSOT [10]和COCO [21]）为更大的时期（400）训练DTT，表示为DT-T *。DTT和DTT*都是使用 Python 在 TITAN X （ Pascal ） GPU 上使用PyTorch实现的。代码即将发布。跟踪细节等式中的权重参数γ（6）被设定为0.01。在GOT-10 k测试数据集上，在单个TITAN X（Pascal）4.2. 关于GOT-10 K的GOT-10 K [15]是用于野外通用对象跟踪的大规模和高多样由于所有方法都使用数据集提供的相同训练和测试数据，因此确保了与协议的公平比较。评价指标包括成功图、平均重叠（AO）、超过0.5的成功率（SR 0. 75）和成功率超过0. 75（SR 0. 75）。我们将DTT和DTT* 与最先进的跟踪器进行比较。所有结果均由GOT-10 K官方网站提供。表1中列出了不同度量的定量结果，图1中示出了成功图3 .第三章。可以看出，DTT在所有指标方面都优于所有基于暹罗网络的跟踪器请注意，尽管DT- T具有与SiamCAR相似的预测头[13]，但在AO、SR 0方面，它显著超过SiamCAR 5.5%、7.2%和7.7%。5，SR 0。75，分别证实，DTT是能够利用场景信息有效，表2：与La-SOT上的最先进跟踪器的比较[10]。MDNet原子海洋DiMP50SiamCARDTT[25][6][38][2][13]我们的我们的AUC0.4220.5370.5600.5680.5160.5380.601表3：与Nf-2000上的现有技术跟踪器的比较 S [16]。KYSSiamRCNNDCFSTDiMPSiamBANDTT DTT*[3][33][42][2][5]我们的AUC0.6350.6390.6410.6200.5940.659用于视觉跟踪。与DiMP相比，DTT对AO、SR 0的评分分别提高了2.3%、3.2%和2.2%。5，SR 0。75，显示了我们的方法的更强的辨别力。请注意，KYS优于DTT，因为KYS采用了额外的外观模型。与DTT相比，DTT* 对AO、SR0的评分分别提高了5.5%、4.9%和10.8%。5，SR 0。在更多训练数据和时期的帮助下，75此外，DTT和DTT* 都可以在这些跟踪器中以54.5 FPS的最高速度运行，是DCFST和KYS速度的2倍4.3. LaSOT结果LaSOT [10]是长期单对象跟踪的大规模基准。测试集由280个高质量序列组成。结果示于表2中。DT-T和DTT* 分别获得0.538和0.601的AUC评分DTT* 比之前的跟踪器性能高出3%以上，显示了我们以全新的方式利用丰富场景信息的有效性。4.4. 关于NfS我们在30 FPS版本的N-fS数据集[16]上评估了我们的方法，该数据集由100个具有挑战性的视频组成。我们将DTT和DTT* 与其他五种最先进的跟踪器进行比较，包括KYS [3]，SiamRCNN [33]，DCF-ST [42]，DiMP [2]和SiamBAN [5]。曲线下面积（AUC）评分见表4。可以看出，DTT的AUC得分为0.608，比最近基于Siamese Network的跟踪器SiamBAN [5]高出1.4%。在多个训练数据集和更多训练电子书的情况下，DTT*获得0.659的最高AUC得分，领先KYS 2.4%。4.5. TrackingNet上的结果TrackingNet是另一个用于训练和测试跟踪器的大规模数据集，其中测试集包含511个序列。我们将DTT和DTT* 与最新的最先进的跟踪器进行比较，包括TrackingNet测试集上的KYS [25]，SiamRCNN [33]，DCFST [42]，DiMP [2]和SiamRPN++ [19]。虽然DTT只在GOT上训练-9863编码器解码器编码器解码器测试图像特征学习对象查询测试图像特征学习对象查询基线训练图像特征级联编码器解码器编码器解码器编码器测试图像特征目标特征测试图像特征查询键表4：与TrackingNet上最先进的跟踪器的比较[24]。通过使用成功率曲线下面积（ AUC）、精确度和归一化精确度（Norm. Prec）。KYSSiamRCNNDCFSTDiMPSiamRPN++DTTDTT*[3][33][42][2][19]我们的精密度0.6880.8000.700 0.6870.6940.6880.789诺姆 Prec零点八0.8540.809 0.8010.8000.8030.8500.7400.8120.7520.7400.7330.7400.796表5：用于将变换器集成到GOT-10 k测试数据集上的跟踪方案中的不同架构的分析。基线级联暹罗查询键DTT培训AO0.3620.4980.5820.5560.634图像特征SR 0。500.3930.5980.6890.6780.749SR 0。750.0650.2360.4330.3760.514暹罗10k [15]，其实现了0.803的最佳归一化精度和0.740的AUC评分，与DiMP、KYS和SiamRPN++相似DTT* 获得了第二好的结果，仅次于 SiamRCNN ，因为SiamRCNN的重新检测模块在包括我们的方法在内的其他方法中没有使用，当类数小时可以更好地工作，例如，27 on TrackingNet..4图4：在单目标视觉跟踪中集成Transformer的四种不同的简化架构详情可在第二节中找到。四点六分。表6：训练数据集和GOT-10 k测试数据集上的训练时期的有效性的比较DTTDTT-LDTT*formers到在线判别跟踪，我们研究不同的网络架构，整合Transformer- S在单对象视觉跟踪。所有实验都基于各自的重新训练的网络（包括ResNet主干），并且训练策略与DTT相同。调查结果见表5。其他四种架构的简化架构如图所示。4.第一章基线受DE-TR [4]中的原始结构的启发，基线结构仅使用馈送到编码器的测试图像该基线中的解码器接收100个学习对象查询作为输入，如DETR [4]中所做的。由于要跟踪的目标是任意的，因此这种架构不能确定什么对象是目标，并且因此结果很差，证实了检测框架不能直接用于视觉跟踪。连接我们通过沿着基线架构中的通道维度连接训练图像和测试图像的特征来这导致了更好的结果，在AO和SR 0方面分别提高了13.6%和17.1%。75，分别示出了训练图像中场景信息的重要性。Siamese在这种架构中，训练图像和测试图像的特征分别被馈送到相同的编码器。然后，两个输出嵌入被馈送到交叉-表7：GOT-10 k测试数据集上DTT的组分分析。结果证明，每个组件是重要的，在我们的方法。(BI：背景资料。PE：位置嵌入。OU：在线更新。）AO不含OU0.621不含BIw/0.559编码器中的PE0.576解码器中无PEDTT0.6160.634SR 0。500.7350.6570.6960.7280.749SR 0。750.4950.4020.3980.4900.514在解码器中不包含自注意模块的注意模块AO和SR 0的结果进一步提高了8.4%和9.1%。75，分别。与DTT相比，由于编码器中的共享参数，Siamese架构不能充分利用场景中的判别表示查询键[27]中也提到了这种架构，其中测试图像特征被馈送到编码器，目标特征被视为解码器的输入对象查询。结果比Siamese方法和DTT更差，验证了在在线跟踪过程中，仅利用目标信息不能帮助获得满意的结果。与上述启发式算法不同，DTT算法受现代判别式跟踪流水线的启发，能够有效地挖掘丰富的场景信息，突出训练图像中的判别性表征，取得了最好的效果。.6. Transformers的集成分析多个训练数据集C培训次数20 400 400旨在寻求一条有效的整合跨AO0.6340.6590.68998644.7. 分量分析为了验证所提出的方法的有效性，我们执行的GOT-10 k测试数据集上的组件分析。训练策略为了分别验证多个训练数据集和更多训练epoch的有效性，我们还训练了仅在GOT-10 k上训练的400 epoch的DTT，表示为DTT-L。比较结果见表6。经过更多的训练，DTT-L在AO中获得了2.5%的增益与DTT-L 相比， DTT* 使用包括 GOT-10 k ， LaSOT ，Tracking- ingNet和COCO在内的更多训练数据集进行训练，并在AO中获得3%的显著增益。在线更新我们调查在线更新（详见第3.5）。从表7可以看出即AO，SR 0。5，SR 0。75个下降1.3%、1.4%和1.9%DTT DiMP SiamCAR而不采用在线更新。这验证了我们的简单更新方法的有效性。更复杂的更新方式具有利用时间信息以获得更鲁棒性能的潜在能力，但不是这项工作的重点。背景信息我们通过裁剪目标图像块来去除背景信息，目标图像块的面积是训练图像中目标面积的2 -2倍，就像在基于暹罗网络的跟踪器中所做的那样[1，13，19]。表7显示结果严重下降，因为仅目标外观不能帮助区分目标和干扰物。位置嵌入在这项工作中，我们使用了DETR [4]中设置的固定位置嵌入，众所周知，位置嵌入可以消除变形金刚中不同空间位置的歧义。训练图像和测试图像的表示特征被添加到Transformers中的输入查询和关键元素的相同位置嵌入。从表7中可以看出，在编码器中去除那些产生AO中5.8%的下降，而在解码器中去除那些产生AO中仅1.8%的下降，这表明编码器中的位置嵌入比解码器中的位置嵌入更重要我们认为这是因为编码器中的位置嵌入也有助于在训练阶段识别训练图像中目标对象的定位。4.8. 定性结果为了可视化在线跟踪中DTT的定位和边界框回归质量，我们在图5中显示了DTT、DiMP [2]和SiamCAR[13]对来自GOT-10 k [15]的挑战序列的跟踪结果。图中示出了GOT-Test-004、GOT-Test-018、GOT-Test-037和GOT-Test-063序列的三个帧可以看出，当目标对象经历根本变化时，例如，GOT-Test-004和GOT-Test-018中的旋转。请注意，在诸如GOT-Test-037和GOT-Test-063的杂乱场景中，DTT图5：DTT、DiMP [2]和SiamCAR [13]对来自GOT-10 k [15]的挑战序列可以看出，DTT在整个跟踪过程中表现出更强的泛化能力和更好的精度。最好的放大查看。在场景信息的帮助下，不会受到干扰物的负面影响，而其他两种代表性的跟踪方法DiMP和SiamCAR在这些场景中倾向于漂移5. 结论和未来工作在这项工作中，我们离开了两个流行的跟踪方案，并提出了一个全新的歧视性跟踪方法，即DTT，这是基于编码器-解码器Transformer架构。DTT能够利用丰富的场景信息进行鲁棒跟踪。我们使用一个学习管道来实现判别嵌入，它能够突出视觉跟踪的最具判别力的表示，消除了对传统判别模型的需要。此外，判别嵌入可用于定位和边界框回归，简化了先前的判别跟踪流水线。在没有任何技巧的情况下，我们的方法在超过50 FPS的高速下在四个基准上实现了最先进的性能，显示了这种新型跟踪方法的潜在能力。此外，我们相信，我们的方法是更复杂的在线更新方法的补充，并期待未来的工作，以探索时空场景信息更彻底-ly。鸣谢。本研究得到了广东省重点领域研究发展计划（第103号）的资助。2020B010165001）。本工作得到了国家自然科学基金项目61772527、61976210、62076235和62076235的资助。62002356.9865引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。一二五 8[2] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 学习判别模型预测跟踪。在ICCV，第6182-6191页，2019年。一、三、四、五、六、七、八[3] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte.了解你的周围环境：利用场景信息进行目标跟踪。在ECCV，2020年。一、三、五、六、七[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。三六七八[5] Zedu Chen，Bineng Zhong，Guorong Li，升平Zhang，and Rongrong Ji.用于视觉跟踪的连体盒自适应网络。arXiv预印本arXiv：2003.06761，2020。一、二、四、六[6] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg.原子：通过重叠最大化进行精确跟踪在CVPR中，第4660-4669页，2019年。一、三、四、五 6[7] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在CVPR中，第6638-6646页，2017年。一、三、五[8] Martin Danelljan 、 Andreas Robinson 、 Fahad ShahbazKhan和Michael Felsberg。超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在欧共体-CV，第472-488页。施普林格，2016年。5[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[10] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。在CVPR中，第5374-5383页，2019年。二、六[11] 范恒和凌海滨。用于实时视觉跟踪的Siamese级联区域投影网络。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2019年6月。1[12] Junyu Gao，Tianzhu Zhang，and Changsheng Xu.图卷积跟踪。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二[13] D. Guo，J. Wang，Y. Cui，Z. Wang和S.尘Siamcar：用于视觉跟踪的Siamese完全卷积分类和回归在CVPR，2020年。一二四五六八[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。二、五[15] Lianghua Huang， Xin Zhao， and Kaiqi Huang. Got-10k：用于野外通用对象跟踪的大型高多样性基准测试。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。一二三五六七八[16] Hamed Kiani Galoogahi ， Ashton Fagg ， Chen Huang ，Deva Ramanan，and Simon Lucey.速度需求：基准9866用于更高帧速率的对象跟踪。在ICCV，第1125- 1134页，2017年。一、二、六[17] MatejKristan ， Ales Leonardis ， Jiri Matas ， MichaelFelsberg ， Roman Pflugfelder ， Luka Cehovin Zajc ，TomasVojir ， GustavHager ， AlanLukezic ，Abdelrahman Eldesokey，et al.视觉对象跟踪vot2017挑战赛结果。在ICCV，第1949-1972页，2017年。3[18] Matej Kristan ， Ales Leonardis ， Jiri Matas ， MichaelFels- berg ， Roman Pfugfelder ， Luka Cehovin Zajc ，TomasVojir ， GoutamBhat ， AlanLukezic ，Abdelrahman Eldesokey，Gus- tavo Fernandez，and et al.视觉对象跟踪vot2018挑战赛结果。在ECCV，2018。3[19] Bo Li ， Wei Wu ， Qiang Wang ， Fangyi Zhang ，Junliang Xing，and Junjie Yan.Siamrpn++：siamese视觉跟踪与非常深的网络的演变。在CVPR中，第4282-4291页，2019年。一、二、五、六、七、八[20] Boli，Junjie Yan，Wei Wu，Zheng Zhu，and XiaolinHu.基于暹罗区域投影网络的高性能视觉跟踪。在CVPR中，第8971-8980页，2018年。一、二[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 6[22] 艾伦·卢克齐克，吉里·马塔斯，马特·克里斯坦。D3 s--一个有区别的

下载后可阅读完整内容，剩余1页未读，立即下载