没有合适的资源?快使用搜索试试~ 我知道了~
{cuiyutao,mg1933027}@smail.nju.edu.cn{lmwang,gswu}@nju.edu.cnIntegration ModuleClassificationHeadTemplateSearchTemplateSearchHeadRegressionHeadMixed attention Based BackboneCNN/TransformerBackboneCNN/TransformerBackboneShare weights136080MixFormer: 迭代混合注意力的端到端跟踪0崔宇涛,姜成,王立民,吴刚山,南京大学新软件技术国家重点实验室,中国0摘要0跟踪通常使用特征提取、目标信息集成和边界框估计的多阶段流水线。为了简化这个流水线并统一特征提取和目标信息集成的过程,我们提出了一种紧凑的跟踪框架,称为MixFormer,基于transformers构建。我们的核心设计是利用注意力操作的灵活性,提出了一种混合注意力模块(MAM),用于同时进行特征提取和目标信息集成。这种同步建模方案允许提取特定于目标的判别性特征,并在目标和搜索区域之间进行广泛的通信。基于MAM,我们通过堆叠多个MAM,并在顶部放置一个定位头,构建了我们的MixFormer跟踪框架。此外,为了处理在线跟踪中的多个目标模板,我们在MAM中设计了一种非对称注意力方案,以减少计算成本,并提出了一个有效的分数预测模块来选择高质量的模板。我们的MixFormer在LaSOT、TrackingNet、VOT2020、GOT-10k和UAV123等五个跟踪基准上取得了最新的性能。特别是,我们的MixFormer-L在LaSOT上达到了79.9%的NP分数,在TrackingNet上达到了88.9%的NP分数,并在VOT2020上达到了0.555的EAO。我们还进行了深入的消融研究,以证明同时进行特征提取和信息集成的有效性。代码和训练模型可在https://github.com/MCG-NJU/MixFormer上公开获取。01. 引言0视觉目标跟踪[1, 4, 4, 18, 24, 36, 42,45]是计算机视觉领域的一项基础任务,旨在根据其初始状态在视频序列中估计任意目标的状态。它已成功应用于人机交互[34]和视觉监控[54]等各种应用中。然而,如何0� : 通讯作者。0(a)当前主流跟踪器的流水线 (b)我们提出的MixFormer的流水线0图1. 跟踪流水线的比较。 (a)主流跟踪框架包含三个组件:卷积或transformer骨干网络、精心设计的集成模块和任务特定的头部。 (b)我们的MixFormer更加紧凑,由两个组件组成:基于目标-搜索混合注意力的骨干网络和简单的定位头。0在现实世界的场景中,设计一个简单而有效的端到端跟踪器仍然具有挑战性。主要挑战来自于尺度变化、物体变形、遮挡以及类似物体的混淆等方面。当前主流的跟踪器通常具有多阶段的流水线,如图1所示。它包含几个组件来完成跟踪任务:(1)骨干网络用于提取跟踪目标和搜索区域的通用特征,(2)集成模块用于允许跟踪目标和搜索区域之间的信息交流,以进行后续的目标感知定位,(3)任务特定的头部用于精确定位目标并估计其边界框。集成模块是跟踪算法的关键,它负责将目标信息整合起来,以桥接通用特征提取和目标感知定位的步骤。传统的集成方法包括基于相关性的操作(例如SiamFC [2],SiamRPN [29],CRPN [18],SiamFC++[55],SiamBAN [8],OCEAN[63])和在线学习算法(例如DCF [36],KCF[22],CSR-DCF [37],ATOM [12],DiMP [3],FCOT[9])。最近,由于其全局和动态建模能力,transformers[46]被引入到执行基于注意力的集成,并取得了良好的跟踪性能(例如TransT [6],TMT [49],STMTrack [19],TREG[10],STARK [56],DTT[58])。然而,这些基于transformer的跟踪器仍然依赖于CNN进行通用特征提取,并且仅在后期的高层和抽象表示空间中应用注意力操作。我们分析了136090这些CNN表示受限于它们通常是为通用物体识别而预训练的,可能忽略了跟踪的更细致的结构信息。此外,这些CNN表示使用局部卷积核,缺乏全局建模能力。因此,CNN表示仍然是它们的瓶颈,阻碍了它们充分发挥自注意力在整个跟踪流程中的能力。为了解决上述问题,我们提出了一个新的跟踪框架设计视角,即通用特征提取和目标信息集成应该在统一的框架内耦合在一起。这种耦合处理范式具有几个关键优势。首先,它将使我们的特征提取更加特定于相应的跟踪目标,并捕捉更多的目标特定的判别特征。其次,它还允许目标信息更广泛地集成到搜索区域中,从而更好地捕捉它们的相关性。此外,这将导致一个更紧凑和简洁的跟踪流程,只有一个主干和跟踪头,而没有显式的集成模块。基于上述分析,在本文中,我们引入了MixFormer,一个简单的跟踪框架,仅使用基于Transformer的架构来统一特征提取和目标集成。注意力模块是一个非常灵活的架构构建块,具有动态和全局建模能力,对数据结构几乎没有假设,并且可以广泛应用于一般的关系建模。我们的核心思想是利用注意力操作的这种灵活性,并提出一个混合注意力模块(MAM),同时执行特征提取和目标模板与搜索区域的相互作用。特别地,在我们的MAM中,我们设计了一种混合交互方案,使用来自目标模板和搜索区域的令牌上的自注意力和交叉注意力操作。自注意力负责提取目标或搜索区域的自身特征,而交叉注意力允许它们之间的通信,混合目标和搜索区域的信息。为了减少MAM的计算成本,从而允许处理对象变形的多个模板,我们进一步提出了一种定制的非对称注意力方案,通过修剪不必要的目标到搜索区域的交叉注意力。在图像识别中成功的Transformer架构的基础上,我们通过堆叠PatchEmbedding和MAM的层来构建我们的MixFormer主干,并最终放置一个简单的定位头来产生我们的整个跟踪框架。作为处理跟踪过程中对象变形的常见做法,我们还提出了基于分数的目标模板更新机制,我们的MixFormer可以轻松适应多个目标模板输入。在几个基准测试中进行了大量实验证明,MixFormer在包括VOT2020 [26],LaSOT[17],TrackingNet [41],GOT-10k [23]和UAV123[40]在内的五个具有挑战性的基准测试上取得了最新的最佳性能。0在GTX 1080Ti GPU上实时运行速度为25FPS。特别是,MixFormer-L在VOT2020上超过STARK[56]5.0%(EAO得分),在LaSOT上超过2.9%(NP得分),在TrackingNet上超过2.0%(NP得分)。主要贡献如下:0•我们提出了一种紧凑的端到端跟踪框架,称为MixFormer,基于迭代的混合注意力模块(MAM)。它允许同时提取目标特定的判别特征和目标与搜索之间的广泛通信。0•对于在线模板更新,我们在MAM中设计了一种定制的非对称注意力,提高了效率,并提出了一个有效的分数预测模块,选择高质量的模板,从而实现了高效和有效的基于Transformer的在线跟踪器。0• 提出的MixFormer在包括VOT2020 [26],LaSOT[17],TrackingNet [41],GOT-10k [23]和UAV123[40]在内的五个具有挑战性的基准测试上取得了最新的最佳性能。02. 相关工作0跟踪范式。当前主流的跟踪方法可以总结为三个部分的架构,包括(i)用于提取通用特征的主干网络,(ii)用于融合目标和搜索区域信息的集成模块,(iii)用于生成目标状态的头部。一般来说,大多数跟踪器[3, 7, 12, 28,47]使用ResNet作为主干网络。对于最重要的集成模块,研究人员探索了各种方法。基于Siamese的跟踪器[2, 21, 29,65]将相关操作与Siamese网络相结合,建模目标和搜索之间的全局依赖关系。一些在线跟踪器[3, 9, 11, 12, 22, 24,30,36]为区分性跟踪学习了一个目标相关模型。此外,一些最近的跟踪器[7, 10, 19, 49,56]引入了基于Transformer的集成模块,以捕捉更复杂的依赖关系,并取得了令人印象深刻的性能。相反,我们提出了一个完全端到端的Transformer跟踪器,仅包含基于MAM的主干网络和一个简单的头部,从而实现了更准确的跟踪器,具有简洁紧凑的架构。0视觉Transformer。视觉Transformer(ViT)[15]首次提出了一种纯视觉Transformer架构,在图像分类上取得了令人印象深刻的性能。一些工作[32, 51,60]对视觉Transformer进行了设计改进,以更好地建模视觉Transformer中的局部上下文。例如,PVT[51]将多阶段设计(无卷积)与Transformer相结合,类似于CNN中的多尺度。CVT[52]将CNN和Transformer结合起来,以有效地建模图像分类中的局部和全局依赖关系。我们的MixFomer使用预训练的CVT。Reshape& PadReshape& PadSplitTarget feature (T)Search feature (S)Q: [DW-Conv(3), Flatten, Linear]V: [DW-Conv(3), Flatten, Linear]K: [DW-Conv(3), Flatten, Linear]qTvTkTqSvSkSqkvvkqInput TokenOutput TokenCCCCᐩCCNorm.Norm.136100多头注意力函数0注意力操作注意力操作0: 连接特征0线性投影0� : 添加特征0图2.混合注意力模块(MAM)是一种灵活的注意力操作,将目标模板和搜索区域的特征提取和信息集成过程统一起来。这种混合注意力具有双重注意力操作,其中自注意力用于从自身提取特征,而交叉注意力用于目标和搜索之间的通信。这种MAM可以通过连接的令牌序列轻松实现。为了进一步提高效率,我们提出了一种不对称的MAM,通过修剪目标到搜索的交叉注意力(用虚线表示)。0模型,但存在一些根本性的区别。(i)提出的MAM对特征提取和信息集成都执行双重注意力操作,而CVT仅使用自注意力来提取特征。(ii)学习任务不同,相应的输入和头部也不同。我们将多个模板与搜索区域一起作为输入,并使用基于角点或查询的定位头部生成边界框,而CVT设计用于图像分类。(iii)我们进一步引入了一种不对称的混合注意力和一个用于特定任务的分数预测模块,用于在线跟踪。最近也在目标跟踪中探索了注意力机制。CGCAD[16]和SiamAttn[59]引入了基于相关引导的注意力和自注意力来进行区分性跟踪。TransT[7]设计了一个基于Transformer的融合网络,用于目标-搜索信息的整合。这些方法仍然依赖后处理来生成边界框。受到DETR [5]的启发,STARK[56]进一步提出了一种端到端的基于Transformer的跟踪器。然而,它仍然遵循“主干-集成-头部”的范式,具有分离的特征提取和信息集成模块。同时,TREG[10]提出了一种针对回归分支的目标感知Transformer,并可以在VOT2021[27]中生成准确的预测。受到TREG的启发,我们通过同时使用自注意力和交叉注意力来形成混合注意力机制。这样,我们的MixFormer通过迭代的基于MAM的主干网络统一了特征提取和信息集成的两个过程,从而实现了更紧凑、简洁和有效的端到端跟踪器。03. 方法0在本节中,我们提出了一种基于迭代混合的端到端跟踪框架,称为MixFormer。0注意力模块(MAM)。首先,我们介绍了我们提出的MAM,以统一特征提取和目标信息融合的过程。这种同时处理方案将使我们的特征提取更加具体地针对相应的跟踪目标。此外,它还允许目标信息的集成更加广泛,从而更好地捕捉目标和搜索区域之间的相关性。然后,我们介绍了MixFormer的整个跟踪框架,它只包括一个基于MAM的主干和定位头。最后,我们通过设计基于置信度分数的目标模板更新机制来描述MixFormer的训练和推断,以处理跟踪过程中的目标变形。03.1. 混合注意力模块(MAM)0混合注意力模块(MAM)是追求一个整洁紧凑的端到端跟踪器的核心设计。我们的MAM的输入是目标模板和搜索区域。它旨在同时提取它们自己的长程特征并融合它们之间的交互信息。与原始的多头注意力[46]不同,MAM在目标模板和搜索区域的两个独立的标记序列上执行双重注意力操作。它对每个序列中的标记进行自注意力操作,以捕捉目标或搜索特定的信息。同时,它在两个序列的标记之间进行交叉注意力,允许目标模板和搜索区域之间的通信。如图2所示,这种混合注意力机制可以通过连接的标记序列有效地实现。形式上,给定多个目标和搜索的连接标记,我们首先将其分成两部分并将它们重塑为2D特征图。为了实现局部空间上下文的额外建模,我们在每个特征上执行可分离的深度卷积投影层。✕ N1✕ N2✕ N3)vm,)vm,(1)(2)136110目标(128, 128)0搜索(320, 320)0基于MAM的主干 头部0标记0阶段10标记0分割和补丁嵌入0阶段20标记0分割和补丁嵌入0阶段30目标搜索MAM0补丁嵌入0全卷积角点头0连接0连接0连接0目标搜索MAM0目标搜索MAM0图3.MixFormer提供了一个紧凑的端到端跟踪框架,无需显式地解耦特征提取和目标信息集成步骤。它仅由一个MAM主干和一个定位头组成。0映射(即查询、键和值)。它还通过允许在键和值矩阵中进行下采样来提供效率优势。然后,目标和搜索的每个特征图被展平并通过线性投影进行处理,以产生注意操作的查询、键和值。我们用q t、k t和v t表示目标,q s、k s和vs表示搜索区域。混合注意力定义为:0k m = 连接( k t , k s ) , v m = 连接( v t , v s ) ,0注意力 t = Softmax( q t k Tm √0注意力 s = Softmax( q s k Tm √0其中d表示键的维度,注意力t和注意力s分别是目标和搜索的注意力图。它包含自注意力和交叉注意力,统一了特征提取和信息集成。最后,目标标记和搜索标记被连接并通过线性投影进行处理。非对称混合注意力方案。直观地说,从目标查询到搜索区域的交叉注意力并不那么重要,可能会带来负面影响,因为可能存在干扰因素。为了减少MAM的计算成本,从而允许有效地使用多个模板来处理目标变形,我们进一步提出了一种定制的非对称混合注意力方案,通过修剪不必要的目标到搜索区域的交叉注意力。这种非对称混合注意力定义如下:0注意力t = Softmax(qtkTt√0d) vt,0注意力s = Softmax(qsksTm0d) vm.0通过这种方式,每个MAM中的模板Token在跟踪过程中保持不变,因为它避免了动态搜索区域的影响。0讨论。为了更好地阐述混合注意力的见解,我们与其他Transformer跟踪器使用的注意力机制进行了比较。与我们的混合注意力不同,TransT[6]使用自我上下文增强和跨特征增强模块分两步逐渐执行自我注意力和交叉注意力。与STARK[56]的Transformer编码器相比,我们的MAM使用深度卷积来结合空间结构信息,而他们使用位置编码。更重要的是,我们的MAM是一个多阶段的骨干网络,用于特征提取和信息集成,而他们依赖于一个单独的CNN骨干网络进行特征提取,并且只关注单个阶段的信息集成。最后,我们还提出了一种不对称的MAM来进一步提高跟踪效率,而准确性几乎没有下降。03.2. 用于跟踪的MixFormer0总体架构。基于MAM块,我们构建了MixFormer,一个紧凑的端到端跟踪框架。MixFormer的主要思想是逐步提取目标模板和搜索区域的耦合特征,并在它们之间进行深入的信息集成。基本上,它包括两个组件:由迭代目标-搜索MAM组成的骨干网络,以及一个简单的定位头来生成目标边界框。与通过解耦特征提取和信息集成步骤的其他流行跟踪器相比,它导致了一个更紧凑和整洁的跟踪流水线,只需一个单一的骨干网络和跟踪头,而不需要显式的集成模块或任何后处理。总体架构如图3所示。0基于MAM的骨干网络。我们的目标是将通用特征提取和目标信息集成在统一的基于Transformer的架构中。MAM-based backbone employs a progressive multi-stagearchitecture design. Each stage is defined by a set of NMAM and MLP layers operating on the same-scaled fea-ture maps with the identical channel number. All stagesshare the similar architecture, which consists of an over-lapped patch embedding layer and Ni target-search mixedattention modules (i.e., a combination of MAM and MLPlayers in implementation).Specifically, given T templates (i.e., the first templateand T −1 online templates) with the size of T ×Ht×Wt×3and a search region (a cropped region according to the pre-vious target states) with the size of Hs × Ws × 3, we firstmap them into overlapped patch embeddings using a convo-lutional Token Embedding layer with stride 4 and kernel size7. The convolutional token embedding layer is introducedin each stage to grow the channel resolution while reducingthe spatial resolution. Then we flatten the patch embeddingsand concatenate them, yielding a fused token sequence withthe size of (T × Ht4 × Wt4 + Hs4 × Ws4 )×C, where C equalsto 64 or 192, Ht and Wt is 128, Hs and Ws is 320 in thiswork. After that, the concatenated tokens pass through Nitarget-search MAM to perform both feature extraction andtarget information incorporation. Finally, we obtain the to-ken sequence of size (T × Ht16 × Wt16 + Hs16 × Ws16 ) × 6C.More details about the MAM backbones could be found inthe Section 4.1 and Table 2. Before passed to the predictionhead, the search tokens are split and reshaped to the size of3.3. Training and InferenceTraining. The training process of our MixFormer gener-ally follows the standard training recipe of current track-ers [7, 56].We first pre-train our MAM with a CVTmodel [52], and then fine-tune the whole tracking frame-work on the target dataset. Specifically, a combination ofL1 loss and GIoU loss [44] is employed as follows:Lloc = λL1L1(Bi, ˆBi) + λgiouLgiou(Bi, ˆBi),(3)where λL1 = 5 and λgiou = 2 are the weights of the twolosses, Bi is the ground-truth bounding box and ˆBi is thepredicted bounding box of the targets.Template Online Update. Online templates play an im-portant role in capturing temporal information and dealingwith object deformation and appearance variations. How-ever, it is well recognized that poor-quality templates maylead to inferior tracking performance. As a consequence,we introduce a score prediction module (SPM), describedin Fig. 4, to select reliable online templates determined bythe predicted confidence score. The SPM is composed oftwo attention blocks and a three-layer perceptron. First, alearnable score token serves as a query to attend the searchROI tokens. It enables the score token to encode the minedtarget information. Next, the score token attends to all po-sitions of the initial target token to implicitly compare themined target with the first target. Finally, the score is pro-duced by the MLP layer and a sigmoid activation. The on-line template is treated as negative when its predicted scoreis below than 0.5.For the SPM training, it is performed after the backbonetraining and we use a standard cross-entropy loss:Lscore = yilog(pi) + (1 − yi)log(1 − pi),(4)where yi is the ground-truth label and pi is the predictedconfidence score.Inference. During inference, multiple templates, includ-ing one static template and N dynamic online templates,together with the cropped search region are fed into Mix-Former to produce the target bounding box and the confi-dence score. We update the online templates only when theupdate interval is reached and select the sample with thehighest confidence score.136120注意力0得分Token(1 � C)0注意力0搜索RoI Token 目标Token0q_proj0k_proj0v_proj0q_proj0k_proj0v_proj0预测得分(1 �1)0图4. 分数预测模块(SPM)的结构。016 × 6C。特别地,我们不采用其他跟踪器常用的多尺度特征聚合策略(例如,SiamRPN++ [28],STARK [56])。0基于角点的定位头。受到STARK[56]中角点检测头的启发,我们采用了一个完全卷积的基于角点的定位头,直接估计被跟踪对象的边界框,仅使用几个Conv-BN-ReLU层分别预测左上角和右下角。最后,通过计算角点概率分布的期望值,我们可以得到边界框[31]。与STARK不同的是,我们的定位头是一个完全卷积的头,而STARK高度依赖于具有更复杂设计的编码器和解码器。0基于查询的定位头。受到DETR[5]的启发,我们提出采用一个简单的基于查询的定位头。这个稀疏的定位头可以验证我们的MAM骨干网络的泛化能力,并产生一个纯粹的0基于Transformer的跟踪框架。具体而言,我们在最后一个阶段的序列中添加了一个额外的可学习的回归Token,并将该Token用作从整个目标和搜索区域聚合信息的锚点。最后,我们使用三个全连接层的FFN直接回归边界框坐标。该框架也不使用任何后处理技术。KCF STM SiamMask D3S SuperDiMP AlphaRef OceanPlus RPT DualTFR STARK MixFormer-1k MixFormer-22k MixFormer-L[22][43][50][35][3][57][61][38][53][56]EAO0.154 0.3080.3210.4390.3050.4820.4910.5300.5280.5050.5270.5350.555Accuracy0.407 0.7510.6240.6990.4920.7540.6850.7000.7550.7590.7460.7610.762Robustness 0.432 0.5740.6480.7690.7450.7770.8420.8690.8360.8170.8330.8540.855Table 1. State-of-the-art comparison on VOT2020 [26]. The best two results are shown in red and blue fonts. Our trackers use Alpha-Refine [57] to predict masks. MixFormer-1k is pretrained with ImageNet-1k. Others are pretrained with ImageNet-22k.Output SizeLayer NameMixFormerMixFormer-LStage1S : 80 × 80,T : 32 × 32Conv. Embed.7 × 7, 64, stride 47 × 7, 192, stride 4S : 80 × 80,T : 32 × 32MAMMLPH1 = 1D1 = 64R1 = 4 × 1H1 = 3D1 = 192R1 = 4 × 2Stage2S : 40 × 40,T : 16 × 16Conv. Embed.3 × 3, 192, stride 23 × 3, 768, stride 2S : 40 × 40,T : 16 × 16MAMMLPH2 = 3D2 = 192R2 = 4 × 4136130�� H2 = 12, D2 =768, R2 = 40�0�� × 20Stage30S: 20 × 20, T: 8 × 8 Conv. Embed. 3 × 3, 384, stride 2 3 × 3, 1024, stride 20S: 20 × 20, T:8 × 80MAMMLP0�� H3 = 6 D3 =384 R3 = 40�0�� × 160�� H3 = 16 D3 =1024 R3 = 40�0�� × 120MACs 35.61 M 183.89 M0FLOPs 23.04 G 127.81 G0速度(1080Ti) 25 FPS 18 FPS0表2.MixFormer和MixFormer-L的基于MAM的骨干架构。输入是一个形状为128×128×3的模板元组和一个形状为320×320×3的搜索区域。S和T代表搜索区域和模板。Hi和Di是第i个阶段中的头部数量和嵌入特征维度。Ri是MLP层中的特征维度扩展比例。04. 实验04.1. 实现细节0我们的跟踪器使用Python 3.6和PyTorch1.7.1实现。MixFormer的训练在8个Tesla V100GPU上进行。特别地,MixFormer是一个整洁的跟踪器,没有后处理、位置嵌入和多层特征聚合策略。0架构。如表2所示,我们实例化了两个模型,MixFormer和MixFormer-L,具有不同的参数和FLOPs,通过改变MAM块的数量和每个阶段中的隐藏特征维度来实现。MixFormer和MixFormer-L的骨干网络分别使用在ImageNet[14]上预训练的CVT-21和CVT24-W[52](仅使用前16层)进行初始化。0训练。训练集包括TrackingNet [41]、LaSOT[17]、GOT-10k [23]和COCO [33]的训练数据集,与DiMP[3]和STARK[56]相同。对于GOT-10k测试,我们仅使用GOT10k的训练集按照其标准协议训练我们的跟踪器。MixFormer的整个训练过程包括两个阶段,前500个epoch用于训练骨干网络和头部,额外的40个epoch用于分数预测头部。我们使用ADAM [25]进行MixFormer的训练,带有权重衰减。0学习率初始化为1e-4,并在第400个epoch时降低到1e-5。搜索图像和模板的尺寸分别为320×320像素和128×128像素。对于数据增强,我们使用水平翻转和亮度抖动。0推理。我们将第一个模板和多个在线模板与当前搜索区域一起作为MixFormer的输入。默认情况下,当达到更新间隔200时,动态模板会被更新。在该间隔中,选择具有最高预测分数的模板来替换之前的模板。04.2. 与最先进的跟踪器进行比较0我们在包括VOT2020 [26]、LaSOT [17]、TrackingNet[41]、GOT10k [23]和UAV123[40]在内的五个基准上验证了我们提出的MixFormer-1k、MixFormer-22k和MixFormer-L的性能。0VOT2020。VOT2020[26]包含60个视频,包括快速运动、遮挡等多个挑战。如表1所示,MixFormer-L在EAO指标上达到了0.555的最高性能,比变压器跟踪器STARK高出5%的EAO。MixFormer-22k在包括RPT(VOT2020短期挑战赢家)在内的其他跟踪器上也表现出色。0LaSOT。LaSOT[17]的测试集中有280个视频。我们在测试集上评估我们的MixFormer,以验证其长期能力。表3显示,我们的MixFormer在所有其他跟踪器中都取得了很大的优势。具体而言,MixFormer-L在NP上达到了79.9%的最高性能,即使没有多层特征聚合,也比STARK高出2.9%。0TrackingNet。TrackingNet[41]提供了超过30K个视频,拥有超过1400万个密集边界框注释。这些视频是从YouTube采样的,涵盖了现实生活中的目标类别和场景。我们在其测试集上验证了MixFormer。从表3中可以看出,我们的MixFormer-22k和MixFormer-L在大规模基准测试中取得了新的最先进性能。0GOT10k。GOT10k[23]是一个大规模的数据集,包含10000多个视频片段,测试集有180个片段。除了通用的移动物体和运动模式类别外,训练集和测试集中的目标类别没有重叠。如表3所示,我们的MixFormer-GOT在测试集上获得了最先进的性能。136140方法LaSOT TrackingNet GOT-10k UAV1230AUC(%) P Norm (%) P(%) AUC(%) P Norm (%) P(%) AO(%) SR 0 . 5 (%) SR 0 . 75 (%) AUC(%) P(%)0MixFormer-L 70.1 79.9 76.3 83.9 88.9 83.1 75.6 85.7 72.8 69.5 91.00MixFormer-22k 69.2 78.7 74.7 83.1 88.1 81.6 72.6 82.2 68.8 70.4 91.80MixFormer-1k 67.9 77.3 73.9 82.6 87.7 81.2 73.2 83.2 70.2 68.7 89.5 MixFormer-22k* - - - - - - 70.7 80.0 67.8 - - MixFormer-1k* - - - - - - 71.2 79.9 65.8 - -0STARK [56] 67.1 77.0 - 82.0 86.9 - 68.8 78.1 64.1 - - KeepTrack [39] 67.1 77.2 70.2 - - - - - - 69.7 - DTT [58] 60.1 - - 79.6 85.0 78.9 63.4 74.9 51.4 - - SAOT [64]61.6 70.8 - - - - 64.0 75.9 - - - AutoMatch [62] 58.2 - 59.9 76.0 - 72.6 65.2 76.6 54.3 - - TREG [10] 64.0 74.1 - 78.5 83.8 75.0 66.8 77.8 57.2 66.9 88.4 DualTFR[53] 63.5 72.0 66.5 80.1 84.9 - - - - 68.2 - TransT [7] 64.9 73.8 69.0 81.4 86.7 80.3 67.1 76.8 60.9 69.1 - TrDiMP [49] 63.9 - 61.4 78.4 83.3 73.1 67.1 77.7 58.3 67.5- STMTracker [19] 60.6 69.3 63.3 80.3 85.1 76.7 64.2 73.7 57.5 64.7 - SiamR-CNN [47] 64.8 72.2 - 81.2 85.4 80.0 64.9 72.8 59.7 64.9 83.4 PrDiMP [13] 59.8 68.860.8 75.8 81.6 70.4 63.4 73.8 54.3 68.0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功