统一的对象运动和相似度模型：UMA-MOT

146 浏览量更新于2023-10-25 收藏 12.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Junbo Yin1, Wenguan Wang2∗, Qinghao Meng1, Ruigang Yang3,4,6, Jianbing Shen5,12ETH Zurich, Switzerland3 Baidu Research4 National Engineering Laboratory of Deep Learning Technology and Application, China5 Inception Institute of Artiﬁcial Intelligence, UAE6 University of Kentucky, Kentucky, USAyinjunbo@bit.edu.cnwenguanwang.ai@gmail.comhttps://github.com/yinjunbo/UMA-MOT67680一个统一的对象运动和相似度模型，用于在线多目标跟踪01 北京理工大学计算机学院智能信息技术北京实验室，中国0摘要0当前流行的在线多目标跟踪（MOT）解决方案应用单目标跟踪器（SOT）捕捉对象运动，同时通常需要额外的相似度网络来关联对象，特别是对于被遮挡的对象。这会导致由于重复特征提取和相似度计算而带来额外的计算开销。同时，复杂相似度网络的模型大小通常是非常重要的。在本文中，我们提出了一种新颖的MOT框架，将对象运动和相似度模型统一到一个单一网络中，命名为UMA，以学习一种既适用于对象运动又适用于相似度度量的紧凑特征。具体而言，UMA通过多任务学习将单目标跟踪和度量学习集成到一个统一的三元网络中。这种设计带来了改进的计算效率、低内存需求和简化的训练过程的优势。此外，我们为我们的模型配备了一个任务特定的注意力模块，用于提升任务感知的特征学习。所提出的UMA可以很容易地进行端到端训练，并且非常优雅-只需要一个训练阶段。实验结果表明，它在几个MOT Challenge基准测试中取得了有 promising的性能。01. 引言0在线多目标跟踪（MOT）旨在准确地定位每个目标的轨迹，同时保持其身份与当前帧积累的信息。在过去的几十年中，MOT引起了越来越多的关注，因为它有助于广泛的应用，如视频监控分析和自动驾驶[48, 56,57]。当前的MOT解决方案通常涉及对象运动模型和相似度模型。前者利用时间信息进行对象实例定位和轨迹生成，而后者处理干扰物。0� 通讯作者：Wenguan Wang。0（例如，具有相似外观的目标）或通过测量数据关联中的对象相似性来解决遮挡问题。具体而言，一些在线MOT算法基于跟踪-检测范式[25, 39, 52, 1,29]，即通过计算成对的相似度来关联帧间的检测。因此，它们主要关注相似度模型的设计。然而，由于在目标检测阶段没有探索时间线索，检测的质量通常受到限制，进一步降低了MOT的性能。MOT场景，例如MOT Challenge [32,38]中的视频序列，通常会产生拥挤的人群，姿势稀少或大小各异。在这种情况下，即使是领先的检测器[43]也可能产生许多误报（FP）和漏报（FN）结果，对后续的数据关联阶段造成不利影响。0这需要更好地利用MOT中的运动线索。因此，另一个趋势是在在线MOT中应用单目标跟踪器（SOT）[11,61]。它们利用SOT来处理时间信息的价值并恢复丢失的候选检测。这种范式产生了更自然的轨迹片段，并且通常根据FN指标获得更好的跟踪结果。然而，拥挤的干扰物及其频繁的交互经常导致遮挡情况，这对这些解决方案来说是非常具有挑战性的。为了解决这个问题，后续方法[44, 11, 68, 9,10]将基于SOT的运动模型与相似度估计相结合。特别地，它们首先根据SOT的置信度识别目标的状态，然后通过数据关联阶段中的相似度度量来更新跟踪目标并保持遮挡目标的身份。尽管受到启发，它们仍然存在一些限制。首先，用于SOT和相似度度量的特征来自两个单独的模型，这会产生昂贵的计算开销。其次，由于它们在相似度计算中没有利用SOT特征，它们必须训练一个额外的相似度网络（例如，[68]中的ResNet50和[10]中的ResNet101）来弥补这一点。这进一步增加了它们的内存需求，严重限制了它们在资源受限的环境中的适用性。67690环境。第三，SOT和亲和模型的独立特征提取以及复杂的亲和网络设计使训练过程复杂化，通常需要多次交替或级联训练策略。此外，它们没有探索SOT和亲和模型之间的关系，即亲和模型可以帮助SOT访问身份信息，从而学习更具辨别性的特征以更好地处理遮挡。为了缓解上述问题，我们提出了一种基于多任务学习的在线MOT模型UMA，它将基于SOT的运动模型和亲和网络端到端地集成到一个统一的框架中。学到的特征被提升以捕捉更多的身份辨别信息，从而简化了训练和测试过程。特别地，它将SiameseSOT和排名网络统一为三元组架构。三元组网络的两个分支，例如正样本分支和锚点分支，用于SOT基于运动预测任务，而所有三个分支都通过度量学习来处理目标身份感知的排名任务。这带来了几个好处。首先，排名任务中的度量学习赋予了学到的特征身份辨别能力，有助于SOT模型更好地定位目标和处理遮挡。其次，这使得SOT基于轨迹生成阶段和依赖亲和性的数据关联阶段之间可以共享特征，消除了设计额外亲和网络的要求，并提高了计算效率。第三，它提供了一个更直接的一步训练协议，而不是以前复杂的多次交替或级联训练策略。此外，我们的UMA模型配备了一个任务特定的注意力（TSA）模块，以自适应地处理多任务的特定性，并以有限的计算成本轻量化地产生更好的性能。总之，我们提出了一个三元组网络UMA，它将对象运动预测和亲和度量任务统一到在线MOT中。UMA通过具有注意力的多任务学习机制来解决SOT适用和关联辨别特征学习，提供了一种简洁、有效且高效的MOT模型，具有较低的内存需求和简单的端到端训练协议。此外，通过精心设计的在线跟踪流水线，我们的轻量级模型在多个MOT挑战基准上达到了最先进的性能。02. 相关工作0MOT。现有的MOT方法可以分为离线和在线模式。离线方法[41, 14, 51, 54, 52]0可以利用过去和未来的帧进行批处理。它们通常将MOT视为各种形式的全局优化问题，例如多割[51,52]，k-部分图[66, 13]和网络流[67,14]。尽管在处理模糊的跟踪结果方面受到青睐，但它们不适用于自动驾驶等因果应用。在线MOT方法只能访问当前帧可用的信息，因此容易受到目标遮挡或嘈杂检测的影响。大多数先前的方法[1, 2, 25, 39,63]采用了一种由检测驱动的跟踪流程，其性能主要受到检测结果的限制。其他一些方法[68, 44, 11, 9,10]则应用SOTs [22, 4, 34, 17,16]来进行在线MOT，并且通常获得更好的结果。在线MOT中的对象运动模型。基本上，对象运动模型有助于处理嘈杂的检测。例如，Xiang等人[62]使用基于光流的SOT TLD[27]来跟踪单个目标。Sadeghian等人[44]进一步扩展了这个流程，使用多个LSTM网络来利用不同的长期线索。之后，Zhu等人[68]将他们的框架配备了一个更先进的跟踪器：ECO[12]，并设计了一个基于注意力的网络来处理遮挡。他们有希望的结果证明了应用SOT作为运动模型的优势。然而，所有这些方法都需要一个额外的亲和模型来处理遮挡，并且通常独立地学习SOT和亲和模型的特征，导致了增加的计算成本、非平凡的内存需求和复杂的训练协议。尽管[11]使用共享的骨干网络来提取所有目标的特征，但还是进一步添加了多个在线更新子网络来专门处理每个目标。相比之下，我们尝试学习一个“通用”的特征，它保留了足够的信息用于运动和亲和模型，从而本质上简化了训练和测试过程。在线MOT中的对象亲和模型。在数据关联阶段，对象亲和模型通常用于根据成对亲和度链接跨帧的轨迹或检测，这是处理在线MOT中遮挡的关键方式。为了产生可靠的亲和度估计，对象外观线索是不可或缺的，而具有度量学习的Siamese或三元组网络[8, 36,55]提供了获取具有辨别性和鲁棒性的特征嵌入的强大工具。特别地，Leal-Taix´e等人[31]应用Siamese网络通过聚合目标外观和光流信息来估计提供的检测的亲和度。Son等人[47]提出了一个四元组损失，强调目标外观以及它们的时间邻近性。在[52]中，使用Siamese网络来利用人体姿势信息进行长距离目标关系建模。Voigt-laender等人[53]通过使用3D卷积层扩展Mask R-CNN[20]并提出一个关联头来提取每个区域提议的嵌入向量。v = τ(x, z) = φ(x) ∗ φ(z) + b,(1)LSOT =p∈P1|P| log (1 + e−vpyp),(2)Main Idea. Previous SOT based online MOT methods typ-ically design an extra network for afﬁnity measure, in ad-dition to the SOT network.In contrast, we try to inte-grate the object motion and afﬁnity networks into a uni-ﬁed model. This brings several advantages, as mentionedin §1. The core idea is to enforce the network to simultane-ously learn the two tasks: single object tracking and afﬁn-ity prediction, forming a uniﬁed multi-task learning frame-work. Some ones may concern the features obtained fromtop-performing SOTs are already good enough for afﬁnitymeasure. Actually, though SOT features are powerful, theyare not discriminative enough to estimate a reliable afﬁnity.This is because SOTs rarely access the identity informationduring training, thus their features typically distinguish tar-gets from the substantial background well, while capturerelatively less identity information. From the perspective ofdata association, SOT features have already encoded someuseful information, thus it is more desirable and efﬁcient tomake use of these features instead of learning extra ‘afﬁnityfeatures’ from scratch. These considerations motivate us tolearn a uniﬁed yet powerful feature that is applicable to bothtasks, yielding an elegant online MOT framework.Triplet-based MOT Framework. To achieve our goal, ourUMA model is designed as a triplet network architecture,as shown in Fig. 2, where the triplet network comprisesthree weight-sharing branches, i.e., an exemplar branch,a positive-instance branch and a negative-instance branch.We adopt the exemplar as the anchor. The instances fromthe same targets are used as positive samples, while the onesfrom different targets as negative. The integration of the ex-emplar branch and positive-instance branch can be viewedas a Siamese tracking network, while the whole triplet net-work yields a uniﬁed metric learning framework.Speciﬁcally, for the ith target, given an exemplar zi, apositive-instance xi, and a negative-instance xj sampledfrom a different target j, we extract their features from thebackbone AlexNet: fzi =φ(zi)∈R6×6×256, fxi =φ(xi)∈R20×20×256, and fxj = φ(xj) ∈ R20×20×256. Then, for thesingle object tracking task, it can be trained over (fzi, fxi)using Eq. 2.For the whole triplet-based model, it is designed to learn67700通过批次硬三元组损失[24]进行训练。Bergmann等人[2]还提出了一种基于Siamese网络的短期重新识别模型。Xu等人[63]联合利用外观、位置和拓扑信息，在空间和时间域中使用关系网络[58]计算相似度。值得注意的是，所有这些方法都是基于检测的跟踪模式。与之不同的是，我们将度量学习深入融入到SOT模型中，通过一个统一的三元组网络。它学习了一个具有判别性的特征，用于目标运动预测和相似度度量子任务，提供了一种有效而高效的解决方案。03.我们的算法0在本节中，我们首先简要回顾了Siamese SOT[4]（§3.1），因为它是我们模型的主干。然后，我们在§3.2中介绍了我们UMA模型的细节。最后，在§3.3中，我们详细说明了我们整个在线MOT流程。由于UMA模型利用单一的特征提取网络进行基于SOT的轨迹片段生成和物体相似度度量，因此它提供了一种更高效的在线解决方案，并具有许多非平凡的技术改进。03.1. Siamese SOT的基础知识0我们的主干模型是最近提出的深度跟踪器：SiamFC[4]，它基于一个Siamese网络，在单目标跟踪领域表现出良好的性能。它在一个GPU上的运行速度约为每秒120帧，基于轻量级的AlexNet[30]构建。基本上，SiamFC将跟踪任务转化为在嵌入空间中进行匹配的补丁。Siamese网络被学习为匹配函数，它被应用于在新帧中找到与第一帧中的初始目标补丁最相似的补丁。具体来说，如图1所示，Siamese跟踪器包括两个参数共享的分支，每个分支都是一个5层的卷积网络φ。一个分支以第一帧给出的目标检测结果作为输入，称为样本。另一个分支以实例作为输入，即每个后续帧中包含候选补丁的搜索区域。给定样本z和实例x的特征嵌入：φ(z)和φ(x)，应用交叉相关层τ来比较它们的相似性并得到响应图v：0其中‘ �’表示卷积操作符，b是偏置项。然后，对于训练，给定一个真实的地图y，对v应用逻辑损失函数：0其中p表示x的格子P中的一个候选位置。对于每个候选x p∈ x，v p 是样本-候选对的响应值，即0图1：Siamese SOT网络架构在训练阶段的示意图0v p = f ( x p , z ) , 而 y p ∈ { +1 , − 1 }是对应的真实标签。03.2. 在线多目标跟踪的UMA模型∕67710图2：我们提出的UMA模型的示意图，它基于三元组架构和多任务学习构建。UMA同时学习两个任务：基于SOT的物体运动预测和依赖关系的排序，产生一个适用于轨迹生成和关联度量阶段的强特征。0亲和性估计的排序任务。这是通过度量学习范式实现的，即将正样本的特征与锚点比其他负样本更接近。具体来说，我们首先分别在 f x i 和 f x j 上应用 ROI-Align [20] 层，从 xi 和 x j 的中心提取两个 6×6×256的目标特征（在训练期间，目标是以实例示例为中心的[4]）。这样的操作使模型能够专门关注学习更具身份区分性的特征以进行关联度量，抑制来自聚类背景的信息，并产生与锚点特征 f z i具有相同分辨率的特征图。然后，对锚点特征 f z i 以及 f x i和 f x j的对齐特征应用全局平均池化（GAP），分别产生三个256维特征，分别表示为 w z i ，w x i 和 w x j。这样可以强化网络的正则化并减小模型大小。给定一个包含 N 对训练样本的小批量，例如 B = {(x i , z i )} N i=1，标准的三元组损失 [59] 的工作方式如下：0L Tri = 10N0N0i,j max(0, || w z i - w x i || 2 2 -|| w z i - w x j || 2 2 +m)，(3)0其中 m是在正负对之间强制执行的间隔。此损失的目标是保持锚点与正样本之间的距离小于锚点与负样本之间的距离。然而，在我们的批次构建中，正样本的数量明显小于负样本的数量，这将限制硬数据挖掘中的三元组损失 L Tri 的性能[24]。为了克服这个障碍，我们用 N 对损失 [46]替换了公式 3：0L N-pair = 10N0N0i =1 log (1+ N0i ∕ = j exp (w � z i w x j - w � z i w xi)。 (4)0理由是，在遍历 B中的所有三元组之后，最终的距离度量可以正确平衡。0此外，有了目标身份，我们还可以最小化基于交叉熵的识别损失 [9]：0L Iden = - (10N0N0i =1 log ˆ p z i+ 10N0N0i =1 log ˆ p x i)，(5)0其中 ˆ p z i ∈ [0, 1] 是第 i个身份类别的预测概率。身份预测分数是通过在 w z i 或 wx i 上应用两个全连接层（维度为512和439）和一个softmax层获得的。请注意，我们的训练集中总共有439个身份。因此，最终损失是由在 Siamese 网络上定义的 SOT 损失 LSOT 和在整个三元组网络上定义的关联度相关损失 LN-pair 和 L Iden 的组合计算得出的：0L = L SOT + (λ 1 L N-pair + λ 2 L Iden)，(6)0其中 λ s 是平衡不同损失的系数。通过这种方式，基于 SOT的运动模型和基于排序的关联模型可以在统一的三元组网络中端到端地进行训练，从而促进训练过程。此外，通过我们的多任务设计，我们可以从我们的模型中提取出可靠的关联度：0c = w � I w I ′，(7)0其中 I 和 I ′是两个图像块输入，例如，一个具有实例区域或检测块的示例，c是关联度。为了深入分析从我们的模型中学到的特征在关联度量中的优势，我们使用从 Siamese SOT模型中提取的特征来计算关联度，其中 SOT模型既不使用额外的分支也不使用额外的损失（即 L N-pair和 L Iden ）。图 3给出了两个模型在困难情况下的性能比较，例如，负样本对之间的关联度与外观相似的正样本对之间的关联度。从图 3(a) 可以看出，仅使用 L SOT时，负样本对之间的关联度甚至大于正样本对之间的关联度。11256256(10)67720图 3：使用特征（a）来自具有 L SOT 损失的孪生 SOT的相似度，（b）来自具有多任务学习的三元组网络的w，以及（c）来自具有多任务学习和 TSA 模块的整个 UMA 的 wAFF 的相似度。0正样本对之间的相似度明显低于负样本对之间的相似度，即使在困难情况下也是如此，这清楚地证明了 SOT特征的弱可辨识性。在图3（b）和（c）中，正样本对之间的相似度明显大于负样本对之间的相似度，这证明了我们的多任务特征 w在相似度测量中具有很高的适用性。更详细的定量实验可以在第 4节找到。任务特定注意力模块。对于上述基于三元组的模型，使用由主干 AlexNet φ(∙) 生成的相同特征用于 SOT基于运动预测和相似度测量任务。这种设计的潜在问题在于对两个任务之间细微差别的敏感性丧失以及对它们的任务特定因素的忽视。适用于 SOT的有意义的特征可能不适合最佳的相似度测量，反之亦然。例如，SOT中经常强调上下文信息，例如，接近目标的辅助对象可能为跟踪提供相关信息[65,46]。然而，对于相似度测量，围绕关键点的局部语义特征更具信息量，而辅助对象可能干扰决策。为了解决这个问题，我们进一步为我们的模型配备了一个任务特定注意力（TSA）模块，以便以非常低的计算成本强调任务感知特征学习。我们的 TSA 模块基于著名的 Squeeze-and-ExcitationNetwork (SENet) [26]设计，因为它不依赖额外的输入并且在运行时是微不足道的，这对于在线 MOT 是必要的。它使用 squeeze 和excitation操作对通道之间的特征响应进行重新加权。具体来说，squeeze操作符通过通道级全局平均池化在所有空间位置上聚合特征以获取全局信息：0s l = GAP l (f) = GAP l (φ(∙)) ∈ R, (8)0其中 GAP l 表示对特征 f 在第 l个通道上进行全局平均池化。在 excite步骤中，使用门控机制对通道级描述符 s = [s 1, s 2, ..., s256] ∈ R 256 进行操作：0a = σ(W 2 δ(W 1 s)) = [a 1, a 2, ..., a 256] ∈ [0, 1] 256. (9)0图 4：TSA 模块的示意图，使我们的模型能够强调任务特定特征。0图 5：TSA 模块强调的任务特定特征的可视化。跟踪部分提取的特征显示在第 2 行中0行，相似度测量部分的特征在第 3 行。0σ 和 δ 是 sigmoid 和 ReLU函数，通过降维和增加操作（由两个全连接层 W 1 ∈ R 64× 256 和 W 2 ∈ R 256 × 64 参数化），注意力向量 a 对256 个通道之间的非互斥关系进行编码。使用 SENet框架，我们的 TSA 模块学习两种注意力：a SOT 和 aAFF，用于处理不同的任务（见图 4）。首先将 a SOT 和 aAFF 应用于对从主干 AlexNet 提取的“通用”特征 f = [f 1,..., f 256] 进行重新加权：0f SOT = [a SOT 1 ∙ f 1, ..., a SOT256 ∙ f 256],0然后我们将 L SOT 的监督信息馈送到 SOT 感知特征 f SOT，同时将 L N-pair 和 L Iden损失添加到与相似度相关的特征 w AFF（从 f AFF派生，如前所述）。通过这种方式，TSA模块将学习生成任务特定的注意力。通过我们轻量级的 TSA机制，我们的模型能够在使用相同的主干网络 φ(∙)的同时产生任务特定的特征。对于单目标跟踪任务，SOT 感知注意力 a SOT0可以强调有用的上下文以提高跟踪准确性。对于相似度测量，我们使用相似度感知注意力a AFF0用于捕捉细粒度的局部语义特征。因此，外观可变的目标可以更好地对齐。从图3(c)可以看到，使用相似度特定的注意力增强特征w AFF可以进一步改善相似度估计。图5展示了每个任务的注意力增强特征的可视化。更详细的定量分析可以在第4.2节中找到。03.3.我们的在线MOT流程0我们已经详细介绍了我们的网络架构。接下来，我们将详细介绍我们的在线MOT整个流程。基本上，c′ = 167730每个目标都与两个状态相关联，即跟踪或遮挡，由遮挡检测决定。我们首先应用我们的UMA（在SOT模式下工作）为跟踪目标生成轨迹片段。然后我们根据UMA生成的相似度（在排序模式下工作）进行数据关联，以恢复被遮挡的目标。轨迹片段生成和遮挡检测：在跟踪过程中，我们将UMA应用于每个目标（示例z），该目标由提供的检测结果初始化。UMA能够更新每个目标的位置，用作SOT（依赖于SOT特定特征fSOT）。同时，它通过测量示例和后续帧中的实例之间的相似度来检测遮挡（使用相似度估计相关特征fAFF）。具体而言，我们使用以目标的上一个位置为中心的搜索区域作为实例x。给定z和x，我们通过方程1使用SOT特定特征fSOT得到响应图v。然后，根据v中得分最高的位置获得目标边界框（bbox）[4]。同时，UMA使用示例z和实例x计算相似度以检测遮挡。它以排序模式工作，并使用相似度特定特征w AFF z和w AFFx来获取相似度c（方程7）。注意，在跟踪阶段，目标可能出现在x的任何部分，因此我们在实例特征上应用ROI-Align[20]（在测试期间，f AFF x ∈ R 22 × 22 ×256）以获取对齐的目标特征，其中bbox由SOT提供。然后，我们通过GAP获得w AFFx，并进一步计算相似度c。与先前的工作[62, 44,68]使用SOT生成的置信度来检测遮挡相比，我们的方法给出了更稳健的结果，如图6所示。此外，我们还根据轨迹和最近检测之间的历史平均交并比（IOU）集成相似度，以过滤FP跟踪结果并更可靠地检测遮挡。一旦相似度c低于阈值α或平均IOU低于β，目标被识别为遮挡；否则为跟踪。我们通过贪婪算法对跟踪的bbox进行进一步优化。然后，优化后的bbox被收集作为目标z的轨迹。与任何跟踪bbox的IOU低于一定阈值γ的检测被视为候选检测，例如，重新出现的遮挡目标或全新目标。数据关联：在数据关联过程中，我们处理这些候选检测并处理遮挡目标，即将候选检测识别为重新出现的遮挡目标或全新目标，然后恢复其身份（如果是第一种情况）或分配一个新的身份（如果是第二种情况）。与设计复杂策略的先前工作[52, 13,5]不同，由于我们UMA测量的相似度可靠，我们使用了相对简单的数据关联方法。给定候选检测集D和轨迹0图6：遮挡处理的示意图。红线表示我们的UMA模型产生的相似度，蓝线表示SiameseSOT的置信度。我们提出的模型在检测和处理遮挡方面更加稳健。0对于前一阶段产生的遮挡目标集合 T，我们构建一个亲和矩阵 C ∈ R |D|×|T|来获得最优分配。具体来说，对于轨迹集合 T ∈ T ，我们从T 中均匀采样 K 个样本，即 { t 1 , t 2 , ..., t K } 。然后计算T 和候选检测 d ∈ D 之间的亲和度：0K0� K0k =1 w � d w t k . (11)0计算完所有的亲和度后，我们构建成本矩阵 C（亲和矩阵），并通过应用匈牙利算法 [40] 在 C上获得最优分配。根据分配结果，将候选检测分配给与其相连的遮挡目标的身份。如果候选检测没有与任何遮挡目标相连，则视为全新目标并分配一个新的身份。轨迹管理：对于轨迹初始化，我们采用[35]中的方法来减轻FP检测引起的影响。此外，如果目标移出视野或连续若干帧遮挡，将终止该目标的跟踪。04. 实验0数据集：我们在MOT Challenge[38]的MOT16和MOT17数据集上评估我们的方法，该数据集是一个专注于多人跟踪的标准化基准。MOT16数据集包含14个视频序列（7个用于训练，7个用于测试），拍摄于静态和移动摄像机的非约束环境中。它提供了训练集的地面真值注释和检测结果[18]。MOT17比MOT16包含更多的视频序列，并提供了准确的注释和来自不同检测器的更丰富的检测结果，即DPM [18]，SDP[64]和FRCNN[43]。对于两个测试集的评估结果将提交到基准测试的服务器上。评估指标：为了定量评估性能，我们采用广泛使用的CLEARMOT指标[3]，即多目标跟踪准确度（MOTA），多目标跟踪精度（MOTP），假阳性（FP），假阴性（FN），身份切换（IDS）和IDF1得分。此外，还使用了[33]中定义的指标，包括大部分跟踪目标的百分比（MT）和大部分丢失目标的百分比（ML）。实现细节：我们采用MOT17中的序列进行训练。示例-正实例对由来自不同帧中相同目标的图像块组成。来自不同目标的图像块被选择为负实例。在训练过程中，示例和实例的大小分别设置为 127 × 127 和 239 ×239。使用在ImageNet数据集上预训练的AlexNet模型[15]来初始化我们的UMA模型的共享部分，而其他层则通过He初始化[21]进行初始化。我们使用[4]中的学习率配置。方程6中的系数参数设置为 λ 1 = λ 2 = 0.1。通过使用大小为8的小批量进行动量优化[50]来最小化总损失。用于检测遮挡的阈值 α 和 β 分别设置为0.6和0.5。阈值 γ设置为0.5，决定是否将检测结果选为数据关联的候选。我们经验性地将终止遮挡目标的阈值设置为30帧。67740模式方法发表年份 MOTA ↑ IDF1 ↑ MOTP ↑ MT ↑ ML ↓ FP ↓ FN ↓ IDS ↓ Hz ↑0STAM [11] ICCV 2017 46.0 50.0 74.9 14.60% 43.60% 6,895 91,117 473 0.2 AMIR [44] ICCV 2017 47.2 46.3 75.8 14.00% 41.60% 2,68192,856 774 1.0 DMAN [68] ECCV 2018 46.1 54.8 73.8 17.40% 42.70% 7,909 89,874 532 0.3 Online C-DRL [42] ECCV 2018 47.3 - 74.617.40% 39.90% 6,375 88,543 - 1.0 KCF16 [9] WACV 2019 48.8 47.2 75.7 15.80% 38.10% 5,875 86,567 906 0.1 Tracktor++ [2] ICCV2019 54.4 52.5 78.2 19.00% 36.90% 3,280 79,149 682 2.0 UMA (我们的方法) CVPR 2020 50.5 52.8 74.1 17.80% 33.70% 7,587 81,924685 5.00QuadMOT [47] CVPR 2017 44.1 38.3 76.4 14.60% 44.90% 6,388 94,775 745 1.8 FWT [23] CVPRW 2018 47.8 47.8 77.0 19.10% 38.20%8,886 85,487 852 0.2 离线MHTBLSTM [29] ECCV 2018 42.1 47.8 75.9 14.90% 44.40% 11,637 93,172 753 1.8 JCC [28] TPAMI 2018 47.152.3 - 20.40% 46.90% 6,703 89,368 370 1.8 TLMHT [45] TCSVT 2018 48.7 55.3 76.4 15.70% 44.50% 6,632 86,504 413 4.80LNUH [60] AAAI 2019 47.5 43.6 - 19.40% 36.90% 13,002 81,762 1,035 0.80表1：MOT16上的定量结果。在线和离线MOT方法的最佳得分分别用红色和蓝色标记。0大部分跟踪目标的百分比（MT）和大部分丢失目标的百分比（ML）。MT是指至少有80%的生命周期内，由任何跟踪假设覆盖的地面真值轨迹的比例。ML被计算为由任何跟踪假设覆盖的地面真值轨迹的比例，其生命周期最多为20%。实现细节：我们采用MOT17中的序列进行训练。示例-正实例对由来自不同帧中相同目标的图像块组成。来自不同目标的图像块被选择为负实例。在训练过程中，示例和实例的大小分别设置为 127 × 127 和 239 × 239。使用在ImageNet数据集上预训练的AlexNet模型[15]来初始化我们的UMA模型的共享部分，而其他层则通过He初始化[21]进行初始化。我们使用[4]中的学习率配置。方程6中的系数参数设置为 λ 1 = λ 2 = 0.1。通过使用大小为8的小批量进行动量优化[50]来最小化总损失。用于检测遮挡的阈值 α 和 β分别设置为0.6和0.5。阈值 γ设置为0.5，决定是否将检测结果选为数据关联的候选。我们经验性地将终止遮挡目标的阈值设置为30帧。04.1. MOT基准数据集上的性能0定量和定性性能：我们在MOT16和MOT17基准测试集上评估了我们的方法。我们的算法和其他最新的MOT算法的性能在表1和表2中呈现，其中我们的轻量级UMA模型在MOTA和IDF1指标上优于大多数在线甚至离线MOT算法。例如，如表1所示，与在线算法KCF16[9]相比，我们在MOTA上提高了1.7％，在IDF1上提高了5.6％，KCF16采用KCF[22]作为运动模型。表2的结果对我们的方法的性能提供了另一个有力的支持，在这个表上，我们同时在大多数已发表的在线和离线方法中实现了更好的MOTA，MT，ML和FN。特别地，FAMNet [10]是一项最近的工作，也应用了SiameseSOT，我们在MOTA和IDF1方面都超过了它。此外，根据IDF1指标，我们改进了Tracktor++ [2]2.1％，这验证了我们统一模型在处理遮挡和干扰物方面的有效性。总之，我们的轻量级UMA模型实现了最先进的性能，得益于多任务学习框架。MOT17测试集上每个序列的定性结果如图7所示。跟踪速度和模型大小：我们的在线MOT0图7：MOT17基准测试集上的定性跟踪结果。每个边界框的颜色表示目标身份。每个边界框下的虚线表示每个目标的最近轨迹。0DMAN [68] ECCV 2018 48.2 55.7 75.5 19.30% 38.30%26,218 263,608 2,194 0.3 MTDF [19] TMM 2019 49.645.2 74.5 18.90% 33.10% 37,124 241,768 5,567 1.2Online FAMNet [10] ICCV 2019 52.0 48.7 76.5 19.10%33.40% 14,138 253,616 3,072 0.6 Tracktor++ [2] ICCV2019 53.5 52.3 78.0 19.50% 36.60% 12,201 248,0472,072 2.0 UMA (我们的) CVPR 2020 53.1 54.4 75.521.50% 31.80% 22,893 239,534 2,251 5.0MTDF [19]TMM201949.645.274.518.90%33.10%37,124241,7685,5671.2OnlineFAMNet [10]ICCV201952.048.776.519.10%33.40%14,138253,6163,0720.6Tracktor++ [2]ICCV201953.552.378.019.50%36.60%12,201248,0472,0722.0UMA (ours)CVPR202053.154.475.521.50

下载后可阅读完整内容，剩余1页未读，立即下载