多视点轨迹对比学习：提升多目标跟踪的性能

182 浏览量更新于2023-10-25 收藏 1.2MB PDF 举报

文件标签

多目标跟踪

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8834歧视性代表：多视点轨迹对比学习在线多目标跟踪于恩1*，李卓凌2 *，韩寿东1*1华中科技大学2清华大学@ hust.edu.cnlzl20@mails.tsinghua.edu.cn摘要判别表示是多目标跟踪中关联步骤的关键。最近的工作主要利用单个或相邻帧中的特征来构造度量损失，并使网络能够提取目标的表示。虽然这种策略是有效的，但它未能充分利用整个轨迹中包含的信息。为此，我们提出了一种策略，即多视图轨迹对比学习，其中每个轨迹表示为一个中心向量。通过在动态更新的存储体中保持所有的向量，设计了一种冗余级对比度损失来探索整个轨迹中的帧间信息。此外，在该策略中，每个目标被表示为多个自适应选择的关键点，而不是预定义的锚点或中心。这种设计允许网络从同一目标的多个视图中生成更丰富的表示，从而可以更好地表征被遮挡的对象。此外，在推理阶段，一个相似性指导的特征融合策略的发展，以进一步提高质量的轨迹表示。在MOTChallenge上进行了大量的实验，以验证所提出的技术的有效性。实验结果表明，我们的方法已经超过了以前的跟踪器，并建立了新的国家的最先进的性能。1. 介绍作为基本的视觉感知任务，多目标跟踪（MOT）已经被广泛地部署在广泛的应用中，例如，自动驾驶、视频分析和智能机器人[6，41]。以前的MOT方法主要采用检测跟踪范式[4，27，29，39]，主要包括两个部分，即检测和关联。对于检测部分，建立检测器以定位感兴趣的对象。在关联部分中，一些方法利用运动预测器来预测位置。*同等贡献†通讯作者图1. 现有方法与我们提出的方法的比较。（a）现有方法仅利用单个或两个相邻帧中的信息来学习表征。(b)相反，我们的方法充分利用了整个轨迹中的特征，其中包含了许多帧。在下一帧中的对象的部分，并依赖位置信息来关联它们[16]。然而，当这些方法被应用到具有挑战性的情况下，目标丢失了几个帧，这是很难重新连接这些目标到相应的轨迹正确。为了缓解这个问题，现有的跟踪器从基于外观的策略中寻求帮助[39，47，51]，其中基于提取特征的相似性来识别对象。然而，基于外观的联想策略的有效性仍然有限.具有不同身份的许多对象与相同的轨迹相关联，因此，提取更有意义的和歧视性的表示是提高关联精度所期望的。为了提高提取的表示的质量，我们重新审视了MOT中现有的表示学习方法，并观察到它们仅使用单个或相邻帧中的样本来构造训练损失8835图2. 不同目标表示策略的比较：（a）基于锚点的，（b）基于中心的，（c）可学习的视图采样（我们的）。网络[17，28，39，41，51]，这是图中所示。第1（a）段。然而，一个对象通常出现在视频的多个帧中，这些帧组成一个轨迹。几乎所有现有的方法都未能充分利用整个轨迹中所包含的信息。鉴于这一观察，我们提出了一个新的问题：是否可以充分利用轨迹信息来提高目标表示的可辨别性？这个问题的一个可能的解决方案是使用轨迹中的所有目标表示向量来构建对比损失[18]。然而，由于视频中的轨迹可能包括数千个实例，因此这种解决方案需要大量的计算资源，这是负担不起的。为了解决这个问题，我们提出了一种策略称为多视图轨迹对比学习（MTCL）。在该策略中，我们首先将每个轨迹建模为一个向量，即轨迹中心，并建立一个轨迹中心存储库（TMB）来维护这些轨迹中心。每个trajec- tory中心在这个记忆库是动态更新dur-ing训练过程中。然后，我们将目标外观向量视为查询，并设计了一个对比损失，使它们更接近其对应的轨迹中心，而远离其他轨迹中心，如图所示第1段（b）分段。通过这种方式，我们的方法能够在仅消耗有限内存的情况下利用帧间轨迹信息。此外，我们开发了一个名为可学习视图采样（LVS）的策略，它作为MTCL的一个子组件如图所示2、LVS用多个自适应选择的关键点而不是锚点或其2D中心来表示每个目标。这些关键点聚集在目标的有意义的位置，并为上述轨迹对比学习过程提供更丰富的视图。此外，LVS还有一个额外的好处。如示于图在图2（a）和（b）中，目标的锚点或2D中心被其他物体遮挡，而LVS仍然可以自适应地聚焦在可见区域。此外，在推理阶段，我们注意到一些帧的目标特征不清楚，不适合表示轨迹。相应地，我们设计了一种相似性引导的特征融合（SGFF）策略，基于历史特征相似性来有效地聚合特征，以减轻这些不良特征对轨迹表示的影响。除了所有上述提出的技术，结果模型，即多视图跟踪器（MTrack），已经在四个公共基准上进行了评估，即，[23]、[ 26]、[27]和[20]。前...实验结果表明，我们提出的所有策略都是有效的，MTrack的性能明显优于前面的同类算法。例如，MTrack实现了69的IDF1。2%，MOTA为63。5%的MOT20。2. 相关工作多目标跟踪。由于2D对象检测技术的快速发展[8，30，35，53]，最近的跟踪器主要采用检测跟踪范例[4，6，27，29，39，41]。跟踪器首先利用检测器定位每帧中的目标，然后利用关联器将检测到的相同身份的目标连接起来以形成轨迹。传统方法[6]通常通过基于运动的算法执行时间关联，例如卡尔曼滤波器[40]和光流[3]。然而，这些算法表现不佳时，目标不规则地移动。与这些传统方法相比，一些最近的方法采用神经网络来联合预测下一帧中目标的位置和位移[4，14，32，33，52]。然而，当这些方法被应用到复杂的场景中，目标被遮挡和不可见的几帧，跟踪结果变得不令人满意。为了缓解上述问题，引入了基于外观的方法[17，24，39，41，42，47，51]。这些方法利用神经网络来提取检测到的目标的特征。所提取的特征是有区别的，这意味着具有相同身份的对象的特征由于基于外观的方法是根据提取的特征之间的相似性来关联目标，因此如何产生有区别的特征对它们至关重要。在这项工作中，我们提出了MTCL，它使模型能够通过所提出的轨迹对比学习来学习更多的判别建构性学习对比学习由于其在自我监督学习领域的令人印象深刻的表现而被广泛研究[10，18，19，38]。对于给定的图像，对比学习首先通过随机增强将每幅图像变换为不同的视图。其优化目标是绘制更接近从同一图像增强的视图的视图，并将其推离源自其他图像的视图[18]。尽管对比学习已经被部署在许多领域，如分类[9，11]和检测8836图3. 多视点轨迹对比学习的整体流水线。给定具有多个帧It（t= 1，2，...，MTCL包括4个步骤：（1）采用编码器（主干）从当前输入帧中提取特征图。(2)使用LVS从提取的特征图中选择信息关键点，并通过投影头将所选关键点的特征转换为目标外观向量。(3)在存储在存储器中的外观向量和轨迹中心之间进行对比学习。(4)使用我们的硬采样策略更新冗余中心内存库。[43 ， 45] ，很少有作品将其应用于 MOT 。近日，QDTrack[28]是第一个利用MOT中的对比学习来改进学习表示的工作。然而，它只使用相邻两帧中的样本，而不能探索整个轨迹中的信息这是因为直接构造轨迹中所有样本的对比损失会导致巨大的计算负担，这是无法承受的。与此相反，我们提出的MTCL可以充分利用的轨迹信息与非常有限的计算资源，这是实现了只有一个向量存储在内存中的每个轨迹。3. 方法本节介绍如何实现MTrack首先，SEC。3.1提供了MTrack的概述。后-病房，第二。3.2介绍了我们建议的MTCL，它包括两个子组件，即，LVS和TMB。最后，第3.3描述了SGFF战略的实施情况3.1. 概述在这项工作中，我们基于中心网 [53] 实现了MTrack，它将目标表示为它们的中心点。DLA 34 [48]被采用作为CenterNet的主干。给定一个多帧的视频序列作为输入，首先应用骨干提取特征图。然后，建立多个网络头以将特征图转换为目标的期望属性，包括2D中心热图、中心偏移和边界框大小。另外，我们在检测头的同时增加了一个额外的嵌入头来提取外观特征。在我们的实现中，基于估计的2D中心热图、中心偏移和边界框大小来生成检测边界框。检测到的对象根据它们的外观特征相似性相在这项工作中，我们专注于如何产生歧视性表示，实现准确的关联。具体而言，在训练过程中应用MTCL来提高生成代表性嵌入向量的能力，如图所示3 .第三章。SGFF是为了提高推理阶段轨迹表示的质量而开发的3.2. 多视角轨迹对比学习在本小节中，我们详细介绍了我们的主要贡献，MTCL。为了更好地解释这一点，我们首先介绍了MTCL中的LVS策略，该策略为每个目标自适应地生成多个外观向量，有助于更有效地利用帧内信息然后，我们描述了一个以记忆库为中心的记忆库，它使我们能够在有限的计算资源下实现轨迹对比学习。最后，详细介绍了MTCL的磁电阻级对比损耗和整个过程。可学习的视图采样。基于CenterNet开发的现有跟踪器主要将每个目标表示为特征地图上的唯一中心点。如前所述，该策略有两个关键限制：（1）目标中心点可能被其他物体遮挡，如图1所示。第2段（b）分段。在这种情况下，产生的表观矢量不能反映目标的特性(2)用一个向量表示每个目标不能为对比学习算法提供足够的样本。为了解决上述限制，我们设计了LVS，它将目标表示为多个自适应选择的关键点。具体来说，给定视频的第t帧作为输入，表示为It，我们首先使用主干将其转换为特征图Ft，并识别所有特征图的中心点。对比损失历史帧编码器可学习视图采样硬采样偏移当前帧编码投影检测头存储器n轨迹ID我更新123轨迹中心存储体......……...……...……8837∈我我i∥·∥MiLLNCEL我∈i=1我我sl=i，（3）我我cl←αcl+（1−α）pl我i=1exp（vk·ci）/τQ我不喜欢以前的跟踪者[51]。表示一个tar的中心点坐标得到q在Ft上设Zq=（xq ，yq），我们求出Ft 中Zq 坐标处的向量，并将该向量表示为rq。向量rq包含q的表观信息。因此，我们可以通过应用线性变换W来将从Zq的偏移回归到It中的潜在信息关键点。该过程可以公式化为△Z=Wrq，（1）其中△Zq={△Zq}Nk，Nk表示总数量。在此，我们解释如何实现的动量为基础的更新策略。对于一个输入数据批，包括- ING几个帧，网络识别感兴趣的所有帧的实例，并为每个实例生成Nk外观向量。在训练阶段，每个检测到的实例都标记有轨迹ID。我们收集从具有相同轨迹ID的实例中提取的所有应用向量，以更新其对应的轨迹中心。具体地说，在基于后验概率优化模型传播梯度中的所有外观向量所选关键点的误差，△Zq是从Zq到l lNli批次对应于第l轨迹作为P={pi}i=1，第i个关键点。因此，第i个所选关键点的坐标被确定为：Zk=Φ（Zq+△Zq），（2）其中Φ（·）表示保证所有k∈y的算子我们选择P1中最难的样本来更新C1。样本的硬水平通过与其对应的轨迹中心的余弦相似性[37]来反映，并且样本相似度最小的问题是最难的。数学-通常，pl和cl之间的余弦相似度sl为公式：点落在生成的2D边界框内。具体来说，如果关键点在2D框外，则它将被裁剪到此框的边界。利用第i个关键点Zk的坐标，我们可以得到-日期为：我我我pl·clpl从Ft得到其对应特征向量vk。然后，vk其中·和×表示两个向量之间的点积。通过应用由4个完全连接的层组成的投影头，被进一步变换成更有代表性的外观向量vk由于为每个节点选择了Nk个关键点tors和两个浮点数之间的正常乘积2是一个L2归一化算子。用最小值表示Pl中的外观向量目标，我们可以得到Nk外观向量vk对应于-余弦相似性，cl已更新，因为：M、（四）对比学习过程的样本值得注意的是，在推理阶段，Nk个外观向量被contate- nated作为一个单一的一个来表示其相应的目标。弹道中心记忆库与帧内样本相比，帧间样本提供了更多的信息特征。然而，直接利用历史帧中的所有样本来构造对比损失消耗了大量的计算资源。为了缓解这个问题，我们建议将每个轨迹表示为一个名为轨迹中心的向量，并将所有轨迹中心保存在一个内存库中。假设在训练数据集中存在N个轨迹，则存储器库被初始化为在训练时期（train_epoch）开始时包含N个零向量{c}N的集合。其中α是落在[0，1]之间的超参数。在训练阶段，使用硬样本更新轨迹中心有助于提高训练网络的效率。这个问题已被我们的实验结果所证实。轨迹水平对比度损失。LVS和TMB分别提供丰富的帧内和帧间样本用于构建对比度损失。接下来的问题是如何实现对比度损失，并训练网络的嵌入头产生区分性表示。F或由LVS产生的第k个出现向量v_k及其对应的轨迹中心cl，优化目标物体ive是将机翼vek拉得更靠近cl，同时将vek推得更靠近cl新时期包括许多迭代，并且每一次迭代响应于输入数据批次）。这个记忆库及其包含的轨迹中心直到这个时期结束才被重新初始化由于我们不保存所有迭代的梯度信息以节省内存，因此trajec所有其他弹道中心。在[18]之后，我们使用InfoNCE损失来实现这一目标。在数学上，vk的损失可以用公式表示为：无法通过基于梯度的优化更新存储中心如亚当[21]。为了解决这个问题，我们开发了一个基于动量的更新策略，动态地向上-Lk=−logΩ exp（vk·cl）/τL、（五）在每次迭代中确定轨迹中心，而不需要历史梯度信息。其中，τ（0，1]表示超参数，并且Nt是轨迹的总数为了充分利用帧间瞄准目标的不同位置将每一个检测到的目标表示为这些Nk向量提供了更丰富的帧内Nti=08838NaLLLLQ−L·LLlllβ=max{0，max（z，z−）}，（9）信息，我们计算每个外观向量的概率级对比度损失的基础上方程。（5）、我的心历史帧嵌入水头损失LTCL公式为：1ΣNa k=1其中Na是外观向量的总数。总的来说，训练MTarck的总损失是：1L=（21eη1 Ldet+1eη2 LTCL+η1 +η2），（7）其中Ldet表示检测损失。 η1和η2是用于平衡L det和L tcl的可学习权重。此外，为了更清楚地展示MTCL的过程，我们还给出了MTCL在Al-租m1中的伪码.算法一：MTCL培训程序要求：特征编码器σθ;动量率α;温度参数τ;输入：训练视频V ={V1，V2，. };1对于每个epoch，2初始化一个冗余中心存储体B;每个小批次3个4利用σθ（Vb）提取特征图Fb;5.在给定F的情况下，检测V中的所有目标;图4. 相似性引导的特征融合策略。在该策略中，根据zt与最近帧中提取的特征之间的相似性，对每帧自适应地调整βt得出该过程的公式如下：f t=（1−β）ft−1+ βz t，（8）其中β是超参数。当zt为非信息时，将β设置为常数是有效的。然而，当目标被遮挡或模糊时，zt被噪声污染并且包含很少有价值的信息。在这种情况下，用zt更新ft−1是有害的b bl l6通过LVS用等式（1）生成多视图外观（1）和方程（2）;7计算冗余级对比损失Ltcl与Eq.（5）和等式（6）;8用公式B更新（4）;9端部到轨迹表示。为了解决这个问题，我们提出了SGFF，它自适应地调整每个帧的β，如图2所示。4.第一章具体来说，假设目标在最近的帧中是清晰的，我们可以通过计算其与最近Q帧中的特征向量的相似性来测量zt如果zt与它们相似，我们可以推测zt是informa-L l10端部3.3. 相似性引导的特征融合在推理阶段，现有的基于外观的跟踪器将目标与基于外观相似性的轨迹相关联。首先，这些跟踪器计算目标和射体之间的成对外观相似度矩阵之后，它们基于贪婪匹配策略（如Hungarian算法[22]）将目标与trajec- tories相关联。在这个过程中，轨迹表示的可辨别性对于关联精度至关重要现有的方法通过融合历史框架的特征来更新历史框架的表示将第（t 1）帧中的第l个轨迹表示为ft-1，这些方法采用基于动量的更新策略[51]来用特征向量z t更新ft-1，tive和β应该是一个大值。因此，将第t帧中的β表示为β t，β t可以导出为：t1t我不是Qdlli=1其中，RbId（）表示计算等式（1）中描述的余弦相似性的运算符（三）、对于SGFF，如果zt质量较差，则βt变为微小值。因此，该策略减少了不良特征向量的影响。4. 实验本节介绍了实验细节。具体来说，SEC。4.1介绍了所采用的数据集以及评价指标。秒4.2描述了执行情况，L l其是从新匹配的对象中提取的。然后，我们的方法的ft然后，Sec。4.3证明了ft1L存储器相似性zt0.5L阿勒特ft0.2一∑L0.3A：平均水平∑ ：加权和............LLtcl=kNCE 、（6）8839×通过与现有的最先进的（SOTA）MOT方法进行比较，说明MTrack的优越性。秒4.4通过各种烧蚀实验揭示了所提出的技术的有效性。最后，第4.5可视化了一些经验特征，并表明我们的方法显着提高了学习表征的可识别性4.1. 数据集和评估指标数据集：我们对四个公共MOT基准进行了广泛的实验，即，MOT15 [23]、MOT16 [26]、MOT17[26]和MOT20 [12]。具体来说，MOT15包括22个序列，一半用于训练，另一半用于测试。该数据集总共包含996秒的视频，其中包括11286帧。MOT16和MOT17由相同的14个视频组成，其中7个用于训练，另外7个用于测试。这14个视频涵盖了各种场景、视角、相机姿势和天气条件。与MOT 16相比，MOT 17提供了由各种检测器产生的更多检测边界框，这些检测器包括DPM [15]、SDP [46]、Faster-RCNN [30]。MOT20是这些数据集中最具挑战性的基准。它包括在3个拥挤的场景中捕获的8个视频序列。在某些帧中，同时包括220多个行人。同时，MOT20中的场景非常多样化，可以是室内的，也可以是室外的，可以是白天的，也可以是晚上的。评价指标：MTrack基于CLEAR-MOT评分[ 5 ]进行评估，包括ID F1评分（IDF1）、多目标跟踪准确度（MOTA）、多目标跟踪精度（MOTP）、主要跟踪器率（MT）、主要丢失率（ML）、假阳性（FP）、假阴性（FN）和身份切换（IDS）。其中，IDF1和MOTA是比较性能的最重要指标。4.2. 实现细节我们采用DLA-34作为主干，MTrack的检测分支在Crowdhuman上进行了预训练[31]。使用Adam优化器[21]更新参数，初始学习率为10−4。在第20个epoch时，学习率降低到10−5该模型总共训练了30个epoch。在训练过程中，批量大小设置为8，每个输入图像的分辨率为1088 608。采用的图像增强操作遵循FairMOT[51]，包括随机旋转、缩放、平移和颜色抖动。对于LVS，我们将Nk设置为9，并选择中心点及其周围的八个点作为初始采样位置。在TMB中，温度参数τ为0。05，动量更新因子α为0的情况。二、在推理阶段，Q被设置为30。4.3. 与先前SOTA的比较在这一部分中，我们比较了MTrack与之前的SOTA方法在四个广泛采用的实验台上的性能方法IDF1 MOTAMTML↓FP↓FN ↓IDS↓MOT15私有检测DMT [20]49.244.534.7% 22.1%8,08825,335684TubeTK [27]53.158.4百分之三十九点三18.0%5,75618,961854CDADDAL [2]54.151.3百分之三十六点三22.2%7,11022,271544TRID [25]61.055.740.6% 百分之二十五点八6,27320,611351RAR15 [13]61.356.5百分之四十五点一百分之十四点六9,38616,921428MTrack62.158.9百分之三十八点一百分之十七点五6,31418,177750MOT16私有检测IOU [7]46.957.1百分之二十三点六32.9%5,70270,278 2,167JDE [39]55.864.435.4% 20.0%--1544[29]第二十九话57.267.632.9% 百分之二十三点一8,93448,305 1,897TubeTK [27]59.464.033.5% 百分之十九点四10,96253,626 1,117LMCNN [1]61.267.438.2% 百分之十九点二10,10948,435931DeepSort [41]62.261.4百分之三十二点八百分之十八点二12,85256,668781MAT [16]63.870.5百分之四十四点七百分之十七点三11,31841,592928[42]第四十二话64.770.1百分之三十七点三20.0%8,09145,210 1,144MOTR [49]67.065.7百分之三十七点二百分之二十点九16,51245,340648QDTrack [28]67.169.841.6% 百分之十九点八9,861,44,050 1,097GMTCT [17]70.666.2百分之二十九点六百分之三十点四6,35554,560701MTrack74.372.9百分之五十点六百分之十五点七19,23629,554642MOT17私有检测丹麦[34]49.552.4百分之二十一点四百分之三十点七25,423 234，592 8，431Tracktor+CTdet [4] 57.256.1百分之二十五点七百分之二十九点八44,109 210，774 2，574[29]第二十九话57.466.6百分之三十二点二百分之二十四点二22,284 160 491 5529TubeTK [27]58.663.031.2% 百分之十九点九27,060 177 483 5727[44]第四十四话62.170.038.9% 百分之二十点四28,119 136,722 4647MAT [16]63.169.5百分之四十三点八百分之十八点九30,660 138,741 2844[42]第四十二话63.969.1百分之三十七20.0% 20,892 150,060 35558840点三中央轨道[52]64.767.8百分之三十四点六百分之二十四点六18,489 160 332 3039MOTR [49]66.465.133.0% 25.2% 45,486 十四万九千三百零七二千零四十九GMTCT [17]68.765.0百分之二十九点四31.6% 18,213 十七万七千零五十八二千二百QDTrack [28]68.766.340.6% 百分之二十一点九26,589, 146 643 3378MTrack73.572.116.8% 53,361 101 844 2028MOT20专用检测MLT [50]54.648.9百分之三十点九 22.1% 45,660216,8032187[44]第四十四话50.461.9百分之四十九点四 15.5% 45,895四十四万六千三百四十七四千六百五十三[51]第五十一话67.361.868.8%百分之七点六 103,440 八万八千九百零一五千二百四十三MTrack69.263.568.8% 百分之七点五96,123八六九六四六千零三十一表1.在私有检测协议下，在MOT15、MOT16、MOT17和MOT20基准点的测试分割上最好的结果用粗体标记，我们的方法用粉红色突出显示。标记，即，MOT15、MOT16、MOT17和MOT20。结果见表1。1.一、值得注意的是，一些方法利用大量具有身份标签的额外数据来提高它们生成区分身份嵌入的能力。为了公平比较，我们不使用其他任务（如人员搜索或ReID）的额外训练数据来提高跟踪性能。根据Tab. 1.在IDF1、MOTA等指标上，我们的方法明显优于所有的比较对手。此外，所提出的策略对推理速度没有显著影响， MTrack 在RTX2080Ti上的推理速度为23 FPS。第15章：根据Tab 1，MTrack获得62的度量IDF1。1%，MOTA为58。9%，这显著优于所有比较的方法，而不使用前，8841−−−- -−tra训练数据。尽管MOT15包含许多错误的注释，MTrack仍然实现了出色的性能。MOT16和MOT17：选项卡. 1显示了我们对MOT16和MOT17的主要结果。由于MOT16和MOT17包含更多的数据，并且与MOT15相比，注释更精确，因此MTrack的性能比所比较的方法高出更大的幅度。例如，MTrack比同样基于CenterNet构建的跟踪器CenterTrack高8. 8%（73. 64.honor 7%）的IDF1和4。3%（72. 第六十七章. 8%）在MOT17基准测试中，与QD相比，Track是一种同样将对比学习应用于MOT的方法，MTrack比它高出4。8%（73. 百分之五68. 7%）的IDF1和5。8%（72. 第六十六章. 3%）。结果表明，从视频中的整个轨迹学习比从相邻帧学习更有可能使模型能够学习区分性表示。此外，可以观察到，MTrack也具有良好的FN和IDS度量，这意味着生成的轨迹是非常连续的。MOT20：为了进一步证明我们的方法的有效性，我们在具有挑战性的MOT20基准上评估MTrack。如Tab.所示 1时，MTrack获得69的度量IDF 1。2%，MOTA为63。百分之五它与不使用额外列车的同行表现得最好-ing数据。值得注意的是，MTrack的性能优于FairMOT，后者在许多外部训练数据集上进行了预训练MTrack超过FairMOT 1. 9%（69. 百分之二六十七。3%）的IDF1和1。7%（63. 百分之五61岁8%）。的结果进一步证实了Mtrack的优越性，特别是在非常拥挤的情况下。4.4. 消融研究在本小节中，我们通过消融研究分别验证了所提出策略的有效性所有的实验都是在MOT17数据集上进行的。由于MOT Challenge不提供验证集，因此我们将MOT17数据集分为两部分，3作为训练集产品介绍方法LVS 项目 TMB 损失 SGFFIDF1Mota1个碱基✗✗✗CE✗78.471.62✓✗✗CE✗79.172.33✓✓✗CE✗79.972.44✓✓✓TCL✗81.073.25MTrack✓✓✓TCL✓81.573.8表2. MTrack中组件的消融研究。合并所有组件后的MTrack以粉红色突出显示（LVS：learnbale view sampling，TMB：轨迹-中央存储库，投影：投影，CE：交叉熵，TCL：可控电平对比损耗，SGFF：相似性引导的特征融合）。对主要反映关联准确性的指标IDF1的结果有显著的改善。这一观察结果与之前关于对比学习的研究得出的结论一致[18]。此外，可以注意到，SGFF（第5行）也显著提高了结果（IDF1为0.5%，MOTA为0.6%），尽管它不需要对培训过程进行任何修改。(a) 中心点（b）中心区域（c）LVS（我们的）图5.三种积极抽样策略的说明。(LVS：可学习的视图采样）采样方法IDF1 Mota FP ↓FN↓ IDS↓中心点80.0 72.7 1835 5345213中心区79.872.91458 5675 211LVS 81.5 73.81524 539318341设置和其他4个作为验证集。每一款时计均在MOT17的训练集上训练30个时期。分析MTrack的组成部分。在这一部分中，我们通过消融研究验证了MTrack中各种组件的有效性。结果报告在表1中二、实验结果表明，各部件都有效地提高了跟踪性能。综合所有这些，MTrack（第5行）的性能比基准（第 2 行）高 3 倍。 IDF1 和 IDF2 占 1% 。 2% 的MOTA。在这些成分中，TMB（第4行）以最大幅度提高了结果。具体来说，它将IDF1提高了1.1%，MOTA提高了0.8%。该问题表明，考虑整个轨迹中的所有信息对于跟踪精度是有价值的。根据第3行，增加一个额外的投影头en-表3.不同抽样策略之间的比较。分析LVS。在这一部分中，我们对LVS进行了深入的分析。我们将其与另外两种关键点采样策略进行了比较，即基于中心点和中心区域的采样策略，如图所示。5（a）和（b）。与LVS相似，基于中心区域的采样策略提供了9个外观向量来构建对比学习损失。然而，9个关键点是预定义的，并且不根据输入图像的内容进行调整实验结果报告于表1中。3 .第三章。根据IDF1和MOTA这两个主要度量标准，基于中心点和基于中心区域的抽样策略得到的结果是相似的。这一现象意味着8842····直接将更多的外观向量合并到训练过程中不能提高模型的性能，并且自适应地选择关键点（图1）。（5）（c）重要。运算符Φ（）的分析。在这一部分中，我们分析了如何在Eq. 限制所选择的关键点落在估计的2D边界框内的公式（2）影响训练过程。对应于使用和不使用Φ（）训练的模型的嵌入压头损失L tcl的曲线在图中示出。六、我们可以观察到，Φ（）显著地减小了损失值，加速了收敛过程.该观察表明，仅在估计的2D边界框中对关键点进行采样是有价值的，因为它迫使生成的关键点反映目标外观信息，并且采用这些关键点来实现对比学习导致具有更好的特征提取能力的模型。图6.在MOT17基准测试中，使用和不使用空间约束算子Φ（·）轨迹中心更新策略分析。如在第二节介绍。3.2，选择目标最难出现的外观向量来更新其对应的轨迹中心。为了分析是否存在一个更好的策略，我们将它与其他三种策略，“随机”，“平均年龄”和“容易”进行了比较。结果报告在表1中。4.第一章如Tab.所示4、我们推测这是因为从相邻帧生成的相同目标的大多数外观向量是相似的，并且使用它们来更新轨迹中心并不能充分探索所有可用的信息相反，利用最难的外观向量来解决这个问题。4.5. 嵌入可视化在本小节中，我们基于t-SNE算法[36]可视化了具有和不具有 MTCL 的模型产生带有 MTCL 的模型与MTrack相同，没有MTCL的模型采用交叉熵损失来训练CenterNet的嵌入头，如[51]。可视化结果见图。7 .第一次会议。更新策略 IDF1 Mota FP ↓FN↓ IDS↓随机80.3 73.1 1712 5382 190平均80.673.21669 5389208容易80.273.02058 5071189硬81.573.81524 5393183表4.不同轨迹中心更新策略的比较。随机：随机选择一个外观向量;平均值：取所有外观向量的平均值;简单：选择与轨迹中心余弦相似度最大的外观向量;困难：选择与轨迹中心余弦相似度最小的外观向量。(a) 无MTCL（b）有MTCL图7.使用t-SNE算法可视化MOT 17中某些目标的外观矢量。相同颜色的点具有相同的标识。如图7、MTCL模型生成的表征更具区分性。同一个恒等式对应的向量得到了很好的聚类，不同恒等式对应的向量得到了很好的区分。因此，MTCL对提高网络的特征提取能力是有效的。5. 结论在这项工作中，我们认为，所提取的表示的可辨别性是至关重要的MOT。然而，现有的工作只利用了相邻帧中的特征，而忽略了整个帧中的信息。为了弥补这一不足，本文提出了一种多视点轨迹对比学习策略，该策略以有限的计算资源为代价，充分利用了帧内特征和在推理阶段，提出了一种相似性引导的特征融合策略，以减轻遮挡和模糊所造成的不良特征我们已经在4个公共基准上验证了所提出的技术的有效性，即，MOT15、MOT16、MOT17和MOT20。实验结果表明，这些技术能显著提高跟踪性能我们希望本文的研究能够为MOT中区分性代表的产生提供一种新的解决方案8843引用[1] Maryam Babaee，Zimu Li，and Gerhard Rigoll.一个双cnn-rnn 用于多人跟踪。神经计算， 368 ： 69- 83 ，2019。6[2] 裴承焕和尹国珍基于置信度的数据关联和判别式深度外观学习，用于鲁棒的在线多目标跟踪。TPAMI，2018年。6[3] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年：统一的框架。Int J Comput Vis，56（3）：221-255，2004. 2[4] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在ICCV，2019年。一、二、六[5] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多个对象跟踪性能：明确的MOT指标。EURASIP J图像视频处理，2008：1-10，2008。6[6] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在ICIP，第3464-3468页中。IEEE，2016. 一、二[7] Erik Bochinski、Volker Eiselein和Thomas Sikora。不使用图像信息的高速检测跟踪。在AVSS，2017年。6[8] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。2[9] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习神经IPS，2020年。2[10] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，第1597PMLR，2020年。2[11] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。2[12] Patrick Dendorfer，Hamid Rezatofighi，Anton Milan，Javen Shi， Daniel Cremers ， Ian Reid ，Stefan Roth ，Konrad Schindle r和LauraLeal-T ai xe'。Mot20：拥挤场景中多目标跟踪的基准测试 arXiv 预印本 arXiv ：2003.09003，2020。二、六[13] Kuan Fang ， Yu Xiang ， Xiaocheng Li ， and SilvioSavarese.用于在线多目标跟踪的递归自回归网络。在WACV，2018。6[14] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在ICCV，第3038-3046页，2017年。2[15] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。 IEEE Trans. 模式分析马赫内特尔，32（9）：1627-1645，2009. 6[16] Shoudong Han，Piao Huang，Hongwei Wang，En Yu，Donghaisheng Liu，Xiaofeng Pan，and Jun Zhao. Mat：运动感知多对象跟踪。arXiv预印本arXiv：2009.04794，2020。1、68844[17] Jiawei He ， Zehao Huang ， Naiyan Wang ， andZhaoxiang Zhang.可学习的图匹配：利用深度特征学习实现多目标跟踪的图形划分。在CVPR中，第5299-5309页，2021年。二、六[18] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，and Ross Girshick.用于无监督视觉表示学习的动量对比。在CVPR中，第9729-9738页，2020年。二四七[19] 胡钱江、小王、胡伟、祁国军。Adco：

下载后可阅读完整内容，剩余1页未读，立即下载