稀疏图跟踪器用于在线多目标跟踪中的检测恢复

123 浏览量更新于2023-10-16 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4850111稀疏图跟踪器在线多目标跟踪中的检测恢复1*明谷康2Dongyoon Wee2 Dit-Yan Yeung11香港科技大学2Clova AI，NAVER Corp.摘要在现有的联合检测和跟踪方法中，成对关系特征用于将先前的小轨迹与当前检测相匹配。然而，这些特征可能不足以区分跟踪器从大量检测中识别目标。仅选择高得分的检测用于跟踪可能导致丢失置信度得分低的检测。因此，在在线设置中，这导致无法恢复的轨迹片段的断开在这方面，我们提出了稀疏图跟踪器（SGT），一种新的在线图跟踪器，使用高阶关系特征，通过聚合相邻检测及其关系的特征，更具有区分性。SGT将视频数据转换成一个图形，其中检测，它们的连接，以及两个连接节点的相对特征分别由节点，边缘和边缘特征表示。强边缘特征允许SGT跟踪具有由具有大K的前K得分检测选择的跟踪能力的目标。因此，即使是低得分的检测也可以被跟踪，并且错过的检测也可以被恢复。通过大量的实验证明了K值的鲁棒性。在MOT 16/17/20和Hieve挑战赛中，SGT以实时推理速度超越了最先进的跟踪器。特别是MOTA在MOT20和Hieve挑战赛中表现出了很大的进步。代码可在https://github.com/HYUNJS/SGT上获得。1. 介绍在在线设置中，错过检测问题比离线设置中严重得多;一旦错过相应的检测，tracklet就会断开连接，而tracklet插值无法填充过去的错过检测。如图1所示，遮挡导致低置信度检测，并且如果它们被包括在关联步骤中，则跟踪的复杂性随着太多的虚假检测而增加。成对关系特征（例如，位置或视觉相似性）在这种情况下可能不足以区分目标*部分工作是在Clova AI实习期间完成的。图1. 通过跟踪进行检测恢复的动机。跟踪如果高分检测（？））被选为跟踪候选者。与此同时，增加低得分的检测（？，？，？）到候选人池的结果与错误匹配？在（a）中，因为成对关系对于用于区分它们是不明确的。相比之下，我们的SGT（b）利用通过GNN更新的多跳关系来包含相邻检测的视觉特征及其关系。尽管前K个候选跟踪器选择了多个候选跟踪器，但SGT成功地跟踪了1，从而恢复了其漏检测.错误的匹配。因此，现有的作品[45，50，19，35]，使用成对关系进行跟踪，仅利用高分检测作为跟踪候选。图是表示视频中对象之间关系的有效方法，图神经网络（GNN）在建模这种关系方面是有效的。考虑到这一点，我们使用GNN对视频数据中的时空关系进行建模，以提取高阶关系特征（即，多跳关系特征），其考虑相邻对象或背景片之间的关系。这些特征是强大的，并且即使大量的检测（例如，300)被选为跟踪候选者。因此，我们提出了稀疏图跟踪器（SGT），这是一种新型的在线图跟踪器，采用联合检测和跟踪（JDT）框架[35]，其中对象检测器和跟踪器共享骨干网络以实现快速推理速度。在关联步骤中，现有的在线JDT方法uti-4851两个检测之间的成对关系特征，例如外观特征的相似性[23，35，45，34]，中心点距离[48]和联合交叉（IoU）得分[32]。虽然[37，35，45，34]通过加权和融合了外观信息和运动信息运动预测器（例如，卡尔曼滤波器[3]）通常用于改善跟踪性能。相反，我们通过GNN的迭代聚合相邻节点和边缘的特征来即使在没有运动预测器的情况下，高阶关系特征仍然能够正确地将先前轨迹片段与当前帧的（1 t 2）前K得分检测匹配，该本工作的主要贡献如下：1. 我们提出了一种新的在线基于图的跟踪器，该跟踪器与对象检测器联合训练，并且在没有任何运动模型的情况下进行长期关联。我们的SGT在MOT 16/17/20和Hieve基准测试中表现出卓越的性能，具有实时推理速度。2. 我们提出了训练和推理技术SGT有效地实现检测恢复跟踪。它们的有效性通过广泛的烧蚀实验和MOT20的大幅改进得到了证明，其中严重的拥挤导致对被遮挡物体的低置信度检测。2. 相关作品2.1. JDT方法近年来，由于JDT方法具有快速的推理速度和基于共享骨干网的单阶段训练等优点，被提出了许多新的JDT方法他们将物体探测器扩展到MOT模式，ELS具有与检测器联合训练的额外跟踪分支。它们分为两类：（1）重新识别（reID）分支输出用于跟踪的区别性出现特征，以及（2）运动预测分支输出用于跟踪的轨迹片段的更新位置。JDT通过ReID。RetinaTrack [23]，JDE [35]，FairMOT[45]分别将reID分支添加到RetinaNet [20]，YOLOv3[28]和CenterNet [49]。Liang等人[19]指出检测和ReID的目标是冲突的，并提出了一个互相关网络，学习任务特定的功能。另一方面，GSDT [34]和CorrTracker[33]通过利用先前帧的时空关系建模来增强当前特征。CorrTracker [33]是目前最先进的模型，它将空间和时间维度的相关性融合到多个金字塔级别的图像特征中。所有这些方法都使用reID特征的相似性。此外，通常采用卡尔曼滤波器[3]，并将运动信息融合到相似性中。通过运动预测的JDT。DT [11]和Center-Track [48]分别将可学习的运动预测器附加到R-FCN [6]和CenterNet[49]中。CenterTrack使用检测的中心点距离和通过预测运动更新的 tracklet 将 tracklet 和检测关联起来。TraDeS [38]基于通过帧的reID特征的相似性计算的成本体积来预测两个连续帧之间的对象的中心偏移TransTrack [32]是一个基于transformer的跟踪器，它将前一帧对比我们的SGT用图形跟踪器扩展了CenterNet[49]。与使用成对关系特征的其它方法（例如，IoU、余弦相似性或它们的融合），SGT利用通过GNN更新的边缘特征（高阶关系特征），并将关联解决为边缘分类，如图1所示。2.2. 基于图的多目标跟踪图是表示关系信息的有效方式，GNN可以通过将节点或边特征传播到连接的节点或边并聚合相邻特征的消息传递过程来学习高阶关系信息。STRN [40]是一种具有时空关系网络的在线MOT方法，该网络由空间关系模块和时间关系模块组成。融合这两个模块的特征来预测关联的亲和度得分。MPNTrack [5]采用具有时间感知节点更新模块的消息传递网络[12]，该模块分别聚合过去和未来LPCMOT [7]基于一组帧和图卷积网络（GCN）[14]的检测生成并评分tracklet建议GSDT[34]是第一个在在线JDT方法中应用GNN的工作，但其对GNN的使用仅限于增强当前特征图，并且仍然使用成对关系特征进行跟踪。相反，SGT是第一个使用高阶关系特征进行跟踪的JDT方法。2.3. 在线检测恢复在TBD框架中，基于特定阈值来确定要跟踪的检测在线MOT方法中通常使用两个检测阈值[35，45，19]：τ init和τ D，分别用于将不匹配的检测初始化为新的tracklet并选择跟踪候选。由于τD值较高（例如，0.4），一些低得分的真实检测不包括在跟踪能力中。在ByteTrack [44]中，部署了一个额外的关联阶段，使不匹配的tracklet与低4852不t1t2t2t2t1t1∈∈∈∈∈图2. SGT的推理流水线中的检测恢复的概述。（S1）提取前K个得分检测及其特征从It1到It2。红色框表示含有ID的阳性检测（S2）构造稀疏图，其中节点n i∈ NTJ（i ∈ [1，K]）是帧T ={t1，t2}的检测，边（ei，j）是ni和n之间的连接。绿色的节点是tracklet直到t1才被遗漏，它们被附加到Nt1上。红色节点指示具有其分配的ID的阳性检测两个节点在Nt2处是红色的，因为它们的检测分数高于τinit，所以可以向它们分配新的ID。（S3）GNN通过聚合相邻特征来更新节点和边的特征以变得更高阶。（S4）红线的边缘分数（正边缘）高于边缘阈值（τE），而绿线表示负边缘。黄色节点（n3）是检测恢复的示例由于其低分数，其先前是阴性检测，但其在正边缘的帮助下变为阳性检测。（S5）通过节点得分来验证S4中恢复的检测（n> 3）。如果节点得分低于节点阈值（τN），则其被认为是假阳性并且被过滤掉。否则，该节点被恢复并且因此可以被成功地检测到，这由黄色节点变为红色所示使用IoU评分对检测进行然而，新的检测阈值τD 低（例如，0.2），被引入用于选择低得分检测作为候选，这是决定FP和FN之间的权衡的临界值。OMC[18]在关联步骤之前引入了一个额外的阶段，以补充由于置信度低而可能无法检测到的遗漏检测3. 稀疏图跟踪器3.1. 整体架构图2显示了SGT的架构。虽然各种图像骨干和对象检测器可以灵活地用于SGT，但我们的主要实验是基于中心网[49]，其具有与我们的基线FairMOT[45]相同的DLA-34骨干[42]的变体。在[45]之后，我们修改CenterNet，使框大小预测器从对象的中心点而不是宽度和高度输出左，右，顶部和底部大小（sl，sr，st，sb）CenterNet是一个基于点的检测器，可以在特征图的每个像素处预测对象分数头尺寸头的输出表示为B尺寸RHh×Hw×4。偏置头使用B off RHh×Hw×2来调整对象的中心坐标。在帧T处，CenterNet输出检测D T=（S T，B T），其中S T是检测分数（B分数），B TRHh×Hw×4是左上和右下坐标。稀疏图生成器从每个帧（It1和It2），并将它们设置为图（Nt1和Nt2）的节点。在推理阶段，前一个时间步我们稀疏连接NT1和NT2，只有当他们是在欧几里德或特征空间接近具体地，n iN t1连接到N t2，具有三个标准：1）它们的中心坐标之间的小距离; 2）它们的特征之间的高余弦相似性; 3）高IoU分数。对于每一个标准，给定的N t2的数目（例如，10）被选择连接到ni而没有重复。该连接是双向的，使得Nt1和Nt2都更新其特征。检测的视觉特征和关系特征分别用作节点（V）和边（E）的特征。为了包括用于跟踪的低得分检测，低阈值可以是前K的替代方案。虽然它也可以实现良好的性能，如果它是足够小的补充材料中所示，这样的检测阈值是敏感的检测器因此，需要对不同的探测器和数据集进行仔细的校准与此相反，top-K方法不受分数分布的影响，因此对这类干扰具有鲁由于K是模型可以跟踪的对象的最大数量，因此我们将K设置为充分大于数据集中的最大人数（例如，MOT 16/17为100; MOT 20中的300）。在表7中，我们通过实验显示了K值的稳健性。由于完全遮挡，某些轨迹片段在不可见时无法跟踪一段时间这些丢失的轨迹片段被存储一段时间，并被附加到Nt1。Al-4853t1t1→→t2i、j0t2→∈i、jt1i、jt2Hi、j我Ji、ji、ji、jWJt1HJSS尽管现有的MOT工作[4，35，45，33]应用运动预测器（例如，Kalman滤波器[3]）用于预测丢失轨迹的可能位置，SGT可以在没有运动预测器的情况下执行长期关联在这里，我们存储长度大于agemin的tracklet，以防止误报。图神经网络通过消息传递过程更新图中节点（V）和边（E）的特征，如图3所示，该过程将特征传播到相邻的节点和边，然后聚合它们。通过迭代该过程，V现在包含相邻节点和边缘的特征，并且E间接地聚集连接到同一节点的其他边缘的特征。虽然初始边缘特征表示两个检测的成对关系，但是过程的迭代允许更新的边缘特征表示也考虑相邻检测的高阶（多跳）关系。第3.2节提供了更多详细信息。边缘分类器是一个FC层，它从更新的边缘特征预测边缘得分（ES）。边缘得分是在t1和t2处的连接检测指的是同一对象的概率由于n i在t2处连接到许多节点，因此我们使用匈牙利算法[15]基于边缘得分矩阵进行最佳匹配。结果，n i只有一个最优分配的边缘分数。然后，边缘阈值（τ E）用于决定正边缘或负边缘。图2所示的黄色框是恢复的检测，由于其低检测分数，n 3为负，但其连接节点n1和边（e1，3）为正。节点分类器是一个FC层，它通过从更新的节点特征预测节点得分（NS）来如果恢复的探测分数低于节点阈值（τN），我们决定不图3. GNN中消息传递的说明。初始边特征E0更新为包含两个连接节点V0和V0的特征的E1。然后，初始节点特征V0被更新为V1，其中包含连接节点的特征V0和更新的边特征E1。为了简单起见，我们省略双向连接，只显示几条边。坐标，h和w是边界框的高度和宽度，Sim是余弦相似性，fenc是指两个FC块。由于初始化的边特征是方向感知的，因此连接相同节点但不相交的两条边将具有考虑到不同关系的不同特征（例如，t1t2和t2t1）。在具有这些不同边缘特征的两个不同MLP上更新Vt1和Vt2在GNN中更新之后，这些双向边缘特征被平均以预测单个边缘分数。初始图如图3左侧所示，用G0={V0，E0}表示，其中E0={e0|1≤i，j≤2K+|V miss|}是初始边缘特征的集合，V 0t1V 0t2V 0小姐恢复它，因此节点保持为负。否则，我们就-丢失检测的稳固恢复，并且节点变为正，如图2中的n3和缺失的轨迹。更新节点和边特征。图3描述了在GNN中消息传递过程中更新节点和边特征的两个步骤。初始边缘特征3.2. 图的构造和更新0i、j图中左侧显示的是成对关系。本节介绍SGT中节点和边缘特征的设计。请注意，FC块是指FC层、层规范化[1]和ReLU函数的堆栈初始节点特征。与基于图形的MOT使用检测到的对象的reID特征工作相反[5，40，36]，SGT利用图像主干仅考虑两个连接节点的功能，t1和t2（方向ij）。在图3的步骤1中，边缘特征被更新为Eq. 二、el=fe.vl−1，vl−1，e0，el−1，（2）它们被共享用于检测并被联合训练。其中fe是指两个FC块，l是迭代的数量初始边缘特征。边缘特征表示为el，（l−1在那里我和i、jj是起始和结束节点索引l[1，Niter]），vi是节点i的特征，并且vi指示上一次迭代的节点特征。在那里-L表示迭代。受MPN- Track [5]的启发，SGT将高维边缘特征表示为Eq. 1.一、因此，两个连接的节点的当前状态、初始和当前边缘特征被连接并传递到FE以将边缘特征更新为EL。初始边缘特征（e0）是e0级=fenc.xi− xj，yi− yj，lo g（wi），lo g（hi），Io U i，j，Simi，j，（一）连接每次迭代以防止过度平滑在GNN中的问题[25]。虽然我们使用共享的MLP（fe）其中[·]是连接运算符，x和y是中心对于两个不同方向的边，e是在t1，t2，4854LLIj我LLLt2t24 4|El2σ2|Σ−Jvoutvenc我i、jL边缘=i、ji、j我J可能不相同，因为它们的边缘特征是以方向感知的方式编码的。在图3的步骤2中，节点j将连接的节点和边的特征聚合为Eq. 3.第三章。在SGT中，边分类器和节点分类器分别输出边和节点分数（ES和NS）。边缘和节点是在这些分数上计算的，具有焦点损失[20]。由于很难将GT标签分配给连接.如果不考虑背景补丁，我们将它们排除在L边缘中，如Eq. 7.第一次会议。vl=f1名妇女f.vl−1，el、（3）1Σ.FL（ES，哎）的情况下，如果纽约=1或ny= 1;：，jiNE+ei，j∈E否则，（七）其中fv出来是FC块，|E l| is the number of edges其中，NE+是至少一个连接到节点j，ENC表示两个FC数据块，el的端点是正的，E是G中的一组边，FL是是步骤1中更新的边缘特征（等式1）。2)而v l−1是在t1→t2方向上的焦点损失，边缘，eyi、j是GT起始节点的特征我们假设Nt2的指数是从1到K，Nt1是从K+1到2K+|V miss|.当i > j 时， eij 是方向为t1→t2的边缘特征.连接节点ni和nj的边的标签，并且nyi是ni的GT标签。我们只计算节点在t2的节点分数，如等式。8.因此，消息传递是从t1到t2和Vt2更新了L=1佛罗里达州（NS，NY），（8）由于我们的边缘特征是方向感知的，因此我们使用不同的fvenc用于消息传递t1→t2和t2→t1。节点N+jjNt2nj∈Nt23.3. 训练和推理技巧SGT由检测损失（D）和关联损失（A）之和训练。检测丢失。由于我们采用CenterNet [49]作为检测器，我们遵循[49]计算检测损失，这是三个头部损失的加权和，如公式10所示。4.第一章LD=Lscoree+wsizeLsize+woffLoff⑷尺寸头输出由（sl，sr，st，sb）组成的B尺寸。偏置头输出Boff，B off是由fea的步幅引起的中心坐标真实地图（例如，4）. F或每个地面实况（GT）对象（xi，yi，xi，yi），GT尺寸bi=（si，si，si，si）计算其中N N+是t 2时GT正节点的数量。当N E+= 0或N N += 0时，我们输出零。节点和边标签分配是计算关联损失的重要步骤。虽然现有的基于GNN的跟踪器[5]使用GT对象训练其匹配网络，但我们引入了一种使用伪标签的新型训练技术，可以使用检测器和共享骨干网络在一个步骤中有效地训练边缘和节点分类器基于其IoU得分矩阵和匈牙利算法[15]，前K个检测与GT对象进行最佳匹配为了防止GT ID的错误分配，如果分配的ID的匹配的IoU低于阈值（例如，0.5）。对于Nt1和Nt2重复该步骤分配（nyi和nyj）。最后，GT边缘标签（eyi，j）lt r b大小LRtb我我通过匹配节点的ID来分配给边。一个通过中心坐标之间的差（cx，cy）=如果两个连接的节点具有xi+xiyi+yii ii（1R， tb）和b）。每个GT尺寸100b分配给2 2尺寸相同的GT ID，否则为0。预测xy得双曲余切值.我也是。自适应特征平滑（AdapFS）是一种新的推理方法b∈B大小（x，y）=（x，y）每个GT偏移大小吉吉吉吉吉吉4 4吉吉技术的建议检测恢复框架。（ox，oy）=（x -x，y --继JDE [35]之后，最近的在线TBD模型更新ap-与预测bxy4有符号4 4 4L计算关闭. 然后，1损失用于指数运动av中的轨迹线的概率特征，热图L大小和L关闭。为了训练记分员，GT计算方式为emb trk= α × emb trk+（1 − α）× embdet。Mxy∈RHh×Hw×1由高斯t2t1t2Kernel作为Eq.五、N吉吉吉吉tracklet的功能通过添加以下功能具有固定权重α的新检测。然而，低得分的恢复对象具有不可靠的外观fea-Mxy=Dexp（（x− <$x <$）2）+（y− <$y <$）2）），（5）i=1d*j4855其中，ND是GT对象的数量，计算σd每一个物体的宽度和高度[16]。 L分数是com-因为它们可能遭受遮挡或模糊。因此我们合并由匹配的轨迹片段和检测的对象分数（ST）计算的自适应权重，如等式9.embtrk=embtrk×ST1 +embdet×St2（9）作为像素逻辑回归，t2t1ST1+ST2t2St1+St2减少损失[20]。关联损失。我们的关联损失是边缘和节点分类损失的加权和，如等式（1）所示。六、LA=w边L边+w节点L节点（6）4. 实验4.1. 数据集和实施详细信息数据集。我们使用MOT 16/17/20和HiEve Challenge数据集训练和评估所提出的方法[24，8，22]4856其目标是行人跟踪。MOT20和HiEve是由拥挤的场景组成的复杂数据集。在每帧上，MOT20平均有170人，而MOT17平均有30人。由于MOT数据集的大小较小，JDE [35]引入了行人检测和reID数据集[10，43，9，39，47]进行训练。FairMOT [45]进一步利用了额外的行人检测数据集CrowdHuman[30]。我们只使用CrowdHuman作为额外的训练数据集，以实现有竞争力的性能。由于CrowdHuman没有ID标签，也不是视频数据集，我们为每个对象分配一个唯一的ID，并随机扭曲图像以生成一对连续帧（I t1- I t 2）。实作详细数据。我们使用CenterNet [49]在COCO对象检测数据集[21]上预训练来初始化SGT为了与[45，33，41，34]进行公平比较，我们使用1088×608的图像大小和特征图大小表1.我们和最近在线JDT模型在MOT 16/17/20基准上的评估结果（私人检测）。OMC- F [18]将其方法应用于FairMOT[45]。对于每个指标，最好的用粗体表示，第二好的用下划线表示。未提供的数值用“-"号填写。†表示没有额外的训练数据集。方法MOTA ↑IDF1 ↑MT ↑ML ↓FP ↓FN↓IDS↓MOT16 [24]QDTrack [26]69.867.141.619.89861440501097[第38话]70.164.737.320.08091452101144CSTrack [19]†71.368.6----1356SGT（Ours）†74.171.043.615.89784359461528GSDT [34]74.568.141.217.38913364281229FairMOT [45]74.972.844.715.9--1074CSTrack [19]75.673.342.816.59646337771121[41]第四十一话75.675.843.121.5978634214448OMC [18]76.474.146.113.31082131044-CorrTracker [33]76.674.347.813.31086030756979SGT（我们的）76.873.549.310.510695303941276MOT17 [24]（Hw×Hh）为272 ×152。两个连续的帧被运行-在[1，30]的区间内进行domly采样。在[45]之后，随机翻转，扭曲和颜色抖动被选为数据增强。同样的扩增应用于一对的图像。我们使用Adam优化器[13]，批量大小为12，初始学习率（lr）为2e-4，下降到2e-5。有60个训练周期，lr下降到50。对于训练，我们使用1用于woff，0.1用于wsizee ，wed ge，10用于w node。对于推断，我们使用0.5、0.4和0.4作为τinit、τE和τN分别表示这些值是根据经验选择的MOT20 [8]4.2. MOT挑战评价结果我们将结果提交给MOT 16/17/20 Challenge测试服务器，并将其与最近的在线MOT模型进行比较，如表1所示。注意，使用轨迹段插值作为后处理的方法（例如，ByteTrack [44]），以满足在线设置。可视化结果见补充材料。评估指标。我们使用2D MOT的标准评估方法[2]：多目标跟踪精度（MOTA），ID F1分数（IDF1），假阴性（FN），假阳性（FP）和身份转换（IDS）[17]。MOTA由FP、FN和IDS计算，因此侧重于检测性能，而IDF1 [29]是一个侧重于跟踪性能的指标。此外，大部分被跟踪目标（MT）和大部分丢失目标（ML）分别表示在其各自寿命的至少80%和至多20%内被轨道假设覆盖MOT 16/17的评价结果。在没有额外训练数据集的情况下，SGT的MOTA比CSTrack [19]和FairMOT [45]高约3%，并且与使用额外训练数据集训练的FairMOT相当。使用CrowdHuman作为额外的训练数据集，SGT基于FP和FN之间的最佳权衡在MOT 16/17上实现了最高的 MOTA 。最高 MT 表明 SGT 生成稳定且持久的tracklet，FairMOT [45]61.867.368.87.6103440889015243[32]第三十二话64.559.249.113.6285661513773565SGT（Ours）†64.562.762.710.2673521112014909CorrTracker [33]65.269.166.48.979429958555183CSTrack [19]66.668.650.415.5254041443583196GSDT [34]67.167.553.113.2319131354093131[41]第四十一话67.270.562.28.9611341045974243SOTMOT [46]68.671.464.99,7570641011544209OMC [18]70.767.856.613.322689125039-SGT（我们的）72.870.664.312.7251611129632474这归功于所提出的检测恢复机制。与基于相同检测器的模型[48，26，38，34，45，41，33，46，33]相比，SGT优于所有模型，CorrTracker [33]除外，其显示MOT 17上的MOTA略高0.1%当我们将SGT与SGT在MOT20上实现了出色的跟踪性能，而在MOT17上显示了高IDS这是由非人类的遮挡物（例如，经常出现在MOT17中。由于行人是用于训练检测器的唯一目标类，因此其他非人类对象不包括在前K个检测中，并且也不包括在关系建模这导致MOT17的跟踪性能较差MOT20的评价结果。在MOT20中，场景CTracker [27]†66.657.432.224.2222841604915529[第48话]67.864.734.624.6184891603323039QDTrack [26]68.766.340.621.9265981466433378[第38话]69.163.936.421.5208921500603555FairMOT [45] †69.869.9----3996SOTMOT [46]71.071.942.715.3395371189835184GSDT [34]73.266.541.717.5263971206663891SGT（Ours）†73.270.242.017.7253321211554809FairMOT [45]73.772.343.217.3275071174773303[41]第四十一话73.874.741.723.2279991186231374[32]第三十二话74.563.946.811.3283231121373663OMC-F [18]74.773.844.315.430162108556-CSTrack [19]74.972.341.517.5238471143033567OMC [18]76.373.844.713.628894101022-SGT（我们的）76.472.848.011.7259741028854101CorrTracker [33]76.573.647.612.7298089951033694857MOT 16/17以严重拥挤和部分闭塞为主。当采用相同的检测阈值（τD）时，现有方法遭受由较不置信的检测输出引起的漏检测。[45 33，41]对MOT20使用较低的检测阈值，但这导致高FP、IDS和低IDF1，因为它们的成对关系特征对于与大量跟踪候选者正确匹配来说不够强另一方面，我们的高阶关系特性使SGT能够有效地解决这个问题，并在MOTA中实现最先进的技术，如表1所示。SGT在MOTA方面超过Cor- rTracker[33] 7.6%，而在MOT 17中显示MOTA高于SGT。SGT在FN和FP之间实现了更好的权衡，并且比OMC [18]更高的MOTA和IDF1，OMC [18]的检测恢复方法应用于CSTrack [19]。虽然OMC利用过去帧作为时间线索来仔细选择低得分检测，但其匹配仍然受到成对关系特征的限制。相比之下，SGT使用由GNN更新的高阶关系特征来执行匹配，并且因此，SGT优于OMC，尽管通过前K采样简单地选择了低得分检测表8进一步证明了高阶关系特性的重要性。推理速度。我们使用单个 V100 GPU 以每秒帧数（FPS）衡量推理速度。SGT在MOT 16/17/20上分别以23.0/23.0/19.9 FPS运行。为了公平比较，我们选择了报告在同一GPU上测量的FPS的方法。CorrTracker [33]和TransTrack [32]在MOT17上分别以14.8和10.0 FPS运行，而CorrTracker在MOT20上以8.5 FPS运行。SGT在MOT 17/20上的运行速度比它们快得多，因为SGT通过检测的前K采样在对象级稀疏地执行关系建模，而它们在像素级密集地建模特征的关系4.3. Hieve挑战评估表2比较了我们和在线JDT模型在Hieve Challenge上的表现。在没有额外训练数据集的情况下，SGT实现了47.2 MOTA和53.7 IDF1。在没有额外数据集的条件下，与FairMOT [45]和CenterTrack [48]相比，SGT在MOTA和IDF1方面SGT甚至可以实现与CSTrack [19]相当的 MOTA和更高的 IDF1 ， CSTrack [19]使用遵循MOT基准的额外训练数据集。4.4. 消融实验消融实验是通过在MOT17训练数据集的前半部分上训练模型并在其余部分上对其进行评估来进行的。在补充材料中可以找到更多关于探测回收和烧蚀实验的分析。探测恢复。我们对我们的体系结构进行分析，并与另一种检测恢复进行表2.我们和最近的在线JDT模型在Hieve基准测试（私人检测）上的评估结果。对于每个指标，最好的用粗体表示，第二好的用下划线表示。†表示没有额外的训练数据集。DeepSORT [37]JDE [35]†27.1 28.533.1 36.08.4 41.4589415.124.16318426683122435773747FairMOT [45]†35.0 46.716.3 44.2652337750995[48]第四十八话40.9 45.110.8 32.23208364141568NewTracker [31]46.4 43.226.330.84667304892133SGT（Ours）†47.253.724.0 28.84699307271361CSTrack [19]48.651.420.4 33.52366319331475图4.没有卡尔曼滤波器的SGT中的长期关联的图示[3]。每种颜色表示唯一的ID。表3.检测恢复（DR）方法的消融研究。DR–GNN NC表示使用节点分类器过滤出恢复的检测的节点分类器。BG表示I t 1的前K个得分检测被用作Nt1。模型DR–GNNNCBGMOTA↑IDF1↑MT↑FP↓FN↓IDS↓✓70.773.349.9340011794619SGT（我们的）✓✓70.873.345.4195213074750✓✓✓71.373.846.6219012742588FairMOT [45]69.672.544.0268113341414BYTE [44]69.773.347.5363812347400表4.训练技术的消融研究 J和P分别表示联合训练和伪标记。PJMOTA↑ IDF1↑MT↑ FP↓ FN↓ IDS↓38.555.854.321678101361418✓69.7 47.2 347812360847中国71.373.846.6219012742588方法，BYTE [44]，结果如表3所示。利用前一帧的前K个检测的时空关系建模有利于SGT提取有区别的边缘特征。否则，跟踪性能随着高IDS而在SGT中，低评分检测也用于跟踪，并且可以恢复，但可能发生FP恢复节点分类器使用更新的节点特征验证恢复情况并减少FP。当我们将DR-GNN与应用于FairMOT [45]的BYTE[44]相结合时，DR-GNN在FP和FN之间实现了更好的权衡，因此MOTA更高。这证明了GNN中更新的边缘特征的有效性。培训战略。根据表4，基于前K检测的伪标记是SGT的重要训练技术。对象-对象和对象-背景对都包括在边缘标签中，通过使用top- K de-方法MOTA ↑IDF1 ↑MT ↑ ML ↓FP ↓FN↓IDS↓4858特征的组合 MOTA ↑ IDF1 ↑FP ↓FN↓IDS↓x，y，w，h，IoU，Sim219012742 588x，y，w，h，IoU 69.9 71.51953 13508 821x，y，w，h2113 13205 704x，y 69.6 70.3169113899 837IoU，Sim2066 13272 640表5.自适应特征平滑（AdapFS）。表9.选取不同关系特征对初始边缘特征的影响。表6. SGT长期相关性的消融研究。最大年龄的单位是秒，而最小年龄的单位是帧。最大年龄最小年龄MOTA ↑IDF1 ↑ MT ↑FP ↓FN↓IDS↓表7. K.记忆和训练所花费的时间，MOT性能和速度在不同的K值上测量。 K（训练）K（测试）MOTA ↑ IDF1 ↑ FPS ↑内存（GB）时间（小时）1005071.373.823.613.5 310010071.373.823.513.5 310030071.572.822.213.5 310050071.472.921.813.5 330030071.275.222.014.4 3.450050071.873.421.915.6 3.8表8. GNN迭代次数的影响。尼特MOTA ↑IDF1 ↑MT ↑FP ↓FN↓IDS↓0167.3 71.2 42.2253814547 57870.9 73.2 46.0257212571 604271.073.448.4257812516 583371.3 73.8 46.6219012742588标签作为伪标签。使用对象-背景对作为额外的负样本进行训练联合训练检测器和跟踪器可以获得更好的性能，而不是使用检测器预先训练的冻结骨干。AdapFS的有效性。在固定权重的情况下，IDF1略微降低，如表5所示。另一方面，IDF1的增加和跟踪性能的改善，我们提出的自适应特征平滑SGT的基础上。长期交往。如表6所示，将长期关联引入SGT显著增加了IDF1。我们使用10帧的最小年龄，以便只有阶段-存储了可跟踪片段，尽可能避免。当物体被完全遮挡时，如图4所示，SGT无法跟踪和重新覆盖它们。然而，SGT可以匹配他们没有一个运动模型时，他们重新出现。K值的稳健性。我们通过使用不同的K值进行训练来验证SGT中K的鲁棒性（例如，100，300，500）和利用看不见的K值的推断（例如，50，300，500）使用K=100训练的模型。如表7中所示，在整个系统中观察到一致的跟踪性能。不同的K值用于训练和看不见的K值。增加K对训练的记忆和时间消耗以及推理速度（FPS）的影响很小。GNN迭代次数。如表8所示，当GNN尚未用于更新边缘时，FN高和节点特征。此外，更多的GNN迭代改进了MOTA和IDF1。这种趋势证明高阶关系特征在学习时空一致性以执行检测恢复方面比成对关系特征（Niter=0）更有效。边缘特征设计。如Eq.本文在第一章中，利用中心坐标差、宽高比、IoU和余弦相似度等参数对边缘特征进行初始化。这里，位置和外观关系特征都包括在边缘特征中如表9所示，SGT通过利用所有这些来实现最佳效果。5. 结论和未来工作视频中的部分遮挡导致低置信度检测输出。现有的在线MOT模型遭受遗漏检测，因为它们仅使用高分检测进行跟踪。本文提出了一种新的在线图跟踪器SGT，它与检测器联合训练，通过跟踪前K个得分检测来重新覆盖遗漏的检测。我们还表明，伪标记是至关重要的训练SGT和自适应特征平滑是一个简单但有效的推理技术。SGT通过利用当前和过去帧中对象和背景块的高阶关系特征来捕获SGT在MOT 16/17/20上的MOTA方面优于最近的在线MOT模型，但特别是在MOT 20上的MOTA方面显示出很大的改进，由于严重拥挤导致的阻塞，MOT 20很容易错过检测我们有效的检测恢复方法有助于SGT的出色性能，如广泛的消融实验所示未来的工作将利用更长的时间线索和模型的时空关系的非人类对象（例如，车辆）。我们希望SGT

下载后可阅读完整内容，剩余1页未读，立即下载