没有合适的资源?快使用搜索试试~ 我知道了~
时空图Transformer模型用于多目标跟踪
1用于多目标跟踪的时空图Transformer彭楚1王江1游全增1凌海滨2刘子成11微软2石溪大学{鹏初,江旺,quanzeng.you,zliu}@ microsoft.com,hling@cs.stonybrook.edu摘要跟踪视频中的多个对象依赖于对对象的时空交互进行建模。在本文中,我们提出了TransMOT,它利用强大的图形转换器,有效地建模对象之间的空间和时间的相互作用。通过将跟踪目标和检测候选对象的轨迹排列成一组稀疏加权图,并基于这些图构建空间图Transformer编码层、时间图Transformer编码层和空间图Transformer解码层,TransMOT能够有效地对大量对象的交互进行通过端到端学习,TransMOT可以利用时空线索直接从大量松散过滤的检测预测中估计关联在MOT15、MOT16、MOT17和MOT20等多个基准数据集上对所提出的方法进行了评估,并在所有数据集上实现了最先进的性能。1. 介绍视频中多个对象的鲁棒跟踪至关重要,从基于视觉的监控到自动驾驶汽车,大多数最新的多对象跟踪(MOT)方法使用检测跟踪策略,其中由对象检测器在每个帧上提出的目标候选者相关联并连接以形成目标轨迹[3,17,23,36,40,54,57]。在这个框架中,检测和跟踪可以分开处理,通常作为两个独立的模块。这种设计允许MOT跟踪模块在采用最先进的单帧目标检测器的同时专注于解决关联问题。其结果通常导致更高的总体跟踪性能。在本文中,我们专注于在跟踪模块中建立鲁棒目标关联的模型,其中成功地对时间历史和外观进行建模。目标及其时空关系发挥着重要作用。传统的时空关系模型通常依赖于手动设计的关联规则,例如社会交互模型或空间排斥模型[31]。深度学习的最新进展激励我们使用深度学习来建模时空关系Transformer的成功提出了一种通过强大的自注意机制来建模序列依赖[33,47]中最近的探索表明了直接应用变压器用于MOT的可行性。然而,用一个通用的Transformer来建模所有目标的时空关系是无效的,这是因为以密集格式表示时间和空间信息的复杂性增加了,例如在特征张量中,对于大量的物体。它需要大量的计算资源和训练数据来成功地学习长期的时间依赖关系。另一方面,将检测与跟踪分离使得检测器不知道帧到帧的重叠,这成为复杂场景中的主要限制。为了解决这个问题,基于优化的跟踪器[10,49]提出考虑松散过滤的检测预测的关联但是,在这些作品中,只有成对的亲和力线索,如位置和外观被探索,没有更高阶的时间-空间信息,如运动或步态可以利用。它们的离线方法设计和基于阈值的图或假设构造也限制了它们的应用。在本文中,我们提出了一种新的时空图Transformer的 MOT ( transMOT ) , 以 解 决 所 有 的 问 题 。 在TransMOT中,对象被安排为一个时间序列的稀疏加权图,使用它们在每个帧内的空间关系构建该公式有效地处理了大量的和不同数量的跟踪目标和检测候选人在跟踪过程中。使用图形表示,transMOT编码的特征和 时 空 关 系 的 所 有 跟 踪 的 目 标 , 通 过 其 时 空 图Transformer编码器。解码器对检测的空间和外观相关性进行建模,48704871图1.用于在线MOT的拟议TransMOT概述。轨迹片段图形系列θt-1直到帧t-1和帧t处的检测候选图形Θt分别用作空间-时间图形Transformer的源和目标输入。通过一个专门设计的空间图形转换器解码器的候选通过端到端的训练,transMOT可以学习关联的时空线索,并直接生成MOT的分配矩阵。此外,依赖于区分性时空线索和对大量候选者建模的能力,Trans- MOT可以将来自大量松散过滤的检测预测的候选者相关联,其中大部分可以通过检测器的后处理而被丢弃。总之,我们做出以下贡献:• 我 们 提 出 了 一 个 时 空 图 Transformer(transMOT),以有效地模拟时空关系的对象的端到端学习的关联MOT。• 我们设计了一个基于TransMOT的跟踪器来模拟大量的松散过滤的预测,从任何单帧检测器在复杂场景中的鲁棒MOT。为 了 进 行 评 价 , 在 MOT15 [26] 、 MOT16 [34] 、MOT17和MOT20 [16]挑战数据集上进行了广泛的实验。结果表明,所提出的TransMOT实现了最佳的整体性能,并建立了一个新的国家的最先进的。2. 相关作品大多数最近的多目标跟踪(MOT)跟踪器是基于检测跟踪框架。通过检测跟踪框架通过使用匹配算法(诸如匈牙利算法[6,18,22])在所有帧中关联对象检测来生成轨迹片段网络流[15,62,63]和多假设跟踪[10,24]。许多作品通过构建所有帧中的对象检测图来解决关联问题,例如多切割[23,49]和提升边缘[50]。然而,这些方法需要在大型图上执行计算昂贵的全局优化,这限制了它们在在线跟踪中的应用。最近,基于深度学习的关联算法在MOT中越来越受欢迎[68]。[37]和[35]中,重复出现神经网络(RNN)被探索用于仅使用运动信息来解决关联问题。在[11]中,在秩-1张量近似框架[46]中引入幂迭代层来解决MOT中的多维分配。在[58]中,提出了可微MOT损失来学习深度匈牙利网以进行关联。在文献[8]中,采用图卷积神经网络作为MOT的神经求解器,其中构造连接不同帧中的每对节点的密集图建议的transMOT也构造了一个空间图的对象在同一帧内,但它利用Transformer网络架构,共同学习的空间和时间的关系的轨迹和候选人的有效关联。一些MOT解决方案考虑目标检测,或者在检测器侧聚合时间线索(例如,[30,67])或在跟踪器侧添加附加的对象检测或单个对象跟踪技术(例如,[4,12])。然而,这些方法需要特殊设计的检测器结构或基于视频的训练数据,这极大地影响了原有检测跟踪框架的灵活性和效率。相比之下,我们的方法直接利用来自通用图像对象检测器的输出,并且能够将其与诸如DETR的可学习检测器相结合,以形成完全的端到端跟踪器。Transformer在各种计算机视觉任务中取得了巨大成功,例如检测[9]和分割[28]。文献[61]采用Transformer进行弹道预测。[33,47]中的研究是将Transformer应用于MOT的先驱研究这两种方法都使用DETR进行检测和特征提取,并使用Transformer对轨迹和检测的时空关系进行建模。提出的transMOT框架利用空间图形Transformer来建模tracklet和检测的空间关系,并对空间和时间Transformer编码器进行因子分解以实现高效建模。跟踪目标图系列候选人图表时空Transformer时空Transformer编码器空间Transformer时间编码器层Transformer编码器层虚拟水槽虚拟源空间Transformer解码器层闭塞/进入处理空间Transformer解码器t-4 t-3 t-2 t-1不扩展分配矩阵嵌入嵌入4872t−1t−1JIJttj=1的t3. 概述我们的目标是联合检测和跟踪视频中的多个对象在在线方式。我们的方法,名为trans-MOT(时空图Transformer for MOT),是建立在跟踪检测框架,如图所示。1.一、在第t帧,TransMOT维护一组N个t-1轨迹,每个轨迹代表一个跟踪对象。每个tracklet维持着一系列的状态,比如它的过去位置和外观特征上的前一个T图像跳转给定新的图像帧It,在线跟踪算法消除其被跟踪对象退出场景的轨迹线,确定是否包括任何被跟踪对象,计算现有轨迹线的新位置,并为进入场景的新对象生成新轨迹线。如图1、我们的框架包含两大部分:检测和特征提取子网络和时空图Transformer关联子网络网络在每一帧,检测和特征提取子网络生成Mt个候选对象检测建议O=. ojmt,以及视觉功能,每一个提议。时空图Transformer为每个轨迹片段找到最佳候选方案,并对特殊事件(如进入、退出或遮挡)进行建模对于每个tracklet,,其与对象的匹配分数图2.空间图形Transformer编码器层。跟踪的对象和新生成的建议。它生成一个分配矩阵A<$t来跟踪对象和模型特殊事件,如进入,退出,或闭塞,如图所1.一、我们的跟踪器依赖于任务管理器来更新跟踪的目标,这将在第2节中解释4.4时空图变换器的细节将在第2节中解释。4.1和SEC。四点二。培训TransMOT的两种培训损失将在第二节中进行评估。四点三。建议oj由亲和力φ(li,oj)测量,其中4. TransMOTt t−1tφ(·)计算tracklet状态的af,并且可以二代 考虑到所有tracklet,问题TransMOT使用图表t−1 和Θt学习地图-可以用公式表示为约束优化问题,Nt−1MtpingΦ(·),其对空间-时间相关性进行建模,并且生成分配/映射矩阵A<$t。它包含分三部分:空间图形Transformer编码器层,Maxatφ(li ,oj),(1)poral Transformer编码器层,以及空间图形trans-transform。A=(at)ij t−1ttiji=1j=1前解码器层。 我们提出了图的多头atten-S.T.Σ伊杰河的t伊贾特=1,i = 1,. . . ,Nt−1=1,j= 1,. . . ,Mt使用自注意机制对轨迹和候选的空间关系进行建模它对于空间图形Transformer编码器层和aij ∈ {0,1},n i = 1,. . . ,Nt−1; j =1,. . . ,Mt(二)空间图形Transformer解码器层。其中At=(at)指示轨道之间的关联4.1. 时空图Transformer编码器设Lt−1={li}Nt,检测到的候选者为O。当量2−1t−1 i=1时空图形编码器由空间-时间图形编码器和空间-时间图形编码器组成用于强制执行分配约束。为了更有效地对所有轨迹片段和候选者之间的时空关系进行建模,所提出的框架重写Eq.1和等式2转换为单个函数At=Φ(Lt−1,Ot),其中Lt−1和Ot分别由所有tracklet和候选项组成为了对空间-时间对象相关性进行建模,我们为当前帧处的提议构建加权空间图Θt,并且构建一组加权空间图θt-1={t-T,2,. . . .. 时空图神经网络利用这些图来构建高效的时空图Transformer,该时空图对时间图Transformer编码器层用于对轨迹片段之间的空间相关性进行建模,以及两个时间变换器编码器层用于进一步融合和编码轨迹片段的空间和时间信息。我们发现,将Transformer分解为空间和时间变换器,使模型更精确,计算效率更高。4.1.1空间图形Transformer编码器层时空图编码器层的输入是过去T帧的轨迹片段的状态。赛道- 字母状态特征使用轨道序列来布置添加规范前馈添加规范图形多头关注收藏Feat.线性线性图形转换收藏Feat.4873不不不不t−1tmp出来我J阿特伊伊t tt出来设图t−1={t− T,t− T+1,. . . ,t-1},其中是轨迹片段的空间图1t t t在帧T处。图节点xi表示帧t处的第i个轨迹片段的状态,如果两个节点的对应边界框具有大于0的IoU,则它们通过EX中的边连接,并且WX中的边权重被设置为IoU。的权重矩阵wX∈RNt× Nt 是稀疏矩阵,(i,j)条目是连接节点i的边的权重,并且节点j,或者0,如果它们没有连接。tracklet的节点特征首先通过源嵌入层(线性层)独立地嵌入每个节点。所有的节点特征都被排列成一个特征张量Fs∈RNt−1×T ×D,其中D是源嵌入层的维数。它被传递到水疗中心-图Transformer编码器层与图系列一起显示。二、在该层内部,使用多头图关注模块来生成输入图系列的自关注。此模块采用特征张量Fs和图权wX来产生自我注意力图3.空间图形Transformer解码器的插图第i个磁头的权重:ΣFAW= softmax( Fs,WQ,WK)wXΣ、 (3)4.1.2时间Transformer编码器层我我我t−1tracklet的特征进一步由tem编码其中,λ(·)是用于获得t十的正则标度点积如[52]中的权重,WQ,WK是可学习的线性比例。poral Transformer编码器层。 时间Transformer编码器层将输出的前两个维度转置射矩阵,并且是逐元素乘积。 它可以把张量从空间图形Transformer编码器中,重新可以理解为计算空间图的自我注意力求张量Fen∈RT× Nt−1× D。 时间每个时间戳都是独立的。多头图注意利用图权Transformer编码器层在每个轨道的时间维度上采用标准的Transformer编码器层。Xt−1 仅为让我们独立。它计算自我注意力的权重具有空间交互的tracklets,因为轨道-在实践中,彼此远离的let通常具有非常小的交互。通过将注意力集中在更小的子集上,空间图Transformer编码器层可以更有效地对交互进行建模。我们还应用图卷积代替线性层来聚集来自相邻节点的信息。在图卷积层之后,收集节点特征以形成值张量FV。结合注意力权重,沿着时间维度,并计算轨迹的时间注意力加权特征张量。时间Transformer编码器层的输出是空间-时间图形Transformer编码器F_en的最终输出。4.2. 空间图形Transformer解码器空间图形Transformer解码器产生前i趋于分配矩阵从候选图中选择当量3、图中多头注意力加权特征十-排序可以写为Fen= Concate({FAW <$FV})<$WO,其中,{·}迭代并聚合来自所有注意力头部的输出,W0是可学习的线性投影矩阵,并且λ是张量模式积。2的 注意力加权 特征 张量 预计通过线性前馈和归一化层得到空间图形Transformer编码器层的最终输出1我们用G(·)表示一个图。2它执行右张量和左张量沿共享相同长度的维度的每个切片的矩阵积。Θt=G({oj},E0,w0)和空间-时间Transformer编码器的输出Fen。候选图的构造类似于第2节中的轨迹图4.1.t中的每个节点表示帧t中的候选。只有当两个节点的边界框的IoU大于0时,两个节点才连接,并且边的权重设置为IoU。除了表示真实候选的节点之外,虚拟汇聚节点被添加到图中。虚拟汇聚节点负责当前帧中任何轨迹片段的退出或遮挡事件 特别是,一个节点具有一组学习-在Θt上加上一个嵌入函数fsnk∈RD。虚拟汇聚节点与所有其他节点连接,并具有权重0的情况。五、类似于第二节中的编码器4.1、候选节点空间Transformer解码器多头十字关注添加虚拟源重复添加规范添加虚拟水槽图形多-注意事项W4874F∈.出来出来M−a−aatt出来IJMIJuW¨i嵌入并收集输入图的特征的fsnk被附加到嵌入式功能集,对于对应于实际轨迹片段的行,如上所述,利用交叉熵损失最后一排德特格特∈R(Mt+1)×1×D.空间图解码器首先A¯t表示虚拟源,它可以匹配到mul-使用图的多头注意力对节点特征类似于一个SEC。4.1如图所示3.第三章。我们将注意力加权的候选节点特征表示为deR(Mt+1)×1×Datt多个检测候选者。 因此,多标签软边距损失被用来单独优化这部分。总的来说,总的训练损失可以写为对于tracklet嵌入Fen生成 由1L=−Nt−1 y log(a<$)时空图Transformer编码器,我们添加了一个vir-处理候选项的真实源,Nt−1n nn=1或者需要在当前帧t中发起新的轨迹片段以形成扩展的轨迹片段嵌入Fen′∈RT×(Nt−1+ 1)× D。虚拟源的嵌入是λMt+ Mtm=1 ysrc日志.1Σ′1+em一个可学习的参数请注意,我们只添加一个虚拟λMt+.(1 −ysrc)log−a′、源节点与多个虚拟源节点相比,基于转换的MOT跟踪器,因为我们发现添加Mtm=1′1+em一个虚拟源节点产生的性能与其中y和ysrc是真实轨迹片段的关联标签,添加多个虚拟源节点,同时实现更好的de是关于ively的虚源,an是At的r w元素,计算效率Fatt重复Nt−1+1次阿那+1={a′},并且λ是加权系数。dede′(M+1)×(N+1)×Dt−1m使得Fatt → Fatt∈Rtt−1′. 多-′头交叉注意力计算为FdeFen以生成-4.4.跟踪框架评价非标准化的注意力权重。 输出被传递通过前馈层和归一化层,以生成对应于tracklet和candidates之间的匹配的输出张量R(Mt+1)×(Nt-1+ 1)×D空间图解码器的输出可以通过通 过 线 性 层 和 Softmax 层 生 成 分 配 矩 阵 A<$t∈R(Mt+1)×(Nt−1+ 1)。4.3. 培训TransMOT在groundtruth扩展分配矩阵的指导下进行端到端训练等式中的约束2需要放松,以允许有效的优化。我们放松的约束,使tracklet总是与检测候选或虚拟源。这样,Eq。2可以放宽到:本节描述如何从T transM O T输出的关联矩阵A<$t生成最终跟踪关联。矩阵At∈RMt× Nt−1的左上部分表示轨迹片段和候选框的分配分数。由于At∈[0,1]的元素是一个软分配,我们应用一个二分匹配匈牙利算法来生成实际匹配。为了减少假阳性关联,在此步骤中仅匹配分配分数高于阈值的配对。一个重新匹配阶段被用来提高跟踪关联的召回。在该阶段中,未匹配的高置信度检测与剩余的tracklet相关联。关联成本被定义为视觉特征的欧几里得距离与tracklet和候选框的归一化顶部距离之和。S.T.最大值+1t=1,i∈[1,Nt−1],a<$t∈ {0,1}。d顶¨。+i−uj2— wj,v2我— VJ你,¨¨hi,J因此,分配矩阵的一行可以被视为在总共Mt+1个类别上的概率分布,并且我们使用交叉熵损失来优化网络。在每次训练迭代中,从训练集中随机采样T+1帧的连续序列从每个帧中收集边界框及其相应的ID。然后,地面实况边界框被对象检测器通过匹配它们的IoU生成的边界框替换。T + 1帧中的其余不匹配检测预测是假阳性的其中[u,v]表示边界box,[w,h]表示其大小为3。由于TransMOT仅对连续T帧的轨迹线进行建模,因此我们有一个长期遮挡处理阶段来匹配被遮挡超过T帧的轨迹线。对于这些tracklet,我们将其视觉特征存储在最新的可见帧中,并使用它们来计算asso。tracklet和候选检测的引用成本。在处理长期遮挡之后,剩余的未关联的检测候选者再次与所有跟踪的目标匹配,以去除针对相同目标的潜在重复检测。预测和优化的需要,以连接虚拟源头3符号w不应与第2节中的重量w混淆。4.1.Fa¯e=M4875方法IDF1MotaMtML↓FP↓FN↓IDS↓DMT [25]49.244.534.7% 22.1%8,088 25,335684TubeTK [38]53.158.4百分之三十九点三18.0%5,756 18,961854CDADDAL[3]54.151.3百分之三十六点三22.2%7,110 22,271544TRID [32]61.055.740.6% 百分之二十五点八6,273 20,611351RAR 15 [18]61.356.5百分之四十五点一百分之十四点六9,386 16,921428GSDT [55]64.660.747.0%百分之十点五7,334 16,358477公平[65]64.760.647.6% 11.0%7,854 15,785591TransMOT66.057.064.5% 百分之十七点八12,454 13,725244表1.在MOT15基准测试集上的跟踪性能最好用粗体。方法IDF1MotaMtML↓FP↓FN↓IDS↓IOU [7]46.957.1百分之二十三点六32.9% 5,702 70,278 2,167CTracker[39]57.267.632.9%百分之二十三点一8,934 48,305 1,897LMCNN [2]61.267.438.2%百分之十九点二10,109 48,435931DeepSort[56]62.261.4百分之三十二点八百分之十八点二12,852 56,668781FUFET [44]68.676.552.8%百分之十二点三12,878 28,982 1,026LMP [50]70.171.046.9%百分之二十一点九7,880 44,564434CSTrack[27]73.375.6百分之四十二点八16.5% 9,646 33,777 1,121TransMOT76.876.7百分之五十六点五百分之十九点二14,999 26,967517表2.在MOT16基准测试集上的跟踪性能私有检测跟踪。最好用粗体。最后,剩余的候选者中的每一个被初始化为新的轨迹线,并且对于超过Kp帧没有被更新的未解析的轨迹线被移除。对于少于Kp帧保持未更新的轨迹片段被设置为5. 实验我们对四个标准的MOT挑战数据集进行了广泛的实验 , 用 于 行 人 跟 踪 : MOT15 [26] 、 MOT16 [34] 、MOT17和MOT20 [16]。亲-提出了一种基于TransMOT的跟踪框架,在公共和私人检测轨道上进行评估。5.1. 实验设置和实施细节所提出的方法在PyTorch中实现,并且在具有10核CPU@3.60GHz和Nvidia Tesla V100 GPU的机器上执行训练和推理我们将tracklet的帧数设置为T=5,特征嵌入维度D=1024,空间和时间变换器中所有多头注意力的头数设置为8。对于图多头注意力模块,采用来自[14]的单层ChebConv,其相邻距离为2。 帧处对象的节点特征是其视觉特征、归一化边界框坐标和检测置信度得分的级联。在训练过程中,我们使用初始学习率为0.0015的vanilla SGD。对于所有的实验在SEC。5.2,我们使用[29]中的训练数据集来训练我们的Trans- MOT模型。 在推理期间,Kp被设置为50。NMS,0.6采用IoU和0.01置信阈值作为4876松散过滤以包括尽可能多的原始检测建议用于训练TransMOT,而0.05在跟踪期间用于平衡推理速度。我们在CrowdHuman数据集[ 45 ]和MOT 17/MOT 20的训练集的组合上训练了具有模型“X”配置的YOLOv5 [1](v3.0)检测器采用在ILSVRC 15数据集上预训练的SiamFC网络[43]作为我们的视觉特征提取子网络。跟踪流水线的最大输入图像维度被设置为1920。检测器在我们的机器上以15.4fps运行,而包括视觉特征提取子网络的TransMOT以23.2fps运行。整个跟踪管道以9.3fps运行。我们还尝试使用TransTrack [47]作为我们的检测和特征提取子网络,以及其他视觉特征。这些比较将在第17节的MOT17和消融部分进行比较。五点二。为了评估所提出的方法的性能,报告了标准ID评分度量[42]。ID分数度量测量长期ID一致性,并将整个轨迹与ID精确度(IDP),ID召回率(IDR)及其IDF1分数的地面实况进行因此,IDF1更关注关联质量,对单个边界框的准确性不敏感,适合与使用不同私有检测器的对等跟踪器进行比较。在其他MOT工作之后,CLEAR MOT度量[5],例如,还报告了多目标跟踪精度它结合了边界框假阳性(FP),假阴性(FN)和身份开关(IDS)。报告了大多数跟踪目标的百分比(MT)和大多数丢失目标的百分比(ML)5.2. 评价结果MOT15. MOT15 [26]包含22个不同的室内和室外场景,用于行人跟踪。这22个序列是从几个公共和私人数据集收集的,并且它们在不同的相机运动,相机角度和成像条件下被记录该数据集被平均分割用于训练和测试。我们报告的定量结果所提出的方法上的私人检测轨道在制表。图1中选定视频的可视化。4.第一章收集MOTChallenge排行榜中同行追踪器的更新结果以供比较。TransMOT在指标IDF1、MT、FN和IDS方面实现了最先进的性能该数据集上相对较低的MOTA分数是由高FP率引起的,因为对于一些测试序列,并非所有对象都被详尽MOT16/17。 MOT16和MOT17 [34]包含相同的14个行人跟踪视频。与MOT16数据集相比,MOT17具有更准确的地面实况注释。MOT 17还评估了对象检测质量对跟踪器的影响,方法是使用RNN [19]、Faster-RCNN [41]和SDP [60]提供三个预训练的对象检测器。我们4877方法IDF1MotaMtML↓FP↓FN↓IDS↓[58]第五十八话53.7百分之十九点四百分之三十六点六11,731 247,447 1,947电子邮件:info@tager.com.cn56.3 21.1% 35.3%8,866 235,449 1,987[67]第67话61.5百分之二十六点四百分之三十一点九14,076 200,672 2,583TrackFormer [33]62.5百分之二十九点八百分之二十六点八32,828 174,921 3,917[8]第八届全国人大58.8百分之二十八点八33.5% 17,413 213,594 1,185[21]第二十一话60.5 27.0% 百分之三十三点六14,966 206,619 1,189MAT [20] 69.267.1 38.9% 百分之二十六点四二万二千七百五十六十六万一千五百四十七一千二百七十九TransMOT-P 73.168.8 33.1% 百分之三十一点五8,080167,174 1,043丹麦[48] 49.552.4百分之二十一点四百分之三十点七25,423 234,592 8,431TubeTK [38] 五十八点六63.0 31.2% 百分之十九点九27,060 177,483 5,727[47]第四十七话74.5百分之四十六点八百分之十一点三28,323 112,137 3,663[67]第64话67.8百分之三十四点六百分之二十四点六18,498 160,332 6,102西班牙语[51]69.5百分之四十二点五17.7%---[53]第53话76.5 47.6% 百分之十二点七29,808 99,5103,369TransMOT-D69.3TransMOT 76.368.576.434.2%48.7%百分之三十四点一百分之二十一点九22,76731,788153,15699,6511,6351,623表3.在MOT17基准测试集上跟踪性能最好用粗体。方法IDF1MotaMtML↓FP↓FN↓IDS↓分类 * [6] 45.142.7百分之十六点七百分之二十六点二27,521 264,694 4,470[4]第四话52.6百分之二十九点四百分之二十六点七6,930236,680 1,648[8]第八届全国人大57.6 38.2% 22.5%16,953 201,384 1,210[13]第十三话56.3百分之三十四点一25.2%11,726 213,056 1,562TransMOT-P 74.273.4 百分之五十四点七百分之十四点六11,511 125,029 1,008MLT [64] 五十四点六48.9百分之三十点九22.1%45,660 216,803 2,187GSDT [55] 67.567.1百分之五十三点一百分之十三点二31,913 135,409 3,131一般[65] 67.361.8 68.8%7.6% 103,440 88,901 5,243CSTrack [27] 68.666.6百分之五十点四15.5%25,404 144,358 3,196[59]第五十九话77.4 68.1%九点九28,35186,659 1,789TransMOT 75.277.4 百分之七十点一九点二32,33582,867 1,601表4.在MOT20基准测试集上跟踪性能最好用粗体。在公共检测轨道中标记为 * 的方法不使用公共检测过滤机制。如果采用该机构,可能会获得更在Tab中报告MOT16的私有检测轨道上的性能并与最先进的方法进行二、我们的方法优于所有其他已公布的跟踪者使用私有检测器在IDF1指标。在MOT 17中,为了进行更完整的比较,我们将TransMOT 配 置 为 两 个 附 加 设 置 : TransMOT-P 和TransMOT-D。TransMOT-P使用公共检测结果,并遵循[4]和[67]采用的过滤机制。只有当当前帧的边界框与IoU大于0.5的公共检测重叠时,才初始化新的轨迹我们比较了TransMOT-P和其他采用相同过滤机制的跟踪器在Tab中对MOT 17的公共检测跟踪。3 .第三章。与常规的基于transformer的跟踪器[33]相比,transMOT在IDF1、MOTA和IDS中的表现要好得多。在所有已发布的 跟 踪 器 中 , Trans-MOT 还 获 得 了 最 佳 的 IDF 1 和MOTA分数,这证明了TransMOT对检测质量变化的鲁棒性TransMOT-D采用DETR框架作为检测和视觉特征提取子网络。TransMOT-隐私检测公共检测公共侦探二等兵4878D将TransTrack [47](验证模型)的检测输出及其Transformer嵌入作为视觉特征。为了进行公平的比较,TransTrack的预训练模型在TransMOT-D中没有进行微调我们将TransMOT-D和TransMOT与Tab中MOT17私有检测轨道上的最先进跟踪器进行比较。3 .第三章。在IDF 1中,TransMOT-D的性能优于TransTrack5.4 。 这 表 明 我 们 的 transMOT 框 架 可 以 比 标 准Transformer更好地建模tracklet和检测的时空关系。TransMOT在常规配置下实现了所有公开的使用私有检测器的作品中最好的IDF1,ML和IDS。MOT20。MOT20由八个用于行人跟踪的序列组成。MOT20视频序列更具挑战性,因为它们具有更高的对象密度,例如。170.9vs31.8在测试集。我们报告的实验结果,建议TransMOT和比较与其他方法在表。4.第一章我们的方法在所有同行作品中建立了最先进的大多数指标。在公共检测环境中,TransMOT-P也证明了其对检测噪声的鲁棒性与私有探测器设置相比,MOTA降低了4.0,但IDF1得分仅下降了1.0。在公共和私有检测环境下的实验表明,TransMOT具有在人群场景中对大量轨迹进行建模和检测的能力5.3. 消融我们通过消融研究研究了所提出方法中组件和超参数的重要性,如表1所示。五、在MOT17训练集上进行消融。为了避免过度拟合,消融研究中使用的对象检测器仅在人群-人类数据集上进行训练。我们首先评估了TransMOT的有效性。从跟踪框架中删除TransMOT的性能记录为w/oTransMOT,并在表中报告。五、 本文还研究了使用松散滤波检测的影响,其中严格滤波,即。0.35置信度阈值被应用于过多的输入检测,以仅留下高置信度的候选(过滤的检测)用于关联。与完整设置相比,选项卡中标记为Ours。这些结果表明,TransMOT可以有效地学习关联,并利用广泛的松散过滤的检测预测,以提高关联性能。关于推理速度,当不存在TransMOT时,跟踪框架中的其余逻辑以33.2fps运行,其主要由依赖的视觉特征子网消耗。使用松散过滤的预测增加了大约40%的关联候选(100K到139K),但仅将FPS从26.7降低到23.2。空间和时间信息的重要性也进行了评估。我们首先将所有空间相关特征设置为4879MOT 15:威尼斯-1 MOT 15:AVG-TownCentre MOT 16 -03 MOT 16 -07MOT 17 -08 MOT 17 -14 MOT 20 -04(50%目标)MOT 20 -06(50%目标)图4. MOT15、MOT16、MOT17和MOT20中选定序列的结果可视化。transMOT输入为零(w/o空间),这将导致孤立的图形节点和每个节点的空间特征为零。为了排除时间信息,我们在T=1时运行跟踪框架,并在Tab中将其标记为w/oTemporal。五、IDF1的下降表明了对跟踪目标和候选目标的时空信息进行建模以进行关联的重要性。当排除空间信息时比排除时间信息时性能降低更少的原因是空间信息不能完全从跟踪框架中排除诸如重新匹配的其他逻辑也依赖于用于关联的空间信息,这补偿了TransMOT中空间特征的缺失。本文还讨论了时间历程长度T的选择问题。除了之前消融中的T=1和我们的完整设置中的T=5外,还测试了T=10和T=20。我们发现,增加T超过5不会提高跟踪性能。包括较长的时间历史增加了关联任务的复杂性,并且在有限数量的训练数据下使MOT的学习更加困 难 它 还 显 著 降 低 了 推 理 速 度 , 例 如 T=20 时 为17.1fps。请注意,与全设置相比,MOTA度量在上述设置中也会降低,但不像IDF1那样原因有两个方面:首先,通过在遮挡过程中对目标进行快速关联,跟踪器在遮挡前后保持轨迹片段的ID一致。这将大大提高IDR和IDP的性能,但不会显着影响MOTA中的边界框度量FP和FN。其次,在MOT17中,具有大遮挡的地面实况边界框通常被标记为忽略,并且由于其明确的形状而被排除在公平评估之外。从松散过滤的检测中恢复的一些边界框Trans- MOT落在这种情况下。最后,除了SiamFC和DETR特征,我们还评估了其他浅层和深层视觉特征,包括配置IDF1MotaFPS不带TransMOT69.764.633.2TransMOT,过滤检测器。77.173.826.7TransMOT,不带空间78.074.723.3transMOT@T= 1(无时间)76.774.625.7transMOT@T= 1077.974.221.0transMOT@T= 2077.174.117.1TransMOT+直方图77.274.545.7TransMOT+DGNet77.674.49.3TransMOT(T= 5)+SiamcFC(我们的)79.074.723.2表5.MOT17基准训练集上的消融FPS仅指示跟踪器的推理速度,不包括检测器。颜色直方图和ReID功能DGNet [66]。得益于完全可训练的Transformer架构,即使使用简单的颜色直方图功能,TransMOT也可以实现与使用深度ReID功能的性能相似的性能,但推理速度要快得多。另一方面,SiamcFC特征的性能优于彩色直方图和ReID特征,因为它是在大规模视频数据集上训练的。6. 结论提出了一种新的时空图Transformer多目标跟踪算法。通过将轨迹片段和候选检测公式化为一系列加权图,轨迹片段和候选的空间和时间关系被明确地建模和利用。建议TransMOT不仅实现了更高的跟踪精度,但也是更有效的计算比过渡变压器为基础的方法。在MOT15、MOT16、MOT17和MOT20挑战数据集上的实验表明,该方法在所有基准数据集上都达到了最先进的性能。鸣谢。 我们要感谢卢玉茂对我们的支持。Ling的研究得到了美国国家科学基金会资助2006665的部分支持。4880引用[1] Yolov5.https://github.com/ultralytics/yolov5/tree/v3.0。[2] Maryam Babaee,Zimu Li,and Gerhard Rigoll.一个双cnn-rnn用于多人跟踪。神经计算,368:69[3] 裴承焕和尹国珍基于置信度的数据关联和判别式深度外观学习,用于鲁棒的在线多目标跟踪。TPAMI,2018年。[4] Philipp Bergmann,Tim Meinhardt,and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在IEEE/CVF计算机视觉国际会议论文集,第941-951页[5] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。 评估多对象跟踪性能:明确的MOT指标。JIVP,2008年。[6] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功