多目标跟踪中的时域建模问题

197 浏览量更新于2023-11-30 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文MOTR：使用Transformer的曾凡高1人，董斌1人，张宇2人，王天才1人，张翔宇1人，魏一晨1人1MEGVII技术2上海交通大学抽象的。目标的时域建模是多目标跟踪中的一个关键问题.现有的方法通过基于运动和基于外观的相似性算法来关联检测。关联的后处理性质防止端到端利用视频序列中的时间变化。在本文中，我们提出了MOTR，它扩展了DETR [6]，并引入了“跟踪查询”来对整个视频中的跟踪实例进行建模。跟踪查询被逐帧地传输和更新以随时间执行迭代预测。我们提出了跟踪感知标签分配训练跟踪查询和新生对象查询。我们进一步提出了时间聚集网络和集体平均损失来增强时间关系建模。在DanceTrack上的实验结果表明，MOTR在HOTA度量上的性能明显优于最先进的方法ByteTrack [42]6.5%。在MOT17上，MOTR在关联性方面优于我们的同类作品TrackFormer [18]和TransTrack[29MOTR可以作为未来时间建模和基于transformer的跟踪器研究的更强基线。代码可在https://github.com/megvii-research/MOTR上获得。关键词：多目标跟踪，Transformer，端到端1介绍多目标跟踪（MOT）预测连续图像序列中实例的轨迹[39，2]。大多数现有的方法将MOT时间关联分离为外观和运动：外观方差通常是通过成对Re-ID相似性[37，43]进行测量，而运动通过IoU [4]或卡尔曼滤波[3]启发式进行建模。这些方法需要基于相似性的匹配进行后处理，这成为跨帧时间信息流的瓶颈。在本文中，我们的目标是介绍一个完全端到端的MOT框架，具有关节运动和外观建模。最近，DETR [6，45]被提出用于端到端对象检测。它将目标检测表示为一个集合预测问题。如图1（a），平等贡献。作者：陈文彬电子邮件：angtiancai@megvii.comarXiv：2105.03247v4 [cs.CV] 2022年7+v：mala2255获取更多论文DETR对象查询解码器2F. Zeng等图像特征Box-iBox-jBox-k多帧特征...跟踪查询DETR解码器迭代更新12………(a) DETR中的单次预测（b）MOTR中盒序列的迭代预测。图1：（a）DETR通过将对象查询与图像特征交互来实现端到端检测，并在更新的查询和对象之间执行一对一的分配。（b）MOTR通过更新轨迹查询来执行序列预测集每个轨迹查询表示一个轨迹。最好用彩色看。用作对象的解耦表示的对象查询被馈送到Transformer解码器中并与图像特征交互以更新它们的表示。进一步采用二分匹配来实现对象查询和地面实况之间的一对一分配，消除了后处理，如NMS。与目标检测不同，MOT可以看作是一个序列预测问题。如何在端到端DETR系统中进行序列预测是一个悬而未决的问题。迭代预测在机器翻译中很流行[30，31]。输出上下文由隐藏状态表示，句子特征迭代交互用解码器中的隐藏状态来预测翻译的单词。灵感来自这些机器翻译的进步，我们直觉地认为MOT是一个问题，因为MOT需要一组对象序列。每个序列对应于对象轨迹。从技术上讲，我们扩展了对象查询在DETR中跟踪用于预测对象序列的查询。轨迹查询作为对象轨迹的隐藏状态。轨迹查询的表示在Transformer解码器中更新，并用于迭代地预测对象轨迹，如图1（b）所示。具体地说，跟踪查询更新通过自注意和交叉注意的帧功能。更新的轨迹查询还用于预测边界框。一个对象的轨迹可以从不同帧中的一个轨迹查询的所有预测为了实现上述目标，我们需要解决两个问题：1）跟踪一个对象的一个轨迹查询; 2）处理新生和终止的对象。为了解决第一个问题，我们引入了跟踪感知标签分配（TALA）。这意味着一个跟踪查询的预测由具有相同身份的边界框序列监督。为了解决第二个问题，我们坚持可变长度的跟踪查询集。新生对象的查询被合并到这个集合中，而终止对象的查询被删除。我们把这个过程称为进入和退出机制。以这种方式，MOTR在推理期间不需要显式的轨迹关联。此外，轨迹查询的迭代更新使得能够对外观和运动进行时间建模为了增强时间建模，我们进一步提出了集体平均损失（CAL）和时间聚合网络（TAN）。有了CAL，MOTR+v：mala2255获取更多论文MOTR：使用Transformer 3实现视频剪辑作为培训期间的输入。MOTR的参数基于针对整个视频剪辑计算的总体损失来更新。TAN通过Transformer中的键查询机制，为轨迹查询提供了一种快捷方式，可以从轨迹以前的状态中聚合历史信息MOTR是一个简单的在线跟踪器。基于DETR进行开发很容易，只需对标签分配进行微小修改。它是一个真正的端到端MOT框架，不需要任何后处理，例如跟踪NMS或IoU匹配-在我们的并行工程，TransTrack [29]和TrackFormer [18]雇用。在MOT17和DanceTrack数据集上的实验结果表明，MOTR算法具有良好的性能。在DanceTrack [28]上，MOTR在HOTA指标上的表现优于最先进的ByteTrack [42]6.5%，在AssA上的表现为8.1%总结起来，我们的贡献如下：– 我们提出了一个完全端到端的MOT框架，名为MOTR。MOTR可以以联合方式隐式地学习外观和位置变化。– 我们将MOT表示为一个序列预测集问题。我们从以前的隐藏状态生成跟踪查询迭代更新和预测。– 我们提出了一对一的分配之间的跟踪查询和对象的tracklet感知标签分配。引入了一个入口和出口机制来处理新生和终止的轨道。– 我们进一步提出CAL和TAN来增强时间建模。2相关工作基于transformer的架构。 Transformer [31]最初是为了从整个输入序列中聚合信息进行机器翻译而引入的。它主要涉及自我注意和交叉注意机制。从那以后，它逐渐被引入到许多领域，例如语音处理[13，7]。和计算机视觉[34，5]。最近，DETR [6]结合了卷积神经元，人工神经网络（CNN）、Transformer和二分匹配来执行端到端对象检测。为了实现快速收敛， Deformable DETR [45] 将可变形注意力模块引入到Transformer编码器和Transformer解码器中。ViT [9]构建了一个用于图像分类的纯Transformer架构。此外，Swin Transformer [16]提出了移位窗口方案，以在局部窗口内执行自注意，从而提高效率。VisTR [36]采用直接端到端并行序列预测框架来执行视频实例分割。多目标跟踪。主要MOT方法主要遵循检测跟踪范式[3，12，22，24，39]。这些方法通常首先使用目标检测器定位每帧中的目标，然后在相邻帧之间执行SORT [3]结合卡尔曼滤波[38]和匈牙利算法[11]进行航迹关联。DeepSORT [39]和Tracktor [2]引入了额外的余弦距离，并计算了轨迹关联的外观相似性Track-RCNN [26]，JDE [37]和FairMOT [43]进一步在联合训练框架中的对象检测器之上添加了Re-ID分支，结合了对象检测和Re-ID+v：mala2255获取更多论文4楼。Zeng等特征学习TransMOT [8]构建了一个时空图Transformer来进行关联。我们的并行工作，TransTrack [29]和TrackFormer [18]也为MOT开发了基于Transformer的框架。如需与它们进行直接比较，请参阅第三点七迭代序列预测。通过编码器-解码器架构的序列到序列（seq 2seq）预测序列在机器翻译[30，31]和文本识别[25]中很流行。在seq2seq框架中，编码器网络将输入编码为中间表示。然后，引入具有任务特定上下文信息的隐藏状态，并通过解码器网络与中间表示迭代交互以生成目标序列。迭代解码过程包含若干迭代。在每次迭代中，隐藏状态解码目标序列的一个元素3方法3.1目标检测DETR [6]引入了一组固定长度的对象查询来检测对象。对象查询被馈送到Transformer解码器中，并与从Transformer编码器中提取的图像特征交互，以更新其表示。进一步采用二分匹配来实现更新的对象查询和地面实况之间的一对一分配在这里，我们简单地将对象查询写为3.2检测查询和跟踪查询当将DETR从目标检测调整为MOT时，会出现两个主要问题1)如何通过一个跟踪查询来跟踪一个对象; 2）如何处理新生对象和终止对象。在本文中，我们扩展检测查询跟踪查询。航迹查询集是动态更新的，长度可变.如图2所示，跟踪查询集被初始化为空，并且DETR中的检测查询被用于检测新生对象（在T2处的对象3）。检测到的对象的隐藏状态产生下一帧的跟踪查询;分配给终止对象的跟踪查询从跟踪查询集中删除（T4处的对象2）。3.3Tracklet感知标签分配在DETR中，一个检测（对象）查询可以被分配给图像中的任何对象，因为标签分配是通过在所有检测查询和地面实况之间执行二分匹配来确定的。而在MOTR中，检测查询仅用于检测新生对象，而跟踪查询预测所有跟踪对象。在这里，我们引入了tracklet感知标签分配（TALA）来解决这个问题。一般来说，TALA由两种策略组成对于检测查询，我们将DETR中的分配策略修改为仅限新查询，其中二分匹配是+v：mala2255获取更多论文^^detLtrtrtrtrdetMOTR：使用Transformer 5进行对象物1物体2物体3123$检测查询跟踪查询2019年12月23日图2：在一些典型的MOT情况下检测（对象）查询和跟踪查询的更新过程。航迹查询集动态更新，长度是可变的。跟踪查询集初始化为空，检测查询用于检测新生物体。所有检测到的对象的隐藏状态被连接以产生下一帧的跟踪查询指定给终止对象的轨迹查询在检测查询和新生对象的地面实况之间进行对于跟踪查询，我们设计了一个目标一致的分配策略。跟踪查询遵循先前帧的相同分配，因此被排除在上述二分匹配之外。形式上，我们将跟踪查询的预测表示为Ytr，将检测查询的预测表示为Ydet。Ynew是新生事物的基础真理。跟踪查询和检测查询的标签分配结果可以写为ωtr和ωdet。对于帧i，从检测查询和新生对象之间的二分匹配获得检测查询的标签分配，即，伊代 =argminL（Y^iω伊代Inew），（1）我deti哪里是DETR中定义的成对匹配成本，检测查询和新生对象之间的所有二分匹配。对于轨迹查询分配，我们合并新生对象和来自最后一帧的跟踪对象的分配，即，对于i >1：ωi=ωi−1<$ωi−1。（二更）对于第一帧（i=1），查询分配ω1是一个有效集合，因为对于第一帧没有被跟踪的对象。对于连续帧（i >1），查询分配tωi是先前跟踪查询的串联赋值ntωi−1和新的borno object赋值ntωi−1。特尔代在实践中，TALA策略简单而有效，这要归功于强大的Transformer中的注意机制。对于每个帧，检测查询和跟踪查询被连接并馈送到Transformer解码器中以更新它们的表示。检测查询将仅检测新生对象，因为在Transformer解码器中通过自关注的查询该机制类似于DETR中的重复删除，即重复框以低分数被抑制。ω|ω，Y+v：mala2255获取更多论文^^^}6楼。Zeng等视频流检测查询跟踪查询预测图3：MOTR的总体架构“Enc”表示卷积神经网络骨干和为每个帧提取图像特征的Transformer编码器。检测查询q_d和跟踪查询q_tr的级联被馈送到可变形DETR解码器（Dec）中以产生隐藏状态。的隐藏状态用于生成预测新生儿和跟踪对象查询交互模块（QIM）将隐藏状态作为输入并产生下一帧的跟踪查询。3.4MOTR架构MOTR的总体架构如图所示3. 视频序列被送入卷积神经网络（CNN）（例如ResNet-50 [10]）和可变形DETR [45]编码器以提取帧特征。对于第一帧，没有跟踪查询，我们只将固定长度的可学习检测查询（图3中的qd）馈送到可变形DETR [45]解码器中。对于连续的帧，我们将来自前一帧的跟踪查询和可学习的检测查询的级联这些查询与解码器中的图像特征交互，以生成用于边界框预测的隐藏状态隐藏状态还被馈送到查询交互模块（QIM）中以生成下一帧的轨迹查询。在训练阶段，每个帧的标签分配在秒三点三视频剪辑的所有预测被收集到预测库{Y1，Y2，. . .，YN，我们使用建议的集体平均损失（CAL）中描述的第二节。3.6监督在推断时间期间，视频流可以被在线处理并生成针对每帧的预测3.5查询交互模块在本节中，我们将描述查询交互模块（QIM）。QIM包括对象进入和退出机制以及时间聚集网络TAN。对象入口和出口。如上所述，视频序列中的一些对象可能在中间帧出现或消失在这里，我们介绍12��… …ENCENCENC布吕德Dec布吕德C12月布吕德CDecQim$RQim…&$R““…编+v：mala2255获取更多论文dettr跟踪对象2跟踪对象3新生物体检测轨道查询交互模块TAN评分0.15(a)对象入口吉吉tr+Q0.840.093滤波器3KV分裂(b)对象退出免费0.230.87滤波器tr3谭C1添加规范FFN添加规范MHA211MOTR：使用Transformer 7实现图4：查询交互模块（QIM）的结构。QIM的输入是由Transformer解码器产生的隐藏状态和相应的预测分数。在推理阶段，我们根据置信度分数保留新生对象并删除已退出对象。时态聚合网络（TAN）增强了长距离时态建模。在我们的方法中处理新生和终止对象的方式。对于任何帧，跟踪查询都与检测查询连接在一起，并输入到Transformer解码器，产生隐藏状态（见图1左侧）。4）。在训练过程中，如果匹配的对象在地面实况中消失，或者预测的边界框和目标之间的交集（IoU）低于0.5的阈值，则删除终止对象的隐藏状态。这意味着，如果这些对象在当前帧中消失，则相应的隐藏状态将被过滤，而其余的隐藏状态将被保留。对于新生成的对象，基于分配新的对象ω i在Eq. 1.一、对于推理，我们使用预测的分类分数来确定新生对象的出现和跟踪对象的消失，如图所示四、对于对象查询，保留分类分数高于入口阈值τen的预测，同时移除其他隐藏状态。对于轨迹查询，其分类分数低于连续M帧的退出阈值τex的预测被移除，而其他隐藏状态被保留。时间聚合网络。在这里，我们在QIM中引入时态聚合网络（TAN）来增强时态关系建模，并为跟踪对象提供上下文先验。如图4所示，TAN的输入是用于跟踪的o bjects（o bject“1”）。我们还收集track查询qi从最后一帧用于时间聚合。TAN是一个经过修改的Transformer解码器层。来自最后一帧的轨迹查询和过滤后的隐藏状态相加，是多头自注意（MHA）的关键和查询组件。的1+v：mala2255获取更多论文tri=1i=1Σ（L（Yt r|ωi，Yt r）+L（Ydet|ωi^，Ydet）i=18楼。Zeng等隐藏状态本身就是MHA的价值组成部分。在MHA之后，我们应用前馈网络（FFN），并且将结果与新绑定的对象（对象“3”）的隐藏状态连接，以产生针对下一帧。3.6集体平均损失训练样本对于轨道的时间建模很重要，因为MOTR从数据中学习时间方差，而不是像卡尔曼滤波那样手工制作的算法。常见的训练策略，如在两帧内训练，无法生成长距离物体运动的训练样本。与它们不同的是，MOTR将视频剪辑作为输入。以这种方式，可以生成长距离对象运动的训练样本以用于时间学习。而不是计算损失逐帧，我们的集体平均损失（CAL）收集多个预测Y^={Y^i}N . 然后，整个视频序列由地面实况Y ={Yi}N计算和比赛-结果ω={ωi}N . CAL是整个视频序列的总体损失通过对象的数量进行归一化：N^i i^iiLo（Y）|ω，Y）=n=1trNn=1（五）det（三）其中Vi=Vi+Vi表示帧I. VitrVidet是帧特尔代i分别。L是单帧的损失，类似于检测损失在底特律。单帧损耗L可以公式化为：L（Yi|ωi，Yi）=λclsLcls+λl1Ll1+λgio uLgiou（4）其中Lcls是焦点损失[14]。 Ll1表示L1损失， Lg1ou是一般化的IoU损失[21]。λcls、λl1和λgiou是相应的权重系数。3.7讨论基于DETR，我们的并行工作，TransTrack [29]和TrackFormer [18]也为MOT开发了基于Transformer的框架然而，我们的方法与它们相比显示出很大的差异：TransTrack将完整轨迹建模为多个独立的短轨迹的组合。与通过检测跟踪的范例类似，TransTrack将MOT分解为两个子任务：1）将对象对检测为两个相邻帧; 2）通过IoU匹配将短轨迹关联为完整轨迹而对于MOTR，我们通过轨迹查询的迭代更新以端到端的方式对完整的轨迹进行建模，不需要IoU匹配。+v：mala2255获取更多论文MOTR：使用Transformer 9实现表1：与基于Transformer的其他MOT方法的比较。表2：所选评价数据集的统计数据。方法IOU匹配 NMS 里德[29]第二十九话[18]第18话✓✓✓数据集类帧视频ID[28]第二十八话1106k100 990MOT17 [19]111k14 1342BDD 100K [41]8318K 1400 131 kTrackFormer与我们分享了跟踪查询的想法然而，TrackFormer仍然在两个相邻帧内学习。正如在SEC中所讨论的那样3.6、短距离内的学习因此，Track- Former采用诸如Track NMS和Re-ID功能的自动化技术来过滤掉重复的磁道。与TrackFormer不同的是，MOTR使用CAL和TAN学习更强的时间运动，消除了对这些算法的需要。关于与TransTrack和TrackFormer的直接比较，请参见表1。在这里，我们澄清，我们开始独立这项工作之前，跟踪- Former和transTrack出现在arXiv。补充说，他们没有正式发表，我们把他们作为并行和独立的作品，而不是我们的工作是建立在上面的非正式4实验4.1数据集和数据库数据集。为了进行综合评估，我们对三个数据集进行了实验：DanceTrack [28]，MOT17 [19]和BDD100k [41]。MOT17 [19]包含7个训练序列和7个测试序列。DanceTrack [28]是最近的多对象跟踪数据集，具有统一的外观和多样化的运动。它包含更多的视频培训和评估，从而提供了一个更好的选择以验证跟踪性能。BDD 100k [41]是一个自动驾驶数据集，其MOT轨迹具有多个对象类。有关更多详细信息，请参阅表2所示的数据集统计。评价我们遵循标准评估协议来评估我们的方法。常见指标包括用于评估多对象跟踪的高阶指标[17]（HOTA，AssA，DetA），多对象跟踪准确性（MOTA），身份切换（IDS）和身份F1分数（IDF1）。4.2实现细节根据CenterTrack [44]中的设置，MOTR采用了几种数据增强方法，如随机翻转和随机裁剪。输入图像的短边被调整为800，最大尺寸被限制为1536。在此分辨率下，Tesla V100的推理速度约为7.5 FPS。我们以随机间隔对关键帧进行采样，以解决可变帧速率的问题。此外，我们以概率pdrop删除跟踪的查询，以生成更多+v：mala2255获取更多论文·∼10 F. Zeng等新生对象的样本和插入跟踪具有概率p的假阳性查询插入以模拟终止对象。所有实验都在PyTorch上进行，配备8个NVIDIA Tesla V100 GPU。我们还提供内存优化版本，可在NVIDIA 2080 Ti GPU上进行训练。我们用ResNet 50 [10]在Deformable-DETR [45]上构建MOTR，以实现快速收敛。批量大小设置为1，每个批量包含5帧的视频剪辑我们使用AdamW优化器训练我们的模型，初始学习率为2。0 10− 4对于所有数据集，我们使用在COCO [15]数据集上预先训练的官方可变形DETR[45]权重初始化MOTR在MOT17上，我们训练MOTR 200个epoch，学习率在第100个epoch时衰减10倍。为了进行最先进的比较，我们在关节数据集（MOT17训练集和CrowdHuman [23] val集）上进行训练。为5K静态图像在CrowdHuman值集中，我们应用如[44]中随机移位来生成具有伪轨道的视频剪辑。视频片段的初始长度为2，在第50、90、150个epoch时分别增加到3、4、5。视频片段长度的递增提高了训练效率和稳定性。对于消融研究，我们在MOT17训练集上训练MOTR，而不使用CrowdHuman数据集，并在2DMOT 15训练集上进行验证。在DanceTrack上，我们在训练集上训练20个epoch，学习率在第10个epoch时衰减。在第5、9、15个时期，我们逐渐将剪辑长度从2增加到3、4、5. 在BDD 100k上，我们在训练集上训练了20个epoch，学习率在第16个epoch时衰减。在第6和第12个时期，我们逐渐将剪辑长度从2增加到3和4。4.3MOT17的最新技术比较表3在MOT17测试集上比较了我们的方法与最先进的方法。我们主要将MOTR与我们基于Trans- former的并行工作进行比较：TrackFormer[18]和TransTrack [29]。我们的方法获得了更高的IDF1分数，超过了TransTrack 和 TrackFormer 4.5% 。 MOTR 在 HOTA 指标上的性能比TransTrack 高出 3.1% 。对于 MOTA 指标，我们的方法实现了比TrackFormer更好的性能（71.9% vs. 65.0%）。有趣的是，我们发现TransTrack的性能优于MOTA上的MOTR。我们假设在TransTrack中检测和跟踪分支的解耦确实提高了目标检测性能。在MOTR中，检测和跟踪查询是通过共享的Transformer解码器学习的。检测查询在检测跟踪对象时被抑制，限制了对新生对象的检测性能。如果我们将其性能与其他最先进的方法（如Byte- Track [42]）进行比较，它表明MOTR在MOT 17数据集上令人沮丧地劣于它们。通常，MOT17数据集上的最先进性能由具有良好检测性能的跟踪器主导，以应对各种外观分布。此外，不同的跟踪器倾向于采用不同的检测器来进行对象检测。我们很难公平地验证各种跟踪器的运动性能。因此，我们认为，MOT17数据集本身是不够的，以充分评估跟踪性能的MOTR。我们+v：mala2255获取更多论文MOTR：使用Transformer 11的表3：在私有检测协议下，MOTR和现有方法在MOT17数据集上的性能比较。如果它是基于Transformer的方法中最好的，则该数字以粗体标记。方法HOTA↑AssA↑DetA↑IDF1↑MOTA↑IDS↓基于CNN：Tracktor++[2]44.8 45.144.9 52.353.52072[44]第四十四话52.2 51.053.8 64.767.83039[40]第四十话52.7 50.855.2 63.969.13555QDTrack [20]53.9 52.755.6 66.368.73378GSDT [35]55.5 54.856.4 68.766.23318[43]第四十三话59.3 58.060.9 72.373.73303CorrTracker [32]60.7 58.962.9 73.676.53369GRTU [33]62.0 62.162.1 75.074.91812MAATrack [27]62.0 60.264.2 75.979.41452ByteTrack [42]63.1 62.064.5 77.380.32196基于transformer：TrackFormer [18]/打开/关闭/63.965.03528[29]第二十九话54.1 47.961.663.974.53663MOTR（我们的）57.8 55.760.368.673.42439进一步评估DanceTrack [28]数据集的跟踪性能，具有统一的外观和多样的运动，如下所述。4.4舞蹈轨迹的现状比较最近，DanceTrack [28]，一个具有统一外观和不同运动的数据集，被引入（见表1）。2）。它包含更多的视频进行评估，并提供了一个更好的选择，以验证跟踪性能。我们进一步在DanceTrack数据集上进行实验，并与Tab中的最先进方法进行性能比较四、实验结果表明，MOTR算法在DanceTrack数据集上取得了更好的性能。我们的方法获得了更高的HOTA分数，超过ByteTrack 6.5%。对于AssA指标，我们的方法也实现了比ByteTrack更好的性能（40.2%对 32.1%）。而对于DetA度量，MOTR不如一些最先进的方法。这意味着MOTR在时间运动学习方面表现良好，而检测性能并不那么好。HOTA的主要改进来自于时间聚合网络和集体平均损耗。4.5多类场景的综合基于Re-ID的方法，如FairMOT [43]，倾向于将每个跟踪对象（例如，人）作为一个类，并通过特征相似性来关联检测结果然而，当跟踪对象的数量非常大时，关联将是困难的与之不同的是，MOTR将每个对象表示为一个轨迹查询，并且轨迹查询集具有动态长度。MOTR可以轻松应对+v：mala2255获取更多论文12楼Zeng等表4：MOTR和现有方法在DanceTrack[28]数据集上的性能比较。现有方法的结果来自DanceTrack [28]。方法HOTAASSADetAMotaIDF1[44]第四十四话41.822.678.186.835.7[43]第四十三话39.723.866.782.240.8QDTrack [20]45.729.272.183.044.8[29]第二十九话45.527.575.988.445.2[40]第四十话43.325.474.586.241.2ByteTrack [42]47.732.171.089.653.9MOTR（我们的）54.240.273.579.751.5表5：MOTR和现有方法在BDD 100k [41]验证集上的性能比较。方法mMOTAmIDF1 IDSwYu等人 [41]25.944.58315DeepBlueAI [1]26.9/13366MOTR（我们的）32.043.53493多类预测问题，通过简单地修改分类分支的类数。为了验证MOTR在多类场景上的性能，我们进一步在BDD 100k数据集上进行了实验（见表1）。5）。在bdd100k验证集上的实验结果表明，MOTR算法在多类场景下表现良好，并且在较少的ID切换下取得了较好的性能4.6消融研究MOTR组件。表6a显示了整合不同组件的影响。将我们的组件集成到基线中可以逐步提高整体性能。由于大多数对象都被视为入口对象，因此仅使用对象查询作为原始对象会导致大量ID。引入航迹查询后，基线能够处理航迹关联，并将IDF1从1.2提高到49.8。此外，将TAN添加到基线将MOTA提高7.8%，将IDF1提高13.6%。当在训练期间使用CAL时， MOTA和IDF1分别有额外的8.3%和7.1%的改善这表明TAN结合CAL可以增强时间运动的学习。集体平均损失在这里，我们探索了视频序列长度对CAL中跟踪性能的影响。如表6b所示，当视频片段的长度从2逐渐增加到5时，MOTA和IDF1指标分别提高了8.3%和7.1%。因此，多帧CAL可以大大提高跟踪性能。我们解释了多帧CAL可以帮助网络处理一些困难的情况，如遮挡场景。我们观察到，重复的盒子，ID开关，并在闭塞场景中的对象丢失显着减少。为了验证它，我们在图中提供了一些可视化五、+v：mala2255获取更多论文MOTR：使用Transformer 13的表6：我们提出的MOTR的消融研究。所有实验都使用ResNet50中的单级C5功能。(a) 我们的贡献的效果。TrackQ：跟踪查询。TAN：时间聚集网络.CAL：集体平均损失。TrackQ TAN CAL MOTA↑ IDF1↑ IDS↓-1.2 33198(b) 在训练过程中增加集体平均损失中的视频片段长度对跟踪性能的影响。长度MOTA↑IDF1↑IDS↓2 44.9 63.4 257✓✓ ✓✓美国53.2 70.5 155(c) 训练过程中随机航迹查询的遍历概率分析pdropMOTA↑IDF1↑IDS↓5e-2 49.0 60.4 411(d) 训练过程中随机假阳性插入概率p插入的影响。p插入MOTA↑IDF1↑IDS↓0.1 51.271.7 1480.153.270.51550.353.270.51550.351.169.01800.552.162.03450.548.562.03020.750.757.7444(e) 不同组合的探索QIM网络中的τ ex和τ en。τexτen0.60.70.60.80.60.90.50.80.60.80.70.8MOTA↑IDF1↑IDS↓52.769.818153.270.515553.170.114253.570.515353.270.515552.868.3181(f) 随机采样间隔对跟踪性能的影响。间隔MOTA↑ IDF1↑ IDS↓3 53.2 64.8 218550.862.8 3241053.270.5 15512 53.1 69 158删除和插入跟踪查询。在MOT数据集中，对于视频序列中的入口对象和出口对象这两种情况，训练样本很少。因此，我们采用轨迹查询擦除和插入来模拟这两种情况，分别与概率p下降和p插入表6c报告了在训练期间使用不同p下降当pdrop设置为0.1时，MOTR达到最佳性能。与入口对象类似，将从前一帧传输的预测为误报的跟踪查询插入到当前帧中以模拟对象退出的情况。在表6d中，我们探索了不同p插入物对跟踪性能的影响。当p插入从0.1逐渐增加到0.7时，当p插入设置为0.3时，我们的MOTR在MOTA上获得最高分数，而IDF1分数正在下降。对象入口和出口阈值。表6e研究了QIM中物体进入阈值τen和离开阈值τex的不同组合的影响。当我们改变对象进入阈值τen时，我们可以看到性能对τen不那么敏感（在MOTA上在0.5%以内），并且使用37.149.8562351.659.442444.963.4257450.664.0314✓47.556.1417553.270.5155+v：mala2255获取更多论文+upli）/+upli）/+upli）/小姐$% swi（）*14 F. Zeng等(a)（b）第（2）款图5：CAL对解决（a）重复框和（b）ID切换问题的影响。顶行和底行分别是没有CAL和有CAL的跟踪结果。0.8的进入阈值产生相对较好的性能。我们还进一步通过改变物体退出阈值τex进行实验。结果表明，使用阈值为0.5的结果比0.6稍好的性能。在我们的实践中，0.6的τen在MOT17测试集上显示出更好的性能。采样间隔。在表6f中，我们评估了随机采样间隔对训练期间跟踪性能的影响。当采样间隔从2增加到10时，IDS从209显著降低到155。在训练过程中，当帧采样间隔较小时，网络容易陷入局部最优解适当增加采样间隔可以模拟真实场景。当随机采样间隔大于10时，跟踪框架无法捕获这种长距离动态，导致相对较差的跟踪性能。5限制MOTR是一个在线跟踪器，实现了端到端的多目标跟踪。由于DETR架构以及tracklet感知标签分配，它可以以联合方式即时学习外观和位置变化然而，它也有几个缺点。首先，检测新生儿肥胖症的性能远远不能令人满意（关于MOTA度量的结果不够好）。如上所述，检测查询被抑制在检测跟踪对象上，这可能违背对象查询的性质，并且限制了对新生对象的检测性能。其次，MOTR中的查询传递是逐帧执行的，限制了训练期间模型学习的效率在我们的实践中，VisTR [36]中的并行解码无法处理MOT中的复杂场景。解决这两个问题将是基于Transformer的MOT框架的重要研究课题。+v：mala2255获取更多论文MOTR：使用Transformer 15进行鸣谢：本研究得到了国家重点研发计划（No. 2017YFA0700800）和北京人工智能研究院（BAAI）的支持引用1. CodaLab竞赛- CVPR 2020 BDD 100 K多目标跟踪挑战赛（2022年7月），https://competitions.codalab.org/competitions/24910 ， [ 在线 ; 访问 19. 2022 年 7月]12日2. Bergmann，P.，Meinhardt，T.，Leal-Taixe，L.：不用花里胡哨的追踪。In：ICCV（2019）1，3，113. Bewley，A.，Ge，Z.，奥特湖，Ramos，F.，Upcroft，B.：简单的在线和实时跟踪。In：ICIP（2016）1，34. Bochinski，E.，Chelein，V.，Sikora，T.：不使用图像信息的高速检测跟踪。在：AVSS（2017）15. 北卡罗来纳州卡姆戈兹，Koller，O.，Hadfield，S.，鲍登，R.：手语转换器：联合端到端手语识别和翻译。在：CVPR（2020）36. Carion ， N. ， Massa ， F. ， Synnaeve ， G. ， N.C. ， Kirillov ， A. ，Zagoruyko，S.：使用变压器的端到端对象检测。在：ECCV（2020）1，3，47. 张，X.，张伟，Qian，Y.，Le Roux，J.，Watanabe，S.：用Transformer实现端到端多说话人语音识别。在：ICASSP（2020）38. Chu，P.，王杰，你Q林，H.，Liu，Z.：Transmot：用于多对象跟踪的时空图形Transformer。arXiv预印本arXiv：2104.00194（2021）49. Dosovitskiy，A.，拜尔湖，Kolesnikov，A.，Weissenborn，D.，Zhai，X.，Unterthiner，T.，Dehghani，M.，Minderer，M.，Heigold，G.，Gelly，S.，Uszkoreit，J.，Houlsby，N.：一张图片相当于16x16个单词：用于大规模图像识别的变形金刚。In：ICLR（2021）310. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。In：CVPR（2016）6，1011. 库恩，H.W.：指派问题的匈牙利方法。海军研究后勤季刊2（1-2），8312. Lea l-Taix 'e，L.，坎顿-费雷尔，C.， S chindler，K.：通过跟踪学习：用于鲁棒目标关联的暹罗cnn。在：CVPRW（2016）313. Li，N.，Liu，S.，Liu，Y.，赵，S.，Liu，M.：基于Transformer网络的神经语音合成。在：AAAI（2019）314. Lin，T.Y.， G oyal，P.， Girshi ck，R.，他，K.， Dol l'ar，P.：用于密集对象检测的焦距损失。In：ICCV（2017）815. Lin，T.Y.，Maire，M.，Belongie，S.，嗨，杰，P.，Ramanan，D.，多尔拉尔山口，Zitnick，C.L.：Microsoft Coco：上下文中的通用对象。In：ECCV（2014）1016. 刘志，Lin，Y.，（1996年），曹玉，Hu，H.，魏，Y.，张志，林，S.，Guo，B.：Swin Transformer：使用移动窗口的分层视觉Transformer。arXiv预印本arXiv：2103.14030（2021）317. Luit en，J.，Osep

下载后可阅读完整内容，剩余1页未读，立即下载