在线记忆对象跟踪算法MeMOT：基于transformer的多目标跟踪

10 浏览量更新于2023-10-25 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8090MeMOT：带记忆的蔡家瑞1* 徐明泽2<$李伟2熊元军 2夏伟2涂卓文2StefanoSoatto21华盛顿大学2AWS AI Labsjrcai@uw.edu，{xumingze，wayl，yuanjx，wxia，ztu，soattos} @ amazon.com摘要我们提出了一个在线跟踪算法，执行对象检测和数据关联下一个共同的框架，能够链接对象后，很长一段时间跨度。这是通过保留大的时空存储器来存储被跟踪对象的身份嵌入，并且通过根据需要自适应地引用和聚合来自存储器的有用信息来实现的我们的模型称为 MeMOT ，由三个主要模块组成，都是基于transformer的：1）假设生成，在当前视频帧中产生对象建议; 2）记忆编码，从记忆中提取每个跟踪对象的核心信息; 3）记忆解码，解决对象检测和数据关联任务帧t存储器缓冲器同时进行多目标跟踪。在广泛采用的MOT基准数据集上进行评估时，MeMOT观察到非常有竞争力的性能。1. 介绍在线多目标跟踪（MOT）[3，13，57，70]旨在定位一组目标（例如，行人），同时随时间跟随它们的轨迹，使得相同的对象在整个输入视频流中具有相同的身份。早期的方法主要通过两个单独的阶段来解决这个问题：1）对象检测阶段，检测各个帧中的对象实例[14，17，28，42，72];以及2）数据关联阶段，通过对跟踪对象的状态变化进行建模并解决它们与检测结果之间的匹配问题，将检测到的对象实例在时间上联系起来[5，70]。尽管最近的研究[34，69]表明，结合这两个阶段可能是有益的，但这种结合通常会导致在对对象随时间的变化进行建模时关联模块的不必要简化。在本文中，我们提出了一个基于transformer的跟踪模型，称为MeMOT，它执行对象检测，*这项工作是在亚马逊实习期间完成的。†通讯作者。图1. MeMOT概念的说明。时空存储器存储所有被跟踪对象的长范围状态，并且随时间更新。内存缓冲区中的每一行代表一个活动轨迹。“人物裁剪”指示他们的历史状态被保存在存储器中，并且空白框指示该人物在那时未出现在帧中、被遮挡或未被检测到。跟踪图显示，MeMOT可以保持活动轨迹（黄色和蓝色框），在遮挡后链接重新出现的轨迹（红色框），并生成新的对象（绿色框）。在一个共同的框架下，以在线方式进行联合。MeMOT的关键设计是建立一个大的时空存储器来存储跟踪对象的过去观察。通过参考相关信息，在每个时间步长中对存储器进行主动编码，以便更准确地近似关联任务的对象的状态。从时空记忆中提取的跟踪对象的丰富表示使我们能够解决目标检测和关联任务，统一解码模块。它直接输出已跟踪并在最新帧中再现的对象实例和首次看到的新对象实例。MeMOT的概念如图所示。1.一、在每个时间步，MeMOT运行以下三个主要组件：1）假设生成模块，其从输入图像特征图产生对象提议，对象i…目标j…对象k…T-Tt+1-T t+2-Tt+3-Tt+4-T t+5-Tt4t3t-2 t-1MeMOT8091一组嵌入向量; 2）存储器编码模块，其将对应于每个被跟踪对象的空间-时间存储器编码成称为轨迹嵌入的向量;以及3）存储器解码，其输入建议和轨迹嵌入，并且同时解决多对象跟踪的对象检测和数据关联任务假设生成模块由基于变换器的编码器-解码器网络实现[6，73]。它产生一组嵌入向量，称为投影嵌入，每个向量代表一个假设的对象实例。记忆编码模块首先将每个对象的时空记忆分为短期和长期记忆，并通过交叉注意模块将它们聚合到一个嵌入向量中[50]。然后，这两个向量通过自注意机制相互作用，以在该时间步长产生被跟踪对象的轨迹嵌入。然后，将建议和轨迹嵌入与原始图像特征一起馈送到存储器解码模块。对于每个轨迹嵌入，它产生在该帧中被跟踪的对象的位置和可见性。对于每个建议嵌入，它预测这个假设的对象实例是否描绘了一个新的对象，一个跟踪的对象，或者仅仅是一个背景区域。MeMOT模型的图示如图2所示。整个模型可以在具有对象边界框和身份注释的视频数据集在推理过程中，我们在每个时间步的模型的一个推理运行中获得跟踪输出，而无需任何额外的优化[9，41]或后处理[3，48，70]。我们在 MOT挑战 [10， 35]行人跟踪基准上评估MeMOT。实验结果表明，MeMOT实现了国家的最先进的性能与所有算法中的一个在网络关联求解器，并与那些利用后网络关联过程具有竞争力。具体来说，MeMOT在对象检测和数据关联方面优于其他基于Transformer的方法。广泛的消融研究进一步验证了MeMOT的设计和有效性。2. 相关工作经典跟踪方法跟踪在计算机视觉中得到了很好的研究[2，23，24，61]。应对跟踪结果[23]和对象外观/位置/形状[2]的潜在不确定性一直是一个核心挑战。经典的非深度学习方法[61]奠定了坚实的数学和统计基础。具体而言，卡尔曼[55]和粒子滤波器[20]被广泛用于解决跟踪问题[22，46，62]。针对在线体育视频中的MOT，提出了基于渐进观察的贝叶斯推理方法[63提出了一种基于空间和时间形状表示的贝叶斯框架[18]，用于多线索3D可变形物体跟踪。在这些方法中，最优滤波器保持跟踪状态，其总结历史信息并估计新帧的跟踪结果。在线性高斯情况下，最优状态确实可以被估计，而对于更一般的非线性、非高斯情况，难以用有限维状态表示来估计最优状态。例如，视觉多对象跟踪中的遮挡显然是非线性和非高斯的。为了应对这一挑战，需要可以访问多个帧状态（离线跟踪）的跟踪方法[7，40MOT与 CNN 。 MOT [8 ， 15 ， 51 ， 57]的典型方案Tracktor++ [3]将跟踪对象的边界框作为区域提案传播到下一帧。Cen-terTrack [71]采用额外的基于点的热图作为输入，并匹配感受野内任何位置的对象。JDE[26，54，65，70]分别用两个同质分支构建，用于对象检测和ReID特征提取。联合检测和跟踪模型提高了运行时间，但牺牲了遮挡后的跟踪恢复，并且无法重新连接长期丢失的对象。MOT与Transformers视觉变换器已成功应用于图像识别[6，11，29，73]和视频分析[1，4，30，45]最近。在跟踪中，Track-Former [34]和MOTR [69]通过连接对象和自回归跟踪查询作为下一个时间步长中的Trans- former解码器的输入来同时执行对象检测和关联。另一方面，TransCenter [67]和TransTrack [48]仅使用Transform- ers作为特征提取器，并循环传递跟踪特征以积极学习每个对象的聚合嵌入。TransMOT [9]仍然使用CNN作为检测器和特征提取器，并使用Transformers学习亲和矩阵上述工作探索了将对象状态表示为动态嵌入的机制。然而，长期时空观测的建模和自适应特征聚合方法还不发达。记忆网络。NLP [19，47，56]中提出了使用记忆网络的开创性工作，重点关注时间推理任务，如问答[25，64]和对话系统[58]。视频分析任务，如动作识别[59，66]和视频对象分割[32，36]，利用外部存储器来存储和访问延长序列中的时间索引特征，从而显著提高记忆过去的能力。最近，记忆网络已被引入跟踪。MemTrack [68]从内存中读取残留模板，并将其与初始模板组合以更新目标的表示。STMTrack [16]用当前帧指导信息检索，并根据需要自适应地获得所有有用的信息。然而，这些工作主要集中在单目标跟踪（SOT）上，而不需要考虑目标间的关联。8092Transformer编码器Transformer解码器K、普编码特征假设生成存储器缓冲器QConcat关联求解器输出“1”Xt-1Xt-2Xt-…内存聚合器Xt-T不”内存编码存储器解码器更新存储器联系我们不T{T T· · · T}Pro0011NtProNtNtTCKPro[Bt]]和置信度评分[St∈∈ProPro图2. MeMOT的可视化，其运行三个主要组件：1）假设生成模块ΘH，其产生当前视频帧的对象提议，2）存储器编码模块ΘE，其检索每个跟踪对象的核心信息，以及3）存储器解码模块ΘD，其同时解决对象检测和数据关联任务。MeMOT维护一个内存缓冲区来存储跟踪对象的长距离状态，以及一个有效的编码-解码过程，该过程在长时间跨度后检索用于链接对象的有用信息。每个假设对象被预测为新对象、跟踪对象或背景区域。第我们建议使用一个大的时空存储器，因此，嵌入为[Q_p_r_o，Q_tck]。然后那个疯子3. 带记忆的3.1. 概述给定视频帧序列I= I0，I1，.，I T，在线MOT的目标是定位一组K个对象，同时通过因果处理随时间跟随它们的轨迹=0，1，. ，K。在本文中，我们提出了一种端到端的跟踪算法，称为MeMOT，它联合学习的对象检测和关联。与大多数现有方法[3]不同的是，在相邻帧之间传播跟踪对象的状态，我们建立了一个时空存储器，存储所有跟踪对象的长距离状态，以及一个存储器编码-解码过程，有效地检索有用的信息，用于在长时间跨度后链接对象。具体地，如图2所示，MeMOT由三个主要组件组成：1）帧级假设生成模块ΘH，其产生针对MMOT的区域提议。并且基于这些输出EM来预测被跟踪对象床上用品最后，使用先前跟踪的对象的位置和状态来更新它们的轨迹和存储器。在中初始化“新生”对象，并将3.2. 假设生成假设生成网络ΘH是用基于变压器的编码器-解码器架构构建的[6，73]。它产生一组Nt个区域建议，这些建议或者为当前视频帧初始化 ΘH编码器采用序列化特征映射z tRC× HW作为输入，其由CNN骨干从输入帧I t中提取。zt中的每个元素都补充了一个唯一的位置编码，以指示其空间位置。使用多层Transformer编码器将图像特征编码为ztRd×HWΘH解码器接收编码特征2）轨道级存储器编码模块ΘE，其聚合轨道嵌入，以及3）和空对象查询（表示为可学习的嵌入-dings），并生成最终的建议嵌入集存储器解码模块ΘD这是一个新的，不Pro ∈Rpro×d.客观性得分和边界与跟踪对象的连接。在时间步t，ΘH生成每个提议的盒子，可以从Qt预测- 是的不Pro 区域建议，表示为建议嵌入t职业∈Rpro使用基于transformer的架构。3.3. 时空记忆存储器编码器ΘE自适应地将“历史”转换为“每个轨道的状态我们将所有N个跟踪对象的历史状态存储在时空存储缓冲器X∈RN×T ×d中。它保留记作磁道嵌入∈Rtck×d. 通过查询至多NMax 对象和最大值TMax 时间步长具有[Qt]的编码图像特征ttck ]，记忆对于每个对象。存储器被实现为具有第一-解码器ΘD计算对象间关系并更新先进先出（FIFO）数据结构。在时间步长t处，被跟踪对象新对象抑制对象背景……输入视频流、，QNQ为MOT实现跨时间的鲁棒对象关联，ttckttck ]的新8093DMATKASTPro1^ ^您的位置：TCK我我我^∈我我^ ^您的位置：我我Kk=1：Ntck我设置阈值，并仅保留具有% st的iDprotck≥. 再-k kk（DMAT），Qt−1={qdmatt−1}k=1：NTCK使用f长。当每个轨迹片段被启动时，它与其他轨迹片段相同的DMAT相关联;之后，在时间步长t >0，DMAT从前一步迭代更新该设计将在第2.2节中进一步验证四点五分。短期和长期分支的输出，表示为Aggregated短期代币（AST）Qt和聚合长期代币令牌（ALT）Qt，然后通过f融合来融合。它输出ALTt t轨迹嵌入Qtck和更新的Qdmat，其中后者被保留用于下一个时间步。3.5.存储器解码存储器解码器ΘD将建议嵌入、跟踪嵌入和图像特征作为输入以产生最终跟踪结果。它是通过使用堆叠的Transformer解码器单元来实现的，自动提案和轨道嵌入[Qtttck ]使用作为查询。 ΘD从下式中获取编码图像特征图3. Memory Aggregator的插图，它由三个注意力模块组成：1）短期f短，平滑最近帧中的噪声，2）长期f长，从长距离上下文中提取支持性特征，以及3）融合块，聚合短期和长期分支。聚合的嵌入将被用作下一个时间步的轨迹嵌入（蓝-白查询）和最新的DMAT（蓝-红查询）。理论表示为过去T帧中N t−1个活动对象的状态，Xt−1− T：t−1={x t−1− T：t−1}t−1，其中xt−1−T：t−1是第k个对象的状态，ΘH作为键和值。对于Θ的输出[ Q t，Q t ]中的每个条目qt，解码过程生成三个预测：方框（采用相对于学习的参考点）、对象性分数和唯一性分数。查询q t的对象性得分o t的范围从0到1，其中o t= 1意味着模型确定条目描绘可见对象。唯一性分数ut的范围也从0到1。当ut= 1时，模型预测由q t描述的对象是唯一的，并且应该被包括在跟踪输出中。否则，它必须被压制。我们定义t ttt tt如果此对象未出现在帧中，则用0填充It. 当T大于Tmax时，ui=1，如果qi Qtck. 当模型学习预测u时，对于每个提案条目，我们强制要求提案仅从记忆中毕业。NKmax设为当它与任何对象无关，认为是新的（ut=1）。非常大（例如，300或600）来覆盖视频中的对象的典型数量，并且Tmax的选择是24。3.4. 记忆编码如图3所示，我们对记忆进行编码，并使用三个注意力模块提取轨迹嵌入：目标被追踪然后，我们可以将提案和跟踪条目的统一置信度得分定义为客观性和唯一性得分的乘积：s t=o t·u t。（一）建议和跟踪一个短期的块f用于组装嵌入查询被称为StSt分别表示。为短每个条目tTCKProt，在哪里相邻帧以平滑噪声，2）长期qi，模型预测其边界框bi块f长用于提取节奏中的相关特征bt∈R4×1包括物体由存储器覆盖的Ral窗口，以及3）用于聚集来自短期和长期分支的嵌入的融合块Ffusion和身高。上述公式使我们能够同时解决目标检测和数据关联问题。在-t t对于每个tracklet，短期模块fshort需要作为其先前的Ts状态的输入，而长期的因此，我们对[Q^pro，Q^tck]的每个条目进行阈值处理，我理论模块f长期利用较长的历史，T l（T sT1）。fshort和flong是用筛选出的条目将自动带有曲目标识，或者根据它们是否来自于不不多头交叉注意模块，其中历史状态是关键和价值的输入。f short的输入查询是最近的状态Xt-1，而动态更新的嵌入，称为动态内存聚合令牌Qpro或Qtck。我们就可以得到最终的跟踪结果通过将继承的或新形成的轨道标识与相应的边界框预测相结合不需要进一步的后处理[3，57，70]。DMAT% AT$'（短期记忆长期记忆对象的t-1-T到t-1的内存…QKVVKQCross-Attn模块Cross-Attn模块2019-05-22 01：01&：02（Concat聚合短期代币阿斯特丽德QKV$聚合长期代币A）T$Self-Attn模块）*s+#n轨道嵌入更新对于T+1内存聚合器，8094∈∈^在Q 中尝试，我们分配地面实况边界框xes，重新-×不Σ不Σ边界框到Q^中的条目，我我我图4.为跟踪对象、新对象、抑制对象和背景指定地面实况的图示。我们为每种类型的条目显示指定的地面实况分数。为ot、ut和bt生成监控信号在每一帧上，我们首先分配客观分数，不TCK被跟踪的对象存在于该帧中。对于每一个，不Pro没有新的或已经跟踪的，通过每个条目二分匹配[6，12]。然后，我们将groundtruth唯一性得分分配给每个提案条目，如图所示4、基于其匹配对象是否以前见过。3.6.培训MeMOT我们监督MeMOT与跟踪损失计算其中λtckR和λdetR分别是用于平衡跟踪损失和辅助检测这里Nt表示在时间t时帧中可见对象的总数。4. 实验4.1. 数据集和指标我们在MOT挑战[10，35]上评估MeMOT（即，MOT16 ， 17 20 ）数据集。作为标准方案，使用CLEAR MOT REPORT[35]和HOTA[33]进行评价。4.2. 设置实施详情。我们在PyTorch [38]中实现了我们提出的方法，并在具有8个Tesla A100 GPU的系统上进行了所有实验。调整输入帧的大小，使其短边为800像素。我们使用常规的数据增强，包括随机翻转和裁剪。我们采用ResNet50 [21]和可变形DETR [73]在COCO [27]上预训练用于假设生成。对于所有Transformer单元，我们将其层数减少到4. 我们的内存缓冲区最多包含300条MOT 16/17基准测试曲目和600条MOT 20基准测试曲目。MOT 16/17的最大时间长度为22，MOT 20的最大时间长度为20，这主要受到GPU内存的限制。我们遵循以前的工作[6，73]，并选择系数在上述分配过程之后的ot，ut，bt上，匈牙利损失λcls，λL和λiou分别为2，5，2，Ltck我我=λcls我（L′obj+L'uni ）+λL1L′bbox +λiou 莱乌、（二）1活泼地我们在等式中设置λdet=λtck=14.第一章超参数。我们采用了以剪辑为中心的训练。的其中λs是权重缩放的超参数，Lobj和Luni是对象性分数和唯一性分数的焦点损失，Lbbox是边界框回归的L1损失，Liou是广义IoU损失[43]。此外，我们将检测损失应用于类似于可变形DETR的建议嵌入具体来说，我们将一个辅助线性解码器附加到建议嵌入中，以输出边界框和对象分类分数。然后，我们将对象实例分配给它们，就像在正常的对象检测任务中一样[73]，并类似地计算损失，Ldet=λclsLobj+λL1Lbbox+λiouLiou。（3）注意，辅助解码器在训练之后被丢弃遵循MOTR [69]，我们通过所有单个跟踪查询的损失之和（由对象实例的总数归一化）来计算剪辑对于具有T帧的剪辑，总体损失L剪辑是跟踪损失和辅助检测损失的组合，如下：Lclip=λ tckLclip−tck+λ detLclip−det每个片段的长度从2开始，每20个时期以步幅4增加每个片段中的帧以1到10之间的随机间隔进行采样我们的模型使用 AdamW [31] 优化器训练了 200 个epoch。学习率开始为2 10−4，在第100个历元时下降10。批量大小设置为每个GPU 1个剪辑培训数据。与最先进的方法相比， MeMOT 是在CrowdHuman [44]验证集和MOT17训练集上训练的，用于MOT16和MOT17基准测试MOT20未使用额外数据。使用额外数据进行训练可以显著提高跟踪性能[70]。因此，如表1所示，我们标记出附加训练数据的大小（即，帧数），每个使用的方法，其中MOT训练集本身被称为1。0×。更多细节见附录。4.3. 与最新方法的为了公平比较，我们主要将MeMOT与具有网络内关联求解器（IAS）的方法进行比较，这些方法直接预测身份而无需任何后处理。的t t t为λtck Σ不|Qtc,Qpro|L（i，t）+λdet<$1|Qpro|L（j，t），其它类型的方法应用后网络关联t=0Ntt=0i=0时TCKTt=0Ntj=0det（四）被跟踪对象客观性评分= 1唯一性评分= 1置信度评分= 1新对象客观性评分= 1唯一性评分= 1置信度评分= 1抑制对象客观性评分= 1唯一性评分= 0置信度评分= 0置信度分数背景客观性评分= 0唯一性评分= 1置信度评分= 0边界框客观性评分关联求解器Σ8095求解器（PAS）对检测结果执行一系列规则-基于链接，如匈牙利匹配与卡尔曼8096↑ ↑ ↑ ↑ ↓ ↑ ↓ ↓↓××方法训练数据Transformer IDF1 MOTA HOTA AssA IDsw MT（%）ML（%）FP FNMOT16[35]FairMOT [70]13.1x72.369.358.358.081540.316.71350141653TubeTK [37]44.5x62.266.950.847.3123639.016.11154447502CTracker [39]1.0x57.267.648.843.7189732.923.1893448350JDE [54]10.2x55.864.4--154435.420.0--MOTR [69]1.9xC67.066.8--58634.125.71036449582MeMOT（我们的）1.9xC69.772.657.455.784544.916.61459534595MOT17[35]CorrTracker [52]13.1xCC73.676.560.758.9339647.612.72980899510FairMOT [70]13.1x72.373.759.358.0330343.217.327507117477[49]第四十九话18.7x68.973.855.553.1369943.817.228998115104GSDT [53]10.2x66.573.255.251.0389141.717.5263397120666[60]第六十话3.8倍63.969.152.750.8355536.421.520892150060[第48话]3.8倍63.575.254.147.9461455.310.25015786442[67]第六十七话3.8倍62.273.254.549.7366340.818.523112123738TubeTK [37]44.5x58.663.048.045.1413731.219.927060177483CTracker [39]1.0x57.466.649.037.8552932.224.222284160491TrackFormer [34]1.0xC63.965.0--3258--70443123552MOTR [69]1.9xC67.067.4--199234.621.532355149400MeMOT（我们的）1.9xC69.072.556.955.2272443.818.037221115248MOT20[10]FairMOT [70]8.2x67.361.854.654.7524368.87.610344088901[第48话]2.7xC59.465.048.945.2360850.113.427191150197[67]第六十七话2.7xC49.658.543.537.0469548.614.964217146019MeMOT（我们的）1.0xC66.163.754.155.0193857.514.347882137983表1. MOT挑战数据集的评价结果。具有灰色背景的跟踪器使用网络内关联求解器（IAS），而具有白色背景的其他跟踪器使用后模型关联求解器（PAS）。IAS的最佳结果以粗体表示过滤和重新识别特征。一般来说，这些经验的链接策略限制了它们的实用性和可扩展性。正常情况下的结果。表1显示，MeMOT在IAS方法中在 MOT 16/17 中实现了最先进的性能（ w/ 灰色背景）。与使用较大检测数据集进行预训练的PAS方法相比，它还获得了令人鼓舞的检测准确性（MOT16/17上的72.6 和72.5对于更全面的指标，IDF 1 和HOTA，MeMOT实现了与最先进的JDE跟踪器（Fair-MOT）相当的结果，但使用的训练数据少了5个。MeMOT可以跟踪更多的对象，但产生更少的ID开关（IDsw）。例如，在MOT16上，MeMOT获得了44.9%的大部分跟踪（MT）和16.6%的大部分丢失（ML），比其他方法至少高出4.5%，但只能获得845个IDsw。在MOT17上，TransTrack和TransCenter显示出有希望的检测结果，MT（55.3）和ML（10.2）更好，但是，它们产生的IDsw和IDF1（63.5 vs. 62.2 vs. 69.0）比我们多34%和69%与所有基于Transformer的方法相比，MeMOT在关联准确度（AssA）测量的数据关联方面明显更这显示了由我们的记忆设计驱动的可学习联想的有效性。拥挤场景的结果。MOT20是一个更有挑战性的基准，具有拥挤的场景和严重的阻塞。表1显示，MeMOT实现了与最先进的JDE方法相当的性能（Fair-MOT17-01MOT20-04图5. 我们在MOT17和MOT20上的跟踪性能示例。每个身份都显示在一个彩色的边界框中，并显示过去150帧的轨迹。MOT），但IDsw减少了63%请注意，FairMOT的训练数据比我们的多8个。与其他基于Transformer的方法相比，MeMOT的性能超过它们6.7 IDF1和5.2 HOTA。通过获得更低的我们观察到基于IoU的关联方法（例如，transCenter和transTrack）不能处理频繁的遮挡，而对于基于特征的重新识别方法（例如，FairMOT），由于小的对象尺寸，难以获得高质量的嵌入来测量对象间相似性。4.4. 可视化对象轨迹在图5中可视化。结果的MOT 17 -01表明，即使当物体频繁地相互经过时，MeMOT也会产生长时间的、一致的预测。MOT 20 -04的结果表明，MeMOT8097编号：5512812712612 512412312 212112011 9长期关注短期关注表2.不同短时记忆长度的比较编号：6212812712612512412312 212112 0119长期关注短期关注图6. 长期和短期关注的可视化。左图：帧118和129的跟踪结果，其中跟踪的对象以具有置信度分数的颜色显示。右图：学习了两个选定身份的中间框架的长期和短期注意力图（即，ID 55和62）。颜色越深，表示注意力越强。提高了在人群场景中的目标检测和关联能力由于对象尺寸小且照明差，基于特征相似性的关联方法[54，70]不稳定，导致较高的IDsw。我们在补充材料中提供了视频演示，以便进行详细比较。在图6中，我们还可视化了记忆聚合器的注意力权重，以详细说明从记忆中引用了哪些信息。对于从帧125到128被对象60遮挡的对象55，在遮挡之前的嵌入（帧124）和全身特征（帧121）对遮挡之后的重新链接（帧129）贡献最大。并且他的短期注意力权重在较少被遮挡的帧（帧128）上高于完全被遮挡的帧（帧126和127）。对于未被遮挡的对象（即，对象62），则短期记忆（帧126到128）上的注意权重较高，并且较远的帧较少被注意。这些观察结果验证了我们的分类聚合器能够捕获不同的对象特征，特别是当对象相互交叉时。4.5. 消融研究我们尝试不同的内存和模型设计选择。除非另有说明，否则我们通过将所有Transformer单元的层数从4减少到2来使用修剪模型。模型在MOT17训练集上进行训练，并在MOT15训练集上进行验证排除与训练集重叠的验证视频短期记忆长度的影响。表2通过将长期记忆长度T1保持为24来比较使用不同短期记忆长度的性能它表明，只有使用最后两个观察（即，Ts=2）对短时记忆聚合的影响使Per-1略有降低。这一观察结果与先前工作[34，48]中的结果一致，该工作仅在以下情况下传播跟踪结果表3.长时记忆长度的比较qsQLIDF1 MOTA HOTA IDswDetAASSAC73.1568.0857.9263.10C67.2569.8811258.0161.76C2019 -05 - 29 10：00：0072.30 62.68 58.84 103 55.7263.37表4.短期交叉注意查询qs和长期交叉注意查询ql的不同配置比较。补间相邻帧。另一方面，将短期长度从3个增加到5个不会产生很大的差异。我们认为这些信息差距是由长期记忆补偿的。考虑到准确性-效率权衡，我们在其他实验中将Ts长期记忆长度的影响。MeMOT使用长期记忆来减轻遮挡问题。表3示出了从3到24的不同长期记忆长度T1的效果。请注意，由于硬件限制，我们将最大长度设置为24。随着T1的增长，关联性能随着更少的IDsw和更高的IDF1而保持增加。与启发式内存聚合相比。本文首先通过与启发式算法的比较，探讨了内存聚合模块的设计.考虑到音轨长度可能相对较长（最多24个），我们不连接嵌入，但测试池化方法。然后，可以通过使用最近T帧上的算术平均值或最大范数来进行聚合表5显示，使用这些简单的池化方法无法捕获信息跟踪特征，导致IDF1和MOTA的性能大幅下降。与基于注意力的记忆聚合相比。我们在记忆编码中实验了另外两个基于注意力的聚合设计。第一种方法是只使用交叉注意模块，不分离长短记忆。这个基线使用最新的观测来查询对象如表6所示，它产生更差的关联性能，对于 T=3 和 T=24 ， MOTA 分别为 -0.51% 和 -0.34% 。IDsw也增加了6和44。受LSTR [66]的启发，第二种方法是使用聚合短-129118TsTlIDF1 MOTA HOTA IDsw DetA AssA272.5265.6258.997656.9762.14342473.1572.4068.0867.1159.7559.51939357.9257.5863.1062.82572.7566.6559.489257.4262.87TsTlIDF1MotaHOTA IDswDetAASSA371.2767.1459.09 13657.8561.4153 10202471.70 67.94 59.31 136 58.24 61.5071.6668.2959.53 11758.3572.83 68.2159.8596 58.03 63.0073.1568.08 59.759357.928098方法参数IDF1MotaHOTAIDs我们-73.1568.0859.7593平均值（T=3）25.0430.7221.89267池化最大值（T=3）平均值（T=24）46.83-41.28-7.2935.44-235-最大值（T=24）25.7810.206.54332表5.与启发式内存聚合设计的比较。方法参数IDF1MotaHOTAIDs我们-73.1568.0859.7593单个T=372.6468.7458.94137T=2472.8166.2558.7399多头做空-70.3065.3957.03101表6.自适应内存聚合设计的比较更新IDF1MotaHOTAIDswDetAASSAC73.1568.0859.759357.9263.1061.0343.4249.2416142.4057.96表7. Q dmat更新的比较。单个69.0963.5152.8610455.7661.77双73.1568.0859.759357.9263.10表8.单次和双次置信分数之间的比较从长期记忆中提取有用信息。结果表明，这种设计也降低了性能。我们认为，在LSTR关注的动作检测任务中，每个帧的结果是独立的，缺乏短期特征对未来预测的影响有限。然而，关联误差可以在MOT中传播，因此使用长期特征来补偿短期特征是更可取的。使用可学习的令牌与最新的观察结果进行分类聚合。我们探索使用可学习的标记或最新的观察结果进行长期和短期记忆聚合，如表4所示。对于短期令牌（行2与行4），使用最新观察（行4）产生更好的关联性能（+5.05IDF1）。在修复短期令牌后，使用可学习令牌进行长期记忆聚合可以获得更好的性能（第1行与第4行），IDF 1为+0.85，IDsw为-10。值得注意的是，在长期和短期分支中使用可学习的代币都是有风险的，IDF1和MOTA分别下降到41.09%和59.80%。这些观察结果证实了我们的直觉，将长期和短期动态更新内存聚合令牌。由于我们将在线跟踪建模为一个迭代过程，因此值得研究的是，在推理过程中是否应该更新表7中的结果表明，使用最新信息动态更新查询有助于提高检测和跟踪性能。通过将第一手观察传递给长期查询，提取当前关联的更详细的信息，而不是一般信息。训练MeMOT的独特性评分的效果。我们引入了独特性分数，将新的检测与跟踪对象联系起来，并拒绝误报。在这里，我们通过删除唯一性得分的预测分支来评估其贡献，如表8所示。在没有唯一性分支（单个输出）的情况下，存在更多的假阳性检测和IDsw。我们通过将对象性和唯一性的预测分为两个头来分离输出分类分数的混合含义。在单头架构中，对于跟踪对象查询，分数意味着存在的置信度;对于建议查询，它意味着作为新生对象的置信度。虽然这两个目的共享相同的分类层，但低置信度值是模糊的：它意味着非对象性，或者不是新对象。我们的设计消除了模糊性，避免了分类层的训练不足。4.6. 限制由于MeMOT目前使用监督学习进行训练，因此它需要具有跟踪注释的视频数据集。然而，由于注释视频的高成本，用于跟踪的现有数据集在大小和尺寸上仍然有限。开发注释有效的训练方法是克服这一困难的关键。虽然时空存储器被证明是有效的跟踪对象一致，它确实增加了GPU的内存成本在训练中。这限制了存储器的时间长度，因此要求进一步提高效率。5. 结论我们提出MeMOT在线MOT共同执行的对象检测和数据关联。MeMOT保留了大量的时空记忆，并通过基于注意力的聚合器主动编码过去的观察结果。通过将对象表示为动态更新的查询嵌入，MeMOT用属性预测对象状态，树枝1)由于时间变化，长期记忆可能不太能提供信息以匹配最新的观察结果，但在轨迹片段内提供不同的特征。为了提取支持性的上下文信息，使用可学习的令牌是更有效的。2)短时记忆特征具有很高的相似性，因此直接用最新的观测值查询它们3)这两个分支可以获得互补的信息。没有任何后处理机制大量的实验验证了MeMOT在拥挤场景中目标定位和关联的有效性。MOT技术有许多实际应用，如病人或老年人健康监测、自动驾驶和协作机器人。然而，可能会有非预期的使用，我们提倡负责任的使用，遵守适用的法律法规。Confidence IDF1 MOTA HOTA ID DetA AssA8099引用[1] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL uc i c′，andCorde l iaSchmid. Vivit：一个视频视觉Transformer。arXiv：2103.15691，2021。2[2] Boris Babenko，Ming-Hsuan Yang，and Serge Belongie.基于在线多实例学习的滚动目标跟踪PAMI，2010年。2[3] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在ICCV，2019年。一、二、三、四[4] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部在ICML，2021。2[5] GuillemBra so'和LauraLeal-Taix e'。学习多目标跟踪的神经在CVPR，2020年。1[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。二三五[7] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪在世界坐标与单一的，最低限度的校准摄像机时代. ECCV，2010年。2[8] 楚鹏和凌海滨。FAMNet：联合学习的特征，亲和力和多维分配的在线多目标跟踪。在ICCV，2019年。2[9] Peng Chu，Jiang Wang，Quanzeng You，Haibin Ling，and Zicheng Liu. TransMOT：用于多目标跟踪的时空图形变换器。arXiv：2104.00194，2021。2[10] 帕特里克·登多弗，哈米德·雷扎托维奇，安东·米兰，贾文·施，丹尼尔·克雷默斯，伊恩·里德，斯特凡·罗斯，康拉德·辛德尔和劳拉·里尔-塔克斯。MO T20：拥挤场景中多目标跟踪的基准a

下载后可阅读完整内容，剩余1页未读，立即下载