MOTR:Transformer在多目标跟踪中的时域建模新方法

0 下载量 43 浏览量 更新于2024-06-19 收藏 1.24MB PDF 举报
"MOTR: Transformer-based End-to-end Multi-object Tracking with Temporal Modeling" 本文主要探讨了多目标跟踪(MOT)中的一个重要问题——时域建模,并提出了一种名为MOTR的新方法。MOTR是针对现有技术的一个改进,尤其是针对那些将运动和外观建模分开的方法。传统方法通常依赖于运动和外观的相似性算法来关联目标,但这种后处理方式限制了系统利用视频序列中时间变化的能力。 MOTR借鉴了DETR(DEtection TRansformer)的设计,DETR是一个用于端到端物体检测的Transformer架构。MOTR对DETR进行了扩展,引入了“跟踪查询”(Tracking Queries),这些查询能够跨帧传输和更新,以持续迭代预测跟踪实例。通过这种方式,MOTR能够更好地捕捉时间上的连续性。 文章中还提出了跟踪感知标签分配(Tracking-aware Label Assignment)和新生对象查询(Novel Object Queries),这两者旨在更精确地追踪新出现或消失的目标。此外,时间聚集网络(Temporal Aggregation Network)和集体平均损失(Collective Average Loss)进一步强化了对时间关系的建模,从而提高跟踪性能。 实验结果显示,MOTR在DanceTrack数据集上相对于最先进的方法ByteTrack有了显著的提升,特别是在HOTA(Higher Order Association)度量上,提升了6.5%。在MOT17数据集上,MOTR在关联性方面也超越了TrackFormer和TransTrack等同类工作。MOTR不仅在性能上表现出色,而且作为一个更强大的基线,为未来的时间建模和基于Transformer的跟踪器研究提供了基础。 关键词涉及多目标跟踪、Transformer架构以及端到端方法,强调了MOTR在解决MOT问题时的创新之处。源代码可以在https://github.com/megvii-research/MOTR上获取,为研究者和开发者提供了实践和改进的基础。 MOTR通过端到端的框架整合了运动和外观信息,引入了跟踪查询和时间建模策略,显著提升了多目标跟踪的效率和准确性,为Transformer在MOT领域的应用开辟了新的道路。