P3AFormer: Transformer驱动的像素级对象追踪,MOT性能领先

0 下载量 173 浏览量 更新于2024-06-19 收藏 1.49MB PDF 举报
本文主要探讨了一种名为P3AFormer的新型多目标跟踪方法,它是在Transformer架构基础上提出的创新思路,专注于逐像素对象跟踪。不同于传统的基于边界框或中心点的跟踪策略,P3AFormer将对象视为像素分布,旨在解决多目标跟踪(MOT)中的复杂问题,如小目标检测和遮挡处理。 P3AFormer的核心在于其设计了一个以Transformer为基础的框架,通过流信息引导逐像素特征的传播,能够在视频帧之间传递对象状态。这种方法允许模型捕捉更丰富的像素级细节,从而增强对遮挡的鲁棒性。同时,P3AFormer采用了元架构,生成多尺度对象特征图,提高了对目标尺寸变化的适应性。 在推理阶段,P3AFormer引入了一种逐像素关联机制,根据逐帧的像素级预测来重建对象之间的连接。这种关联方式能够更好地处理动态场景中的目标跟踪。实验结果显示,P3AFormer在MOT17基准上表现出色,MOTA(Multiple Object Tracking Accuracy)得分达到了81.2%,超越了其他Transformer网络,甚至逼近了文献中80%的最高水平。 此外,P3AFormer在MOT20和KITTI基准测试中也显示出了优于现有先进技术的成绩,这表明其在实际应用场景中具有很高的性能潜力。该工作的代码开源,可供研究者参考和进一步改进,地址为https://github.com/dvlab-research/ECCV22-P3AFormer-Tracking-Objects-as-Pixel-wise-Distributions。 关键词集中在多目标跟踪、Transformer和逐像素跟踪等关键概念上,强调了P3AFormer在解决计算机视觉领域难题时的独特贡献。总体而言,P3AFormer代表了Transformer技术在多目标跟踪领域的前沿进展,展示了将高级别表示与Transformer的强大能力相结合的优势。