P3AFormer: Transformer驱动的像素级对象追踪，MOT性能领先

38 浏览量更新于2024-06-19 收藏 1.49MB PDF 举报

本文主要探讨了一种名为P3AFormer的新型多目标跟踪方法，它是在Transformer架构基础上提出的创新思路，专注于逐像素对象跟踪。不同于传统的基于边界框或中心点的跟踪策略，P3AFormer将对象视为像素分布，旨在解决多目标跟踪（MOT）中的复杂问题，如小目标检测和遮挡处理。 P3AFormer的核心在于其设计了一个以Transformer为基础的框架，通过流信息引导逐像素特征的传播，能够在视频帧之间传递对象状态。这种方法允许模型捕捉更丰富的像素级细节，从而增强对遮挡的鲁棒性。同时，P3AFormer采用了元架构，生成多尺度对象特征图，提高了对目标尺寸变化的适应性。在推理阶段，P3AFormer引入了一种逐像素关联机制，根据逐帧的像素级预测来重建对象之间的连接。这种关联方式能够更好地处理动态场景中的目标跟踪。实验结果显示，P3AFormer在MOT17基准上表现出色，MOTA（Multiple Object Tracking Accuracy）得分达到了81.2%，超越了其他Transformer网络，甚至逼近了文献中80%的最高水平。此外，P3AFormer在MOT20和KITTI基准测试中也显示出了优于现有先进技术的成绩，这表明其在实际应用场景中具有很高的性能潜力。该工作的代码开源，可供研究者参考和进一步改进，地址为https://github.com/dvlab-research/ECCV22-P3AFormer-Tracking-Objects-as-Pixel-wise-Distributions。关键词集中在多目标跟踪、Transformer和逐像素跟踪等关键概念上，强调了P3AFormer在解决计算机视觉领域难题时的独特贡献。总体而言，P3AFormer代表了Transformer技术在多目标跟踪领域的前沿进展，展示了将高级别表示与Transformer的强大能力相结合的优势。

+v：mala2255获取更多论

文

4 Z. Zhao

等人

2.3

Transformer

革命

Transformer架构在自然语言处理（NLP）方面取得了巨大的成功[56，

14]。最近，Transformer在各种视觉任务中表现出强大的性能，例如图

像分类[15，35，55，67]、对象检测[4，82]、分割[9，8，66]、3D识别

[60]和姿态估计[32，31]。半成品[4]提出了一个简单的框架DETR端到

端的对象检测。MaskFormer[9]利用元架构通过transformers联合生成像

素嵌入和对象建议。以前的转换器在注意力中使用掩码来限制注意力

区域[56]或强制计算低，卡尔[35，77]。

2.4 视频对象检测

通过检测范式进行跟踪需要准确的对象检测和从视频中进行鲁棒的特

征学习[64，27]。 Zhu等人[83]提出密集特征传播来聚合来自附近帧的

特征。后续工作[81]改进了聚合和关键帧调度。MEGA模型[7]将来自

局部和全局尺度上的不同帧的消息组合在一起。这些方法不考虑使用

变压器的视频对象检测transVOD[79]提出通过时间查询编码器聚合来

自不同帧的Transformer输出查询。transVOD不能直接应用于我们的设

置，因为它不是一个在线算法，不进行像素预测。

2.5

逐像素技术

像素智能技术已被证明在计算机视觉的各种应用中是有效的提出了密

集融合[57]和逐像素投票网络[44，18]来克服对象姿态估计[19]中的遮

挡。 DPT [45]使用密集预测Transformer进行单目深度估计和语义分

割。金字塔视觉Transformer[59]通过关注密集预测任务来取代卷积神

经网络 Yuan等人 [70] 提出了一种用于人体姿势估计的高分辨率

Transformer。相反，我们的P3AFormer探索了MOT领域中像素技术的

力量。

逐像素传播、预测和关联

不同于通过边界框[75，51，1]或作为点[68，80]跟踪对象，我们建议

将对象作为像素分布进行跟踪。具体来说，P3AFormer首先从每个单

帧中提取特征（第二节）。3.1），通过逐像素特征传播总结了来自

不同帧的特征（第3.1节）。3.2），并通过对象解码器预测逐像素对

象分布（ Sec.3.3）。培训目标见第二节。 3.4. 在推理过程中，

P3AFormer进行像素关联（第二节）。3.5）从对象分布构建轨迹。

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

P3AFormer: Transformer驱动的像素级对象追踪，MOT性能领先

优秀毕业设计：基于transformer的序列数据二分类完整代码+数据可直接运行

毕业设计：基于transformer的序列数据二分类完整代码+数据可直接运行.zip

基于transformer的视频对象识别跟踪.zip

P3AFormer如何使用Transformer架构实现逐像素级别的多目标跟踪？

P3AFormer模型在处理遮挡对象时，是如何通过Transformer架构实现在逐像素级别上的多目标跟踪的？

在P3AFormer中，Transformer是如何被设计和应用以实现逐像素级别的多目标跟踪的？

基于transformer的目标跟踪

transformer多目标跟踪

基于transformer的单目标追踪

叙述基于transformer的目标跟踪算法

最新资源