GNN3DMOT：融合2D-3D特征的3D MOT跟踪新方法

PDF格式 | 1.8MB | 更新于2025-01-16 | 176 浏览量 | 举报

3D MOT（三维多目标跟踪）是自动驾驶和其他自主导航系统中至关重要的技术，它涉及实时跟踪多个目标在三维空间中的动态。当前的方法通常采用传统的跟踪检测流程，首先由2D或3D特征提取器对目标进行独立特征提取，形成各自对象的特征表示，接着计算亲和矩阵来衡量对象间的相似度，最后利用匈牙利算法进行数据关联。然而，这种标准方法存在一个问题，即单靠独立的特征提取可能不足以捕捉对象之间的显著差异，特别是对于外观和运动特征的区分。为此，本文提出了两项创新： 1. **GNN3DMOT：图形神经网络应用于3D MOT** - 作者引入了图神经网络（GNN）作为新的特征交互机制，允许一个对象的特征在与其他对象互动后，根据它们的相似性和差异性调整其特征向量。这种机制有助于增强特征的区分度，使对象特征更倾向于具有相同ID的对象，同时与不同ID的对象区分开来，从而提升数据关联的准确性。 2. **2D-3D联合特征提取器** - 为了更好地融合二维和三维空间的信息，文章设计了一种新型的特征提取器，能够同时学习物体的外观和运动特性。考虑到不同模态的特征互补性，这种联合特征提取器能够提供更具区分性的特征表示，避免了单一模态的限制。为了确保联合特征提取器的鲁棒性，作者还提出了一个集成训练范式，以平衡不同模态信息的贡献，防止过度依赖某一种特征。这些创新方法在KITTI和nuScenes 3DMOT基准测试中取得了最先进的性能，展示了在复杂场景中3D MOT任务中引入深度学习和多模态特征融合的优势。研究者们在GitHub上提供了相关的代码实现，便于其他研究者进一步探索和改进3D MOT技术：<https://github.com/xinshuoweng/GNN3DMOT>。总结来说，这篇论文的核心贡献在于革新了3D MOT的数据关联过程，通过图形神经网络和联合特征提取器提高了对象特征的表达能力和区分度，从而提升了3D多目标跟踪的性能。

6501

我

图神经网络。除了特征选择之外，我们还提出了一种

新的特征交互机制，用于MOT中的判别特征学习，该

机制通过引入GNN来实现。GNN首先由[12]提出，用

于使用神经网络直接处理图形结构数据。GNN的主要

组成部分是节点特征聚合技术，通过该技术，节点可

以通过与其他节点的交互来更新其特征。通过这种技

术，使用GNN的许多领域都取得了重大成功，例如语

义分割[7，54]，动作识别[19，31，57，42]，单对象

跟踪[10]，人员重新识别[51]，点云分类和分割[44]。

虽然GNN在许多领域都表现出了良好的性能，但目

前还没有将GNN应用于MOT的工作据我们所知，我们

的工作是第一次尝试使用GNN进行在线MOT。该方法

利用神经网络的节点聚集技术，对目标特征进行迭代

进化，使不同目标的特征更具区分性。我们的工作是

显着的，cantly不同于以前的工作中，对象的功能是孤

立的，独立于其他对象。也许[15]中提出的关系网络

在特征交互建模方面与我们的然而，[15]中的特征交

互仅存在于空间域中，以编码用于对象检测的上下文

信息虽然在后续工作中提出了时间关系网络[52]，但

跟踪对象的特征仅从其过去的轨迹聚合相比之下，我

们的工作提出了一个通用的功能

因此，对象检测器必须预先应用于所有帧。由于我们

的2D和3D特征提取器需要在2D和3D空间中的对象检

测对应，因此分别获得2D检测和3D检测并且然后获得

检测对应是不平凡的。相反，我们仅使用3D对象检测

器来获得3D检测，然后在给定相机投影矩阵的情况下

从3D检测投影2D检测。福尔-

根据[32，46]，我们将3D检测参数化为d3

{

x，y，z，

l，w，h，θ}的元组，其中（x，y，z）表示3D空间中

的对象中心，（l，w，h）表示对象大小，θ是航向

角。对于2D检测，我们将其参数化为d2

={x

，y

，

w，h

}

的元组，其中（x

，y

）是2D空间中的对象中

心，并且（w，h）表示宽度，

高度对于被跟踪对象O，我们使用相同的参数化，除

了具有附加的分配ID I，

即

，o

={x，y，z，l，w，h，

，I

}

和o

{

，y

，w，h，I

}

。

3.1.

联合2D和3D特征提取器

为了利用不同模态的信息并学习区分特征，我们提

出的具有四个分支的关节特征提取器利用来自2D和3D

空间的外观和运动特征，其中两个分支执行3D外观和

运动特征提取，另外两个分支执行2D特征提取。

3D外观/运动特征提取。如图

（

）所示，给定帧

t+1

中的检测到的对象

或帧

t +1

中的检测到的对象

d 3D

，

在帧t中跟踪对象o

，我们想要获得相应的3D特征f

和f

，包括两者出现-

I j

交互框架可以模拟任何类型的交互，

在空间域和时间域中均是有效的，并且适用于来自不

同模态的特征。

方法

在线MOT的目标是将来自前一帧的现有跟踪对象与

当前帧中的新检测到的对象相关联。给定帧t处的M个

跟踪对象o

∈O

其中i∈ {1， 2，

···

，M}，并且还有N

个

检测到的对象

，

∈D

在帧t+1中，其中j

∈ {

1， 2，

···

，N

}

，我们希望从O和

D学习区分特征，然后找到正确

基于成对特征相似度的匹配。

在图2中，我们的整个网络包括：（a）一个三维的

ap-

动作和运动信息。对于外观分支，我们使用LiDAR点

云作为外观线索。我们首先提取由3D检测框包围的点

云，然后应用PointNet [8，26]来获得特征。对于运动

分支，我们直接使用3D检测框作为运动提示。注意，

我们对跟踪和检测的对象使用不同的3D运动特征提取

器，因为跟踪的对象在过去的帧中具有相关联的轨

迹，而检测的对象没有。

对于

跟踪对象，我们应用

LSTM，考虑到对象对于检测到的对象d

，我们使用2

层MLP（多层感知器），其将帧t+1中的检测作为输入

来提取特征。用于跟踪和检测的最终3D特征f

和f

运动特征提取器;（b）2D外观

i j

和运动特征提取器。将2D和3D特征提取器应用于O和

D中的所有对象，然后将提取的特征融合在一起，

（c）图神经网络，其将融合的对象特征作为输入，并

构造节点为帧t和t+1中的对象特征的图然后，图神经网

络迭代地从邻域中聚集节点特征，并使用边缘回归计

算用于匹配的亲和矩阵。

对象是通过连接3D运动和ap来获得的。

持久性特征。为了平衡运动和外观特征的贡献，我们

强制最终的运动和外观特征向量具有相同的维度。

2D外观/运动特征提取。如图2（b）所示，2D特征提

取器的结构与上述3D特征提取器非常相似，除了两

个

方面：（1）

或

d2D

对象被参数化为2D框

I j

在推理

（x

，y

，w，h）而不是3D框。因此，输入

剩余11页未读，继续阅读

cpongm

粉丝: 6

GNN3DMOT：融合2D-3D特征的3D MOT跟踪新方法

vue.js v2.5.17

DM8-SQL语言详解及其数据管理和查询操作指南

1108_ba_open_report.pdf

anslow_02_0109.pdf

以下是OpenCV在不同操作系统下的下载与安装教程

aronson_01_0707.pdf

Designing Deep Learning Systems. A software engineer's guide - 2023.pdf

基于豆瓣图书网站的图书数据分析与可视化

barbieri_01_0108.pdf

brown_3ck_01_0718.pdf

最新资源