没有合适的资源?快使用搜索试试~ 我知道了~
Peixuan LiSAIC PP-CEMlipeixuan@saicmotor.comJieyu JinSAIC PP-CEMjinjieyu@saicmotor.com…BEVFV38850Time3D:用于自动驾驶的端到端联合单目3D目标检测和跟踪0摘要0尽管单独利用单目3D目标检测和2D多目标跟踪可以直接应用于序列图像,但独立的跟踪器切断了来自3D检测器到跟踪的不确定性传递,同时无法将跟踪误差微分传递回3D检测器。在这项工作中,我们提出了一种仅利用单目视频进行联合训练的3D检测和3D跟踪的端到端方法。关键组件是一种新颖的时空信息流模块,它聚合几何和外观特征,预测当前和过去帧中所有对象的稳健相似度分数。具体而言,我们利用了变换器的注意机制,其中自注意力聚合了特定帧中的空间信息,交叉注意力则利用了序列帧的时间域中所有对象的关系和相似性。然后,对这些相似性进行监督以估计轨迹并引导相应的3D对象之间的信息流动。此外,我们提出了一个显式地将3D目标运动建模纳入学习中的时间一致性损失,使得3D轨迹在世界坐标系中平滑。Time3D在nuScenes3D跟踪基准测试中实现了21.4%的AMOTA,13.6%的AMOTP,超过了所有已发布的竞争对手,并以38FPS的速度运行,而Time3D在nuScenes3D检测基准测试中实现了31.2%的mAP,39.4%的NDS01. 引言03D目标检测是自动驾驶的一项重要任务。与激光雷达系统相比,单目相机便宜、稳定、灵活,受到大规模生产汽车的青睐 [ 4 , 9 , 18 , 19 ].然而,由于缺乏深度信息,单目3D目标检测是一个自然的不适定问题,使得估计3D目标的准确和稳定状态变得困难 [19 , 22 ].一个典型的解决方案是通过2D多目标跟踪来平滑前一帧和当前帧的状态0单目视频0Mono3D时空信息流0平滑轨迹 类别 2D框 3D框 速度 属性0跟踪0不确定性0梯度0标签0图1.所提出的Time3D的示意图。给定一个单目视频序列,Time3D联合学习单目3D目标检测和3D跟踪,并输出平滑的轨迹、2D框、3D框、类别、速度和运动属性。Time3D是端到端训练的,因此它可以前向传递不确定性并向后传递误差梯度。0目标跟踪器(MOT) [ 5 , 20 ].遵循“通过检测进行跟踪”的范例 [ 2 , 30 ,037],一种广泛使用的当代策略首先计算过去的轨迹表示和检测到的对象。然后,该关联模块用于计算当前对象在过去帧上的相似度,以估计它们的轨迹。大多数现有的方法都遵循这个流程,包括重新识别(Re-ID)模型 [ 25 , 40 , 41],运动建模 [ 12 , 15 ]和混合模型 [ 1 ].目前,这些模型大多仍然是手工制作的,因此相应的跟踪器只能独立于检测器进行跟踪。最近的2DMOT研究尝试在跟踪中建立深度学习关联 [ 3 , 29 , 43 ].然而,这些方法在自动驾驶场景中仍然存在三个缺点: 1)它们将检测和关联视为分离的过程,其中独立的跟踪模块切断了来自3D检测器到跟踪的不确定性传递,同时无法将跟踪误差微分传递回3D检测器。 2)同一类别的对象通常具有相似的外观信息,并且经常经历频繁的38860在自动驾驶场景中,存在遮挡和不同速度变化。以前的研究未能将这些异构线索整合到统一的网络中。3)他们在网络中估计轨迹时没有直接约束外观和几何信息的流动,这对于轨迹的平滑性、速度估计和运动属性(例如停车、移动或停止)至关重要。我们提出将3D单目目标检测和3DMOT结合到统一的架构中,采用端到端的训练方式,可以实现以下功能:(1)仅从单目图像中预测2D框、3D框和Re-ID特征,无需任何额外的合成数据、CAD模型、实例掩码或深度图。(2)为这些线索设计兼容的特征表示。(3)通过同时结合时间上的异构线索来学习差分关联以生成轨迹。(4)引导所有对象之间的信息流动,生成具有时间一致性的目标状态。为此,我们首先修改了无锚单目3D检测器KM3D[18],以联合学习3D检测器和Re-ID嵌入,遵循“联合检测和跟踪”范式[34,42],从而可以同时生成2D框、3D框、对象类别和Re-ID特征。为了为不同线索设计兼容的特征表示,我们提出将2D框和3D框的不同量级的参数转换为统一的表示,即2D角点和3D角点,通过广泛使用的PointNet[24]结构,可以从角点原始坐标中提取几何信息作为高维特征。图1说明了Time3D的流程。回顾MOT,我们发现数据关联与查询-键机制非常相似,其中一个对象是查询,不同帧中的另一个对象是键。对于同一对象,不同帧中的特征非常相似,使得查询-键机制能够输出高响应。因此,我们提出了Transformer架构,这是一种广泛使用的查询-键机制实体。受RelationNet[14]的启发,自注意力聚合了帧中所有元素的特征,以利用自动学习的空间拓扑,而无需任何显式的监督。交叉注意力计算不同帧之间的目标关联,其查询-键权重通过单模损失函数进行监督,以学习轨迹。最终的时空特征输出速度、属性和3D框平滑度的改进。此外,我们提出了时空一致性损失,以约束3D世界坐标系中对象的时间拓扑,使轨迹更加平滑。总结起来,本文的主要贡献如下:(1)我们提出了一个统一的框架,通过端到端的方式联合学习3D目标检测和3D多目标跟踪,结合异构线索。(2)我们提出了一个嵌入提取器,通过将几何和外观信息转换为统一的表示,使其兼容。(3)我们提出了一种时空一致性损失,通过约束时间拓扑,使轨迹更加平滑。(4)在nuScenes3D跟踪基准测试中的实验证明,所提出的方法在实时运行(26FPS)时与其他竞争对手相比取得了最佳跟踪精度。0通过将2D和3D框转换为统一的表示,使几何和外观信息兼容。(3)我们提出了一种时空一致性损失,通过约束时间拓扑,使轨迹更加平滑。(4)在nuScenes3D跟踪基准测试中的实验证明,所提出的方法在实时运行(26FPS)时与其他竞争对手相比取得了最佳跟踪精度。02. 相关工作0单目3D目标检测单目3D目标检测是一个自然上下文不明确的问题,比2D检测更加复杂。其核心问题是仅从透视图像中缺乏深度信息。为了解决这个挑战,Pseudo-LiDAR的变体[33]首先估计深度图,然后将深度图转换为点云,遵循基于LiDAR的方法[38,39,45]来检测3D对象。另一种方法[21]去除了转换步骤,直接使用深度来指导CNN中的估计。受2D基于锚点的检测[4,5]的启发,将3D锚点放置在3D空间中,并通过2D框进行锚点过滤。为了避免直接估计深度值,RTM3D的变体[18,19]尝试将CNN和几何投影相结合,以推断深度或位置。尽管这些方法在单个图像上表现良好,但自动驾驶场景通常是顺序识别任务,独立处理对象可能导致次优结果。因此,[5,13]将MOT模块引入到单目3D目标检测中,利用时间信息来预测稳定的3D信息。[5]将运动学运动作为主要跟踪模块引入到卡尔曼滤波器中,它独立运行检测和跟踪模型,仅使用手工设计的几何特征进行数据关联。[13]为数据关联包括更多的几何信息和外观信息,然而,它采用了手工设计的数据关联策略,并且不包含用于框一致性约束的时空信息流,这对于自动驾驶的下游任务更为重要。多目标跟踪多目标跟踪在2D范围内得到了广泛的探索,其中大多数跟踪器遵循检测跟踪范式[11,17,20]。这些模型首先通过强大的2D检测器[26,27,44]在每个帧中预测所有对象,然后通过数据关联策略将它们连接起来。[20]通过卡尔曼滤波器将每个框与框IoU的距离度量进行关联。[36]从深度网络中添加外观信息到[20]中,以实现更强的关联,特别是对于遮挡对象。最近的方法[28,30,37]遵循这两种方法,并专注于增加数据关联的鲁棒性。这些方法将跟踪分为检测和数据关联两个阶段,防止了不确定性的流动和端到端训练。MOT中的一个最新趋势是reformulate existing trackers into the combination of bothtasks in the same framework. Sun et al. [29] use a siamesenetwork with the paired frame as input and predict the simi-larity score of detections. Guillem [3] proposes a graph par-titioning method to treat the association problem as an edgeclassification problem. The disadvantages of these modelsare that they treat detection and association separately, learnlimited cues, have a complicated structure, and are not prac-tical in autonomous driving scenes. We jointly learn 3D de-tection and 3D tracking by exploiting heterogeneous cueswhile running in real-time.Embedding: "ℱEmbedding: "ℱ𝑞𝑘𝑣𝑜!𝑜"𝑜#𝑜$𝑜%∅𝑜!0.8 0.01 0.05 0.03 0.02 0.09𝑜"0.05 0.02 0.80.1 0.01 0.02𝑜#0.01 0.8 0.03 0.06 0.05 0.05𝑜$0.04 0.08 0.10.8 0.05 0.03∅0.1 0.09 0.01 0.01 0.87 0.81𝑡388703. 提出的方法0给定时间 t 的单目图像 I t ,自动驾驶车辆需要感知场景中n t 个物体的位置 P t = { P i t ∈ R 3 | i = 1 , . . . , n t },尺寸 D t = { D i t ∈ R 3 | i = 1 , . . . , n t } ,方向 R t= { R i t ∈ R | i = 1 , . . . , n t } ,速度 V t = { V i t ∈R 3 | i = 1 , . . . , n t } ,属性 A t = { A i R 3 | i = 1 , . . . ,n t } ,以及平滑轨迹 T t = { T i t ∈ t | i = 1 , . . . , n t },以进行运动规划和控制。图 2 展示了 Time3D的整体架构细节。Tim3D只接受单目视频图像作为输入,包括以下步骤: 1). 使用JDE 模式 [ 34 ]的快速准确的单目三维物体检测器,获取每帧的二维框、三维框、类别和 Re-ID 嵌入。 2).使用异构线索嵌入模块,对外观和几何特征进行编码,得到兼容的特征表示。 3).使用空间-时间信息流模块,将所有物体的信息在帧间传播,估计相似度以生成三维轨迹,并在世界坐标系中聚合几何相对关系,估计速度、属性和框的平滑度优化。03.1. 单目三维物体检测0我们的单目三维物体检测器以某个时间点 t 的图像 I t作为输入,并输出物体的二维框 b i t = { x i t , y i t , w i t ,h i t } ,i = 1 , . . . , n t ,三维框 B i t = { X i t , Y i t , Z it , W i t , H i t , L i t } ,i = 1 , . . . , n t ,类别 Cls i t =Car,P edestrian,... ,以及 ReID 嵌入 ReID i t。具体来说,我们采用 KM3D [ 18 ]作为我们的单目三维检测器,它通过可微分的几何推理模块(GRM)预测尺寸、方向和九个透视角点来进行位置估计。KM3D是一种独立于相机的方法,可以处理具有不同内参和视角特性的各种相机,使其更加实用。在 FairMOT [ 42 ]的基础上,我们添加了一个与其他检测头并行的 Re-ID头,专注于生成不同对象的可区分特征。我们使用与其他卷积层相同的实现方式0速度属性0平滑度优化0共享权重0添加和归一化0前馈0交叉-0注意力0添加和归一化0N0添加和归一化0前馈0注意力0添加和归一化0�0空间信息流0$ , � % , � = 1 … �0添加和归一化0前馈0注意力0添加和归一化0�0空间信息流0$ , � & , � = 1 … �0时序信息流0亲和矩阵0匹配0输出:0前馈0前馈0ReI-D分类03D框2D框0外观几何0嵌入提取器0Mono3D0� !"∆! 图像0CNN0Re-ID分类03D框2D框0外观几何0嵌入提取器0CNN0Mono3D0� ! 图像0Δ�前馈0共享权重0连接0输出:0跟踪ID0图2.Time3D的架构细节。首先,将当前帧和上一帧图像输入到Mono3D中,估计具有类别、2D框、3D框和Re-ID特征的前K个物体。然后,将当前和上一帧的线索输入到异构线索嵌入器中,生成外观和几何嵌入。接下来,学习物体嵌入在空间域中相互传播,通过空间信息流。最后,时间信息流匹配跨帧的相同物体,计算亲和矩阵以估计轨迹,同时输出速度、运动属性和框平滑度的改进。0但输出一个256维向量以提取每个物体的Re-ID特征。03.2. 异构线索嵌入0理想的数据关联应该能够在长时间内提取多个线索(例如外观和几何)的嵌入。然而,外观特征(例如Re-ID特征)在向量空间中,几何特征(例如位置、尺寸和方向)在欧几里得空间中,使它们难以在统一的网络中进行组合。因此,以前的方法只使用其中之一[12, 15, 25, 40,41],导致结果次优。在本文中,我们优雅地编码了外观、几何和运动的兼容表示。ˆFit = MultiHeadAttn(Fit, Ft, Ft, 0)(2)Γ(i, j)t−∆tt= F F NW iq ˆ itW jk ˇ jt∆t/√C + 0˜Fit = MultiHeadAttn( ˆFit, ˇFt−∆t, ˇFt−∆t, 0)(4)38880具体而言,对于图像I_t中的每个2D框b_i_t和3D框B_i_t,我们首先将它们的参数转换为2D角点C_2(b_i_t)∈R4×2和3D角点C_3(B_i_t)∈R8×3。然后将这些角点展平,然后输入到轻量级的PointNet[24]结构中,该结构仅由3层MLP和MaxPooling组成,以生成具有d个特征维度的几何特征G_i_t∈R^d。除了外观特征中的Re-ID,我们还添加了类别线索,这可以进一步用于约束不同帧之间相同物体的相似性。我们从MLP层中提取类别信息,该层应用于我们的单目3D检测器的cls头的独热特征层。然后,我们简单地将类别特征和Re-IDReID_i_t相加,生成外观特征A_i_t。运动建模是一种依赖于帧之间相对时间的时间感知处理。我们将运动建模放在空间信息流之后,以减少计算量。我们在第3.3节和第3.5节中详细介绍。03.3. 空时信息流0本节首先回顾了Transformer结构,然后介绍了如何将其应用于空时信息流。Transformer[31]最初是基于注意机制的机器翻译的新网络,然后通过ViT[10]和DETR[7]将其应用于计算机视觉任务。对于查询Q、键K和值V,我们简单地将多头注意力表示为:0Y = MultiHeadAttn(Q, K, V, PE) (1)0其中PE是位置编码函数,用于消除排列不变性。如果输入的查询和键相同,则该注意力称为自注意力,否则称为交叉注意力。Transformer在编码器和解码器中堆叠自注意力、归一化和前馈层,交叉注意力关注它们之间的交互。更详细的描述请参阅文献[31]。Transformer架构可以自然地扩展到空时信息,其中自注意力在某个时间传播对象的信息,交叉注意力在时间上聚合对象的信息。空间信息流的结构如图2底部所示。我们首先从我们的3D检测器的主中心头中提取图像I_t中的前K个中心点,并索引其对应的外观特征A_i_t和几何特征G_i_t(详见第3.2节),然后将其与MLP层连接,生成输入嵌入F_i_t。K设置为大于图像中物体数量n_t的典型数量(例如nuScenes数据集中的128)。这样0空间信息流可以总结如下:0我们将位置编码设置为0,因为几何特征已经包含了位置信息。不同权重的确切结构可以应用于另一帧 I t − ∆t,以生成其传播特征 ˆ F t − ∆t。空间信息流模块严格遵循自注意力以传播信息并编码空间拓扑结构,这已被证明足以改善关系网络[14]中的目标检测。时间流模块的结构如图2顶部所示。时间流模块通过使用多头交叉注意力以残差的形式聚合来自配对帧 I t − ∆ t 和I t的信息。在交叉注意力中,点积权重探索不同帧中配对检测对象的关系。它表示通过 softmax归一化的概率一致性,其中0被定义为不同的对象,1被定义为相同的对象。这个概率自然包含匹配信息,可以直接用作跟踪的相似度得分。为了防止ID切换,我们设计了Time3D作为半全局关联,因此我们还需要捕捉时间信息。我们简单地将相对时间 ∆ t 和 ˆ F t − ∆ t连接在一起,经过一个FFN层生成具有时间感知的传播特征ˇ F t − ∆t,也称为运动建模。我们将亲和矩阵的生成形式定义为:0(3) 其中 W q 和 W k 是可学习的权重。Γ ( i, j ) t − ∆ t t是第 I t 帧中第 i 个对象与第 I t − ∆ t 帧中第 j个对象之间的亲和度得分。与空间信息流模块类似,时间位置编码被设置为0。考虑到图像对中的对象可能没有对应关系,我们为未识别的目标学习了一行和一列,遵循DAN[29]的方法。我们简单地为交叉注意力的权重添加了一个FFN,并估计了亲和矩阵 Γ t − ∆ t t ∈ R K +1 × K+1,它将被训练为一个单模态矩阵,用于一对一匹配。时间信息流分支可以生成跟踪信息,并引导外观和几何信息的时间聚合。时间聚合模块对目标的时间转换进行建模,以预测框的平滑度改进和与时间相关的变量(例如速度、运动属性)。因此,时间信息流的机制可以总结如下:Affinity Matrix Γ!!"#"Γ!"#,! = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(Γ!!"#, 𝑑𝑖𝑚 = 1)"Γ!,!"# = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(Γ!!"#, 𝑑𝑖𝑚 = 1)1Γ= "Γ!"#,!×"Γ!,!"#𝐼!𝐼!"#LMono3D = Lm + Lkc + LD + LO + LT(5)(7)38890热力图0得分 得分 得分 得分0列Softmax 行Softmax 乘法0图3. 学习到的单模态亲和矩阵。我们的简单跟踪损失可以学习到一个单模态的亲和矩阵,可以进行一对一的匹配。0其中 ˜ F i t ∈ R K × d 是时间 t 中第 i个目标的聚合特征。最终的预测由一个由3层MLP组成的FFN计算得出。FFN预测速度 V t = { V i t ∈ R 3 | i = 1 , . . ., K } ,运动属性 M t = { M i t ∈ R 3 | i = 1 , . . . , K },以及框的平滑度改进值 ∆ B = { ∆ B i t = ∆ X i t , ∆ Y it , ∆ Z i t , ∆ W i t , ∆ H i t , ∆ L i t | i = 1 , . . . , K } 。03.4. 训练损失0我们将多任务损失分为三部分:单目标三维检测损失 LMono 3 D ,跟踪损失 L T 和时间一致性损失 L Cons。1)单目标三维检测损失。我们采用与KM3D[18]相同的损失函数:0其中Lm,Lkc,LD,LO,LT分别是主要中心损失,关键点损失,尺寸损失,方向损失和位置损失。2).跟踪损失。由于我们在时空空间中明确建模了目标外观特征和几何特征,因此我们可以设计一个比DAN[29]更简单且更有效的损失函数,以约束亲和矩阵生成单峰响应。具体而言,我们首先对亲和矩阵Γt−∆tt∈RK+1×K+1进行行和列的softmax操作,得到关联矩阵ˆΓt,t−∆t和ˆΓt−∆t,t。矩阵ˆΓt,t−∆t的第i行将第t帧中的第i个对象与第t-∆帧中的K+1个身份关联起来,其中+1表示第t-∆帧中的未识别目标。矩阵ˆΓt−∆t,t表示从第t-∆帧到第t帧的类似关联。然后我们将这两个矩阵相乘得到˜Γt−∆tt=Γt,t−∆t׈Γt−∆t,t,并使用交叉熵损失进行训练:0L tracking = −0K0K+10�Γt−∆tt(i, j)log(˜Γt−∆tt(i, j))0(6)其中�Γt−∆tt表示真实的关联矩阵,�Γt−∆tt(i,j)=1表示第i个身份在第t帧和第t-∆帧中是同一个对象。图3显示了nuScenes视频中的一帧样本,以说明跟踪损失的处理过程。03).时间一致性损失。大多数函数的设计都希望在时间上保持稳定,以确保平滑过渡。然而,以前的方法在每一帧中独立计算检测结果,未能约束轨迹在网络中的内部一致性。我们提出了一种辅助损失,在训练阶段澄清帧之间的时间拓扑,以确保轨迹的平滑性。具体而言,我们首先将平滑度优化框添加到我们的单目3D检测器的输出中,生成最终的框参数,然后计算不同帧中相同对象的相对3D角距离。然后,真实值监督这些角距离:0L Cons =0τ0nt0nt−k0λC3(Bit+∆Bit)0−C3(Bjt−ζ+∆Bjt−ζ)²−λC3(B�t)−C3(B�t−ζ)²0²0其中C3将3D框的参数映射到8个角点。B�表示真实值。有趣的是,尽管每个潜在目标都由相应的真实值进行监督,但时间一致性损失仍然可以最小化相对位置。图6显示了一个示例来解释这一点。最后,Time3D以端到端的方式进行监督,采用多任务损失组合:0L = L Mono 3D + L Tracking + L Cons (8)03.5. 跟踪的推理0跟踪的推理如图4所示。我们首先在每个时间戳上依次执行3D物体检测、异构线索提取器和空间信息流。然后,将空间特征与其时间戳一起存储。给定当前帧图像It及其空间特征,通过前向传递计算亲和矩阵。𝑡-1𝑡-2𝑡-3𝑡-4𝑡-50.80.90.90.70.60.8 + 0.9 + 0.9 + 0.7 + 0.9 = 4.21234538900阶段10新生对象0空间特征的记忆03D物体检测0异构线索嵌入0空间0信息流0物体轨迹的记忆0时间性0信息流0作为批处理的猫0亲和矩阵0视频帧0扩展为批处理0Γ !0散开0� " � # � $ � % � & � !0Γ 0# Γ !0$ Γ !0% Γ !0Δ�0馈送0前向0阶段20图4.跟踪推理。首先将图像的每个帧输入到3D目标检测、嵌入提取器和空间信息流模块中生成空间特征。然后我们配备一个显式的内存来存储过去的轨迹及其对应的空间特征。给定当前的空间特征,只使用快速简单的时间信息流来计算相似度得分。0通过时间信息流。为了减少ID切换,我们遵循DAN[29]的方法,计算当前帧中对象与所有轨迹中存储的空间特征之间的亲和矩阵,并将它们求和作为对象与轨迹之间的相似度得分。最后,采用匈牙利算法[23]来获得最优的分配。在逐帧运行分配过程时,会产生对象轨迹。因此,每个帧图像只通过高权重网络的3D检测、嵌入提取器和空间信息传递一次,但存储的空间特征会通过轻量级的时间信息流多次使用来计算相似度得分。因此,Time3D可以实时运行。04. 实验04.1. 数据集0我们在一个大规模的流行的nuScenes[32]自动驾驶数据集上评估Time3D。nuScenes由1000个场景的视频组成,其中700/150/150个场景用于训练、验证和测试集。nuScenes从波士顿和新加坡收集数据,包括白天和夜晚以及不同的天气条件。每个视频包含六个摄像头的图像,形成一个完整的360度视角。0在2HZ关键帧样本中的视野。最后,1.4M 3D0包含10个类别的边界框注释。考虑到nuScenes包括序列单目图像、3D注释、跟踪ID和每个帧的姿态,我们将其用作验证我们方法性能的基准。04.2. 实现细节0在mono3D中,我们遵循KM3D[18]使用DLA-34骨干网络报告结果。我们在空间信息流中堆叠了三个自注意力层,在时间信息流中堆叠了四个交叉注意力层,其中在第2个交叉注意力层中计算亲和矩阵时不使用softmax。Time3D没有使用KM3D预训练模型进行训练,而是使用ImageNet预训练模型进行初始化。我们使用平移和缩放的数据增强。我们将图像从900×1600调整为448×800以进行快速训练。批处理大小为80,在8个2080TiGPU上,每个GPU上有十个图像。我们训练Time3D进行200个epoch,初始学习率为1.25e4,在第90和120个epoch时将其减小10倍。我们只将过去的五帧与当前帧关联起来以实现快速运行速度。04.3. 与最先进技术的比较0我们报告了四个官方评估指标[15]用于跟踪定量分析:平均多目标跟踪准确度(AMOTA)、平均多目标跟踪精度(AMOTP)、多目标跟踪准确度(MOTA)和多目标跟踪精度(MOTP),同时报告了三维检测的七个官方评估指标:平均精度(AP)、平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)、平均属性误差(AAE)和nuScenes检测分数(NDS)。我们只比较在线(不能预知未来)跟踪方法,以进行公平比较。如表1所示,Time3D在不同指标下优于所有其他在线跟踪器,同时保持出色的运行速度。众所周知,MOT性能高度依赖于检测的准确性。因此,我们列出了两种流行的基于LiDAR的3D检测器[16,46]与基线跟踪器AB3DMOT[35]的结果。Megvii通过使用LiDAR点云实现了高检测准确性,但Time3D在3D跟踪方面大幅优于Megvii,AMOTA提高了41.7%,AMOTP提高了9%,MOTA提高了11%。我们还进行了一次没有端到端训练的Time3D实验,其中我们分别训练了KM3D、Re-ID提取器和空间-时间模块,详见补充材料。端到端的Time3D在AMOTA上提高了37%,在MOTA上提高了22%。所有这些都表明,Time3D的强大之处在于以端到端的方式联合学习检测和跟踪,可以胜过将检测和跟踪作为两个不同步骤的方法,即使这些方法具有更强大的深度特征提取能力。AMOTAAMOTPMOTAMOTPmAPmATEmASEmAOEmAVEmAAENDSCls2D3DRe-IDAMOTAAMOTPMOTAMOTP✓2.41.792.70.74✓8.91.6810.10.76✓11.21.6112.80.76✓16.51.5415.30.82✓✓24.71.4119.60.82✓✓✓25.81.3920.40.83✓✓✓✓26.01.3820.70.82✓✓⋆✓⋆✓19.01.4817.10.8238910表1. 3D跟踪和3D目标检测性能nuScenes测试集。† 表示使用AB3DMOT [35]作为跟踪器。Time3D ‡ 以非端到端的方式进行训练。0方法 模态 时间03D多目标跟踪 3D目标检测0(%) ↑ (m) ↓ (%) ↑ (m) ↓ (%) ↑ (m) ↓ (1-iou) ↓ (rad) ↓ (m/s) ↓ (1-acc) ↓ (%) ↑0Megvii † [6] 激光雷达 - 15.1 1.50 15.4 0.40 52.8 0.30 0.25 0.38 0.25 14.0 63.3 PointPillar † [6] 激光雷达 - 2.9 1.70 4.5 0.82 30.5 0.52 0.29 0.50 0.32 37.0 45.30CenterNet [44] 相机 - - - - - 33.8 0.66 0.26 0.63 1.63 14.2 40 FCOS3D [32] 相机 - - - - - 35.8 0.69 0.25 0.45 1.43 12.4 42.80CenterTrack [43] 相机 45ms 4.6 1.54 4.3 0.75 - - - - - - - DEFT [8] 相机 - 17.7 1.56 15.6 0.77 - - - - - - -0MonoDIS † [6] 相机 - 1.8 1.79 2.0 0.90 30.4 0.738 0.263 0.546 1.553 13.4 38.4 Time3D ‡ 相机 50ms 15.6 1.49 14.1 0.78 32.9 0.716 0.250 0.511 1.647 14.8 39.9Time3D 相机 38ms 21.4 1.36 17.3 0.75 31.2 0.732 0.254 0.504 1.523 12.1 39.40检测精度。表1显示,Megvii的MOTP比Time3D更小,这是因为基于激光雷达的Megvii对于平移误差有更高的准确性。Time3D提出了在统一框架中结合3D检测和3D跟踪的方法,使自动驾驶更加实用。因此,我们采用了一种轻量级的单目3D检测方法KM3D,以在速度和准确性之间进行权衡。Time3D的3D检测准确性仍然与基于激光雷达的方法Megvii存在差距,并且与单任务方法CenterNet [44]和FCOS3D[32]具有竞争力。使用更强大的3D检测器可以提高3D检测的性能,我们将把它作为未来的工作。请注意,Time3D ‡在3D检测基准中实现了更高的准确性,我们将在消融实验中分析这一现象。04.4. 定性结果0图5显示了Time3D的一些定性结果。Time3D可以预测令人兴奋的跟踪效果,并输出平滑的轨迹,即使对于被遮挡或高速移动的目标也是如此。值得注意的是,Time3D只使用单目图像作为输入,并输出3D轨迹。小目标(如行人)的轨迹相对较粗糙,与3D检测器有关。可以用更强大的3D检测器替换它以生成更准确的3D位置。更多的定性结果可以在补充材料中看到。04.5. 消融实验0为了公平比较,所有实验都在训练集上进行训练,并在验证集上进行测试,遵循nuScenes的官方设置。0表2. 不同线索的消融 实验结果 在nuScenes验证集上的性能。�表示直接编码为2D或3D框。0异构线索嵌入。我们首先研究了不同线索的效果,如Re-ID特征、2D框、3D框和类别的嵌入。如表2所示,对于单一线索测试,仅使用Re-ID特征可以获得最高的16.5AMOTA。添加其他线索可以进一步提升性能。将所有异构线索结合起来可以获得最佳性能。我们观察到,添加3D框线索的改进最大,这表明3D位置对于3D目标跟踪很重要。我们期望未来的研究能够专注于3D信息以进一步提高跟踪性能。几何嵌入提取器学习了2D框和3D框的兼容特征表示。我们通过将直接编码的2D框和3D框的4个自由度和7个自由度参数与与提议的几何嵌入提取器相同的MLP层进行比较,研究了它的效果。如表2的最后一行所示,直接编码显著降低了性能,这表明显式的几何编码方法更有利于网络的学习。0表3. 有或没有Re-ID特征的消融实验。在nucenes val上的性能。0设置 mAP mATE mASE mAOE NDS0有 29.1 0.79 0.24 0.48 39.0 没有 32.2 0.75 0.26 0.49 39.50此外,我们观察到引入Re-ID特征时,MOTP稍差。因此,我们进行了检测实验,发现引入Re-ID会损害检测性能。结果如表3所示。这也解释了Time3D的检测准确性优于Time3D的原因。这种退化可能是由于Re-ID的“身份”不变性与检测的变异性之间的矛盾所致。0表4. 空间-时间信息流消融实验0设置 AMOTA AMOTP MOTA MOTP0无空间-时间 17.9 1.43 19.0 0.81 有空间 23.9 1.27 14.7 0.82有空间-时间 26.0 1.38 20.7 0.8238920BEV BEV BEV0FV FV FV0图5.定性结果。我们在第1行中可视化了前视图中的跟踪ID、2D框、3D框和类别。第2行的鸟瞰图(BEV)显示了过去15帧的中心点轨迹的3D框。不同颜色代表具有不同跟踪ID的对象。0BEV0FV0BEV0有时间一致性损失 GT0没有时间一致性损失 GT0时间一致性损失:0.27L1损失:0.860时间一致性损失:1.13L1损失:0.890图6.用于说明时间一致性损失的示例。我们展示了Time3D带有和不带有时间一致性损失的两个预测结果。它们具有相同的角点L1损失,但具有不同的时间一致性损失。带有时间一致性损失的Time3D生成了更平滑的轨迹。0空间-时间信息流。表4考察了空间-时间信息流模块在提高跟踪精度方面的效果。为了避免额外网络参数带来的影响,我们替换了空间和时间信息模块。0具有6个MLP层和余弦相似度的空间-时间信息流模块。提出的空间-时间信息流模块在AMOTA方面提高了45%。同时,它还可以预测速度、运动属性和框平滑度的改进,表明空间-时间信息流可以更明确地检测对象之间的空间-时间拓扑关系。时间一致性损失。我们在图6中展示了一个样本,以说明时间一致性损失的效果。具有时间一致性损失的轨迹比没有时间一致性损失的轨迹更平滑。它们与地面真值具有类似的L1平均距离损失,但具有不同的时间一致性损失。我们提出了时间一致性矩阵来评估轨迹的平滑度。详细信息请参见补充材料。05. 结论0本文提出了一种新的框架,可以仅使用单目视频从实时运行中联合学习3D目标检测和3D多目标跟踪。我们的框架对异构线索进行编码,包括类别、2D框、3D框和Re-ID特征,以兼容嵌入。基于Transformer的架构执行空间-时间信息流来估计轨迹,并通过时间一致性损失进行优化以使其更平滑。在nuScenes数据集上,提出的Time3D在实时运行时实现了最先进的跟踪性能。Time3D可能会激发未来研究者将3D跟踪和3D检测结合到一个统一的框架中,并编码更多的3D信息,使基于视觉的自动驾驶更加实用。[2] Alex Bewley, ZongYuan Ge, Lionel Ott, Fabio TozetoRamos, and Ben Upcroft. Simple online and realtime track-ing. In 2016 IEEE International Conference on Image Pro-cessing, ICIP 2016, Phoenix, AZ, USA, September 25-28,2016, pages 3464–3468. IEEE, 2016. 1[3] Guillem Bras´o and Laura Leal-Taix´e.Learning a neuralsolver for multiple object tracking. In 2020 IEEE/CVF Con-ference on Computer Vision and Pattern Recognition, CVPR2020, Seattle, WA, USA, June 13-19, 2020, pages 6246–6256. Computer Vision Foundation / IEEE, 2020. 1, 3[4] Garrick Brazil and Xiaoming Liu. M3d-rpn: Monocular 3dregion proposal network for object detection. In Proceedingsof the IEEE International Conference on Computer Vision,Seoul, South Korea, 2019. 1, 2[5] Garrick Brazil, Gerard Pons-Moll, Xiaoming Li
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功