自动驾驶的3D多目标跟踪简化方法

26 浏览量更新于2023-10-13 收藏 12.48MB PDF 举报

自动驾驶

多目标跟踪

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

104880探索自动驾驶的简单3D多目标跟踪0Chenxu Luo 1 , 2 Xiaodong Yang 1 * Alan Yuille 201 QCraft 2 约翰霍普金斯大学0摘要0激光雷达点云中的3D多目标跟踪是自动驾驶车辆的关键组成部分。现有方法主要基于跟踪-检测流程，并且不可避免地需要启发式匹配步骤来进行检测关联。在本文中，我们提出了SimTrack，通过提出一个端到端可训练模型，从原始点云中进行联合检测和跟踪，以简化手工设计的跟踪范式。我们的关键设计是预测给定片段中每个物体的首次出现位置，以获取跟踪身份，然后根据运动估计更新位置。在推理中，可以通过简单的读取操作完全省略启发式匹配步骤。SimTrack将跟踪的物体关联、新生物体检测和死亡轨迹删除集成在一个统一的模型中。我们在两个大规模数据集nuScenes和Waymo OpenDataset上进行了广泛评估。实验结果表明，我们的简单方法与最先进的方法相比具有有利可图的效果，同时排除了启发式匹配规则。01. 引言03D多目标跟踪是自动驾驶系统中的关键组成部分，因为它为各种车载模块提供了重要信息，包括感知、预测和规划。激光雷达是自动驾驶车辆最常用的传感器，用于感知周围环境。因此，随着近年来自动驾驶车辆的快速发展，激光雷达点云中的跟踪引起了越来越多的关注。多目标跟踪是计算机视觉中一个长期存在的任务，在图像序列领域得到了广泛研究。可以说，跟踪-检测是最流行的跟踪范式，它首先检测每个帧的物体，然后在帧之间进行关联。这些方法已经显示出有希望的结果，并从图像物体检测的巨大进展中受益。它们通常将关联步骤建模为一个二分图匹配问题。因此，大多数现有的工作都致力于更好地定义0* 通讯作者：xiaodong@qcraft.ai0图1：跟踪-检测流程和我们的方法的概述。 (a)在每个点云中执行3D物体检测，然后通过关联步骤匹配检测到的物体，该步骤涉及复杂的启发式规则。 (b)通过估计的运动读取跟踪身份并更新物体位置，同时管理新生和死亡轨迹。我们的模型在单次前向传递中处理这三种情况，而不需要启发式匹配。0跟踪对象和新检测之间的亲和矩阵。在匹配标准设计中，运动[2]和外观[32]被广泛采用作为关联线索。对于激光雷达的3D多目标跟踪，跟踪-检测流程也起着主导作用[6,27]。因此，为了获得最终的跟踪结果，当前方法不可避免地需要启发式匹配步骤来在单独的阶段中将检测到的物体链接起来。在执行此步骤时存在许多手工制作的规则。如附加材料中所比较，不同的匹配标准和相应的阈值对每个特定的物体类别的最终跟踪性能产生实质性影响。这也发生在轨迹生命周期管理中，用于处理新生物体和死亡轨迹。这些方法通常只在一个物体连续出现一定数量的帧时初始化轨迹，以过滤掉错误检测，并保持消失的物体几帧时间104890解决遮挡问题。不幸的是，所有这些启发式规则都无法训练，并且高度依赖于它们的超参数，需要大量的努力来调整。更糟糕的是，这些规则和超参数通常是数据和模型相关的，使得在应用到新场景时很难推广并且费时费力重新调整。需要额外启发式匹配步骤的主要原因是在进行目标检测时帧之间缺乏连接。最近，一些方法[18,31]通过估计速度或预测目标在连续帧中的位置来提供跨帧的连接。然而，他们只是将预测的检测结果视为目标匹配的桥梁，而不是将其作为最终的跟踪输出。此外，他们只考虑了帧之间的目标位置关系，而没有对关联的置信度进行建模。因此，置信度分数只反映了单个帧中的检测置信度。因此，这些方法往往容易产生虚假检测，并且必须手动决定保留多少帧来处理遮挡的目标。另一个问题是如何在在线跟踪系统中处理新出现的目标。现有的方法[1,18]会在当前帧中重新检测所有目标，以便仍然需要匹配来区分新出现的目标和已跟踪的目标。基于上述观察，我们提出了一种名为SimTrack的简单的点云三维多目标跟踪模型。我们简化了现有的手工设计的跟踪算法，无需启发式匹配步骤。我们的方法可以灵活地构建在常用的基于柱状或体素的三维目标检测网络[9,36]之上。我们提出了一种新颖的混合时间中心性图，通过给定输入周期内的目标首次出现位置来表示目标。基于这个图，我们可以直接将当前检测结果与先前跟踪的目标进行关联，无需额外的匹配。由于该图同时表示了目标的检测和关联，因此我们的模型能够自然地提供帧之间的关联置信度。此外，我们引入了一个运动更新分支，用于估计已跟踪目标的运动，以从它们的首次出现位置更新到当前位置。对于新出现的目标和死亡的轨迹，它们可以通过在同一图上进行常规检测来简单确定，从而也消除了手动轨迹生命周期管理的需求。如图1所示，我们的模型消除了启发式匹配步骤，并将跟踪目标的关联、新出现目标的检测以及死亡轨迹的删除统一在一个前向传递中完成。据我们所知，这项工作提供了第一个能够摆脱点云三维多目标跟踪中启发式匹配步骤的学习范式，因此极大地简化了整个跟踪系统。我们提出了一种新颖的端到端可训练模型，用于通过混合时间中心性图和运动更新分支进行联合检测和跟踪。实验结果表明，这种简单的方法与现有方法相比具有优势。我们的代码和模型将在https://github.com/qcraftai/simtrack上提供。02. 相关工作02D多目标跟踪。随着图像目标检测的不断进展[20, 21, 22,25]，大多数方法都遵循检测跟踪流程，即首先对各个帧进行目标检测，然后在时间上关联两组检测结果。我们可以将关联步骤分为两个主要组别：基于运动和基于外观。基于运动的方法利用时间建模[30]来更新检测结果，并通过距离或交并比度量（IOU）进行匹配。卡尔曼滤波器[8]被广泛应用于该组方法中的状态估计[2]。一些方法通过预测位置偏移来促进运动建模[7, 18,34]。相反，基于外观的方法考虑序列中同一对象的视觉外观相似性。其中大多数方法应用重新识别[33,38]来驱动外观特征学习，以建立身份对应关系[13,32]。与基于运动的检测跟踪方法不同，基于回归的跟踪范式通过直接将先前位置回归到当前帧中的新位置来进行跟踪。在[1]中，Trackor从每个对象的过去位置开始，并使用当前帧的区域池化对象检测特征来获取更新后的位置。它依赖于额外的目标检测器来处理新出现的目标，并通过一些启发式规则更新多个感兴趣区域并将跟踪的目标与新检测的目标分开。相比之下，我们的方法可以在单次前向传递中直接生成跟踪的和新出现的目标，无需启发式后处理。最近，受到Transformer[26]的成功启发，出现了几种通过注意力操作进行联合检测和多目标跟踪的方法。TrackFormer[16]使用跟踪查询嵌入来自回归地跟踪对象位置变化，并采用[4]中的对象查询来处理新出现的目标。TransTrack[23]采用查询-键机制在当前帧中检测对象，并通过学习的对象查询将它们与帧之间进行关联。3D多目标跟踪。在这个领域中，主要方法利用检测跟踪流程。由于点云中缺乏外观和纹理线索，基于激光雷达的跟踪模型依赖于运动进行关联。AB3DMOT[27]将卡尔曼滤波器扩展到三维以进行运动状态估计。CenterPoint[31]通过添加速度回归头来估计每个目标的速度。FaF[15]通过预测来关联目标。PnPNet [10]104900图2：SimTrack的示意概述。我们的模型由一个混合时间中心度图分支、一个运动更新分支和一个回归分支组成，其中混合时间中心度图分支用于检测输入片段中每个对象的首次出现位置，运动更新分支用于预测对象在该时间段内的运动，回归分支用于估计其他对象属性。在推理过程中，我们首先通过自我运动将先前更新的中心度图Zt-1转换到当前坐标系，并将其与下一个经过阈值处理以去除死亡对象的当前混合时间中心度图Yt进行平均，然后从Yt和Zt-1上共享相同单元格的跟踪标识中读取。之后，我们使用预测的运动将被跟踪的对象更新到其当前位置，以获得Zt。我们展示了点云的放大区域，以说明检测和跟踪的输出，其中灰色和蓝色框分别表示先前和当前扫描中检测到的对象。ID（1）是一个置信度较低的死亡对象。ID（2-4）是正确定位的被跟踪对象，其当前位置通过预测的运动准确更新。ID（5）是一个新出现的对象。0使用3D特征和轨迹学习对象之间的亲和矩阵。Chiu等人[5]将来自相机的外观特征距离纳入距离度量中，以增强关联性。其中大多数方法都需要进行二分图匹配步骤，使用匈牙利算法或贪婪匹配算法来获取最终的跟踪输出。检测和运动。3D目标检测为3D多目标跟踪提供了基本工具。在[36]中，VoxelNet对由[19]提取的体素特征应用3D卷积。SECOND[29]通过使用稀疏3D卷积来提高效率。CBGS[37]通过平衡类别分组和采样来提高准确性。PointPillars[9]被开发用于折叠高度维度，并使用2D卷积来实现更好的效率。同时，一些最近的方法[14,28]使用自我监督或从跟踪中导出的代理运动监督来估计点云柱运动，展示了有希望的结果。03. 方法0如图2所示，SimTrack将被跟踪的对象链接、新出现的对象检测和死亡对象去除统一在一个可端到端训练的模型中。我们的关键设计是排除启发式匹配步骤并实现所需的简化跟踪，这是基于提出的混合时间中心度图和运动更新分支的基础上的。03.1. 初步0我们的方法利用基于中心的表示来处理3D对象。由于在这种表示下检测和跟踪之间的固有联系，轨迹可以被描述为由空间和时间中的点形成的路径。在这里，我们简要回顾了基于中心的3D目标检测。给定原始点云，我们首先使用柱状体[9]或体素[36]将其划分为规则网格。我们通过小型PointNet[19]提取每个柱状体或体素的特征。之后，使用标准的2D或3D卷积来计算鸟瞰图（BEV）中的特征。至于检测头，我们使用中心度图上的中心位置来表示每个对象，类似于[31]。对于训练，我们创建一个围绕每个对象中心的2D高斯热图，形成目标中心度图。所有的检测输出，包括中心度图、局部偏移、对象大小和朝向，都可以由检测头生成。03.2. 概述0令Pt = {(x, y, z,r)i}表示一个无序的点云，包含了时间t时刻的坐标（x, y,z）和反射率r的测量值。我们的模型以一系列点云片段作为输入。为了简化起见，我们直接将过去的扫描转换到当前坐标系中，将多个点云组合在一起。�c,di��104910通过自我运动补偿来租用坐标系。作为常见的做法，我们还为每个点添加了一个相对时间戳，使得一个点可以表示为（x，y，z，r，∆t），其中∆t是相对于当前扫描的时间戳。在体素化和特征提取之后，我们的检测头使用中心度图来检测输入片段中对象的首次出现位置，并估计该对象在该时间段内的运动。在推理中，我们只需从先前的中心度图中读取对象的跟踪标识，然后使用预测的运动将对象更新到其当前位置。03.3.联合检测和跟踪0如上所述，为了消除启发式匹配和手动跟踪生命周期管理，我们提出通过混合时间中心度图和运动更新分支的组合在简化模型中执行联合检测和跟踪。混合时间中心度图。为了同时提供与先前检测的链接和检测新出生物体的能力，我们提出了混合时间中心度图。具体而言，我们的模型以t-1和t两个连续的LiDAR扫描作为输入。对于目标中心度图，我们用物体的中心位置来表示每个物体，该物体首次出现在输入序列中的位置。假设在帧t-1和t上的真实物体位置分别为{dt-1i}i=1,...,nt-1和{dti}i=1,...,nt。我们的目标分配策略定义如下。0对于在t-1和t帧中都存在的跟踪物体，表示为dt-1i和dtj，我们在dt-1i的位置创建其目标热图，即该物体在输入序列中首次出现的位置。0对于只出现在第一帧t-1中但在第二帧t中消失的死亡物体，我们将其视为负例，并且不为该物体分配任何目标热图。0对于只在第二帧t中出现的新出生物体，我们在dti的位置创建其目标热图。通过这种方式，对于跟踪的物体，我们可以通过从上一个时间戳的更新中心度图的相同位置读取身份来直接链接到其先前的检测结果（详见下文）。对于死亡的物体，可以通过阈值化置信度分数来简单地移除。对于新出生的物体，我们在同一混合时间中心度图上执行常规检测。因此，我们的混合时间中心度图在单一统一模型中建立了合并跟踪物体关联、死亡物体移除和新出生物体检测的基础。此外，我们可以利用从这个混合时间中心度图获得的置信度分数来暗示检测置信度（即物体存在于当前时间戳的概率）和关联置信度（即物体链接到其先前位置的概率）。0运动更新分支。如前所述，我们将每个被跟踪的物体与其在混合时间中心度图上的先前位置相连，以建立身份对应关系。然而，为了实现在线跟踪系统，我们需要进一步获取物体的当前位置。因此，我们引入了一个运动更新分支来估计两次扫描之间物体的偏移量。在实践中，对于每个物体，在第一帧中的中心位置，我们回归到其当前位置的偏移量：(∆u,∆v) = (ut - ut-1, vt - vt-1)，其中(u,v)是物体的中心坐标。然后，我们利用这个运动场来将混合时间中心度图转换为更新后的中心度图。我们注意到，一些先前的方法，如CenterPoint[31]，也估计物体的速度。然而，主要区别在于他们只将运动视为辅助进行匹配。他们使用运动来传播当前帧的检测结果，并将其与先前帧的检测结果进行匹配。换句话说，传播的边界框只用作跨帧匹配检测到的物体的桥梁，而不用作最终的跟踪结果。然而，SimTrack表明我们的混合时间检测和运动估计可以结合起来产生跟踪输出，而无需启发式匹配。此外，在推理过程中，CenterPoint需要手动调整类别特定的距离阈值，以确定是否可以将基于运动的边界框与检测到的边界框匹配。相比之下，我们的模型通过单次前向传递显著简化了跟踪流程，以获取检测和对应关系。其他回归分支。除了运动之外，我们还回归其他3D物体属性，包括高度z，边界框尺寸(w, l, h)和以(sinθ,cosθ)格式表示的航向角θ。损失函数。在训练混合时间中心度图时，我们采用了类似于[31, 35]的焦点损失:0Lcen = -10(1 - Yc,di)αlog(Yc,di), if ˜Yc,di = 1 (1 -˜Yc,di)β(Yc,di)α0log(1 - Yc,di), otherwise (1)0其中˜Y和Y表示目标和预测的混合时间中心度图，N表示物体的数量，α和β是focalloss[11]的超参数。对于运动更新分支，我们采用标准的ℓ1损失：0Lmot = 10i = 1 |˜Mdi - Mdi|, (2)0其中˜M表示真实的运动图，M表示预测的运动图。类似地，我们还使用标准的ℓ1损失来进行其他回归分支的计算：0Lreg = 10i = 1 |˜Sdi - Sdi|, (3)104920其中˜S和S表示对象高度、大小和朝向的其他真实值和预测回归图。我们只在相应图上的中心位置di上计算这些损失。总的目标是三个损失函数的加权和：0Ltotal = ωcenLcen + ωmotLmot + ωregLreg, (4)0其中ωcen，ωmot和ωreg是用于控制三个损失项重要性的平衡系数。骨干网络。SimTrack可以灵活地构建在各种骨干网络上。在实验中，我们主要使用PointPillars[9]作为基于pillar的骨干，因为它在车载部署中具有计算效率。为了与其他方法进行比较，我们还使用更准确和更大的VoxelNet[37]作为基于voxel的骨干进行评估。在线推理。在推理过程中，更新的中心度图Z记录了每个物体的跟踪身份、中心位置和置信度分数。跟踪身份放置在物体的中心位置。对于序列中的初始帧，我们的方法只需要一个扫描作为输入，并执行检测以初始化更新的中心度图Z0。对于后续的帧，模型以当前扫描和前一个扫描作为输入。所有点云都使用自我运动将其转换到当前车辆坐标系。与依赖启发式匹配步骤的现有方法相比，SimTrack使用简单的读取来建立关联。如图2所示，在时间t，我们首先使用自我运动将上一个时间戳的更新的中心度图Zt-1转换到当前坐标系。然后，我们将Zt-1与当前的混合时间中心度图Yt进行平均。对于每个物体中心，如果在Zt-1上的相同位置存在一个现有的跟踪身份，那么该物体被视为一个被跟踪的物体，并读取该跟踪身份。我们为其余的物体中心初始化一个新的跟踪。在我们的方法中，不需要专门处理死亡物体，因为它们在阈值化Yt时可以自然地被丢弃。之后，我们使用预测的运动图Mt将Yt更新为Zt，以获得跟踪物体的当前位置。我们在算法1中总结了我们方法的推理概述。04. 实验0在本节中，我们首先描述了我们的实验设置，包括数据集、评估指标和实现细节。然后，我们提供了各种消融研究和相关分析，以深入理解我们方法中不同设计选择的原因。我们在两个基准测试上与最先进的方法进行了广泛的比较。04.1. 数据集0我们在两个大规模自动驾驶数据集nuScenes[3]上对我们提出的方法进行了广泛评估0算法1：SimTrack的在线推理0输入：一系列点云 P0，P1，...输出：t=0，1，...的联合检测和跟踪结果0如果 t == 0 则0Y 0 , M 0 , S 0 ← 网络 ( P 0 ) 在 Y0 上进行阈值处理和NMS 初始化 Y 0上的跟踪标识 Z 0 ← Y 0 否则0通过自运动变换 Z t − 1 Y t , M t , S t ← 网络 (P t , P t − 1 ) Y t ← ( Y t + Z t − 1 ) / 2 在 Y t上进行阈值处理和NMS 从 Z t − 1读取跟踪标识到 Y t 在 Y t上初始化新出生的跟踪标识 Z t ← 更新 ( Y t , M t) 结束结束0和Waymo开放数据集[24]。nuScenes包含1000个场景，每个场景大约20秒，点云由32束激光雷达捕获。该数据集被分为700个训练场景、150个验证场景和150个测试场景。激光雷达的频率为20Hz，注释提供的频率为2Hz。总共有10个类别用于检测，其中7个移动类别用于跟踪评估。按照官方评估协议，我们将检测和跟踪范围设置为[-51.2m，51.2m] ×[-51.2m，51.2m]。Waymo包含798个训练序列和202个验证序列，点云由5个激光雷达以10Hz的频率捕获。官方评估在范围[-75m，75m] ×[-75m，75m]内进行，并将性能分为两个难度级别：LEVEL1和LEVEL2，其中前者评估具有超过五个点的对象，后者包括至少一个点的对象。04.2. 评估指标0我们遵循两个基准的官方评估指标进行比较。nuScenes采用BEV中心距离，阈值为2m，即与真实值在2m内的物体被视为真阳性。Waymo对于车辆类别使用3DIOU为0.7。它将MOTA作为主要评估指标，惩罚每个时间戳的三种错误类型：误报（FP），漏检（FN）和标识切换（IDS）。Waymo评估系统会自动选择最佳的置信度阈值来计算MOTA。另一方面，nuScenes采用AMOTA来计算在不同召回率下的平均MOTA。我们还报告了FRAGS，它计算由于漏检导致的轨迹碎片数。CenterPointPillar-Det82.569.620.240.078.440.863.956.5CenterPointPillar-Track79.464.024.753.578.946.359.158.0CenterPointVoxel-Det82.973.640.954.679.948.865.263.7CenterPointVoxel-Track81.070.248.060.679.750.961.164.5IDS↓ FRAGS↓AB3DMOT [27]15.115088 75730 9027255727.81.32576541957104930方法检测车辆行人自行车摩托车公交车拖车卡车总体0卡尔曼滤波器 Pillar-Det 74.7 60.3 14.0 36.0 74.9 39.1 59.5 51.20卡尔曼滤波器 Pillar-Track 76.6 68.3 25.6 54.5 74.6 45.0 57.3 57.40我们的 Pillar-Track 84.1 68.3 27.7 57.6 76.1 46.6 59.2 60.00卡尔曼滤波器 Voxel-Det 75.7 65.7 33.5 52.2 76.7 48.2 61.1 59.00卡尔曼滤波器 Voxel-Track 77.5 57.3 41.5 52.4 77.2 49.4 59.1 59.20我们的 Voxel-Track 84.3 71.8 45.3 64.6 80.5 54.7 61.8 66.10表1：使用不同检测模式和基于pillar和voxel的骨干网络在nuScenes验证集上的跟踪结果比较。我们报告了整体和每个类别的AMOTA。0方法总体车辆0概率-3D [6] 55.0 17533 33216 950 776 71.9 0.580 541 4490CenterPoint*（Voxel-1440）[31] 63.8 18612 22928 760 529 82.9 0.384 315 2960我们的（Voxel-1024） 64.5 17443 26430 1042 472 83.6 0.343 214 1860表2：nuScenes测试集上的跟踪结果比较。*表示使用可变形卷积和测试时增强。Voxel表示基于voxel的骨干网络，1024和1440表示特征图的大小。04.3. 实现细节0我们基于CenterPoint [31]和Det3D[37]的代码库，在PyTorch[17]中实现了我们的方法。我们在8个TITAN RTXGPU上训练我们的模型，每个GPU的批量大小为8和4，分别用于nuScenes和Waymo。每个模型在nuScenes上训练20个epoch，在Waymo上训练12个epoch。我们使用AdamW[12]作为优化器，并采用单周期学习率调度。我们应用标准的数据增强，包括全局旋转和缩放，沿X和Y轴翻转，以及从其他点云中剪切和粘贴3D对象。我们将Eq.(4)中的平衡系数（ω cen，ω mot，ωreg）设置为nuScenes为（1, 1, 0.25），Waymo为（1, 1,1）。我们广泛比较了我们的方法与Kalman滤波器和CenterPoint，这两种方法在3D多目标跟踪中被广泛使用。我们尝试了两种不同的主干网络，包括基于柱体和基于体素的网络，以验证我们方法的泛化能力。我们将柱体大小设置为[0.2m，0.2m]，将体素大小设置为[0.1m，0.1m，0.2m]。注意，在推理过程中，我们没有使用更高的体素化分辨率，以考虑计算效率。我们遵循[31]的方法，在创建目标混合时间中心图时设置高斯热图半径。对于阈值化混合时间中心图，我们采用默认值0.1，与[31]中用于检测的阈值相同。注意，此阈值没有进一步调整以去除死亡轨迹，因此没有引入额外的超参数。04.4. nuScenes上的结果0验证集。表1显示了验证集上的跟踪比较结果。我们报告了总体和每类AMOTA的结果。由于跟踪方法在很大程度上受到检测性能的影响，为了更好地理解SimTrack，我们提供了两种基于检测结果的跟踪性能：（i）Pillar/Voxel-Det：原始跟踪方法使用的常规训练的检测模型；（ii）Pillar/Voxel-Track：我们的联合检测和跟踪模型。如表1所示，我们的方法在基于柱体的主干网络上比原始的CenterPoint和Kalman滤波器分别提高了3.5%和8.8%，在基于体素的主干网络上分别提高了2.4%和7.1%。通过使用我们方法的检测结果，CenterPoint和Kalman滤波器的跟踪性能都可以得到改善。这是由于我们更好的检测和运动估计（详见消融研究中的细节），这些都受益于端到端耦合的检测和跟踪训练。然而，当它们使用我们的检测结果时，我们的方法仍然比它们都提高了约2%，这表明我们更好的跟踪性能不仅仅是由于更好的检测，还由于我们提出的跟踪设计。值得注意的是，CenterPoint的一组重要超参数是允许考虑为每个不同类别匹配的最大距离阈值。CenterPoint仔细选择了这些阈值，使用了AMOTAAMOTPIDSFRAGS↓60.0140641284.168.327.757.676.146.659.2IDS↓ FRAGS↓1/4 (0.8m)60.00.774140641268.30.625121624657.60.8394591/2 (0.4m)61.10.68064632075.00.50449017265.90.60475104940统一 60.0 0.774 1406 4120分离 44.6 0.956 4097 7610（a）在nuScenes的验证集上比较统一和分离地图。0mAVE ↓ 车辆行人自行车摩托车公交车0基准（柱体）0.300 0.306 0.231 0.229 0.659 0.6000我们的（柱体）0.201 0.207 0.206 0.166 0.254 0.3480基准（体素）0.272 0.300 0.227 0.201 0.421 0.4690我们的（体素）0.191 0.209 0.208 0.132 0.234 0.3040（b）在nuScenes的验证集上比较速度估计。0合并地图总体每类AMOTA ↑0AMOTA ↑ IDS ↓ FRAGS ↓ 车辆行人自行车摩托车公交车拖车卡车0(c)将当前混合中心度图与先前更新的中心度图相结合的评估。0分辨率总体行人机动车0(d)使用基于柱状骨干的不同中心度图分辨率进行跟踪结果的比较。0表3：在nuScenes验证集上的一组消融研究。0基于验证集的速度误差统计。其跟踪性能对所选阈值非常敏感。例如，如果将汽车的阈值从4m更改为1m，其AMOTA从82.5%下降到81.0%，如果阈值约束放宽到10m，其AMOTA进一步下降到72.1%。相比之下，我们的方法完全摆脱了这种手动调整的阈值，因此在部署到新场景时更加稳健和方便。测试集。我们将基于体素的模型的结果提交到nuScenes跟踪基准测试服务器。对于这个提交，我们没有使用任何测试时增强。如表2所示，我们的方法在没有任何花哨的技巧的情况下，就超过了配备了可变形卷积和测试时增强的改进版CenterPoint。特别是对于自动驾驶中最重要的汽车类别，我们的模型将IDS和FRAGS从315和296减少到214和186。04.5.消融研究0遮挡分析。处理遮挡是3D多目标跟踪中的挑战之一，因为物体在一段时间内可以部分或完全被点云遮挡。一种常见的做法是在一定数量的帧中保持死亡轨迹，并通过假设恒定速度模式来更新它们的位置。我们观察到这种启发式规则对IDS有很大影响，例如，如果在CenterPoint中不保留死亡对象一定的预定义时间，IDS从238恶化到500。相反，SimTrack通过将先前更新的中心度图上的置信度分数与估计的运动相结合来隐式处理遮挡。如果一个物体在当前帧中被遮挡，但在先前帧中有强烈的线索0在我们的方法中，我们能够保持物体并推测其当前位置。图3展示了一个例子，橙色的汽车在几帧中被严重遮挡。我们的模型能够成功地跟踪这辆汽车，而CenterPoint无法与原始身份进行链接。另一个例子表明，CenterPoint估计的速度不准确导致了身份切换，因为对于行人等小物体的速度估计是困难的。我们的方法可以更好地处理这种情况。统一或分离的地图。在这里，我们证明在统一地图上进行跟踪对象关联和新出生对象检测可以获得更好的性能。我们还使用分离的地图实现了一个模型用于跟踪和检测。具体来说，我们通过为每个类提供两个通道来修改混合时间中心度图，一个用于跟踪的对象，另一个用于新出生的对象。目标分配策略保持不变。表3a比较了基于柱状骨干的两种设计。发现使用分离的地图比使用统一的地图表现要差得多。我们假设这是由于两个地图之间的极端不平衡造成的。对于一个正常的场景，新出生的对象只占所有对象的一小部分，因此训练变得困难。地图的组合。如算法1所述，当前的混合时间中心度图与先前更新的中心度图进行平均。在表3c中，我们将这种组合设计与仅使用当前混合时间中心度图的替代设计进行了比较。通过组合这两个地图，整体和每个类别的结果都得到了一致且显著的改善。这个简单的平均操作提供了有效的时间融合，特别是对于上述分析的遮挡处理至关重要。104950图3：nuScenes验证集上定性跟踪结果的比较。每种颜色代表一个对象的身份随时间的变化。请注意，由于遮挡，地面真值不提供橙色汽车的注释。0方法 MOTA ↑ MOTP ↓ Miss ↓ Miss Match ↓ FP ↓0基线 [24] 42.5 / 40.1 18.6 / 18.6 40.0 / 43.4 0.14 / 0.13 17.3 / 16.40CenterPoint [31] 51.4 / 47.9 17.6 / 17.6 47.7 / 41.4 0.19 / 0.18 10.7 / 10.60我们的方法 53.1 / 49.6 17.4 / 17.4 35.5 / 39.8 0.20 / 0.19 11.2 / 10.50表4：Waymo验证集上车辆跟踪性能的比较。我们报告了基于pillar的骨干网络的跟踪结果，数字格式为LEVEL 1 / LEVEL 2。0分辨率。接下来，我们展示了通过简单地增加中心度图分辨率可以大大提高我们方法的性能，这对于行人和摩托车等小物体尤其有效。在原始的骨干网络中，我们将pillar的大小设置为[0.2m，0.2m]，下采样率设置为4，这意味着在中心度图上，每个单元的大小为[0.8m，0.8m]。为了增加分辨率，我们保持编码器不变，只修改解码器中的上采样层，将下采样率改为2。表3d显示了整体跟踪性能和两个小物体类别（行人和摩托车）的具体结果。与较低分辨率相比，使用较高分辨率显著提高了这两个类别的跟踪性能。速度估计。除了跟踪，我们还展示了我们的方法可以为移动物体产生更准确的速度。我们采用nuScenes官方定义的mAVE指标，来衡量不同召回率下真阳性的速度估计误差。表3b报告了基于pillar和基于voxel的骨干网络的所有类别的mAVE。我们将我们的模型与基于CenterPoint的基线进行了比较。对于基于pillar的骨干网络，我们的方法将速度误差降低了33%，特别是对于摩托车，速度误差大幅降低了61%。这清楚地验证了我们的端到端训练的检测和跟踪模型可以更好地利用移动物体的动力学。这种改进的速度估计对于各种下游任务，如轨迹预测和运动规划，具有潜在的益处。04.6. Waymo上的结果0在这里，我们比较了验证集上车辆类别的跟踪结果。在这个实验中，我们也使用了基于pillar的骨干网络，考虑到低延迟。如表4所示，我们的模型在Waymo提供的基线方法上取得了明显的性能提升。与CenterPoint相比，我们的方法在不同的指标下获得了更好或相当的结果。由于nuScenes和Waymo具有不同的LiDAR和评估指标，我们在这两个数据集上的持续改进共同验证了SimTrack的泛化能力。更重要的是，我们在不需要启发式匹配和复杂的跟踪生命周期管理的情况下实现了更优秀的结果，这是竞争算法常用的方法。05. 结论0在本文中，我们提出了SimTrack，一种用于LiDAR点云中的3D多目标跟踪的端到端可训练模型。我们的方法迈出了简化现有的手工设计的跟踪流程的第一步，这些流程涉及复杂的启发式匹配和手动跟踪生命周期管理。通过结合提出的混合时间中心度图和运动更新分支，我们的设计将跟踪对象的关联、新生对象的检测和死亡对象的移除无缝地集成到一个统一的模型中。大量的实验结果证明了我们方法的有效性。我们希望这项工作能够激发更多关于自动驾驶简单而稳健的跟踪系统的研究。104960参考文献0[1] Philipp Bergmann, Tim Meinhardt, and Laura Leal-Taixe.无需花哨的跟踪. In ICCV , 2019.0[2] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, andBen Upcroft. 简单的在线实时跟踪. In ICIP , 2016.0[3] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Gi-ancarlo Baldan, and Oscar Beijbom. nuScenes:用于自动驾驶的多模态数据集. In CVPR , 2020.0[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. In ECCV , 2020.0[5] Hsu-kuang Chiu, Jie Li, Rares Ambrus, and JeannetteBohg. 自动驾驶的概率三维多模态多目标跟踪. In ICRA , 2021.0[6] Hsu-kuang Chiu, Antonio Prioletti, Jie Li, and JeannetteBohg. 自动驾驶的概率三维多目标跟踪. arXiv:2001.05673 ,2020.0[7] Christoph Feichtenhofer, Axel Pinz, and AndrewZisserman. 检测到跟踪，跟踪到检测. In ICCV , 2017.0[8] Rudolph Kalman. 一种线性滤波和预测问题的新方法.Journal of Basic Engineering , 1960.0[9] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou,Jiong Yang, and Oscar Beijbom. PointPillars:用于点云目标检测的快速编码器. In CVPR , 2019.0[10] Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu,Sergio Casas, and Raquel Urtasun. PnPNet:端到端感知和预测与跟踪. In CVPR , 2020.0[11] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, andPiotr Doll´ar. 密集目标检测的焦点损失. In ICCV , 2017.0[12] Ilya Loshchilov and Frank Hutter. 解耦的权重衰减正则化. In ICLR , 2019.0[13] Zhichao Lu, Vivek Rathod, Ronny Votel, and JonathanHuang. RetinaTrack: 在线单阶段联合检测和跟踪. In CVPR ,2020.0[14] Chenxu Luo, Xiaodong Yang, and Alan Yuille.自监督柱状物体运动学习用于自动驾驶. In CVPR , 2021.0[15] Wenjie Luo, Bin Yang, and Raquel Urtasun.快速而狂野：实时端到端三维检测、跟踪和运动预测. In CVPR ,2018.0[16] Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, andChristoph Feichtenhofer. TrackFormer:基于Transformer的多目标跟踪. arXiv:2101.02702 , 2021.0[17] Adam Paszke, Sam Gross, Francisco Ma

下载后可阅读完整内容，剩余1页未读，立即下载