超越3DSiamese：基于点云的3D单目标跟踪的以运动为中心的范式

126 浏览量更新于2023-10-25 收藏 19.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{chaodazheng@link., xuyan1@link., haimingzhang@link., lizhen@}cuhk.edu.cnGround TruthPrediction81110超越3DSiamese跟踪：基于点云的3D单目标跟踪的以运动为中心的范式0郑超达 123 ，严旭 123 ，张海明 123 ，王宝元 4 ，程胜辉 5 ，崔树光 123 ，李振 123 *01 香港中文大学（深圳） 2 未来智能网络研究院 3 深圳大数据研究院 4 小冰.AI 5 西湖大学0摘要0在自动驾驶中，LiDAR点云中的3D单目标跟踪（3DSOT）起着至关重要的作用。当前的方法都遵循基于外观匹配的Siamese范式。然而，LiDAR点云通常是无纹理和不完整的，这阻碍了有效的外观匹配。此外，以前的方法很大程度上忽视了目标之间的关键运动线索。在这项工作中，超越3DSiamese跟踪，我们引入了一种以运动为中心的范式，以从新的角度处理3DSOT。根据这个范式，我们提出了一个无匹配的两阶段跟踪器M2-Track。在第一阶段，M2-Track通过运动变换在连续帧中定位目标。然后，在第二阶段，它通过运动辅助的形状补全来优化目标框。大量实验证实，M2-Track在三个大规模数据集上显著优于以前的最新技术，同时运行速度为57FPS（在KITTI、NuScenes和Waymo OpenDataset上分别获得了约8%、17%和22%的精度提升）。进一步的分析验证了每个组件的有效性，并展示了结合外观匹配时以运动为中心的范式的潜力。代码将在https://github.com/Ghostish/Open3DSOT上提供。01. 引言0单目标跟踪（SOT）是一个基本的计算机视觉问题，具有各种应用，例如自动驾驶[22, 38,39]和监控系统[32]。其目标是在视频序列中跟踪特定目标，仅给出其初始状态（外观和位置）。现有的基于LiDAR的SOT方法[8, 10, 23, 26, 43,44]都遵循Siamese范式，这在广泛应用中。0* 通讯作者0当前帧0容易出错的预测0骨干0骨干0共享0外观匹配0（a）基于匹配的Siamese范式0精确预测0骨干0运动0变换0（b）以运动为中心的范式0上一帧+框0当前帧0运动状态0规范化0目标模板0上一帧+框0裁剪0中心0图1.上图：以往的Siamese方法使用上一帧的目标框获取一个规范化的目标模板，并根据匹配相似度在当前帧中搜索目标，这对干扰物敏感。下图：我们的以运动为中心的范式通过学习两个连续帧之间的相对目标运动，然后通过运动变换在当前帧中鲁棒地定位目标。0在2DSOT中采用了这种方法，因为它在性能和速度之间取得了平衡。在跟踪过程中，Siamese模型使用外观匹配技术在候选区域中搜索目标，该技术依赖于目标模板的特征和由共享骨干提取的搜索区域（见图1（a））。尽管3DSOT的外观匹配在KITTI数据集上显示出令人满意的结果[9]，但我们观察到KITTI具有以下特点：i）两个连续帧之间的目标运动很小，这确保了没有剧烈的外观变化；ii）目标周围几乎没有干扰物。然而，这些特点在自然场景中并不成立。由于自遮挡，连续帧之间可能会发生显著的外观变化。81120当物体移动速度快或硬件只支持低帧采样率时，LiDAR视图会出现问题。此外，在密集交通场景中，负样本数量显著增加。在这些场景中，仅通过外观很难定位目标（即使对于人类也是如此）。外观匹配是否是LiDARSOT的唯一解决方案？实际上，运动很重要。由于该任务涉及视频序列中的动态场景，目标在连续帧之间的移动对于有效跟踪至关重要。在了解这一点后，研究人员提出了各种2D跟踪器，以从先前的帧中临时聚合信息。然而，由于透视畸变很难估计运动信息，因此很少明确建模运动信息。幸运的是，3D场景保留了关于物体运动的完整信息，可以从标注的3D边界框之间的关系中轻松推断出来。尽管3D运动对于跟踪很重要，但以前的方法很大程度上忽视了它。由于Siamese范式，以前的方法必须将目标模板（由第一个目标3D边界框中的物体点云初始化，并使用最后的预测进行更新）从世界坐标系转换为其自己的物体坐标系。这种转换确保共享的主干提取出规范化的目标特征，但会破坏连续帧之间的运动连接。基于以上观察，我们提出从不同的角度解决3DSOT，而不是坚持Siamese范式。我们首次引入了一种新的以运动为中心的范式，通过明确建模连续帧之间的目标运动来定位连续帧中的目标。根据这个范式，我们设计了一种新颖的两阶段跟踪器M2-Track。在跟踪过程中，第一阶段旨在通过预测帧间相对目标运动来生成目标边界框。利用第一阶段的所有信息，第二阶段使用更密集的目标点云对边界框进行细化，该点云是使用它们的相对运动从两个部分目标视图聚合而成的。我们在KITTI、NuScenes和Waymo OpenDataset（WOD）上评估了我们的模型，其中NuScenes和WOD涵盖了各种真实环境，并且由于交通密集而具有挑战性。实验结果表明，我们的模型在运行速度更快的同时，比以前的最佳性能模型表现出更大的优势。此外，当场景中存在更多干扰物时，性能差距变得更加显著。此外，我们证明了我们的方法在与现有方法集成时可以直接从外观匹配中受益。总之，我们的主要贡献如下：1）一种新的以运动为中心的实时LiDARSOT范式，不需要外观匹配。2）一种名为M2-Track的特定第二阶段流程，利用运动建模和运动辅助形状补全。3）在三个广泛采用的数据集（即KITTI、NuScenes和WaymoOpenDataset）上具有最先进的在线跟踪性能，取得了显著的改进。01 这在刚性物体（例如汽车）上非常适用，对于非刚性物体（例如行人）也大致适用。0一种新的以运动为中心的范式，用于实时LiDARSOT，不需要外观匹配。2）一种名为M2-Track的特定第二阶段流程，利用运动建模和运动辅助形状补全。3）在三个广泛采用的数据集（即KITTI、NuScenes和Waymo OpenDataset）上具有最先进的在线跟踪性能，取得了显著的改进。02. 相关工作0单目标跟踪。大多数方法都是针对相机系统构建的，并以2DRGB图像作为输入。尽管取得了有希望的结果，但在处理低光条件或无纹理物体时面临巨大挑战。相比之下，LiDAR对纹理不敏感且对光照变化鲁棒，使其成为相机的合适补充。这激发了一种新的SOT方法趋势，即基于3DLiDAR点云操作的方法。这些3D方法都继承了基于外观匹配的Siamese范式。作为先驱，[10]使用卡尔曼滤波器启发式地对一组目标提案进行采样，然后根据它们与目标模板的特征相似性进行比较。选择与目标模板具有最高相似性的提案作为跟踪结果。由于启发式采样耗时且抑制端到端训练，[23，43]提出使用区域提案网络（RPN）高效生成高质量的目标提案。与[43]使用在鸟瞰图上操作的现成2DRPN不同，[23]通过将点对点相关运算符与基于点的RPN集成[19]，将SiamRPN[15]调整为3D点云。[23]带来的显著改进激发了一系列后续工作[8，13，26，44]。它们专注于通过特征增强改进点对点相关运算符[44]，或者通过更复杂的结构改进基于点的RPN [8，13，26]。由于图像提供丰富的纹理，外观匹配在2DSOT中取得了极大的成功，这有助于模型区分目标和周围环境。然而，LiDAR点云只包含几何外观，缺乏纹理信息。此外，LiDAR扫描中的物体通常是稀疏和不完整的。这些带来了相当多的歧义，阻碍了有效的外观匹配。与现有的3D方法不同，我们的工作不再使用任何外观匹配。相反，我们研究了一种新的以运动为中心的范式，并展示了它在3DSOT中的巨大潜力。3D多目标跟踪/检测。与SOT不同，3D多目标跟踪（MOT）专注于同时跟踪多个物体。与SOT不同，用户可以指定感兴趣的目标，MOT依赖于独立的检测器[19，27，40]提取潜在目标，这阻碍了其对陌生对象的应用。��81130目标0分割0两帧点目标点运动状态优化的3D边界框0基于运动的0跟踪0框0细化0优化的3D边界框0粗略03D边界框0运动状态0目标性预测第二阶段第一阶段0目标点0（T-1)-th点云0（T-1) -th3D边界框0第T个0点云0粗略的3D边界框0上一帧当前帧0运动估计0合并的点0图2.M2-Track的整体架构。给定两个连续的点云和前一帧可能的目标边界框，M2-Track首先通过联合时空学习从周围环境中分割目标点。在第一阶段，模型接收目标点并通过运动预测和变换在当前帧获得一个粗略的边界框。粗略的边界框在第二阶段通过运动辅助形状完成进一步优化。详细的数据流程图请参见补充材料。0（检测器未知的类别）。当前的3DMOT方法主要遵循“检测跟踪”范式，即首先在每一帧检测物体，然后根据物体的运动或外观启发式地关联检测到的边界框[4, 16, 35,42]。最近，[17]提出了将检测和跟踪联合进行的方法，将目标检测和运动关联结合成一个统一的流程。我们的基于运动的跟踪器从MOT中获得灵感，但与MOT不同的是，我们的方法不依赖于任何检测器，并且可以利用运动预测进一步优化目标边界框。点云的时空学习。我们的方法利用时空学习从多个帧中推断相对运动。受到自然语言处理的最新进展的启发[5, 30, 33]，出现了将LSTM [12]、GRU[41]或Transformer[7]应用于建模点云视频的方法。然而，它们的复杂结构使它们难以与其他下游任务集成，特别是对于实时应用。另一种趋势是通过将多个点云合并到一个带有每个点的时间通道的空间-时间（ST）点云中[11, 22,24]。将时间通道视为附加特征（如RGB或反射），可以使用任何3D骨干[20,21]处理这样的ST点云，而无需进行结构修改。我们采用这种策略来处理连续的帧，以简化和提高效率。03. 方法论03.1. 问题陈述0给定目标的初始状态，我们的目标是在动态3D场景的每一帧中定位目标。时间戳t的帧是一个具有Nt个点和3个通道的LiDAR点云Pt∈RNt×3，其中0点通道编码了全局坐标xyz。目标的初始状态是在第一帧的3D边界框P1中给出的。一个3D边界框Bt∈R7由其中心（xyz坐标）、方向（绕上轴的偏航角θ）和尺寸（宽度、长度和高度）参数化。对于跟踪任务，我们进一步假设目标的尺寸在帧之间保持不变，即使对于非刚性物体也是如此（对于非刚性物体，其边界框尺寸由其在场景中的最大范围定义）。对于每一帧Pt，跟踪器仅通过历史帧{Pi}ti=1输出目标的无模3D边界框。03.2. 基于运动的范式0给定一个LiDAR序列和第一帧中目标的3DBBox，运动中心跟踪器旨在使用显式的运动建模逐帧定位目标。在时间戳 t（t > 1）处，已知前一帧 t − 1的目标BBox B t −1（作为初始状态给出或由跟踪器预测）。在连续的两帧 P t和 P t − 1 以及 P t − 1 中的目标BBox B t − 1的情况下，跟踪器预测连续两帧之间的相对目标运动（RTM）。我们只考虑4自由度的RTM，而不是6自由度，因为目标始终与地平面对齐（没有滚动和俯仰）。具体而言，4自由度的RTM M t − 1 ，t ∈ R 4 在帧 t 和 t − 1中的两个目标BBox之间定义，包含平移偏移 (∆x, ∆y, ∆z)和偏航偏移 ∆θ。我们可以将这个过程公式化为一个函数F：0F(P t , P t − 1 , B t − 1 ) → (∆x, ∆y, ∆z, ∆θ); (1)0有了预测的RTM M t − 1 ，t，可以通过刚体变换轻松获得P t 中的目标BBox：0B t = Transform(B t − 1 , M t − 1 ,t)。 (2)(3)81140细化（T-1）-th BBox0目标点0PointNet主干0运动状态0变换粗略的T-th BBox0动态？（是/否）相对目标0运动0图3. 第一阶段。输入分割的目标点 P t − 1，以及前一帧的目标BBox B t − 1，模型输出相对目标运动状态（包括RTM M t − 1 ，t和2D二进制运动状态logits），前一帧的细化目标BBox B t − 1，以及当前帧的粗略目标BBox B t 。03.3. M2-Track：运动中心跟踪流程0根据运动中心的范例，我们设计了一个两阶段的运动中心跟踪流程M2-Track（如图2所示）。M2-Track首先通过目标分割和运动变换在第一阶段粗略定位目标，然后在第二阶段对BBox进行细化。0阶段使用运动辅助的形状补全。下面详细介绍每个模块。带有时空学习的目标分割为了学习相对目标运动，我们首先需要从周围环境中分割出目标点。通过将两个连续帧 P t 和 Pt − 1 以及目标BBox B t − 1作为输入，我们利用两帧之间的时空关系来实现这一点（如图2的第一部分所示）。类似于[18,24]，我们通过为每个点添加一个时间通道，然后将它们合并在一起，从 P t − 1 和 P t 构建一个时空点云 P t − 1 ，t∈ R (N t − 1 + N t) × 4 = {p i = (x i , y i , z i , t i )} N t −1 + N t i = 1。由于场景中存在多个物体，我们必须根据 Bt − 1指定感兴趣的目标。为此，我们创建一个先验目标映射 S t− 1 ，t ∈ R N t − 1 + N t，用于指示 P t − 1 ，t中的目标位置，其中 s i ∈ S t − 1 ，t 定义为：0s i =0� 0�0如果 p i 在 P t − 1 中且 p i 不在 B t − 1 中，则为0；如果 p i在 P t − 1 中且 p i 在 B t − 1 中，则为1；如果 p i 在 P t中，则为0.5。0直观地，可以将 s i 视为 p i 是目标点的先验置信度。对于 Pt − 1 中的一个点，我们根据其相对于 B t − 1的位置设置其置信度。由于 P t中的目标状态是未知的，我们为 P t中的每个点设置一个中位数得分0.5。注意，S t − 1 ，t对于 P t − 1 中的点来说并不是100%正确的，因为 B t − 1可能是跟踪器的先前输出。之后，我们通过沿通道轴连接 Pt − 1 ，t 和 S t − 1 ，t来形成一个5D点云，并使用PointNet[20]分割网络获取目标掩码，最后用于提取空间-时间特征。0合并的点0（世界坐标）0来自粗糙的BBox0第一阶段0目标点0按照分割0时间戳（T-1）的第T个点0第T个点0使用进行变换0运动状态0坐标变换0PointNet主干0精化的BBox0合并的点（框坐标）0图4。第二阶段。将分割的目标点云�Pt-1,t和粗糙的目标BBoxBt作为输入，模型在一个更密集的点云上回归出精化的目标BBox�Bt，该点云是根据它们的相对运动状态从两个部分目标点云中合并而来的。0目标点云�Pt-1,t∈R(Mt-1+Mt)×4，其中Mt-1和Mt分别是帧(t-1)和t中的目标点数。第一阶段：以运动为中心的BBox预测如图3所示，我们使用另一个PointNet编码器将时空目标点云�Pt-1,t编码为嵌入。在嵌入之上应用多层感知机（MLP）以获得目标的运动状态，其中包括一个4D的RTMMt-1,t和一个二进制分类logits，指示目标是否是动态的。为了在逐帧跟踪时减少累积误差，我们通过另一个MLP预测其与Bt-1相关的RTM，从而生成一个精化的先前目标BBox�Bt-1（更多细节请参见补充材料）。最后，如果将目标分类为动态的，则通过将等式2应用于Mt-1,t和�Bt-1，得到当前目标BBoxBt。否则，我们将Bt简单地设置为�Bt-1。第二阶段：通过形状补全精化BBox受到两阶段检测网络[27,28]的启发，我们通过额外回归相对偏移来改善第一阶段的BBox质量，这可以被视为Bt和精化的BBox�Bt之间的RTM。与检测网络不同，我们通过一种新颖的运动辅助形状补全策略来精化BBox。由于自遮挡和传感器运动，LiDAR点云存在严重的不完整性，这阻碍了精确的BBox回归。为了减轻这个问题，我们使用预测的运动状态来聚合两个连续帧中的目标，形成一个更密集的目标点云。根据时间通道，两个不同时间戳的目标点云�Pt∈RMt×3被提取出来。0和�Pt∈RMt×3从不同的时间戳中提取81150根据运动状态，我们将Pt-1转换为当前时间戳的点云，如果目标是动态的，则使用Mt-1,t进行转换（如果目标是静态的，则与Pt-1相同）。将转换后的点云（与Bt定义的规范坐标系相同）与Pt合并，形成一个更密集的点云ˆPt∈R(Mt-1+Mt)×3。类似于[22,27]，我们将ˆPt从世界坐标系转换为规范坐标系。我们在规范化的ˆPt上应用PointNet，以回归出与Bt相关的另一个RTM。最后，通过将回归得到的RTM和Bt应用于等式2，得到精化的目标BBox�Bt。03.4.框感知特征增强0如图所示[44]，LiDARSOT直接受益于部分感知和尺寸感知信息，可以通过点到框的关系来描述。为了实现更好的目标分割，我们构建了一个距离图Ct-1∈RNt-1×9，通过计算Pt-1和Bt-1的9个关键点（八个角点和一个中心点按照预定义的顺序排列，与规范框坐标系相关）之间的欧氏距离。之后，我们使用零填充将Ct-1扩展到大小为(Nt-1+Nt)×9（对于Pt中的点）并将其与Pt-1,t和St-1,t连接起来。然后将整体的框感知特征发送到PointNet分割网络中，以获得更好的目标分割。03.5. 实现细节0损失函数。损失函数包括分类损失和回归损失，定义为 L =λ1Lcls target + λ2Lcls motion + λ3(Lreg motion + Lregrefine prev + Lreg 1st + Lreg 2nd)。Lcls target和Lclsmotion是第一阶段目标分割和运动状态分类的标准交叉熵损失（如果点在目标BBox内，则将其视为目标；如果目标的中心在两帧之间移动超过0.15米，则将其视为动态目标）。所有的回归损失都是预测值和基于目标BBox推断出的地面真实RTM之间的Huber损失[25]，其中Lregmotion是两帧之间目标之间的RTM；Lreg refineprev是预测值和时间戳（t-1）处的地面真实BBox之间的RTM；Lreg 1st / Lreg2nd是第一/第二阶段与地面真实BBox之间的RTM。我们经验性地设置λ1 = λ2 = 0.1和λ3 =1。输入和运动增强。由于SOT只关注场景中的一个目标，我们只需要考虑目标可能出现的子区域。对于时间戳（t-1）和t处的两个连续帧，我们通过将时间戳（t-1）处的目标BBox放大2米来选择子区域。然后，我们分别从子区域的时间戳（t-1）和t处采样1024个点，形成Pt-1和Pt。为了模拟训练过程中的测试误差，我们在时间戳（t-1）处的地面真实目标BBox上添加轻微的随机偏移，将扰动的BBox输入模型。为了鼓励模型学习各种运动模式，在训练过程中，我们随机翻转目标的点和BBox的水平轴，并围绕其上轴旋转Uniform[-10°,10°]。我们还随机将目标平移，平移量从Uniform[-0.3,0.3]米中随机选择。0表1.我们的M2-Track与KITTI数据集上最先进方法的比较。Mean表示按帧数加权的平均结果。粗体和下划线分别表示最佳性能和次佳性能。斜体表示相对于先前最先进方法的改进。0类别车辆行人货车骑车者平均帧数 6424 6088 1248 308140680成功率0SC3D [10] 41.3 18.2 40.4 41.5 31.2 SC3D-RPN [43] 36.3 17.9- 43.2 - P2B [23] 56.2 28.7 40.8 32.1 42.4 3DSiamRPN [8]58.2 35.2 45.6 36.1 46.6 LTTR [6] 65.0 33.2 35.8 66.2 48.7PTT [26] 67.8 44.9 43.6 37.2 55.1 V2B [13] 70.5 48.3 50.140.8 58.40BAT [44] 65.4 45.7 52.4 33.7 55.00M2-Track (我们的方法) 65.5 61.5 53.8 73.2 62.9 改进 ↓ 5.0 ↑13.2 ↑ 1.4 ↑ 7.0 ↑ 4.50精确率0SC3D [10] 57.9 37.8 47.0 70.4 48.5 SC3D-RPN [43] 51.0 47.8- 81.2 - P2B [23] 72.8 49.6 48.4 44.7 60.0 3DSiamRPN [8]76.2 56.2 52.8 49.0 64.9 LTTR [6] 77.1 56.8 45.6 89.9 65.8PTT [26] 81.8 72.0 52.5 47.3 74.2 V2B [13] 81.3 73.5 58.049.7 75.20BAT [44] 78.9 74.5 67.0 45.4 75.20M2-Track (我们的方法) 80.8 88.2 70.7 93.5 83.4 改进 ↓ 1.0 ↑13.7 ↑ 3.7 ↑ 3.6 ↑ 8.20训练过程中，我们随机翻转两个目标的点和BBox的水平轴，并在它们的up轴周围旋转Uniform[-10°,10°]。我们还随机将目标平移，平移量从Uniform[-0.3,0.3]米中随机选择。04. 实验04.1. 实验设置0数据集。我们在三个大规模数据集上对我们的方法进行了广泛评估：KITTI [9]、NuScenes [3]和Waymo OpenDataset (WOD)[29]。我们按照[10]的方法从每个场景中提取注释的跟踪实例的轨迹，将这些数据集适应于3DSOT。KITTI包含21个训练序列和29个测试序列。由于测试标签不可访问，我们按照之前的工作[10, 23,44]将训练集分为训练/验证/测试集。NuScenes包含1000个场景，分为700/150/150个场景用于训练/验证/测试。官方上，训练集进一步均匀分为“train track”和“traindetect”以解决过拟合问题。我们按照[44]的方法，使用“traintrack”分割训练模型，并在验证集上进行测试。WOD包括1150个场景，其中798个用于训练，202个用于验证，150个用于测试。我们分别在训练集和验证集上进行训练和测试。需要注意的是，由于数据量和复杂性更大，NuScenes和WOD比KITTI更具挑战性。81160表2. M2-Track与NuScenes和Waymo Open Dataset上最先进方法的比较。0数据集 NuScenes Waymo Open Dataset 类别汽车行人卡车拖车公交车平均车辆行人平均帧数 64,159 33,227 13,587 3,352 2,953117,278 1,057,651 510,533 1,568,1840成功率0SC3D [10] 22.31 11.29 30.67 35.28 29.35 20.70 - - - P2B [23] 38.81 28.39 42.95 48.96 32.95 36.48 28.32 15.60 24.18 BAT [44]40.73 28.83 45.34 52.59 35.44 38.10 35.62 22.05 31.200M2-Track（我们的方法） 55.85 32.10 57.36 57.61 51.39 49.23 43.62 42.10 43.13 改进 ↑ 15.12 ↑ 3.27 ↑ 12.02 ↑ 5.02 ↑ 15.95 ↑ 11.14 ↑8.00 ↑ 20.05 ↑ 11.920精确度0SC3D [10] 21.93 12.65 27.73 28.12 24.08 20.20 - - - P2B [23] 43.18 52.24 41.59 40.05 27.41 45.08 35.41 29.56 33.51 BAT [44]43.29 53.32 42.58 44.89 28.01 45.71 44.15 36.79 41.750M2-Track（我们的方法） 65.09 60.92 59.54 58.26 51.44 62.73 61.64 67.31 63.48 改进 ↑ 21.80 ↑ 7.60 ↑ 16.96 ↑ 13.37 ↑ 23.43 ↑ 17.02 ↑17.49 ↑ 30.52 ↑ 21.730行人0真值 BAT 我们0骑行者汽车0图5. 可视化结果。上：KITTI中的干扰情况。中：KITTI中的大运动情况。下：NuScenes中的情况。0KITTI和WOD的LiDAR序列采样频率为10Hz。虽然NuScenes的采样频率为20Hz，但它只提供2Hz的注释。由于只考虑已注释的关键帧，因此NuScenes中关键帧的较低频率引入了额外的困难。评估指标。我们使用一次性评估（OPE）[36]来评估模型。它将重叠定义为预测边界框与地面真值边界框之间的交并比（IOU），并将误差定义为两个边界框中心之间的距离。我们在以下实验中报告每个模型的成功率和精确度。成功率是曲线下的面积（AUC），重叠阈值从0到1变化。精确度是曲线下的面积（AUC），误差阈值从0到2米变化。0曲线（AUC），重叠阈值从0到1变化。精确度是误差阈值从0到2米的AUC。04.2. 与最先进方法的比较0KITTI上的结果。我们将M2-Track与七种性能最佳的方法[6,8, 10, 13, 23, 26, 43,44]进行比较，这些方法在KITTI上有发布的结果。如表1所示，我们的方法在刚性和非刚性物体跟踪方面都有所提升，在除了汽车类别之外的所有类别中超过了当前方法，其中PTT [26]和V2B [13]在汽车类别中超过了我们。PTT [26]67.8081.80V2B [13]70.5081.30M2-Track65.4980.81M2-Track + BAT [44]69.22 ↑ 3.7381.09 ↑ 0.28M2-Track + P2B [23]70.21 ↑ 4.7281.80 ↑ 0.99495153555759616070809010081170表3. 运动增强的影响。“aug”表示运动增强。0方法成功率精确度0BAT [44]无增强 65.37 78.88 BAT [44]有增强63.59 ↓ 1.78 76.99 ↓ 1.890P2B [23]无增强 56.20 72.80 P2B [23]有增强55.21 ↓ 0.99 71.51 ↓ 1.290M2-Track无增强 65.29 77.12 M2-Track有增强65.49 ↑ 0.20 80.81 ↑ 3.690通过微小的差距。场景中缺乏汽车干扰因素，使得我们对于基于外观匹配的方法在汽车方面的改进微小。但是对于行人来说，我们的改进是显著的（在成功率/精确度方面分别为13.2%/13.7%），因为场景中行人的干扰因素很普遍（有关干扰因素的更多详细信息请参见补充材料）。此外，使用基于点的RPN [8, 23, 26,44]的方法在骑行者方面表现不佳，骑行者的尺寸相对较小，但通常在时间上移动得很快。图5的第二行显示了一个骑行者在帧之间快速移动的情况。我们的方法完美地跟踪目标，而BAT几乎失败。为了处理这样快速移动的物体，[6,43]利用基于BEV的RPN从更大的搜索区域生成高召回率的提议。相比之下，我们通过简单的运动建模来处理这个问题，而不需要复杂的架构。在NuScenes和WOD上的结果。我们选择了三个代表性的开源作品：SC3D [10]，P2B[23]和BAT[44]作为我们在NuScenes和WOD上的竞争对手。NuScenes上除了行人类别之外的结果由[44]提供。我们使用竞争对手的发布代码获取[44]中缺失的其他结果。由于SC3D[10]的训练时间成本较高，我们在WOD比较中省略了它。如表2所示，M2-Track在所有类别下都超过了所有竞争对手，大多数情况下差距很大。在这两个具有普遍干扰因素和剧烈外观变化的挑战性数据集上，先前方法与M2-Track之间的性能差距甚至更大（例如，在Waymo行人上获得超过30%的精确度增益）。请注意，对于大型物体（即卡车、拖车和公交车），即使预测的中心与目标相距较远（从较低的精确度反映出来），先前模型的输出BBox仍然可能与地面真值重叠（导致较高的成功率）。相比之下，运动建模有助于大幅提高大型物体的成功率和精确度（例如，公交车上的+23.43%增益）。图5和补充材料提供了可视化结果。04.3. 分析实验0在本节中，我们通过一系列实验对M 2-Track进行了广泛的分析。首先，我们比较了0表4. 与外观匹配的整合。0方法成功率精度0成功0干扰物数量0我们的BATP2B0图6. 不同数量干扰物的鲁棒性分析。0M 2-Track和之前的外观匹配方法在不同的设置中的表现。然后，我们将M 2-Track与之前的外观匹配方法相结合，展示其潜力。最后，我们研究了M 2-Track中每个组件的有效性。除非另有说明，所有实验都是在KITTI的Car类别上进行的。对于干扰的鲁棒性。尽管在NuScenes和WOD上取得了有希望的改进，M 2-Track在KITTI的Car上几乎没有改进。为了解释这一点，我们观察了三个数据集的场景，并发现KITTI中大多数汽车的周围环境没有干扰物，而在NuScenes和WOD中干扰物是普遍存在的（请参见补充材料）。虽然基于外观匹配的方法对干扰物敏感，但在没有干扰物的场景中，它们提供比我们的基于运动的方法更精确的结果。但是随着干扰物数量的增加，这些方法在干扰物的模糊性下会遭受明显的性能下降。为了验证这个假设，我们在KITTI的每个场景中随机添加了K辆汽车，并使用这个合成数据集重新训练和评估不同的模型。如图6所示，M 2-Track在具有更多干扰物的场景中始终优于其他两种基于匹配的方法，并且随着K的增加，性能差距也在增大。由于具有盒子感知性，BAT[44]可以在一定程度上帮助解决这种模糊性。但是当添加更多干扰物时，我们的性能比BAT更稳定。此外，图5的第一行显示，当由于遮挡而点数减少时，BAT被干扰物误导，然后跟踪偏离轨道，而Box AwareEnhancementPrev BoxRefinementMotionClassificationStage-IIKittiNuScenes✓✓✓62.00 ↓ 3.4976.15 ↓ 4.6653.68 ↓ 2.1762.47 ↓ 2.62✓✓✓64.23 ↓ 1.2678.12 ↓ 2.6954.70 ↓ 1.1561.94 ↓ 3.15✓✓✓65.74 ↑ 0.2580.29 ↓ 0.5254.88 ↓ 0.9764.40 ↓ 0.69✓✓✓61.29 ↓ 4.2077.31 ↓ 3.5054.66 ↓ 1.9964.15 ↓ 0.94✓✓✓✓65.4980.8155.8565.0981180表5. 在不同模块被剔除时的M 2 -Track结果。最后一行表示完整模型。粗体表示最大变化。0成功率精度成功率精度0M 2-Track始终紧密地保持与真实值的一致性。所有这些观察结果都证明了我们方法的鲁棒性。运动增强的影响。我们通过在训练中使用运动增强来提高M 2-Track的性能，而之前的方法没有采用这种方法。为了公平比较，我们使用与它们的开源项目中相同的配置重新训练BAT [44]和P2B[23]，除了额外添加运动增强。表3显示，运动增强对BAT和P2B都产生了负面影响。我们的模型受益于运动增强，因为它明确地建模目标运动并对干扰物具有鲁棒性。相反，运动增强可能会将目标移动到其潜在干扰物附近，从而损害那些基于外观匹配的方法。与外观匹配相结合。尽管我们的以运动为中心的模型在各个方面都优于以前的方法，但在处理无干扰物的情况下，基于外观匹配的方法仍然显示出优势。为了结合运动和匹配方法的优势，我们将BAT/P2B作为“重新跟踪器”来微调M 2-Track的结果。具体而言，我们直接利用BAT/P2B在M 2-Track输出的小邻域中搜索目标。表4证实了M 2-Track可以进一步从外观匹配中受益，即使在这种简单的组合下也是如此。在KITTICar上，两个组合模型的性能都超过了排名第一的PTT[26]。我们相信通过将基于运动和基于匹配的范式与更精细的设计相结合，可以进一步提升3DSOT的性能。消融实验。在表5中，我们对KITTI和NuScenes进行了详尽的消融研究，以了解M 2-Track的各个组件。具体而言，我们分别消除了M 2-Track中的盒子感知特征增强、先前的边界框细化、二进制运动分类和第二阶段。总体而言，组件的有效性在数据集之间有所不同，但是删除其中任何一个都会导致性能下降。唯一的例外是在第一阶段使用的二进制运动分类，在成功率方面对KITTI造成了轻微下降。我们认为这是由于KITTI的汽车缺乏静态物体造成的，这导致了一个有偏的分类器。此外，表5显示，即使在模块被剔除的情况下，M 2-Track仍然保持竞争力，尤其是在NuScenes上。这反映了0M2-Track的主要改进来自于以运动为中心的范式，而不是特定的流程设计。04.4. 运行开销0M2-Track仅使用简单的PointNet[20]就实现了令人兴奋的性能。与先前工作中使用的其他分层骨干（例如[21]）相比，PointNet节省了更多的计算开销，因为它不执行任何采样或分组操作，这不仅耗时而且占用内存。因此，M2-Track的运行速度比之前的顶级表现者BAT[44]快1.67倍（仅考虑模型前向传递时间），但节省了31.1%的内存占用。使用更先进的骨干（例如[21,31]）可能会进一步提高性能，但不可避免地会降低运行速度。由于我们专注于在线跟踪，我们更喜欢一个更简单的骨干来平衡性能和效率。05. 结论0在这项工作中，我们重新审视了LiDAR点云中的3DSOT，并提出了用新的以运动为中心的范式来处理它，这被证明是匹配式Siamese范式的一个很好的补充。除了新的范式，我们还提出了一个特定的以运动为中心的跟踪流程M2-Track，从各个方面显著优于现有技术。广泛的分析证实，以运动为中心的模型对干扰因素和外观变化具有鲁棒性，并且可以直接受益于之前的基于匹配的跟踪器。我们相信，以运动为中心的范式可以作为指导未来架构设计的主要原则。0致谢0本工作部分得到了NSFC-Youth61902335的支持，广东省重点领域研发计划资助项目编号2018B030338001，国家重点研发计划资助项目编号2018YFB1800800，深圳市杰出人才培养基金资助项目，广东省研究项目编号2017ZT07X152，广东省区域联合基金重点项目2019B1515120039，NSFC61931024&81922046，helixon生物技术公司基金和CCF-Tencent开放基金。[1] Goutam Bhat, Martin Danelljan, Luc Van Gool, andRadu Timofte. Learning discriminative model predic-tion for tracking. In Int. Conf. Comput. Vis., pages6182–6191, 2019. 2[2] Goutam Bhat, Martin Danelljan, Luc Van Gool, andRadu Timofte. Know your surroundings: Exploitingscene information for object tracking. In Eur. Conf.Comput. Vis., pages 205–221. Springer, 2020. 2[3] Holger Caesar, Varun Bankiti, Alex H Lang,

下载后可阅读完整内容，剩余1页未读，立即下载