基于稀疏变换的单步长3D物体检测器

99 浏览量更新于2023-10-25 收藏 12.64MB PDF 举报

稀疏变换

激光雷达

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Lue Fan1,4,6,7Ziqi Pang2Tianyuan Zhang3Yu-Xiong Wang2Hang Zhao5Feng Wang8Naiyan Wang8Zhaoxiang Zhang1,4,6,9, �{fanlue2019, zhaoxiang.zhang}@ia.ac.cn{ziqip2, yxw}@illinois.edutianyuaz@andrew.cmu.eduhangzhao@mail.tsinghua.edu.cn{feng.wff, winsty}@gmail.com84580采用稀疏变换的单步长3D物体检测器01 中国科学院自动化研究所 2 伊利诺伊大学厄巴纳-香槟分校 3 卡内基梅隆大学 4 中国科学院大学5 清华大学 6 中国科学院模式识别国家重点实验室 7 中国科学院未来技术学院 8 图森未来 9香港智能科学与机器人研究中心0摘要0在基于激光雷达的自动驾驶3D物体检测中，物体尺寸与输入场景尺寸的比例与2D检测情况相比要小得多。忽视这种差异，许多3D检测器直接遵循2D检测器的常规做法，即在量化点云之后对特征图进行下采样。本文从重新思考这种多步长模式如何影响基于激光雷达的3D物体检测器开始。我们的实验指出，下采样操作带来的优势很少，并且导致不可避免的信息丢失。为了解决这个问题，我们提出了单步长稀疏变换（SST），从网络的开始到结束保持原始分辨率。借助变换器，我们的方法解决了单步长架构中感受野不足的问题。它还与点云的稀疏性很好地协作，并且自然地避免了昂贵的计算。最终，我们的SST在大规模Waymo开放数据集上取得了最先进的结果。值得一提的是，由于单步长的特性，我们的方法在小物体（行人）检测方面可以实现令人兴奋的性能（验证集上的83.8级别1 AP）。我们的代码将很快公开。01. 引言0基于激光雷达的自动驾驶3D物体检测已经受益于基于图像的物体检测的进展。主流的3D检测器将3D空间量化为一系列从鸟瞰图（BEV）中的伪图像，这使得从2D对应物中借鉴先进技术变得方便。许多工作[13, 19, 57,60]在这种范式下提出并取得了竞争性能。然而，3D空间和2D空间在相对物体尺度上有固有的区别，3D空间中的物体相对尺寸要小得多（见图2）。例如，在Waymo开放数据集[48]中，感知范围通常为150米×150米，而车辆只有约4米长，甚至行人更小。0对应作者。0体素化特征图稀疏体素集01 ×02 ×04 ×01 × 1 × 1 ×0多步长3D物体检测器0单步长稀疏变换（我们的方法）01 ×0检测头检测头0图1.与之前的多步长3D检测器相比，我们的模型是单步长的，并且在非空体素上进行稀疏操作。我们在输入点云上绘制了车辆边界框，以显示与输入场景尺寸相比的微小对象尺寸。0眼视图（BEV），这使得从2D对应物中借鉴先进技术变得方便。许多工作[13, 19, 57,60]在这种范式下提出并取得了竞争性能。然而，3D空间和2D空间在相对物体尺度上有固有的区别，3D空间中的物体相对尺寸要小得多（见图2）。例如，在Waymo开放数据集[48]中，感知范围通常为150米×150米，而车辆只有约4米长，甚至行人更小。0.00.20.40.6024680.00.010.02 0.03 0.040408012016084590占用长度仅为1米。这样一个微小的行人在1200×1200像素的图像中相当于一个8×8像素的对象，这表明在如此微小的尺度上进行物体检测是3D物体检测中的一个挑战之一。与3D空间中小尺度的挑战不同，2D检测器必须考虑处理具有不同尺度的对象。如图2所示，2D图像中的对象尺度呈现长尾分布，而在3D空间中，由于体素化中使用了非投影变换，对象尺度相当集中。为了处理不同尺度，2D检测器[23, 25, 46,47]通常通过一系列的下采样和上采样操作构建多尺度特征。这种多尺度架构也广泛应用于3D检测器（见图1）[13, 19, 57, 60,65]。由于3D物体检测器中的物体尺寸通常很小，而没有大型物体存在，一个自然的问题出现了：我们真的需要在3D物体检测器中进行下采样吗？考虑到这个问题，我们尝试了不带下采样操作的单步架构。单步网络在整个网络中保持原始分辨率。然而，设计这样的架构是具有挑战性的。舍弃下采样操作会导致两个问题：1）计算成本的增加；2）感受野的减小。前者限制了实时系统的适用性，后者阻碍了物体识别的能力。对于计算问题，稀疏卷积似乎是一个解决方案，但是体素之间的稀疏连接是一个问题。0使得感受野的减小变得更加严重（见表7）。对于感受野问题，我们通过实验证明一些常用的技术不符合我们的需求（见表1）：扩张卷积[5,61]对小物体不友好，而更大的卷积核在单步长架构中导致无法承受的计算开销。因此，我们陷入了一个困境，很难设计一个同时满足单步长架构、足够感受野和可接受计算成本这三个方面的卷积网络。这些困难自然而然地使我们想到了CNN范式之外的思考，而注意机制由于以下两个原因成为更好的选择：1）基于注意力的模型更擅长捕捉大范围的上下文并建立足够的感受野。2）由于对动态数据建模的能力，基于注意力的模型很好地适应了点云的稀疏体素化表示，其中只有一小部分体素被占用。这个特性保证了我们单步长网络的效率。尽管注意机制在稀疏数据上是高效的，但在全局范围内计算注意力仍然是不可承受和不可取的。因此，我们将体素化的3D空间划分为许多局部区域，并应用自注意机制。02我们在补充材料中对此进行了清晰的说明。0（a）COCO（b）Waymo0图2.COCO数据集[27]和Waymo开放数据集（WOD）中相对物体大小S0A o / A s ，其中 A o表示2D对象的面积（COCO）和3D对象的BEV面积（WOD）。A s是COCO中的图像面积，在WOD中为150m ×150m。在COCO中，73.03%的对象具有大于0.04的Srel，而在WOD中，只有0.54%的对象具有大于0.04的Srel。0在每个局部区域内。最终，这种局部注意机制被命名为稀疏区域注意（SRA），它兼具两者的优点。通过堆叠SRA层，我们使得单步长网络成为可能，并获得了一种名为单步长稀疏变换器（SST）的变换器风格网络。我们在大规模的Waymo开放数据集[48]上进行了大量实验。我们总结我们的贡献如下：0•我们重新思考了当前主流基于LiDAR的3D检测器的架构。通过试验，我们指出网络步长是被忽视的设计因素，对于基于LiDAR的3D检测器来说。0•我们提出了单步长稀疏变换器（SST）。通过其局部注意机制和处理稀疏数据的能力，我们克服了单步长设置中的感受野收缩问题，并避免了大量的计算开销。0•我们的方法在大规模的Waymo开放数据集上实现了最先进的性能。得益于单步长的特性，我们的方法在行人等小物体上取得了令人兴奋的结果（验证集上的83.8级别1AP）。02. 相关工作0基于3DLiDAR的检测在自动驾驶中有三种主要的表示方法，基于点的、基于体素的和基于范围视图的。基于点的表示由PointNet系列[37,38]支持，广泛应用于对不规则点云小区域的特征学习[7,24, 36, 43]。基于体素的表示[19, 57, 60,65]结合了卷积，是最流行的处理方法。正如最近几项研究所探索的[1, 3, 13, 21,33]，范围视图相对于体素具有计算优势，特别是对于长距离LiDAR传感器。D363.6660.8247.0858msD264.01 ↑ 0.35 60.85 ↑ 0.03 47.52 ↑ 0.44 60msD166.03 ↑ 2.02 65.06 ↑ 4.21 52.97 ↑ 5.45 91msD064.69 ↓ 1.34 64.32 ↓ 0.74 53.02 ↑ 0.05 185msDdilation066.26 ↑ 1.57 63.51 ↓ 0.81 50.95 ↓ 2.07 192msD5×5066.42 ↑ 1.77 65.71 ↑ 1.41 53.70 ↑ 0.68 340ms84600一些混合方法研究如何结合不同类型的表示[6, 24, 41, 42,49, 54]。0视觉识别中的变换器变换器架构在自然语言处理[11,52]和语音识别[8]中的成功，启发了许多研究来探索注意力在视觉识别中的能力[12, 29, 40, 51,62]。开创性的工作ViT[12]将图像分割成补丁，并将补丁序列输入多个变换器块进行图像分类。DeiT[51]探索了数据高效学习视觉变换器的训练策略。Swin-Transformer[29]利用局部注意力的能力构建了高性能的基于变换器的图像主干。一些研究探索了变换器在点云感知中的应用。其中一些研究集中在室内场景，如[17, 34,63]。对于自动驾驶场景，Pointformer[35]提出了一个直接在点云上操作的基于点的局部和全局注意模块。此外，VoTr[31]使用局部自注意模块替代稀疏卷积[16]进行体素处理，其中每个体素作为查询并与其相邻的体素进行关联。0小物体检测小物体检测[27, 56,066]是2D目标检测中具有挑战性的任务。当前方法的主流[14, 25, 45, 53,58]都专注于增加输入和输出特征的分辨率，但没有放弃多步长架构。其他一些方法采用了尺度感知训练[23, 25,47]和强数据增强[18,67]。据我们所知，目前还没有专门用于3D空间小物体检测的方法。03. 网络步长的讨论0网络的步长是架构设计中简单但关键的一个方面。在3D检测中，一些先前的工作[13, 15,60]发现通过上采样恢复输出分辨率可以提高性能。然而，他们并没有深入研究这一现象。因此，我们进行了一项简单的试验研究，揭示了网络步长对3D检测器的影响，并激发了我们网络设计的动机。为了通用性，我们采用了MMDetection3D[9]中广泛使用的PointPillars[19]作为基础模型。实验在Waymo开放数据集[48]上进行。我们均匀采样了20%的训练数据（32K帧），并采用1×调度（12个epoch）。基于标准的PointPillars模型D2，我们扩展了三个变体：D3，D1和D0，它们在网络步长上有所不同。从D3到D0，每个模型的四个阶段的步长集合分别为{1, 2, 4, 8}，{1, 2, 4, 4}，{1, 2, 2,2}和{1, 1, 1,1}。由于四个阶段的输出特征图将通过类似FPN的模块上采样到原始分辨率，我们的修改不会改变检测头中特征图的分辨率。除了特征图的分辨率外，这四个模型的超参数都是相同的。为了减少内存开销，我们将卷积层中的滤波器数量从256减少到128。主要结果如表1所示。从D3到D1，所有三个类别的性能都有所提升，而从D2到D1的提升显著。从D3到D1的性能提升支持了我们的动机，即较小的步长对于3D检测更好。然而，从D1到D0，车辆的性能显著下降，而行人的性能下降较小，骑车者的性能持续提高。我们推测，D0的有限感受野阻碍了从D1到D0的性能提升，因为行人和骑车者的尺寸比车辆小。为了验证我们的推测，我们添加了两个更多的变体：D dilation 0和D 5 × 5 0。D dilation0采用了扩张卷积，扩张率为2，用于最后两个阶段。D 5 × 50将最后两个阶段的卷积核大小增加到5×5。表1显示，扩张增加了车辆类别的性能，但降低了行人和骑车者的性能，表明它确实扩大了感受野，但丢失了细节。与此同时，更大的卷积核始终提高了所有三个类别的性能，但不幸的是具有最高的延迟03 使用20%的数据进行训练是[9, 50]中采用的一种用于有效验证的设置。0D 3 63.66 60.82 47.08 58ms D 2 64.01 ↑ 0 . 35 60.85↑ 0 . 03 47.52 ↑ 0 . 44 60ms D 1 66.03 ↑ 2 . 0265.06 ↑ 4 . 21 52.97 ↑ 5 . 45 91ms D 0 64.69 ↓ 1 .34 64.32 ↓ 0 . 74 53.02 ↑ 0 . 05 185ms0模型车辆行人骑车延迟0表1. Waymo开放数据集验证集上的试验结果。延迟在2080TiGPU上评估，使用500个样本的冷启动后的2000个样本。对于D n，箭头表示基于D n +1 的性能变化。对于D dilation 0和D 5 × 5 0，箭头表示基于D 0 的性能变化。0总之，上述实验验证了3D目标检测器设计的两个动机：0• 单步幅架构在基于LiDAR的3D检测中具有巨大潜力。0•使单步幅架构可行的关键在于适当处理感受野的收缩并减少计算开销。846104. 方法论04.1. 整体架构0到目前为止，我们知道使单步幅架构可行的关键是具有足够的感受野和可接受的计算成本。然而，正如我们在第1节中讨论的那样，使用卷积单步幅架构同时满足这两个因素是困难的。因此，我们转向Transformer中的注意机制，并按照以下方式提出我们的方法。我们构建了我们的单步幅稀疏Transformer（SST），如图4所示。SST将点云进行体素化，并按照之前的工作[19, 57,65]提取体素特征。对于每个体素及其特征，SST将它们视为“令牌”。SST首先将体素化的3D空间划分为固定大小的非重叠区域（第4.2节）。然后，SST对每个区域中的体素令牌应用稀疏区域注意力（第4.3节）。为了处理分散在多个区域中的对象并捕获有用的局部上下文，我们采用了区域移位（第4.4节），这受到Swin-Transformer中的移位窗口的启发[29]。骨干网络保留了体素的数量以及它们的空间位置，从而满足单步幅属性，并且可以与主流的检测头集成（第4.5节）。04.2. 区域分组0给定输入的体素令牌，区域分组将3D空间划分为非重叠的区域，使自注意力只与来自相同区域的令牌进行交互。区域分组不仅保持足够的感受野，还避免了全局注意力中昂贵的计算开销。我们在图3中直观地说明了这一点。每个区域分组根据它们的物理位置将输入令牌分成组，其中属于同一区域的令牌（绿色矩形）被分配到同一组中。04.3. 稀疏区域注意力0稀疏区域注意力（SRA）在来自区域分组的区域稀疏体素令牌集上操作。对于一组令牌F及其相应的空间（x，y，z）坐标I，SRA遵循传统的Transformer如下所示0F' = MSA(LN(F), PE(I)) + F F = MLP(LN(F'))+ F' (1)0其中PE（∙）表示[2]中使用的绝对位置编码函数，MSA（∙）表示多头自注意力，LN（∙）表示层归一化。这种SRA的方式很好地利用了点云的稀疏性，因为它只计算具有实际LiDAR点的体素。0为了利用现代设备的并行计算能力，由于点云的稀疏性，每个区域中有效令牌的数量不同，我们将具有相似令牌数量的区域批量处理在一起。在实践中，如果一个区域包含具有令牌数量N token ，满足以下条件：02i � N token < 2i + 1，i ∈ {0, 1, 2, 3, 4, 5, 6}，(2)0然后我们将令牌的数量填充到2i +1。通过填充的令牌，我们可以将所有区域划分为几个批次，然后并行处理同一批次中的所有区域。由于填充的令牌在计算中被掩码，就像[2,52]中一样，它们对其他有效令牌没有影响。这样，可以在当前流行的深度学习框架中轻松实现高效的SRA模块，而无需进行稀疏卷积中所需的工程努力[16, 57]。04.4. 区域平移0尽管SRA可以覆盖相当大的区域，但是一些物体不可避免地会被分组截断。为了解决这个问题并聚合有用的上下文，我们在设计中进一步使用了区域平移，这类似于SwinTransformer中的信息传递机制。假设区域分组中的区域大小为（l x，l y，l z），则区域平移将原始区域移动（l x /2，l y / 2，l z /2），并根据这组新的区域对令牌进行分组，如图3中的“平移区域分组”所示。04.5. 与检测的整合0为了与现有的检测器头部配合工作，SST根据它们的空间位置将稀疏体素令牌放回到密集特征图中。未占用的位置填充为零。由于LiDAR只捕捉物体表面上的点，3D物体中心很可能位于具有零特征的空位置上，这对于当前的检测头部设计来说是不友好的[19,60]。因此，我们添加了两个3×3的卷积来填充物体中心的大部分空洞。至于检测头部和损失函数，为了简化起见，我们采用了与PointPillars[19]相同的设置。具体来说，我们使用SSD[28]头部，平滑的L1边界框定位损失Lloc，以焦点损失[26]形式的分类损失Lcls，以及惩罚错误方向的方向损失Ldir。最终的损失函数是公式3，其中Np是正样本的数量。我们将详细设置留在补充材料中。0L = 0N p ( β loc L loc + β cls L cls + β dir L dir ) (3)04.6. 两阶段SST0尽管我们的主要贡献在于设计第一阶段的单步幅架构，但单阶段检测器与两阶段检测器之间存在相当大的差距SRA!"… …SRA!#84620输入令牌0区域分组0令牌分组0SRA#10中间令牌0平移0区域分组0平移0令牌分组0SRA#20输出令牌0图3.SST中一个示例块的计算。对于一组输入的令牌，首先根据区域的分区（在第4.2节中）对它们进行分组。其次，稀疏区域注意力（SRA）分别处理每组令牌（第4.3节）。然后，根据区域的平移再次对令牌进行分组，并且第二个SRA处理新的令牌组（第4.4节）。这三个步骤完成了一个块的计算。0素化0块 # 10区域分组0平移区域0分组0稠密特征图恢复0检测头部0块 # T0区域分组0平移区域0分组0# 输入0点0云0检测0结果0图4.用于单步幅稀疏Transformer（SST）的架构概述。它从对输入点云进行体素化开始，然后使用T个块处理体素，并最终恢复一个密集特征图。在每个块内，我们连续将区域分组应用于体素令牌，并使用稀疏区域注意力（SRA）对其进行处理。详细信息请参见第4.1节。0阶段检测器。为了与当前的两阶段检测器的性能相匹配，我们采用了LiDAR-RCNN[24]作为我们的第二阶段。LiDAR-RCNN是一个轻量级的第二阶段网络，由一个简单的PointNet[37]用于特征提取，仅将提案内的原始点云作为输入。04.7. 讨论0由于点云和RGB图像之间的差异，我们的设计与Swin-Transformer[29]之间在设计选择和动机上存在几个差异，如下所示。0•我们的SST网络遵循单步长指南，而Swin-Transformer遵循多步长的分层结构，它使用“令牌合并”来增加感受野。0•由于点云的稀疏性，我们的基于区域的注意力的令牌分散布局稀疏，而视觉变压器中的令牌布局密集。这是SST即使在单步长架构中也具有高效性的原因之一。05. 实验05.1. 数据集0我们在Waymo Open Dataset (WOD)[48]上进行实验。该数据集总共包含1150个序列（超过200K帧），其中798个用于训练，202个用于验证，150个用于测试。每个帧覆盖了一个尺寸为150m×150m的场景。这是一个非常具有挑战性的数据集，并被许多最新的最先进方法采用为基准。05.2. 实现细节0我们基于流行的3D目标检测代码库MMDetection3D[9]实现了我们的模型，该代码库提供了标准和可靠的基线。更多细节请参考补充材料。0模型设置为了通用性，我们基于流行的Point-Pillars[19]构建了我们的单步长稀疏变压器（SST）。我们用6个连续的稀疏区域注意力（SRA）块替换了其主干，每个块包含2个注意力模块，如图4所示。所有的注意力模块都配备了8个头，128个输入通道和256个隐藏通道。在区域分组中，每个区域覆盖一个尺寸为3.84m×3.84m×6m的体积。至于其他部分，SST遵循了MMDetection3D中Point-Pillars的实现。我们使用0.32m×0.32m×6m的BEV柱尺寸，可以很容易地扩展到高度较小的3D体素。0模型变体我们在实验中开发了几个SST的变体。SST1f：使用1帧点云的基本单阶段模型。SST3f：连续3帧点云被用作模型输入，并在对齐自我姿态后将不同帧的点云连接在一起。SST TS 1f和SST TS3f：基于上述模型的两阶段模型，使用标准的LiDAR-RCNN[24]进行SECOND ‡ [57]72.27/71.6963.85/63.33MVF [64]62.93/--/-LaserNet ¶ [33]56.10/--/48.40AFDet [15]63.69/--/-Pillar-OD [54]69.80/--/-PPC [3]65.2/--/56.7VoTr-SSD [32]68.99/68.3960.22/59.69RangeDet [13]72.85/72.3364.03/63.57CenterPoint-Voxel [60]74.78/74.2266.70/66.19PointPillars∗ [19]72.08/71.5363.55/63.06SST 1f (Ours)74.22/73.7765.47/65.07SST 3f (Ours)77.04/76.5668.50/68.08Voxel RCNN [10]75.59/-66.59/-RCD [1]69.0/68.5-/-VoTr-TSD [32]74.95/74.2565.91/65.29LiDAR-RCNN [24]76.0/75.568.3/67.9Pyramid RCNN [30]76.30/75.6867.23/66.68Voxel-to-Point [22]77.24/-69.77/-3D-MAN [59]74.53/74.0367.61/67.14Part-A2-Net ‡ [44]77.05/76.5168.47/67.97CenterPoint-Pillar [60]76.10/75.5068.00/67.50CenterPoint-Voxel [60]76.59/760568.85/68.35PV-RCNN [41]77.51/76.8968.98/68.41PV-RCNN++ [42]78.79/78.2170.26/69.71RSN 1f † [49]75.10/74.6066.00/65.50RSN 3f † [49]78.40/78.1069.50/69.10SST TS 1f (Ours)76.22/75.7968.04/67.64SST TS 3f (Ours)78.66/78.2169.98/69.5784630细化。0训练方案我们在WOD上使用AdamW优化器和余弦学习率调度器对我们的模型进行了24个时期（2×）的训练。最大学习率为0.001，权重衰减为0.05。05.3. 与最先进的检测器比较0我们在表2（车辆）和表3（行人）中将我们的SST与最先进的方法进行了比较。为了公平比较，我们将当前方法分为一阶段和两阶段检测器的分支。表2显示了车辆的结果，我们的模型在性能上达到了竞争水平。通过轻量级的第二阶段进行细化，我们的两阶段检测器与最先进的方法相当。表3显示了行人的结果。由于尺寸较小且非刚性属性，行人检测比车辆检测更具挑战性。网络容易将行人与其他细长物体（如杆子和树木）混淆，导致高误报率。在这种情况下，我们的最佳模型在具有挑战性的行人类别中优于所有其他方法。SST TS3f在具有相同时间信息（3帧）的情况下比第二好的RSN高出4.4个AP。我们将这样的领先性能归功于SST的单步长特性。05.4. 单步长的深入研究0单步长模型更好地利用密集观测。首先，SST在短距离度量（0m - 30m）上比长距离度量（50m -inf）具有更多优势：在表4中，SST1f在行人类别的短距离度量上比PointPillars对应模型提高了12.8个AP，但在长距离度量上与PointPillars的差距并不显著。其次，SST更受益于多帧数据。在表4中，RSN[49]从RSN 1f到RSN3f的长距离度量性能提高了6.4个AP，而SST从SST 1f到SST3f的长距离度量性能提高了10.4个AP。单步长模型是否在大型车辆上失败？由于较小的步长会减小感受野，我们的模型是否具有足够的感受野来处理极端情况，例如极大型车辆，这是一个主要关注点。因此，我们将所有车辆根据其地面真实框的长度分为三组，并评估SST对它们的召回率。有关评估细节，请参考补充材料。在表5中，我们的SST在所有车辆上都优于PointPillars基线，甚至在长度超过8m的车辆上也是如此。这证明了我们的注意力机制在单步长架构中提供了适当的感受野。使用更严格的IoU阈值进行定位质量测试。通过保持原始分辨率，我们的SST应该能够更精确地定位对象，就像[20]中一样。为了验证这一点，我们使用更高的3DIoU阈值（0.8用于0方法 LEVEL 1 LEVEL 20单阶段方法0两阶段方法0表2.Waymo开放数据集验证集上车辆检测的性能。我们用红色标记最佳结果，用蓝色标记第二结果。†：RSN [ 49]不是典型的两阶段检测器，我们将其放在这里是因为它使用分割网络首先去除背景。�：由MMDetection3D重新实现。¶：来自[ 3]。‡：来自[ 42 ]。0车辆，0.6代表行人）。在表6中，我们将我们的模型与PointPillars基线和其他模型进行了比较，这些模型的结果来自[39 ]，然后出现了一些有趣的发现：01. 将MVF++ [ 39 ] 与我们的SST1f在车辆上进行比较，MVF++在正常阈值下略优于SST1f，而在更严格的阈值下，SST1f更好。这表明单步结构能够更精确地定位车辆。02. 3DAL [ 39]是一种使用序列中的所有过去和未来帧（约200帧）的离线方法，并配备了跟踪[ 55 ]。然而，我们最好的模型SST TS3f在仅有3帧点云的情况下，令人惊讶地在行人上超过了3DAL的两个IoU阈值。这些发现表明单步架构LaserNet¶ [33]62.9/--/45.4SECOND ‡ [57]68.70/58.1860.72/51.31MVF [64]65.33/--/-Pillar-OD [54]72.51/--/-PPC [3]73.90/--/59.60RangeDet [13]75.94/71.9467.60/63.89CenterPoint-Voxel [60]75.82/69.6568.34/62.62PointPillars∗ [19]70.59/56.7062.84/50.25SST 1f (Ours)78.71/69.5570.02/61.67SST 3f (Ours)82.42/77.9675.14/70.88LiDAR-RCNN [24]71.2/58.763.1/51.73D-MAN [59]71.71/67.7462.58/59.04Part-A2-Net ‡ [44]75.24/66.8766.18/58.62PV-RCNN [41]75.01/65.6566.04/57.61PV-RCNN++ [42]76.67/67.1568.51/59.72CenterPoint-Pillar [60]76.10/65.1068.10/57.90CenterPoint-Voxel [60]79.02/73.4470.98/65.75RSN 1f † [49]77.80/72.7068.30/63.70RSN 3f[49]79.40/76.2069.90/67.0084640(a) 完整车辆 (b) 靠近墙壁的人 (c) 车辆旁边的人 (d) 多个行人 (e) 多个车辆0高0低0图5. 学习到的稀疏区域注意力的可视化。每个图显示了查询令牌（粉色点）与局部区域中所有其他令牌之间的注意力权重分布。最佳观看效果为彩色。0方法 LEVEL 1 LEVEL 20单阶段方法0两阶段方法0SST TS 1f (我们的方法) 81.39 /74.05 72.82 /65.93 SST TS3f (我们的方法) 83.81 / 80.14 75.94 / 72.370表3. Waymo OpenDataset官方验证集上的行人检测性能。有关本表中概念的含义，请参阅表2。0方法级别行人AP 总体 0-30m 30-50m 50m-inf0RSN 1f 77.8 83.9 74.1 62.1 RSN 3f 79.0 84.5 78.1 68.50PointPillars 70.6 72.5 71.9 63.8 PointPillars 3f 73.772.9 75.9 70.60SST 1f 78.7 ↑ 8.1 85.3 ↑ 12.8 77.0 ↑ 5.1 63.4 ↓ 0.40SST 3f 82.4 ↑ 8.7 86.1 ↑ 13.2 81.2 ↑ 5.3 73.8 ↑ 3.20表4.距离条件下的行人检测性能。我们的SST在短距离指标和多帧设置中具有更大的优势，其中点更密集。增减量是基于PointPillars基准的计算。0能够更好地定位具有完整和精细信息的对象。0方法车辆召回率（IoU=0.7） [0 m, 4 m] [4 m, 8 m] [8 m,+∞]0PointPillars 40.60 73.11 10.59 SST 1f 41.31 ↑ 0.71 80.85 ↑7.74 13.41 ↑ 2.820表5. 不同长度车辆的召回率。长度在[0 m, 4 m]和[8 m,+∞]范围内的车辆很少（在WOD中分别为7.3%和1.6%），很难获得足够的训练，因此它们的性能相对较低。0细粒度信息。0方法帧车辆行人普通严格普通严格0单帧 PointPillars [19] 1 72.08 36.83 70.59 44.86 PV-RCNN � [41]1 70.47 39.16 65.34 45.12 MVF++ � [39] 1 74.64 43.30 78.0156.02 SST 1f (我们的方法) 1 74.22 44.08 78.71 56.120多帧 MVF++ w. TTA � [39] 5 79.73 49.43 81.83 60.56 3DAL � [39]all † 84.50 57.82 82.88 63.69 SST TS 3f (我们的方法) 3 78.6649.35 83.81 65.060表6.更严格的IoU阈值下的定位质量测试。车辆的普通和严格阈值分别为0.7和0.8，行人的阈值分别为0.5和0.6。�：结果来自[39]。TTA：测试时数据增强。†：离线设置，使用点云序列中的所有过去和未来帧。0与其他替代方案的比较。为了保持输入分辨率，我们提出了一种全面的比较。首先，我们介绍这些替代模型如下。PointPillars-SS：PointPillars的单步长版本，详见第3节。SparsePillars-SS：我们将PointPillars-SS的骨干网络中的所有标准2D卷积替换为Submanifold稀疏卷积[16,57]。由于稀疏性，SparsePillars-SS也面临着“空洞”问题（详见第4.5节），因此我们在其检测头之前添加了两个额外的2D卷积。HRNetV2p-W18[53]：HRNet在构建多尺度特征的同时保持高分辨率。我们采用MMDetection[4]中的标准HRNetV2p-W18进行实验。3.20m10066.9/66.470.4/56.93.84m14467.9/67.370.9/57.34.48m19667.8/67.370.6/56.55.12m25666.9/66.371.1/57.184650实验。为了保持HRNet的输出分辨率与PointPillars相同，我们将HRNet中的前两个卷积的步长从2减小到1。所有的替代方案与SST1f具有相同的设置，除了它们的骨干网络。表7显示了不同模型之间的比较。0模型车辆3D AP 行人3D AP #参数延迟（毫秒）内存（GB）0PointPillars 64.01 60.85 6.4M 60 5.4 PointPillars-SS 64.69 64.32 6.4M185 8.5 SparsePillars-SS 51.57 61.55 6.4M 67 5.8 SparsePillars-SS 5×5†55.40 61.28 17.1M 81 5.9 SparsePillars-SS 7×7† 56.77 60.87 33.9M 975.9 HRNetV2p-W18 [53] 64.38 61.09 26.2M 130 7.6 SST 1f 67.86 70.941.6M 97 6.80表7.与SST替代方案的比较。使用20%的数据进行训练。延迟使用MMDetection3D中的标准基准测试脚本在2080TiGPU上评估。†：稀疏卷积中所有卷积核的大小增加到5×5或7×7。0在表7中，我们的方法在相对较低的延迟下优于所有其他替代方法。此外，还需要注意两点：（1）SparsePillars-SS在车辆类别中要比其他模型差得多。由于亚流形稀疏卷积的特性，该模型受到的感受野收缩比PointPillars-SS更严重。例如，如果一个车辆部分与周围的所有体素都是空的，它无法从整个前向过程中感知到其他部分的信息。相反，SST中的注意机制很好地解决了这个问题，同时保持了稀疏性。（2）HRNetV2p-W18在高步幅（低分辨率）分支上分配了太多的计算量，在3D物体检测中是不需要的。因此，其高分辨率分支的容量受限，导致其性能较差。05.5. 稀疏注意力的定性分析0我们在图5中可视化了注意权重，并列出了以下观察结果。0足够的覆盖在图5（a）完整车辆中，汽车中的查询标记（粉色点）与汽车的所有其他部分有很强的关系。换句话说，这个单一的标记可以有效地覆盖整个车辆。这证明了注意机制确实有效地扩大了感受野。0语义区分在图5（b）靠近墙壁的人中，人物上的查询标记与其他身体部位有很强的依赖关系，但与背景点（例如墙壁）几乎没有关系。在图5（c）车辆旁边的人中，站在车辆旁边的行人只与自己有关。这两种情况表明，学习到的稀疏注意权重在不同语义类别之间具有区分性。这个特性有助于区分行人和其他细长物体，并减少误报。0实例区分在拥挤的情况下，例如图5（d）多个行人，人物中的查询标记主要集中在同一个人身上。由于语义相似性较高，它也稍微关注其他人。在图5（e）多个车辆中，车辆中的查询标记几乎不依赖于附近的车辆。这两种情况表明，学习到的稀疏注意权重对于不同实例具有区分性。05.6. 超参数消融0区域大小我们在表8中展示了不同区域大小下区域分组的性能。SST对于区域大小具有一定的鲁棒性，并且在区域较大时稍微更好。特别是，在最大的局部区域大小下，SST在行人检测中表现最佳。这表明局部上下文有助于识别行人。例如，行人更有可能出现在人行道上而不是车道上。0区域大小最大体素数 LEVEL 1 AP/APH 车辆行人0表8. 区域大小的消融。使用20%的数据进行训练。06. 结论和限制0在本文中，我们分析了网络步幅对自动驾驶中的3D物体检测器的影响，并通过实验证明3D物体检测器实际上并不需要下采样。为了构建一个单步幅网络，我们采用了稀疏区域注意力来解决感受野不足的问题，并避免了昂贵的计算。通过堆叠稀疏注意力模块，我们提出了单步幅稀疏变换器，在Waymo开放数据集上实现了最先进的性能。由于单步幅结构，我们的模型在具有挑战性的行人类别上获得了显著的性能。在没有精心优化的情况下，我们的模型使用的内存略多于基准模型，并且我们将在未来追求更加内存友好的模型。我们希望我们的工作能打破点云数据背景设计的刻板印象，并激发对专用架构的更多思考。07. 致谢0本工作部分支持：新一代人工智能重大项目（编号2018AAA0100400），国家自然科学基金（编号61836014，编号U21B2042，编号62072457，编号62006231），以及TuSimple合作研究项目.84660参考文献0[1] Alex Bewley, Pei Sun, Thoma

下载后可阅读完整内容，剩余1页未读，立即下载