基于LiDAR的3D物体检测：范围视图的辩护

17 浏览量更新于2023-10-15 收藏 12.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

29180RangeDet：为基于LiDAR的3D物体检测辩护0吕凡1,3,4,6* 熊轩2* 王峰2 王乃岩2 张兆翔1,3,4,501 中国科学院自动化研究所 2 图森 3 中国科学院大学 4 国家模式识别实验室 5香港智能科学与机器人中心 6 中国科学院未来技术学院0{fanlue2019, zhaoxiang.zhang}@ia.ac.cn {xiongxuan08, feng.wff, winsty}@gmail.com0摘要0在本文中，我们提出了一种基于范围视图的无锚单阶段LiDAR-based3D物体检测器-RangeDet。与以往的方法相比，我们的方法最显著的区别是它纯粹基于范围视图表示。与常用的体素化或鸟瞰图（BEV）表示相比，范围视图表示更加紧凑且没有量化误差。虽然已经有一些工作将其用于语义分割，但在物体检测方面，其性能远远落后于体素化或BEV表示。我们首先分析了现有的基于范围视图的方法，并发现了之前的工作忽视的两个问题：1）附近和远处物体之间的尺度变化；2）特征提取中使用的2D范围图像坐标与输出中使用的3D笛卡尔坐标之间的不一致性。然后，我们有意设计了三个组件来解决这些问题。我们在大规模的Waymo开放数据集（WOD）上测试了我们的RangeDet。我们的最佳模型在车辆/行人/骑车者上实现了72.9/75.9/65.8的3DAP。这些结果大大超过了其他基于范围视图的方法，并且与最先进的多视图方法相当。代码将在https://github.com/TuSimple/RangeDet上发布。01. 引言0基于LiDAR的3D物体检测是自动驾驶场景中不可或缺的技术。尽管有一些相似之处，但是3D稀疏点云中的物体检测与其2D对应物有根本的区别。关键是要有效地表示稀疏和无序的点云以进行后续处理。几种流行的表示方法包括鸟瞰图（BEV）和点云视图（PV）。0*前两位作者对本文贡献相同，按字母顺序排列。0鸟瞰图点云视图0范围视图0图1. 基于LiDAR的3D物体检测中的不同视图。0流行的表示包括鸟瞰图（BEV）[9, 38,37]，点云视图（PV）[25]，范围视图（RV）[11,18]以及它们的融合[24, 44,33]，如图1所示。其中，BEV是最流行的一种。然而，当将空间划分为体素或柱体时，它会引入量化误差，这对于可能只有少量点的远处物体来说是不友好的。为了克服这个缺点，通常会采用点云视图表示。点云视图操作符[22, 23, 34,31, 35, 30,17]可以从无序点云中提取有效特征，但是它们很难高效地扩展到大规模的点云数据。0范围视图在语义分割任务中被广泛采用[19, 36, 42,43]，但在物体检测中很少单独使用。然而，在本文中，我们认为范围视图本身是表示LiDAR点云最紧凑和信息丰富的方式，因为它是从一个单一视点生成的。它实际上形成了一个2.5D[7]场景，而不是一个完整的3D点云。因此，将点云组织在范围视图中不会丢失任何信息。29190信息。紧凑性还使得基于范围图像坐标的快速邻域查询成为可能，而点云方法通常需要耗时的球查询算法[23]来获取邻居。此外，基于范围视图的检测器的有效检测范围可以达到传感器的可用范围，而基于BEV的3D检测器必须为检测范围设置一个阈值。尽管具有这些优势，但是一个有趣的问题引起了人们的关注：为什么基于范围视图的LiDAR检测结果不如其他表示形式？事实上，一些研究已经尝试利用范围视图，从开创性的VeloFCN [11]到LaserNet[18]再到最近提出的RCD[1]。然而，纯粹的基于范围视图的方法与基于BEV的方法之间仍然存在巨大差距。例如，在Waymo开放数据集（WOD）[29]上，它们仍然远低于最先进的方法。为了发挥范围视图表示的优势，我们分析了当前基于范围视图的检测器的设计，并发现了一些被忽视的事实。这些观点似乎很简单和显而易见，但我们发现魔鬼就在细节中。妥善处理这些挑战是实现高性能基于范围视图的检测的关键。首先，将在BEV中检测稀疏点的挑战转化为范围图像中的尺度变化的挑战，这在基于范围视图的3D检测器中从未被认真考虑过。其次，2D范围视图天然紧凑，这使得可以在不增加巨大计算负担的情况下采用高分辨率输出。然而，如何利用这些特性来提高检测器的性能却被当前基于范围图像的设计所忽视。第三，也是最重要的，与2D图像不同，尽管在范围图像上进行的卷积是在2D像素坐标上进行的，但输出是在3D空间中。这一点暗示了当前基于范围视图的检测器中的一个劣质设计：标准卷积的核权重和聚合策略都忽略了这种不一致性，这导致了从网络的一开始就严重的几何信息丢失。在本文中，我们提出了一个纯粹的基于范围视图的框架-RangeDet，它是一个单阶段的无锚检测器，旨在解决上述挑战。我们分析了现有基于范围视图的3D检测器的缺陷，并指出了需要解决的上述三个关键挑战。对于第一个挑战，我们提出了一个简单而有效的范围条件金字塔来缓解它。对于第二个挑战，我们使用加权非极大值抑制来解决这个问题。对于第三个挑战，我们提出了元卷积核来从2D范围视图表示中捕捉3D几何信息。除了这些技术，我们还探索了如何将常见的数据增强技术从3D0将空间信息转换为范围视图。将所有技术结合起来，我们的最佳模型在多视图中取得了与最先进的工作相当的结果。在车辆检测中，我们超过了以前纯范围视图为基础的检测器的20 3DAP。有趣的是，与常见的观点相反，RangeDet对于更远或更小的物体更有优势，而不是BEV表示。02. 相关工作0基于BEV的3D检测器。几种基于LiDAR的3D检测方法将整个3D空间离散化。3DFCN [10]和PIXOR[38]将手工特征编码到体素中，而VoxelNet[45]是第一个使用端到端学习的体素特征。SECOND[37]通过稀疏卷积加速了VoxelNet。PointPillars[9]在特征降维方面非常激进，它首先应用PointNet将高度维度折叠，然后将其视为伪图像。基于点云的3D检测器。F-PointNet[21]首先生成与2D感兴趣区域（ROI）相对应的视锥体，然后使用PointNet[22]对前景点进行分割并回归3D边界框。PointRCNN[25]直接从整个点云生成3D提议，而不是从2D图像中使用PointNet ++ [23]进行3D检测和细化。IPOD [39]和STD[40]都是两阶段方法，它们使用前景点云作为种子生成提议，并在第二阶段对其进行细化。最近，LiDAR-RCNN[13]在点视图中提出了一种通用的提议细化结构，解决了提议的大小模糊问题。基于范围视图的3D检测器。VeloFCN[11]是范围图像检测的开创性工作，它将点云投影到2D并应用2D卷积来密集预测每个前景点的3D框。LaserNet[18]使用完全卷积网络为每个点预测多模态分布以生成最终预测。最近，RCD[1]通过学习动态膨胀率以解决尺度变化和软范围门控问题，解决了基于范围视图的检测中的挑战，如Pseudo-LiDAR[32]中所指出的。基于多视图的3D检测器。Mxyz29200使用不同的膨胀率构建具有权重共享分支的结构来构建具有尺度感知特征图。03. 范围视图表示回顾0在本节中，我们快速回顾了LiDAR数据的范围视图表示。对于一个具有m个光束和n次测量的LiDAR，在一个扫描周期中返回的值形成一个m×n的矩阵，称为范围图像（图1）。范围图像的每一列共享一个方位角，范围图像的每一行共享一个倾斜角。它们表示返回点相对于LiDAR原始点的相对垂直和水平角度。范围图像中的像素值包含相应点的范围（深度），返回激光脉冲的幅度称为强度以及其他辅助信息。范围图像中的一个像素至少包含三个几何值：范围r，方位角θ和倾斜角φ。这三个值然后定义了一个球坐标系。图2说明了范围图像和这些几何值的形成过程。常见的0倾斜角0方位角0激光束0范围图像0x0y0z0倾斜角0方位角0图2. 原始范围图像的示意图。0使用笛卡尔坐标的点云数据实际上是从球坐标系解码得到的：x = r cos(φ) cos(θ)，0z = r sin(φ)，(1)0其中 x、y、z表示点的笛卡尔坐标。请注意，范围视图仅对来自一个视点的扫描有效。对于一般的点云数据，范围图像中的一个像素可能会有多个点重叠。与其他激光雷达数据集不同，WOD直接提供原始的范围图像。除了范围和强度值，WOD还提供了另一种称为伸长度的信息[29]。伸长度衡量了激光脉冲宽度的延长程度，有助于区分虚假物体。04. 方法0在本节中，我们首先详细介绍RangeDet的三个组成部分，然后介绍完整的架构。04.1. 范围条件金字塔0在2D检测中，通常采用基于特征金字塔的方法，如特征金字塔网络（FPN）[14]，来解决尺度变化问题。我们首先构建特征金字塔，如图4所示，与2D目标检测中的FPN的构建类似。然而，与2D图像中的FPN不同的是，如何将每个对象分配到不同的层进行训练。在原始的FPN中，根据对象在2D图像中的面积进行分配。然而，简单地采用这种分配方法忽略了2D范围图像和3D笛卡尔空间之间的差异。一个附近的乘用车可能与一个远处的卡车具有相似的面积，但它们的扫描模式差异很大。因此，我们将具有相似范围的对象指定为由同一层处理，而不仅仅使用FPN中的面积。因此，我们将我们的结构命名为范围条件金字塔（RCP）。04.2. 元卷积核0与RGB图像相比，深度信息赋予了范围图像一个笛卡尔坐标系，然而标准卷积是设计用于规则像素坐标上的2D图像的。对于卷积核内的每个像素，权重仅取决于相对像素坐标，无法充分利用笛卡尔坐标中的几何信息。在本文中，我们设计了一种新的运算符，可以从相对笛卡尔坐标或其他元数据中学习动态权重，使卷积更适用于范围图像。为了更好地理解，我们首先将标准卷积分解为四个组成部分：采样、权重获取、乘法和聚合。1）采样。标准卷积中的采样位置是一个规则网格 G，它具有 kh × kw个相对像素坐标。例如，一个常见的 3 × 3采样网格，膨胀为 1，如下所示：0G = {(-1, -1), (-1, 0), ..., (1, 0), (1, 1)}. (2)0对于输入特征图 F 上的每个位置 p0，我们通常使用 im2col操作对其邻居 F(p0+pn) 进行特征向量采样，其中 pn ∈G。2）权重获取。对于每个采样位置(p0+pn)，其权重矩阵 W(pn) ∈ R Cout × Cin 取决于pn，并且对于给定的特征图是固定的。这也被称为卷积的“权重共享”机制。3）乘法。我们将标准卷积的矩阵乘法分解为两个步骤。第一步是逐像素的矩阵乘法。对于每个采样点 (p0+pn)，其输出定义为0op0(pn) = W(pn) ∙ F(p0 + pn)。(,,)ijijijxxyyzz−−−conv1x1jp29210连接0特征采样器0输入特征图输出特征图0笛卡尔坐标中的点0坐标0相对坐标0逐元素0乘积0在C中0在C中0图3.Meta-Kernel的示意图（在彩色中最佳查看）。以3x3采样网格为例，我们可以得到相对于中心的九个邻居的相对笛卡尔坐标。一个共享的MLP将这些相对坐标作为输入，生成九个权重向量：w1，w2，...，w9。然后我们采样九个输入特征向量：f1，f2，...，f9。oi是wi和fi的逐元素乘积。通过将来自九个邻居的oi的连接传递给一个1×1卷积，我们聚合来自不同通道和不同采样位置的信息，并得到输出特征向量。04)聚合。在乘法之后，第二步是对G中的所有op0(pn)进行求和，这被称为按通道求和。总之，标准卷积可以表示为：z(p0) =0pn ∈ G op0(pn)。0在我们的范围视图卷积中，我们希望卷积操作能够感知局部的3D结构。因此，我们通过元学习方法使权重适应局部的3D结构。对于权重获取，我们首先收集每个采样位置的元信息，并将这个关系向量表示为h(p0, pn)。h(p0,pn)通常包含相对笛卡尔坐标、范围值等。然后我们根据h(p0,pn)生成卷积权重Wp0(pn)。具体来说，我们应用一个具有两个全连接层的多层感知机（MLP）：0Wp0(pn) = MLP(h(p0, pn))。0对于乘法，我们不是使用矩阵乘法，而是使用逐元素乘积来获得op0(pn)，如下所示：op0(pn) = Wp0(pn) ⊙ F(p0 +pn)。0我们不使用矩阵乘法，因为我们的算法运行在大规模点云上，保存形状为H×W×Cout×kh×kw×Cin的权重张量会消耗太多的GPU内存。受深度卷积的启发，逐元素乘积消除了权重张量中的Cout维度，这样消耗的内存要少得多。然而，在逐元素乘积中没有跨通道融合，我们将其留给聚合步骤。对于聚合，我们不是采用按通道求和，而是将所有op0(pn)，�pn ∈G连接起来，并传递给一个全连接层，以聚合来自不同通道和不同采样位置的信息。0总结一下，Meta-Kernel可以表示为：0z(p0) = A(Wp0(pn) ⊙ F(p0 + pn))，�pn ∈ G。0其中A是包含连接和全连接层的聚合操作。图3清晰地说明了Meta-Kernel。与基于点的操作符相比，Meta-Kernel有三个显著的不同之处。 (1)定义空间。Meta-Kernel在2D范围视图中定义，而其他操作符在3D空间中定义。因此，Meta-Kernel具有规则的n×n邻域，而基于点的操作符具有不规则的邻域。 (2)聚合。3D空间中的点是无序的，因此基于点的操作符中的聚合步骤通常是排列不变的。最大池化和求和是广泛采用的方法。RV中的n×n邻居是排列变体的，这对于Meta-Kernel来说是一个自然的优势，可以采用连接和全连接层作为聚合步骤。 (3)效率。基于点的操作符涉及耗时的关键点采样和邻居查询。例如，使用最远点采样（FPS）[23]将160K个点降采样到16K个点，在单个2080TiGPU上需要6.5秒，这也在RandLA-Net[8]中进行了分析。一些基于点的操作符，如PointConv[35]，KPConv [30]和Continuous Conv[31]的原生版本，为每个点生成一个权重矩阵或特征矩阵，因此在处理大规模点云时面临严重的内存问题。这些缺点使得不可能将基于点的操作符应用于自动驾驶场景中的大规模点云（超过10^5个点）。04.3.加权非极大值抑制0如前所述，如何利用范围视图表示的紧凑性来提高基于范围图像的检测器的性能是一个重要的课题。在常见的目标检测器中，建议不可避免地与建议分布的均值有随机偏差。获得具有较小偏差的建议的直接方法是选择具有最高置信度的建议。然而，消除偏差的更好和更稳健的方法是使用所有可用建议的多数投票。一个现成的技术正好符合我们的需求-加权NMS[5]。这里有我们方法的一个优势：紧凑性的特性使得RangeDet能够在全分辨率特征图中生成建议，而不需要巨大的计算成本，然而对于大多数基于BEV或点云视图的方法来说是不可行的。有了更多的建议，偏差将被更好地消除。Lcls = 1Ri =,29220在常见的目标检测器中，建议不可避免地与建议分布的均值有随机偏差。获得具有较小偏差的建议的直接方法是选择具有最高置信度的建议。然而，消除偏差的更好和更稳健的方法是使用所有可用建议的多数投票。一个现成的技术正好符合我们的需求-加权NMS[5]。这里有我们方法的一个优势：紧凑性的特性使得RangeDet能够在全分辨率特征图中生成建议，而不需要巨大的计算成本，然而对于大多数基于BEV或点云视图的方法来说是不可行的。有了更多的建议，偏差将被更好地消除。0我们首先过滤掉得分低于预定义阈值0.5的建议，然后按照它们的预测分数对建议进行排序，就像标准NMS一样。对于当前的排名最高的建议b0，我们找到与b0的IoU大于0.5的建议。b0的输出边界框是这些建议的加权平均值，可以描述为：0� b0 = 0k It0k I（IoU（b0，bk）> t）sk，（8）0其中bk和sk表示其他建议和相应的分数。t是IoU阈值，为0.5。I（∙）是指示函数。04.4.范围视图中的数据增强0随机全局旋转、随机全局翻转和复制粘贴是基于LiDAR的3D目标检测器的三种典型的数据增强方法。虽然它们在3D空间中很直观，但是将它们转移到RV并保持RV的结构并不容易。点云的旋转可以看作是沿方位角方向的范围图像的平移。在3D空间中的翻转对应于范围图像相对于一个或两个垂直轴的翻转（我们在补充材料中提供了清晰的说明）。从最左列到最右列，方位角的跨度为（-π，π）。因此，与2DRGB图像的增强不同，我们计算每个点的新坐标以使其与其方位角保持一致。对于复制粘贴[37]，对象将以其原始的垂直像素坐标粘贴到新的范围图像上。我们只能通过这种处理方式保持RV的结构（非均匀垂直角分辨率）并避免对象大幅偏离地面。此外，远处的汽车不应该粘贴在附近墙壁的前面，因此我们进行“范围测试”以避免这种情况。04.5.架构0整体流水线。RangeDet的架构如图4所示。八个输入的范围图像通道包括范围、强度、延伸、x、y、z、方位角和倾角，如第3节所述。元核置于第二个0BasicBlock[6]。特征图被下采样到步幅16，然后逐渐上采样到全分辨率。接下来，我们根据框中心的范围将每个真实边界框分配给步幅为1、2、4的层。所有与真实3D边界框中的点对应的位置被视为正样本，否则为负样本。最后，我们采用加权NMS来去除重复的建议并生成高质量的结果。RCP和元核。在WOD中，一个点的范围从0m到80m变化。根据真实边界框中的点的分布，我们将[0，80]划分为3个区间：[0，15)，[15，30)，[30，80]。我们使用具有64个滤波器的两层MLP从相对笛卡尔坐标生成权重。采用ReLU作为激活函数。IoU预测头。在分类分支中，我们采用最近的一个工作-变焦损失[41]来预测预测边界框与真实边界框之间的IoU。我们的分类损失定义为：0M0Ls0i VFLi, (9)0其中 M 是有效点的数量，i 是点的索引。VFLi0VFL(p, q) = � - q(q log(p) + (1 - q) log(1 - p)), q > 0 - αpγ log(1 - p), q = 0, (10)0其中 p 是预测得分，q是预测边界框与真实边界框之间的IoU。α 和 γ的作用与焦点损失[15]中的作用类似。回归分支。回归分支也包含四个3×3的卷积，与分类分支一样。我们首先构造包含点2i的真实边界框，用 (xgi, ygi, zgi, lgi, wgi, hgi, θgi)表示边界框的中心坐标、尺寸和方向。点i的笛卡尔坐标为(xi, yi,zi)。我们定义点i与包含点i的边界框中心之间的偏移量为 ∆ri= rgi - ri，r ∈ {x, y,z}。对于点i，我们将其方位角方向视为其局部x轴，与LaserNet[18]中的定义相同。我们将这种转换表示如下（图5提供了清晰的示意图）：0αi = tan2(yi, xi),0� cos α i sin α i 0 - sinα i cos α i 0 0 0 10�0φgi = θgi - αi, [Ωxi, Ωyi, Ωzi] = Ri [∆xi, ∆yi, ∆zi]�, (11)其中 αi 表示点i的方位角，[Ωxi, Ωyi, Ωzi]是要回归的转换后的坐标偏移量。这样的02这里，一个点实际上是特征图中的一个位置，对应于笛卡尔坐标。为了更好地理解，我们仍然称之为一个点。yxyxyxyLreg = 1N�i�1ni�,(12)3D AP63.5767.3764.7963.6663.8029230元卷积核03x3卷积（4倍）0变焦0损失0平滑L1损失0头部0头部0头部0输入数据骨干网络头部范围条件金字塔分配03x3卷积（4倍）0步长10步长20步长40步长80步长160残差10残差20残差30残差40残差50聚合10聚合20聚合30聚合40聚合50分配标签0分配标签0分配标签0IoU目标计算0基本块0图4. RangeDet的整体架构。0对于基于距离图的检测，转换后的目标是合适的，因为物体在距离图中的外观不会随方位角的变化而改变。因此，将回归目标视为与方位角无关是合理的。因此，对于每个点，我们将方位角方向视为局部x轴。0x0φ0y0α0x0y0θ0α0局部x轴0局部y轴0局部x轴0局部y轴0x Δ0y Δ0ΩxyΩ0图5.两种回归目标的示意图。左图：对于所有点，自我中心坐标系的x轴被视为局部x轴。右图：对于每个点，其方位角方向被视为局部x轴。在计算回归损失之前，我们首先将第一种目标转换为后一种目标。0我们将点i的真实目标集Qi表示为{ Ω x g i , Ω y g i , Ω z gi , log l g i , log w g i , log h g i , cos φ g i , sin φg i }。因此，回归损失定义为0q i ∈Q i 平滑L1( q i −p i )0其中，p i 是点q i的预测对应物。N是真实边界框的数量，n i是包含点i的边界框中的点的数量。总损失是L cls 和L reg的总和。05.实验0我们在大规模的Waymo OpenDataset（WOD）上进行实验，这是唯一提供原始范围图像的数据集。我们在所有实验中报告LEVEL1平均精度，以与其他方法进行比较。有关管道的详细结果和配置，请参阅补充材料。表1、表3和表9中的实验使用整个训练数据集。0数据集。我们均匀采样25％的训练数据（约40k帧）进行其他实验。05.1. Meta-Kernel卷积研究0我们在本节中对Meta-Kernel进行了大量实验。这些实验不涉及数据增强。我们通过将Meta-Kernel替换为2D3×3卷积来构建基线。不同的输入特征。表2显示了不同元信息作为输入的结果。不出所料，仅使用相对像素坐标（E4）与基线相比只带来了边际改进，证明了在内核权重中使用笛卡尔信息的必要性。不同的Meta-Kernel放置位置。我们将Meta-Kernel放置在具有不同步幅的阶段。结果如表4所示，表明Meta-Kernel在较低层更为突出。这个结果是合理的，因为低层与几何结构有更密切的关联，Meta-Kernel在其中起着重要作用。0阶段步幅基线 1 2 4 80表4.在不同步幅的不同阶段放置Meta-Kernel时车辆类别的性能。0小物体性能。在范围视图中，边界信息对于小物体（例如行人）比大物体更为关键，以避免被背景稀释。Meta-Kernel通过捕捉局部几何特征来增强边界信息，因此在小物体检测中特别有效。表5显示了显著的效果。0方法行人的3D AP（IoU=0.5）0总体 0 - 30 30 - 50 50 - 无穷0无Meta-Kernel 69.06 77.86 67.79 53.94 有Meta-Kernel74.16 80.86 73.54 63.210改进 +5.09 +3.00 +5.75 +9.270表5.对行人进行Meta-Kernel的消融实验。A153.3973.0248.7928.1470.4586.2268.4551.90A2✓56.5876.1154.2932.5374.8988.1471.4357.55A3✓58.3778.6650.4032.3578.0290.7173.1362.23A4✓✓61.0580.1154.5935.9580.6592.1278.2066.58A5✓✓✓64.6184.8761.1340.8782.3293.1780.4968.98A6✓✓✓✓69.0086.8966.1645.8185.4893.6282.1772.97A7✓✓✓64.3582.6060.1139.9177.3389.1975.6961.33A8✓✓61.0881.7858.0736.2276.2088.7872.3158.94A9✓✓✓✓✓72.8587.9669.0348.8886.9494.3585.6677.013D AP63.5763.4763.5267.3729240元信息-内核RCP IoU 预测 WNMS DA 3D AP（IoU=0.7） BEV AP（IoU=0.7）0总体 0 - 30 30 - 50 50 - 无穷总体 0 - 30 30 - 50 50 - 无穷0表1.对车辆检测的组件进行消融实验。DA代表数据增强。0元数据 3D AP0E1 基准 63.57 E2 （xi - xj，yi - yj，zi - zj）67.00 E3（xj，yj，zj）64.05 E4 （ui - uj，vi - vj）63.87 E5（xi，yi，zi，xj，yj，zj）65.33 E6 （ri - rj）67.31 E7 （xi -xj，yi - yj，zi - zj，ri - rj）67.37 E8 （xi - xj，yi - yj，zi -zj，ui - uj，vi - vj）67.110不同输入对我们的Meta-Kernel的性能比较。在基准实验中，Meta-Kernel被一个3×3的2D卷积所替代。（xi，yi，zi），（ui，vi）和ri分别代表笛卡尔坐标、像素坐标和范围。0与基于点的运算符的比较。我们在第4.2节中讨论了Meta-Kernel和基于点的运算符之间的主要区别。为了公平比较，我们在2D范围图像上实现了一些典型的基于点的运算符，使用固定的3×3邻域，就像我们的Meta-Kernel一样。有关实现细节，请参阅补充材料。由于内存开销巨大，一些运算符如KPConv [30]、PointConv[35]没有实现。如表6所示，这些方法都获得了较差的结果。我们将其归因于它们在无序点云中聚合的策略，下面将详细说明。0方法 3D车辆AP（IoU=0.7）0整体 0 - 30 30 - 50 50 - 无穷02D卷积 63.57 84.64 59.54 38.58 PointNet-RV [22] 63.47 84.4359.32 38.29 EdgeConv-RV [34] 64.74 85.06 61.25 41.44ContinuousConv-RV [31] 63.52 84.47 59.63 38.40 RSConv-RV[17] 63.47 84.45 59.70 38.13 RandLA-RV [8] 64.11 84.95 60.1739.06 Meta-Kernel 67.37 85.91 62.61 42.770与基于点的运算符的比较。后缀“RV”表示该方法基于RV中的固定3×3邻域，而不是3D空间中的动态邻域。此表中的ContinuousConv是高效版本。0聚合的不同方式。与连接不同，我们尝试了最大池化和求和，以通道方式进行，就像其他基于点的运算符一样，表7显示了结果。当使用最大池化或求和时，性能显著下降。0最大池化或求和，因为它们将来自不同位置的特征视为相等。这些结果表明，在范围视图中保持和利用相对顺序的重要性。请注意，由于点云的无序性，其他视图不能采用连接。0基准最大池化求和连接0不同聚合策略的结果。05.2. 范围条件金字塔的研究0与基于范围的条件不同，我们尝试了三种其他策略来分配边界框：方位角跨度、投影面积和可见面积。边界框的方位角跨度与其在范围图像中的宽度成比例。投影面积是将一个框投影到范围图像中的面积。可见面积是可见物体部分的面积。请注意，面积是2D检测中的标准分配标准。为了公平比较，在这些策略之间保持特定步幅下的真实边界框数量一致。结果如表8所示。我们将较差的结果归因于姿态变化和遮挡，这使得相同的物体在不同的层中具有不同的姿态或遮挡条件。这样的结果表明，仅考虑范围图像中的尺度变化是不够的，因为一些其他物理特征，如强度、密度，会随着范围的变化而改变。0条件 3D车辆AP（IoU=0.7）0整体 0 - 30 30 - 50 50 - 无穷0无RCP 63.17 81.70 58.59 38.99 范围 67.37 85.91 62.6142.77 方位角跨度 64.04 80.63 62.28 42.34 投影面积63.97 83.50 60.87 41.71 可见面积 59.43 79.69 57.6934.670表8. 不同分配策略的比较。05.3. 加权非极大值抑制的研究0为了支持我们在第4.3节中的论述，我们在两种典型的基于体素的方法PointPillars [ 9 ]中应用了加权NMS。DynVox[44]BEV59.2984.956.0831.0760.8369.7658.4342.06PillarOD [33]BEV + CV69.888.5366.542.9372.5179.3472.1456.77Voxel-RCNN [3]BEV75.5992.4974.0953.15----PointPillars¶ [9]BEV72.1088.3069.9048.0070.5972.5271.9263.81PV-RCNN [24]BEV + PV70.391.9269.2142.17----D [37]3https://github.com/open-mmlab/mmdetection3d29250方法视角 3D车辆AP（IoU=0.7） 3D行人AP（IoU=0.5）0整体 0m - 30m 30m - 50m 50m - inf 整体 0m - 30m 30m - 50m 50m - inf0LaserNet [ 18 ] RV 52.11 70.94 52.91 29.62 63.4 73.47 61.55 42.69 RCD（第一阶段）[ 1 ] RV 57.2 - - - - - - - RCD [ 1 ] RV + PV 69.59 87.2067.80 46.10 - - - - MVF [ 44 ] RV + BEV 62.93 86.3 60.2 36.02 65.33 72.51 63.35 50.620我们的 RV 72.85 87.96 69.03 48.88 75.94 82.20 75.39 65.740表3. 在WOD验证集上评估的车辆和行人结果。请参阅补充材料以获取详细的骑行者结果。BEV：鸟瞰图。RV：距离视图。CV：圆柱视图[ 33]。PV：点视图。¶：由MMDetection3D实现。最佳结果和第二结果分别用红色和蓝色标记。0和SECOND [ 37 ]基于MMDe- tection3D3中的强基线。表9显示，加权NMS在RangeDet中的改进要比基于体素的方法更好。0方法 3D车辆AP（IoU=0.7）0NMS 69.17 68.49 67.14 加权NMS 72.85 69.53 67.730改进 +3.68 +1.04 +0.590表9. 不同检测器上加权NMS的结果。05.4. 消融实验0我们进一步对我们使用的组件进行消融实验。表1总结了结果。元核在不同设置下是有效且稳健的。RCP和加权NMS都显著提高了我们整个系统的性能。尽管IoU预测是最近3D检测器的常见做法[ 24 , 26]，但它对RangeDet有相当大的影响，因此我们在表1中对其进行了消融。05.5. 与最先进方法的比较0表3显示，RangeDet优于其他纯基于距离视图的方法，并略逊于最先进的基于BEV的两阶段方法。在所有结果中，我们观察到一个有趣的现象：与距离视图在长距离检测中劣于其他方法的刻板印象相反，RangeDet在长距离度量（即50m-inf）中优于大多数其他比较方法，特别是在行人类别中。与BEV中的情况不同，行人在距离视图中非常小。这再次验证了距离视图表示的优越性以及我们在距离视图输入和3D笛卡尔输出空间之间不一致性的修复方法的有效性。05.6. KITTI上的结果0基于距离视图的检测器比基于BEV的检测器更需要数据，这在Laser-0Net [ 18 ]中得到了证明。尽管广泛使用的KITTI数据集[ 4]没有足够的训练数据来揭示RangeDet的潜力，但我们报告了我们在KITTI上的结果，以与以前的基于距离视图的方法进行公平比较。表10显示，RangeDet的结果比以前的基于距离的方法要好得多，包括从WOD预训练微调的RCD模型。0方法简单中等困难0LaserNet 78.25 73.77 66.47 RCD 82.26 75.8369.91 RCD-FT 85.37 82.61 77.80RangeDet（我们的）89.88 85.06 80.230表10. KITTICar测试集上的BEV性能。RCD-FT是从WOD预训练微调的。05.7. 运行时评估0在Waymo开放数据集上，我们的模型在单个2080TiGPU上评估时达到12FPS，无需刻意优化。需要注意的是，我们方法的运行时间不受有效检测距离扩展的影响，而基于BEV的方法的速度会随着最大检测距离的扩展而迅速减慢。06. 结论0我们提出了RangeDet，一种基于范围视图的检测框架，由Meta-Kernel，Range ConditionedPyramid和加权NMS组成。通过我们的特殊设计，RangeDet利用了范围视图的特性来克服一些挑战。RangeDet在性能上与最先进的多视图检测器相当。0致谢0这项工作得到了新一代人工智能重大项目（编号2018AAA0100400），中国国家自然科学基金（编号61836014，61773375，62072457）和图简单合作研究项目的部分支持。29260参考文献0[1] Alex Bewley，Pei Sun，Thomas Mensink，DragomirAnguelov和CristianSminchisescu。用于尺度不变的3D目标检测的范围条件膨胀卷积。在2020年机器人学习会议（CoRL）上。2，80[2] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li和TianXia。用于自动驾驶的多视图3D目标检测网络。在CVPR上，第1907-1915页，2017年。20[3] 邓佳俊，史少帅，李培伟，周文刚，张燕勇和李厚强。VoxelR-CNN：实现高性能基于体素的3D目标检测。2021年。80[4] Andreas Geiger，Philip Lenz和RaquelUrtasun。我们准备好自动驾驶了吗？KITTI视觉基准套件。在CVPR上，第3354-3361页。IEEE，2012年。80[5] Spyros Gidaris和NikosKomodakis。通过多区域语义分割感知CNN模型进行目标检测。在ICCV上，第1134-1142页，2015年。50[6] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR上，第770-778页，2016年。50[7] Peiyun Hu，Jason Ziglar，David Held和DevaRamanan。你所看到的就是你得到的：利用可见性进行3D目标检测。在CVPR上，第11001-11009页，2020年。10[8] Qingyong Hu，Bo Yang，Linhai Xie，StefanoRosa，Yulan Guo，Zhihua Wang，Niki Trigoni和AndrewMarkham。RandLA-Net：大规模点云的高效语义分割。在CVPR上，第11108-11117页，2020年。4，70[9] Alex H Lang，Sourabh Vora，Holger Caesar，LubingZhou，Jiong Yang和OscarBeijbom。PointPillars：用于点云目标检测的快速编码器。在CVPR上，第12697-12705页，2019年。1，2，7，80[10] BoLi。用于点云中车辆检测的3D全卷积网络。在IROS上，第1513-1518页，2017年。20[11]李波，张天磊和夏天。使用全卷积网络从3D激光雷达中检测车辆。2016年。1，20[12]李杨浩，陈云涛，王乃岩和张兆祥。用于目标检测的尺度感知三叉网络。在ICCV上，第6054-6063页，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载