PolarNet：一种改进的在线LiDAR点云语义分割算法

126 浏览量更新于2023-10-23 收藏 13.02MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Yang Zhang∗1, Zixiang Zhou∗1, Philip David2, Xiangyu Yue3, Zerong Xi1, Boqing Gong†1, andHassan Foroosh130%35%40%45%50%55%96010PolarNet：一种改进的用于在线LiDAR点云语义分割的网格表示01 佛罗里达中央大学计算机科学系 2 美国陆军研究实验室计算与信息科学总局 3加利福尼亚大学伯克利分校电气工程与计算机科学系 yangzhang@knights.ucf.edu, zhouzixiang@knights.ucf.edu,philip.j.david4.civ@mail.mil, xyyue@berkeley.edu, zxi@knights.ucf.edu, boqinggo@outlook.com, foroosh@cs.ucf.edu0摘要0自动驾驶系统对细粒度感知的需求导致了对单次扫描LiDAR的在线语义分割的研究的增加。尽管出现了新的数据集和技术进步，但由于以下三个原因，仍然存在挑战：（1）需要具有有限硬件的近实时延迟；（2）LiDAR点在空间上分布不均匀甚至呈长尾分布；（3）出现了越来越多的极细粒度的语义类别。为了共同应对所有上述挑战，我们提出了一种新的LiDAR特定的、无最近邻的分割算法——PolarNet。与使用常见的球面或鸟瞰投影不同，我们的极坐标鸟瞰表示在极坐标系中平衡了网格单元中的点，间接地将分割网络的注意力与点沿径向的长尾分布对齐。我们发现，我们的编码方案极大地提高了真实城市LiDAR单次扫描的三个完全不同的分割数据集的mIoU，同时保持接近实时的吞吐量。01. 引言0在过去的十年中，特别是在自动驾驶领域，LiDAR点云数据呈现出巨大的增长。为了在各种下游应用中利用LiDAR点云数据，开发自动分析方法对数据进行解读至关重要。在本文中，我们重点研究了在线细粒度语义分割0� 相等贡献。†现在在Google工作。代码在https://github.com/edwardzhou130/PolarSeg00 50 100 150 200 250 300 350 400 MACs（十亿）0SemanticKITTI测试mIoU0PolarNet（我们的）0DarkNet530Squeezesegv20Squeezeseg0Cartesian Unet0图1. 点级SemanticKITTI[1]分割mIoU与相同GPU上每次扫描的乘积累加操作。我们基于Unet的PolarNet不仅明显优于Cartesian-BEVUnet、PointNet、SqueezeSeg和SqueezeSeg的过参数化变体（由线连接），而且保持了极低的计算成本。0LiDAR点云。与图像语义分割类似，任务是在给定输入点云的情况下为每个点分配语义标签。虽然有几个大规模的LiDAR点云数据集是公开可用的[9, 29, 42,3]，但直到最近，由[1,10]提供的语义分割标签才能与它们的规模相匹配。发布大规模点云和语义分割标签之间的滞后表明，人工评分员提供点级标签的挑战以及对LiDAR扫描的自动和快速语义分割解决方案的需求。我们考虑使用端到端的深度神经网络对LiDAR点云进行单次扫描的语义分割。然而，在研究网络架构或高级训练算法之前，我们首先关注96020网络的输入是什么构成了一个良好的LiDAR点云扫描的输入表示？我们从几个相关领域汲取灵感来回答这个问题。在图像分割中，感知领域[39]是设计高性能CNN的最基本考虑之一。它决定了神经网络在将像素分类为语义类别之前可以“感知”的上下文量。一般来说，较大的感知领域可以提高性能。扩大卷积神经网络感知领域的技术包括扩张卷积[39,5]、特征金字塔[17]等。当涉及到LiDAR点云时，我们推测感知领域的大小和形状都很重要。如果我们从鸟瞰图的角度观察LiDAR扫描，点被组织成各种半径的环（参见图2和图3）。因此，常规的笛卡尔坐标会以非均匀的方式将点分布到网格单元中。靠近传感器的单元必须通过每个单元压缩许多点，模糊了点的细节。相反，远离传感器的单元中包含的点非常稀疏，为神经网络在这样的单元中标记点提供了有限的线索。为此，我们建议让CNN的感知领域通过使用极坐标网格对LiDAR扫描进行分区来跟踪特殊的环结构。这种将输入表示的简单变化对于提高各种语义分割网络的性能有着显著的影响。然而，现有的关于LiDAR扫描理解的工作未能跟踪环结构。吴等人[36]将点云分割问题转化为深度图分割问题，通过将点球面投影到图像上。张等人[41]手工制作了点云的鸟瞰图（BEV）表示，但仍然使用常规网格表示。杨等人[38]在LiDAR点云中采用了类似的BEV表示进行目标检测。一方面，上述工作表明在分割和检测中使用LiDAR扫描的BEV表示是有希望的。然而，另一方面，我们认为它们未能充分利用BEV所揭示的结构。我们通过两种主要方式提升了传统BEV表示。一种是使用极坐标网格跟踪LiDAR扫描中的环结构。另一种是我们学习每个网格单元的局部特征，而不是手工制作。尽管在DL之前的计算机视觉中，极坐标并不陌生[2]，但在CNN中很少见，因为图像和特征矩阵本质上是笛卡尔坐标。为了将极坐标BEV表示与2DCNN完全整合，我们首先重新设计了BEV量化方案。我们不再根据点在XY平面上的笛卡尔坐标对点进行量化，而是根据它们的自顶向下的极坐标进行分配，如图3所示。模仿BEV的逐渐稀疏的圆形模式，极坐标BEV显著地0通过将每个网格中的点平衡到接近一个数量级（参见图4），我们受到Lang等人[16]的启发，然后学习一个简化的PointNet将每个网格中的点转换为固定长度的表示向量。由于我们将点量化为极坐标，理想情况下，特征矩阵也应该是极坐标的。为了确保下游CNN中感知场的一致性，我们将这些特征向量排列成一个极坐标网格，其最左列和最右列相连。我们还修改了下游CNN，使其能够在极坐标网格上连续卷积。在获得离散预测（也是极坐标网格）之后，我们将其映射回笛卡尔空间中的点并评估性能。我们在SemanticKITTI[1]、A2D2[10]和Paris-Lille-3D[26]数据集上验证了我们的方法。结果表明，我们的方法在平均交并比（mIoU）评估指标上分别比现有方法提高了2.1%、4.5%和3.7%，而参数和MAC的数量仅为其的1/3。我们的工作贡献总结如下：0•我们提出了一种更适合的LiDAR扫描表示，考虑到点的不平衡空间分布。0•我们提出的PolarNet网络，使用我们的极坐标网格数据表示进行端到端训练，在公共基准测试中以低计算成本超越了现有方法，如图1所示。0•我们对基于不同骨干分割网络使用极坐标网格与其他表示（如笛卡尔BEV）进行语义分割性能进行了全面分析。02. 相关工作02.1. 点云应用和方法0大多数当前的点云应用都集中在一般点云上，其中点在物体表面上密集分布，例如单个3D物体形状识别[34]，室内点云分割[31,27]和从点云重建室外场景[30]。尽管这些任务不同，但为了达到目标，它们必须解决一个相似的核心问题：如何从空间中不规则分布的点中提取上下文信息，无论是局部的还是全局的。从聚合上下文信息的方法来看，主要有两种方式：参数化[34, 32, 15, 13]和非参数化[22, 23,27]。其他作品将点进行体素化，然后应用3D体素分割/检测算法[31]。后一种方法的代表性作品是著名的PointNet[22]算法。PointNet和96030其后继者[23]分别处理每个点，然后使用一组函数在这些点之间聚合上下文信息。参数化方法在基于图的方法中更常见[34, 32,15]，其中点被建模为通过KNN形成的图，然后根据它们的图连接进行卷积。02.2. LiDAR应用和方法0尽管LiDAR传感器在任何光照条件下都能提供高精度的距离测量，但由LiDAR生成的点云在空间上更稀疏，这使得从中提取信息更具挑战性。此外，LiDAR传感器通常用于具有限制性处理资源的系统，例如自动驾驶车辆，需要嵌入式硬件的实时性能。为了解决这个问题，研究人员提出了不同的3D数据表示方法，可以分为前视图和鸟瞰图（BEV）。尽管使用了LiDAR3D点云的不同表示，但每个表示都将点量化为场景的压缩2D快照，可以通过2D神经网络处理，从而避免了昂贵的图神经网络或3D操作。前视图表示包括深度图像样和球面投影。深度图或视锥体方法将3D点云投影到2D图像网格上，[21]根据视锥体对点进行聚类，在其中使用3D深度神经网络识别物体。在球面投影中，点被投影到2D球面网格上进行密集表示。SqueezeSeg[35]和SqueezeSegV2[36]使用球面投影来表示点云，用于轻量级的2D语义分割网络，能够实现实时性能。预测结果通过条件随机场（CRF）模型进一步平滑，然后重新投影到3D点云上。RangeNet++[19]将SqueezeSeg的骨干网络替换为YOLOv3[24]Darknet，并使用基于GPU的K最近邻搜索来实现更好的分割结果。作为比深度图更好的表示方法，BEV从俯视角度表示点云，不会丢失任何尺度和范围信息，广泛用于LiDAR检测[33, 38, 16, 14,37]，最近也用于分割[41]。PIXOR[38]将点云离散化为BEV表示后，对每个单元格的特征进行编码，作为占用和归一化反射率。然后，使用2D卷积层的神经网络进行3D物体检测。PointPillars[16]在BEV表示上添加了一个PointNet模型。存在许多LiDAR物体检测数据集，例如Waymo开放数据集[29]和KITTI 3D检测数据集[9]。LiDAR扫描语义0相反，语义分割点云数据集相对较少。据我们所知，迄今为止只有三个：Audi数据集[10]，Paris-Lille-3D[26]和SemanticKITTI数据集[1]。其他点云分割数据集，如Semantic3D[11]，超出了在线LiDAR分割的范围。为语义分割算法开发标注RGB图像是一项费力的任务；然而，为LiDAR数据标注语义分割则更加困难和不直观，这可能是为什么LiDAR分割数据集如此之少的原因。02.3. 2D语义分割02D语义分割网络，从全卷积网络（FCN）[18]发展而来，在近年来的各种基准测试中都取得了显著的改进。与其他计算机视觉任务（如姿态估计和目标检测）的成功类似，大多数高效的语义分割网络[40]采用编码器-解码器结构，其中2D图像特征图首先被降维以提取高级上下文信息，然后被扩展以恢复空间信息。在这些网络中，DeepLab[4]及其后续版本[5,6]利用稀疏卷积滤波器增加了感受野，而Unet则添加了跳跃连接以直接串联不同层次的语义特征，并且在具有不规则和粗糙边缘的图像（如医学图像）中被证明更加高效。03. 方法03.1. 问题陈述0给定一个包含N个LiDAR扫描的训练数据集{(P_i, L_i) | i = 1,..., N}，其中P_i ∈ Rn_i ×4是第i个点集，包含n_i个LiDAR点。P_i的每一行由四个特征组成，表示一个LiDAR点p，即(x, y, z, 反射)。(x, y,z)是相对于扫描仪的点的笛卡尔坐标。反射是返回激光束的强度。L_i ∈Zn_i包含每个点p_j在P_i中的对象标签。我们的目标是学习一个由θ参数化的分割模型f(∙;θ)，使得预测f(P_i)与L_i之间的差异最小化。03.2. 鸟瞰图分区0尽管点云扫描由周围3D环境的零散观测组成，但凭经验，可以将其表示为场景的自上而下的快照，以最小化信息损失。[7]建议将这种自上而下的正交投影直接输入到2D检测网络中。010203040Distance (m)103102101100Points per GridTraditional BEVPolar BEV96040LiDAR扫描 n × 40网格内的点0n × 512 MLP最大0极坐标网格极坐标量化扫描01 × 5120环形CNN0预测环连接卷积0图2.我们模型的概述。对于给定的LiDAR点云，我们首先使用极坐标BEV坐标将点量化为网格。对于这些网格单元中的每个单元格，我们使用简化的无KNNPointNet将其中的点转换为固定长度的表示。然后，将表示分配给其在环状矩阵中的相应位置。我们将矩阵输入到环形CNN中，该网络由环形卷积模块组成。最后，CNN输出一个量化的预测，我们将其解码为点域。0(a) 笛卡尔BEV0(b) 极坐标BEV0图3.两种BEV量化策略。图像上的每个网格单元表示特征图中的一个特征。0tion网络用于检测3D点云中的对象。后来，它被用于点云分割[41]。通过将2D自上而下的图像作为输入，网络输出与该位置沿z轴的每个体素的类别预测编码相同维度形状的张量。这种优雅的方法通过利用2DCNN多年的研究成果来加速分割过程。它还避免了昂贵的3D分割和3D图操作。BEV的最初动机是用自上而下的图像来表示场景，以加速下游任务特定的CNN。根据多年设计CNN架构的经验，研究人员选择BEV表示来尽可能地利用下游CNN，这些CNN恰好是为自然图像设计的。因此，最初的BEV表示创建了点云的自上而下的投影。最近，改进的BEV变体尝试使用丰富的不同高度[38]、反射[28]甚至学习表示[16]来对BEV中的每个像素进行编码。然而，有一件事保持不变：BEV方法使用笛卡尔网格分割，如图3(a)所示。网格是基本的图像表示，但可能不是BEV的最佳表示。BEV是性能和精度之间的折衷。通过观察BEV图像，我们立即注意到点密集集中在中间网格单元和外围网格单元完全为空。不均匀的分割不会0图4.网格单元距离传感器的距离与对数间隔的平均每个网格单元点数。传统的BEV表示将大部分网格单元分配给远离传感器的端点。0不仅浪费计算能力，而且限制了中心网格单元的特征表达能力。此外，具有不同标签的点可能被分配到一个单元格中。由于最终预测是在体素级别上进行的，次要点的预测将被输出中的多数标签压制。03.3. 极坐标鸟瞰图0我们如何解决这种不平衡？基于LiDAR扫描自上而下的环状结构，我们在图3中用极坐标分区替代了笛卡尔分区。我们首先在XY平面上以传感器位置为原点计算每个点的方位角和半径，然后根据它们的量化方位角和半径将点分配到网格单元中。我们发现极坐标BEV的好处有两个。首先，它更均匀地分布点。为了验证这一点，我们对SemanticKITTI数据集[1]的验证集进行了统计。如图4所示，当单元格靠近传感器时，极坐标网格单元中的点数要比笛卡尔BEV中的点数少得多。这表明，密集占据的网格的表示更精细。在相同数量的网格单元的情况下，传统的BEV网格单元平均有0.7±3.2个点，而极坐标BEV网格单元平均有0.7±1.4个点。标准差之间的差异表明，总体上，点在极坐标BEV网格中更均匀地分布。极坐标BEV的第二个好处是更平衡。96050均衡的点分布减轻了预测器的负担。由于我们将2D网络输出重塑为点预测的体素预测，不可避免地，一些具有不同groundtruth标签的点将被分配到同一个体素中。而且无论如何，其中一些点将被错误分类。通过使用极坐标BEV，平均每个网格单元中有98.75%的点共享相同的标签。而在极坐标BEV中，这个数字跳到了99.3%。这表明，由于空间表示，极坐标BEV中的点不太容易被错误分类。考虑到小物体更容易被体素中的大多数标签压倒，这0.6%的差异可能对最终的mIoU有更深远的影响。为了进一步研究mIoU的上限，我们将每个点的预测设置为其分配体素的多数标签。结果表明，笛卡尔BEV的mIoU在健全性检查中达到了97.3%。而极坐标BEV达到了98.5%。极坐标BEV中更高的上限可能会提高下游模型的性能。03.4. 学习极坐标网格0通过可学习的简化PointNet [22]h和最大池化，我们捕捉每个网格中点的分布，并用固定长度的表示来表示它。网络只包含全连接层、批量归一化层和ReLu层。扫描中第i，j个网格单元的特征是：0fea i,j = MAX({h(p)|wi < px < wi+1, lj < py < lj+1})(1)其中w和l是量化尺寸。px和py是点p在地图中的位置。注意，位置和量化尺寸可以是极坐标或笛卡尔坐标。我们不沿z轴量化输入点云。与[16]类似，我们的学习表示表示了一个网格的整个垂直列。如果表示是在极坐标系中学习的，特征矩阵的两侧将在物理空间中的方位轴上连接在一起，如图2所示。我们开发了一种称为环卷积的离散卷积。环卷积核将在假设矩阵在半径轴上两端连接的情况下进行卷积。同时，位于相反侧的梯度可以通过这个环卷积核传播到另一侧。通过在2D网络中用环卷积替换普通卷积，网络将能够端到端地处理极坐标网格，而不会忽略其连通性。这为模型提供了扩展的感受野。由于它是一个2D神经网络，最终的预测也将是一个极坐标网格，其特征维度等于量化高度通道和类别数的乘积。然后我们可以重塑0(a) SemanticKITTI0(b) A2D20(c) Paris-Lille-3D0图5.尽管数据集中存在不同的扫描线模式，PolarNet仍然优于基线。放大以获取更多细节。0将预测转换为4D矩阵以得到基于体素的分割损失。正如读者可能注意到的，如果将卷积替换为环卷积，大多数CNN在技术上都能够处理极坐标网格。我们将训练用于处理极坐标网格的环卷积的网络称为环形CNN。04. 实验0在本节中，我们介绍了我们的实验设置、结果和消融研究。04.1. 数据集0我们在实验中使用了SemanticKITTI[1]、A2D2[10]和Paris-Lille-3D[26]数据集。SemanticKITTI是著名的KITTI数据集[9]的激光雷达部分的点级重新注释。它总共有来自德国不同城市的22个序列中采样的43551个扫描。每个扫描平均有104452个点，由单个Velo-dyneHDL-64E激光雷达扫描仪收集，如图5(a)所示。总共有19个具有挑战性的类别。最频繁的类别“植被”比最不频繁的类别“摩托车手”多出4.82×10^7倍的点。显然，这是一个严重不平衡和具有挑战性的数据集。我们遵循SemanticKITTI的子集划分协议，使用十个序列进行训练，一个序列进行验证，其余序列进行测试。我们提供了几个在SemanticKITTI上已经提出的基线。我们通过将我们的分割预测上传到他们的评估服务器上，报告了在SemanticKITTI测试子集上的分割性能。A2D2数据集是奥迪开发的一种综合性自动驾驶数据集。它包括38类分割注释。尽管A2D2数据以空间中的3D点的形式呈现，但这些点与KITTI数据集中的点分布不同。我们在图5(b)中给出了一个例子。首先，KITTI数据集中的一个传感器创建了一个全景激光雷达扫描。与此同时，A2D2使用五个异步激光雷达传感器，每个传感器覆盖周围视野的一部分。因此，几乎所有A2D2重建的激光雷达视图都不包含所有的角度。其次，如图5(b)所示，A2D2激光雷达传感器不一定产生水平扫描线。我们的目标是模拟车辆在操作过程中的即时感知。我们首先将所有激光雷达点投影回车辆坐标系。然后，我们从在50ms时间窗口内异步生成的任何部分扫描中手动创建（半）全景激光雷达组合。由于传感器并不总是可用的，一些生成的扫描是不完整的。这种异构组合对于所有的分割算法，包括我们的算法，都是一个巨大的挑战。通过上述激光雷达全景拼接，我们分别创建了22408、2774和13264个训练、验证和测试扫描。与其他两个数据集不同，Paris-Lille-3D提供了3个聚合点云，这些点云是由在巴黎和里尔的街道上连续采集的一个倾斜后置VelodyneHDL-32E的激光雷达扫描构建的。每个点都用九个分割类别之一进行注释，还有时间戳和世界坐标。根据扫描仪轨迹和点的时间戳，我们从注册的点云中提取单个扫描。我们每50ms记录一次扫描。每个扫描由+/-100ms内的点组成，例如5(c)。总共，我们分别创建了5112、1205和1273个训练、验证和测试扫描。我们将Paris-Lille-3D的测试预测上传到他们的评估服务器上，以获得官方的测试结果。由于Paris-Lille-3D只接受组合预测，我们通过最大投票的方式聚合多个扫描的预测结果。体素化：在分析SemanticKITTI、A2D2和Paris-Lille-3D训练集中点的空间分布后，我们分别将笛卡尔BEV网格空间固定为[x: ±50m, y: ±50m, z: -3�1.5m]，[x: ±50m, y: ±50m, z:-3�9m]和[x: ±15m, y: ±15m, z: -3�12m]，以及[distance: 3�50m, z:-3�1.5m]，[distance: 0�50m, z: -3�9m]和[distance: 0�15m, z:-3�12m]用于我们的极坐标BEV，以平均包含每个扫描中超过99%的点。超出这个范围的点被分配给最近的BEV网格单元。此外，我们将相应的网格大小设置为[480, 360, 32]，[320, 320, 32]和[320, 320, 32]。96060然后将激光雷达点回投影到车辆坐标系。然后，我们从在50ms时间窗口内异步生成的任何部分扫描中手动创建（半）全景激光雷达组合。由于传感器并不总是可用的，一些生成的扫描是不完整的。这种异构组合对于所有的分割算法，包括我们的算法，都是一个巨大的挑战。通过上述激光雷达全景拼接，我们分别创建了22408、2774和13264个训练、验证和测试扫描。与其他两个数据集不同，Paris-Lille-3D提供了3个聚合点云，这些点云是由在巴黎和里尔的街道上连续采集的一个倾斜后置VelodyneHDL-32E的激光雷达扫描构建的。每个点都用九个分割类别之一进行注释，还有时间戳和世界坐标。根据扫描仪轨迹和点的时间戳，我们从注册的点云中提取单个扫描。我们每50ms记录一次扫描。每个扫描由+/-100ms内的点组成，例如5(c)。总共，我们分别创建了5112、1205和1273个训练、验证和测试扫描。我们将Paris-Lille-3D的测试预测上传到他们的评估服务器上，以获得官方的测试结果。由于Paris-Lille-3D只接受组合预测，我们通过最大投票的方式聚合多个扫描的预测结果。体素化：在分析SemanticKITTI、A2D2和Paris-Lille-3D训练集中点的空间分布后，我们分别将笛卡尔BEV网格空间固定为[x: ±50m,y: ±50m, z: -3�1.5m]，[x: ±50m, y: ±50m, z: -3�9m]和[x:±15m, y: ±15m, z: -3�12m]，以及[distance: 3�50m, z:-3�1.5m]，[distance: 0�50m, z: -3�9m]和[distance: 0�15m,z:-3�12m]用于我们的极坐标BEV，以平均包含每个扫描中超过99%的点。超出这个范围的点被分配给最近的BEV网格单元。此外，我们将相应的网格大小设置为[480, 360,32]，[320, 320, 32]和[320, 320, 32]。04.2. 基线和度量0SqueezeSeg：作为该领域的先驱性工作，吴等人[35]通过将LiDAR点投影到围绕传感器的球面上，将该问题转化为2D分割问题。他们还添加了CRF来通过强制邻近标签一致性进一步改善最终结果。除了基本的SqueezeSeg和SqueezeSeg-v2，Behley等人[1]用YOLO [24]Darknet-53替换了SqueezeNet骨干网络。这种过度参数化使得在SemanticKITTI上，相对于SqueezeSeg-v2，结果提高了10%以上。此外，RangeNet++[19]在CNN分割网络之后包括了一种基于KNN的后处理方法，用于减少球面中间表示的离散化造成的误差。PointNet[22]：PointNet是一个简单的网络，能够0预测点的语义分割。首先，它使用全连接网络对每个点进行单独处理。然后，通过对所有点的特征进行最大池化，总结出全局表示。预测器通过将该点的特征和全局表示的连接来预测每个点的类别。PointNet++[23]是通过将分层池化和上下文表示添加到普通PointNet中而得到的经验改进。TangentConv[30]：Tatarchenko和Park等人提出使用切线卷积来预测3D点云的分割类别。RandLA[12]：胡等人提出使用局部特征聚合模块对大规模点云进行分割。我们报告准确率，每类IoU和mIoU。mIoU是所有语义类别的类别交并比的平均值。类别c的交并比（IoUc）是指类别预测和地面真值的交集除以它们的并集：0IoUc = |0|P c ∪ G c | . (2)0鉴于LiDAR应用的独特特性，我们还报告了模型的单次扫描预测延迟、最大批处理大小下的每秒帧数（FPS）、每次扫描的平均乘积累加操作（MAC）和模型参数数量。我们报告整个验证集上的平均值，使用相同的GPU。我们不会对与点相关的模型进行下采样。我们使用官方实现或报告的结果作为基线。我们在Pytorch[20]中实现了自己的网络。我们使用torch Geometric[8]来并行化每个网格中的点最大池化。04.3. SemanticKITTI分割实验0表1显示了我们的方法和多个基线之间的性能比较。结果表明，基于Unet的极坐标鸟瞰分割网络即使具有更少的参数和更低的延迟，也优于现有技术方法。如表中所示，基于点的方法如PointNet和TangentConv在使用大规模LiDAR点云时效率低下且分割准确性差。对于每类IoU，我们的BEV方法在大多数类别中都取得了改进，特别是在那些在空间中不规则且分布稀疏的类别中，这与极坐标鸟瞰图的尺度和范围保持特性相匹配。我们还注意到“other-ground”和“motorcyclist”的性能特别低。调查表明，它们在视觉上与其他类别难以区分。根据SemanticKITTI的定义，“other-ground”本质上是类似人行道/地形的地面，但用于其他目的，例如交通岛屿。至于摩托车手，由于摩托车本身经常被大量遮挡，即使对于人类来说，将摩托车手与人或自行车手区分开也是具有挑战性的。此外，摩托车手是数据集中最稀有的类别，占训练点的0.004%，在官方验证序列中只出现一次。ModelFPSLatencyMACsParamsAccmIoUPer class IoUcarbicyclemotorcycletruckother-vehiclepersonbicyclistmotorcyclistroadparkingsidewalkother-groundbuildingfencevegetationtrunkterrainpoletrafﬁc-signPointNet [22]11.50.087s141B3.5M-14.6%46.3%1.3%0.3%0.1%0.8%0.2%0.2%0.0%61.6%15.8%35.7%1.4%41.4%12.9%31.0%4.6%17.6%2.4%3.7%PointNet++ [23]---6M-20.1%53.7%1.9%0.2%0.9%0.2%0.9%1.0%0.0%72.0%18.7%41.8%5.6%62.3%16.9%46.5%13.8%30.0%6.0%8.9%Squeezeseg [35]49.20.031s13B0.9M-29.5%68.8%16.0%4.1%3.3%3.6%12.9%13.1%0.9%85.4%26.9%54.3%4.5%57.4%29.0%60.0%24.3%53.7%17.5%24.5%TangentConv [30]---0.4M-35.9%86.8%1.3%12.7%11.6%10.2%17.1%20.2%0.5%82.9%15.2%61.7%9.0%82.8%44.2%75.5%42.5%55.5%30.2%22.2%Squeezesegv2 [36]36.70.036s14B0.9M-39.7%81.8%18.5%17.9%13.4%14.0%20.1%25.1%3.9%88.6%45.8%67.6%17.7%73.7%41.1%71.8%35.8%60.2%20.2%36.3%DarkNet53 [1]12.70.087s378B50M87.8%49.9%86.4%24.5%32.7%25.5%22.6%36.2%33.6%4.7%91.8%64.8%74.6%27.9%84.1%55.0%78.3%50.1%64.0%38.9%52.2%RangeNet++ [19]--378B50M89.0%52.2%91.4%25.7%34.4%25.7%23.0%38.3%38.8%4.8%91.8%65.0%75.2%27.8%87.4%58.6%80.5%55.1%64.6%47.9%55.9%RandLA [12]---1.2M-53.9%94.2%26.0%25.8%40.1%38.9%49.2%48.2%7.2%90.7%60.3%73.7%20.4%86.9%56.3%81.4%66.8%49.2%47.7%38.1%Unet w/ Cartesian BEV19.70.051s134B14M87.6%50.7%92.7%26.8%23.1%26.7%24.2%48.1%41.0%4.4%86.7%52.3%67.2%12.9%89.5%57.7%80.8%62.5%62.5%50.3%53.5%PolarNet16.20.062s135B14M90.0%54.3%93.8%40.3%30.1%22.9%28.5%43.2%40.2%5.6%90.8%61.7%74.4%21.7%90.0%61.3%84.0%65.5%67.8%51.8%57.5%96070表1. SemanticKITTI测试集上的分割结果。0even for a human to tell a motorcyclist from person orbicyclist because the motorcycle itself is often largelyoccluded. Besides, motorcyclists are the rarest class in thedataset — constitute 0.004% of the training points and onlyone in- stance appears in the of�cial validation sequence.04.4. A2D2分割实验0我们在表2中呈现了A2D2的结果。我们的方法在mIoU和速度方面无疑优于其他基线。通过观察mIoU，我们发现A2D2是一个具有挑战性的数据集。尽管是领先的方法，但我们仅使用激光雷达数据在该数据集上的mIoU仅为23%，而在SemanticKITTI上的mIoU为54%。我们的方法还将多个类别的IoU翻倍，如自行车、行人、小型车辆、交通灯、侧栏、信号语料库、停车区域和虚线。该数据集确实具有挑战性，因为基线方法和我们的方法在多个类别中的IoU几乎为零。04.5. Paris-Lille-3D分割实验0如表4所示，PolarNet在Paris-Lille-3D分割结果中的mIoU比DarkNet53高出3.7%。分割性能有着有趣的差异。PolarNet在障碍物方面的结果有了很大的改进，因为障碍物大多远离车辆。然而，笛卡尔Unet在垃圾桶方面具有很大的优势，因为在训练和验证中都只有很少的样本。04.6. 投影方法的影响0在表3中，我们展示了在三种不同投影方法（SqueezeSeg提出的球面投影、笛卡尔BEV和我们的极坐标BEV）上使用不同分割骨干网络（包括SqueezeSeg、Resnet-50-FCN、DRN-DeepLab和Resnet-101-DeepLab）的SemanticKITTImIoU结果。对于球面投影，我们遵循了将点云投影到[-25°,3°]的天顶角范围内，投影到[64,2048]的网格中的设置，就像[19]中所述。结果表明，无论使用什么分割网络，BEV始终明显优于球面投影方法。球面投影性能较差可以通过两种方式解释。首先，由于点云直接投影到2D球面坐标上，球面投影更容易受到量化产生的误差的影响。0其次，即使将距离信息明确编码到特征中，投影过程中仍会丢失距离信息，这使得空间中相距较远的点可能定位在相邻的2D网格中，并容易被错误地分类为相同的标签。同时，实验还表明，对于每个骨干网络，极坐标BEV的性能与笛卡尔BEV相当甚至更好。由于激光雷达点云在空间中稀疏且由于遮挡而不连续，量化会在2D表示中创建不规则和不一致的边缘。这种不一致性使得Unet在这些骨干分割网络中脱颖而出，并实现了最佳性能。04.7. 增强LiDAR分割0此外，我们分析了不同训练设置对验证mIoU结果的影响，结果见表5。基准是我们的极坐标BEVUnet网络，网格大小为[256, 256,32]。“RC”表示在骨干网络中使用环卷积核而不是普通的2D卷积。“9F”表示我们使用2个笛卡尔坐标，3个相对距离（从分配网格的中心）和1个反射，以及3个极坐标，总共9个特征作为每个点的CNN网络的输入。“FA”表示我们以25%的概率随机沿x、y和x+y轴翻转点云进行数据增强。“FS”表示我们根据之前提到的统计分析固定了BEV的体积空间。“TG”表示我们调整了网格大小为[480, 360,32]，在尝试不同的网格大小配置后达到最佳性能。从表5可以看出，固定体积空间对每个扫描中的尺度不变性的改进贡献最显著，mIoU增加了2.8%。这些数据增强方法也适用于笛卡尔BEV网络中的所有其他实验。04.8. mIoU与传感器距离的关系0此外，我们根据与传感器的距离对验证集中的点预测进行排序，并分析不同距离下的mIoU结果。图6显示，随着距离的增加，mIoU同时降低。这种模式的原因是远处的点在空间中更加稀疏和分散，这使得分割网络更难从BEV表示中提取上下文信息。这个观察结果与[1]中的观察结果相同。然而，我们从这个图中得出的最有趣的结论与不同的BEV表示有关：ModelProjectionFPSLatencyMACsParamsmIoUPer class IoUcarbicyclemotorcycletruckother-vehiclepersonbicyclistmotorcyclistroadparkingsidewalkother-groundbuildingfencevegetationtrunkterrainpoletrafﬁc-signSqueezesegSpherical83.60.012s14B0.9M31.8%79.4%0.0%0.0%3.2%1.3%0.0%0.0%0.0%90.9%19.8%74.7%0.0%75.3%31.6%80.6%37.3%71.1%13.2%26.3%Cartesian BEV19.50.051s101B1.5M42.6%90.4%15.2%16.6%13.5%16.8%39.0%45.8%0.0%85.7%25.3%65.2%0.0%86.1%32.1%79.7%54.4%60.1%50.9%33.2%Polar BEV17.80.056s105B1.5M42.2%89.8%22.1%19.8%14.2%9.2%37.0%14.3%0.4%83.7%15.8%65.6%0.0%85.9%40.2%85.6%54.2%72.1%54.9%36.7%Resnet-FCNSpherical38.60.048s92B117M41.6%82.3%1.5%13.7%65.8%15.5%20.3%31.2%0.0%92.1%32.4%75.6.2%0.1%77.3%31.6%78.1%43.9%66.8%36.6%25.2%Cartesian BEV11.70.088s197B117M49.2%89.9%28.2%15.6%56.5%30.5%41.0%66.1%0.0%88.6%38.3%71.5%6.1%

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

PolarNet：一种改进的在线LiDAR点云语义分割算法

lidar点云分割与聚类算法

结合分水岭算法和点云空间分布识别的机载lidar 点云单木分割

ros2 中将 sensor_msgs::msg::LaserScan ddp; 转换成点云数据 pcl::PointCloud<pcl::PointXYZ> lidar_cloud;

怎样融合不同视角的Lidar点云

同等密度的情况下,就水平精度而言,无人机倾斜摄影建模DIM点云比机载LiDAR点云的精度要高;就高程精度而言,机载LiDAR点云比的DIM点云精度要高，为什么？

基于车载LIDAR点云数据的 杆状地物三维拟合算法研究的选题北京

lidar点云提取直线

无人机摄影测量生成的点云和无人机载LiDAR获取的点云有何联系和区别？

kitti点云投影到图像

基于python从lidar点云数据中重建3d建筑

基于LiDAR360点云分析处理软件完成的种子点单木分割结果怎么一图片形式导出

lidar360点云滤波去噪

lidar3d点云成像显示实验

开源的lidar建图算法

Eigen::Vector3f p_0(184.147, 24.2497, 1); Eigen::Matrix3f lidar2origin_trans；lidar2origin_trans<<0.914117, -0.405448, 144.865, 0.405448, 0.914117, 17.0299 , 0 , 0 , 1;Eigen::Vector3f p_1 = lidar2origin_trans.inverse() * p_0; 输出p_1的值

记载LiDAR技术得研究现状

LiDAR360中如何分割出一部分点云将其单独提取出来

最新资源

基于车载LIDAR点云数据的杆状地物三维拟合算法研究的选题北京