点云中的径向对称性方位归一化3D感知

40 浏览量更新于2023-10-26 收藏 1.91MB PDF 举报

目标检测

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

638747.AziNorm：利用点云的径向对称性进行方位归一化3D感知陈少宇1，2王兴刚1<$程天恒1，2张文强1张倩2黄昌2刘文宇11华中科技大学启德学院2地平线机器人{张宇晨，王旭光，张伟勤，刘伟}@ hust.edu.cn{qian01.zhang，chang.huang}@ horizon.ai摘要研究数据的内在对称性在机器学习中具有重要意义。点云是三维环境感知中最重要的在这项工作中，我们利用这种径向对称性，通过分而治之的策略，以提高3D感知性能和简化优化。我们提出了方位角归一化（AziNorm），它沿径向对点云进行归一化，消除了方位角差异带来的变化。AziNorm可以灵活地集成到大多数基于LiDAR的感知方法中。为了验证其有效性和推广能力，我们将Azi-Norm应用于目标检测和语义分割。对于检测，我们将AziNorm集成到两种代表性的检测方法中，即一级SECOND检测器和最先进的两级PV-RCNN检测器。Waymo Open Dataset上的实验表明，Azi-mAPH57.10% 20%100%(a) 数据效率mAPH52.1157.7157.9349.3233.taochNorm将SECOND和PV-RCNN提高了7。03 mAPH和3.01mAPH。对于分割，我们将AziNorm集成到KPConv中。在SemanticKitti数据集上，AziNorm将KPConv提高了1。六比一val/测试集上的1mIoU。此外，AziNorm显著提高了数据效率，加快了收敛速度，降低了数据量或训练时期。SECOND w/ AziNorm可以显著优于完全训练的vanilla SECOND，即使只训练了10%的数据或 10% 的 epoch 。代码和型号可在https://github.com/hustvl/AziNorm上获得。1. 介绍基于三维LiDAR点云的环境感知是自动驾驶仪系统实现高鲁棒性和安全性的基础和不可缺少的能力。准确的感知结果是可靠运动的基础†Xinggang Wang为通讯作者。35 10 20 30(b) 收敛速度图1. AziNorm显著提高了数据效率（a）并加速了收敛（b）。随着数据量和训练时间的减少，SECOND的性能急剧下降，但SECOND w/AziNorm仍然实现了相当的性能。即使只训练了10%的数据或10%的epoch，SECOND w/ AziNorm也明显优于完全训练的vanilla SECOND。规划和控制，避免交通事故。过去的几年见证了基于LiDAR的感知性能的巨大改进。以前的工作[24，25，29，30，42，44-与以往对LiDAR点云网络体系结构设计的深入研究不同，LiDAR点云的内在属性尚未得到充分的挖掘和利用。LiDAR发射0357点93581554.825084.90SECOND w/AziNormSECONDda56.第五十六章50.904546.2836.37SecoND w/AziNorm05SecoND6388各向同性地在所有方位角向外传播的激光射线激光光线从周围的物体反射回来，捕捉物体表面的特征，然后返回到激光雷达。入射光线和反射光线都沿径向方向。并且生成的点云在广义上是径向对称的（图1）。2）。从机器学习的角度来看，数据固有的对称性可以作为一种强大的归纳偏差，用于减少数据的可变性和简化识别系统。在本文中，我们提出了方位角归一化（AziNorm），以利用点云的径向对称性。我们将整个LiDAR场景分割成单个的块，然后沿径向对块的子点云进行归一化通过归一化处理，消除了方位角差异带来的数据变异性，使得对归一化点云的感知更加容易。AziNorm可以灵活地集成到大多数基于LiDAR的感知方法中，而无需修改任何实现细节，并显着提高性能。为了验证其有效性和推广能力，我们将AziNorm应用于目标检测和语义分割。对于检测，我们将AziNorm集成到两种代表性检测方法中，即一级SEC-OND [42]检测器和最先进的两级PV-RCNN [28]检测器。在大规模Waymo开放数据集上的实验[33]表明，AziNorm将SECOND和PV-RCNN提高了7。03mAPH和3. 01mAPH分别对于分割，我们将AziNorm集成到KPConv [36].在SemanticKitti [1]数据集上，AziNorm将KPConv改进了1。六比一val/测试集上的1更重要的是，AziNorm显著改善了数据提高效率，加快收敛速度。即使只使用10%的数据或10%的epoch进行训练，SECOND w/ AziNorm也明显优于完全训练的vanilla SECOND。Azi-Norm算法可以将训练时间或数据量的要求降低一个数量级，降低数据获取和标注的成本，特别是对于数据驱动的自动驾驶仪系统，具有很大的实用价值。本文的主要贡献可以概括如下：• 我们提出了一种新的归一化方法称为AziNorm，它利用点云固有的径向对称性，以减少数据的变化。• AziNorm可以很容易地集成到大多数基于LiDAR的感知方法中，并显着提高性能。我们基于三种方法（SECOND [42]，PV-RCNN [28]和在3D感知中，方位角是水平方向，表示为观察者的航向方向与观察位置的方向之间的角距离KPConv [36]）和两个数据集（Waymo Open Dataset[33]和SemanticKitti [1]）。• AziNorm可以将对数据量或训练时间的要求降低一个数量级，降低数据采集和标注的成本，特别是对于数据驱动的自动驾驶仪系统，具有很大的实用价值。2. 相关工作2.1. 点云近年来，点云上的表示学习取得了巨大的进步[5，10，13，14，18，21，26、27、32、37、39流行的PointNet系列[26，27]建议直接从原始点云中学习逐点特征，其中集合抽象操作通过设置不同的搜索半径来实现灵活的感受野。在[30，42]中采用3D稀疏卷积[8，9]来有效地从点云中学习稀疏网格特征。[22]结合了基于网格的CNN和基于点的共享参数多层感知器（MLP）网络，用于点云特征学习。由于点云数据的高度复杂性和不规则性，学习点云表示需要大量的数据和较长的训练时间。Azi-Norm规范化点云，统一对称点云.它使点云上的表示学习变得更加容易，提高了数据效率和收敛速度。2.2. 点云点云三维感知的目的是从无序、稀疏的点云数据中提取语义信息。现有的方法可以分为三类，即：根据点云数据的格式，将其分为基于点云、基于网格和基于范围的方法。基于网格的感知方法点云数据的不规则性给三维感知带来了巨大的挑战。基于网格的方法通常将点云投影到规则的鸟瞰图网格[3，44]或3D体素[4，51]，用于使用2D/3D CNN处理点云。先驱工作MV3D [3]将点云投影到2D鸟瞰图网格和以下工作[11，15，19，20，38，48]为多传感器融合制定更好的策略[16，43，44]引入了更有效的框架与鸟瞰图表示。其他一些作品[31，51]将点云划分为3D体素，由3D CNN处理。PV-RCNN[28]结合了3D体素CNN和基于PointNet的集合抽象，用于学习区分点云特征。[49，52]将LiDAR点投影到极坐标网格中，以适应LiDAR点的长尾分布。它们有助于消除方位变化，但它们的不均匀性6389--×我JJ我分割3D空间引入了尺度变化的问题。即在极坐标网格表示中，对象我们的AziNorm消除了方位角的变化，而不会导致尺度变化。基于点的感知方法基于点的感知方法直接对点云的原始格式进行操作。F-PointNet [25]首先提出基于2D图像边界框将Point- Net[26，27]应用于从裁剪的点云进行3D检测PointRCNN [29]直接从点云生成3D提案，并使用RCNN阶段重新细化提案。接下来的工作STD [46]提出了稀疏到密集的策略，以更好地细化建议。[24]提出了用于更好的对象特征分组的Hough投票策略。KPConv [36]引入了一种新的基于空间核的点卷积。3. 方法AziNorm作为一种点云归一化方法，基于固有的径向对称性消除方位角的变化我们采用分而治之的策略，规范化的点云沿径向方向。即首先，我们将整个LiDAR场景分割成块，并在块级进行归一化。然后，我们进行分块感知并合并分块预测（见图2）。详情如下。首先，我们将整个LiDAR场景分割成具有步幅d和半径r的重叠圆形块Pi。贴片的布局是可选的（在第2节中讨论）。4.5），并选择圆形贴片进行方法描述。每个面片对应于子点云，记为Pi={pi，j∈[1，Ni]}，其中Ni是基于距离的感知方法基于射程的弹道导弹点J第i个补丁。图块Pi的中心表示为距离方法对距离图像进行操作。LaserNet [23]预测每个点的多峰分布，以生成最终预测。RCD [2]学习用于尺度变化的动态膨胀和用于“边界模糊”问题的软范围门控。RangeDet [6]修复了2D和3D坐标之间的比例变化和不一致问题。RSN [34]从范围图像中预测前景点，并对选定的前景点应用稀疏卷积来检测对象。AziNorm具有很高的泛化能力。它可以与基于网格的方法、基于点的方法以及一些混合方法相结合。现有的三维感知方法都是将Li-DAR场景作为一个整体来处理。AziNorm引入了分而治之的策略，它将场景分割成单独的补丁。使用AziNorm，点云可以以灵活的方式处理。2.3. 正常化广义地说，规范化是为了减少数据的可变性。规范化数据对训练有很大好处[17]。批量归一化[12]是一种代表性的归一化技术，它简化了优化并使深度网络能够收敛。在3D域中，RoI池可以被认为是对象级的归一化。一些两阶段检测器[28投资回报共享只是统一了对象。它没有利用点云的特性，只应用于目标检测。不同的是，AziNorm专注于LiDAR点云固有的径向对称性，并利用它进行归一化。AziNorm是一种通用的归一化方法，不仅适用于目标检测，也适用于其他基于LiDAR的感知任务。此外，与其他归一化方法一样，c岛并且我们将贴片Pi的方位角表示为θi，其是贴片中心ci相对于LiDAR坐标系的正X轴的极角对于整个LiDAR场景，方位角从0°到360°变化。而对于一个面片，由于空间范围有限，所有点的方位角变化很小，差异可以忽略不计。因此，可以将补丁中的所有点作为一个整体进行归一化。在自动驾驶场景中，LiDAR场景具有大范围和高稀疏性（见图4）。例如，在Waymo [33]数据集中，在其150m150m的超大场景中，大约80%的区域是空的或只包含很少的地面点。现有的三维感知方法必须将完整的点云作为一个整体进行处理。使用Azi-Norm，我们可以在较低的面片级别以灵活的方式处理点云。利用LiDAR场景的稀疏性可以实现更高的效率。为了提高训练和推理的效率，我们采用了两种补丁选择策略：负过滤和正采样具体来说，在训练和推理中，我们直接过滤掉只有可忽略点的补丁，避免了在背景区域的时间消耗。此外，对于对象检测，在训练阶段，我们保留所有包含地面真实对象的前地面块，只对少数背景块进行采样，平衡正负样本之间的比例。面片归一化在面片分裂和选择之后，进行特定于面片的变换以在不同面片之间进行归一化。对于每个贴片，我们建立一个贴片坐标系，其正X轴沿径向方向（见图2）。在贴片i内，我们将点从Li-DAR坐标系变换到具有外部矩阵Rθi和Tci的贴片坐标系，AziNorm显著改善了优化。p<$i=Rθ·（p+ Tc）。（一）我6390Jθi我图2. 方位角归一化的插图。整个LiDAR场景被分割成重叠的圆形块。在每个面片内，我们将子点云的坐标从LiDAR坐标系转换到特定的面片坐标系（依次进行平移和旋转转换）。使用AziNorm，统一了所有面片的径向方向，消除了方位角的变化。基于归一化子点云的感知被显著简化。为了清楚起见，仅可视化三个典型的斑块。在（a）、（b）和（c）中，点云的坐标分别相对于LiDAR坐标系、着色为蓝色的临时坐标系和斑块坐标系。R θi 而T ci 是由θ i确定的旋转矩阵，以及为适应不同感知而进行的任何特殊修改由ci分别确定的平移矩阵p′i是方法. 所有超参数（包括体素大小，变换后的坐标p′i和pi与批量大小、学习率等）都保持不变，j j j面片坐标系和LiDAR坐标系的重建。在特定的补丁转换后，所有补丁的径向方向是统一的（见图。第2段（c）分段）。该方法基本消除了方位角的变化，简化了点云数据Patch-wise Perception下一步是将感知算法应用于规范化的补丁。面片与原始点云形成。因此，现成的配置。逆归一化对于物体检测，在完成对面片的检测之后，我们得到检测到的3D边界框，这些边界框在不同的面片坐标系中表示。然后，我们进行逆归一化，以转换补丁检测结果{B<$i}返回到原始LiD AR坐标，自然系统表示{Bi}，其被公式化为，Bi=R−1·B<$i−Tc。（二）对斑块的感知与对整个LiDAR场景的感知是相同的。大多数现成的基于LiDAR的投影方法，例如，对象检测和语义分割，基于点的[24，25，29，45，46]和网格，基于[30，42，44，47，51]的，适用于贴片感知。具体来说，我们把每个补丁作为独立的点云，并连接所有补丁的批量尺寸。然后采用一种选定的感知方法进行训练和推理。值得注意的是在语义分割方面，我们在对图像块应用分割方法后，得到每个图像块上每个点的预测标签。然后，我们将预测结果从补丁映射到原始点云。面片合并面片重叠，预测重复。我们合并块式预测以生成最终预测。对于对象检测，通过严格的非最大抑制（NMS），过滤掉重复的边界框预测。对于语义分割，一点是在-初始补丁YX径向方向LiDAR坐标系面片坐标系（一）面片分割翻译Trans.旋转变换（c）第（1）款（b）第（1）款规格化补丁整个LiDAR场景·········6391包括几个补丁。对于每个点，我们只是平均不同补丁的预测。4. 实验4.1. 基于AziNorm的目标检测AziNorm可以灵活地集成到大多数基于点云的对象检测方法中。为了验证其有效性和推广能力，我们将AziNorm集成到两个代表性的检测方法中。一种是具有紧凑和高效流水线的一级检测器SECOND [42]，另一种是两级PV-RCNN [28]，这是最先进的3D检测方法。为了公平比较，我们将所有超参数与OpenPCDet[35]提供的现成配置保持相同，并且不修改检测器的任何实现细节。对于面片分割，除非另有说明，否则面片的半径r为9。6m，并且两个相邻贴片之间的步幅d为6。4米实验是在8个RTX 3090 GPU上进行的。我们在Waymo Open Dataset [33]上进行实验，这是迄今为止最大的自动驾驶公共数据集。总共有798个训练序列，大约 160kLiDAR 帧，和 202 个验证序列，40kLiDAR帧。使用完整的训练集需要大量的计算资源和训练时间。在[28]之后，为了有效地进行实验，我们统一采样20%的帧（约32k帧）用于训练（数据效率实验除外）。我们报告平均精度（mAP）和平均精度加权标题（mAPH）的两个难度级别（1级和2级）。3D IoU阈值设置为0。7用于车辆检测和0. 5用于行人/骑自行车者检测。SECOND w/AziNorm 如表 1 所示。 1 ，与 vanillaSECOND相比，SECOND w/AziNorm在所有难度水平上对所有三个类别的检测都实现了AziNorm提高了IoU阈值为0时的召回率。3，0。5和0。七比一。三十七岁二、57和3。07（表）2）。值得注意的是，perfor-行人和骑自行车者的舒适度得到进一步改善。我们可以观察到9的增益。23和8。41个第2级难度的APH，分别供行人和骑自行车的人使用行人和骑自行车的人在现实世界中占用的空间较少，并且其表面上的LiDAR点较少。在3D检测中，这两个班级更具挑战性。AziNorm统一了对称点云模式，大大降低了LiDAR点很少的困难情况下的学习难度。因此，行人和骑自行车者的检测更受益于Azi-Norm。PV-RCNN w/ AziNorm如所示选项卡。1，当集成到最先进的检测器PV-RCNN中时，AziNorm的改进空间较小，仍然带来了显著的优势。cant gain.PV-RCNN w/AziNorm在所有指标上都优于vanilla对于所有类的Level 2难度的mAPH，AziNorm将PV-RCNN提高了3。01迈。AziNorm提高了IoU阈值为0时的召回率。3，0。5和0。七乘四。04，4。41和4。69人，表（Tab.）2）。4.2. 基于AziNorm的语义分割为了进一步验证有效性和泛化能力，我们将AziNorm集成到一种广泛使用的名为KP-Conv的语义分割方法中[36]。我们遵循发布的官方代码，仅在AziNorm上进行消融。为了公平比较，所有超参数都保持我们在Se-manticKitti [ 1 ]上进行实验，Se-manticKitti[1]是基于KITTI Vision Benchmark [7]的大规模数据集，具有完整360°FOV的密集逐点注释。正如官方指南[1]所建议的那样，我们使用所有类的平均交集（mIoU）作为评估指标。KPConv w/ AziNorm 选项卡。 3 和 Tab 。 4 是SemanticKitti的结果。基于AziNorm的KPConv显著优于普通 KPConv 1 。 6% 和 1 。 val 和测试集分别为1%mIoU。实验证明，Azi-Norm算法在目标检测和语义分割两个任务中都有效AziNorm具有高度兼容性，也可以应用于其他基于LiDAR的感知任务。4.3. 数据效率融合除了提高感知性能外，AziNorm还可以显著提高数据效率并加速收敛。在图1中，在不同的数据量和训练时期下，我们比较了 Waymo 上的 SECOND 检测器w/AziNorm和w/o AziNorm的性能（所有类别的Level 2难度其他超参数保持不变。随着数据量和训练周期的减少， SECOND 的性能急剧下降，但 SECONDw/AziNorm仍然实现了可比较的性能。仅用3个epoch训练的 SECOND w/ AziNorm 优于用30 个 epoch 训练的vanilla SECOND。仅使用10%数据训练的SECOND w/AziNorm优于使用100%数据训练的vanilla SECOND。AziNorm显著提高了数据效率并加速了收敛，将数据量和训练时间的要求降低了一个数量级从机器学习的角度来看，感知方法旨在近似从点云模式映射到标签的函数（例如，用于检测的3D边界框和用于分割的逐点分类标签）。AziNorm将径向对称性视为系统的重要诱导偏差。它统一了对称模式，减少了输入数据的变化。由于输入的可变性较小，映射函数非常简单，6392难度方法所有车辆行人骑自行车表1. Waymo [33] val set上对象检测的性能比较。所有实验均基于官方代码库OpenPCDet [35]使用相同配置进行。基于AziNorm的检测器在所有难度级别的所有指标中均显著优于其基线。方法建议@0.3建议@0.5建议@0.7第二[42]80.1370.3744.60第二次使用AziNorm81.5072.9447.67改进+1.37+2.57+3.07[28]第二十八话84.8678.1253.92PV-RCNN，带AziNorm88.9082.5358.61改进+4.04+4.41+4.69表2. 回想一下Waymo [33]的比较，在IoU阈值为0.3，0.5和0.7的情况下设置值。基于AziNorm的检测器在所有IoU阈值下都实现了比基线更高的召回率。更容易接近。因此，无论是数据效率和收敛速度显着改善。4.4. 限制AziNorm的开销AziNorm带来了一些计算开销，因为补丁之间的重叠。但这实际上是一个速度-精度权衡的问题。我们可以灵活地调整重叠的程度，以平衡性能和推理速度。对于离线应用程序，例如构建高清晰度地图或为基于相机的系统生成3D标签（3D数据自动标注）时，感知性能具有最高优先级，并且延迟不受限制。我们可以使补丁高度重叠，以达到AziNorm的性能上限。对于实时应用，例如在自动驾驶仪系统的实时感知中，减少面片重叠以提高推理速度是可行的AziNorm仍然可以带来收益，有点重叠。在选项卡中。5，我们提供了在几乎没有重叠的设置下（r=11. 2m， d=18。 8米，训练 5个时期）。SECOND w/ AziNorm实现了更好的性能和相当的推理速度。4.5. 消融研究在本节中，我们在Waymo开放数据集[33]上消除了Azi-Norm的详细元素，以验证AziNorm的设计。第二[42]检测器被选择用于实验，因为其紧凑且高效的流水线。贴片拆分、平移和Trans. 和选项卡中的旋转变换。6、我们提供了关于斑块分裂、平移变换和旋转变换的消融研究，以显示AziNorm的工作原理。实验训练了5个epoch。分片机制可以看作是一种采样策略或数据扩充，平移变换缩小了点坐标的数值范围，有利于收敛。因此，片分裂和平移变换都带来增益。但它们的增益是有限的，AziNorm的改进旋转变换是AziNorm的关键步骤，它将曲面片沿径向归一化。它带来了预期的最大收益，验证了这项工作的动机，即。利用点云的径向对称性。半径r和步幅d关于半径r和步幅d的消融研究报告见表1。7和Tab。8（训练5个时期）。AziNorm的性能在很宽的范围内对半径r和步幅d当应用于不同的数据集时，不需要特别调整r和d。补片布局有关补片布局的消融研究报告见表1。9（训练5个时期）。为了公平-地图mAPHAPAPHAPAPHAPAPH第二[42]60.5756.4968.1567.5658.2047.9455.3553.98第二次使用AziNorm67.3263.4070.7370.2467.3957.2363.8462.741级改进+6.75+6.91+2.58+2.68+9.19+9.29+8.49+8.76[28]第二十八话69.7465.2374.2773.5870.3959.1064.5763.00PV-RCNN，带AziNorm 72.6468.3275.1774.6475.0563.9267.6966.41改进+2.90+3.09+0.90+1.06+4.66+4.82+3.12+3.41第二[42]54.4850.9059.6159.0950.2241.3253.6252.28第二次使用AziNorm61.5157.9363.0362.5659.7350.5561.7660.692级改进+7.03+7.03+3.42+3.47九点五十一分+9.23+8.14+8.41[28]第二十八话63.1059.0465.3064.6861.3351.3162.6761.14PV-RCNN，带AziNorm 65.9562.0566.2765.8065.9355.9765.6564.396393方法mIoU car bcycle。mcycle。货车人bclist。麦克利斯特。路边停车场。好极了bui。篱笆蔬菜干线地形极线KPConv61.395.5 39.162.661.050.772.191.50.00 91.130.280.31.189.8 70.188.568.774.065.7三十二点九KPConv w/ AziNorm62.995.942.667.055.173.090.30.00 91.433.380.52.790.1 70.7 88.970.774.6 66.7 36.1提升+1.6 +0.4 +3.5+3.7+6.0+4.4+0.9-1.2+0.0+0.3+3.1+0.2 +1.6+0.3 +0.6 +0.4+2.0 +0.6+1.0+3.2表3.SemanticKitti [1] val集上语义分割的性能比较。所有实验均采用基于官方代码KPConv [36]的相同配置进行基于AziNorm的KPConv显著优于普通KPConv。方法mIoU car bcycle。mcycle。货车人bclist。麦克利斯特。路边停车场。好极了bui。篱笆蔬菜干线地形极线KPConv 52.9 87.8 43.246.532.640.156.459.910.1 80.049.267.9 25.5 78.3五十九点四71.8 54.758.948.7三十四点四KPConv w/ AziNorm54.088.541.237.042.557.959.711.0 80.852.868.5 27.8 79.4五十九点五72.7 55.759.648.735.6提升+1.1 +0.7-2.0+0.3+0.8+2.4+1.5-0.2+0.9+0.8+3.6+0.6 +2.3+1.1 +0.1 +0.9+1.0 +0.7+0.0+1.1表4. SemanticKitti [1]测试集上语义分割的性能比较。所有实验均采用基于官方代码KPConv [36]的相同配置基于AziNorm的KPConv显著优于普通KPConv。方法L1 mAPL1 mAPHL2 mAPL mAPHFPS贴片布局区域L1 mAPL1 mAPHL2 mAPL2 mAPH二51.9945.16 46.3540.3127圆形290m2（r=9.6m）64.7459.9958.4154.22第二次使用AziNorm56.5551.10 50.6545.8924平方310m2（a=17.6m）65.4160.4559.0454.66表5. 推理速度比较。在RTX 3090上测试。批量大小为1。SECOND w/ AziNorm实现了更好的性能和相当的推理速度。表9. 关于补片布局的消融研究。步数d是6。4米”AziNorm对贴片布局的选择具有鲁棒性。方法L1 mAPL1 mAPHL2 mAPL2 mAPH二51.9945.1646.3540.31+ 面片分割53.0746.8747.5242.04+ 翻译Trans.54.1847.8347.6743.10+ 旋转变换64.7459.9958.4154.22表6. 消融过程中斑块分裂、平移变换和旋转变换的研究。改善4-扇区归一化8-扇区归一化AziNorm的主要功能是通过旋转变换，将点云沿径向进行归一化。方法rL1 mAPL1 mAPHL2 mAPL2 mAPH二-51.9945.1646.3540.31第二次使用AziNorm8.0m63.4458.4357.1752.77第二次使用AziNorm9.6m64.7459.9958.4154.22第二次使用AziNorm11.2m65.5460.3459.1354.54表7.半径r的消融研究。步幅d设置为6。4米AziNorm的性能在很宽的范围内对半径r具有鲁棒性方法dL1 mAPL1 mAPHL2 mAP L2 mAPH二-51.9945.1646.3540.31第二次使用AziNorm8.0m63.5658.7157.5353.15第二次使用AziNorm7.2m64.7459.6458.4453.95第二次使用AziNorm6.4m64.7459.9958.4154.22第二次使用AziNorm5.6m65.4160.1659.0654.44表8. 关于半径d的消融研究。半径r设定为9。6米。AziNorm的性能在很宽的范围内对步幅d具有鲁棒性我们把这两种贴片模拟的面积图3. 4-和8-扇区标准化。LiDAR场景被分割为扇形区域以进行归一化。ilar。圆形贴片和方形贴片具有相似的性能。因此，AziNorm对贴片布局的选择是稳健的。我们采用圆形补丁的方法描述。除了AziNorm，我们还设计扇形归一化（见图3）。LiDAR场景被分割为扇形区域以进行归一化。相邻扇形区略有重叠。选项卡. 图10示出了扇区归一化和Azi-Norm之间的比较（基于SECOND并且训练了30个时期）。SECOND w/4-扇区归一化优于vanilla第二个w/o标准化为1。47mAPH的2级难度的所有类。而SECOND w/8-Sectorial Normalization实现了1的更高改善。时速91英里AziNorm实现了最高的7. 03迈。与基线（w/o标准）相比，扇区归一化的变化很小，没有采样策略，没有translation转换和微不足道的计算开销。它只是将场景分割成扇形区域并旋转它们。6394难度方法所有车辆行人骑自行车表10. 基于SECOND [42]的扇区归一化和AziNorm在Waymo [33] val集上的实验。扇形归一化和基线之间的比较验证了径向对称的潜力。与AziNorm和4-/8-扇形归一化证明了更细的归一化粒度带来更显著的增益。图4. 基于SEC-OND [42]和PV-RCNN [28]的AziNorm的定性比较。蓝色和绿色框分别是地面实况注释和预测结果。当与AziNorm集成时，SECOND和PV-RCNN都实现了更准确的边界框预测，特别是对于边界框的方向。关键区域被放大以获得更好的视图。通过这种简单的改变，我们可以获得可观的收益。证明了利用径向对称性的思想是有效的和有潜力的。此外，实验证明，更细的归一化粒度带来更显着的增益。4- 和8-部门归一化将方位变化分别减小到90°和45°的范围。它们有助于简化点云，但归一化粒度有限。Azi-Norm对应于更精细的归一化粒度，即，补丁。由于块的空间范围有限，块内的方位变化可以忽略不计。并通过斑块变换将斑块间的变异性完全归一化.因此，AziNorm几乎消除了整个场景的方位角变化。它充分利用了径向对称性，实现了最显著的改进。4.6. 定性比较在图4中，我们提供了定性比较，以进一步证明AziNorm的有效性。当与AziNorm集成时，SECOND和PV-RCNN都实现了更准确的边界框预测，特别是边界框的方向，这对于预测自动驾驶中驾驶员的意图非常重要5. 结论提出了AziNorm方法，利用点云固有的径向对称性，沿径向对点云进行归一化处理，消除了因方位角不同而带来的变化。AziNorm具有很大的实用价值，特别是对于自动驾驶仪和机器人技术。AziNorm 1）显著提高感知性能，2）提高数据效率并降低数据采集和标记的成本，3）加速收敛并节省训练时间。此外，AziNorm具有高度可扩展性。它可以很容易地与许多感知任务（检测，分割等）相结合，和传感器（激光雷达、雷达、全景摄像头等）具有相同的径向对称性。鸣谢本工作部分得到了国家自然科学基金的支持（编号：61733007号61876212）和浙江实验室（授权号2019NB0AB02）。PV-RCNN，带AziNorm第二次使用AziNormPV-RCNN地图mAPHAPAPHAPAPHAPAPH不含标准品。60.5756.4968.1567.5658.2047.9455.3553.98级别14-部门标准。61.5857.9169.2668.7058.9149.5756.5855.458.行业标准。62.2158.3668.7868.2160.3250.7157.5356.15AziNorm67.3263.4070.7370.2467.3957.2363.8462.74不含标准品。54.4850.9059.6159.0950.2241.3253.6252.282级4-部门标准。55.6652.3760.6660.1651.5043.2454.8253.728.行业标准。56.2652.8160.1859.6852.8444.3255.7754.43AziNorm61.5157.9363.0362.5659.7350.5561.7660.69二6395引用[1] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuen-zel，S v enBehn k e，CyrillStachniss，andJürgenGall.Se-mantickitti：用于激光雷达序列语义场景理解的数据集。在ICCV，2019年。二、五、七[2] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检测的范围调节扩张卷积。arXiv：2005.09927，2020。3[3] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。2[4] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点r-cnn.在ICCV，2019年。2[5] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积神经网络：Minkowski 卷积神经网络。在CVPR，2019年。2[6] 范略，熊轩，王峰，王乃艳，张兆祥。Rangedet：为基于激光雷达的3D物体检测的范围视图辩护。ICCV，2021。3[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.IJRR，2013年。5[8] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR，2018年。2[9] 本杰明·格雷厄姆和劳伦斯·范德马滕。亚人工稀疏卷积网络。arXiv：1706.01307，2017。2[10] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的递归切片网络。在CVPR，2018年。2[11] 黄腾腾、刘哲、陈西武和向白。Ep- net：用图像语义增强点特征用于三维物体检测。在ECCV，2020年。2[12] Sergey Ioffe和Christian Szegedy。批量归一化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。3[13] Maximilian Jaritz，顾嘉源，苏浩。用于三维场景理解的多视点网络。在ICCVW，2019。2[14] 李江，赵恒双，刘舒，沈晓勇，傅志荣，贾佳雅.分层点边交互网络用于点云语义分割。在ICCV，2019年。2[15] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven Waslander。从视图聚合的联合3d建议生成和IROS，2018年。2[16] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom. Pointpillars：用于从点云检测对象的快速编码器。CVPR，2019年。2[17] YannLeCun，Le'onBottou，Gen e vi ev eB. 或r，和克劳斯-罗伯特·穆勒r。有效的反向传播。在神经网络中：贸易的技巧-第二版。2012. 3[18] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi ， and Baoquan Chen.Pointcnn ： x 变换点上的卷积NeurIPS，2018。2[19] 梁明 *，杨斌 *，陈云，胡锐，拉奎尔·乌塔孙。三维目标检测的多任务多传感器融合在CVPR，2019年。2[20] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在ECCV，2018。2[21] 刘泽、韩虎、曹越、郑章、辛桐。点云分析中的局部聚

下载后可阅读完整内容，剩余1页未读，立即下载