利用可见性提高3D对象检测的准确性

114 浏览量更新于2023-10-25 收藏 2.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

111001所见即所得：利用可见性进行3D对象检测胡佩云1，Jason Ziglar2，David Held1，DevaRamanan1，21卡内基梅隆大学2Argo AIpeiyunh@cs.cmu.edu，jziglar@argo.ai，dheld@andrew.cmu.edu，deva@cs.cmu.edu(a)（b）第（1）款图1：什么是3D传感器数据的良好表示我们可视化鸟瞰激光雷达场景，并突出显示两个许多当代深度网络处理3D点云，使得很难区分这两个区域（左）。但是深度传感器提供的不仅仅是3D点-它们提供传感器和测量的3D点之间的自由空间的估计。我们通过光线投射（右）来可视化自由空间，其中绿色是自由的，白色是未知的。在本文中，我们介绍了深度3D网络，它利用自由空间来显着提高3D对象检测的准确性。摘要3D传感的最新进展为计算机视觉带来了独特的挑战。一个基本的挑战是为3D传感器数据找到良好的表示。大多数流行的表示（如PointNet）都是在处理真正的3D数据（例如，从网格模型采样的点），忽略诸如LiDAR扫描的3D传感器数据实际上是2.5D的事实我们认为，将2.5D数据表示为（x，y，z）点的集合根本上破坏了关于自由空间的隐藏信息。在本文中，我们证明了这样的知识可以通过3D光线投射有效地恢复，并很容易地结合到基于批处理的梯度学习。我们描述了一种简单的方法来增强基于体素的网络的可见性：我们添加体素化可见性图作为附加输入流。此外，我们还展示了可见性可以与最先进的3D探测器常见的两个关键修改相结合：虚拟物体的合成数据扩充和LiDAR的时间聚合扫描多个时间段。在NuScenes 3D检测基准上，我们表明，通过添加额外的可见性输入流，我们可以显着提高最先进的3D检测器的整体检测精度1. 介绍什么是处理3D传感器数据的良好表示？虽然这是机器视觉中的一个基本挑战，可以追溯到立体处理，但最近已经在3D传感器（如LiDAR）的深度神经处理的背景下进行了探索。已经提出了各种表示，包括图形网格[2]，点云[19]，体素网格[31]和范围图像[17]，仅举几例。可见性：我们通过指出3D传感数据实际上不是完全3D来重新讨论这个问题！从立体对捕获的瞬时深度测量，结构化111002光传感器或LiDAR可避免地遭受遮挡：一旦在特定深度处测量了特定场景元素，可见性就确保了沿着其视线在其后面的所有其它场景元素被遮挡。实际上，这种信息丢失是3D传感器读数通常可以用2D数据结构表示的根本原因之一2D范围图像。从这个角度来看，这种3D传感数据可能更好地表征为3D表示：我们认为，用于处理LiDAR数据的表示应该包括可见性，特别是对于需要瞬时理解自由空间的应用程序（如自主导航）。然而，最流行的表示是基于3D点云（如PointNet [19，13]）。因为这些都是在真正的3D处理的背景下提出的（例如，的三维网格模型），他们不利用传感器数据中隐含的可见性约束（图。1）。实际上，将LiDAR扫描表示为（x，y，z）点的集合基本上破坏了这样的可见性信息，如果被归一化（例如，当使点云居中时）。占领者：我们绝不是第一个指出可见性的重要性的人。在LiDAR处理的背景下，针对地图构建和占用推理的任务对可见性进行了充分研究[24，8]。然而，它并没有很好地探索对象检测，有一个值得注意的例外：[30]构建概率占用网格并执行模板匹配以直接估计对象出现在每个离散化位置的概率。然而，这种方法需要事先知道对象实例的表面形状，因此它是不可缩放的。在这篇文章中，我们展示了可以简单地增强深层架构以利用可见性和自由空间提示。范围图像：考虑到我们上面的论点，一种解决方案可能是在2D范围图像输入上定义一个深度网络，它隐式地编码这种可见性信息。实际上，这种表示对于结构光“RGBD”处理是流行的然而，与基于3D体素或自上而下的鸟瞰图（BEV）投影网格相比，这样的表示似乎不产生用于3D对象理解的最我们认为，沿着深度维度操作的卷积层可以推理深度的不确定性。为了保持这一特性，我们引入了简单但新颖的方法，直接增强了最先进的3D体素表示与视觉提示。我们的方法：我们提出了一种深度学习方法，可以有效地增强点云的可见性。我们的具体承诺有三个方面：（1）我们首先（重新）介绍光线投射算法，其有效地计算体素网格的动态可见性。我们证明，这些可以纳入基于批处理的梯度学习。（2）接下来，我们描述一种简单的方法来增强具有可见性的基于体素的网络：我们添加了一个体素化的可见性图作为额外的输入流，探索早期和晚期融合的替代方案;（3）最后，我们证明了可见性可以与最先进的网络中常见的两个关键修改相结合：虚拟对象的合成数据增强，以及多个时间帧上LiDAR扫描的时间聚合。我们表明，可见性线索可以用来更好地放置虚拟对象。我们还表明，在多个时间框架的可见性推理类似于在线占用映射。2. 相关工作2.1. 3D表示点表示：关于点表示的大多数经典作品都采用手工制作的描述符，并需要对局部表面法线进行稳健的估计，例如自旋图像[9]和视点特征直方图（VFH）[21]。自PointNet [19]以来，一直有一系列工作专注于学习更好的点表示，包括PointNet++[20]，Kd-networks[11] ， PointCNN [14] ， Edge- Conv [26] 和 PointConv[27]。最近的作品逐点表示往往不区分重建和测量点云。我们认为，当输入是一个测量点云，例如。在激光雷达扫描中，我们需要超越点，并对隐藏在点中的可见性进行推理。可见性表示：大部分关于可见性表示的研究都是在机器人地图的背景下进行的。例如，Buhmann et al.[3]根据声纳读数估计2D探测器占用图，移动机器人和最近的Hornung等人。[8]已将Octomap用于通用3D占用映射。通过光线投射的可见性是开发这种占用地图的核心。尽管受欢迎，但这种可见性推理尚未在对象检测的背景下被广泛研究，除了[30]的一个值得注意的例外，该例外开发了一种基于occu-mapping的概率框架，以检测具有已知表面模型的对象。2.2. 基于LiDAR的三维目标检测初次代表：我们已经看到基于激光雷达的物体探测器建立在范围图像，鸟瞰图特征地图，原始点云和体素化点云上。基于距离图像的检测器的一个示例是LaserNet [17]，其将每个LiDAR扫描视为圆柱形距离图像。鸟瞰视图检测器的示例包括AVOD [12]、HDNet[29]和Complex-YOLO [23]。建立在原始点云上的一个例子是PointR-CNN [22]。体素化点云的示例包括初始VoxelNet[31]、SECOND [28]和PointPillars [13]。除了[30]，我们还没有看到一个探测器使用可见性作为初始表示。111003在2D平面上预定义的假设锚点放置3DLiDAR点扫描X=（ x，面向3D框的多通道特征图每锚点f（ X）（ S， C）D图2：通用3D检测框架概述，旨在将3D检测作为鸟瞰图（BEV）2D检测问题来解决。该框架由两部分组成：锚（左）和网络（右）。我们首先定义一组3D锚框，这些锚框与不同对象类的平均框形状相匹配。然后，我们假设将每个锚点放置在地平面上的不同空间位置。我们学习卷积网络来预测每个锚点位置的置信度和调整。这种预测是基于从输入3D点云提取的2D多通道特征图进行的。每个锚点的预测由置信度得分S和用于调整锚点框的一组系数C组成。最终，该框架产生一组具有定向3D框的3D检测。对象增强：Yan等人[28]提出了一种新的数据增强形式，我们称之为对象增强。它将对象点云从一个场景复制粘贴到另一个场景，从而生成新的训练数据。这种增强技术提高了收敛速度和最终性能，并在所有最新的最先进的3D检测器中采用，例如PointRCNN [22]和PointPillars [13]。对于在相同传感器设置下捕获的对象，简单的复制-粘贴保留传感器和对象之间的相对姿态，从而产生近似正确的但是，这种做法通常会插入对象，而不管它是否违反场景可见性。在本文中，我们提出了使用可见性推理，以保持正确的可见性，同时增强跨场景的对象。时间聚合：在学习一系列LiDAR扫描的3D对象检测器时，事实证明，跨时间聚合信息很有帮助。Luo等人[15]开发了一种用于在LiDAR扫描上检测、跟踪和预测对象的循环架构。 Choy 等人 [5] 提出通过 4DConvNets学习时空推理。时间聚合的另一种技术，首先在SECOND [28]中发现，是简单地聚合来自不同扫描的点云，同时保留其相对于当前的时间戳。这些时间戳与（x，y，z）一起被视为附加的逐点输入特征，并被馈送到逐点编码器（例如PointNet）中。我们探讨了可见性表示的时间聚合，并指出可以借鉴经典机器人映射的思想，将可见性表示与学习相结合。3. 利用可见性进行3D对象检测在我们讨论如何将可见性推理集成到3D检测之前，我们首先介绍了一个通用的3D检测框架。许多3D探测器都采用了这个框架，包括AVOD [12]，HDNet [29]，Complex-[23 ]，[24]，[25]，[26]，[ 28]，[29]，在最近的创新中，有两个关键的创新：（1）通过将罕见的（虚拟）对象插入到训练数据中来增强对象，以及（2）在多个时间帧上对LiDAR扫描进行时间我们将可见性集成到上述3D检测框架中。首先，我们（重新）介绍了一个光线投射算法，有效地计算可见性。然后，我们介绍了一个简单的方法来集成可视性的ex-task框架。最后，我们讨论了可见性推理的背景下，对象增强和时间聚集。对于对象增强，我们修改了光线投射算法，以确保可见性保持有效，而插入虚拟对象。对于时间聚合，我们指出，多帧的可见性推理类似于在线占用映射。3.1. 一种通用的三维检测概述：我们在图中说明了一般的3D检测框架。二、请参阅标题。我们强调的事实是，一旦输入的3D点云被转换为多通道BEV 2D表示，我们就可以使用标准的2D卷积架构。我们后来表明，可见性可以自然地纳入到这个3D detec- tion框架。对象增强：数据扩充是当代训练方案的关键组成部分。大多数增强策略通过随机扰动坐标转换（例如平移、旋转、翻转）[12，18]。我们专注于严等人提出的对象增强。[28]，其将罕见类别的（虚拟）对象（例如公共汽车）复制-粘贴到LiDAR场景中。我们的AB-实验研究（表1中的g→i）3）表明它在增强类上显著提高了vanilla PointPillars平均+9.1%时间聚合：在基于LiDAR的3D检测中，111004研究人员已经探索了用于时间推理的各种策略。我们采用一种简单的方法，将来自不同LiDAR扫描的（运动补偿）点聚合到单个场景中[28，4]。重要的是，点增加了一个额外的通道，该通道编码相对timestamp（x，y，z，t）.我们的消融研究（表中的g→j）3）表明时间聚合显著改善了vanilla PointPillars模型的整体mAP为+8.6%。3.2. 通过光线投射计算可见性算法1：使用增强对象进行光线投射输入：模式m，传感器原点s，原始点P，增强点Q输出：占用网格OInitial：O[：] ←UNKNOWN;/*光线投射P，其中Q作为光线阻挡器*/计算B，使得在Q中有Q，B[vq] ←阻塞;对于p，在P中，v←vs;/*vs：传感器体素*/whilev/=vpdov←next voxel（v，p-s）;如果B[v]=阻塞，则break;/*stop the ray*/如果v=vp，则O[v]←OCCUPIED;LiDAR中的物理光线投射：每个LiDAR点都是其他O[v] ←FREE;通过物理光线投射过程生成。为了生成点，传感器在特定方向上发射激光脉冲。脉冲在空气中向前和向后传播，击中障碍物后。在其返回时，可以计算从方向和飞行时间导出然而，坐标绝不是这种主动感测提供的唯一至关重要的是，它还提供了沿脉冲射线的自由空间的估计。模拟LiDAR光线投射：通过利用自由空间和点返回之间的因果关系-点位于自由空间结束的射线上，我们可以重新创建在LiDAR捕获时遇到的瞬时可见性。我们这样做是通过绘制一条线段从传感器的原点到一个三维点。我们希望使用此线段来定义离散体积上的自由空间，例如。三维体素网格。具体来说，我们计算所有的体素，相交这条线段。除了包围3D点的最后一个体素被标记为占用之外，沿着射线遇到的那些体素被标记为空闲。这将产生一个可见体积，其中所有体素均标记为已占用、空闲或未知（默认）。我们将把可见性体积集成到一般的检测框架中（图1）。2）以多通道2D特征图的形式（例如，RGB图像是具有3个通道的示例），其中沿着垂直维度（z轴）的可见性被视为不同的通道。高效体素遍历：可见性计算必须非常高效。许多检测网络利用LiDAR点云中的稀疏性：PointPillars[13]仅处理非空柱（约3%），SECOND [28]采用空间稀疏的3D ConvNets。受这些方法的启发，我们通过一种有效的体素遍历算法[1]来利用稀疏性。对于任何给定的射线，我们只需要沿着射线遍历一组稀疏的体素。直观地，在遍历期间，算法枚举当前体素的六个轴对齐的面，以确定哪个面被退出射线包围（这是非常有效的）。然后，它简单地前进到具有共享面的相邻体素。该算法从原点的体素开始，并在遇到3D点占用的（预先计算的）体素时终止。该算法在网格维度上是线性的，这使得它非常有效。给定一个瞬时点云，其中点是在/*以P作为光线阻挡器的光线投射Q*/计算B，使得在Q中有Q，B[vq] ←阻塞;对于Q中的q，v←vs;/*vs：传感器体素*/whilev/=vqdov←下一个体素（v，q−s）;如果B[v]=阻塞，则如果m=CULLING，则break;/*stop the ray*/如果m=DRILLING，则O[v] ←自由;/*让光线通过*//*在朴素模式下不执行如果v=vq，则O[v]←OCCUPIED;其他O[v] ←FREE;相同的时间戳，我们执行从原点到每个点的光线投射，然后聚合体素的可见性。为了减少聚合过程中的离散化效应，我们遵循Octomap（第二节）中概述的最佳实践。5.1在[8]中）。增强对象的光线投射：先前的工作在忽略可见性约束的同时增强虚拟对象，产生具有不一致可见性的LiDAR扫描（例如，通过在墙后插入一个物体，- 图3-（b））。我们可以使用光线投射作为工具来“校正”LiDAR扫描。具体来说，我们可能希望移除被遮挡的虚拟对象（我们称之为剔除的策略- 图3-（c））。因为这可能会过度减少增强对象的数量，另一种选择是从原始场景中删除遮挡插入对象的点（我们称之为钻取的策略-图1）。3-（d））。幸运的是，正如我们在Alg。1，这两种策略都是有效的实现与简单的修改香草体素遍历算法。我们只需要改变光线投射的终止条件，从到达光线的终点到击中被阻挡的体素。 For culling, when casting rays from theoriginal scene, we set voxels oc- cupied by virtual objects asBLOCKED; when casting rays from the virtual objects, we setvoxels occupied in original scenes as BLOCKED.因此，应被遮挡的点将被删除。对于钻孔，我们允许来自虚拟对象的光线穿过原始场景中占据的体素。在线占用地图：我们如何将即时可见性扩展到时间背景中？假设知道每个时间戳的传感器原点，我们可以计算瞬时111005(a) 原始（b）天真(c)剔除钻井图3：我们可以通过可见性推理进行的不同类型的对象增强在（a）中，我们显示原始LiDAR点云。在（b）中，我们天真地将新对象（红色）插入场景中。显然，朴素策略可能导致不一致的可见性。在这里，一个拖车被插入后面的墙，应该遮挡它。我们使用光线投射作为工具来“纠正”激光雷达扫描。在（c）中，我们说明了剔除策略，其中我们删除了被遮挡的虚拟对象（紫色）。在实践中，这可能过度地移除增强对象。在（d）中，我们可视化钻孔策略，其中我们从原始场景中移除遮挡虚拟对象的点。在这里，一小块墙被删除（黄色）。(a)瞬时可见度（b）瞬时占有率图4：我们将瞬时可见性与临时占用我们选择中间的一个xy切片进行可视化。每个像素代表切片上的一个体素。在左侧，我们可视化了单个LiDAR扫描和瞬时可见度，其由三个离散值组成：已占用（红色）、未知（灰色）和空闲（蓝色）。在右侧，我们可视化了通过贝叶斯过滤计算的聚合LiDAR扫描加上时间占用率[8]。这里，颜色编码对应体素被占用的概率：越红意味着越忙。在每次扫描上的瞬时可见性，导致4D时空可见性。如果我们直接将4D体积集成到检测框架中，则成本太高。我们寻求在线占用映射[25，8]并应用贝叶斯过滤将4D时空可见性转化为3D占用后验概率。在图4中，我们绘制了瞬时可见性和时间占用之间的视觉比较。我们遵循Octomap [8]的公式，并使用他们现成的超参数，例如。观察自由空间和占用空间的对数几率。3.3. 方法：双流网络现在我们已经讨论了计算可见性的光线投射方法，我们介绍了一种新的双流网络用于3D对象检测。我们将可视性纳入最先进的3D探测器，即PointPillars，作为附加流。双流方法利用点云和可见性表示，并将它们融合到多通道表示中。我们探索了早期和晚期融合策略，如图所示。五、这是一111006支柱功能concat骨干支柱功能骨干骨干LiDAR点扫描X=（ x，y， z， t）可见性体积(a) 早期融合多通道特征图f（ X）LiDAR点扫描X=（ x， y，z， t）可见性体积(b) 后期融合多通道特征图f（ X）图5：我们在将可见性集成到PointPillars模型中时探索了早期融合和晚期融合。在早期融合（a）中，我们在应用骨干网络进行进一步编码之前将可见性体积与支柱特征连接起来。对于后期融合，我们为每个流构建一个单独的骨干网络，并将每个流的输出连接到最终的多通道特征图中。我们在消融研究中比较了这两种替代方法（表1）。（3）第三章。图中所示的整体架构的一部分。二、实施情况：我们通过向PointPillars添加额外的输入流来实现我们的双流方法。我们采用PointPillars因此，我们的可见性体积具有与支柱特征图相同的2D空间大小。一个简单的策略是将它们连接起来并送入骨干网络。我们将这种策略称为早期融合（图1）。5-（a））。另一种策略是将每个节点送入一个单独的骨干网络，我们称之为后期融合（图1）。5-（b））。我们在附录B中讨论更多的培训细节。我们的代码可在网上1.4. 实验我们提出了两个定性（图。6）和NuScenes 3D检测基准上的定量结果。我们首先介绍了设置和基线，然后我们在测试基准上呈现主要结果。之后，我们进行诊断评估和消融研究，以确定改善的来源。最后，我们讨论了通过光线投射在飞行中计算可见性的效率。设置：我们在NuScenes 3D检测数据集上对我们的方法进行基准测试。该数据集包含在两个城市拍摄的1,000个场景。我们遵循NuScenes检测基准的官方协议。训练集包含700个场景（28，130个注释帧）。验证集包含150个场景（6，019个注释帧）。每个注释帧都带有一个由32束激光雷达捕获的激光雷达点云我们遵循3D检测的官方评估协议[4]，并评估不同类别和距离阈值的平均基线：PointPillars [13]在NuScenes检测排行榜上实现了所有已发布源代码的已发布方法中的最佳准确性。官方PointPillars代码库2仅包含一个实现，[7]第七话。为了在NuScenes上重现PointPillars该模型在验证集上实现了 31.5% 的总体 mAP ，比官方PointPillars mAP（29.5%）高出2%[4]（表1）。2）。正如[4]所建议的，PointPillars的正式实现采用了预训练（ImageNet/KITTI）。在我们的重新实现中没有主要结果：我们将双流方法的结果提交给NuScenes测试服务器。在选项卡中。1，我们将我们的测试集性能与官方排行榜上的PointPillars进行比较[4]。通过增强可见性，我们提出的方法实现了显着改善PointPillars在整体mAP的利润率为4.5%。具体来说，我们的方法在汽车上的表现优于PointPillars 10.7%，在行人上的表现优于PointPillars 5.3%，在卡车上的表现优于 PointPillars 7.4% ，在公共汽车上的表现优于PointPillars 18.4%，在拖车上的表现优于PointPillars16.7%。我们的模型在摩托车上的表现远远低于官方的PointPillars。我们假设这可能是由于我们（1）使用了较粗糙的xy分辨率或（2）没有在ImageNet/KITTI上进行预训练。不同级别的可见度的改进：我们在验证集上将我们的双流方法与PointPillars相比较，其中可见性将总体mAP提高了4%。我们还评估每个对象类在不同级别的可见性。在这里，我们关注两个最常见的类：汽车和行人。有趣的是，我们观察到在严重遮挡的汽车（0-40%可见）上的最大改进和在完全可见的汽车（80-100%可见）上的最小改进。对于行人，我们还发现最小的改善是完全可见的行人（3.2%），这比具有较重遮挡的行人的改善少1-3%消融研究：为了了解每个组件提供的改善程度，我们进行了消融研究1https://www.cs.cmu.edu/peiyunh/wysiwyg2https://github.com/traveller59/second.pytorchhttps://github.com/nutonomy/second.pytorchconcat111007表1：NuScenes测试集上的3D检测mAP。车pedes.巴里。traff.卡车总线踪迹常数电机自行车地图Pillars [4]68.459.738.930.823.028.223.44.127.41.130.5我们79.165.034.728.830.446.640.17.118.20.135.0图6：我们在NuScenes测试集上可视化了双流方法的定性结果。我们为每个类分配不同的颜色（顶部）。我们使用实心长方体来表示地面实况对象，使用线框框来表示预测。为了提供上下文，我们还在每个场景中包含前置摄像头捕获的图像。请注意，图像不用作我们方法的输入部分。在（a）中，我们的方法成功地检测到雨天场景中的大多数车辆，包括汽车，卡车和拖车。在（b）中，我们的模型设法检测周围的所有汽车以及右侧的两辆摩托车。在（c）中，我们将人行道上有许多行人的场景可视化，我们的模型能够检测到其中的大多数最后，我们在（d）中展示了一个失败的案例，我们的模型无法从稀有类中检测到对象。在这种情况下，我们的模型无法检测到汽车右侧的两辆建筑车辆，报告一辆为卡车，另一辆通过从我们的最终模型开始并且每次移除一个组件。标签的关键词3是：• 早期融合（a，b）：用晚期融合（b）代替早期融合（a）导致总体mAP下降1.4%。• 钻孔（b，c，d）：用剔除（c）代替钻孔（b）导致公共汽车上下降11.4%，拖车上下降4.9%。在实践中，大多数增强卡车和拖车-ER往往会严重闭塞，应用剔除策略。用朴素增强（d）替换钻孔（b）导致公共汽车上的1.9%下降和拖车上的3.1%下降，这可能是由于朴素增强对象时的不一致可见性。• 对象增强（b，e）：删除对象增强（b→e）会导致受对象增强影响的类的mAP显著下降，包括a卡车下降2.5%，公共汽车下降13.7%，拖车下降7.9%111008表2：NuScenes验证集上的3D检测mAP。†：基于作者推荐的第三方实现进行复制。车pedes.巴里。traff.卡车总线踪迹常数电机自行车地图德国法兰克福[4]59.933.229.625.034.416.74.520.01.629.5PointPillars†76.962.629.220.432.649.627.93.811.70.031.5我们的80.066.934.527.935.854.128.57.518.50.035.4车0-40%40-60%60-80%80-100%行人0-40%40-60%60-80%80-100%比例百分之二十百分之十二百分之十五百分之五十四比例百分之二十百分之十二百分之十五百分之五十四PointPillars27.240.057.284.3PointPillars17.323.428.068.3我们32.142.660.686.3我们22.127.834.271.5改进4.92.63.42.0改进4.84.46.23.2表3：NuScenes确认集的消融研究。我们将执行对象扩充的类用斜体表示。OA代表对象增强，TA代表时间聚合。融合OATA车pedes.巴里。traff.卡车总线踪迹常数电机自行车avg（一）早期钻井多帧80.066.934.527.935.854.128.57.518.50.035.4（b）第（1）款晚钻井多帧77.865.832.224.233.753.030.64.118.80.034.0（c）第（1）款晚扑杀多帧78.366.433.227.333.441.625.75.617.00.132.9（d）其他事项晚天真多帧78.266.032.725.633.651.127.54.715.00.133.5（e）晚N/A多帧77.966.831.322.331.239.322.75.215.50.631.3（f）第（1）款晚N/A单帧67.945.724.012.422.629.98.51.37.10.021.9（g）第VN/A单帧68.038.220.78.723.728.711.00.65.60.020.5（h）只有VN/A单帧66.728.615.84.417.025.46.70.01.30.016.6（一）第V天真单帧69.738.722.511.528.140.721.81.94.70.024.0（j）第VN/A多帧77.761.626.417.231.238.524.23.111.50.029.1（k）第V天真多帧76.962.629.220.432.649.627.93.811.70.031.5111009• 时间聚集（e，f）：删除时间聚集（e→f）导致每个类的性能更差，总体mAP下降9.4%。• 可见性流（ f ， g ， h ）：从普通的双流方法（ f→g ）中删除可见性流会使总体 mAP 下降1.4%。有趣的是，落在行人（+7.5%），障碍物（+3.3%）和交通锥（+3.7%）上。从形状上看，这些物体都很这表明可见性有帮助，特别是当点较少时。只有可见性流(h)表现低于普通PointPillars（g）4%。• Vanilla PointPillars （ g ， i ， j ， k ）：在 VanillaPointPillars之上，对象增强（g→i）使mAP比增强类提高9.1%;时间聚合（g→j）使总体mAP提高8.6% 。添加两种（ g→k ）使总体 mAP 提高11.0%。运行时速度：我们在C++中实现了可见性计算，并将其集成到PyTorch训练中作为（部分）数据加载的一部分。在Intel i9- 9980 XE CPU上，计算32光束的可见性平均需要24.4±3.5ms在单个CPU线程上运行时的LiDAR点云。结论：我们重新审视的问题，找到一个很好的表示三维数据。我们指出，当代表示是为真正的3D数据设计的（例如，从网格模型采样）。事实上，诸如Li-DAR扫描的3D传感器数据是2.5D。通过将这些数据处理为标准化点（x，y，z）的集合，重要的可见性信息基本上被破坏。在本文中，我们将可见性增强到3D对象检测中。我们首先证明，可见性可以有效地通过三维光线投射- ING重新创建。我们介绍了一种简单的双流方法，该方法将可见性作为一个单独的流添加到现有的最先进的3D检测器中。我们还讨论了可视性的作用，在放置虚拟对象的数据增强和探索可视性的时间背景下，建立一个本地占用地图在线时尚。最后，在NuScenes检测基准测试中，我们证明了所提出的网络在最先进的检测器中表现出色。致谢：这项工作得到了CMU Argo AI自动驾驶汽车研究中心的支持。111010引用[1] John Amanatides和Andrew Woo。一种用于光线跟踪的快速体素跟踪算法。在EG 1987-技术文件。欧洲制图协会，1987年。4[2] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE Signal Processing Magazine，34（4）：18-42，2017。1[3] JoachimBuhmann ， WolframBurgard ， ArminBCremers ， Dieter Fox ， Thomas Hofmann ， Frank ESchneider，Jiannis Strikos，and Sebastian Thrun.移动机器人犀牛。AI Magazine，16（2）：31-31，1995. 2[4] Holger Caesar，Varun Bankiti，Alex H Lang，SourabhVora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan ， Giancarlo Baldan ， and Oscar Beijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。四、六、七、八[5] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。arXiv预印本arXiv：1904.08755，2019。3[6] Andreas Eitel 、 Jost Tobias Springenberg 、 LucianoSpinello、Martin Riedmiller和Wolfram Burgard。用于鲁棒rgb-d对象识别的多模态深度学习。在IROS，第681-687页中。IEEE，2015年。2[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。IJRR，32（11）：1231-1237，2013. 6[8] Armin Hornung ， Kai M Wurm ， Maren Bennewitz ，Cyrill Stachniss，and Wolfram Burgard. Octomap：一个基于八叉树的高效概率3D映射框架。Au-机器人，34（3）：189-206，2013。二、四、五[9] Andrew E.约翰逊和马夏尔·赫伯特在杂乱的3d场景中使用自旋图像进行有效的物体识别TPAMI，21（5）：433-449，1999. 2[10] 金恩英和杰拉德·梅迪奥尼使用可见性上下文的距离图像中的3d对象识别在IROS中，第3800- 3807页。IEEE，2011年。2[11] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在ICCV，第863-872页，2017年。2[12] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和对象检测在IROS，第1IEEE，2018年。二、三[13] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。二三四六[14] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积在NeurIPS，第820-830页，2018年。2[15] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在CVPR中，第3569-3577页，2018年。3[16] 大卫·马尔和赫伯特·基思·西原。三维空间组织的表示111011形状 . 伦敦皇家学会会刊。 B 系列。 BiologicalSciences，200（1140）：269-294，1978. 2[17] Gregory P Meyer 、 Ankit Laddha 、 Eric Kee 、 CarlosVallespi-Gonzalez和Carl K Wellington。Lasernet：一个用于自动驾驶的高效概率3D物体检测器。在CVPR中，第12677-12686页，2019年。一、二[18] Charles R Qi，Wei Liu，Chenxia Wu，Hao Su，andLeonidas J Guibas.从rgb-d数据中检测三维目标的截头体点网CVPR，第918-927页，2018年。3[19] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR中，第652-660页，2017年。一、二[20] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。在NeurIPS，第5099-5108页，2017年。2[21] Radu Bogdan Rusu，Gary Bradski，Romain Thibaux，and John Hsu.利用视点特征直方图快速三维识别与位姿。在IROS中，第2155-2162页。IEEE，2010。2[22] Shaoshuai Shi ， Xiaogang Wang ， and Hongsheng Li.Pointr- cnn ：从点云生成和检测 3D 对象建议。在CVPR，第770-779页，2019年。二、三[23] 马丁·西蒙，斯特凡·米尔茨，卡尔·阿门德，霍斯特·迈克尔·格罗斯. Complex-yolo：点云上实时三维目标检测的欧拉区域建议。见《欧洲法院判例汇编》，第197-209页。Springer，2018. 二、三[24] Sebas t ianThrunandArnoBu？c？k en. 用于移动机器人导航的基于栅格InProceedings of the National Conferenceon Artificial Intelligence，pages 944-951，1996. 2[25] Sebastian Thrun，Wolfram Burgard，and Dieter Fox. 概率机器人。MIT Press，2005. 5[26] Yue Wang ， Yongbin Sun ， Ziwei Liu ， Sanjay ESarma，Michael M Bronstein，and Justin M Solomon.点云学习的动态图cnn。ACM TOG，38（5）：146，2019。2[27] 吴文轩，齐忠昂，李福新。Pointconv：3D点云上的深度卷积网

下载后可阅读完整内容，剩余1页未读，立即下载