高效统一的点云物体检测

114 浏览量更新于2023-10-12 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9775Fast Point R-CNN陈一伦1刘舒2沈晓勇2贾佳雅1，21香港中文大学2腾讯优图实验室{ylchen，leojia}@ cse.cuhk.edu.hk，{shawnshuliu，dylanshen}@ tencent.com摘要我们提出了一个统一的，高效的，有效的框架为基于点云的三维物体检测。我们的两个阶段的方法利用体素表示和原始点云数据，利用各自的优势。第一阶段的网络，体素表示作为输入，仅包括轻卷积操作，产生少量高质量的初始预测。初始预测中每个点的坐标和索引卷积特征与注意力机制有效地融合，同时保留准确的定位和上下文信息。第二阶段利用其融合特征对内部点进行处理，以进一步细化预测。我们的方法在 KITTI 数据集上进行了评估，在 3D 和鸟瞰图（BEV）检测方面，并以15FPS的检测率达到了最先进的水平1. 介绍3D感知中的一个具有挑战性的任务是3D对象检测，其用作自动驾驶、机器人等中的感知的基本组件。深度卷积神经网络（CNN）大大提高了3D对象检测的性能最近的3D物体检测方法利用不同类型的数据，包括单眼[3]图像、立体图像[4]和RGB-D图像[32，33]。在自动驾驶中，LiDAR捕获的点云是更通用和信息量更大的数据格式，有助于进行预测[5，25，15，23]。LiDAR点云是用于三维检测的重要几何数据类型。然而，点云的高度稀疏性和不规则性使其不容易被CNN处理。一种方案是通过离散化将稀疏点云转换这种表示使CNN能够执行识别。然而，体积表示仍然是计算上的挑战。一种解决方案是使用粗网格[43，40，23，2，31，1];但是粗量化预处理是不可能的。使用细粒度信息的CNN事件。CNN中的几个连续卷积层和子采样操作使问题恶化。另一行[26，28，19，36]是直接处理点云以进行3D对象识别。与传统的体坐标表示不同，点云的坐标及其结构直接输入神经网络，以获取精确的定位信息。我们注意到，将这些方法应用于自动驾驶的大规模点云计算仍然非常繁重。我们的贡献在本文中，我们提出了一个统一的，快速和有效的两阶段三维物体检测框架，利用体素表示和原始点云数据。我们的网络的第一阶段，名为Vox-elRPN，直接利用点云的体素表示。计算上经济的卷积层采用了高效率和令人惊讶的高质量检测。在第二阶段，我们应用轻量级PointNet来进一步改进预测。在初始预测数量较少的情况下，第二阶段也处于非常快的速度。我们设计了具有注意力机制的模块，以有效地将每个内部点的坐标与第一阶段的卷积特征融合。它使每个点知道它的上下文信息。我们的方法的一个特点是，它受益于两个表示的点云在体积表示和原始密集坐标。3D体积表示提供了一种处理点云的鲁棒方法。第二阶段的轻量级PointNet再次检查点的坐标，以捕获更多的本地化信息，扩大接受野，产生不错的结果。由于我们的方法利用点云上每个区域的卷积特征，并且效率很高，我们将其命名为Fast Point R-CNN。通过这种概念上简单的结构，我们实现了高效率，同时体面的3D检测精度，实现了最先进的结果。它甚至比将RGB和点云两者作为输入的现有方法更有效。本文的主要贡献有三个方面。9776• 我们提出了一个快速和实用的两阶段的三维物体检测框架的基础上点云（没有RGB图像），利用体积表示，和原始密集输入的点云。• 我们的系统由2D和3D卷积组成，以保留信息。我们将卷积特征与点坐标融合以进行框细化。• 我们的系统以15 FPS运行，在BEV和3D检测方面达到了最先进的性能，特别是对于高质量的物体检测。2. 相关工作我们简要回顾了最近的工作，三维数据表示的点云和三维物体检测。3D数据表示3D LiDAR扫描仪的点云表示对于不同任务来说是基本的通常有两种主要方式对于第一种类型，Mat-uranaet al.[24]第一个将3D卷积应用于3D对象识别。对于基于点的方法，PointNet [26]是基于原始点直接学习特征表示的先驱。它进一步聚合用于分类的全局描述符。最近，Rethage等人[6]在每个3D网格中采用也存在不直接处理3D数据的其他方法。例如，大多数基于视图的方法[34，27，35]更关心2D颜色，并从渲染图像的不同视图收集信息3D物体检测在过去的几年里，一系列3D探测器[5，25，15，43，40，23，20，29，41，16]在KITTI基准测试[8]上取得了令人满意的结果。联合图像-LiDAR检测：几种方法[5，15，20，25]融合了来自不同传感器的信息，例如RGB图像和LiDAR。例如，MV3D [5]融合了BEV和LiDAR点的前视图以及图像，并设计了一种深度融合方案来组合来自多个视图的区域特征。AVOD [15]融合了全分辨率的BEV和图像，以提高预测质量，特别是对于小物体。精确的几何信息可能丢失在高层次层与该方案。Con- tfuse[20]通过将LiDAR点云上的卷积特征与多尺度方案中的最近图像特征和LiDAR点坐标相结合来补偿几何信息尽管在每个体素中编码了几何信息，但较深层主要访问粗略的几何特征。基于图像上的强大2D检测器，F-PointNet [25]和PointFusion [38]结合PointNet结构来估计amodal 3D框。但是2D检测器和PointNet是两个独立的阶段，最终结果严重依赖于2D检测结果。基于LiDAR的检测：大多数基于LiDAR的检测方法处理点云作为体素输入，并应用2D卷积或3D卷积进行预测。由于直接将点云的坐标编码到体素网格中，深层可能逐渐丢失该级别的信息。几种编码技术[32，33，17，18]提供了其他表示来保留更多信息。Chen等人[5]编码的手工制作的功能，分别表示BEV和前视图。VoxelNet [43]通过类似PointNet的网络应用VFE层来学习低级几何特征，而不是手工制作的特征，通过这种方式，它表现出良好的性能。然而，网络结构计算量很大。最近，SECOND [39]应用稀疏卷积[10]来加速体素网并产生更好的结果。PointPillars [16]应用加速技术，包括NVIDIA Ten- sorRT，以实现高速。我们注意到它们也可能加速我们的方法。PointRCNN [29]和IPOD [41]与我们的工作一致，在点云上生成逐点建议，这在相似区域或背景区域中的逐点计算上消耗了大量计算。3. 我们的方法在本文中，我们提出了一个简单快速的两阶段框架，用于点云数据的3D对象检测，如图1所示。第一阶段将体素表示作为输入，并产生一组初始预测。为了补偿体素化和连续卷积过程中精确定位信息的损失，第二阶段将原始点云与第一阶段的上下文特征相结合以产生细化结果。3.1. 动机激光雷达获取的点云是一组结构不规则、分布稀疏的点集。利用强大的CNN对点云数据进行训练和推理并不将点离散为体素化输入[43，20]或将它们投影到具有紧凑形状的BEV，如RGB图像[40，23]，形成了一组解决方案，其中可以产生抽象和丰富的特征表示。然而，离散化过程不可避免地引入量化伪影，其中分辨率降低到体素图中的箱的数量。此外，连续卷积和下采样操作也可能削弱原始存在于点云中的精确定位信号。像PointNet [26]这样的方法专门设计用于直接处理点云数据。直接将这些方法应用于自动驾驶场景中具有大规模的整个点云，可以产生更多位置信息的结果。但它们需要大量的GPU内存和计算，几乎不可能实现高检测速度。其他方法[25]9777体素化坐标特征初始预测卷积特征体素RPNRefinerNetn×4原始点云图1.我们的两阶段框架概述。在第一阶段，我们对点云进行体素化，并将其馈送到VoxelRPN以产生少量的初始预测。然后，我们通过融合内部点的坐标和上下文特征从VoxelRPN中为每个预测生成框特征框特征被馈送到RefinerNet进行进一步细化。依赖于来自2D检测器的检测结果，随后是针对每个对象的3D非模态盒的回归。这种流水线严重依赖于2D检测结果，继承了检测图像中杂乱或远处物体时的弱点。显然，如果可以正确利用信息，直接处理点云数据是更好的选择。为此，我们的方法是新的，利用体素和原始点云的混合，而不依赖于RGB图像。两个有效的阶段是体素表示输入到VoxelRPN以高速获取一组初始预测，以及RefinerNet融合原始点云和提取的上下文特征以获得更好的定位质量。这两个组成部分将在下文中详细阐述。3.2. 体素RPNVoxelRPN采用3D体素输入并产生3D检测结果。它是一种单级物体探测器。输入表示输入到VoxelRPN的是体素化的点云，它实际上是一个规则的网格。网格中的每个体素包含位于局部区域中的原始点的信息。具体来说，我们将3D空间划分假设点云的感兴趣区域是大小为（L，W，H）的长方体，每个体素的大小为（vl，vw，vh），则3D空间可以被划分为大小为（L/vl，W/vw，V/vh）的3D体素网格。在体素中可以存在多于一个点。在Vox-elNet [43]中，保留35个点并将其馈送到VFE层以提取特征。然而，我们的发现是，在每个体素中简单地使用6个点，然后是8通道MLP层已经足以在实验上实现合理的性能有了这种紧凑形状的表示，我们很容易利用CNN的强大功能进行信息特征提取。网络结构针对3D检测，我们的网络需要从（X，Y，Z）维清晰地过滤信息在[40，23]中，Z维度被简单地变换为在生成体素表示时，将所述体素映射到通道然后应用几个2D卷积。这样，沿Z维的信息很快消失。因此，仅在BEV上的检测变得可实现。不同的是，VoxelNet[43]在产生体素时保持三个独立的维度，注意到效率降低。沿着一个更合适的方向，我们发现，一些连续的3D卷积是相当有效的保持3D结构。基于这一观察，我们的骨干网络由2D和3D卷积组成，实现了PIXOR [40]的高效率，甚至比VoxelNet[43]更高的性能。我们在图2中显示了主干网络的详细信息。第一部分由六个3D卷积层组成，它们只拥有少量的滤波器以保持时间预算。我们不是通过步长为2和内核大小为3的滤波器在Z维中积极地下采样特征，而是在Z维中插入内核大小为2的3D卷积层，而不进行填充，以更好地融合和保留信息。下面是三个2D卷积块，用于进一步抽象和扩大感受野。3D场景中同一类别的对象通常具有相似的比例。因此，与2D图像中流行的多尺度对象检测器[21]不同，该检测器根据其各自的尺度将对象建议分配给不同的层，我们注意到HyperNet [14]结构更合适。具体地，我们通过去卷积对来自块2、3和4的最后层的特征图进行上采样，如图2所示。然后，我们将它们连接起来，以在较低层中收集丰富的位置信息，并在较高层中收集更强的语义信息。预定义锚点[22]在此融合特征图上以特定比例和角度使用。然后，分类和回归头分别在该特征图上运行，以对每个锚点进行分类并回归现有对象的位置。97784132建议GT图3. RefinerNet的网络结构图2. VoxelRPN的网络结构。图中使用的层的格式遵循（内核大小）（通道）/（步幅），即，（kx，ky，kz）（chn）/（ sx， sy， sz）. 默认跨距为1，除非其他具体说明。图4.一个盒子的封圣。数字表示RefinerNet中角点预测的对于具有坐标（xp，yp）的每个点p和具有大小（LF，WF，CF）的特征图F，我们将对应的特征定义为在位置处具有CF通道的特征向量。（xpLF，ypWF）。我们掌握了最后的连接fea-3.3. RefinerNetL W虽然VoxelRPN实现了不错的性能，但我们通过直接处理原始点云进一步提高了预测质量，因为体素化过程和第一块中的连续跨步卷积仍然丢失了大量的本地化信息，但是可以通过我们的RefinerNet中的进一步特征增强来补充RefinerNet使用点云的坐标 F-PointNet [25]是利用PointNet从2D检测结果回归3D非模态边界框的先驱工作。只有内部点用于推理，而不知道上下文信息。相反，我们的方法也受益于重要的上下文信息。框特征我们使用VoxelRPN的每个边界框预测中的点来生成框特征。与[25]中使用的两个独立网络不同，我们不仅将来自VoxelRPN的卷积特征映射捕获对象的局部几何结构，并以分层的方式逐渐聚集它们，从而导致更大的接收场以利于预测。然后应用PointNet将每个点映射到高维空间，并通过最大池化操作融合点表示，以收集所有点之间的信息及其上下文。对于来自VoxelRPN的每个预测的边界框，我们首先将其投影到BEV。然后，BEV盒的区域周围的所有点被用作输入，如图1所示来自VoxelRPN的真实地图，包含更全面的信息mation在将每个点的坐标馈送到下面的网络之前，我们首先将它们规范化，以保证平移和旋转不变性。建议框周围0.3米范围内的点的坐标如图3所示，我们将坐标特征定义为通过MLP层获取的高维（128D）表示。网络结构有了这两个特征来源，我们找到了一种有效融合它们的方法。而不是平凡的串联，我们设计了一个新的模块与全面的功能生成的注意机制。如图3所示，我们首先将高维坐标特征与卷积特征连接起来。然后，它与由卷积特征产生的注意力相乘。下面是一个轻量级的PointNet，由两个MLP层组成，最大池化将所有信息聚集在一个盒子中。最终的盒子细化是通过两个MLP层来实现的，以基于建议来预测所有盒子角点的细化位置。如图4所示，当计算回归目标时，地面实况框以及点云在给定建议框的情况下通过旋转和平移而被规范化该操作以特定顺序组织地面实况框角点，这可以减少由旋转引起的角点顺序的不确定性。我们的实验显示了经典的角损失的优越性。Block23×BLOCK3/（2，2）reg5×德孔夫CCLS第4块/（2，2）5×德孔夫3×3×3（8）/（2，2，2）3×3×2（16）3×3×3（32）/（1，1，2）3×3×2（64）/（2，2，1）Block1体素输入（800×704×20×24）三乘三（256）三乘三（256）三乘三（256）三乘三（256）CConv3D连接Conv2d三乘三（256）融合模块坐标CMBbox预测5125128x3Conv特征C级联M按元素相乘Sigmoid激活n×Cn×4n×128n×128n×1n×256n×256n×256n×5129779没有额外的功能，这个轻量级的RefinerNet已经可以有效地提高框预测的准确性，特别是考虑到Z维度和3D和BEV中具有较高IoU的边界框。3.4. 网络训练训练我们的Fast Point R-CNN包括两个步骤。我们首先训练VoxelRPN直到收敛。然后根据提取的特征和推断出的边界框训练Refiner-Net。VoxelRPN在VoxelRPN中，锚点分布在全局特征图的每个位置上。如果一个锚在BEV中具有地面真实值的IoU高于0.6，则该锚被认为是阳性样本。回归目标是具有最高IoU值的地面实况边界框。如果一个锚点的所有地面实况框的IoU值低于0.45，则该锚点被认为是负的我们用多任务损失训练VoxelRPN损失=Lcls+Lreg，（1）回归目标被定义为从建议中心（xp，yp，zp）到8个规范化角（xi，g，yi，g，zi，g，i = 1，.， 8）目标框如图4所示：<$2xi=xi，g−xp，<$2yi=yi，g−yp，<$2zi=zi，g−zp（六）这种参数化是直接在点坐标上处理的RefinerNet的一般和自然设计。4. 实验我们在3D检测和BEV检测方面对我们的方法进行了广泛的消融研究。4.1. 实验装置数据集和评估指标KITTI数据集提供了7，481张用于训练的图像和点云以及7，518张用于测试的图像和点云。测试子集和组件的评价说明-其中LCLS是分类二进制交叉熵损失，与其他方法相比，我们只能将结果提交给评估服务器。根据[5，43]中的协议，1个职位γ 射线阴性我们将训练数据划分为训练集（3，712张图像Lcls=NPOSLcls（pi、1）+N我negLcls（pi ，0），我（二）和点云），大约有14，000个汽车注释，验证集（3，769张图像和点云）。消融研究是在该分割上进行的。而对于评价，Lcls（p，t）= −（t log（p）+（1 − t）log（1 − p））。（三）在我们的实验中，我们使用γ= 10。由于正负样本的分布不平衡，我们分别对它们的损失进行了归一化。OHM [30]适用于分类损失的负项。每个锚被参数化为（xa，ya，za，ha，wa，la，θa），并且地面实况框被参数化为（xg，yg，zg，hg，wg，lg，θg）。对于回归，我们采用以下[43，9]的参数化：在测试集上，我们用7k个点云在整个训练集上训练我们的模型。根据图像中的遮挡/截断水平和2D框的高度，将KITTI数据集上的评价分为“容易”、“现代”和“困难”三个难度级别KITTI排行榜根据AP 0对所有方法进行排名。7在1x=xg−xaDa，1y=yg−yaDa，1z=zg−za，ha实现细节将点云裁剪到[0.，七十4]× [-40.，四十]×[−3.，1.一、]米沿（X，Y，Z）轴，分别如下[5，43]。的输入1h= log（hg），（四）体素RPN是通过将点云体素化为哈哇θ 1θ = θg− θa。la尺寸为800×704×20的3D长方体，其中每个体素的尺寸为0。1×0。1× 0。两米。因此，输出卷积特征图的大小为200×176×1。4回归损失定义为平滑L1损失，在每个输出位置定义锚点，并使用不同的.Lreg（x）=0的情况。5（σx）2，2如果|X|<1/σ2（五）角度（0◦，45◦，90◦，135◦）。对于“汽车”类别|-0。| − 0. 5/σ，否则ha= 1。73，wa= 0。6、la= 0。八米。具有IoU的在我们的实验中，σ被设置为3RefinerNet值得注意的是，在Bird's Eve View（BEV）的前30个预测框中，我们的VoxelRPN在0.5 IoU阈值上的召回率超过95%。我们的RefinerNet用于提高预测框的质量。我们只在积极的提案框上训练它，其IoU与地面事实在BEV中9780高于0.5。阈值0.1被应用于来自VoxelRPN的预测，以过滤掉重复的预测并帮助保持RefinerNet的高对于行人和Cy-clist类别，网络在第四个Conv 3D层中删除了下采样，因为这两个类别比汽车类别小得多。我们使用大小为ha= 1的锚。73，wa= 0。6，1a= 0。8且ha= 1。73，wa= 0。6，la= 1。行人76人，9781骑自行车的人。与F-PointNet[25]一样，RefinerNet的多类预测是将VoxelRPN（独热编码向量）的预测类标签与最大池化操作后的特征连接起来我们注意到对行人和骑自行车的人进行培训可以提高他们的表现。默认情况下，模型在8个NVIDIA P40 GPU上进行训练，批量大小为16，即每个GPU包含2个我们应用ADAM [12] 优化器，初始学习率为 0 。 01 用于VoxelRPN和RefinerNet的培训。我们将VoxelRPN训练了70个epoch，并且在第50和65个epoch时，学习率降低了10倍。RefinerNet的训练持续了70个epoch，学习率在第40、55和65个epoch时下降了10倍在每个参数层之后使用批归一化。权重衰减为0。0001在两个网络中使用。由于RefinerNet的训练需要来自VoxelRPN的卷积特征，因此我们为每帧而不是对象进行训练，从而节省了大量的计算。数据增强考虑到训练数据的有限量，在训练期间应用多个数据增强策略以减轻过拟合问题对于点云的每一帧，我们进行左右随机翻转，随机缩放，从0开始均匀采样。950105和随机旋转，从原点周围的-4545采样的度数，点云的整个场景。我们还通过随机平移来干扰每个地面实况边界框及其相应的内部点。具体地，对于X和X，从N（0，1）Y轴和N（0，0. 3）对于Z轴。随机旋转Z轴周围的采样范围为−1818。请注意，有一个碰撞检测，以防止碰撞不同的物体。与2D对象检测中[7，42]的精神类似，我们还使用来自其他点集的裁剪地面实况来增强输入点云，以大大提高收敛速度和质量。我们不是仅仅裁剪每个地面实况框的内部点，而是裁剪一个额外0.3米的更大区域，以更好地保留上下文信息。通过这种正则化，裁剪点和周围的点彼此分布得更加一致，使网络更好地捕捉每个对象的属性。在我们的设置中，在点云的每帧中添加20个对象。4.2. 主要结果如表1所示，我们将Fast Point R-CNN与KITTI测试数据集上的3D对象检测和BEV对象检测官方KITTI基准根据在中等子集上的性能对不同的方法进行我们的模型实现了最先进的性能，同时实现了高效率（15 FPS的NVIDIA特斯拉P40 GPU）。请注意，SEC-OND [39]应用了SparseConv [10]，PointPillars [16]使用了NVIDIA TensorRT的工程技术。这些解决方案是对我们的补充。为了更好地进行比较，我们将VoxelNet [43]复制为一个强大的基线网络。值得注意的是，我们的再现甚至产生比[43]中报道的结果好得多的结果。如表2所示，我们提出的 VoxelRPN 在 3D 对象检测中优于VoxelNet。伴随着RefinerNet，速度几乎是VoxelNet的两倍，Fast Point R-CNN在3D对象检测和BEV对象检测方面都优于VoxelNet我们在图5中显示了定性结果。我们可以在几个具有挑战性的场景中做出很好的预测。5. 消融研究我们根据序列/验证对每个组件进行了广泛的消融研究分裂5.1. 体素RPN为了说明VoxelRPN的有效性，我们从一个快速而简单的基线开始，并逐渐添加我们提出的组件。基线仅由2D卷积组成，并且通过将沿着Z轴的信息编码到通道维度中来直接处理输入体素与VoxelRPN的区别在于，第一块中的前6个Conv3D层被6个Conv2D层替换。我们在X轴和Y轴上保持相同的内核大小;通道为128，除了第一层有64个通道。使用了两个角度为0◦和90◦的锚钉。如表3所示，基线实现了合理的性能。更多3D卷积（Conv3D）通过将较低层替换为3D卷积（如图2所示）并处理3D体素，我们将基线提高了近1个点，证明了3D卷积在保留信息方面的有效性，特别是沿Z维度。通过这种修改，时间成本仅增加5ms。更高分辨率的输入（HRI）我们还引入了更精细的体素，生成尺寸为800×704×20的更高分辨率的网格输入，如图2所示相应地，我们将第一层的步幅修改为2以有效地减少计算开销。这种技术可以在不增加太多计算的情况下显着改善结果。MIXUP增强（MIXUP）通过MIXUP增强，我们将性能提高了约0.5个点。通过MIXUP增强，我们仅用原始训练时期的一半就实现了相当的性能。9782方法输入时间（s）3DBevGPUAP简单AP中度AP硬AP简单AP中度AP硬MV3D [5]L+I0.2466.7752.7351.3185.8277.0068.94Titan XAVOD-FPN[15]L+I0.181.9471.8866.3888.5383.7977.90泰坦XPAVOD[15]L+I0.173.5965.7858.3886.8085.4477.73泰坦XP[25]第二十五话L+I0.1781.2070.3962.1988.7084.0075.33GTX 1080联系我们[20]L+I0.0682.5466.2264.0488.8185.8377.33–[13]第十三话L+I0.183.7173.0459.1688.2079.4170.02Titan XIPOD [41]L+I0.279.7572.5766.3386.9383.9877.85特斯拉P40VoxelNet [43]L0.2277.4965.1157.7389.3579.2677.39Titan XPXOR [40]L0.1---84.4480.0474.31泰坦XP第二[39]L0.0583.1373.6666.2088.0779.3777.95GTX 1080Ti[第16话]L0.01679.0574.9968.3088.3586.1079.83GTX 1080Ti[29]第二十九话L0.184.3275.4267.8689.2886.0479.02泰坦XP[29]第二十九话L0.185.9475.7668.3289.4785.6879.10泰坦XPFast Point R-CNNL0.06584.2875.7367.3988.0386.1078.17特斯拉P40表1.KITTI测试集上主要结果的比较这里，方法时间（s）3DBevAP简单AP中度AP硬AP简单AP中度AP硬VoxelNet（纸质）0.22581.9765.4662.8589.6084.8178.57VoxelNet（复制）0.11786.4875.2673.2590.1387.6186.4体素RPN0.05887.5176.6474.489.887.5886.38Fast Point R-CNN0.06589.1279.0077.4890.1288.1086.24表2.KITTI验证集的主要结果比较Conv3DHRIMIXUP马3D AP 0. 7（中度）----73.8C74.7CC75.34CCC75.82CCCC76.64搜索方法3D AP 0. 7（中度）坐标特征77.82卷积特征76.90级联78.38+ 关注模块79.00表3.不同技术应用于KITTI值子集上的体素RPN的有效性基线网络仅由2D卷积组成。Conv3D表示我们用3D卷积替换较低的层。HRI表示高分辨率输入。MIXUP删除了MIXUP增强的使用MA表示使用4个不同角度的锚钉，而不是其中的2个。更多锚点（MA）使用4个锚点分别在0°、45°、90°和135°的角度，而不是仅使用2个锚点，我们进一步获得另一个0 °。8分奖金。我们发现，与地面实况的匹配概率增益是显着的更多的锚。5.2. RefinerNet输入特征我们首先研究坐标和卷积特征的重要性。如表4所示，仅使用坐标特征或卷积特征，RefinerNet改进了VoxelRPN的结果。以坐标特征为输入的算法性能明显优于以卷积特征为输入的算法。这表明点云的量化表示丢失了精确的位置信息，从而影响了点云的质量。表4.RefinerNet中不同融合方法的比较连续卷积和下采样操作。特征融合通过对坐标信息的补偿，大大提高了性能坐标和卷积特征都可以实现更好的性能我们还比较了我们的策略，融合这两个来源的功能与简单的串联。如表4所示，我们的具有注意力机制的融合方法优于替代方法0.62点。我们比较了框预测的参数化。7个参数作为回归损失的朴素参数化在3D AP 0中仅达到78.45。7 .第一次会议。随着经典的角落损失，它可以进一步提高到79。与RoI AlignOne的比较框细化的直接方法是使用RoIAlign[11]。为了比较，我们实现了旋转的RoI对齐，从给定的VoxelRPN中裁剪卷积特征。对于汽车类，我们池与大小8×4沿9783图5.可视化我们的结果。方法3D（中度）BEV（中度）AP 0.6AP 0.7AP 0.8AP 0.6AP 0.7AP 0.8体素RPN88.9476.6442.689.7787.5871.39Fast Point R-CNN89.1479.052.9589.8688.1074.58表5.近距离和远距离物体检测精度的比较旋转框区域内的汽车方向。然后应用两个4096D MLP层来执行分类和回归。只有上述操作不同-它在AP 0的情况下达到77.39。7 .第一次会议。我们的RefinerNet表现得更好。我们推测旋转的RoI对齐仍然缺乏精确的定位信息。结果分析在自动驾驶场景中，由于LiDAR的分辨率有限以及附近物体的遮挡，远处物体的点非常少，这使得检测远处物体更具挑战性。如表5所示，在附近和远处对象的准确度之间存在很大的差异。值得注意的是，RefinerNet显著提高了30至50米远距离物体的3D检测精度，从5199比58 41，AP 0。7米。这是因为远距离物体通常只有少量的点.在仅具有体素表示的情况下，Vox-eIRPN难以完全捕获对象的结构但由于对坐标特征的有利访问，RefinerNet仍然可以推断出对象的完整结构，并实现更好的推理。如表5和表6所示，RefinerNet可以进一步提高检测质量，使用 AP 0 进行评估。 8 ，这表明 RefinerNet 比VoxelRPN更好地利用细粒度的定位信息。5.3. 其他范畴KITTI 基准提供有限的注释行人和骑自行车的类别。作为参考，我们支持-表6.不同IoU阈值的检测结果方法AP 0. 5行人AP 0. 5骑自行车3DBev3DBev[第16话]43.5350.2359.0762.25[25]第二十五话44.8950.2256.7761.96[29]第二十九话41.78–59.60–Fast Point R-CNN42.9045.4359.3662.59表7.测试集上行人和骑自行车者的性能请参见这两个类的结果。在[43，39]之后，我们为这两个类别训练网络。我们对行人和骑自行车者的最终结果分别为 63.05 和 64.32 ， KITTI val 数据集上的VoxelRPN结果为60.78和62.41我们在KITTI测试数据上获得了相当的结果，如表7所示。我们相信当使用更多的数据时，我们的两阶段网络的优越性可以更好地证明。6. 结论在本文中，我们提出了一个通用的，有效的和快速的两阶段框架的三维物体检测。我们的方法利用体素表示和原始点云，从他们两个受益。第一阶段以体素表示作为输入，并应用卷积运算来获取一组初始预测。然后第二阶段基于原始点云和提取的卷积特征进一步细化它们。通过这种概念简单但实际功能强大的设计，我们的方法与现有的解决方案相当，同时保持更高的检测速度。我们相信，我们的研究显示了一种新的方式，适当地利用不同尺寸的信息，为这一具有挑战性的，但实际上基本的任务。方法范围（米）3D（中度）BEV（中度）AP 0.7AP 0.8AP 0.7AP 0. 8体素RPN0-3088.3958.8190.2283.32Fast Point R-CNN0-3089.2662.7390.2585.61体素RPN30-5051.9913.3173.5149.63Fast Point R-CNN30-5058.4115.3973.950.059784引用[1] Waleed Ali ， Sherif Abdelkarim ， Mohamed Zaidan ，Mah- moud Zidan，and Ahmad El Sallab. Yolo3d：从激光雷达点云进行端到端实时3D定向对象边界框检测。arXiv：1808.02350，2018年。[2] Jorge Beltran 、 Carlos Guindel 、 Francisco MiguelMoreno、Daniel Cruzado、Fernando Garcia和Arturo de laEscalera。Birdnet：一个基于激光雷达信息的3d目标检测框架arXiv：1805.01195，2018。[3] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。[4] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun.用于精确对象类别检测的3D对象建议。2015年，在NIPS[5] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。[6] Rethage Dario ， Wald Johanna ， Sturm Jrgen ， NavabNassir，and Tombari Federico.用于大规模点云的全卷积点网络。在ECCV，2018。[7] Debidatta Dwibedi，Ishan Misra，and Martial Hebert.剪切、粘贴和学习：令人惊讶的简单合成，例如检测。InICCV，2017.[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。[9] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR，2018年。[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv：1412.6980，2014。[13] YoungwookPaulKwonKiwooShin 和 MasayoshiTomizuka。Roarnet：基于区域近似细化的鲁棒3D对象检测。arXiv：1811.03818，2018年。[14] 孔涛、姚安邦、陈玉荣和孙富春。Hypernet：TowardsAccurate Region Proposal Generation and Joint ObjectDetection.在CVPR，2016年。[15] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven Waslander。从视图聚合的联合3d建议生成和IROS，2018年。[16] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。arXiv：1812.05784，2018。[17] 波丽用于点云中车辆检测的3D全卷积网络。在IROS，2017年。[18] 李波，张天磊，田霞。使用全卷积网络的3d激光雷达车辆检测。机器人：科学与系统，2016年。[19] Yangyan Li ， Rui Bu ， Mingchao Sun ， and Baoquan Chen.Pointcnn. NIPS，2018年。9785[20] Ming Liang ， BinYang ， Shenlong Wang ， andRaquel Urtasun.多传感器三维目标检测的深度连续融合在ECCV，2018。[21] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。[22] Wei Liu，Dragomir Anguelov，Dumitru Erhan，Christian Szegedy ， Scott Reed ， Cheng-YangFu，and Alexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。[23] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在CVPR，2018年。[24] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络InIROS，2015.[25] Charles R. Qi，Wei Liu，Chenxia Wu，Hao Su，and Leonidas

下载后可阅读完整内容，剩余1页未读，立即下载