PV-RCNN：基于点-体素特征集抽象的3D物体检测

11 浏览量更新于2023-10-25 收藏 12.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

105290PV-RCNN：用于3D物体检测的点-体素特征集抽象0Shaoshuai Shi 1 Chaoxu Guo 2, 3 Li Jiang 40Zhe Wang 2 Jianping Shi 2 Xiaogang Wang 1 Hongsheng Li 101中国香港中文大学多媒体实验室2商汤研究3中国科学院自动化研究所国家实验室4中国香港中文大学计算机科学与工程系0摘要0我们提出了一种新颖且高性能的3D物体检测框架，称为PointVoxel-RCNN（PV-RCNN），用于从点云中准确地检测3D物体。我们提出的方法深度集成了3D体素卷积神经网络（CNN）和基于PointNet的集合抽象，以学习更具判别性的点云特征。它充分利用了3D体素CNN的高效学习和高质量的提议，以及PointNet网络的灵活感受野。具体而言，所提出的框架通过一种新颖的体素集合抽象模块，将3D场景用3D体素CNN总结为一小组关键点，以节省后续计算并编码代表性场景特征。鉴于体素CNN生成的高质量3D提议，提出了RoI-网格池化，通过关键点集合抽象将提议特定特征从关键点抽象到RoI-网格点。与传统的池化操作相比，RoI-网格特征点编码了更丰富的上下文信息，可以准确估计物体的置信度和位置。在KITTI数据集和WaymoOpen数据集上进行了大量实验证明，我们提出的PV-RCNN以显著的优势超越了先前最先进的3D检测方法。01. 引言0由于其在自动驾驶和机器人等各个领域的广泛应用，3D物体检测受到行业和学术界的越来越多的关注。激光雷达传感器广泛应用于自动驾驶车辆和机器人中，用于捕捉稀疏且不规则的点云作为3D场景信息，为3D场景感知和理解提供重要线索。在本文中，我们提出通过设计新颖的点-体素集成网络，从不规则点云中学习更好的3D特征，实现高性能的3D物体检测。0电子邮件：{sss，hsli}@ee.cuhk.edu.hk0网格点0精炼0关键点z0x0y0原始点03D体素0图1.我们提出的PV-RCNN框架通过两步策略（包括体素到关键点的3D场景编码和关键点到网格RoI特征抽象）深度集成了基于体素和基于PointNet的网络，以提高3D物体检测的性能。0大多数现有的3D检测方法可以根据点云表示分为两类，即基于网格的方法和基于点的方法。基于网格的方法通常将不规则的点云转换为规则的表示，如3D体素[29, 45, 37, 2,28]或2D鸟瞰图[1, 12, 39, 18, 38, 13, 17,41]，这些表示可以通过3D或2D卷积神经网络（CNN）高效处理，以学习用于3D检测的点特征。受到PointNet及其变体[25, 26]的启发，基于点的方法[24, 27, 35, 40,22]直接从原始点云中提取判别特征进行3D检测。一般来说，基于网格的方法在计算上更高效，但不可避免的信息损失会降低细粒度的本地化精度，而基于点的方法计算成本更高，但可以通过点集抽象[26]轻松实现更大的感受野。然而，我们表明一个统一的框架可以集成这两种方法的优点，并以显著的优势超越先前最先进的3D检测方法。0我们提出了一种新颖的3D物体检测框架PV-RCNN（如图1所示），它通过结合基于点和基于体素的特征学习方法的优势来提高3D检测性能。PV-RCNN的原则在于基于体素的操作有效地编码了多尺度特征表示，并且可以生成高质量的3D提议，而基于PointNet的集合抽象操作105300保留了准确的位置信息和灵活的感受野。我们认为将这两种类型的特征学习框架结合起来可以帮助学习更具区分性的特征，以实现准确的细粒度边界框细化。主要挑战在于如何有效地将这两种类型的特征学习方案，特别是基于体素的3DCNN与稀疏卷积[6,5]和基于PointNet的集合抽象[26]，融合到一个统一的框架中。一种直观的解决方案是在每个3D提议中均匀采样若干网格点，并采用集合抽象来聚合围绕这些网格点的3D体素特征以进行提议细化。然而，这种策略在内存消耗方面非常大，因为体素的数量和网格点的数量都可能非常大，以达到令人满意的性能。因此，为了更好地整合这两种类型的点云特征学习网络，我们提出了一个两步策略，第一步是体素到关键点场景编码步骤，第二步是关键点到网格RoI特征抽象步骤。具体而言，采用带有3D稀疏卷积的体素CNN进行体素特征学习和准确的提议生成。为了缓解需要过多体素来编码整个场景的问题，通过最远点采样（FPS）选择一小组关键点，以通过基于PointNet的集合抽象将邻近的体素特征进行聚合，以总结多尺度的点云信息。通过这种方式，整个场景可以通过少量关键点和相关的多尺度特征进行有效和高效的编码。对于第二个关键点到网格RoI特征抽象步骤，给定每个边界框提议及其网格点位置，提出了一个RoI-grid池化模块，其中采用具有多个半径的关键点集合抽象层，以从具有多尺度上下文的关键点中聚合特征。然后，所有网格点的聚合特征可以共同用于后续的置信度预测和细粒度边界框细化。我们的贡献可以总结为四个方面。(1)我们提出了PV-RCNN框架，它有效地利用了基于体素和基于点的方法进行3D点云特征学习，从而提高了3D物体检测的性能，并且内存消耗可控。(2)我们提出了基于体素到关键点的场景编码方案，通过体素集合抽象层将整个场景的多尺度体素特征编码为一小组关键点。这些关键点特征不仅保留了准确的位置信息，还编码了丰富的场景上下文，显著提升了3D检测性能。(3)我们提出了用于每个提议中的网格点的多尺度RoI特征抽象层，它通过点云集合抽象层在每个网格点上采用多个半径来聚合关键点的特征，以提取更丰富的上下文信息。然后，所有网格点的聚合特征可以共同用于后续的置信度预测和细粒度边界框细化。(4)我们提出的方法PV-RCNN在性能上超过了所有先前的方法，并且排名第一。0可以在场景中进行准确的边界框细化和置信度预测。(4)我们提出的方法PV-RCNN在性能上超过了所有先前的方法，并且排名第一。0在高度竞争的KITTI3D检测基准测试[11]上，PV-RCNN表现出色，并且在大规模的Waymo Open数据集上超过了以往的方法。02. 相关工作0基于网格的3D物体检测。为了解决点云的不规则数据格式，大多数现有的方法将点云投影到规则网格中，然后通过2D或3DCNN进行处理。先驱工作MV3D[1]将点云投影到2D鸟瞰视图网格中，并放置了许多预定义的3D锚点来生成3D边界框，后续的工作[12, 18,17]在多传感器融合方面提出了更好的策略，而[39, 38,13]则提出了更高效的鸟瞰视图表示框架。其他一些工作[29,45]将点云划分为3D体素，通过3DCNN进行处理，而3D稀疏卷积[5]被引入[37]以实现高效的3D体素处理。[33,46]利用多个检测头，而[28]则探索物体部位位置以提高性能。这些基于网格的方法通常对于准确的3D提议生成是高效的，但是感受野受到2D/3D卷积核大小的限制。基于点的3D物体检测。F-PointNet[24]首次提出在基于2D图像边界框的裁剪点云上应用PointNet[25, 26]进行3D检测。PointRCNN[27]直接从整个点云中生成3D提议，而不是从2D图像中进行3D检测，后续的工作STD[40]提出了更好的提议细化的稀疏到稠密策略。[23]提出了更好的对象特征分组的Hough投票策略。这些基于点的方法大多基于PointNet系列，特别是集合抽象操作[26]，它可以通过设置不同的搜索半径实现灵活的感受野来进行点云特征学习。点云的表示学习。点云的表示学习在改进点云分类和分割的性能方面引起了广泛关注[25, 26, 45, 34, 7, 42, 16, 30, 36, 8, 32, 10,21,3]。在3D检测方面，以前的方法通常将点云投影到规则的鸟瞰视图网格[1, 39]或3D体素[45, 2]中，以通过2D/3DCNN处理点云。3D稀疏卷积[6, 5]在[37,28]中被采用，以从点云中有效地学习稀疏的体素特征。Qi等人[25,26]提出了PointNet，直接从原始点云中学习点特征，其中集合抽象操作通过设置不同的搜索半径实现灵活的感受野。[20]将基于体素的CNN和基于点的SharedMLP结合起来，以实现高效的点云特征学习。与之相比，我们提出的PV-RCNN充分利用了基于体素和基于点的方法的优势，用于3D点云特征学习，从而提高了3D物体检测的性能，并且内存消耗可控。(1)我们提出了PV-RCNN框架，有效地利用了基于体素和基于点的方法进行3D点云特征学习，从而提高了3D物体检测的性能。(2)我们提出了基于体素到关键点的场景编码方案，通过体素集合抽象层将整个场景的多尺度体素特征编码为一小组关键点。这些关键点特征不仅保留了准确的位置信息，还编码了丰富的场景上下文，显著提升了3D检测性能。(3)我们提出了用于每个提议中的网格点的多尺度RoI特征抽象层，它通过点云集合抽象层在每个网格点上采用多个半径来聚合关键点的特征，以提取更丰富的上下文信息。然后，所有网格点的聚合特征可以共同用于后续的置信度预测和细粒度边界框细化。(4)我们提出的方法PV-RCNN在性能上超过了所有先前的方法，并且排名第一。105310x0y z0x0y z0体素化0FPS0关键点采样体素集合抽象模块03D稀疏卷积0分类0框回归0RPN0预测的关键点加权模块0RoI-grid池化模块0带特征的关键点03D框提案0置信度框细化0FC（256, 256）0原始点云0图2.我们提出的PV-RCNN的整体架构。首先将原始点云进行体素化，以输入到基于3D稀疏卷积的编码器中，学习多尺度语义特征并生成3D物体提案。然后，通过新颖的体素集合抽象模块，将多个神经层的学习的体素特征体积总结为一小组关键点。最后，将关键点特征聚合到RoI网格点上，学习提案特定的特征，用于细粒度的提案细化和置信度预测。0学习（即3D稀疏卷积）和基于PointNet的特征学习（即集合抽象操作），以实现高质量的3D提案生成和灵活的感受野，从而提高3D检测性能。0PV-RCNN用于点云目标检测0在本文中，我们提出了PV-RCNN，这是一个两阶段的3D检测框架，旨在从点云中实现更准确的3D目标检测。目前最先进的3D检测方法基于3D体素CNN与稀疏卷积或基于PointNet的网络作为骨干。一般来说，3D体素稀疏CNN更高效[37,28]，能够生成高质量的3D提案，而基于PointNet的方法可以捕捉更准确的上下文信息和灵活的感受野。我们的PV-RCNN深度整合了这两种网络的优势。如图2所示，PV-RCNN由一个3D体素CNN与稀疏卷积作为骨干，用于高效特征编码和提案生成。对于每个3D提案，为了有效地从场景中汇集其相应的特征，我们提出了两种新颖的操作：体素到关键点场景编码，将整个场景特征体积的所有体素总结为少量的特征关键点；以及点到网格RoI特征抽象，将场景关键点特征有效地聚合到RoI网格上，用于提案置信度预测和位置细化。03D Voxel CNN用于高效特征编码和提案生成03D体素CNN与3D稀疏卷积[6, 5, 37,28]是最先进的3D检测器常用的选择，用于将点云高效地转换为稀疏的3D特征体积。由于其高效性和准确性，我们选择将其采用为我们的特征编码和提案生成的方法。0将其采用为我们的特征编码和3D提案生成框架的骨干。3D体素CNN。首先将输入点P划分为空间分辨率为L×W×H的小体素，其中非空体素的特征直接计算为所有内部点的点特征（即3D坐标，反射强度）的平均值。网络利用一系列3×3×3的3D稀疏卷积逐渐将点云转换为具有1×，2×，4×，8×下采样尺寸的特征体积。这样的稀疏特征体积可以看作是一组体素特征向量。3D提案生成。通过将编码的8×下采样的3D特征体积转换为2D鸟瞰特征图，可以按照基于锚点的方法[37，13]生成高质量的3D提案。具体而言，我们沿Z轴堆叠3D特征体积，以获得L 8× W08个鸟瞰特征图。每个类别有2 × L08 × W08个3D锚定框，采用该类别的平均3D物体尺寸，并为鸟瞰特征图的每个像素评估了0°和90°两个方向的两个锚定框。如表4所示，采用基于锚定框的3D体素CNN骨干结构比基于PointNet的方法[27,40]具有更高的召回性能。讨论。现有的先进检测器主要采用两阶段的框架。它们需要从生成的3D特征体积或2D地图中汇集RoI特定的特征，以进行进一步的提案细化。然而，这些3D特征体积具有以下主要限制：（i）这些特征体积通常具有较低的空间分辨率，因为它们经过了多达8倍的下采样，这阻碍了对输入场景中物体的准确定位。（ii）即使可以上采样以获得更大空间尺寸的特征体积/地图，它们通常仍然非常稀疏。常用的三线性或双线性插值(3)where the generated feature f (pv)iincorporates both the 3Dvoxel CNN-based feature learning from voxel-wise featuref (lk)jand the PointNet-based features from voxel set ab-straction as Eq. (2). Besides, the 3D coordinate of pi alsopreserves accurate location information.Extended VSA Module. We extend the VSA module byfurther enriching the keypoint features from the raw pointclouds P and the 8× downsampled bird-view feature maps,where the raw point clouds partially make up the quantiza-tion loss of the point-cloud voxelization while the 2D bird-view maps have larger receptive ﬁelds along the Z axis.The raw point-cloud feature f (raw)iis also aggregated asin Eq. (2), while bird-view feature f (bev)iof keypoint pi areobtained by bilinear interpolation on the bird-view featuremaps. Hence, the keypoint feature for pi is further enrichedby concatenating all its associated features105320RoIPooling/RoIAlign操作中的线性插值只能从非常小的邻域（即双线性插值和三线性插值分别的4个和8个最近邻）中提取特征。传统的池化方法因此会得到大部分为零的特征，并且在第二阶段的细化中浪费大量计算和内存。另一方面，PointNet的变体中提出的集合抽象操作已经显示出了从任意大小邻域中编码特征点的强大能力。因此，我们提出将3D体素CNN与一系列集合抽象操作结合起来，进行准确而鲁棒的第二阶段提案细化。直接将集合抽象操作用于池化场景特征体素的一个天真的解决方案是将多尺度特征体积直接聚合到RoI网格中。然而，这种直观的策略会因为大量稀疏体素而占用大量GPU内存来计算集合抽象中的成对距离。为了解决这个问题，我们提出了一个两步方法，首先将整个场景不同神经层的体素编码为少量关键点，然后将关键点特征聚合到RoI网格中进行提案细化。03.2. 通过体素集合抽象进行体素到关键点场景编码0我们的框架首先将代表整个场景的多尺度特征体素聚合成少量关键点，这些关键点作为3D体素CNN特征编码器和提案细化网络之间的桥梁。关键点采样。具体而言，我们采用最远点采样（FPS）算法从点云P中采样出少量n个关键点K={p1,∙∙∙,pn}，其中n=2048适用于KITTI数据集，n=4096适用于Waymo数据集。这种策略鼓励关键点在非空体素周围均匀分布，并能代表整个场景。体素集合抽象模块。我们提出了体素集合抽象（VSA）模块，将3DCNN特征体积中的多尺度语义特征编码到关键点上。我们采用[26]提出的集合抽象操作来聚合体素级特征体积。关键点的周围点现在是由3D体素CNN编码的多层次的多尺度语义特征的规则体素，而不是像[26]中那样由PointNet学习的邻近原始点特征。0具体而言，将F(lk)={f(lk)1,∙∙∙,f(lk)Nk}表示为第k层3D体素CNN中体素级特征向量的集合，将V(lk)={v(lk)1,∙∙∙,v(lk)Nk}表示为它们的3D坐标，由体素索引和实际体素大小计算得到，其中Nk是第k层中非空体素的数量。对于每个关键点pi，我们首先在第k层中确定其邻近的非空体素，该层中的一个0半径r_k来检索体素特征向量的集合，如下所示：0S(l_k)i =0� � � �0� 0� f(l_k)j; v(l_k)j - p_i � T0�0�� v(l_k)j - p_i �� <0� v(l_k)j ∈ V(l_k), � f(l_k)j∈ F(l_k)0� � � �0� � �, (1)0其中我们将局部相对坐标v(l_k)j -p_i连接起来，以指示语义体素特征f(l_k)j的相对位置。邻近的体素特征在邻域中的每个关键点pi的体素集合S(l_k)i中进行变换，以生0然后，通过PointNet块[25]将关键点pi的邻域集合S(l_k)i中的体素特征进行变换，生成关键点的特征f(pv_k)i。通常，我们还在第k级设置多个半径rk，以聚合具有不同感受野的局部体素特征，以捕获更丰富的多尺度上下文信息。上述策略在3D体素CNN的不同级别上执行，来自不同级别的聚合特征可以连接起来生成关键点pi的多尺度语义特征。0f(pv_k)i = max � G � M � S(l_k)i ��, (2)0生成的特征f(pv)i结合了基于3D体素CNN的体素特征f(l_k)j的学习和基于PointNet的体素集合抽象的特征，如公式（2）所示。此外，关键点pi的3D坐标也保留了准确的位置信息。扩展的VSA模块。我们通过进一步丰富原始点云P和8×下采样的鸟瞰特征图中的关键点特征来扩展VSA模块，其中原始点云部分弥补了点云体素化的量化损失，而2D鸟瞰图在Z轴上具有更大的感受野。原始点云特征f(raw)i也按照公式（2）进行聚合，而关键点pi的鸟瞰特征f(bev)i通过双线性插值在鸟瞰特征图上获得。因此，关键点pi的特征通过连接其所有相关特征进行进一步丰富0f(pv)i = � f(pv1)i, f(pv2)i, f(pv3)i, f(pv4)i �, for i = 1, ∙ ∙ ∙ , n,0f(p)i = � f(pv)i, f(raw)i, f(bev)i �, for i = 1, ∙ ∙ ∙ , n, (4)0这些特征具有保留整个场景的3D结构信息的强大能力，以提高最终性能。˜Ψ =�,(6)105330n x30SigmoidFL0标签0关键点特征0关键点坐标03DGT框0n x10n x2560n xC0n xC0前景点检查0预测关键点加权模块0训练部分0图3. 预测关键点加权模块示意图。0预测关键点加权。在整个场景被少量关键点编码之后，它们将被后续阶段进一步利用进行提案的细化。关键点是通过进一步点采样策略选择的，其中一些关键点可能只代表背景区域。直观地，属于前景对象的关键点应该对提案的准确细化贡献更多，而来自背景区域的关键点应该贡献较少。因此，我们提出了一个预测关键点加权（PKW）模块（见图3），通过来自点云分割的额外监督对关键点特征进行重新加权。分割标签可以直接由3D检测框注释生成，即通过检查每个关键点是否在真实3D框内部或外部。每个关键点特征˜f(p)i的预测特征加权可以表示为˜f(p)i = A(f(p)i) ∙ f(p)i，(5)0其中，A（∙）是一个具有sigmoid函数的三层MLP网络，用于预测[0, 1]之间的前景置信度。PKW模块通过focalloss[19]进行训练，使用默认超参数处理训练集中前景/背景点数量不平衡的问题。03.3. 用于提议细化的关键点到网格RoI特征抽象0在前一步中，整个场景被总结为具有多尺度语义特征的少量关键点。给定由3D体素CNN生成的每个3D提议（RoI），需要从关键点特征˜F ={˜f（p）1，∙∙∙，˜f（p）n}中聚合每个RoI的特征，以实现准确和鲁棒的提议细化。我们提出了基于集合抽象操作的关键点到网格RoI特征抽象，用于多尺度RoI特征编码。通过集合抽象操作进行RoI-grid池化。给定每个3DRoI，如图4所示，我们提出了RoI-grid池化模块，将关键点特征聚合到具有多个感受野的RoI-grid点上。我们在每个3D提议内均匀采样6×6×6个网格点，表示为G ={g1，∙∙∙，g216}。采用集合抽象操作从关键点特征中聚合网格点的特征。具体而言，我们首先确定在半径˜r内的网格点g i 的相邻关键点，如下所示：0RoI-grid点特征0网格点关键点原始点0图4.RoI-grid池化模块的示意图。通过多个感受野的集合抽象操作，聚合每个3D RoI的丰富上下文信息。0˜f（p）j；p j - g i T / ∥p j - g i ∥2 <˜r，�p j ∈ K，�˜f（p）j ∈ ˜F0其中，p j - g i 用于表示特征˜f（p）j来自关键点p j的局部相对位置。然后采用PointNet-block[25]来聚合相邻关键点特征集˜Ψ，生成网格点g i 的特征，如下所示：0˜f（g）i = max � G � M � ˜Ψ ��，(7)0在公式（2）中，M（∙）和G（∙）的定义与之前相同。我们设置多个半径˜r，并使用不同感受野聚合关键点特征，将它们连接在一起以捕捉更丰富的多尺度上下文信息。在从周围关键点获取每个网格的聚合特征之后，同一RoI的所有RoI-grid特征可以被向量化并通过具有256个特征维度的两层MLP进行转换，以表示整体提议。与之前的点云3DRoI池化操作[27, 40,28]相比，我们提出的针对关键点的RoI-grid池化操作能够以灵活的感受野捕获更丰富的上下文信息，其中感受野甚至超出了RoI边界，以捕获3DRoI之外的周围关键点特征，而之前的最先进方法要么简单地将提议内的所有点特征平均为RoI特征[27]，要么将许多无信息的零池化为RoI特征[28,40]。3D提议细化和置信度预测。给定每个框提议的RoI特征，提议细化网络学习预测相对于输入的3D提议的大小和位置（即中心、大小和方向）的残差。细化网络采用两层MLP，并分别具有置信度预测和框细化两个分支。对于置信度预测分支，我们采用[15, 9,28]中的3D交并比（IoU）作为训练目标，用于3DRoIs和其对应的真实框之间的交并比。对于第k个3DRoI，其置信度训练目标yk被归一化为[0, 1]之间的值。0yk = min(1, max(0, 2IoUk - 0.5)), (8)105340其中IoUk是第k个RoI与其真实框之间的IoU，这个置信度分支通过二元交叉熵损失进行优化。我们在表8中的实验结果表明，这种质量感知的置信度预测策略比传统的分类目标表现更好。框回归分支的框细化目标采用传统的基于残差的方法进行编码，如[37,28]中所述，并通过平滑L1损失函数进行优化。04. 实验0在本节中，我们介绍了PV-RCNN（第4.1节）的实现细节，并与之前最先进的方法在竞争激烈的KITTI数据集[4]（第4.2节）和新引入的大规模Waymo开放数据集[31, 22,44]（第4.3节）上进行了比较。在第4.4节中，我们进行了广泛的消融研究，以验证PV-RCNN的每个组件。04.1. 实验设置0数据集。KITTI数据集[4]是自动驾驶中最受欢迎的3D检测数据集之一。训练样本有7,481个，测试样本有7,518个，其中训练样本通常被分为训练集（3,712个样本）和验证集（3,769个样本）。Waymo开放数据集是最近发布的、目前规模最大的自动驾驶3D检测数据集。它总共有798个训练序列，约有158,361个LiDAR样本，以及202个验证序列，有40,077个LiDAR样本。它在整个360°场景中标注了物体，而不是KITTI数据集中的90°。我们在这个大规模数据集上评估我们的模型，进一步验证我们提出的方法的有效性。网络架构。如图2所示，3D体素CNN有四个级别，特征维度分别为16、32、64、64。VSA模块中每个级别的两个相邻半径rk设置为（0.4m，0.8m）、（0.8m，1.2m）、（1.2m，2.4m）、（2.4m，4.8m），原始点集抽象的邻域半径为（0.4m，0.8m）。对于提出的RoI-grid池化操作，我们在每个3D提议中均匀采样6×6×6个网格点，每个网格点的两个相邻半径˜r为（0.8m，1.6m）。对于KITTI数据集，检测范围在X轴上为[0, 70.4]m，Y轴上为[-40, 40]m，Z轴上为[-3,1]m，每个轴上的体素大小为（0.05m，0.05m，0.1m）。对于Waymo开放数据集，检测范围在X轴和Y轴上为[-75.2,75.2]m，Z轴上为[-2,4]m，我们将体素大小设置为（0.1m，0.1m，0.15m）。训练和推理细节。我们的PV-RCNN框架从头开始以端到端的方式使用ADAM优化器进行训练。对于KITTI数据集，我们使用批量大小为24，在8个GTX 1080 TiGPU上以学习率0.01进行80个epoch的训练，大约需要05小时。对于Waymo开放数据集，我们使用批量大小为64，在32个GTX 1080 TiGPU上以学习率0.01进行50个epoch的训练，大约需要25小时。采用余弦退火学习率策略进行学习率衰减。对于提议细化阶段，我们随机采样128个提议，正负提议比例为1:1，如果一个提议与真实框的3DIoU至少为0.55，则将其视为正提议用于框细化分支，否则将其视为负提议。在训练过程中，我们采用了广泛采用的3D目标检测数据增强策略，包括沿X轴的随机翻转、全局缩放（缩放因子从[0.95, 1.05]中随机采样）、绕Z轴的全局旋转（随机角度从[-π04 ] .我们还进行了来自其他场景的地面真实采样增强[37]，将一些新的地面真实对象“粘贴”到当前训练场景中，以模拟不同环境中的对象。对于推断，我们保留从3D体素CNN生成的前100个建议，3DIoU阈值为0.7，用于非极大值抑制（NMS）。这些建议在建议细化阶段进一步改进，使用聚合的关键点特征。最后，我们使用NMS阈值0.01来去除冗余的框。04.2. KITTI数据集上的3D检测0为了评估所提出模型在KITTI验证集上的性能，我们在训练集上训练模型，并在验证集上报告结果。为了在KITTI官方测试服务器上对测试集进行评估，模型使用所有可用的训练+验证数据的80%进行训练，剩余的20%数据用于验证。评估指标。所有结果都使用旋转IoU阈值0.7（车辆）和0.5（行人和骑车者）计算平均精度。在官方KITTI测试服务器[11]上，测试集上的平均精度使用40个召回位置计算。表2中的验证集结果使用11个召回位置计算，以与先前的工作结果进行比较。与最先进的方法进行比较。表1显示了PV-RCNN在KITTI测试集上的性能，来自官方在线排行榜。对于车辆类别最重要的3D目标检测基准，我们的方法在易、中、难三个难度级别上的mAP分别提高了1.58%、1.72%、1.73%。对于车辆类别的鸟瞰检测，在易和中等难度级别上，我们的方法也取得了新的最先进性能，而在困难难度级别上略有下降。对于行人和骑车者的性能，我们的方法在所有中等和困难难度级别上都取得了更好或可比的结果。MV3D [1]RGB + LiDAR74.9763.6354.0086.6278.9369.80------------ContFuse [18]RGB + LiDAR83.6868.7861.6794.0785.3575.88------------AVOD-FPN [12]RGB + LiDAR83.0771.7665.7390.9984.8279.6250.4642.2739.0458.4950.3246.9863.7650.5544.9369.3957.1251.09F-PointNet [24]RGB + LiDAR82.1969.7960.5991.1784.6774.7750.5342.1538.0857.1349.5745.4872.2756.1249.0177.2661.3753.78F-ConvNet [35]RGB + LiDAR87.3676.3966.6991.5185.8476.1152.1643.3838.8057.0448.9644.3381.9865.0756.5484.1668.8860.05UberATG-MMF [17]RGB + LiDAR88.4077.4370.2293.6788.2181.99------------0.792.5784.8382.6995.7691.1188.93105350方法模态 Car - 3D检测 Car - BEV检测 Ped. - 3D检测 Ped. - BEV检测 Cyc. - 3D检测 Cyc. - BEV检测0易中难易中难易中难易中难易中难0SECOND-V1.5 [37] 仅LiDAR 84.65 75.96 68.71 91.81 86.37 81.04 - - - - - - - - - - - - PointPillars [13] 仅LiDAR 82.58 74.31 68.99 90.07 86.56 82.81 51.45 41.92 38.89 57.60 48.64 45.78 77.10 58.65 51.9279.90 62.73 55.58 PointRCNN [27] 仅LiDAR 86.96 75.64 70.70 92.13 87.39 82.72 47.98 39.37 36.01 54.77 46.13 42.84 74.96 58.82 52.53 82.56 67.24 60.28 3D IoU Loss [43] 仅LiDAR 86.16 76.50 71.3991.36 86.22 81.20 - - - - - - - - - - - - Fast Point R-CNN [2] 仅LiDAR 85.29 77.40 70.24 90.87 87.84 80.52 - - - - - - - - - - - - STD [40] 仅LiDAR 87.95 79.71 75.09 94.74 89.19 86.42 53.29 42.47 38.3560.02 48.72 44.55 78.69 61.59 55.30 81.36 67.23 59.35 Patches [14] 仅LiDAR 88.67 77.20 71.82 92.72 88.39 83.19 - - - - - - - - - - - - Part- A 2 [28] 仅LiDAR 87.81 78.49 73.51 91.70 87.79 84.61 53.1043.35 40.06 59.04 49.81 45.92 79.17 63.52 56.93 83.43 68.73 61.850PV-RCNN（我们的方法）仅LiDAR 90.25 81.43 76.82 94.98 90.65 86.14 52.17 43.29 40.29 59.86 50.57 46.74 78.60 63.71 57.65 82.49 68.89 62.410改进 - +1.58 +1.72 +1.73 +0.24 +1.46 -0.28 -1.12 -0.06 +0.23 -0.16 +0.76 +0.82 -0.57 +0.19 +0.72 -0.94 +0.16 +0.560表1. 在KITTI测试集上的性能比较。结果通过40个召回位置的平均精度进行评估。0方法参考模态 3D mAP0MV3D [1] CVPR 2017 RGB + LiDAR 62.68 ContFuse[18] ECCV2018 RGB + LiDAR 73.25 AVOD-FPN [12] IROS 2018 RGB +LiDAR 74.44 F-PointNet [24] CVPR 2018 RGB + LiDAR 70.920VoxelNet [45] CVPR 2018 仅LiDAR 65.46 SECOND [37] Sensors 2018仅LiDAR 76.48 PointRCNN [27] CVPR 2019 仅LiDAR 78.63 Fast PointR-CNN [2] ICCV 2019 仅LiDAR 79.00 STD [40] ICCV 2019 仅LiDAR79.800PV-RCNN（我们的方法）-仅LiDAR 83.900表2. 在KITTI valsplit数据集的中等级别车辆类别上，通过11个召回位置计算的mAP进行性能比较。0IoU阈值03D mAP BEV mAP0简单中等困难简单中等困难0表3. 在KITTI valsplit数据集上，通过40个召回位置计算的mAP进行车辆类别的性能比较。0方法 PointRCNN [27] STD [40] PV-RCNN（我们的方法）0召回率（IoU=0.7） 74.8 76.8 85.50表4. 在KITTI valsplit数据集的中等难度级别上，不同提案生成网络对车辆类别的召回率。0在易度级别上取得了稍差的结果，我们认为关键点数量有限可能会影响尺寸较小的对象的性能。截至2019年11月15日，我们的方法在车辆3D检测排行榜中排名第一，包括RGB+LiDAR方法和仅LiDAR方法，而且在骑行者3D检测排行榜中排名第一，仅次于所有已发布的仅LiDAR方法。这些显著的改进证明了PV-RCNN的有效性。同样，如表2所示，我们的方法在KITTI valsplit上的最重要的车辆类别上优于之前的最先进方法。在表3中还提供了R 40的性能供参考。04.3. Waymo Open数据集上的3D检测0为了进一步验证我们提出的PV-RCNN的有效性，我们评估了PV-RCNN在新发布的大规模WaymoOpen数据集上的性能。0评估指标。我们采用官方发布的评估工具来评估我们的方法，其中平均精度（mAP）和平均精度加权（mAPH）用于评估。对于车辆，旋转IoU阈值设置为0.7。测试数据分为两种方式。第一种方式是基于物体到传感器的不同距离：0-30米，30-50米和大于50米。第二种方式是将数据分为两个难度级别，其中LEVEL1表示具有超过5个内部点的真实对象，而LEVEL2表示至少具有1个内部点的真实对象。与最先进的方法进行比较。表5显示，我们的方法在3D物体检测方面的mAP增益为7.37％，在鸟瞰物体检测方面的mAP增益为2.56％，显著优于之前的最先进方法[44]。结果表明，我们的方法在所有感兴趣的距离范围内都实现了显着更好的mAP，其中在30-50米的范围内，最大增益为9.19％，这验证了我们提出的多尺度点-体素集成策略能够有效捕捉更准确的上下文信息，从而提高3D检测性能。如表5所示，我们的方法在mAPH方面也取得了优越的性能，这表明我们的模型对车辆的航向方向预测准确。表5还报告了LEVEL2难度级别上的结果，我们可以看到，即使对于内部点少于5个的对象，我们的方法也表现良好。大规模WaymoOpen数据集上的实验结果进一步验证了我们提出的框架在各种数据集上的泛化能力。04.4. 消融研究0在本节中，我们进行了广泛的消融实验

下载后可阅读完整内容，剩余1页未读，立即下载