金字塔R-CNN：提高三维目标检测的性能和适应性

143 浏览量更新于2023-10-13 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2723金字塔R-CNN：提高三维目标检测的性能和适应性嘉庚茂1敏哲牛2皓月白3晓丹亮4†徐航2徐春景2摘要我们提出了一个灵活和高性能的框架，名为金字塔R-CNN，用于从点云中进行两阶段3D对象检测。目前的方法通常依赖于感兴趣的点或体素用于第二阶段的RoI特征提取，但不能有效地处理那些点的稀疏性和非均匀分布，并且这可能导致在检测远处的对象时失败为了解决这些问题，我们提出了一种新的第二阶段模块，名为金字塔RoI头，自适应地学习稀疏的兴趣点金字塔RoI头由三个关键组件组成。首先，我们提出了RoI网格金字塔，它通过广泛收集每个RoI的兴趣点，以金字塔的方式来减轻稀疏性其次，我们提出了RoI-grid Atten- tion，这是一种新的操作，可以通过将传统的基于注意力和基于图形的点算子合并到一个统一的公式中来从稀疏点第三，我们提出了密度感知半径预测（DARP）模块，它可以通过动态调整ROI的聚焦范围来适应不同的点密度水平。结合这三个组件，我们的金字塔- mid RoI头是强大的稀疏和不平衡的cir-cumstances，并可以应用于各种3D骨干，以不断提高检测性能。广泛的实验表明，Pyramid R-CNN在KITTI数据集和Waymo Open数据集上的表现都大大优于最先进的3D检测模型。1. 介绍3D物体检测是机器人和自动驾驶感知系统的关键组成部分，旨在以3D点云作为输入来检测车辆、行人和其他物体。在本文中，我们提出了一种通用的两阶段3D检测框架，称为Pyramid R-CNN，它可以应用于多个3D主干，以增强检测适应性和性能。在现有的3D检测框架中，两阶段检测模型[39，30，27，5，28]优于大多数单阶段检测模型。1香港中文大学2华为诺亚3香港科技大学4中山大学†通讯作者：xdliang328@gmail.com百分之八占7%占6%百分之五百分之四百分之三百分之二百分之一0%的百分比050100150200250300350400450 500的点数图1. KITTI数据集的统计结果。蓝色条表示物点数的分布。橙色条表示金字塔R-CNN中ROI收集的点数的分布。我们的方法可以减轻点云的稀疏性和分布不平衡的问题。阶段3D探测器[45，37，14，38，29]由于RoI细化阶段而具有显著的与在第二阶段应用RoIPool [8]或RoIAlign[11]来裁剪密集特征图的2D对应物[9，8，26，11，2]不同，3D检测模型通常对感兴趣点执行各种RoI特征提取操作。例如，Point R-CNN [29]利用基于点的主干来生成3D建议，将建议附近的点视为兴趣点，并对那些稀疏点应用区域池化以进行框细化; Part-A2Net [30]利用基于体素的主干进行建议生成，使用上采样的体素点作为帧间点，并对每个RoI的那些体素点应用稀疏卷积; PV-RCNN [27]将整个场景编码为一组关键点，并利用关键点作为RoI网格池化的帧间点。这些兴趣点来源于原始点云，包含丰富的细粒度信息，这是ROI细化阶段所需的。然而，感兴趣点不可避免地遭受输入点云的稀疏性和非均匀分布特性。如图1中KITTI数据集[7]的统计结果所示：1）点云在某些对象中可能非常稀疏7%以上的物体的点数小于10个，其可视化形状大多不完整。因此，如果没有足够的上下文信息，就很难识别它们的类别2）物点分布极不均衡。KITTI上的物点数量从少于10个到多于500个不等，并且当前的RoI操作无法处理im-对象中的点Pyramid R-CNN的ROI收集的点百分比2724有效平衡条件3）感兴趣点的数量仅占输入点或体素的一小部分，例如[27]中的2k个关键点相对于15k个总输入点，这加剧了上述问题。为了克服上述限制，我们提出了Pyramid R-CNN，这是一种通用的两阶段3D检测框架，可以有效地检测对象并适应环境变化。我们的主要贡献在于设计了一种新的ROI特征提取头，命名为金字塔ROI头，它可以应用于多个3D骨干和兴趣点。金字塔ROI头部由三个关键部件组成。首先，我们提出了RoI网格金字塔。考虑到观察到ROI内的兴趣点对于对象识别来说太稀疏，我们的ROI网格金字塔通过将标准的一级ROI网格扩展到金字塔结构来捕获ROI外的更多兴趣点其次，我们提出了RoI-网格注意力，一个有效的操作，以提取RoI-网格功能的兴趣点。RoI-grid Attention通过将这些公式组合成统一的公式来利用基于图和基于注意力的点运算符的优点，并且它可以通过动态地关注RoI附近的关键兴趣点来适应不同的第三，我们提出了密度感知半径预测（DARP）模型，它可以预测每个感兴趣区域的特征提取半径，条件是感兴趣点的相邻分布。因此，我们可以通过自适应地调整每个ROI的聚焦范围来解决不平衡的分布问题结合所有上述组件，金字塔RoI头显示出对不同点云稀疏度水平的适应性，并且可以准确地检测仅具有几个点的3D对象。我们的Pyramid R-CNN与基于点的[29]，基于体素的[30]和基于点-体素的[27]框架兼容，并显着提高了检测精度。我们将主要贡献总结如下：1) 我们提出了Pyramid R-CNN，这是一个通用的两阶段框架，可以应用于多个主干，以实现准确和鲁棒的3D对象检测。2) 我们提出了金字塔ROI头，它结合了ROI网格金字塔， ROI 网格注意力，和密度感知半径预测（DARP）模块一起miti门的稀疏性和非均匀分布的问题。3) 金字塔R-CNN始终优于基线，达到82。KITTI数据集上的08%中等汽车mAP，在Waymo车辆检测测试排行榜上仅LiDAR方法中排名第12. 相关工作单级3D物体检测。单级方法可分为3个流，即基于点的、基于体素的和基于柱的。基于点的单级检测器通常将原始点作为输入，并应用集合抽象[25，20]来获得用于框预测的点特征。3DSSD [38]引入了一种新的类似于原始点云的应用策略。Point-GNN [31]提出了一个图形运算符来聚合点信息以进行对象检测。基于体素的单级检测器通常将点云光栅化为体素网格，然后应用2D和3D CNN来生成3D建议。Vox-elNet [45]将点划分为体素，并利用3D CNN来聚合体素特征以用于建议生成。SECOND [37]通过引入3D稀疏卷积改进了体素特征学习过程。CenterPoints [41]提出了一种基于中心的分配，可以应用于特征图以进行准确的位置预测。基于柱的方法通常将点云转换为鸟瞰图（BEV）柱，并将2D CNN应用于3D对象检测。PointPillars [14]是第一个引入柱表示的作品基于支柱的网络[35]通过提出圆柱视图投影扩展了这一想法。与两阶段方法不同，单阶段方法不能受益于细粒度的点信息，这对于准确的框预测是至关重要的。两阶段3D物体检测。基于兴趣点的表示，两阶段方法可以分为3个流，即，基于点、基于体素和基于点-体素。基于点的方法将采样点云视为兴趣点。PointRCNN [29]从原始点云生成3D建议，并提出区域池以提取RoI特征用于第二阶段细化。STD [39]提出了一种稀疏到密集的策略，并使用PointsPool操作进行RoI细化。基于体素的方法使用来自3D CNN的体素点作为感兴趣点。部分-A2Net [30]在上采样体素点上应用3D稀疏卷积以进行RoI细化。Voxel R-CNN [5]利用Voxel RoI Pooling从体素中提取RoI特征。基于点体素的方法使用将整个场景编码为兴趣点的关键点。PV-RCNN [27]设计了RoI网格池，以聚合RoI附近的关键点特征PV-RCNN++[28]提出了向量池，以有效地收集不同方向的关键点特征。与以前的方法相比，我们的Pyramid R-CNN表现出更好的性能和鲁棒性，并且与所有兴趣点的表示兼容。3. 金字塔R-CNN在本节中，我们将详细介绍Pyramid R-CNN的设计，这是一个用于3D对象检测的通用两阶段框架我们首先在3.1中介绍整体架构。然后，我们将介绍金字塔ROI头中的三个关键组件：3.2中的RoI网格金字塔，3.3中的RoI网格注意力，以及3.4中的密度感知半径预测（DARP）模块。3.1. 整体架构在这里，我们提出了一个新的两阶段框架，用于精确和鲁棒的3D对象检测，称为Pyramid R-CNN，如图2所示。该框架可以与多个主干兼容，例如基于点的主干、基于体素的主干或基于点体素的后向主干。2725网格网格N图2.整体架构。我们的金字塔R-CNN可以插在不同的主干上（例如，基于点的、基于体素的和基于点-体素的网络），其在阶段-1上生成3D提议和兴趣点（黄点）。在第2阶段，我们提出了可以应用于3D提案和兴趣点的金字塔ROI头。在金字塔RoI头中，首先构建RoI网格金字塔以捕获更多上下文信息。然后，对于每个RoI网格点（红色点），通过密度感知半径预测模块学习聚焦半径r（红色虚线圆）最后，在r内的兴趣点上执行RoI网格注意以用于框细化。骨头在第一阶段，这些主干输出3D propos- als和相应的Point of Interest：e.G. [29]中RoI附近的点云，[30]中的上采样体素和[27]中的关键点。在第二阶段，我们提出了一种新的金字塔ROI头，它由三个关键组件组成：ROI网格金字塔，ROI网格注意力，和密度感知半径预测（DARP）模块。对于每个RoI，我们首先建立一个RoI网格金字塔，通过逐渐扩大每个金字塔级别中原始RoI的大小，RoI网格点的坐标由扩大的RoI确定很难被认出来。在下面的部分中，我们将介绍详细的配方。RoI特征提取通常依赖于针对每个RoI的RoI网格，并且RoI网格点分别在2D或3D情况下收集相邻像素或相邻兴趣点假设我们有一个RoI，W，L，H作为宽度，长度和高度，（xc，yc，zc）作为左下角，在标准RoI网格表示中，（i，j，k）RoI网格点位置pijk可以计算为：大小和网格大小。在每个金字塔级别中，聚焦ijkW L HRoI网格点的半径r从全局上下文向量通过密度感知半径预测p网格=（，，W LN）·（0. 5+（i，j，k））+（xc，yc，zc），（1）模块。然后执行由r参数化的RoI网格Attention以将兴趣点的特征聚合到RoI网格中。最后，RoI网格特征被增强并被馈送到两个单独的头中用于分类和回归。我们将在以下部分中描述这些关键组件。3.2. RoI栅格金字塔在本节中，我们将介绍RoI网格金字塔，这是一个简单而有效的模块，可以捕获丰富的上下文，同时仍然保持内部结构信息。与在密集骨干特征上分层编码上下文信息的2D特征金字塔[18]不同，我们的RoI-网格金字塔通过以金字塔方式逐渐将网格点置于RoI之外而应用于每个RoI。这种设计背后的想法是基于以下观察：RoI内的图像特征通常包含足够的语义上下文，而RoI内的点云包含相当有限的信息，因为对象点自然稀疏且不完整。即使每个点具有大的感受野，ROI内的稀疏组成3D形状也是其中（Nw，Nl，Nh）是三维中的网格尺寸，并且所有网格点都在ROI内生成仅利用RoI内部的特征在2D检测模型中工作良好，主要是由于两个事实：输入特征图是密集的并且所收集的像素具有大的接收场。然而，在3D模型中情况不同。如图3所示，兴趣点在ROI内自然稀疏且非均匀分布，并且对象形状极不完整。因此，通过仅收集很少的单个点的特征而不参考足够的邻近点信息，很难准确地推断物体的大小和类别。为了解决上述问题，我们提出了RoI网格金字塔，它平衡了细粒度和大的上下文信息。详细结构见图3。其核心思想是构建一个金字塔网格结构，其中包含RoI内外的RoI网格点，以便RoI内的网格点可以捕获细粒度的形状结构以进行精确的框细化，而RoI外的网格点可以获得大量的上下文信息以识别。不完整的对象。金字塔的网格点pijkNH2726−--网格网格POSPOS网格f=p=（Ⓢ·POSΣf=·POSΣΣPOS(a) 标准RoI栅格（b）RoI栅格金字塔两阶段3D检测模型[27，5，28]。相邻特征fi和相对位置pip网格首先经过MLP层以获得变换后的特征向量：Vi=MLP（[fi，pip网格]），其中[ ]是关联函数，然后对所有变换后的特征V应用最大池化操作以获得RoI网格特征f池：f池=maxpool（Vi），（3）(c)（a）中的对象/上下文点(d)（b）中的对象/上下文点图3. RoI栅格金字塔的图示。（a）中的红点是RoI网格点，不同的颜色表示（b）中的不同金字塔级别。在（c）和（d）中，红色点是物点，蓝色点是由RoI捕获的上下文点。与标准RoI网格相比，我们的RoI网格金字塔可以捕获更多的上下文点，同时保持细粒度的内部结构，并通过查看RoI外的相邻车辆和交通标志（蓝色上下文点），红色对象点的集群更容易被识别为汽车。水平可以计算为：i∈Ω（r）其中，Ω（r）表示RoI网格点p网格的固定半径r内的兴趣点。基于池化的算子仅关注最大信道响应，并且这导致大量语义和几何信息的丢失。基于图形的运算符。基于图形的运算符可以将网格点和兴趣点建模为图形。图节点i表示fi的变换特征：Vi=MLP（fi），边Qi可以用公式表示为两个节点之间位置差异的线性投影：Qi=Linear（pi-pgrid）。对于图形节点对于网格点p网格，通过加权组合操作从相邻节点收集特征f图。遵循与Eq.3、通式可IJK网格ρwWNw′，ρlL，Nl′ρhHNh′ ）·（0. 5+（i，j，k））+（xc，yc，zc），（二）表示为图形网格ipos）Vi，⑷其中ρ是原始RoI尺寸的放大率。ρ在底层从1开始以用于维护细粒度细节，并且当级别变高时变得更大以捕获更多上下文信息。网格大小N′在底层初始化为与原始N相同的值，并在更高的级别变得更小以进行保存计算资源。对于每个金字塔级别，网格点fgrid的特征然后通过来自兴趣点的特征的RoI-网格Atten- tion来最后，将所有金字塔级别的特征组合用于框细化。3.3. RoI-grid注意在本节中，我们将介绍RoI-grid Attention，这是一种新颖的RoI特征提取操作，它结合了i∈Ω（r）其中函数W（）将图边缘嵌入投影到标量或向量权重空间中，并且表示学习的权重和图节点之间的Hadamard积、点积或标量-向量基于注意力的操作员。基于注意力的运算符也可以应用于网格点和兴趣点。Qi在等式中4可以看作是查询嵌入从网格点p到点pi。Vi是从特征fi获得的值嵌入，如等式 4. 第一章密钥嵌入 Ki 可以用公式表示为Ki=Linear（fi）。因此，标准注意力可以表述为最先进的基于图形和基于注意力的点运算符[36，34，43]到一个统一的框架中，RoI网格注意力可以作为传统池化的更好替代品atten网格i∈Ω（r）我POSKi）（五）基于3D检测模型中的操作[27，5，28首先讨论了基于池化、基于图和基于注意力的点算子的计算公式，然后推导了RoI-网格注意力的计算公式。初步的。设p网格为RoI网格的坐标附加的标准化功能，即应用softmax在W（）中。最近提出的点Transformer [43]扩展了标准注意力的思想，公式可以表示为点，并且pi，fi是p网格附近的第i个感兴趣点的坐标和对应的特征向量。RoI特征提取操作旨在获得相应的TR网格=i∈Ω（r）W（Ki+Qi）（Vi+Qi）的情况。（六）特征向量f网格的RoI网格点p网格，使用相邻的信息pi和fi。基于池的操作员。基于池化的算子被广泛应用于大多数领域的RoI特征提取RoI网格注意。在我们的方法中，我们分析的结构相似性方程。4，等式5和Eq。六、我们发现这些公式具有共同的基本元素和运算符。因此W（QW（QF2727.|Σf=W（σK+σQgridkqPOS我我POSPOSPOS∗|τ||||||||||我图4. RoI网格注意力图示。RoI-grid Attention引入了可学习的门控函数σs来动态选择过程，并进一步提出密度感知半径预测（DARP）模块，旨在学习一个自适应邻域的ROI特征提取。我们首先从概率的角度介绍了RoI-网格注意力的一般公式。接下来，我们提出了一种新的方法来区分r的学习。最后介绍了DARP模块的设计。RoI-grid Attention由两个步骤组成：首先选择半径r内的兴趣点，然后对这些点进行加权组合。使用与3.3相同的符号，我们可以将第一步重新表述为从条件分布p（i）中采样|r）：注意力组件，它提供了一个统一的公式，包括传统的图形和注意力运营商。具有门控功能的框架我们将这个新公式p（i r）=0||2>r||2> r1||2≤r||2 ≤r（八）RoI-grid注意：然后，第二步可以表示为计算概率期望：我我POSi∈Ω（r）+σqkQiKi）（七）f网格 =Ei p（i|（r）[WiVi]，（9）（V+σvQpos），其中Wi表示W（σkKi+σqQi+σqkQiKi）和Vi表示（V i+ σvQi），符号略有滥用。其中σ是可学习的门控函数，其可以通过具有S形激活输出的相应嵌入的线性投影来实现。RoI-grid Attention是一个广义的公式，结合了基于图形和基于注意力的操作。我们可以推导出图运算符Eq. 4、Eq。当σq，σk，σqk，σv分别为1，0，0，0时，σ k = 1，σ k = 0，σq = 1，σ k = 0，σ q = 1，σ k = 0，σ q = 0，σ v= 0，σq = 1，σ k = 0，σ q = 1，σ q = 1，σ k = 0，σ q = 1，σ q= 1，σ q = 1，σ k = 0，σ q = 1，σ q = 1，σ q = 1，σ q= 0，σ q = 1，σ q = 1，σ q = 1，σ同样，我们可以推导出标准的注意力方程。当σq、σk、σqk、σv为0、0、1、0时，或当σq、σ k、σ qk、σ v为0、0、1、0时，当σq，σk，σqk，σv分别为1，1，0，1时，σk = 6。RoI-grid Attention是一种灵活有效的RoI特征提取操作。利用可学习的门控函数，RoI网格注意力能够从几何信息 Q_pos和语义信息 K 以及它们的组合Q_pos_K自适应地学习哪个点对RoI网格点有意义利用σv，RoI-网格Attention还可以学习平衡在特征聚集中使用的几何特征Qpos和语义特征V的比率。与基于池的方法相比，RoI网格Atten中仅我们提出一个新的概率分布s（i r）作为p（i r）的替代，并且s（i r）应满足两个要求：i）s（i，r）应该具有与p（i，r）类似的特性，这意味着从s（i，r）采样的大多数点应该在r内部; ii）s（i，r）还应该在r外部留下一些点，主要用于探测周围环境。因此，我们用公式表示概率s（i|r）为：s（i|1- 2 - 3 - 4 - 5 - 6 - 5 - 6 - 7 - 10-||pi−p栅格||2−r），（10）其中sigmoid（x）=（1 +e−x）−1，τ是控制概率衰减率的温度。在小τ的情况下，当pi在r内部时s（i，r）接近1，并且如果在外部则接近0，而在球形边界附近，采样概率s（i，r）在0和1之间。利用s（i r）作为p（i r）的平滑近似，我们想要从近似的RoI网格计算r的梯度Tion，其保持计算效率。更换-rfgrid = |r）[W] i[2 0 0 5 年 ]。（十一）将基于池化的算子与RoI-网格注意力相结合，可持续提高检测性能。3.4. 密度感知半径预测在本节中，我们研究半径r的学习问题，半径r决定了参与特征提取过程的相邻兴趣点的范围Ω（r）。半径r是在3.3中的所有点算子中使用的超参数，并且必须由先前方法中固定和预定义的r不能适应点云的密度变化，并且如果设置不正确，可能导致空的球面范围。在本文中，我们使r的预测是全可微的2728我我然而，取导数w.r.t. r仍然是不可行的，因为我们不能直接计算参数化分布的梯度。重新参数化技巧[12]提供了一个可能的解决方案。关键的见解是从基本分布中采样，然后将原始分布参数作为系数移动到期望函数中。r的梯度可以计算为：rfgrid=Ei其中s（i，r）与等式（1）相同理论分布U（ω）= 1意味着在整个3D空间中采样概率为1 实际上，考虑到2729- -Σf=W（σK+σQgridkqPOS我我图5.密度感知半径预测模块预测的动态半径的图示。对于每个RoI，基于稀疏性条件学习自适应聚焦半径。s（i，r）接近于0时，我们应用一种近似，将采样范围U（i，r）限制在半径略大于r的球面内，即r+ 5τ。这种近似将计算开销降低到与普通RoI网格注意力相同的水平。因为s（i，r）是一个可微函数w.r.t.r，我们能够使用等式以微分方式计算r的梯度12个。RoI-grid注意力的新公式可以表示为158k个点云样本）和验证集中的202个序列（大约40k个点云样本）。官方评估指标是标准的3D平均精度（mAP）和mAP按航向精度加权（mAPH）。这两个度量都基于车辆的IoU阈值0.7和其他类别的IoU阈值0.5。测试样品以两种方式分开。第一种方法是基于物体到传感器的距离：0 30m、30 50m和>50m。第二种方法是根据难度等级：Level 1表示具有五个以上LiDAR点的盒子，Level2表示具有至少一个LiDAR点的盒子。KITTI数据集。KITTI数据集包含7481个训练样本和7518个测试样本，训练样本进一步分为训练分割（3712个样本）和val分割（3769个样本）。官方评估指标是具有旋转IoU阈值的平均精度（mAP）0.7汽车在测试集上，由官方服务器用40个召回位置计算mAPval集上的结果是用11个召回位置计算的，以便与其他方法进行公平我们提供了3种金字塔R-CNN架构，与基于点的，基于体素的和基于点的我我POSi∈U（）+σqkQiKi）（十三）基于体素的主干。我们希望读者参考[33]以了解这些主干的详细设计。（V +σvQpos）·s（i，r）.与香草RoI网格注意在Eq。在图7中，使用稍大的采样范围r+ δτ，并且将系数s（i，r）添加到原始公式中，这花费很少的额外资源。虽然有几种近似方法被应用，但我们发现它们我们进一步提出了基于Eq. 十三岁对于每个金字塔层，通过汇总该RoI附近的兴趣点的信息来获得上下文嵌入，然后利用嵌入来预测该层中所有网格点的半径rr通过s（i，r）进一步变换为系数，并参与RoI网格注意力的计算。由于上下文嵌入捕获点云信息，即.密度、形状等，预测的R能够适应环境变化，并且比人类定义的对应物更鲁棒。4. 实验在本节中，我们在常用的Waymo Open数据集[32]和KITTI [7]数据集上评估了我们的Pyramid R-CNN。我们首先在4.1中介绍实验设置，然后将我们的方法与4.2中Waymo Open数据集和4.3中KITTI数据集上的先前最先进的方法进行比较。最后，我们进行消融研究，以评估4.4中每个组件的有效性。4.1. 实验装置Waymo开放数据集。 Waymo开放数据集包含共1000个序列，其中798个序列（约Pyramid-P.PyramidR-CNN forP points是基于基于点的方法PointRCNN [29]构建的。特别地，我们用我们在Pyramid R-CNN中提出的金字塔RoI头替换了PointR-CNN的规范3D框细化模块，并且我们仍然使用[29]中的采样点作为兴趣点。点云主干和其他配置保持相同，以进行公平比较。Pyramid-V。用于体素的Pyramid R-CNN基于基于体素的方法Part-A2Net [30]构建。具体地，我们将部分A2Net的3D稀疏卷积头替换为Pyramid R-CNN中我们提出的金字塔RoI头，并且我们仍然使用上采样的体素作为兴趣点。基于体素的主干和其他配置保持相同，以进行公平的比较。Pyramid-PV. 基于基于点体素的方法PV-RCNN [ 27 ]设计用于点-体素的金字塔R-CNN。特别地，我们用我们在Pyramid R-CNN中提出的金字塔RoI头替换PV-RCNN的RoI网格池化模块，并且我们仍然使用关键点作为帧间点。关键点编码过程、3D稀疏卷积网络和其他配置保持相同以进行公平比较。实施详情。在这里，我们只介绍了Waymo Open数据集上的Pyramid-PV其他型号的实现方式类似，可在补充资料中找到。在RoI-网格Atten- tion中，注意头的数量设置为4，每个头包含16个特征通道。在DARP模块中，从半径为2的两个球体内的相邻兴趣点提取上下文嵌入。4米和4。8米温度τ从0开始。02和指数下降-2730方法1级3DmAP/mAPH2级3DmAP/mAPH1级3D mAP/mAPH（按距离）0-30m 30-50m 50m-Inf[第14话]63.3/62.755.2/54.784.9/84.459.2/58.635.8/35.2MVF [44]62.93/--86.30/-60.02/-36.02/-支柱外径[35]69.8/--88.5/-66.5/-42.9/-AFDet [6]63.69/--87.38/-62.19/-29.27/-LaserNet [21]52.1/50.1-70.9/68.752.9/51.429.6/28.6CVCNet [3]65.2/--86.80/-62.19/-29.27/-[22]第二十二话64.7/56.345.5/39.683.3/82.458.8/53.234.3/25.7刚果民主共和国[1]69.0/68.5-87.2/86.866.5/66.144.5/44.0Voxel R-CNN [5]75.59/-66.59/-92.49/-74.09/-53.15/-[29]第二十九话45.05/44.2537.41/36.7472.24/71.3131.21/30.4123.77/23.15Pyramid-P（我们的）47.02/46.5839.10/38.7674.24/73.7832.49/31.9625.68/25.24[30]第30话71.69/71.1664.21/63.7091.83/91.3769.99/69.3746.26/45.41Pyramid-V（我们的）75.83/75.2966.77/66.2892.63/92.2074.46/73.8453.40/52.44PV-RCNN [27]70.3/69.765.4/64.891.9/91.369.2/68.542.2/41.3Pyramid-PV（我们的）76.30/75.6867.23/66.6892.67/92.2074.91/74.2154.54/53.45表1.Waymo Open Dataset上的性能比较，其中包含202个车辆检测验证序列*：我们自己用官方代码重新实现。方法1级3DmAP/mAPH2级3DmAP/mAPH1级3D mAP/mAPH（按距离）0-30m 30-50m 50m-Inf[41]第四十一话81.05/80.5973.42/72.9992.52/92.1379.94/79.4361.06/60,42PV-RCNN [27]81.06/80.5773.69/73.2393.40/92.9880.12/79.5761.22/60.47Pyramid-PV‡（我们的）81.77/81.3274.87/74.4393.19/92.8080.53/80.0464.55/63.84表2. Waymo Open Dataset测试排行榜上车辆检测的性能比较。*：测试提交是原始架构的修改版本。‡：我们在[27]之后附加另一个帧，并使用更大的体素主干。cays为0。0001最后RoI-网格金字塔由5个层级组成，网格点的数量分别为63、43、43、43、1，并且对于每个金字塔层级，预测聚焦半径r并且在该层级中的所有网格点之间共享放大比ρw和ρl被设置为1、1、1。5、2、4，并且在所有金字塔层级中ρh设置为1对于相应的金字塔等级，每个栅格点参与RoI栅格注意力的最大点数设置为8、16、16、16、32训练和推理细节。我们的金字塔R-CNN 使用ADAM优化器从头开始训练。对KITTI数据集，Pyramid-P，Pyramid-V和Pyramid-PV是用相同的批量大小16，学习率0训练的。010 010 005，在8个V100 GPU上进行80个epoch。在Waymo Open数据集上，我们统一采样20%的帧进行训练，并使用完整的验证集进行评估[27]。Pyramid-P、Pyramid-V和Pyramid-PV使用相同的批量大小32进行训练，学习率为0。01的40个时期。采用余弦退火学习率策略进行学习率衰减。其他配置与相应的基线[29，30，27]保持相同，以进行公平比较。4.2. Waymo开放数据集我们在Waymo Open数据集上评估了Pyramid R-CNN的性能。表1中的验证结果表明，我们的Pyramid-P、Pyramid-V和Pyramid-PV显著优于基线方法，其中2。0%，4.第一章1%和6。0%的mAP增益，并在所有难度水平和所有距离范围内实现super-perior mAP，这表明我们的方法的有效性和通用性。值得注意的是，Pyramid-V超过PV-RCNN 12。3%的mAP检测目标是>50米，这表明我们的方法的适应性非常稀疏的条件。我们的金字塔- PV优于所有以前的方法，具有显著的利润率，并实现了新的最先进的性能76。30%mAP和67. 1级23%mAP2级难度。在表2中，我们的Pyramid-PV ‡达到81。77%LEVEL1mAP，在Waymo上排名第1截至2021年3月10日的车辆检测排行榜，并超过了所有仅使用激光雷达的方法。4.3. KITTI数据集我们在 KITTI数据集上评估了我们的Pyramid R-CNN。表3中的测试结果表明，我们的Pyramid-P、Pyramid-V和Pyramid-PV始终优于基线方法，具有4。66%，2. 79%和0。65%mAP增益分别在中型车级，金字塔- PV达到82。08%的mAP，成为新的最先进的。表 4 中的验证结果表明， Pyramid-P 、 Pyramid-V 和Pyramid-PV 将基线提高了 4 。 47% ， 3. 67% 和 0 。69%mAP的中型车类，和1。06%、0. 07%和0. 硬车类分别为14%mAP。我们注意到，性能增益主要来自硬情况，这表明我们2731·[30]第三十话L87.8178.4973.51Pyramid-V（我们的）L87.0681.2876.85方法推理速度（Hz）表5. Pyramid-PV中不同组件对Waymo数据集的影响。R.P.：RoI网格金字塔D.A.R.P.：密度感知半径预测模块。R.A.：RoI-网格Atten- tion。*：我们自己用官方代码重新实现。方法网格大小ρw，ρl1级mAPPV-RCNN[6、6][1，1]74.06（一）[6，4，4]【一、一、二】74.55（b）第（1）款[6，4，4，4]【一、一、二、四】74.71（c）第（1）款[6，4，4，4，1][1，1，1.5，2，4]75.26表6. Pyramid-PV中不同RoI金字塔对Waymo数据集的影响。[ ]中的每个元素代表金字塔层级的相应参数。表3. KITTI测试集上的性能比较，其中AP由汽车类别的40个召回位置R+L表示PV-RCNN [27]Pyramid-PV（我们的）9.257.86结合RGB数据和点云的方法。L表示仅LiDAR方法。方法AP3D（%）简易模块硬[29]第二十九话88.8878.6377.38Pyramid-P（我们的）88.4783.1078.44[30]第三十话89.4779.4778.54Pyramid-V（我们的）88.4483.1478.61PV-RCNN [27]89.3583.6978.70Pyramid-PV（我们的）89.3784.3878.84表4. KITTIval分割与AP的性能比较，由汽车类别的11个KITTI数据集上的观察结果与Waymo Open数据集上的观察结果一致。4.4.消融研究不同成分的影响。如表5所示，在Waymo验证集上，Pyramid-PV模型的RoI网格Pyramid比基线提高了1。20%的mAP，主要是因为RoI网格金字塔能够捕获大的上下文信息，这有利于检测困难情况。基于RoI网格金字塔，将RoI网格池化替换为RoI网格注意力，可将性能提升0。51%mAP，这表明RoI-网格注意是比RoI-网格池化更有效的操作。使用自适应半径r代替固定的ra。表7.不同检测模型在KITTI数据集上的推理速度比较。dius将性能提高0. 37%mAP，这证明了DARP模块的功效。不同金字塔配置的效果如表6所示，我们发现，与仅具有ρ w，ρ l = 1的标准RoI网格相比，具有ρ w，ρl> 1的RoI网格金字塔增强了性能，这主要是因为将一些网格点放置在RoI外部编码更丰富的上下文。使用的网格点总数为409，与[27]中使用的432个网格点相当推理速度分析。我们测试的推理速度在单个V100 GPU下，批量大小为1的不同框架，并获得KITTIval split中所有样本的平均运行速度。表7显示，与基线相比，我们的模型保持了计算效率，并且金字塔RoI头仅增加了每帧的少量延迟。5. 结论我们提出了一个通用的两阶段框架金字塔R-CNN，它可以应用于不同的骨干。我们的框架可以处理稀疏和非均匀分布的点云问题，通过引入金字塔ROI头。对于未来的工作，我们计划优化Pyramid R-CNN以实现高效推理。方法模态AP（%）简易模块硬3D方法R.P.D.A.R.P.R.A.1级mAPPV-RCNNPV-RCNN（一）（b）第（1）款（c）第（1）款（d）其他事项√√ √√ √√ √ √70.3074.0675.2675.6375.7776.30MV3D [4]R+L74.9763.6354.00AVOD-FPN[3]R+L83.0771.7665.73F-PointNet [24]R+L82.1969.7960.59MMF [16]R+L88.4077.4370.223D-CVF [42]R+L89.2080.0573.11CLOC [23]R+L88.9480.6777.15联系我们[17]R+L83.6868.7861.67VoxelNet [45]L77.4765.1157.73[第14话]L82.5874.3168.99第二[37]L84.6575.9668.71标准[39]L87.9579.7175.09补丁[15]L88.6777.2071.823DSSD [38]L88.3679.5774.55SA-SSD [10]L88.7579.7974.16TANet [19]L85.9475.7668.32Voxel R-CNN [5]L90.9081.6277.06HVNet [40]L87.2177.5871.79[31]第三十一话L88.3379.4772.29[29]第二十九话L86.9675.6470.70Pyramid-P（我们的）L87.0380.3076.48[29]第二十九话10.08Pyramid-P（我们的）8.92PV-RCNN [27]L90.2581.4376.82Pyramid-PV（我们的）L88.3982.0877.49[30]第三十话11.75Pyramid-V（我们的）9.682732引用[1] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检测的范围调节扩张卷积。 arXiv 预印本 arXiv ：2005.0992

下载后可阅读完整内容，剩余1页未读，立即下载