体素场融合：一种跨模态3D物体检测框架

35 浏览量更新于2023-10-25 收藏 14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

$$ℛ$̂'$(%̂'$(%$$ℛ$̂'$(%̂(%11200体素场融合用于3D物体检测0李彦伟齐晓娟陈宇康王立伟0李泽铭孙剑佳嘉 1 , 40香港中文大学香港大学0旷视科技0摘要0在这项工作中，我们提出了一个概念上简单但有效的跨模态3D物体检测框架，称为体素场融合。所提出的方法旨在通过将增强图像特征表示为体素场中的射线来保持跨模态一致性。为此，首先设计了可学习的采样器，从图像平面中采样关键特征，然后以点对射线的方式投影到体素网格中，这样可以在特征表示中保持空间上下文的一致性。此外，还进行了射线级融合，将特征与构建的体素场中的补充上下文进行融合。我们还开发了器，以对齐特征变换，弥合数据增强中的模态差异。所提出的框架在各种基准测了一致的增益，并在KITTI和nuScenes数据集上优于先前的融合方法。代码可在https://github.com/dvlab-research/VFF找到。101. 引言0在3D场景中进行物体检测被认为是提供真实世界应用准确感知的重要任务。在过去几十年中，研究关注点[15, 27, 38,40,51]一直致力于从原始点云中进行3D物体检测。由于激光雷达传感器的固有属性，捕获的点云通常是稀疏的，无法提供足够的上下文来区分远距离或遮挡区域的困难情况，从而导致这些场景下性能较差。然而，在自动驾驶等安全关键应用中，频繁发生的漏检是不可接受的。为了解决这个问题，先前的研究在跨模态融合中引入了图像特征[13, 32,33]。主要挑战是在这个过程中保持跨模态一致性，这可能会在特征表示中受到破坏。01 本工作的部分内容是在旷视研究中完成的。0体素0表示0体素场0表示0(a) 点对点方式0原始图像0体素0表示0增强0图像0体素场0表示0(b) 点对射线方式0图1.与以往的工作[17,50]相比，1a中的方法将特征从原始图像投影到体素中，并以点对点的方式表示，而1b中的方法将特征从增强图像投影到体素场中，并以点对射线的方式表示。虚线和实线箭头分别表示点级和射线级投影。0考虑到上下文不足和密度变化，以及跨模态不对齐的数据增强。特别是，以往的工作在图1a中以点对点方式表示图像特征，即在每个单点上进行融合，受到点云稀疏性的限制。在这种情况下，由于图像平面上的邻近性无法在3D空间中得到保证，因此无法充分利用图像中的丰富上下文线索。同时，给定增强的点云，传统方法[17,50]通常保持原始图像不变，并在点云中进行反向变换以进行成对对应。然而，由于2D卷积中的翻转和缩放变化，异步增强带来了跨模态不对齐和不稳定性。0在本文中，我们提出了一种新的跨模态框架，称为体素场融合（Voxel FieldFusion，VFF）。首先对两种模态进行混合增强以进行数据级预处理。如图1b所示，VFF将增强的图像特征投影到体素网格中，并以点对射线的方式表示，称为体素场，类似于神经渲染中的表示方法[19,20]。通过这种方式，两种模态的表示得到了很好的对齐，并在体素场中补充了周围的空间上下文。简而言之，VFF的关键思想是通过将增强的图像特征表示为体素场中的射线来保持模态一致性。11210图像到体素的密集渲染通常需要大量资源或需要额外的深度预测模型[25,47]。为了简化这个过程，我们借鉴了神经渲染[19, 20,48]中的最新进展，提出了可学习的采样器和逐射线融合，用于高效的射线构建和跨模态融合。特别地，我们设计了可学习的采样器来选择在具有高响应的激活区域内进行交互的图像特征，其中特征以前面提到的点对射线的方式表示。然后，根据每个射线上的预测分数，在体素场中进行逐射线融合。对于增强中的不对齐问题，我们进一步提出了混合增强器，通过在图像级别上对特征变体的增强（翻转和缩放）进行对齐来弥合这个差距。通过以上设计，可以从特征表示和数据增强的角度以端到端的方式保持跨模态一致性。总体上，所提出的VFF从两个方面有所区别。首先，它以点对射线的方式投影图像特征，并在体素场中表示和融合，消除了模态差异，并为检测困难情况提供了准确的3D上下文。其次，它可以从增强的图像中高效地采样高响应的特征，使网络能够即时构建每条射线。整体框架称为体素场融合，可以与各种基于体素的3D目标检测骨干网络轻松实例化，详细说明见第3节。在第4节中进行了广泛的实证研究，以揭示每个组件的效果。我们进一步在两个广泛采用的数据集KITTI[10]和nuScenes[2]上报告了实验结果。所提出的VFF在KITTI测试集的困难案例上相对于强基线取得了2.2%的AP显著增益。同时，它在nuScenes测试集上超过了以前基于融合的方法，并取得了68.4%的mAP和72.4%的NDS的领先性能。02. 相关工作0基于LiDAR的3D检测。给定点云作为输入，传统的基于LiDAR的方法通常通过其对不规则数据的表示来区分，例如网格和点。基于网格的方法将点云投影到规则网格上，并通过2D或3D网络进行处理。使用2D网络的方法通常构建2D鸟瞰网格[6, 39,40]或伪图像[15]，并在其上方生成3D边界框。与此同时，使用3D网络的方法从划分的点云中构建3D体素，并使用检测头预测边界框[8, 38,44]。基于点的方法直接处理原始点云，并在其上生成3D提议[21, 22, 28, 42]。鉴于点云的稀疏性质，0由于缺乏纹理特征，尤其是在包含多个类别的真实场景中，如nuScenes [2]数据集，识别能力有限。0基于图像的3D检测。以前的基于图像的方法构建网络，并从纯单目或多个图像中提取特征进行3D框预测。给定单个图像，一些基于单目的方法[1, 31,35]尝试直接回归和预测3D框，而其他方法则提出构建中级表示并在其上执行检测[36,47]。由于3D检测需要深度信息，以前的工作还尝试从深度估计[5, 25,30]中增强能力。另一种相对准确的深度的方法是利用立体或多视图图像构建3D几何体积[4, 7,43]，并在其上进行目标检测。尽管从多视图中估计的深度比单个图像中的深度要好得多，但仍然落后于来自LiDAR的准确点云。0跨模态融合。由于每种单一模态的固有限制，有几种方法可以通过跨模态融合来结合图像和激光雷达的优势。具体而言，引入了点级和提议级融合来结合不同模态的特征。点级融合[13, 17,33]通常应用于网络的早期阶段，而基于提议的方式[6, 14,46]通常用于后期的实例级融合。还有一些方法结合了这两种融合方式，例如MVX-Net[32]。与提议级融合相比，点级融合更加细致，也是我们方法中用于深度融合的方式。以往的点级融合方法[13,33]通常以点对点的方式增强图像语义中的点特征，忽略了3D空间中的周围上下文。与它们不同，所提出的体素场融合以点对射线的方式表示增强的图像特征在体素场中，充分利用了两种模态的优点和足够的上下文。03. 体素场融合0总体框架在概念上很简单：设计了混合增强器来对齐模态之间的数据增强；引入了可学习的采样器，以高效选择关键特征进行交互；提出了射线融合来沿着射线融合和组合特征。03.1. 混合增强器0给定从相机和激光雷达捕获的输入，我们首先通过对应关系处理数据，如图2所示。为此，提出了一种称为混合增强器的联合策略，用于处理训练中的增强不一致性，包括样本添加和样本静态增强。Cls.Reg.Dir.F!"F!#X"X#ℛ$$%̂'$(%)F!#11220相机0输入0混合0增强器0图像0体素0采样器-射线融合0射线0构造器0头部特征编码器0图2.三维物体检测的体素场融合框架。首先，不同模态的输入通过混合增强器进行处理，该增强器仅用于训练。然后，分别在特征编码器中提取两种模态的特征，其中在射线构造器中建立了对应关系。在体素场融合中，使用设计的采样器选择与交互相关的重要图像特征。然后，沿着每条射线对高响应特征进行射线融合。利用融合和新生成的体素场特征，应用后续的检测主干和头部来预测最终的三维提议。0表1. 混合增强器中的对应操作。0点类型操作-图像操作0样本添加-GT采样-复制粘贴0样本-静态翻转图像-翻转-重新缩放图像-重新缩放-旋转-重投影0样本添加。样本添加增强定义为从整个数据库中增加每个场景的样本，即GT采样[38]。在这种情况下，我们以复制粘贴的方式[9,49]补充采样的3D对象的RGB数据。这意味着对于每个采样的对象，我们在投影的2D框内裁剪数据，并将其粘贴到输入图像中，其中根据实际深度或裁剪顺序重新组织裁剪。在此过程中，为了避免nuScenes数据集中的跨模态歧义，类似于[34]，我们过滤掉由近距离样本覆盖的遮挡点。0静态采样。静态采样增强包括一组不添加新样本的变换，例如翻转、缩放和旋转。与先前的工作[34,50]不同，该工作利用影响预训练2D卷积的图像级操作进行增强，如表1所总结。具体而言，由于卷积的固有属性，如翻转和缩放的方差，跨模态的异步增强会导致不对齐。例如，如果将翻转操作应用于点云C，但不应用于相应的图像P，则从点ci投影的点pi的左右上下文将被错误放置。我们在表2和表3中进一步验证了所提出的工作流程的有效性。03.2. 体素场构建0通过上述设计的增强器，我们有输入图像XI∈RH×W×3和体素化点云XV∈RX×Y×Z×4，如图2所示。特征编码器使用堆叠的卷积来提取图像和体素的特征FIl和FVl，在第l阶段中，l默认设置为1，并在表7中进一步研究。通过光线构造器，在给定的投影矩阵TVoxel→Image下，在体素场中建立了体素bin vi和图像像素pi之间的对应关系。0体素场。在体素表示中，场景的点云在包含多个bin的体素空间V中捕获。其中的每个单独体素v可以由称为体素场的函数F表示。具体而言，对于具有坐标（x，y，z）的体素binv中的特征FVl,v，我们有FVl,v =F（x，y，z）。在体素场中，通过固定方向从点pi通过体素空间V构造光线Ri∈V。0pi = vjTT Voxel → Image，�vj∈Ri.（1）0这意味着具有相同投影点pi的所有体素binvj被标记为位于第i个光线集Ri中。理论上，如果没有约束，整个集合R的数量可以达到W×H，这会带来随采样点数量线性增加的巨大计算成本。0可学习采样器。为了减轻计算负担，提出了可学习采样器，用于从图像平面选择n个点进行光线交互，从而总共产生n条光线。具体而言，我们首先将图像分割成几个大小为w×w的非重叠窗口，并过滤掉没有投影点pi的空窗口，其中w默认设置为64。与启发式采样方法不同，我们采用可学习策略通过重要性选择关键特征，如图3所示。对于启发式方法，从图像平面随机采样n个特征according to uniformity, density, and sparsity of projectedLiDAR points. Although the heuristic sampling method re-duces the cost for ray construction, it still introduces severaluseless points that could increase computation in this pro-cess. To facilitate the efficiency, a learnable sampler S isfurther proposed, which only conducts the sampling proce-dure from the predicted important sub-region with high re-sponses, as depicted in Figure 3d. Therefore, a set of sam-pled pixels P is achieved by11230（a）按均匀性采样0（b）按密度采样0（c）按稀疏性采样0（d）按重要性采样0图3.不同采样方法的示例。蓝色点表示用于光线交互的采样像素。与启发式方法相比，我们在3d中提出的可学习采样器仅考虑具有高响应的重要绿色区域。0S（P）= U（{pi：1（δ（f（FIl，i）））=1}），（2）0其中 f、δ 和 U分别表示堆叠卷积、sigmoid激活和均匀采样器。如果 p i中的激活响应超过阈值0.5，则指示器1被设置为1。考虑到3D检测中前景实例的重要性，我们将2D对象框内的高斯区域设置为正样本区域，这在第3.4节中进一步解释。这样，采样像素的数量� P以及成本进一步减少。同时，由于提出的可学习采样器，仍然保持了高准确性，如表4所示。03.3. 射线-体素交互0根据方程（1），射线 R i 是由上述设计的采样器 S中的像素ˆ p i 构建的。因此，可以在体素场中使用射线 R i进行跨模态融合。以前的研究[17, 33,34]仅使用来自LiDAR传感器的稀疏点进行融合，没有考虑周围的3D上下文，如图4a所示。因此，一种简单的解决方案是将感知区域扩展到体素空间 V 的半径 r内的点，称为局部融合。在本节中，我们首先介绍基本的局部融合，然后改进它以形成设计的射线融合。0(a) 每个点的单一融合0(b) 带有聚合的局部融合0(c) 带有传播的局部融合0(d) 沿射线的射线融合0图4. 不同融合方法的示例。红色点ˆ v j表示带有LiDAR点的锚点体素。R i 中的绿色点表示球体内的体素 vj。 4d 中的虚线表示用于训练的分配存在概率。0局部融合。在这种情况下，我们设计了两种类型的局部融合作为我们的基准。考虑到沿射线的特征更有可能位于LiDAR点附近，并且更接近的特征通常贡献更多，局部融合在每个高斯球内进行，并忽略沿射线外的特征。在这里，我们将包含LiDAR点的体素称为锚点体素。局部融合根据具体操作分为聚合和传播。图4b中的聚合方式将图像特征聚合到锚点体素ˆ v j 中，使用高斯权重ω，而图4c中的传播方式将ˆ v j中的特征传播到每个体素，使用权重ω。0射线融合。尽管设计的局部融合将感知区域从单个体素扩展到附近区域，但在此过程中仍然设置了一个硬边界。这种方法不能充分释放射线表示的潜力，特别是在大多数没有LiDAR点的体素中。因此，除了锚点体素ˆ v j外，我们进一步将操作区域扩展到整个射线，称为射线融合。与图4a中的单一融合相比，我们的方法对传感器抖动更加稳健，因为高斯球带来了更大的容错空间。与局部融合不同，图4d中的射线方式仅在训练阶段使用上述局部先验进行标签分配，如第3.4节所述。具体而言，给定射线 R i 上的体素v j，其概率ω j 由以下公式计算：0ω j = δ(� F I l,i, F ′ l,v j �)，(3)0其中δ表示sigmoid激活，体素特征F ′ l,v j = MLP([ x j , y j, z j ])从体素 v j 的坐标（x j，y j，zj）转换而来，其中MLP是多层感知机。这里，ω j可以看作是图像特征F I l,i 对体素 v j位置的响应。从另一个角度看，这个操作将使用F I l,i的单眼深度估计从...转换为...的形式。�,(5)��, (6)mFL(ω, ˆω)/m,(7)11240将回归问题转化为单个射线 R i中的分类问题。实际上，它将解空间缩小为一条射线。根据预测得分 ω j，在体素 v j 中进行融合。0�F(xj,yj,zj) = F(xj,yj,zj) + ωj f([FIl,i,F′l,vj])。 (4)0这里，f表示卷积。�F(xj,yj,zj)表示体素vj中生成的新特征。在这个过程中，如果原始体素vj为空，则将F(xj,yj,zj)设置为0，这可以看作是V中空体素的补全。为了网络的效率，只选择具有前ω个预测得分的体素进行融合，这占总体非空体素的四分之一。如图2所示，融合特征�FVl用于3D检测骨干网络和后续的检测头。该框架可以与各种基于体素的骨干网络进行实验，例如PV-RCNN [27]，Voxel R-CNN[8]和CenterPoint [44]。03.4. 优化目标0回顾方程（2）和（3），需要监督两个可学习因子。对于可学习采样器S，鉴于前景物体通常更重要的先验，我们在每个框内绘制高斯分布，其方程为0Yl,u,v = exp � − (u − ˆui)2 + (v − ˆvi)20其中（ˆui，ˆvi）表示第i个物体中心的坐标，σi表示物体尺寸自适应标准差。对于激活概率ωj，体素vj的类似高斯的监督ˆωj被定义为0ˆωj = exp0− (x − ˆxj)2 + (y − ˆyj)2 + (z − ˆzj)20其中（ˆxj，ˆyj，ˆzj）表示图4中锚点体素ˆvj的位置，σj表示尺寸自适应标准差。距离大于半径r的体素被分配为0，这在表6中进行了研究。通过这种方式，可以利用LiDAR点的位置为射线中的特征选择提供监督。最后，体素场融合的目标函数定义为0Lvff = λs BCE(f(FIl), Yl) + λr0其中f(FIl)表示方程（2）中的卷积特征，m表示射线集合R的大小。BCE和FL分别表示二元交叉熵损失和焦点损失[18]。λs和λr分别表示采样器和射线融合的平衡损失因子。整个网络的优化目标是原始检测损失Ldet和体素场融合损失Lvff的总和。04. 实验0本节首先介绍实验设置。然后，我们使用PV-RCNN[27]作为骨干网络，在KITTI验证集上对每个组件进行分析。最后，与nuScenes [2]和KITTI[10]数据集上的先前工作进行比较。04.1. 实验设置0数据集。KITTI数据集[10]是广泛采用的用于3D目标检测的多模态基准，提供了同步的LiDAR点云和前视摄像头图像。它包含7,481个训练样本和7,518个测试样本，其中训练样本通常被分为包含3,712个样本的训练集和包含3,769个样本的验证集。nuScenes数据集[2]是一个包含1,000个场景的大规模自动驾驶基准，其中训练集、验证集和测试集分别划分为700、150和150个场景。在这里，我们使用从32束LiDAR和六个摄像头收集的包含10个物体类别的同步数据，覆盖了360度视野。0在这项工作中，采用了三种不同的骨干网络来验证所提出的框架，即在KITTI数据集上使用PV-RCNN [27]和VoxelR-CNN [8]，在nuScenes数据集上使用CenterPoint[44]。我们在每个网络中遵循相应的架构和训练设置。在提出的VFF中，对可学习采样器（方程（2））和特征变换（方程（3））应用了三个卷积和MLP，其中每个相机视图使用单独的MLP。对于优化，我们在所有实验中将方程（7）中的λs和λr设置为2和5。除了非空体素，我们在推理阶段选择概率ω大于0.05的每条射线上的特征。04.2. 组件分析0对齐增强。如第3.1节所述，对齐数据在跨模态一致性中起着重要作用。在表1中列出的样本静态增强的联合策略在表2中进行了比较，其中采用了PV-RCNN和基本的单一融合。如表2中所比较的，设计的图像级变换对特征变体增强有重要贡献，即翻转和重新缩放。如果仅采用翻转增强，性能提升在中等情况下达到1.65%的AP。0混合增强器。如第3.1节所述，提出了混合增强器，从样本添加和样本静态策略中保持一致性。在表3中研究了带有VFF的增强器。在混合增强器中，样本添加策略获得了显著的增益，达到了6.28%的AP。通过样本静态方式，带有VFF的网络在中等情况下进一步提高到了85.51%的AP。为了进行清晰的比较，默认情况下，以下消融研究仅使用样本添加策略。0✗89.1182.1079.981✓89.5682.5380.002✓88.3381.7579.54–✗87.7779.1976.7111250表2.在KITTI验证集上对不同增强方法进行比较。增强类型和对齐类型分别表示采用的样本静态增强和跨模态对齐的类型。0增强类型对齐类型 AP 3D @Car-R40 (IoU=0.7) 简单中等困难0无 - 88.69 81.82 79.910+ 翻转重投影 89.26 82.50 82.27 我们的 91.34 84.1582.480+ 重新缩放重投影 91.78 84.25 82.58 我们的 91.6884.53 82.590+ 旋转重投影 91.30 84.45 82.64 我们的 91.43 84.5782.610表3.在KITTI验证集上对混合增强策略进行比较。策略和融合分别表示混合增强器中的策略和体素场融合的使用。0策略融合 AP 3D @Car-R40 (IoU=0.7) 简单中等困难0原始 � 86.40 75.47 71.32 � 87.08 76.25 72.030+ 添加 � 87.77 79.19 76.71 � 89.56 82.53 80.000+ 静态 � 91.53 84.36 82.29 � 92.31 85.51 82.920表4.在KITTI验证集上对不同采样类型进行比较。样本类型和学习分别表示采用的采样器和特征选择中的可学习方式。0样本类型学习 AP 3D @Car-R40 (IoU=0.7) 简单中等困难0均匀性 � 88.69 81.90 79.82 稀疏性 � 89.09 81.6879.85 密度 � 88.72 82.01 81.420重要性 � 89.11 82.10 79.980可学习采样器。为了促进体素场的构建，第3.2节提出了可学习采样器。在表4中，比较了不同的采样方法，分为启发式和可学习两组。如图3所示，启发式采样器包含均匀性、稀疏性和密度类型。而采用启发式采样器的网络在基于密度采样时达到了82.01%的AP的最佳性能。至于可学习采样器，图3d中提出的重要性采样比启发式采样器的82.10%AP获得了更好的结果。0表5.在KITTI验证集上对不同融合策略进行比较。范围和操作分别表示融合范围和具体操作。单一融合是其他融合的子集。0范围操作 AP 3D @Car-R40 (IoU=0.7) 简单中等困难0单一 - 88.69 81.82 79.910局部聚合 89.00 82.12 81.52 传播 89.16 82.07 81.170光线智能生成 89.56 82.53 80.000表6.在KITTI验证集上对不同监督类型进行比较。半径和高斯分布分别表示采用的半径r和在第3.3节中使用的高斯分布。0半径高斯 AP 3 D @Car-R40 (IoU=0.7) 简单中等困难0Table 7.在KITTI验证集上对不同融合位置进行比较。stage和fusion分别表示网络中的特定融合阶段和体素场融合的使用。0阶段融合 AP 3 D @Car-R40 (IoU=0.7) 简单中等困难0阶段-1 � 89.56 82.53 80.00 阶段-2 � 89.12 80.4379.70 阶段-3 � 89.64 80.27 77.93 阶段-4 � 88.6980.22 78.100射线-体素交互。射线和体素之间的交互是本文提出的框架的核心操作，如图4所示。在表5中，我们比较了不同的融合方法。结果显示，随着融合范围从单个点增加到整个射线，性能得到了改善。与单一融合和局部融合相比，射线级策略的性能有显著差距，证明了射线级融合的有效性。0射线监督。考虑到传感器抖动或其他问题引起的噪声，我们提出了高斯分布的分配方式，以提供图4d和公式（6）中的监督。我们在表6中比较了不同的监督策略。很明显，半径为1的高斯分布效果最好，AP为82.53%。额外的区域给每个高斯球穿过的射线提供了错误的指导，这会损害每个射线中的特征定位。SECOND [38]–––87.4376.4869.10–––PointRCNN [28]–––88.8878.6377.38–––STD [42]–––89.7079.8079.30–––PV-RCNN [27]92.5784.8382.6989.3583.6978.7095.7691.1188.93Voxel R-CNN [8]92.3885.2982.8689.4184.5278.9395.5291.2588.99UberATG-MMF [16]–––88.4077.4370.22–––3D-CVF [46]89.6779.8878.47––––––EPNet [13]92.2882.5980.14–––95.5188.7688.36PV-RCNN*91.5384.3682.2988.9583.5178.7292.8290.4388.41+ VFF92.3185.5182.9289.4584.2179.1395.4391.4090.66Voxel R-CNN*92.2784.8882.5089.4683.6178.8095.5191.1388.85+ VFF92.4785.6583.3889.5184.7679.2195.6591.7591.39Cls: ResNet [12]91.9685.3384.24Det: Faster R-CNN [26]91.9885.1182.52Seg: DeepLabV3 [3]92.3185.5182.9211260Table 8. 在KITTI验证集上使用单一模型进行比较不同方法。*表示我们从官方源代码中得到的结果。0方法 AP 3 D @Car-R40 (IoU=0.7) AP 3 D @Car-R11 (IoU=0.7) AP BEV @Car-R40 (IoU=0.7)0简单中等困难简单中等困难简单中等困难0基于激光雷达的0激光雷达+RGB0Table 9.在KITTI验证集上对不同类别的跨模态融合进行比较。我们分别报告了汽车、行人和骑行者的IoU=0.7、0.5和0.5的结果。0类别融合 AP 3 D -R400简单中等困难0汽车 � 91.53 84.36 82.29 � 92.31 85.51 82.920行人 � 66.04 59.19 54.15 � 73.26 65.11 60.030骑行者 � 91.31 72.18 67.60 � 89.40 73.12 69.860Table 10.在KITTI验证集上对不同类型的预训练2D骨干网络进行比较。model表示采用的带有相应任务的特征编码器的预训练模型。0model AP 3 D @Car-R40 (IoU=0.7) 简单中等困难0融合阶段。我们在表7中进一步研究了提出的VFF的融合阶段。与基线相比，设计的融合在每个阶段都取得了更好的性能。早期阶段的融合贡献更大，超过基线3.34%的AP。与此同时，后期阶段的融合带来的收益较少，这可能归因于低0表11. 在KITTI验证集上对不同数据的跨模态融合进行比较。beamnum和fusion分别表示LiDAR的波束数量和体素场融合的使用。0beam num fusion AP 3D@Car-R40（IoU=0.7）Easy Moderate Hard0Beam-64 � 91.53 84.36 82.29 � 92.31 85.51 82.920Beam-32 � 91.14 79.51 76.54 � 92.20 82.36 79.810关键特征选择的分辨率和不足的融合。0不同类别。VFF中图像特征的射线表示为模糊示例提供了足够的上下文。在表9中，我们报告了VFF在各个类别上的比较结果。很明显，每个类别的性能都得到了提高，特别是对于行人，其AP在所有难度的情况下提高了近6%。0预训练网络。在表10中，我们分析了预训练的2D骨干网络，它在图2的特征编码器中提供了特征FIl。在这里，我们采用了所有的数据增强和基于ResNet-50的模型，用于表10中的不同任务，即分类、检测和语义分割。与其他任务相比，如果使用语义设置进行预训练，网络[3]提供了更好的特征。0稀疏LiDAR。为了验证VFF在不同LiDAR稀疏度下的有效性，我们按照[47]将KITTI数据集上的LiDAR点下采样到32束。11270表12. 在nuScenes测试集上使用单一模型的不同方法的比较。0方法mAP NDS Car Truck Bus Trailer C.V. Ped. Motor. Bicycle T.C. Barrier0基于LiDAR的0PointPillars [15] 30.5 45.3 68.4 23.0 28.2 23.4 4.1 59.7 27.4 1.1 30.8 38.9 3DSSD [41] 42.6 56.4 81.2 47.2 61.4 30.512.6 70.2 36.0 8.6 31.1 47.9 CBGS [52] 52.8 63.3 81.1 48.5 54.9 42.9 10.5 80.1 51.5 22.3 70.9 65.7 CenterPoint [44]60.3 67.3 85.2 53.5 63.6 56.0 20.0 84.6 59.5 30.7 78.4 71.10LiDAR+RGB0PointPainting [33] 46.4 58.1 77.9 35.8 36.2 37.3 15.8 73.3 41.5 24.1 62.4 60.2 FusionPainting [37] 66.3 70.4 86.3 58.566.8 59.4 27.7 87.5 71.2 51.7 84.2 70.2 MVP [45] 66.4 70.5 86.8 58.5 67.4 57.3 26.1 89.1 70.0 49.3 85.0 74.8PointAugmenting [34] 66.8 71.0 87.5 57.3 65.2 60.7 28.0 87.9 74.3 50.9 83.6 72.60VFF + CenterPoint 68.4 72.4 86.8 58.1 70.2 61.0 32.1 87.1 78.5 52.9 83.8 73.90表13. 在KITTI测试集上对不同方法的比较。0方法AP 3D @Car-R40（IoU=0.7）Easy ModerateHard0基于LiDAR的0PointPillars [15] 82.58 74.31 68.99 PointRCNN [28]86.96 75.64 70.70 Part-A2 [29] 87.81 78.49 73.51STD [42] 87.95 79.71 75.09 SA-SSD [11] 88.75 79.7974.16 PV-RCNN [27] 90.25 81.43 76.82 VoxelR-CNN [8] 90.90 81.62 77.060LiDAR+RGB0MV3D [6] 74.97 63.63 54.00 F-PointNet [23] 82.1969.79 60.59 AVOD [14] 83.07 71.76 65.73UberATG-MMF [16] 88.40 77.43 70.22 EPNet [13]89.81 79.28 74.59 3D-CVF [46] 89.20 80.05 73.110VFF + PV-RCNN 89.58 81.97 79.170VFF + Voxel R-CNN 89.50 82.09 79.290如表11所示，提出的VFF相比基线获得了2.85%的AP显著增益。对于难例，这个差距扩大到了3.27%的AP。这可能归因于补充了缺少LiDAR点的空体素。04.3. 主要结果0nuScenes。我们进一步报告了在大规模nuScenes测试集上的结果。如表12所示，所提出的方法在mAP和NDS方面超过了所有先前的方法，分别达到了68.4%和72.4%。与我们强大的骨干网络CenterPoint[44]相比，VFF带来的性能提升高达08.1% mAP和5.1%NDS。至于像摩托车和自行车这样的模糊类别，增益甚至高达19% AP。0KITTI.在表8中，我们在KITTI验证集上进行了实验。与基准相比，我们提出的VFF在各种评估指标上都取得了一致的增益，并分别与PV-RCNN [27]和Voxel R-CNN[8]达到了85.51%和85.65%的AP。在KITTI测试集上的结果报告在表13中。与之前的融合方法相比，所提出的VFF将顶级性能推向了81.97%的AP和82.09%的AP，分别以PV-RCNN和VoxelR-CNN作为骨干。由于设计的融合方式，我们的方法在困难案例上的表现优于所有先前的模型，其在79.29%的AP上取得了2.2%的AP改进。05. 结论0我们提出了体素场融合，这是一个在3D目标检测中概念简单而有效的框架。与之前的工作的关键区别在于，我们通过将增强的图像特征表示为体素场中的一条射线来保持模态一致性。特别地，通过可学习的采样器和射线级融合消除了多模态特征表示中的不一致性。同时，混合增强器被开发出来弥合跨模态数据增强中的差距。在KITTI和nuScenes数据集上的实验证明了所提出框架的有效性，在各种基准测试中取得了一致的增益，并超过了之前基于融合的模型在两个数据集上的表现。06. 致谢0我们感谢陈一伦和胡涛对我们的建议。本工作得到了中国国家重点研发计划（No.2017YFA0700800）和北京人工智能研究院（BAAI）的支持。11280参考文献0[1] Garrick Brazil and Xiaoming Liu. M3d-rpn:单目3D区域建议网络用于目标检测. 在ICCV, 2019年.0[2] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, and Oscar Beijbom. nuscenes:一种用于自动驾驶的多模态数据集. 在CVPR, 2020年.0[3] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam. 重新思考空洞卷积用于语义图像分割.arXiv:1706.05587, 2017年.0[4] Rui Chen, Songfang Han, Jing Xu, and Hao Su.基于点的多视角立体网络. 在ICCV, 2019年.0[5] Xiaozhi Chen, Kaustav Kundu, Yukun Zhu, Andrew GBerneshawi, Huimin Ma, Sanja Fidler, and Raquel Urtasun.准确的对象类别检测的3D对象提议. 在NeurIPS, 2015年.0[6] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia.自动驾驶的多视角3D目标检测网络. 在CVPR, 2017年.0[7] Yilun Chen, Shu Liu, Xiaoyong Shen, and Jiaya Jia. DSGN:用于3D目标检测的深度立体几何网络. 在CVPR, 2020年.0[8] Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou,Yanyong Zhang, and Houqiang Li. Voxel R-CNN:迈向高性能基于体素的3D目标检测. 在AAAI, 2021年.0[9] Nikita Dvornik, Julien Mairal, and Cordelia Schmid.建模视觉上下文是增强对象检测数据集的关键. 在ECCV, 2018年.0[10] Andreas Geiger, Philip Lenz, and Raquel Urtasun.我们准备好自动驾驶了吗？kitti视觉基准套件. 在CVPR, 2012年.0[11] Chenhang He, Hui Zeng, Jianqiang Huang, Xian-ShengHua, and Lei Zhang. 结构感知的单阶段3D目标检测. 在CVPR,2020年.0[12] Kaiming H

下载后可阅读完整内容，剩余1页未读，立即下载