没有合适的资源?快使用搜索试试~ 我知道了~
54280用于3D目标检测的焦点稀疏卷积网络0Yukang Chen 1,Yanwei Li 1,Xiangyu Zhang 2,Jian Sun 2,Jiaya Jia 1,301 香港中文大学 2 MEGVII科技 3 SmartMore0摘要0非均匀的3D稀疏数据,例如不同空间位置的点云或体素,以不同的方式对3D目标检测任务做出贡献。现有的稀疏卷积网络(SparseCNNs)中的基本组件处理所有稀疏数据,无论是常规稀疏卷积还是子流形稀疏卷积。在本文中,我们引入了两个新模块,以增强稀疏CNNs的能力,两个模块都基于位置重要性预测使特征稀疏性可学习。它们分别是焦点稀疏卷积(Focals Conv)和其融合的多模态变体,简称FocalsConv-F。这些新模块可以直接替代现有稀疏CNNs中的普通模块,并以端到端的方式进行联合训练。我们首次展示了稀疏卷积中可学习的空间稀疏性对于复杂的3D目标检测是至关重要的。在KITTI、nuScenes和Waymo基准测试上进行了大量实验证明了我们方法的有效性。在nuScenes测试基准上,我们的结果超过了所有现有单模型的记录。代码和模型位于github.com/dvlab-research/FocalsConv。01. 引言03D目标检测中的一个关键挑战是从无结构和稀疏的3D几何数据(如点云)中学习有效的表示。一般来说,有两种方法可以解决这个问题。第一种是直接处理点云[37,51],基于PointNet++[33]网络。然而,邻居采样和分组操作非常耗时。这使得它不适合需要实时效率的大规模自动驾驶场景。第二种方法是将点云转换为体素,并应用3D稀疏卷积神经网络(Sparse CNNs)进行特征提取[11,36]。3D稀疏CNNs的结构类似于2DCNNs,包括几个特征阶段和下采样操作。它们通常由常规和子流形稀疏卷积组成。0Yukang的工作是在MEGVII科技实习期间完成的。0尽管常规和子流形稀疏卷积被广泛使用,但它们都有各自的局限性。常规稀疏卷积会扩张所有稀疏特征,这不可避免地给模型带来了相当大的计算负担。这就是为什么主干网络通常只在下采样层中限制其使用[36,48]的原因。此外,检测器的目标是将目标对象与大量的背景特征区分开来。但是常规稀疏卷积会大幅度降低稀疏性并模糊特征区别。另一方面,子流形稀疏卷积通过将输出特征位置限制在输入上来避免计算问题。但是它会丢失必要的信息流,特别是对于空间上不连续的特征。常规和子流形稀疏卷积的上述问题限制了稀疏CNN在实现高表示能力和效率方面的发展。我们在图1中说明了子流形和常规稀疏卷积操作。这些限制源于传统的卷积模式:在卷积过程中,所有输入特征都被等同对待。这对于2DCNNs是自然的,但对于3D稀疏特征来说是不合适的。2D卷积是为结构化数据设计的。同一层中的所有像素通常共享感受野大小。但是3D稀疏数据在空间上具有不同的稀疏性和重要性。使用统一的处理方式处理非均匀数据并不是最优的。就稀疏性而言,根据与激光雷达传感器的距离,物体呈现出较大的稀疏性差异。就重要性而言,不同位置的特征对3D目标检测的贡献是不同的,例如前景或背景。尽管已经实现了3D目标检测[11, 36, 37,53],但是最先进的方法仍然依赖于RoI(感兴趣区域)特征提取。这对应于在3D检测器的特征提取中应该朝目标射箭的思想。在本文中,我们提出了一种稀疏卷积的通用格式,通过消除常规和子流形之间的概念差异来提高稀疏CNN在3D目标检测中的表示能力。我们引入了两个新模块,以提高稀疏CNN在3D目标检测中的表示能力。第一个是焦点稀疏卷积(FocalsConv)。它预测卷积输出模式的立方体重要性图。预测为重要的特征被扩张成可变形的输出形状。Processed AddedInput RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelProcessedProcessedAddedAddedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelProcessedProcessedAddedAddedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelProcessedProcessedAddedAddedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelAddedAddedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularProcessedProcessedFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportancImportancAddedAddedInputInputFocal Importance KernelsProcessed AddedRegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelProcessedProcessedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelAddedAddedInputInputFocal RegularSubmanifoldSingle voxelSingle voxelSubmanifoldRegularImportance kernelImportance kernelAddedAddedIFocal Importance KernelsProcessed AddedInput Importance Processed AddedInput 54290常规稀疏卷积0子流形稀疏卷积0焦点稀疏卷积0输入特征0输出特征0输入特征0输出特征0处理0添加0输入0输入 输入 输入0输出 输出 输出0图1.不同稀疏卷积类型的处理过程。子流形稀疏卷积将输出位置固定为输入位置。它保持了效率,但禁止了不连通特征之间的信息流动。常规稀疏卷积将所有输入特征扩张到其核大小的邻居。它通过昂贵的计算鼓励信息交流,因为它严重增加了特征密度。提出的焦点稀疏卷积使用预测的立方体重要性动态确定哪些输入特征应该扩张和动态输出形状。为了简化,图中以2D特征表示输入和输出。最佳观看效果请使用彩色显示。0如图1所示。通过一个额外的卷积层来学习重要性,该卷积层在输入特征的动态条件下进行。该模块增加了所有特征中有价值信息的比例。第二个是Focal稀疏卷积与融合的多模态改进版本(称为FocalsConv-F)。在仅使用LIDAR的FocalsConv上,我们通过融合RGB特征来增强重要性预测,因为图像特征通常包含丰富的外观信息和大的感受野。该提出的模块在两个方面都是新颖的。首先,FocalsConv提出了一种学习特征空间稀疏性的动态机制。它使学习过程集中在更有价值的前景数据上。通过下采样操作,有价值的信息在各个阶段增加。同时,大量的背景体素被移除。图2展示了可学习的特征稀疏性,包括常见的、拥挤的和远离的物体,其中FocalsConv在前景上丰富了学习到的体素特征,而在其他区域没有添加多余的体素。其次,两个模块都是轻量级的。重要性预测涉及小的额外参数和计算量,如表1所示。FocalsConv-F的RGB特征提取仅涉及几层,而不是繁重的2D检测或分割模型[43]。Focals Conv和FocalsConv-F的提出模块可以直接替换稀疏CNN中的原始模块。为了证明其有效性,我们在现有的3D目标检测框架[11, 36,53]上构建了骨干网络。我们的方法在KITTI[14]和nuScenes[2]基准上以小的模型复杂度开销实现了非平凡的增强。这些结果表明,具有焦点的可学习稀疏性是必要的。在没有花哨的技巧的情况下,我们的方法在nuScenes测试集[2]上优于最先进的方法。卷积动态机制根据输入数据进行操作,例如可变形卷积。0[10, 64]和动态卷积[7,49]。关键区别在于我们的方法利用了数据的内在稀疏性。它促进了特征学习集中在更有价值的信息上。我们认为这种非均匀性是一个巨大的优势。我们在第2节中讨论了与先前文献的关系和差异。02. 相关工作02.1. 卷积动态机制0由于其高准确性和易于在场景中适应的优势,动态机制在CNN中得到了广泛研究。我们讨论了两种相关方法,即核形状适应[10, 41, 64]和输入注意力掩码[34, 42, 45]。0内核形状适应。内核形状适应方法[8, 10, 13,64]调整网络的有效感受野。可变形卷积[10]预测特征采样的偏移量。它的变体[64]引入了额外的注意力掩码来调节特征。对于3D特征学习,KPConv[41]学习核心点的局部偏移量。MinkowskiNet[8]将稀疏卷积推广到任意内核形状。总的来说,这些方法修改了输入特征采样过程。可变形PV-RCNN[1]应用偏移预测来进行3D目标检测中的特征采样。相比之下,焦点稀疏卷积改善了输出特征的空间稀疏性并使其可学习,有助于3D目标检测。0输入上的注意力掩码。[39, 42, 45,50]的方法寻求空间稀疏性以实现高效推理。这些方法接收密集图像,并根据注意力掩码修剪不重要的像素。这些方法旨在稀疏化密集数据,而我们利用固有的数据稀疏性。尽管SBNet[34]也利用了稀疏属性,但它仅限于2D鸟瞰图像,并且共享了yp =�k∈Kdwk · x¯pk,(1)54300图2.可学习特征稀疏性的示意图。我们将主干输出的3D体素中心投影到2D图像平面上。这些情况包括普通、拥挤和远程的物体。左:普通的稀疏CNN。右:焦点稀疏CNN。焦点稀疏卷积能够自适应地增加物体特征的密度,而不引入冗余的背景特征。最佳观看方式为放大并以彩色显示。0网络中的所有层上的静态掩码。相比之下,我们改进的卷积更具适应性,适用于相关任务,例如3D实例分割[9]。02.2. 3D目标检测0仅使用LIDAR的检测器。3D目标检测框架通常类似于2D检测器,例如R-CNN家族[11, 28, 36, 37]和SSD家族[17, 51,60,61]。2D检测器的主要区别在于输入编码器。VoxelNet[62]使用PointNet[32]对体素特征进行编码,并应用RPN(区域建议网络)[35]。SECOND[48]使用加速的稀疏卷积,并从VoxelNet[62]改进了效率。VoTr[29]将变换器架构应用于体素。基于特征编码器提出了各种检测器[11, 36,53]。我们在多个数据集[2, 14,40]上验证了所提出的方法在[11, 36,53]框架的主干上的性能。0基于完成的检测器。基于完成的方法[16, 23, 46,58]是丰富前景信息的另一种努力。我们关注的是特征学习,而不是点云完成。PC-RGNN[58]通过图神经网络具有点云完成模块。SIENet[23]在点云完成的两阶段框架中构建在PCN[56]之上。完成过程依赖于先前生成的提议。GSDN[16]通过转置卷积扩展所有特征,然后通过修剪来完成。SPG[46]为域自适应3D目标检测设计了一个语义点生成模块。它在数据预处理期间应用,使检测流程复杂化。0多模态融合。多模态融合方法[19, 25,55]使用的信息比仅使用LIDAR的方法更多。KITTI[14]基准一直以来都是由仅使用LIDAR的方法主导,直到提出了PointPainting[43]。它使用相应的图像分割分数装饰原始点云。PointAugmenting[44]进一步将分割模型替换为2D目标检测模型[12]。它们都是基于装饰的方法,在将其输入到3D检测器之前,需要在现成的2D网络上进行图像特征提取。尽管这些方法取得了令人期待的结果,但整体推理流程复杂。我们的多模态焦点0稀疏卷积在两个方面与上述方法不同。首先,我们只需要几个联合训练的图像特征提取层,而不是复杂的分割或检测模型。其次,我们只加强预测的重要特征,而不是对所有LIDAR特征进行均匀装饰 [43, 44]。03. 焦点稀疏卷积网络0在本节中,我们首先回顾稀疏卷积的公式(第3.1节)。然后,详细介绍提出的焦点稀疏卷积及其多模态扩展(第3.2节和第3.3节)。最后,在第3.4节中介绍焦点稀疏卷积网络。03.1. 稀疏卷积回顾0给定一个在 d 维空间中位置 p 处具有 c 个通道的输入特征 xp,我们通过与核权重 w ∈ R K d × c in × c out进行卷积来处理这个特征。例如,在三维坐标空间中,w包含大小为3且 | K d | = 3 3 的 c in × c out空间核。卷积过程表示为0其中 k 枚举了核空间 K d 中的所有离散位置。 ¯ p k = p +k 是中心 p 周围的相应位置,其中 k 是从 p的偏移距离。这个公式可以通过简单的修改适应大多数类型的卷积。当 p ∈ Z时,产生了常见的用于密集输入数据的卷积。当 ¯ p k加上一个学习到的偏移量 ∆¯ p k时,它包括了核形状适应方法,例如可变形卷积 [10,64]。此外,如果 W 等于加权和 � α i W i,它就可以推广到加权注意力,例如动态卷积 [7,49]。最后,当注意力掩码与输入特征图 x相乘时,这个公式就可以实现输入注意力掩码方法 [34,45]。对于稀疏输入数据,特征位置 p 不属于密集离散空间Z。输入和输出特征空间分别放宽为 P in 和 P out。!"# = !%&'yp∈Pout =�k∈Kd(p,Pin)wk · x¯pk,(2)Kd(p, Pin) = {k | p + k ∈ Pin, k ∈ Kd}.(3)Pout =P(p, Kd) = {p + k | k ∈ Kd}.(5)54310! %&' 定义求和0索引LIDAR-only多模态0立方体重要性 稀疏特征 动态输出形状0RGB特征0LIDAR特征0稀疏卷积0稀疏卷积0图3.焦点稀疏卷积及其多模态扩展的框架。额外的分支为每个输入稀疏特征预测一个立方体重要性图,该图确定输出特征的位置。在多模态版本中,额外的分支采用LIDAR和RGB特征的融合进行更好的预测。预测为重要的输出稀疏特征也与RGB特征进行融合。0该公式转化为0其中 K d ( p, P in ) 是 K d的子集,排除空位置。它取决于位置 p 和输入特征空间 Pin,如下所示0如果 P out 包括 P in 内 K d邻域内所有膨胀位置的并集,则该过程被表示为0p ∈ P 在 P ( p, K d ) 中, (4)0其中0在这种情况下,公式变为常规稀疏卷积。它作用于核空间中存在任何体素的所有位置。它不会跳过总体空间中的任何信息收集。这种策略有两个缺点。(i)它引入了相当大的计算成本。稀疏特征的数量增加了一倍甚至两倍,增加了后续层的负担。(ii)我们经验性地发现,不断增加稀疏特征的数量可能会损害3D目标检测(表2)。拥挤和不太有希望的候选特征可能会模糊有价值的信息。它降低了前景特征,并进一步降低了3D目标检测器的特征区分能力。当 P in = P out时,产生了子流形稀疏卷积[15]。这仅在核心位于输入位置时发生,将活动位置限制为输入集。这种设置避免了计算负担,但放弃了不连续特征之间的必要信息流动。注意0这种流程在不规则点云数据中是常见的。因此,有效的感受野大小受到特征断开的限制,这会降低模型的能力。03.2. 焦点稀疏卷积0无论是规则的还是子流形的稀疏卷积,输出位置Pout在Pin中的所有p上都是静态的,这是不理想的。相反,我们以细粒度的方式自适应地确定稀疏性或感受野大小。我们将输出位置Pout放宽为由稀疏特征动态确定。我们在图3中通过实线展示了这个提出的过程。在我们的公式中,输出位置Pout广义地表示为所有重要位置及其扩张区域和其他不重要位置的并集。扩张区域对输入位置是可变形和动态的。公式(5)变为:0Pout =0� 0p ∈ Pim P(p,Kdim(p))0�0∪ Pin / im. (6)0我们将这个过程分解为三个步骤:(i)立方体重要性预测,(ii)重要输入选择,(iii)动态输出形状生成。0立方体重要性预测。立方体重要性图Ip涉及到位置p处输入特征周围候选输出特征的重要性。每个立方体重要性图与主处理卷积核权重Kd具有相同的形状,例如,k3 =3×3×3,核大小为3。它通过使用Sigmoid函数的额外子流形稀疏卷积来预测。后续步骤依赖于预测的立方体重要性图。0重要输入选择。在公式(5)中,Pim是Pin的子集。它包含相对重要的输入特征的位置。我们选择Pim如下:0Pim = {p | Ip0 ≥ τ, p ∈ Pin}, (7)54320其中Ip0是位置p处立方体重要性图的中心,τ是预定义的阈值(表3和6)。当τ分别为0或1时,我们的公式变为规则或子流形稀疏卷积。0动态输出形状生成。Pim中的特征被扩张为动态形状。p周围的输出由动态输出形状Kdim(p)确定。注意,我们的可变形输出形状在没有偏移的情况下修剪在原始扩张内。它的计算方式与公式(7)类似,如下所示:0Kdim(p) = {k | p + k ∈ Pin, Ipk ≥ τ, k ∈ Kd}. (8)0我们在表2中分析了动态输出形状。对于其余不重要的特征,它们的输出位置固定为输入,即子流形。我们发现直接删除它们或者在没有保留它们的情况下使用完全动态的方式会使训练过程不稳定。0监督方式。在3D物体检测中,我们有一个先验知识,即前景对象是更有价值的信息。基于这个先验,我们应用焦点损失[26]作为目标损失函数来监督重要性预测。我们构建了用于3D真实框内特征体素中心的目标。我们将其损失权重保持为1,以保证我们模块的通用性。额外的监督来自将预测的立方体重要性图与输出特征相乘作为注意力。这使得重要性预测分支自然可微分。它与模型压缩领域的核权重稀疏化方法[27]具有相同的动机。我们经验证明,这种注意力方式对于次要类别(例如KITTI数据集中的行人和骑车人,详见表4)的性能有益。03.3. 融合焦点稀疏卷积0我们提供了焦点稀疏卷积的多模态版本,如图3所示(虚线)。这个扩展概念上简单而有效。我们从图像中提取RGB特征,并将LIDAR特征与其对齐。提取的特征被融合到焦点稀疏卷积的输入和重要输出稀疏特征中。0特征提取。融合模块轻量级。它包含一个conv-bn-relu层和一个最大池化层。它将输入图像下采样到1/4的分辨率。然后,它跟随3个带有残差连接[18]的conv-bn-relu层。然后,通道数与稀疏特征的通道数保持一致,使用一个MLP层进行降维。这样可以简单地对多模态特征进行求和。0特征对齐。融合过程中常见的问题是3D到2D投影的不对齐。点云数据通常经过变换和增强处理。变换包括翻转、重新缩放、旋转、平移。典型的增强处理是地面真值采样。0对于这些可逆变换,我们使用记录的变换参数[44,57]反转稀疏特征的坐标。对于地面真值采样,我们将相应的2D对象复制到图像中。我们直接在边界框中裁剪对象,而不是使用额外的分割模型或掩码注释[57],以简化操作。0融合方式。对齐的RGB特征与稀疏特征直接进行求和,因为它们具有相同的通道数。尽管可以使用其他融合方法,例如连接或交叉注意力,但我们选择最简洁的求和方法以提高效率。在该模块中,对齐的RGB特征与稀疏特征进行两次融合。首先,它与输入特征进行融合以进行立方体重要性预测。然后,我们仅将RGB特征与重要的输出稀疏特征进行融合,即方程(5)中的第一部分,而不是全部特征(在表10中进行了研究)。总体而言,多模态层在参数和融合策略方面都很轻量级。它们与检测器一起进行联合训练。这为3D目标检测中的融合模块提供了一种高效和经济的解决方案。03.4. 焦点稀疏卷积网络0焦点稀疏卷积及其多模态扩展可以直接替换3D检测器的骨干网络中的相应模块。在训练过程中,我们不使用任何特殊的初始化或学习率设置来处理引入的模块。重要性预测分支通过通过注意力乘法和目标损失函数的反向传播进行训练,如3.2节所介绍的。3D目标检测器中的骨干网络[11, 36,0[53]通常由一个干细胞层和4个阶段组成。除了第一个阶段外,每个阶段都包括一个带有下采样和两个子流形块的常规稀疏卷积。在第一个阶段中,有一个[11,36]或两个[53]稀疏卷积层。默认情况下,每个稀疏卷积后面都跟着批量归一化[20]和ReLU激活。我们验证了现有3D检测器[11, 36,53]的骨干网络上的焦点稀疏卷积。我们直接在某些阶段的最后一层应用焦点稀疏卷积。我们在实验中分析了使用我们的焦点稀疏卷积的阶段(在表5和10中进行了消融)。04. 实验0我们对FocalsConv及其多模态变体进行了消融和比较。更多实验,例如Waymo [40]的结果,请参见补充材料。04.1. 设置和实现0KITTI.KITTI数据集[14]由7,481个样本和7,518个测试样本组成。训练样本分为3,717个样本的训练集和3,769个样本的验证集。PV-RCNN ◦13.16M103ms92.1084.3682.48Focals Conv13.44M112ms92.3285.1982.62Focals Conv-F13.70M125ms92.2685.3282.95Focals Conv✗91.1084.0282.2257.6269.82✓92.3285.1982.6261.6172.76Focals Conv✗91.3682.7782.1257.8671.77✓92.3285.1982.6261.6172.76Focals ConvFocals Conv(1,)92.1984.8382.4360.5672.29(1, 2)91.9584.9582.6760.1772.74(1, 2, 3)92.3285.1982.6261.6172.76(1, 2, 3, 4)91.9684.4282.3160.3372.5354330表1. 在KITTI验证集上的PV-RCNN在AP 3D(R40)上的改进。0方法 # 参数 运行时间 简单 模型 困难0PV-RCNN [36] – – 92.57 84.83 82.690◦ 这些结果是在官方发布的模型上评估的。0样本。模型通常以平均精度(mAP)指标进行评估。mAP是根据召回40个位置(R40)计算的。我们在验证集的AP3D(R40)上进行消融研究。我们在测试集的AP3D(R40)和验证集的AP3D(R11)上进行主要比较。对于可选的多模态设置,RGB特征从单个前视图提取用于融合。0nuScenes。nuScenes[2]是一个大规模数据集,总共包含1,000个驾驶序列。它分为700个用于训练的场景、150个用于验证的场景和150个用于测试的场景。它使用32束同步激光雷达和6个摄像头进行采集,完全覆盖360度环境。在评估中,主要指标是mAP和nuScenes检测得分(NDS)。在多模态实验中,我们使用6个视图的图像进行融合。对于消融研究,模型在104个训练数据,并在整个验证集上进行评估,即nuScenes 104分割上进行训练。0实现细节。在实验中,我们在KITTI [14]上的PV-RCNN[36]、Voxel R-CNN [11]和nuScenes [2]的CenterPoint[53]这些最先进的框架上验证了我们的模块。在仅使用激光雷达的实验中,我们在骨干网络的前三个阶段应用了FocalsConv。在多模态情况下,我们只在骨干网络的第一个阶段应用FocalsConv-F,以实现可承受的内存和推理成本。我们将重要性阈值τ设置为0.5。我们保持其他设置不变。更多实验细节请参见补充材料。04.2. 消融研究0在KITTI上的改进。我们首先在Tab.1中评估我们的方法在PV-RCNN[36]上的效果,因为它是一个高性能、多类别、开源的框架。在Tab.1中,第一行和第二行分别显示了[36]报告的结果和从发布的模型测试的结果。我们将后者作为基准。Focal S-Conv和FocalsConv-F相对于这个强基准都取得了非常显著的改进。动态输出形状。在FocalsConv中,每个体素的输出形状是由预测的重要性图动态确定的。我们通过将输出形状固定为常规膨胀来进行消融实验,没有其他改变。Tab.2显示了扩张所有稀疏特征是有害的。它显著增加了不太有希望的体素特征的数量。0表2. 在KITTI验证集上的AP 3D(R40)中动态形状的消融实验。0方法 动态形状0车辆 行人 自行车0简单模式 困难模式 模式0基准 – 92.10 84.36 82.48 54.49 70.380表3. 在KITTI验证集上的AP 3D(R40)中输入选择的消融实验。0方法 重要性选择0车辆 行人 自行车0简单模式 困难模式 模式0基准 – 92.10 84.36 82.48 54.49 70.380表4. 在KITTI验证集上的AP 3D(R40)中监督的消融实验。0方法 监督 车辆 行人 自行车0简单模式 困难模式 模式0基准 – 92.10 84.36 82.48 54.49 70.380注意力 91.81 84.49 82.31 60.64 72.930目标损失 92.39 85.05 82.62 59.27 71.460两者 92.32 85.19 82.62 61.61 72.760表5. 在KITTI验证集上的AP 3D(R40)中使用阶段的消融实验。0方法 阶段 车辆 行人 自行车0基线 - 92.10 84.36 82.48 54.49 70.380表6. 在KITTI val上对重要性阈值τ进行消融实验。0重要性阈值τ 0.1 0.3 0.5 0.7 0.90AP 3D(R40)- Car 84.97 85.09 85.19 84.96 84.680重要性采样。FocalsConv选择需要与预测的重要性进行扩张的稀疏特征。为了消除这个模块,我们在表3中将重要性选择(重要输入选择步骤)替换为随机采样,没有进行其他更改。结果显示,在没有重要性指导的情况下,性能大幅下降。这证实了重要性预测的必要性。0监督设置。FocalsConv中的附加分支由注意力乘法和目标损失共同监督。我们在表4中对它们进行消融实验。只使用目标损失监督就足以确保在Car上的性能。然而,它在次要类别Ped和Cyc上的性能并不理想。注意力乘法是有益的。MV3D [6]74.9763.6354.00F-PointNet [31]82.1969.7960.59PointSIFT+SENet [59]85.9972.7264.58EPNet [19]89.8179.2874.59CLOCs [30]88.9480.6777.15PointPillars [22]82.5874.3168.99SA-SSD [17]88.7579.7974.16Pyramid-PV [28]88.3982.0877.49Voxel R-CNN [11]✗90.9081.6277.06Focals Conv-F✓90.5582.2877.59F-PointNet [31]✓83.7670.9263.65PointSIFT+SENet [59]85.6272.0564.193D-CVF [55]89.6779.8878.47PointPillars [22]✗86.6276.0668.91Point R-CNN [37]88.8878.6377.38Part-A2 [38]89.4779.4778.54STD [52]89.7079.8079.30SA-SSD [17]90.1579.9178.78Deform. PV-RCNN [1]-83.30-PV-RCNN [36]89.3583.6978.70VoTr-TSD [29]89.0484.0478.68Pyramid-PV [28]89.3784.3878.84Voxel R-CNN [11]✗89.4184.5278.93Focals Conv✗89.5284.9379.18Focals Conv-F✓89.8285.2285.19.CenterPoint9.0M93ms56.164.2Focals Conv-F9.25M159ms61.7 (+5.6)67.2 (+2.9).mAP56.158.661.760.960.755.054.8NDS64.266.267.266.466.563.563.354340表7. 在KITTI test split上对Car的AP 3D(R40)进行比较。0方法融合 Easy Mod. Hard0AVOD-FPN [ 21 ] 83.07 71.76 65.730MMF [ 24 ] 88.40 77.43 70.2203D-CVF [ 55 ] 89.20 80.05 73.110Part-A2 [ 38 ] 87.81 78.49 73.510STD [ 52 ] 87.95 79.71 75.090PV-RCNN [ 36 ] 90.25 81.43 76.820VoTr-TSD [ 29 ] 89.90 82.09 79.140Focals Conv � 90.20 82.12 77.500对于Ped和Cyc,我们假设次要类别无法从目标损失中获得平衡的监督,就像长尾分布一样。相比之下,注意力乘法是与对象无关的,可以在一定程度上缓解不平衡。0使用焦点稀疏卷积的阶段。表5显示了在不同阶段使用Focals Conv的结果。(1)将FocalsConv应用于第一阶段,已经获得明显的改进。随着使用的阶段增加,性能也会提高,直到所有阶段都涉及。由于FocalsConv调整输出的稀疏性,将其用于对后续特征学习产生影响的早期阶段是合理的。最后一个阶段的空间特征空间被下采样到非常有限的大小,可能不足够大以适应稀疏性的调整。经验上,在前三个阶段的最后一层使用是最佳选择。因此,在我们的实验中将其作为默认设置。0重要性阈值。我们消除了FocalsConv在表6中使用的重要性阈值τ。我们在这个值从0.1到0.9,间隔为0.2的范围内进行实验,没有进行其他设置的更改。在这个消融实验中,Car上的准确率AP3D(R40)作为度量标准。随着阈值值τ的变化,性能是稳定的。0在nuScenes上对多模态基线的改进。我们在nuScenes [ 2 ]1/4数据集上评估了我们的多模态FocalsConv。更多的改进在表9中呈现。我们通过将图像特征融合到与我们的方法使用相同的融合层中,使用相同的融合和特征提取层来构建多模态CenterPoint基线。0表8. 在KITTI验证集上对Car的3D AP(R11)进行比较0方法 融合 简单 中等 困难0表9. 在nuScenes1上改进多模态基线0# 参数 运行时间 mAP NDS0+ 融合 9.24M 145ms 59.0 (+2 . 9) 65.6 (+1 . 4)0表10. 在nuScenes1上使用阶段和融合范围的消融实验0阶段 无 1 2 3 40范围 - 无 重要 重要 重要0这个多模态的CenterPoint将仅使用激光雷达的基线结果从56.1%提升到59.0%的mAP。FocalsConv-F在这个强基线上提高到61.7%的mAP。0在FocalsConv-F中使用阶段和融合范围。我们在表10中对FocalsConv-F的使用阶段和融合范围进行了消融实验。融合范围是在FocalsConv-F输出处将稀疏特征与RGB特征融合的范围。结果显示,在早期阶段进行融合是有益的,但在最后两个阶段变得逆向。Imp.表示仅融合到重要的输出特征上(由重要性映射判断)。当在第一个阶段进行融合时,最好只融合到重要的特征上,而不是所有特征,以使表示具有区分性。0模型复杂度和运行时间。我们在表1和9中报告了模型复杂度和运行时间的比较。运行时间是在NVIDIA 2080TiGPU上评估的。FocalsConv及其多模态变体只对模型参数和计算增加了很小的开销,在KITTI [ 14 ]上。PointPillars [22]✗30.545.368.423.028.223.44.159.727.41.130.838.93DSSD [51]✗42.656.481.247.261.430.512.670.236.08.631.147.9CBGS [63]✗52.863.381.148.554.942.910.580.151.522.370.965.7HotSpotNet [5]✗59.366.083.150.956.453.323.081.363.536.673.071.6CVCNET [4]✗58.266.682.649.559.451.116.283.061.838.869.769.7PointPainting [43]✓46.458.177.935.836.237.315.873.341.524.162.460.23DCVF [55]✓52.762.383.045.048.849.615.974.251.230.462.965.9FusionPainting [47]✓66.370.486.358.566.859.427.787.571.251.784.270.2MVF [54]✓66.470.586.858.567.457.326.189.170.049.385.074.8PointAugmenting [44]✓66.871.087.557.365.260.728.087.974.350.983.672.6CenterPoint†✗60.367.385.253.563.656.020.084.659.530.778.471.154350表11. nuScenes测试集上与其他方法的比较0方法 融合 mAP NDS Car Truck Bus Trailer C.V. Ped Mot Byc T.C. Bar0中心点 [ 53 ] � 58.0 65.5 84.6 51.0 60.2 53.2 17.5 83.4 53.7 28.7 76.7 70.90CenterPoint v2 � � 67.1 71.4 87.0 57.3 69.3 60.4 28.8 90.4 71.3 49.0 86.8 71.00Focals Conv � 63.8 70.0 86.7 56.3 67.7 59.5 23.8 87.5 64.5 36.3 81.4 74.10Focals Conv-F � 67.8 71.8 86.5 57.5 68.7 60.6 31.2 87.3 76.4 52.5 84.6 72.30Focals Conv-F † � 68.9 72.8 86.9 59.3 68.7 62.5 32.8 87.8 78.5 53.9 85.5 72.80Focals Conv-F ‡ � 70.1 73.6 87.5 60.0 69.9 64.0 32.6 89.0 81.1 59.2 85.5 71.80† 翻转测试。‡ 翻转和旋转测试。� CenterPoint v2包括PointPainting和Cascade R-CNN的模型集成。0表明性能的提升来自稀疏学习模型容量的增加,而不是增加模型大小。在nuScenes上,总运行时间从93
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功