SASA：基于点的3D目标检测的语义增强集合抽象

107 浏览量更新于2023-12-01 收藏 18.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2040801007476788082Voxel-basedPV-basedPoint-basedarXiv:2201.01976v1 [cs.CV] 6 Jan 2022+v:mala2255获取更多论文0SASA：基于点的3D目标检测的语义增强集合抽象0Chen Chen 1，Zhe Chen 1，Jing Zhang 1，Dacheng Tao 2,101 悉尼大学，澳大利亚 2 京东探索学院，中国cche9000@uni.sydney.edu.au，{zhe.chen1，jing.zhang1}@sydney.edu.au，dacheng.tao@gmail.com0摘要0尽管基于点的网络在3D点云建模方面表现出准确性，但在3D检测方面仍然落后于基于体素的竞争对手。我们观察到，用于下采样点的普遍集合抽象设计可能会保留太多不重要的背景信息，这可能会影响检测对象的特征学习。为了解决这个问题，我们提出了一种名为Semantics-Augmented SetAbstraction(SASA)的新型集合抽象方法。从技术上讲，我们首先添加一个二进制分割模块作为辅助输出，以帮助识别前景点。基于估计的点级前景分数，我们提出了一种语义引导的点采样算法，以在下采样过程中保留更重要的前景点。在实践中，SASA在识别与前景对象相关的有价值点和改进基于点的3D检测的特征学习方面表现出有效性。此外，它是一个易于插入的模块，能够提升各种基于点的检测器，包括单阶段和两阶段的检测器。对流行的KITTI和nuScenes数据集进行的大量实验证实了SASA的优越性，使基于点的检测模型达到了与最先进的基于体素的方法相当的性能。代码将在https://github.com/blakechen97/SASA上提供。01 引言03D目标检测引起了研究人员的越来越多的兴趣，因为它在自动驾驶和机器人系统等各种实际场景中起着重要作用(Shi等人2020a;Yang等人2020年)。这个任务旨在从3D场景中识别和定位对象。为了正确地从3D空间中检测对象，广泛应用激光雷达传感器来捕捉3D点云并表示周围环境。与RGB图像相比，点云提供了丰富准确的3D结构信息，这对于精确的3D对象定位非常重要。为了利用深度学习的表示能力(Zhang和Tao2020)，研究人员设计了不同的神经网络来提取3D特征，包括基于体素的方法(Zhou和Tuzel 2018; Yan，Mao和Li2018;Deng等人2020年)，将稀疏点离散化为规则的体素网格和基于点的方法(Shi，Wang和Li 2019;0版权所有 ©2022年，人工智能促进协会(www.aaai.org)。保留所有权利。0推理时间（毫秒）03D中等AP0SECOND0PointPillars0Part-A^20SA-SSD0CIA-SSD0STD0TANet0Associate-3Ddet0HotSpotNet 3DSSD0PV-RCNN0Fast PointRCNN0PointRCNN0图1：我们的方法在KITTI基准测试(Geiger，Lenz和Urtasun2012年)上以高推理速度达到了最佳性能(中等AP：82.16%)，在基于体素和基于点的检测器中都表现出色。0Qi等人2019年;Yang等人2020年)直接在3D点上进行特征学习。由于无需转换的点云处理和灵活的感受野(Shi等人2020a)，基于点的方法具有实现出色性能的潜力(Yang等人2020年)。然而，与显示出巨大发展的基于体素的检测器相比，基于点的3D检测近年来停滞不前，在相关数据集上未能达到最佳性能。通过研究流行的基于点的方法，我们发现一个重要问题是广泛使用的集合抽象(SA)在检测环境中描述场景的效率低下，尤其是采样策略存在问题。特别是，SA层首先选择一组输入点作为关键点，然后为每个采样的关键点编码附近点的上下文表示。然而，在选择关键点时，现有的采样策略往往会选择远离点以更好地覆盖整个场景，这可能使抽象的点集包含过多的无关背景点，例如地面上的点，因为大多数3D空间属于背景，尤其是在户外场景中(Chen，Zhang和Tao2019)。这些无关的点通常提供了检测对象的琐碎信息，同时可能不适当地丢弃了大量有益的前景点。+v:mala2255获取更多论文0例如，小物体上的点（如行人）可能会被完全忽略。因此，由SA给出的点集可能无法提供足够的前景信息或覆盖许多前景实例，从而导致检测性能大幅降低。尽管大多数基于点的检测器（Qi等人，2018年；Yang等人，2019b年；Shi，Wang和Li，2019年）在检索前一阶段SA中丢弃的前景点时应用特征传播（FP）层，但这些FP层会带来较大的内存使用和高计算成本（Yang等人，2020年）。为了解决这个问题，我们提出了一种基于语义增强的集合抽象（SASA）用于基于点的3D检测。通过结合点级语义线索，我们可以帮助避免包含太多潜在的不相关的背景点，并专注于SA阶段中更具信息量的前景点。因此，抽象的点集可以为后续的框预测网络提供更多与对象相关的信息。为了正确地将点语义纳入SA中，我们对Pointnet++（Qi等人，2017b年）中的SA层进行了以下两个更新。首先，我们添加了一个点二进制分割模块，以识别输入中的前景点。然后，给定点语义图，我们采用一种新颖的采样算法，语义引导的最远点采样（S-FPS），选择SA层的代表性关键点。与常用的最远点采样（FPS）相比，我们提出的S-FPS更偏爱正点，因此通过下采样保留了更多来自前景的点。通过点级分割和先进的采样策略，SASA成为3D检测的强大点特征学习技术。在实践中，我们提出的SASA是一个易于插入的模块，并且可以与各种基于点的检测框架无缝配合使用。我们已经成功地将其实现在两个流行的基于点的基线模型3DSSD（Yang等人，2020年）和PointRCNN（Shi，Wang和Li，2019年）中。尽管它们使用了完全不同的特征学习和框预测方案，但SASA提供了一致的改进。实验结果（第4节）表明，SASA可以提高KITTI数据集（Geiger，Lenz和Urtasun，2012年）上最具竞争力的汽车类别的平均精度（mAP）约2％，并在大规模nuScenes数据集（Caesar等人，2020年）上显示出显着的改进。总之，本文的贡献源于我们具有语义的新颖点集抽象设计。对于基于点的3D检测，我们（a）在SA层中添加了一个二进制分割模块，以识别有价值的前景点;（b）提出了一种新颖的采样算法S-FPS，使抽象的点集专注于对象区域。我们的设计轻巧且易于在多种基于点的检测模型中采用。实验结果表明，我们的方法在KITTI（Geiger，Lenz和Urtasun，2012年）和nuScenes（Caesar等人，2020年）数据集上的单阶段和两阶段基线上获得了极大的改进，并为基于点的3D物体检测设定了新的最新技术水平。02 相关工作从点云中进行3D物体检测。根据3D点处理方案，最近的3D检测模型-0格网方法和基于点的方法是主要的物体检测方法。格网方法（Chen等人，2017年；Ku等人，2018年；Song和Xiao，2016年；Zhou和Tuzel，2018年；Yan，Mao和Li，2018年；Chen等人，2019年；Lang等人，2019年；He等人，2020年；Shi等人，2020b年；Deng等人，2020年）首先将无序的3D点转换为规则的2D像素或3D体素，其中可以应用卷积神经网络（CNN）进行点云建模。一些方法（Beltr´an等人，2018年；Lang等人，2019年）从投影的2D视图（例如鸟瞰图）处理点云。VoxelNet（Zhou和Tuzel，2018年）提出了通过体素化和3DCNN对3D场景进行建模的方法。SECOND（Yan，Mao和Li，2018年）使用稀疏卷积（Liu等人，2015年）构建了一个优雅的3D特征学习骨干，形成了一个快速有效的单阶段检测器。VoxelRCNN（Deng等人，2020年）提出了一种新颖的体素RoI池化方法，以有效地从体素中聚合RoI特征，以Pointnet（Qi等人，2017b年）的抽象方式调整3D框。另一个流是基于点的检测。基于流行的点特征学习技术Pointnet（Qi等人，2017a,b年），这些方法从原始点输入模型点云。F-Pointnet（Qi等人，2018年）首次将Pointnet（Qi等人，2017a,b年）引入到3D检测中，以定位由2D检测器给出的裁剪点云中的对象。为了避免利用RGB图像，PointRCNN（Shi，Wang和Li，2019年）提出了一种完全基于点的检测范式，包括基于点的区域建议网络（RPN）用于从点特征生成3D提议，以及基于点的细化网络用于使用内部点特征调整3D框。VoteNet（Qi等人，2019年）用轻量级投票方案替换了基于点的RPN，并获得了一种无锚点的基于点的检测器。3DSSD（Yang等人，2020年）采用了一种更先进的点采样策略，安全地去除了昂贵的FP层，而不会影响检测召回率。基于这些流行的基于点的检测框架，我们进一步探索如何升级基于点的检测的基本特征学习阶段。0用于集合抽象的采样算法。在基于Pointnet的特征学习范式中（Qi等人，2017b），SA层首先对输入点进行采样，以进行维度缩减，其中大多数基于点的模型（Qi等人，2018；Shi，Wang和Li，2019；Qi等人，2019）采用经典的最远点采样（FPS）算法进行关键点采样。最近的研究（Yang等人，2019a；Lang，Manor和Avidan，2020；Yang等人，2020；Nezhadarya等人，2020）设计了新的采样算法，以获得更好的点建模能力。对于代表性的点云分类任务，（Yang等人，2019a；Lang，Manor和Avidan，2020）设法使采样过程可微分，因此可以进行端到端优化。此外，一些方法选择将额外的启发式信息纳入采样策略中。例如，Nezhadarya等人（2020）倾向于保留在最终表示中占据大部分通道的关键点。在3D物体检测中，Yang等人（2020）提出了特征-FPS（F-FPS），其中还考虑了点之间的特征距离，以增加采样点的特征多样性。在本文中，我们使用更直接的启发式线索，即点的语义信息，来帮助SA层关注前景中更有益的点。xzxyzxzxzyyypi = σ(k(fki)) ,(1)Lseg =m�k=1λkNk·Nk�i=1CE(p[k]i , ˆp[k]i ),(2)˜di = pγi · di ,(3)+v:mala2255获取更多论文0输入点0点0分割0模块0语义地图0语义引导0点采样0Pointnet层0输出点采样和分组0图2：我们提出的语义增强的集合抽象（SASA）层的结构。基于原始的SA层设计，我们添加了一个点分割模块，将输入点特征映射到二进制分割掩模，并通过我们的语义引导最远点采样（S-FPS）更新点采样算法。点的语义标签来自于地面真值框，所有点分割模块都以端到端的方式通过分割损失函数进行优化。03 语义增强的集合抽象 SASA的整体结构如图2所示，主要包括三个组件：点分割模块、语义引导的点采样层和正常的Pointnet++SA层。给定输入点坐标X和特征F，我们首先将点特征馈送到点分割模块中，计算点级前景得分P。然后，我们使用我们的S-FPS根据点坐标X和前景得分P对关键点集K进行采样。对于关键点集K中的每个点，我们应用正常的Pointnet++SA层（Qi等人，2017b），包括点分组操作、多层感知器（MLP）和最大池化层，为采样的关键点计算高层表示。输出的关键点坐标和特征被发送到后续网络进行进一步处理。03.1 点分割模块为了帮助Pointnet构建对局部语义的认知，我们在SASA中嵌入了一个轻量级的点分割模块。它是一个简单的2层MLP，将输入点分类为两个类别，即前景和背景。具体而言，将{f ( l k ) 1 , f ( l k ) 2 , . . . , f ( l k ) N k}表示为馈送到第k个SA层的lk维点特征，每个点的前景得分p∈ [0 , 1]计算如下：0其中M k ( ∙)表示第k个SA层内的点分割模块，将输入点特征fi映射到前景得分p i。σ ( ∙)是sigmoid函数。对于每个SASA层中的点分割模块的训练，点的前景分割标签可以从框注释中自然得出。与（Shi，Wang和Li，2019）类似，任何一个地面真值3D边界框内的点被视为前景点，其他点被视为背景点。总的分割损失使用交叉熵（CE）损失函数计算：0其中 p [ k ] i 和 ˆ p [ k ] i分别表示预测的前景分数和地面真实分割标签（对于来自前景的点为1，对于来自背景的点为0）。0其中 p [ k ] i 和 ˆ p [ k ] i 分别表示第 k 个SA层中第 i个点的前景分数（对于来自前景的点为1，对于来自背景的点为0）。N k 和 λ k 分别是输入点的总数和第 k个SA层的分割损失权重。详细的参数设置推迟到第3.3节。03.2 语义引导的最远点采样局部语义感知指示了可能存在感兴趣对象的热点区域。考虑到检测对象的目标，我们需要更多地关注这些位置，并从这些位置采样更多的点。为了在采样阶段利用获得的点语义，一种直接的方法是直接选择具有前 K个前景分数的点，但我们观察到这种方法从容易识别的对象中选择了太多的点，这些对象通常具有更高的前景分数。获得的关键点集合无法覆盖整个3D场景，忽略了很大比例的真实对象。因此，整体的检测性能受到了很大的影响。因此，我们提出了一种新颖的点采样算法，即语义引导的最远点采样（S-FPS），用于将FPS的全局场景感知和由语义启发的局部对象感知结合起来。给定由先前的分割模块产生的点的语义以及输入的点坐标，我们提出的S-FPS的过程在算法1中描述。其主要思想是通过优先选择具有较高前景分数的点来选择更多的前景点。在保持FPS的整体过程不变的同时，我们通过点的前景分数来修正采样度量，即到已选择关键点的距离。具体来说，给定输入点的3D坐标{x 1 , x 2 , . . . , x N}和前景分数{p 1 , p 2 , . . . , p N }，距离数组{d 1 , d 2 , . . ., d N }维护从第 i个点到已选择的关键点的最短距离。在每一轮选择中，我们将具有最高语义加权距离˜ d i的点添加到关键点集合中，计算方法如下：0其中 γ是平衡因子，控制语义信息的重要性。值得注意的是，当 γ= 0 时，S-FPS 可以退化为普通的 FPS，当 γ变得非常大时，S-FPS 可以近似于前面提到的 top-K 选择。= arg max(P)8:D = {pγk · dk|vk = 0}9:ki = arg max(D)10:13:dj = min(dj, ∥xj − xki∥)0算法1：语义引导的最远点采样算法。N是输入点的数量，M 是算法采样的输出点的数量。0输入：坐标 X = { x 1 , . . . , x N } ∈ R N × 3 ；前景分数 P = { p 1 , . . . ,p N } ∈ R N0输出：采样的关键点集合 K = { k 1 , . . . , k M } 1:初始化一个空的采样点集合 K 2: 初始化一个长度为 N的距离数组 d，所有元素都为 + ∞ 3: 初始化一个长度为N 的访问数组 v，所有元素都为零 4: 对于 i 从 1 到 M的循环 5: 如果 i = 1 则07: 否则011: 将 k i 添加到 K 中，v k i = 1015: 结束循环16: 返回 P0S-FPS带来的好处是多方面的。首先，S-FPS可以保留来自前景的多样点。结合语义权重，正点比负点在采样过程中更受青睐，因为它们通常具有更大的语义引导距离。其次，S-FPS增强了高分区域的关键点密度，这些区域中存在着前景对象的概率更高。这可以为后续的框预测网络提供更多有益信息。此外，S-FPS对远离的异常值不太敏感（Yang等，2019a）。尽管异常值通常与其他点的距离较大，但它们的低语义权重阻止了采样算法选择它们。最后，S-FPS是不受排列影响的（Yang等，2019a）。也就是说，之前的采样算法如FPS和F-FPS没有特定的起始点，因此输入点的不同顺序可能导致不同的采样结果。而S-FPS始终从具有最高语义分数的点开始，并且所有后续的选择都是唯一的。由S-FPS采样的关键点对不同的排列保持稳定。03.3 实现细节0本节介绍了我们如何在3DSSD（Yang等人，2020年）和PointRCNN（Shi，Wang和Li2019）中实现语义增强集合抽象。03DSSD。3DSSD（Yang等人，2020年）是一种轻量级的单阶段检测器。骨干网络仅由三个PointnetSA层组成，而盒子预测网络类似于VoteNet（Qi等人，2019年），其中首先从候选点特征计算出表示相应物体质心的投票点，然后聚合每个投票点附近的点以估计3D盒子。3DSSD引入了一种融合采样策略，其中同时采用两种不同的点采样算法（即FPS和F-0FPS S-FPS0SA层0输入点0候选点0点0上下文0点0（a）3DSSD骨干网络0FPS S-FPS0FP层0SA层0输入点输出点0（b）PointRCNN骨干网络0图3：带有语义增强集合抽象的3DSSD和PointRCNN骨干网络示意图。0FPS）一起采用，分别对该层的总关键点数的一半进行采样。如图3a所示，我们用我们提出的S-FPS替换了F-FPS部分，并保持所有其他采样设置（例如采样的关键点数）不变。由S-FPS采样的关键点被视为候选点，进一步生成相应的投票点，而由FPS采样的关键点则是为附近的投票提供上下文信息的上下文点。我们从第2级SA层开始实现我们的SASA，因为第1级的原始点输入无法产生有意义的语义。两个SA层的分割损失权重分别设置为0.01和0.1。0PointRCNN。PointRCNN（Shi，Wang和Li2019）是一种代表性的两阶段检测范式，使用Pointnet。该模型由Pointnet++（Qi等人，2017b）骨干网络、基于点的RPN和细化网络组成。骨干网络由四个SA层和四个FP层组成。提取的点特征然后被送入RPN，用于过滤背景点并生成前景点的3D感兴趣区域（RoIs）。最后，细化网络在每个RoI内聚集点特征，并给出最终的边界框估计。PointRCNN使用vanillaFPS在所有SA层中采样所有关键点。如图3b所示，我们从第2级到第4级应用SASA，并保持骨干结构（包括FP层）与原始实现相同。三个级别的分割损失权重分别设置为0.001、0.01和0.1。0+v:mala2255获取更多论文4.3Main Results.Our main evaluation compared with state-of-the-art modelsis performed on the 3DSSD model with our proposed SASA.Results on KITTI Dataset.Table 1 shows the 3D ob-ject detection performance on the KITTI test set evaluatedon the ofﬁcial server. For the most competitive car detec-tion race track, our method surpasses all existing point-based detectors by a great margin and obtains comparableresults to state-of-the-art voxel-based models. Comparing+v:mala2255获取更多论文04 实验 4.1数据集我们在流行的KITTI数据集（Geiger，Lenz和Urtasun2012）和更具挑战性的nuScenes数据集（Caesar等人，2020年）上验证了我们的语义增强集合抽象。0KITTI数据集。KITTI数据集（Geiger，Lenz和Urta- sun2012）是交通场景中3D物体检测的一个流行基准。它包含7,481个LiDAR点云以及精确校准的3D边界框用于训练，以及7,518个用于测试的样本。按照常用的设置（Zhou和Tuzel2018），我们将所有训练样本分为train集（3,712个样本）和val集（3,769个样本），所有实验模型都在train集上进行训练，并在val集上进行测试。对于提交到KITTI测试服务器，我们遵循（Shi等人，2020a）中提到的训练协议，其中80%的标记点云图像用于训练，剩余的20%图像用于验证。0nuScenes数据集。nuScenes数据集（Caesar等人，2020年）是一个更具挑战性的自动驾驶数据集，包含来自1,000个场景的380k次LiDAR扫描。它标注了多达10个物体类别，包括3D边界框、物体速度和属性，检测范围为360°（与KITTI的90°相比）。nuScenes数据集中使用的评估指标包括常用的平均精度均值（mAP）和一种新颖的nuScenes检测分数（NDS），反映了多个领域（即检测、跟踪和属性估计）中的整体预测质量。04.2实验设置我们有两个不同的基线，3DSSD（Yang等人，2020）和PointRCNN（Shi，Wang和Li，2019），用于评估。我们的实验模型都是使用OpenPCDet（Team2020）工具箱构建的，包括我们复现的3DSSD和PointRCNN的官方实现。03DSSD。我们使用ADAM优化器对3DSSD模型进行80个时期的训练。我们采用了一周期学习率调度（Smith和Topin，2019），峰值学习率为0.01。总批量大小设置为16，在四个NVIDIA V100GPU上均匀分布。在训练阶段，采用多样化的数据增强策略以避免过拟合。我们使用GT-AUG（Yan，Mao和Li，2018；Shi，Wang和Li，2019）将一些实例以及它们的内部LiDAR点从其他场景粘贴到当前训练场景中。我们还利用全局场景增强，如沿X轴的随机翻转、从[0.9，1.1]的因子进行随机缩放和从[-π，π]的角度进行随机旋转。04]，以及包括随机排列、缩放和旋转在内的盒子增强。增强设置与（Yang等人，2020）保持一致。在推理阶段，我们使用3D非最大值抑制（NMS），阈值为0.01，以去除冗余的预测。0在转移到nuScenes数据集时，我们遵循官方建议（Caesar等人，2020），将当前关键帧以及之前的LiDAR点结合起来0方法 Car（IoU=0.7）时间0Easy Mod. Hard（ms）0RGB + LiDAR0MV3D（Chen等人，2017）74.97 63.63 54.00 360F-PointNet（Qi等人，2018）82.19 69.79 60.59 170AVOD-FPN（Ku等人，2018）83.07 71.76 65.73 1003D-CVF（Yoo等人，20205 73.11 750仅使用LiDAR0基于体素：0VoxelNet（Zhou等人，2018）77.47 65.11 57.73 220SECOND（Yan等人，2018）83.34 72.55 65.82 50PointPillars（Lang等人，2019）82.58 74.31 68.99 23.6TANet（Liu等人，2020）83.81 75.38 67.66 34.5Part-A2（Shi等人，2020b）87.81 78.49 73.51 80*SA-SSD（He等人，2020）88.75 79.79 74.16 40.1CIA-SSD（Zheng等人，2020）89.59 80.28 72.87 30.8Voxel-RCN人，2020）90.90 81.62 77.06 25.20基于点云体素：0F-PointRCNN（Chen等人，2019）84.28 75.73 67.39 65PV-RCN020a）90.25 81.43 76.82 80*0基于点云：0PointRCNN（Shi等人，2019）86.96 75.64 70.70 100*STD（Yang等人，2019b）87.95 79.71 75.09 803DSSD（Yang等人，2020）88.36 79.57 74.55 38我们的模型（3DSSD + SASA）88.76 82.16 77.16 360表1：在KITTI测试集的汽车类别上的结果。我们的模型是带有SASA的3DSSD。评估指标是在40个召回点上计算的AP。带有“*”的推理时间数据来自官方的KITTI基准网站。0在0.5秒内的帧中，每个训练样本中涉及多达400k个LiDAR点。然后，我们以与（Yang等人，2020）相同的方式减少输入LiDAR点的数量。具体而言，我们使用体素化方法对关键帧和之前的帧的点云进行体素化处理，体素大小为（0.1m，0.1m，0.1m），然后从关键帧和之前的帧中随机选择16384个和49152个体素，并随机选择一个内部LiDAR点。总共有65536个具有3D坐标、反射率和时间戳（Caesar等人，2020）的LiDAR点输入到模型中。训练阶段在8个NVIDIAV100 GPU上以批量大小为16的方式运行20个时期。0PointRCNN。根据OpenPCDet（Team2020）提供的模型配置，我们使用ADAM优化器对PointRCNN（Shi，Wang和Li，2019）进行80个时期的端到端训练。学习率调度是一周期调度（Smith和Topin，2019），峰值学习率为0.01。我们遵循原始的数据增强策略和推理设置。更多细节请参考（Shi，Wang和Li，2019）和（Team2020）。MethodNDSmAPCarTruckBusTrailerC.V.Ped.MotorBicycleT.C.BarrierPointPillars (Lang et al. 2019)46.828.275.531.644.923.74.049.614.60.48.030.03D-CVF (Yoo et al. 2020)49.842.279.737.955.036.3-71.337.2-40.847.13DSSD (Yang et al. 2020)56.442.681.247.261.430.512.670.236.08.631.147.9Ours (3DSSD + SASA)61.045.076.845.066.236.516.169.139.616.929.953.6Table 2: Results on the nuScenes validation set. Our model is 3DSSD with SASA. Evaluation metrics include NDS, mAP andAP on 10 classes. Abbreviations: Pedestrian (Ped.), Trafﬁc cone (T.C.), Construction vehicle (C.V.).Sampling MethodPS FSEasyMod.HardRecallFPS91.0882.7579.9392.10FPS91.1782.8381.9792.01F-FPS91.5483.4682.1896.65S-FPS (γ = 0.1)91.5383.1681.9295.79S-FPS (γ = 1)92.1985.7683.1197.65S-FPS (γ = 10)92.1783.4180.6195.02S-FPS (γ = 100)91.7282.3578.2491.19Table 3: Performance comparison between FPS, F-FPS andS-FPS with different balance factor settings. “PS” representspoint segmentation modules and “FS” represents the fusionsampling strategy. Point recall is calculated according to the256 candidate points that are used to generate votes.with the baseline model 3DSSD, our method boosts the APby 0.40%, 2.59%, 2.61% for the three difﬁculty levels re-spectively. It is worth noting that our method acquires signif-icant improvements on the moderate and hard levels, demon-strating our proposed semantics-augmented operation canretain sufﬁcient points from hardly visible instances so asto make more robust object estimations, which is of greatsigniﬁcance in building safe autonomous driving systems.Results on nuScenes Dataset.We report the nuScenes de-tection score (NDS) and the mean average precision (mAP)as well as the average precision (AP) for the 10 object cate-gories in Table 2. Our method obtains much higher NDS andmAP compared with the baseline method 3DSSD (4.6% onNDS and 2.4% on mAP). We believe our proposed SASA ef-ﬁciently chooses plenty of key points from multiple framesso as to enhance the detection accuracy as well as the track-ing accuracy. Especially for bicycles that are commonly re-garded as difﬁcult detection targets, our method still pro-duces satisfactory results.Inference Speed.Our model takes around 36ms to pro-cess a single point cloud sample from KITTI dataset, mea-sured with OpenPCDet (Team 2020) framework on a V100GPU. Compared with F-FPS, S-FPS bypasses the time-consuming calculation of the pairwise feature distance. Es-pecially when the number of points becomes large, ourstrategy avoids quadratic growth of computations and GPUmemory usage for sampling.4.4Ablation StudyWe conduct ablation studies to validate each part of SASA.All results provided in this section are trained on the KITTItrain split and evaluated on the val split of the car class.Effects of Semantics-guided Point Sampling.Table 3compares the detection performance as well as the pointrecall, which means that the proportion of GT boxes thathave at least one internal sample point comparing to the to-tal number of GT boxes (Yang et al. 2020), among differentsampling algorithms, based on the 3DSSD baseline. We onlyadjust the point sampling strategy and keep other model set-tings identical. Results show that our S-FPS outperforms theF-FPS used in the 3DSSD baseline in all three difﬁculty lev-els, especially by up to 2.30% in the moderate level. Also,candidate points sampled by our method can “hit” 1% moreground-truth boxes comparing to F-FPS.Visualization results in Figure 4 also prove our methodeffective. Comparing to F-FPS, S-FPS can keep more keypoints within a single instance, even for those severely oc-cluded or tiny objects. Thus, hard examples are more likelyto be detected with our proposed S-FPS sampling algorithm.0点分割层的影响。表3的第一行和第二行比较了带有和不带有点分割模块的检测性能。独立的分割层对检测精度的影响有限。改进主要来自点采样算法。0语义平衡因子的影响。我们还在表3的第四行到第七行比较了不同平衡因子γ下的S-FPS。结果表明，过大或过小的γ不能适当地提高检测精度。如前所述，如果γ变得非常大，S-FPS将近似于前景得分的top-K选择。采样的关键点可能会聚集在少数容易识别的实例中，而无法覆盖远处或遮挡的实例。当γ=100时，点召回率急剧下降至91.19%，甚至比普通FPS还差。此外，由于内部采样点的数量在对象之间存在很大差异，盒子预测网络将遇到不平衡训练问题。因此，整体的检测性能受到了很大的损害。从另一个角度来看，如果γ接近0，S-FPS将退化为普通FPS，改进有限。适当的γ可以显著提高性能。当γ=1时，三个难度级别同时达到令人满意的性能。04.5兼容性研究0我们的SASA是一种易于插入设计，可以为多种基于点的检测范式提供服务。正如表4所示，SASA已经在一阶段模型3DSSD上获得了显著的改进，这里我们在两阶段基于点的检测器PointRCNN中测试其兼容性。0+v:mala225

下载后可阅读完整内容，剩余1页未读，立即下载