3DSSD：轻量级基于点的3D单阶段物体检测器

134 浏览量更新于2023-10-24 收藏 13.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11104003DSSD：基于点的3D单阶段物体检测器0杨泽通 1 孙亚楠 2 刘舒 3 贾宇轩 1 , 301 香港中文大学 2 香港科技大学 3 SmartMore0{ tomztyang, now.syn } @gmail.com sliu@smartmore.com leojia@cse.cuhk.edu.hk0摘要0基于体素的3D单阶段检测器的普及与未充分开发的基于点的方法形成对比。在本文中，我们提出了一种轻量级的基于点的3D单阶段物体检测器3DSSD，以实现准确性和效率的良好平衡。在这种范式中，所有的上采样层和细化阶段，这在所有现有的基于点的方法中都是必不可少的，都被放弃了。我们相反地提出了一种融合采样策略，在下采样过程中使得在较少的代表性点上进行检测成为可能。我们开发了一个精细的边界框预测网络，包括候选生成层和一个无锚点回归头部，其中包含一个3D中心性分配策略，以满足高准确性和速度的需求。我们的3DSSD范式是一个优雅的单阶段无锚点方法。我们在广泛使用的KITTI数据集和更具挑战性的nuScenes数据集上进行了评估。我们的方法在性能上超过了所有最先进的基于体素的单阶段方法，并且甚至与两阶段的基于点的方法具有可比性，推理速度惊人地达到了每秒25+帧，比之前最先进的基于点的方法快2倍。01. 引言03D场景理解自从受益于许多应用，如自动驾驶[7]和增强现实[17]以来，已经引起了广泛关注。在本文中，我们关注的是3D物体检测这一基本任务，它预测点云中每个实例的3D边界框和类别标签。尽管在2D检测方面取得了重大突破，但由于点云的独特特性，直接应用这些2D方法到3D仍然不可能。与2D图像相比，点云是稀疏、无序和局部敏感的，使得使用卷积神经网络（CNNs）进行解析变得困难。如何转换和利用原始点云数据已成为检测任务中的主要问题。一些现有的方法将点云从0将稀疏的形式转化为紧凑的表示，通过将它们投影到图像[4,11, 8, 18, 5]或将它们细分为均匀分布的体素[16, 26, 33, 29,28,12]。我们称这些方法为基于体素的方法，它们需要对整个点云进行体素化。每个体素中的特征是通过PointNet-like骨干网络[21,22]或手工设计的特征生成的。然后可以在紧凑的体素空间中应用各种2D检测范式。虽然这些方法直观且高效，但在体素化过程中会丢失信息并遇到性能瓶颈。另一种方法是基于点的方法[31, 32,23]。它们以原始点云作为输入，根据每个点预测边界框。具体而言，它们由两个阶段组成。在第一阶段，使用集合抽象（SA）层进行下采样和提取上下文特征。然后，使用特征传播（FP）层进行上采样并将特征广播到在下采样过程中被丢弃的点上。然后，应用3D区域建议网络（RPN）在每个点处生成中心为该点的候选框。基于这些候选框，第二阶段开发了一个细化模块来进行最终预测。这些方法实现了更好的性能，但推理时间通常较长。0我们的贡献与所有先前的方法不同，我们开发了一个轻量级和高效的基于点的3D单阶段物体检测框架。我们的关键观察是，在基于点的方法中，FP层和细化阶段消耗了一半的推理时间。然而，放弃FP层并不是一件简单的事情。在当前的采样策略中，SA仅基于3D欧氏距离（D-FPS）进行最远点采样，导致只有少数内部点的前景实例在采样后可能会丢失。因此，它们不可能被检测到，这导致了巨大的性能下降。在STD[32]中，没有进行上采样，只在剩余的下采样点上进行检测，性能下降了约9%。这就是为什么必须使用FP层进行点上采样的原因，尽管会消耗大量的额外计算。为了解决这个问题，我们首先110410提出了一种基于特征距离的新的采样策略，称为F-FPS，它有效地保留了各种实例的内部点。我们的最终采样策略成为F-FPS和D-FPS的融合版本。为了更好地利用SA层中保留的代表点，我们开发了一个盒子预测网络，它利用候选生成层（CG）、无锚点回归头和3D中心性分配策略。在CG层中，我们首先将F-FPS中的代表点移动以生成候选点。这个移动操作由代表点与其对应实例中心之间的相对位置进行监督。然后，我们将这些候选点视为中心，从F-FPS和D-FPS的整个代表点集中找到它们周围的点，并通过多层感知器（MLP）网络提取它们的特征。这些特征最终被输入到无锚点回归头中以预测3D边界框。我们还设计了一种3D中心性分配策略，将更高的分类分数分配给离实例中心更近的候选点，以便获得精确的定位预测。我们在广泛使用的KITTI[6]数据集和更具挑战性的nuScenes[3]数据集上评估了我们的方法。实验证明，我们的模型在速度上远远超过了所有最先进的基于体素的单阶段方法，甚至在速度更快的推理速度下，与所有基于点的两阶段方法达到了可比较的性能。我们的主要贡献是多方面的。0•我们提出了一种轻量级且有效的基于点的3D单阶段目标检测器3DSSD。我们去除了所有现有基于点的方法中不可或缺的计算密集型FP层和细化模块。0•在SA层中开发了一种新的融合采样策略，以保留不同前景实例的充足内部点。它为回归和分类保留了丰富的信息。0•我们设计了一个盒子预测网络，以提高效果和效率。实验结果表明，我们的框架优于所有单阶段方法，并且在更高的效率下与最先进的两阶段方法具有可比较的性能（每个场景38毫秒）。02. 相关工作0使用多个传感器进行3D目标检测有几种方法可以利用多个传感器融合信息进行目标检测。MV3D[4]将LiDAR点云投影到鸟瞰图（BEV）中以生成提案。这些提案与来自图像、前视图和BEV的其他信息一起发送到第二阶段以预测最终的边界框。AVOD [11]0通过在提案生成阶段引入图像特征，将MV3D扩展。MMF[14]融合深度图、LiDAR点云、图像和地图的信息，完成深度补全、2D目标检测和3D目标检测等多个任务。这些任务相互受益，增强了3D目标检测的最终性能。0仅使用LiDAR数据进行3D目标检测主要有两种方法。一种是基于体素的方法，它对整个点云进行体素化处理。这些基于体素的方法之间的差异在于体素特征的初始化。在[26]中，每个非空体素通过该体素内的点编码为6个统计量。[13]中使用二进制编码对每个体素网格进行编码。VoxelNet[33]利用PointNet[21]提取每个体素的特征。与[33]相比，SECOND[28]应用了稀疏卷积层[9]来解析紧凑的表示。PointPillars[12]将伪图像作为体素化后的表示。另一种方法是基于点的方法，它以原始点云作为输入，并根据每个点生成预测。F-PointNet [20]和IPOD[31]采用类似于2D机制的检测或分割来过滤大部分无用点，并从保留的有用点生成预测。PointRCNN[23]利用PointNet++[22]的SA和FP层提取每个点的特征，提出了一个区域提案网络（RPN）来生成提案，并应用一个细化模块来预测边界框和类别标签。这些方法优于基于体素的方法，但推理时间更长。它们不能应用于实时自动驾驶系统。STD[32]充分利用了基于点和基于体素的方法的优点。它以原始点云作为输入，应用PointNet++提取特征，提出了一个PointsPool层，将特征从稀疏表示转换为密集表示，并最终在细化模块中利用CNNs。它的速度比前面的基于点的方法更快，但仍比基于体素的方法慢得多。如上所述，所有基于点的方法都由两个阶段的提案生成组成-包括SA层和FP层-以及用于准确预测的细化模块。本文首次尝试不使用FP层和细化模块，以加快整个过程的速度。03. 我们的框架0在本节中，我们首先分析基于点的方法的瓶颈，并描述我们提出的融合采样策略。接下来，我们介绍包括候选生成层、无锚点回归头和我们的3D中心性分配策略在内的盒子预测网络。最后，我们讨论损失函数。整个3DSSD框架如图1所示。(b) Candidate Generation LayerD-FPSFeaturesFusion SamplingN"2 ×C"N&×C&N×4N"2 ×C"SASAMultiple SAsN(2 ×C(N(2 ×C(ShiftsXYZCandidate PointsGroupMLPBoxClassD-FPSF-FPSGroupMLPFusionSamplingD-FPSF-FPSN(2 ×3N(2 ×3Features(a) Backbone(c) Prediction HeadMaxPoolMaxPoolN(2 ×C(MotivationAs aforementioned, there are two streamsof methods in 3D object detection, which are point-basedand voxel-based frameworks. Albeit accurate, point-basedmethods are more time-consuming compared to voxel-based ones. All current point-based methods [32, 23, 31]are composed of the two stages of proposal generation andprediction reﬁnement.In ﬁrst stage, SA layers are applied to downsample pointsfor better efﬁciency and enlarging receptive ﬁelds, while FPlayers are applied to broadcast features for dropped pointsduring downsampling process, in order to recover all points.In the second stage, a reﬁnement module optimizes propos-als from RPN to get more accurate prediction. SA layers arenecessary for extracting features of points. We reiterate thatFP layers and the reﬁnement module limit the efﬁciency,as shown in Table 1. We are thus motivated to design alightweight and effective point-based single stage detector.110420图1.3DSSD框架的示意图。它具有一个包含候选生成层和无锚点预测头的骨干盒子预测网络。（a）骨干网络。它以原始点云（x，y，z，r）作为输入，并通过多个带有融合采样（FS）策略的SA层为所有代表性点生成全局特征。（b）候选生成层（CG）。它在SA层之后对代表性点进行下采样、平移和特征提取。（c）无锚点预测头。03.1. 融合采样0挑战移除FP层并不容易。骨干网络中的SA层利用D-FPS选择一部分点作为下采样的代表性点。没有FP层，盒子预测网络必须在这些幸存的代表性点上进行。然而，这种采样方法只考虑点之间的相对位置。因此，由于数量庞大，大部分幸存的代表性点实际上是背景点。现在，对于远程（或小型）实例，它们的内部点不太可能被选择，因为数量远小于背景点的数量。在更复杂的数据集上，如nuScenes[3]，情况变得更糟。统计上，我们使用点召回率来说明内部点幸存的实例数量与总实例数量之间的比值。0方法 SA层（ms） FP层（ms）细化模块（ms）0基准 40 14 350表1. 我们复现的PointRCNN[23]模型中不同组件的运行时间，其中有4个SA层和4个FP层用于特征提取，并且有3个SA层的细化模块用于预测。0方法 4,096 1,024 5120F-FPS ( λ =0.0) 99.7 % 83.5 % 68.4 %0F-FPS ( λ =0.5) 99.7 % 84.9 % 74.9 %0F-FPS ( λ =1.0) 99.7 % 89.2 % 76.1 %0F-FPS ( λ =2.0) 99.7 % 86.3 % 73.7 %0表2.nuScenes数据集上不同采样策略的点召回率。"4,096"，"1,024"和"512"代表子集中代表性点的数量。0采样的代表性点和实例总数之间的比值，以帮助说明这一事实。如表2的第一行所示，使用1,024（或512）个代表性点，点召回率分别仅为65.9%（或51.8%），这意味着近一半的实例被完全删除，无法被检测到。为了改善这个问题，大多数现有方法在下采样过程中应用FP层来召回那些被丢弃的有用点，但这会在推理过程中增加计算量。0特征-FPS为了保留正面点（任何实例内部的内部点）并消除那些无用的负面点（位于背景上的点），在采样过程中我们考虑每个点的空间距离和语义信息。我们注意到，深度神经网络很好地捕捉到了语义信息。因此，在FPS中利用特征距离作为标准可以去除背景上的许多相似的负面点。有趣的是，远处物体的正面点仍然可以保留，因为来自不同对象的点的语义特征彼此不同。然而，仅将语义特征距离作为唯一标准会保留相当数量的点。Instance CenterPoints From D-FPSPoints From F-FPSCandidate PointsThe analysis above indicates that, after a SA layer, notonly positive points should be sampled as many as possible,but also we need to gather enough negative points for morereliable classiﬁcation. We present a novel fusion samplingstrategy (FS), in which both F-FPS and D-FPS are appliedduring a SA layer, to retain more positive points for local-ization and enough negative points for classiﬁcation as well.110430图2.CG层中的移位操作示意图。灰色矩形表示一个实例，其中包含来自F-FPS（绿色）和D-FPS（蓝色）的所有正面代表点。红点表示实例中心。我们只移动来自F-FPS的点，根据它们到实例中心的距离进行监督。0在一个实例内部，存在冗余。例如，给定一辆汽车，窗户周围的点的特征与车轮的点的特征之间存在明显的差异。因此，分别对这两个部分周围的点进行采样，而任一部分的点已经对回归有信息。因此，为了减少冗余并增加多样性，我们在FPS中同时应用空间距离和语义特征距离作为标准。它的公式为0C(A,B) = λLd(A,B) + Lf(A,B)，(1)0其中Ld(A,B)和Lf(A,B)分别表示两个点之间的L2X-Y-Z距离和L2特征距离。λ是平衡因子。我们将这种采样方法称为特征-FPS（F-FPS）。使用不同的λ进行比较的结果如表2所示，表明在下采样操作中结合两个距离比仅使用特征距离更有效，其中λ设置为0。此外，如表2所示，使用F-FPS和1024个代表点，并将λ设置为1，可以保证在nuScenes[3]数据集中保留89.2%的实例，比D-FPS采样策略高23.3%。0融合采样通过F-FPS在SA层中保留了不同实例内的大量正面点。然而，由于总代表点数N_m有限，许多负面点在下采样过程中被丢弃，这有利于回归但阻碍了分类。在SA层的分组阶段，聚合来自周围点的特征，负面点无法找到足够的周围点，无法扩大其感受野。因此，很难区分正面点和负面点，导致分类准确性较差。我们的实验证明了这个限制。虽然使用F-FPS的模型的召回率和定位准确性高于使用D-FPS的模型，但它错误地将一些负面点误认为正面点，导致分类准确性下降。0分别使用F-FPS和D-FPS得到2组点，并将这两组点一起输入到SA层中的分组操作中。03.2. 边界框预测网络0在使用了几个SA层和融合采样实现骨干网络之后，我们从F-FPS和D-FPS中获得了一部分点的子集，用于最终预测。在以前的基于点的方法中，在预测头之前应用了另一个SA层来提取特征。一个普通的SA层有三个步骤，包括中心点选择、周围点提取和语义特征生成。为了进一步减少计算成本并充分利用融合采样的优势，我们在预测头之前引入了一个候选生成层（CG），它是SA层的一种变体。由于D-FPS中的大多数代表点是负面的，在边界框回归中是无用的，我们只采用F-FPS中的代表点作为初始中心点。它们在相对位置的监督下被移动到对应实例的位置，如图2所示，与VoteNet[19]的方式相同。我们将这些移动后的新点称为候选点。然后我们将这些候选点作为我们CG层的中心点。出于性能考虑，我们使用候选点而不是原始点作为中心点，这将在后面详细讨论。接下来，我们从包含D-FPS和F-FPS中的点的整个代表点集中找到每个候选点的周围点，并将它们的归一化位置和语义特征连接起来作为输入。最后应用MLP层来提取特征。这些特征被发送到预测头进行回归和分类。整个过程如图1所示。0无锚点回归头通过融合采样策略和CG层，我们的模型可以安全地去除耗时的FP层和细化模块。在回归头中，我们有两种选择：基于锚点的预测网络或无锚点的预测网络。对于基于锚点的头部，我们需要构建多尺度和多方向的锚点来覆盖不同大小和方向的物体。在nuScenes数据集[3]中的复杂场景中，物体属于10个不同的类别，具有广泛的方向范围。因此，我们至少需要20个锚点，包括10个不同的大小和2个不同的方向。512×256512×256256×256256×256r1=0.2, C1=[32, 32, 64]r2=0.4, C2=[64, 64, 128]r3=0.8, C3=[64, 96, 128]r1=0.4, C1=[ 64, 64, 128]r2=0.8, C2=[128, 128, 256]r3=1.6, C3=[128, 128, 256]r1=1.6, C1=[ 128,128, 256]r2=3.2, C2=[128, 128, 256]r3=4.8, C3=[128, 256, 256]1024×2561024×2562048×2561024×2561024×256r2=0.5, C2=[64, 64, 128]r3=1.0, C3=[64, 96, 128]r2=1.0, C2=[128, 128, 256]r3=2.0, C3=[128, 128, 256]r2=2.0, C2=[128, 128, 256]r3=4.0, C3=[128, 128, 256]r2=4.0, C2=[128, 128, 256]r3=8.0, C3=[128, 128, 256]2048×2561024×256lctrness =3smin(f, b)max(f, b) ⇥ min(l, r)max(l, r) ⇥ min(t, d)max(t, d), (2)L = 1NcXiLc(si, ui) + λ11NpXi[ui > 0]Lr+ λ21N ∗pLs,(3)Langle = Lc(dac, tac) + D(dar, tar),(4)Lcorner =8Xm=1kPm � Gmk ,(5)110440D-FPS FS04096×128016384×40FS0D-FPS FS016384×40FS049152×404096×1280D-FPS0FS0SA SA0SA0SA SA0SA0SA0图3. 3DSSD在KITTI（左）和nuScenes（右）数据集上的主干网络。0在基于锚点的模型中，我们需要设置多个锚点来覆盖不同大小和方向的物体，这样会导致设置繁琐。为了保持我们的轻量级设计，我们使用了无锚点回归头。在回归头中，对于每个候选点，我们预测其与对应实例的距离（d x，d y，dz），以及对应实例的大小（d l，d w，dh）和方向。由于每个点没有先验方向，我们采用了分类和回归结合的方法来进行方向角回归，具体方法参考[20]。我们将方向角分为Na个等分的角度区间，并将候选点的方向角分类到其中一个区间中，通过回归得到残差值。在实验中，我们将Na设置为12。03D中心性分配策略在训练过程中，我们需要一种分配策略为每个候选点分配标签。在2D单阶段检测器中，可以使用交并比（IoU）[15]阈值或掩码[25，30]。FCOS[25]采用了连续的中心性标签，用于替代原始的二进制分类标签，以进一步帮助区分像素。它将更高的中心性分数分配给离实例中心更近的像素，相对于IoU或基于掩码的分配策略，性能更好。然而，直接将中心性标签应用于3D检测任务并不是最优的。由于所有的LiDAR点都位于物体的表面上，中心性标签都非常小且相似。几乎不可能从其他点中区分出好的预测结果。我们不使用点云中的原始代表性点，而是使用预测的候选点，这些候选点被监督接近实例中心。靠近实例中心的候选点往往能够获得更准确的定位预测。因此，3D中心性标签能够很容易地区分它们。对于每个候选点，我们通过两个步骤来定义其中心性标签。首先，我们确定它是否在一个实例的lmask内，这是一个二进制值。然后，根据其到其对应的6个表面的距离，我们绘制一个中心性标签。0响应实例。中心性标签的计算方式如下：0其中（f，b，l，r，t，d）分别表示到前、后、左、右、上和下表面的距离。最终的分类标签是l mask和lctrness的乘积。03.3. 损失函数0总体损失由分类损失、回归损失和平移损失组成，如下所示：0其中，N c 和 N p分别是总候选点和前景实例的正候选点数量。在分类损失中，我们将 s i 和 u i 分别表示为点 i的预测分类得分和中心度标签，并使用交叉熵损失 L c。回归损失 L r 包括距离回归损失 L dist 、尺寸回归损失 Lsize 、角度回归损失 L angle 和角点损失 L corner。我们对 L dist 和 L size 使用平滑的 L1损失，其中目标是候选点到其对应实例中心的偏移量和对应实例的尺寸。角度回归损失包含方向分类损失和残差预测损失，如下所示：0其中，d a c 和 d a r 是预测的角度类别和残差，而 t a c 和t a r是它们的目标值。角点损失是预测的8个角点与分配的真值之间的距离，表示为：4.2. nuScenesNDS = 110[5mAP +XmT P ∈T P(1�min(1, mTP))]. (6)110450其中，P m 和 G m 分别是点 m的真值和预测位置。至于平移损失 L s，它是CG层中平移预测的监督，我们使用平滑的L1损失来计算预测平移和代表点到其对应实例中心的残差之间的距离。N * p 是来自F-FPS的正代表点的数量。04. 实验0我们在两个数据集上评估我们的模型。它们分别是广泛采用的KITTI目标检测基准[6,7]和更大、更复杂的nuScenes数据集[3]。04.1. KITTI0KITTI数据集中有7,481个训练图像/点云和7,518个测试图像/点云，包含Car、Pedestrian和Cyclist三个类别。我们对所有三个类别进行评估，并使用平均精度（AP）指标评估不同的方法。在评估过程中，我们遵循官方的KITTI评估协议，即类别Car的IoU阈值为0.7，Pedestrian和Cyclist的IoU阈值为0.5。0为了对齐网络输入，我们从每个场景的整个点云中随机选择了16k个点。骨干网络的详细信息如图3所示。网络使用ADAM[10]优化器进行训练，初始学习率为0.002，批大小为16，均匀分布在4个GPU卡上。学习率在40个epoch时衰减10倍。我们训练模型共50个epoch。为了防止过拟合，我们在KITTI数据集上采用了4种不同的数据增强策略。首先，我们使用混合策略[28]，随机将前景实例及其内部点从其他场景添加到当前点云中。对于每个边界框，我们还按照均匀分布∆θ1/2[-π/4, +π/4]对其进行旋转，并添加随机平移(∆x, ∆y,∆z)。最后，每个点云沿x轴随机翻转。我们随机围绕z轴(上方向)旋转每个点云并对其进行缩放。0主要结果在表3中，我们将我们的方法与KITTI测试集上最先进的3D检测器进行了比较。自2019年8月起，KITTI将mAP计算标准更改为使用40个召回位置，而不是之前KITTI测试服务器中使用的11个召回位置。对于在此之前发表的论文，我们无法直接引用结果，而是使用新的mAP计算重新计算结果。因此，表3中的结果与原始论文中的结果可能存在不一致。如表3所示，我们的方法在所有三个类别上都大幅优于最先进的基于体素的单阶段检测器。在主要指标AP上0在“中等”Car类实例上，我们的方法的性能优于SECOND[ 28 ]和PointPillars [ 12]分别提高了3.61%和5.26%。与此同时，它与最先进的基于点的方法STD [ 32]具有可比较的性能，并具有超过2倍的推理速度。我们的方法优于part-Aˆ2net和PointRCNN的两阶段方法分别提高了1.08%和3.93%。此外，我们通过与多传感器方法MMF [ 14]和F-ConvNet [ 27]进行比较，证明了其优越性，我们的方法分别实现了2.14%和3.18%的改进。在另外两个类别Pedestrian和Cyclist上，我们的3DSSD甚至超越了这两个两阶段目标检测器。它在这两个类别上的性能优于STD [ 32]分别提高了1.8%和2.51%。我们在图4中展示了一些定性结果。0nuScenes是一个更具挑战性的数据集。它包含来自波士顿和新加坡的1,000个场景，考虑到交通繁忙和极具挑战性的驾驶情况。它提供了10个类别中的1.4M个3D对象，以及对象属性和速度。每帧大约有40k个点。为了预测速度和属性，所有先前的方法都将当前帧和前0.5秒的帧中的点结合起来，收集约400k个点。由于GPU内存限制，由于点云数量庞大，所有先前的基于点的两阶段方法的性能都不如基于体素的方法。在基准测试中，还提出了一种名为nuScenes检测分数（NDS）的新评估指标，它是平均精度（mAP）、位置（mATE）、大小（mASE）、方向（mAOE）、属性（mAAE）和速度（mAVE）的平均误差之间的加权和。我们用TP表示这五个平均误差的集合。NDS的计算公式如下：0实现细节对于每个关键帧，我们类似地将其点云与前0.5秒的帧中的点云相结合，以获得更丰富的点云输入。然后，我们对点云进行体素化，以对齐输入并保持原始分布。我们随机选择了65,536个体素，其中包括来自关键帧的16,384个和来自其他帧的49,152个。体素大小为[0.1, 0.1,0.1]。每个体素中随机选择一个内部点。我们将这65,536个点输入到基于点的网络中。骨干网络如图3所示。训练计划与KITTI数据集上的计划相同。我们只在训练过程中应用翻转增强。Hard2-stageF-PointNet [20]RGB + LiDAR82.1969.7960.5950.5342.1538.0872.2756.1249.01AVOD-FPN [11]83.0771.7665.7350.4642.2739.0463.7650.5544.93F-ConvNet [27]87.3676.3966.6952.1643.3838.8081.9865.0756.54PointRCNN [23]LiDAR86.9675.6470.7047.9839.3736.0174.9658.8252.53MMLab-PartAˆ2 [24]87.8178.4973.5153.1043.3540.0679.1763.5256.93STD [32]87.9579.7175.0953.2942.4738.3578.6961.5955.301-stageSECOND [28]LiDAR84.6575.9668.7145.3135.5233.1475.8360.8253.67PointPillars [12]82.5874.3168.9951.4541.9238.8977.1058.6551.92Ours88.3679.5774.5554.6444.2740.2382.4864.1056.90CarPedBusBarrierTCTruckTrailerMotoCons. Veh.BicyclemAPSECOND [28]75.5359.8629.0432.2122.4921.8812.9616.890.36027.12PointPillars [12]70.559.934.433.229.625.020.016.74.51.629.5Effect of Shifting in CG LayerIn Table 8, we compareperformance when using (and not using) shifting represen-tative points from F-FPS in CG layer. Under different as-signment strategies, APs of models with shifting are allhigher than those without these operations. It means if thecandidate points are closer to the centers of instances, it isgenerally easier to retrieve their corresponding instances.110460类型方法模态 Car (%) Pedestrian (%) Cyclist (%)0表3. KITTI测试集上类别Car、Pedestrian和Cyclist的3D AP结果，来自官方基准测试[1]。0我们的模型 81.20 70.17 61.41 47.94 31.06 47.15 30.45 35.96 12.64 8.63 42.660表4. nuScenes数据集上的AP。SECOND的结果来自其官方实现[2]。0mAP mATE mASE mAOE mAVE AAE NDS0PP [12] 29.5 0.54 0.29 0.45 0.29 0.41 44.90我们的模型 42.6 0.39 0.29 0.44 0.22 0.12 56.40表5. nuScenes数据集上的NDS。 “PP”表示PointPillars。0方法简单中等困难0VoxelNet [33] 81.97 65.46 62.850SECOND [28] 87.43 76.48 69.100PointPillars [12] - 77.98 -0我们的模型 89.71 79.45 78.670表6. 与其他最先进的单阶段方法相比，我们模型在KITTI验证集上的“Car”3D检测AP。0主要结果我们在表5中展示了不同方法的NDS和mAP，并在表4中比较了它们每个类别的AP。如表5所示，我们的方法相比所有基于体素的单阶段解决方案有更好的性能。如表4所示，我们的方法在每个类别的AP方面也优于这些方法。结果表明，我们的模型能够很好地处理尺度差异较大的不同物体。即使对于具有许多负样本的大场景，我们的融合采样策略仍能够收集足够的正样本。此外，速度和属性方面的更好结果证明我们的模型能够更好地从不同帧中收集和分离信息。04.3. 割舍研究0所有割舍研究都是在KITTI数据集[6]上进行的。我们按照VoxelNet[33]的方法将原始训练集分为3,717个图像/场景的训练集和3,769个图像/场景的验证集。所有割舍研究中的“AP”结果都是在“中等”难度级别上计算的，类别为Car，使用11个召回位置进行公平比较。0验证集上的结果我们报告了在KITTI验证集上的性能，并与其他状态进行了比较。0D-FPS F-FPS FS0召回率（%）92.47 98.45 98.310AP（%）70.4 76.7 79.40表7. 不同采样方法的点召回率和AP。0IoU Mask 3D中心度0无平移（%）70.4 76.1 43.00有平移（%）78.1 77.3 79.40表8. 不同分配策略的AP。 “withshifting”表示在CG层中使用平移。0在表6中，我们将使用（和不使用）F-FPS中的平移代表点在CG层中的性能进行比较。在不同的分配策略下，具有平移的模型的AP都高于没有这些操作的模型。这意味着如果候选点更接近实例的中心，通常更容易检索到它们对应的实例。0融合采样策略的效果我们的融合采样策略由F-FPS和D-FPS组成。我们在表7中比较了不同子采样方法的点召回率和AP。包含F-FPS的采样策略比仅包含D-FPS的采样策略具有更高的点召回率。在图5中，我们还展示了视觉示例，以说明F-FPS在融合采样中的好处。此外，融合采样策略的AP要高得多，即比仅使用F-FPS的策略高出2.7%。原因是融合采样方法可以收集足够的负样本，从而扩大感受野并获得准确的分类结果。In this paper, as the ﬁrst attempt, we have proposed alightweight and efﬁcient point-based 3D single-stage objectdetection framework. We introduced a novel fusion sam-pling strategy to remove the time-consuming FP layers andthe reﬁnement module, which were however needed in allexisting point-based methods. In the prediction network, acandidate generation layer was designed to further reducecomputation cost and utilize downsampled representativepoints. Our anchor-free regression head with 3D center-ness label boosted the ﬁnal performance. All these effectivedesigns enabled our model to work satisfyingly in terms ofboth performance and inference time.110470图4. 在KITTI（顶部）和nuScenes（底部）数据集上可视化3DSSD的结果。地面真值和预测分别用红色和绿色标记。0图5. 融合采样后的代表性点与仅使用D-FPS的代表性点之间的比较（顶部）。整个点云和所有代表性点分别以白色和黄色着色。正样本代表性点以红色显示。0F-PointNet [20] PointRCNN [23] STD[32] 我们的方法0时间（毫秒） 170 100 80 380表9. 不同基于点的方法的推理时间。03D中心性分配的效果我们比较了不同分配策略的性能，包括IoU、掩码和3D中心性标签。如表8所示，通过平移操作，使用中心性标签的模型比其他两种策略获得更好的性能。0推理时间 3DSSD的总推理时间为38毫秒，在使用Titan VGPU对KITTI数据集进行测试。我们在表9中比较了3DSSD和所有现有基于点的方法的推理时间。如图所示，我们的方法比所有这些方法都要快得多。值得注意的是，我们的方法甚至与最先进的基于体素的单阶段方法保持了类似的推理速度水平。例如，SECOND在推理中使用4

下载后可阅读完整内容，剩余1页未读，立即下载