稀疏到密集的三维物体检测器（STD）：一种点云的两阶段三维物体检测框架

33 浏览量更新于2023-10-12 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11951STD：用于点云的Zetong Yang<$Yanan Sun<$Shu Liu<$Xiaoyong Shen<$Jiaya Jia<$，†腾讯优图实验室香港中文大学{tomztyang，now.syn，liushuhust，Goodshenxy}@ gmail.comleojia@cse.cuhk.edu.hk摘要我们提出了一个两阶段的三维物体检测框架，命名为稀疏到密集的三维物体检测器（STD）。第一阶段是一个自下而上的建议生成网络，它使用原始点云作为输入，通过为每个点播种新的球形锚点来生成准确的建议。它实现了更高的召回率与更少的计算与以前的作品相比。然后，PointsPool用于建议特征生成，通过将内部点特征从稀疏表示转换为紧凑表示，从而节省了更多的计算。在框预测，这是第二阶段，我们实现了一个并行的交叉-联合（IoU）分支，以提高本地化准确性的认识我们在KITTI数据集上进行了实验，并在3D对象和鸟瞰图（BEV）检测上对我们的方法进行了我们的方法比其他方法有很大的优势，特别是在硬集上，具有10+ FPS的推理速度。1. 介绍从点云理解3D场景是计算机视觉中非常重要的主题，因为它有利于许多应用，例如自动驾驶[8]和增强现实[24]。在这项工作中，我们专注于一个重要的3D场景识别任务，即，基于点云的对象检测，预测场景中每个对象的3D边界框和类标签与RGB图像相比，LiDAR 3D点是特殊的。一方面，它们提供了相对位置和精确深度的结构和空间信息。另一方面，它们是无序的，稀疏的和局部敏感的，这给解析原始LiDAR数据带来了困难。大多数现有的工作通过将稀疏点云投影到图像[4，14，9，25，7]或将其细分为均匀分布的vox- els [23，32，37，35]来将稀疏点云转换为紧凑表示CNN可以应用于解析点云。注意，手工制作的表示可能不是最佳的。Qiet al.建议PointNet [27，28]，直接对原始LiDAR数据进行分类和语义分割。3D 物体检测有两种方法。一种是基于体素，VoxelNet [37]和SEC- OND [34]，其中对整个点云进行体素化。然后将PointNet应用于每个体素进行特征提取，并将CNN用于最终的边界框预测。虽然有效，但信息丢失降低了定位质量。另一个流是基于点的，如F-PointNet [26]和PointRCNN [30]。它们将原始点云数据作为输入，并通过Point- Net++ [28]生成最终预测。这些方法实现了更好的性能。其局限性在于不可控的感受野和大的计算成本。我们的贡献与以往的方法不同，我们提出了一个两阶段的3D对象检测框架。在第一阶段中，我们将点云中的每个点作为一个元素，并使用适当的球形锚点对其进行播种，旨在保留准确的位置信息。然后应用PointNet++主干提取每个点的语义上下文特征，并生成对象性得分以过滤锚点。为了为每个建议生成特征，我们提出了PointsPool层，通过收集其内部点的规范坐标和该层将稀疏和无序的逐点表达转换为更紧凑的特征，从而能够利用高效的CNN和端到端训练。在第二阶段实现最终预测。我们建议增加一个新的3D IoU分支，用于预测预测和地面实况边界框之间的3D IoU，以减轻后处理过程中的不适当删除，而不是使用简单的头部来预测框的位置和类标签。我们在KITTI数据集上评估我们的模型[1]。实验表明，我们的模型优于其他国家的最先进的BEV和3D对象检测任务，特别是对于困难的例子。我们的贡献是多方面的。• 我们提出了一个基于点的建议生成范例的点云与球形锚的对象检测。实现高召回率是通用的。11952图1.我们的框架由三个不同的部分组成。第一个是建议生成模块（PGM），用于从人造的基于点的球形锚点生成准确的建议。第二部分是PointsPool层，用于将建议功能从稀疏表达转换为紧凑表示。最后一个是盒子预测网络。它对建议进行分类和回归，并选择高质量的预测。• 所提出的PointsPool层利用基于点和基于体素的方法，实现高效和准确的预测。• 我们新的3D IoU预测分支有助于分类评分和本地化之间的对齐，从而显著改善。实验表明，在10 FPS的速度下，能够处理具有高遮挡和拥挤的挑战性情况2. 相关工作3D语义分割有几种方法来处理点云上的语义分割。在[33]中，投影函数将LiDAR点转换为UV图，然后通过像素级的2D语义分割[33，36，3]对其进行在[6，5]中，基于多视图的函数产生分割掩码。该方法融合了来自不同视图的信息。其他解决方案，如[28，27，18，12，17]，从原始LiDAR数据中分割点云。它们直接在每个点上生成特征，同时保持原始结构信息。最大池方法收集全局特征。然后将其与局部特征连接起来进行处理。3D物体检测3D物体检测有三种不同的方式它们是多视图、体素和基于点的方法。对于多视图方法，MV3D [4]将LiDAR点云投影到BEV，并训练区域建议网络（RPN）以生成积极的建议。它合并了BEV、图像视图和前视图的特征，以生成精细的3D边界框。AVOD [14]改进MV3D通过融合图像和BEV特征，如[20]。与MV3D不同，MV3D只在细化阶段合并功能，它还在RPN阶段合并来自多个视图的功能以生成积极的建议。这些方法在检测诸如行人和骑自行车的人等小目标时仍然具有局限性。它们不处理在深度方向上具有多个对象的情况。有几种基于LiDAR数据的3D对象检测框架使用体素网格表示。在[32]中，每个非空体素由该体素内的点二进制编码用于[16]对于每个体素网格。在PIXOR [35]中，每个体素网格被编码为占用。所有这些方法都使用手工制作的表示法. VoxelNet [37]相反，堆叠许多VFE层来为每个体素生成机器学习表示。与[37]相比，SECOND [34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars [15]使用伪图像作为体素化后的表示。F-PointNet [26]是第一种利用原始点云预测3D对象的方法它使用来自2D对象检测的截头体建议作为候选框，并基于内部点进行回归预测。因此，性能严重依赖于2D对象检测器。显然，PointRCNN [30]使用整个点云来生成建议，而不是2D图像。它直接使用建议的中心点的分割分数进行分类，考虑建议的其他特征如大小和方向被忽略。相比之下，我们的设计是通用的，利用点云的强大的表示能力。PGMPointNet提案IOUFC足球俱乐部NMSIoU分支机构积分池类FC足球俱乐部框PointNet++框预测分支后处理输入骨干评分功能输出…………体素化VFE层1195332x26（（图2.建议书生成模块中的网络示意图。(a)3D分割网络（PointNet++）。它将原始点云（x，y，z，r）作为输入，并通过堆叠SA层和FP模块来生成语义分割分数以及每个点的全局上下文特征(b)建议生成网络（PointNet）。它将锚点内点的归一化坐标和语义特征作为输入，并生成分类和回归预测。3. 我们的框架我们的方法是一个两阶段的三维物体检测框架，利用体素和点为基础的方法的优势为了生成准确的基于点的建议，我们设计了球形锚点和一种新的策略，在分配标签锚点。对于每个生成的建议，我们部署了一个新的PointsPool层，将基于点的特征从稀疏表达转换为密集表示。最后采用箱式该框架如图1所示。3.1. 建议生成模块现有的3D物体检测方法主要是将点云投影到不同的视图或将它们划分为体素以利用CNN。相反，我们设计了一个通用的策略，根据每个点独立地播种锚点，这是点云中的基本组成部分然后利用锚点内部点的特征生成锚点集。通过这种结构，我们保持了足够的上下文信息，即使有少量的建议，也能实现不错的召回。尽管优雅，基于点的框架不可避免地面临许多挑战。例如，在锚点中存在高冗余的情况下，点的数量非常巨大它们在训练和推理过程中需要大量的计算。此外，为锚点分配地面实况标签的方式需要专门设计。我们的建议生成模块的第一步是为每个点合理地播种锚点。考虑到三维物体可以是任何方向，我们设计了球形锚而不是传统的长方体锚。对于每个球形锚，它具有由类特定半径参数化的球形接收场（即，2-对于汽车为1米半径，对于行人和骑自行车的人为1米半径）。现在，每个锚点预测的建议是基于球形感受野中的点。每个锚与用于建议生成的具有预定义大小的参考框相关联。这些锚点位于每个点的中心。与传统的锚点方案不同，我们没有预先定义参考框的方向.而是直接预测。因此，球形锚钉的数量与预定义的参考框方向的数量不成比例，导致锚钉减少约50%。随着计算量的减少，我们实现了更高的召回率与球形锚比传统的。该步骤将锚的量减少到约16K。为了进一步压缩这些数据，我们使用一个三维语义分割网络来预测每个点的类别，并为每个点生成语义特征。随后是非最大抑制（NMS）以去除冗余锚点。每个锚点的最终得分是中心点上的分割得分。IoU值是基于每个锚点到BEV的投影计算的。通过这些操作，我们将锚的数量减少到大约500个。建议生成网络这些计算出的有用的锚点会导致准确的建议。关于PointNet[27]在3D分类中，我们在锚内收集3D点用于回归和分类。对于锚点中的点，我们将其（X，Y，Z）位置（由锚点中心坐标标准化）和分割网络中的语义特征传递到具有多个卷积层的PointNet，以预测分类分数，回归偏移和方向。3D分割网络和PointNet的详细信息如图2所示。然后，我们计算关于锚中心坐标（Ax，Ay，AZ）及其预定义大小（Al，Aw，Ah）的偏移，以便获得精确的建议。“汽车”、“骑自行车的人”和“行人”的预定义大小是（Al = 3. 9，Aw= 1。6，Ah= 1。6），（Al= 1. 6，Aw= 0。8，Ah=1 .一、6）和（Al= 0. 8，Aw= 0。8，Ah= 1。6），分别。对于角度预测，我们使用分类和回归公式的混合也就是说，我们预-SA（MSSA（MSSA（MS5SAMSGFPFPFPFPr = 1.6，c1 = [256，256，512]c = [128，128]r = 0.8，c1 = [128，128，256]r = 3.2，c2 = [256，256，512]r = 0.4，c1 = [ 64，64，128] r = 1.6，c2 = [128，128，256] r = 6.4，c3 = [256，512，1024]r=0.2，c1 = [32，32，64] r = 0.8，c2 = [128，128，256] r = 3.2，c3 = [128，256，256]c = [128，c = [128，c = [128，r=0.4，c2 = [64，64，128]r = 1.6，c3 = [128，128，256]r=0.8，c3 = [64，96，128]4096x12864x1024256x128256x2561024x1281024x1284096x128MLP（128，128，256，512）MaxPoolcls_pred共享reg_predMx256Nx128输入N × 4输入M x 13111954将Na定义为等分的角度仓，并将投影角分类到不同的仓中。残差相对于bin值进行回归。在我们的实验中，Na最后，我们应用基于分类分数和定向BEV IoU的NMS来消除冗余建议。我们在培训和测试期间保持多达300和100个建议。分配策略鉴于我们的锚点具有球形感受野而不是立方体或长方体，因此根据球形感受野和地面实况框之间的传统IoU计算[37]分配正或负标签是不合适的我们设计了一个新的客户端 PointsIoU 来分配目标标签。PointsIoU被定义为两个区域的相交区域中的点的数量与两个区域的联合区域中的点的数量之间的商。如果锚点的PointsIoU与某个地面实况框高于0.55，则锚点被认为是正的，否则为负。3.2. 建议功能生成通过每个点的分割网络的语义特征和细化的建议，我们为每个建议构建了动机对于每个提议，进行最终预测的最直接方法是基于内部点执行PointNet++[30，26]。尽管简单，但与传统卷积或全连接（FC）层相比，集合抽象（SA）等几种操作在如表1所示，对于100个预测，PointNet++基线在推断期间需要41 ms，与纯FC层的16ms相比快两点了。5×比基线快，只有0。4%的性能下降。此外，与PointNet基线相比，具有FC层的模型产生1。6%的性能提高，只有6额外的毫秒。这是因为PointNet回归头使用较少的本地信息。我们在这个阶段应用一个体素化层，名为PointsPool，来计算紧凑的建议功能，这些功能可以在有效的FC层中用于最终预测。与[37]中的体素化相似，该新层是梯度传导体素化层，能够进行端到端训练。PointsPool层PointsPool层由三个步骤组成。在第一步中，我们为每个建议随机选择N个内部点，并将其规范坐标和语义特征作为初始特征。对于每一个建议，我们通过减去投影中心（X，Y，Z）值并将它们旋转到投影中心来获得点的正则位置。方法号提案推理时间中度PointNet（4个卷积层）10010 ms77.1PointNet++（3 SA）10041毫秒79.1积分池+2FC10016 Ms78.7表1. KITTI val中等设置上的3D物体检测AP。我们比较了不同盒回归网络架构之间的推理时间和AP。评分-NMSIoU-NMS容易中度硬√--√88.890.978.790.978.290.6表2.KITTI val set上的3D物体检测AP我们进行实验，以显示后处理的重要性。“评分-NMS”是指使用分类评分作为NMS排序评分。“IoU- NMS”第二步是使用体素化层将每个提议细分为等间距的体素，如[37]所示。具体地，我们将每个提议划分为（dl= 6，dw= 6，dh= 6）个体素。对于每个体素随机采样Nr= 35个对于每个体素，使用规范坐标的级联特征和这些点的语义特征与[37]中的体素化相比，该层具有梯度表示，能够进行端到端训练。在传递梯度时，我们只传递这些随机选择的点的梯度最后，我们应用具有通道（128，128，256）的体素特征编码（VFE）层[37]来提取每个体素的特征，以便生成具有形状（dl×dw×dh×256）的提案的特征。在获得每个建议的特征之后，我们将它们平坦化以用于盒预测头中的后续FC层。3.3. Box预测网络我们的盒子预测网络有两个分支，分别用于盒子估计和IoU估计。框估计分支在该分支中，我们使用具有通道（512，512）的2个FC层来提取每个Pro-Bit的特征然后，另外2个FC层分别用于分类和回归。我们直接回归地面实况框和建议之间的偏移，由（tl，tw，th）参数化。我们进一步预测从提案中心到地面实况框的移位（tx，ty，tz）。至于角度预测，我们仍然使用分类和回归公式的混合，与第3.1节中描述的相同。IoU估计分支在以前的工作中[15，34，37，14，30]，NMS应用于箱估计的结果，以去除预测的方向。这些规范化的坐标使模型在几何变换下具有鲁棒性，并且比仅使用语义特征更好地感知内部点重复预测。分类分数用于NMS期间的排名。在[11，22，29]中注意到，盒子的分类分数与本地化质量的相关性不高同样，类间的弱相关性-11955分数和框质量影响基于点的对象检测任务。鉴于用于自动驾驶的LiDAR通常以固定角度采集，并且物体被部分覆盖，定位精度对可见部分与其全视图之间的相对位置非常敏感，我们网络的目标是.Gctr=Gj−Aj，j∈（x，y，z）Gsize=（Gj−Aj）/Aj，j∈（l，w，h）.（四）分类分支不能提供足够的信息。如表2所示，如果我们将每个预测框的oracle IoU值而不是分类得分提供给NMS以进行重复删除，则性能提高约12。百分之六。基于这一事实，我们开发了一个IoU估计分支，用于预测盒子和相应的地面实况之间的3D IoU。然后，我们将每个盒子的分类得分乘以其3D IoU作为新的排序标准。该设计缓解了定位精度与分类得分之间的矛盾，有效地提高了最终性能.此外，该IoU估计分支是通用的，并且可以应用于其他3D对象检测器。我们希望在其他框架上有类似的性能改进。角度损失包括方向分类损失和残余损失。年度预测损失L 角 =Lcls （ ta−cls ， va −cls ） +Ldis （ ta −res ， va−res），（5）其中ta−cls和ta−res是预测的角度类和残差，而va−cls和va−res是它们的目标。框预测损失被定义为上述建议预测损失加上两个额外损失，即3D IoU损失和拐角损失。在训练IoU分支时，我们使用建议和相应的地面实况框之间的3D IoU作为地面实况，并使用平滑-l1损失作为损失函数。角点损失是预测的8个角点与指定的地面实况之间的距离，表示为3.4. 损失函数我们使用多任务损失来训练我们的网络。我们的总Σ8L角=k=1Pk−Gk损失由建议生成损失Lprop和框预测损失Lbox组成，Ltotal=Lprop + Lbox。（一）建议生成损失是3D语义分割损失和建议预测损失的总和。我们使用焦点损失[21]作为分割损失Lseg，保持原始参数αt= 0。25且γ= 2。预测损失包括建议分类损失和回归损失。总的建议发电损失定义在方程中。（二）、si和ui分别是锚点i的预测分类得分和地面实况标签Ncls和Npos是锚点和阳性样本的数量其中Pk和Gk是点k的地面实况和预测的位置。4. 实验我们在广泛使用的KITTI对象检测基准[1]上评估我们的方法。有7，481个训练图像/点云和7，518个测试图像/点云，具有汽车、行人和骑自行车者三个类别。我们使用平均精度（AP）度量来比较不同的方法。在评估过程中，我们遵循官方的KITTI评估协议1Lprop=Lseg+CLSΣLcls（si，ui）我（二）4.1. 实现细节根据以前的工作[37，15，14，34]，为了1+λ N阳性Σ[ui≥1]（Lloc+Lang），我为了避免汽车、行人和骑自行车者的KITTI评估协议中的IoU不一致，我们训练了两个网络，一个用于汽车，另一个用于行人和骑自行车者。其中，当ui≥1时，Iverson括号指示函数[ui≥1]达到1，否则为0。 Lcls是softmax交叉熵损失。我们把锚固定好A由它的中心（Ax，Ay，AZ）和大小（Al，AW，AH）表示。其地面真值盒G具有（Gx，Gy，Gz）和（Gl，Gw，Gh）。位置回归损失由中心残差预测损失和尺寸残差预测损失组成，表示为Lloc=Ldis（Actr，Gctr）+Ldis（Asize，Gsize），（3）其中L_dis是平滑-l1损失。Actr和Asize是建议生成网络预测的中心残差和尺寸残差，Gctr和Gsize是它们的目标N11956网络架构为了对齐网络输入，我们从每个场景的整个点云中随机选择16K个点。我们的3D语义分割网络基于PointNet++，具有四个SA级别和四个特征传播（FP）层。建议生成子网络是一个多层感知，由四个具有通道（128，128，256，512）的隐藏层组成，随后是PointsPool层，其中我们随机采样每个建议的N= 512个内部点作为其初始输入。然后将这些表示传递到盒回归网络。盒估计和IoU估计分支都由具有512个信道的2个完全连接的层组成11957类方法模态APBEV（%）AP3D（%）容易中度硬容易中度硬MV3D [4]86.0276.9068.4971.0962.3555.12AVOD[14]86.8085.4477.7373.5965.7858.38[26]第二十六话AVOD-FPN[14]RGB +激光雷达88.7088.5384.0083.7975.3377.9081.2081.9470.3971.8862.1966.38RoarNet [31]88.7586.0878.8083.9575.7967.88车UberATG-MMF [19]89.4987.4779.1086.8176.7568.41VoxelNet [37]89.3579.2677.3977.4765.1157.73第二[34]88.0779.3777.9583.1373.6666.20[第15话]LiDAR88.3586.1079.8379.0574.9968.30[30]第三十话89.4785.6879.1085.9475.7668.32我们89.6687.7686.8986.6177.6376.06AVOD[14]42.5135.2433.9738.2831.5126.98[26]第二十六话RGB +激光雷达58.0950.2247.2051.2144.8940.23AVOD-FPN[14]58.7551.0547.5450.8042.8140.88行人VoxelNet [37]第二[34]46.1355.1040.7446.2738.1144.7639.4851.0733.6942.5631.5137.29[第15话]LiDAR58.6650.2347.1952.0843.5341.49我们60.9951.3945.8953.0844.2441.97AVOD[14]63.6647.7446.5560.1144.9038.80[26]第二十六话RGB +激光雷达75.3861.9654.6871.9656.7750.39AVOD-FPN[14]68.0957.4850.7764.0052.1846.61骑车人VoxelNet [37]第二[34]66.7073.6754.7656.0450.5548.7861.2270.5148.3653.8544.3746.90[第15话]LiDAR79.1462.2556.0075.7859.0752.92我们81.0465.3257.8578.8962.5355.77表3.在KITTI测试仪上测试汽车、行人和骑自行车者的性能训练参数我们的模型是逐步训练的，以节省GPU内存。第一阶段包括3D语义分割和建议生成，而第二阶段是用于框预测。对于第一阶段，我们使用ADAM [13]优化器，前80个epoch的初始学习率为0.001每个批次由均匀分布在4个GPU卡上的16个点云组成。对于第二阶段，我们训练了50个epoch，批量大小为1。学习率在前40个时期初始化为0.001，然后每5个时期衰减0.1。对于每个输入点云，我们对256个建议进行采样，阳性和阴性的比例为1：1。我们的实现基于Tensorflow [2]。对于框预测网络，如果在训练汽车模型期间，其所有地面实况框的最大3D IoU高于0.55，则建议被认为是积极的，如果其最大3D IoU低于0.45，则被认为是消极的行人和骑自行车者模型的正3D IoU阈值和负3D IoU阈值分别为0.5和0.4。此外，对于IoU分支，我们只对积极的建议进行培训。数据扩充对于防止过拟合非常重要。首先，与[34]类似，我们将几个地面实况框及其内部点从其他场景按顺序添加到当前点云来模拟各种环境下的物体。然后，对于每个边界框，我们按照统一分布<$θ1∈[−π/4，+π/4]随机旋转它，并随机添加一种翻译（x，y，z）。第三，每个点云沿着相机坐标中的x轴翻转，概率为0.5。我们还随机旋转每个点云围绕z轴（上轴）由一个均匀分布的随机变量<$θ2∈[−π/4，+π/4]。最后，我们将全局缩放应用于具有从均匀分布[0. 九，一。1]中。4.2. 主要结果为了在测试集上进行评估，我们以4：1的比例在分割的train/val集上训练模型表3列出了我们的方法的性能以及与以前工作的比较。我们的模型在Car和Cyclist类上的表现要比其他模型好得多与使用其他传感器作为额外信息的多视图方法相比，我们的方法仍然可以在仅输入原始点云的情况下实现更高的AP与最好的多传感器检测器UberATG-MMF [19]相比，STD的性能优于它0。88%在中等水平上的3D检测汽车。大的折痕7.在硬集上也获得了65%的成功率，证明了我们的命题生成模块和IoU分支的有效性请注意，在行人类中，STD仍然是仅使用LiDAR的探测器中最好的多传感器探测器工作得更好，因为行人上的3D点很少，很难将它们与其他小物体（如指示器或电线杆）区分开来，如图3所示RGB的额外信息将有助于在这些情况下。与仅使用激光雷达的探测器相比，11958方法建议100.IoU阈值召回AVOD[14]我们50500.50.591.096.3[30]第三十话我们1001000.70.774.876.8图3.指示器等小物体在RGB图像上很容易检测到，但在LiDAR数据上则不然。类容易中度硬汽车（BEV）90.588.588.1汽车（3D）89.779.879.3行人（BEV）75.969.966.0行人（3D）73.966.662.9自行车运动员（BEV）89.676.072.7自行车运动员（3D）88.572.867.9表4.KITTI阀组上的3D和BEV检测AP方法容易中度硬MV3D [4]71.2962.6856.56AVOD[14]84.4174.4468.65VoxelNet [37]81.9765.4662.85第二[34]87.4376.4869.10[26]第二十六话83.7670.9263.65[30]第三十话88.8878.6377.38我们的（无IoU分支）88.878.778.2Ours（IoU branch）89.779.879.3表5.与其他最先进的方法相比，我们的模型的KITTI val集上的3D检测AP用于方法，我们的方法在所有三个类上效果最好。具体而言，在汽车检测上，STD实现了1. 87%，2. 64%，3。97%，与PointRCNN [30]，PointPillars [15]和SECOND[34]相比，分别为中等集。在硬集上的改善更有意义-7。74%，7. 76%，9。分别增长86%。我们在图4中给出了几个定性结果。4.3. 消融研究对于消融研究，我们遵循VoxelNet [37]将官方训练集分为3，717张图像/场景的训练集和3，769张图像/场景的val集train/val集合中的图像在[37]之后，由于数据量相对较大，所有消融研究均在汽车类上进行，以使系统稳定运行。验证集的结果我们首先在表4中报告KITTI值集的性能。验证集的比较见表5。与[37]和[34]的基于体素的方法不同，我们的模型保留了更多的结构。表6.与具有相同建议数和IoU阈值的其他方法相比，KITTIval集上的建议的召回率。形状固定金额建议100.召回（IoU=0.7）长方体长方体球体1×2×1×10010010074.275.776.8表7.调用KITTI val集合上生成的建议语义册封容易中度硬-√√--√38.782.588.831.167.678.726.067.278.2表8. KITTI val set上的3D物体检测AP。“规范化”项中的勾选“语义”中的勾选真实和外观细节，带来更好的性能。与基于点的方法相比，建议生成模块和IoU分支保持更准确的建议和高质量的预测，这导致更高的AP，特别是在硬集上。我们在表6中比较了不同的2阶段对象检测器之间的召回率，证明了我们的建议生成模块的强大性。假设锚点起着重要的作用，那么在不消耗太多计算的情况下，使锚点覆盖尽可能多的地面实况区域是至关重要的对于每个检测模型，我们使用只有一个半径的球形感受野为了验证这种设计的有效性，我们进行了不同形状和大小的感受野实验。具有IoU阈值0.7的平均重新调用（AR）是度量。结果示于表7中。首先，（0，π/2），因为长度和宽度之间的不成比例，导致2×更多的数据和相应的更多的计算。只有一个方向导致1. 5%，同比下降。此外，球形感受野带来了额外的上下文信息，这有利于锚点分类和回归。我们评估了使用椭圆形和圆柱形锚的性能。为了保持相同数量的球形锚点，并摆脱特定的地面实况方向，我们设置的椭圆形锚点的形状从鸟瞰图（BEV）的圆形具有固定的半径，并改变半径和高度的比例。如表9所示，这些复杂的表示带来了指示器行人11959图4.我们在KITTI测试集上的结果的可视化。每个图像中的上行是投影到RGB图像上的3D对象检测结果。另一个是LiDAR阶段的结果。长方体圆柱形椭球球形召回75.777.077.476.8地图78.3978.7478.8278.75NMS分类评分容易中度硬3D-IoU89.079.178.7cls-score ×3D-IoU89.779.879.3表9.使用不同形状锚钉的影响。“比率”是指位于地面实况边界框内的点处的锚点内的正点的平均比率。“recall” meansthe recall “mAP” in- dicates the final mean averageNMS软NMS3D容易中度硬√---√---√88.888.989.778.779.079.878.278.479.3表10.KITTI val中等设置上的3D物体检测AP我们的实验分析了我们的3D IoU分支的影响召回率高于球形锚钉。但它们在最终mAP上的表现不相上下。因此，我们选择球形锚，因为它们更简单。它们可以仅由半径长度来确定，并且是足够有效的。我们注意到，使用精心设计的更加精巧的锚钉仍然可能获得更好的性能。提案特征的效果我们的提案特征具有规范坐标和3D语义特征。我们使用原始点坐标作为基线来量化它们的好处。如表8所示，使用3D分割特征得到约36。在AP方面，中等设置的性能提升5%这意味着全局上下文信息极大地增强了模型的能力。通过正则变换，AP增加了11。1%，中等偏上。我们的3D IoU预测分支评估本地化质量，最终提高性能。如表10所示，我们的3D-IoU引导NMS比传统NMS和软NMS方法的性能高1. 1%和0。8%，显示了该分支的有效性。我们直接注意到，表11.KITTI val中等设置上的3D物体检测AP我们的实验分析了不同方式使用3D IoU分支的影响。“3D-IoU”是指仅使用3DIoU作为NMS排序评分。“cls-score如表11所示，指定3D IoU作为NMS排序标准原因是只有积极的建议被认为是在IoU分支，而分类分数可以区分积极的预测从消极的。因此，分类得分和预测的IoU的组合变得有效。推理时间STD在Titan V GPU上的总推理时间为80 ms，其中PointNet++主干需要54 ms，包括PointNet和NMS的建议生成模块需要10 ms ，PointsPool层需要约6ms，第二阶段包括两个分支需要10 ms。STD是所有基于点和多视图方法中最快的模型。请注意，我们将批量归一化合并到卷积层中，并将第一个SA的输入点云水平（16K）在PointNet++到（32×512）的并行计算。它缩短了推理时间，导致25毫秒，50ms的加速比，同时不降低检测的准确性5. 结论我们提出了一个新的两阶段的三维物体检测框架，利用体素和点为基础的方法。我们引入了基于点的球形锚点，并对其进行了改进，以便在第一阶段准确生成提案，而不会丢失本地化信息。然后应用PointsPool层来生成提案的紧凑表示。这有利于减少推理时间。第二阶段减少了后处理中的错误删除，以进一步提高性能。我们的模型在3D检测上工作得很好，特别是在硬集上。11960引用[1] “吉蒂3D目标检测基准网址：//www.cvlibs.net/datasets/kitti/eval_object.php？obj_benchmark=3d，2019年。[2] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Gregory S.放大图片创作者： James E. Goodfellow ， Andrew Harp ，Geoffrey Irv-ing ， MichaelIsard ，YangqingJia ，Ra f alJo'zef o wicz，LukaszKaise r，ManjunathKudlu r，JoshL evenbe r g ， DanMa ne' ， Ra-jat Monga ，Sherry Moore，Derek Gordon Murray ， Chris Olah ， Mike Schuster ，Jonathe Shlens，Benoit Steiner，Ilya Sutskever，KunalTalwar，Paul A.放大图片作者：Vincent Vanhouc k e，VijayVasud ev an ， FernandaB. 如， OriolVinyals ， PeteWarden，Martin Wattenberg，Martin Wicke，Yuan Yu和Xiaoqiang Zheng。 Tensorflow：异构分布式系统上的大规模机器学习。CoRR，2016年。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。 IEEE Trans. 模式分析马赫内特尔，2018年。[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。[5] 戴安琪，天使 X. 放大图片创作者： Thomas A.Funkhouser和Matthias Nießner。Scan-net：室内场景的丰富注释3D重建。在CVPR，2017年。[6] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合3d多视图预测。在ECCV，2018。[7] Martin Engelcke、Dushyant Rao、Dominic Zeng Wang、Chi Hay Tong和Ingmar Posner。Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测在ICRA，2017年。[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。[9] 亚历杭德罗·冈萨雷斯，加布里埃尔·维拉隆，徐娇龙，DavidV a'zquez，J a vidAmores和AntonioM. 洛佩兹。本地专家的多视图随机森林结合RGB和LIDAR数据进行行人检测。2015年第四[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR，2018年。[11] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度在ECCV，2018。[12] Mingyang Jiang，Yiran Wu，and Cewu Lu. PointSift：一个用于三维点云语义分割的类似Sift的网络模块。CoRR，2018年。[13] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，2014年。11961[14] Jason Ku ， Melissa Mozifian ， Jungwook Lee ， AliHarakeh和Steven Lake Waslander。从视图聚合联合生成3d建议和对象检测。CoRR，2017年。[15] Alex H Lang，Sourabh Vora，Holger Caesar，LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。CVPR，2019年。[16] 波丽用于点云中车辆检测的3D全卷积网络。在IROS，2017年。[17] 李佳欣，Ben M. Chen，and Gim Hee Lee. So-net：用于点

下载后可阅读完整内容，剩余1页未读，立即下载