ImpDet：利用隐式场进行3D对象检测

135 浏览量更新于2023-10-15 收藏 1.64MB PDF 举报

复旦大学

对象定位

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4260±ImpDet：探索隐式场用于3D对象检测复旦大学xlqian@fudan.edu.cn李王集市wangli@agora.io上海复旦大学Yi Zhu*亚马逊公司yzhu25@ucmerced.edu复旦大学张莉复旦大学lizhangfd@fudan.edu.cnyanweifu@fudan.edu.cnxyxue@fudan.edu.cn摘要传统的3D对象检测方法集中于具有若干参数的边界框表示学习，即，定位、尺寸和方向。尽管它的流行性和普遍性，这样一个简单的范式是敏感的轻微的数值偏差，特别是在本地化。通过利用点云在物体表面上自然捕获以及准确的位置和强度信息的属性，我们引入了一个新的视角，将边界框回归视为隐式函数。这导致(a) 中心随机移位(b) 点上的随机掩码我们提出的框架，称为隐式检测或ImpDet，它利用隐式场学习进行3D对象检测。我们的ImpDet为不同局部3D空间中的点分配特定值针对物体表面稀疏性问题，提出了一种简单有效的虚拟采样策略，不仅可以填充空白区域，还可以学习丰富的语义特征，帮助细化边界。在KITTI和Waymo基准上的大量实验结果证明了将隐式字段统一到对象检测中的有效性和鲁棒性1. 介绍三维物体检测由于其广泛的应用而引起了学术界和工业界的广泛关注自动驾驶[9，35，1]，虚拟现实[29，24]和机器人[2]。虽然由3D LiDAR传感器生成的点云可以捕获精确的距离测量和周围环境的几何信息*在亚马逊†通讯作者。博士傅还与复旦ISTBI-ZJNU算法中心的脑启发智能，浙江师范大学，金华，中国图1.数值偏差下不同3D边界框表示的图示地面实况和偏离框分别以红色和绿色绘制。（a）参数：随机移动范围内的地面实况中心（0. 1，0。2，0。3）沿x/y/z轴方向的m。（b）隐式字段：随机掩码7/26/40%预测内点。我们表明，当面对一些离群值时，用隐式字段表示的框比传统参数更鲁棒。不规则的、稀疏的和无序的属性使得难以编码并且不容易直接应用2D检测方法[37]。通常，3D场景中的对象包围盒由几个参数表示，例如中心局部化、盒尺寸和方向。以前的文献[32，43，46，18，48，17]大多建立在这种表示法上，并利用卷积神经网络（CNN）来回归这些值。然而，当由于对象遮挡或其他稀疏因素导致对象上的点较少时，直接学习这些参数将是脆弱的。更糟糕的是，一些研究[22，40]已经证明，即使这些参数的微小数值偏差也可能导致显著的性能下降，如图所示。第1（a）段。因此，这促使我们考虑一个开放的问题：我们能有更强大的3D边界框表示用于学习吗？有趣的是，最近基于学习的3D对象建模移动0.1m口罩7%移动0.2m口罩26%移动0.3m口罩40%4261作品[4，25]采用隐式场作为自然配方，但在3D对象检测中较少涉及因此，为了很好地回答上述问题，本文特别强调了利用隐式场进行3D目标检测的潜力。更确切地说，隐式字段作为值的符号（例如，0或1）到3D空间中的每个点;则对象的网格可以由被标记为特定值的所有点来表示。受此启发，我们提倡一种隐式的方法来构建用于对象检测的边界框，因为点云是在对象表面上自然捕获的，具有准确的位置和强度信息。更确切地说，我们首先将点分类/分配到两个类别中，即，在盒子里面或外面。然后，我们可以根据这些点直接拟合一个边界框。如图所 1（b），与传统的盒子表示相比，这种隐式方式可以从两个世界的最佳情况中受益：（1）提供没有任何预定义锚的高质量框，并且甚至对一些离群值也更鲁棒;（2）自然地利用隐式字段进行多任务学习，利用基于点的表示来改进特征;（3）根据隐式赋值，有效地增强了内点的特征，抑制了外点。本文首次系统地探讨了隐场学习在三维物体检测中的应用，提出了基于隐场学习的目标检测算法Impdet。如图2、我们的ImpDet主要由三个关键组成部分组成：（1）候选者移位，（2）隐式边界生成和（3）占用者聚集。具体地，候选移位首先将最接近地面实况中心的点移位和采样为候选，并划分候选周围的局部3D空间，以减轻由隐式函数引起的计算压力与以往的基于候选对象的3D对象检测器外显式回归框参数不同，隐式边界生成采用隐式函数，通过分配隐式值对内外点进行分类，在局部空间中拟合出高质量的边界此外，我们提出了一个细化策略，称为ocupant聚集，通过聚集内点的特征来细化边界最后，我们输出基于参数的表示用于检测评估。概括而言，我们的主要贡献如下：（1）首次提出了将隐场引入三维目标检测的观点，并提出了一个名为ImpDet的框架。与以前的检测器explanatory回归框参数不同，我们的ImpDet使用implicit函数为每个点赋值，然后在没有任何预定义锚的情况下拟合高质量边界（2）针对观测点可能由于遮挡或稀疏而不完整的问题，提出了一种简单有效的虚拟采样策略来辅助隐式边界生成它具有多任务学习功能，不仅可以填充空白区域，还可以学习丰富的语义信息作为辅助fea-真的。(3)在KITTI和Waymo基准上进行了大量的实验，以证明我们的ImpDet的有效性和鲁棒性。2. 相关工作三维网格表示。有两种常用的隐式函数，符号距离函数（SDF）[28，15，41]和占用函数[25，4，11，10]。对于SDF，形状内部的值为负值，然后随着点接近边界而增加到零，当点位于形状外部时变为正值。Occupancy函数将点分为两类，0表示在内部，1表示在外部。以前的研究[25，28，15，5，14]已经提出提取每个点的特征，并采用多层感知器来预测值。然后，可以使用Marching Cubes [21]等方法来基于这两个函数提取曲面。考虑到二叉表示的简单性，我们采用占用函数作为一种隐式的方式来构建用于3D对象检测的边界框。与传统的盒子表示相比，我们的方法提供了高质量的盒子，没有任何预定义的锚，甚至有一些离群值也更鲁棒3D物体检测。虽然基于图像的目标检测已经取得了显著的进展，但它远远不能满足现实世界应用的要求，例如自动驾驶。因此，对三维数据的研究逐渐兴起并蓬勃发展。大多数现有的3D对象检测方法可以分为两个方向，即，基于点的和基于体素的。基于点的方法[30，33，44，45]将原始点云作为输入，并使用集合抽象提取局部特征。但集合抽取中的抽样和分组操作使其耗时很长。对于基于体素的方法[32，7，6，48，12]，它们将点云划分为规则网格，以便3D CNN可以用于特征提取。在这项工作中，考虑到其效率，我们采用基于体素的CNN作为骨干。基于分割分支的三维目标检测。物体分割作为三维场景理解的另一个重要分支，由于不需要标注，正逐渐被应用于辅助三维[12，49]增加了另一个分割分支作为辅助网络，以引导特征感知对象结构。[5032，42，33]提出利用分割结果来重新加权特征或投票预测框以用于细化。[39，42，38，3]从2D空间获得分割标签/特征以增强3D空间中的点表示。这方面的方法大多使用简单的全连接层来构建额外的分割分支，除了[49]引入了隐函数的概念。与现有的工作不同，我们提出了一个新的统一的三维物体检测框架，这是第一次直接受益于4262∗ ∗M∈Ni=1.Σ，，∈把它们记为B。BKBKK××pK|KP {}K从隐场学习中实现更精确的3D物体检测。这样的框架试图通过隐式函数为每个点分配一个特殊的值然后，网络能够充分利用分配结果来提供高质量的边界，并利用更具区分性的内部特征（自然副产品）进行细化。3. 方法图2说明了我们提出的Im-pDet的框架。在从骨干网络获得点和体素特征后（在第二节中），3.1），候选移位模块首先移位并采样点作为候选中心，以便划分围绕所述candi的局部3D空间。BEV图上每个像素的RLW×C。通过添加偏移，候选中心可以被生成为，p（ctr）=p（ofs）+p（bev），f（ctr）=f（ofs）+f（bev）p（ofs）;f（ofs）F（bev）（1）其中p（bev）RLW×3表示BEV地图上点的坐标，默认高度为0;表示MLP层;[;]表示拼接操作。为了测量采样的偏移中心的质量，我们选择3D中心度[37，44]作为度量指标，可以写为，日期（在Sec. 3.2）。接下来，高质量的边界框可以在局部空间中通过建议的隐式边界生成模块（在第二节中）拟合。3.3）。最后，我们执行居住者聚集模块来细化边界s（ct rns）=.3min（xf，xb）min（yl，yr）min（zt，zb）max（xf，xb）×max（yl，yr）×max（zt，zb）（二）通过聚集内部点的特征（在第二节中），第3.4段）。3.1. 骨干网我们采用基于体素的CNN作为骨干，因为它的效率。为了防止几何信息的丢失，这对于隐式边界生成至关重要，我们在一个主干中同时提取点和体素特征[26，52]。如图中所示的黄色块二、我们首先将原始点云=xi，yi，zi，ri i=1馈送到多层感知器（MLP）中，用于初始逐点特征f（ p0），其中（xi，yi，zi）和ri表示点p1的坐标和强度，N是点的总数。然后，我们利用堆叠的体素特征编码（VFE）层[52]来获得初始的体素特征f（v0），其中每个体素保持落入其中的点的特征向量。对于逐点特征，f（p0）随后与f（v0）组合并馈送到另一MLP层中以计算最终特征f（点）。对于逐体素特征，f（v0）之后是若干3D稀疏卷积块以逐渐产生多尺度特征f（v1）5。与[6]类似，我们通过沿z轴连接特征来压缩逐体素张量f（v5），并进一步应用特征金字塔网络(FPN)[20]第20段。通过融合输出特征，我们得到2D鸟瞰图，其中（xf，xb，yl，yr，zt，zb）表示从质心到相应框的前、后、左、右、顶和底表面的距离。当移位的候选中心更精确时，S（Ctrns）接近于1，并且对于边界框之外的候选中心，S（Ctrns）被设置为0由于s（ctrns）在测试期间不可访问，因此我们训练了一个附加S形函数的MLP层，以使用候选中心特征f（ctr）作为输入来预测其值。预测的中心性被用作对sam的置信度得分。通过将每个中心视为1×1×1立方体，使用非最大值抑制（NMS）来填充高质量中心3.3.隐式边界生成在对候选中心进行采样之后，我们对每个中心周围的局部3D空间中的点执行隐式函数以生成边界。虚拟采样策略。给定一个候选中心p（ctr），我们通过将一个翅膀一个半径为r的球上得到它的周围局部空间，并从空间中随机选取m个采样点集定义为：Bp=Qp（ctr）为pi∈P|p（ct r）−pi<$2

下载后可阅读完整内容，剩余1页未读，立即下载