DOPS:快速单级3D物体检测与3D方向预测

6 浏览量更新于2023-10-24 收藏 2.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11913DOPS：学习检测3D物体并预测其3D方向马希亚·纳吉比1广达·赖2阿比吉特·昆杜2卢志超2维韦克·拉托德2托马斯·芬克豪泽2卡罗琳·潘托法鲁2大卫·罗斯2拉里·S.Alireza Fathi21马里兰大学2Google摘要我们提出DOPS，一个快速的单级三维物体检测方法的激光雷达数据。以前的方法通常会做出特定领域的设计决策，例如在自动驾驶中将点投影到鸟瞰图像中。ing场景。相比之下，我们提出了一个通用的方法，在室内和室外场景。我们的方法的核心新颖性是一个快速的单通道架构，既可以检测3D中的对象，又可以估计它们的形状。3D边界框参数在每个点的一次通过中被估计，通过图形卷积被聚合，并且被馈送到网络的分支中，该分支预测表示每个检测到的对象的形状的潜在代码。潜在形状空间和形状解码器在合成数据集上学习，然后用作3D对象检测流水线的端到端训练的监督。因此，我们的模型能够提取形状，而无需访问目标数据集中的地面真实形状信息。在前-实验中，我们发现我们提出的方法在ScanNet场景中的对象检测上达到了最先进的结果，并且在Waymo OpenDataset中获得了3.4%的最佳结果，同时再现了检测到的汽车的形状。1. 介绍近年来，机器人和自动驾驶应用中的3D物体检测取得了很大进展。关于3D对象检测的先前工作采用以下方法中的一种：（a）将LIDAR点投影到2D鸟瞰这些方法都有各自的缺点.将LIDAR投影到鸟瞰图图像牺牲了几何细节，这在杂乱的室内环境中可能是至关重要的。基于平截头体的方法严格依赖于2D检测器，并且会错过一个目标。图1：我们的对象检测管道的示例输出。如果在2D中未检测到，则完全弹出最后，两阶段方法引入了额外的超参数和设计选择，需要分别针对每个域进行调整和适应。此外，我们认为对点进行分组比预测3D对象更难。求解前一项以预测后一项将导致不必要的上限，这限制了3D对象检测的准确性。在本文中，我们提出了一个单阶段的三维物体检测方法，优于以前的方法。我们预测每个点的3D对象属性，同时允许信息在预测的3D邻接图中流动。这样，我们就不会做出硬性的分组决策，同时让信息从每个点传播到它的邻域。除了预测3D边界框外，我们的流水线还可以输出重建的3D对象形状，如图1所示。尽管已经提出了各种用于预测3D边界框的方法预测物体3D形状的主要挑战是LIDAR扫描中的稀疏性、主要的部分遮挡以及缺乏地面真实3D形状注释。在这项工作中，我们提出了一种新的弱监督的方法来解决这些挑战。我们提出的形状预测解决方案包括两个步骤。首先，我们使用外部3D CAD模型数据集，通过训练将对象形状映射到嵌入表示的编码器来学习3D对象形状先验，11914一个解码器，它在给定其嵌入向量的情况下恢复对象的3D形状。然后，我们增强我们的3D对象检测网络，以预测每个对象的形状嵌入，使得其对应的解码形状最适合该对象表面上观察到的点。使用这一点作为额外的约束，我们训练一个网络，学习检测对象，预测它们的语义标签和它们的3D形状。总结起来，我们的主要贡献如下。首先，我们提出了一个单阶段的三维物体检测方法，实现了室内和室外点云数据集的最先进的结果虽然以前的方法做了某些设计选择（例如，投影到鸟瞰图图像），我们展示了具有通用流水线的可能性，该通用流水线利用图卷积来聚合每点预测。通过在端到端混合网络中形成更好的共识预测，我们的方法在室内和室外环境中的表现优于以前的工作，同时以每帧12 ms的速度运行。其次，除了3D边界框，我们的模型还能够有效地联合预测对象的3D形状。第三，我们引入了一种训练方法，该方法不需要目标数据集中的地面实况3D形状注释（这在大规模自动驾驶汽车数据集中不可用）。Instead, our method learns a shape prior from a dataset ofCAD models and transfers that knowledge to the real-world self-driving carsetup.2. 相关作品2.1. 3D对象检测3D物体检测已经被广泛研究。在本文中，我们专注于自动驾驶等应用，其中输入是由LIDAR范围传感器捕获的3D点的集合使用神经网络处理这类数据带来了新的挑战。最值得注意的是，与图像不同，输入是高度稀疏的，使得统一处理3D空间中的所有位置是低效的。为了解决这个问题，PointNet [30，31]直接消耗稀疏点的3D坐标，并将点云作为一组无序点进行处理。Fold-ingNet [40]，MixasNet [12]，3D Point Capsule Net[44]和PointWeb [43]通过将点之间的空间关系纳入编码过程来改进表示对于3D对象检测的任务，各种方法依赖于PointNets来处理点云数据。举几个例子，FrustumPointNets [29]使用这些网络对对象提案进行最终细化，PointR-CNN [33]使用PointNets进行提案生成任务VoteNet [28]部署PointNet++来直接从两阶段投票方案中的点预测边界框。将点云数据投影到2D空间并使用2D卷积是减少计算。鸟瞰 PIXOR [39] 、 Complex YOLO [35] 和Complexer YOLO [34]基于投影的BEV表示在单个阶段中生成3D边界框。Chen等人[3] Lianget al. [20]使用BEV表示并将其提取的信息与RGB图像融合以提高检测性能。VeloFCN [18]将点投影到前视图，并使用2D卷积生成3D边界框。最近，LaserNet [25]表明，在处理更紧凑的原生范围视图表示时，可以实现最先进的结果。另一方面，PointPillars [17]通过训练PointNet来总结位于3D空间中垂直柱内的点的信息来学习这种2D投影。3D卷积之后的体素化也应用于基于点云的对象检测[46]。然而，3D卷积在计算上是昂贵的，特别是当输入具有高空间分辨率时。稀疏3D卷积[7，9，10]被证明是有效的，在解决这个问题。本文中我们的主干使用稀疏卷积的体素化来处理点云。在文献中也研究了建模辅助任务。Fast and Furious[22]使用单个网络执行检测，跟踪和HDNET [38]从LIDAR扫描中估计高清地图，并使用几何特征来改进3D检测。Liang等人[19]执行2D检测、3D检测、地面估计和深度完成。同样，我们的系统除了检测对象之外，还从不完整的点云预测对象的3D形状。2.2. 用于目标检测的三维形状预测对于图像中的3D对象检测，3D-RCNN [15]通过估计已知形状的姿态来重新覆盖对象的3D形状使用带有2D分割注释的渲染和比较损失而不是使用已知的形状，Mesh R-CNN [8]首先预测一个粗略的体素化形状，然后进行细化步骤。假定给出3D地面实况信息对于语义分割，[16]通过估计检测到的对象的形状来改进不可见类别的泛化。对于3D检测，GSPN [42]学习生成模型来预测对象上的3D点，并将其用于建议生成。ROI-10 D [23]离线注释地面实况形状，并为形状预测添加新的分支相比之下，我们的方法不需要目标数据集中的3D形状地面实况注释。我们使用最近提出的显式形状建模[27，24，32]来学习表示形状先验的函数。然后，当在目标数据集上训练形状预测分支时，该先验被用作弱监督信号11915形状SDF解码器我我i=18×（x）检测点云网格图2：对象检测管道。在体素化之后，使用3D稀疏U-Net [11]从每个体素中提取特征。然后两个稀疏卷积块预测每个体素的对象属性。然后，这些特征被传播回点，并通过图形卷积模块。最后，3. 方法我们的模型的整体架构如图2所示。该模型由四部分组成：第一个是消费点云，并预测每个点的对象属性和形状嵌入。第二个组件在这些逐点预测的基础上构建一个图，并使用图卷积在预测之间传输信息。与单独的旋转、中心和大小损失相比，使用此损失的好处是我们不需要调整多个损失之间的相对比例。我们的方块角损失传播回所有，并最大限度地减少预测的角误差。我们将每点盒角回归损失定义为L角（P，G）=第三部分提出了最终的3D框及其1ΣNΣ8 ¨¨属性通过迭代采样高得分框，1（x）<$p（j）−g（j）<$（一）离已经选定的最远。最后，第四组件解码预测的形状嵌入ΣN1i=1i=1i¨ij=1i¨H转换为SDF值，我们使用Marching Cubes算法将其转换为3D网格[21]。3.1. 逐点3D对象预测给定由N个点组成的大小为N×I的点云哪里||·||H是Huber-损失（即， smooth L1-loss）和1（. ）是指示点xi是否在物体表面上的二元函数。 P和G是预测和其中p（j）表示点i的第j个预测对于I维输入特征（例如，位置颜色首先，3D编码器-解码器网络预测3D对象属性（中心、大小、旋转矩阵和语义逻辑）和每个点的形状嵌入。我们使用SparseConvNet[11]作为主干来生成每个-地面真相角动态分类损失：点云中的每个点都预测一个3D边界框。长方体预测损失强制每个点预测它所属的长方体。其中一些点做出的框预测比点特征{fi∈RF}N. 每个对象属性他人因此，我们设计了一个分类损失，通过对提取的N×F特征进行两层3D稀疏卷积来框预测损失：我们通过三个属性来表示3D对象框：尺寸（长度、宽度、高度）、中心位置（Cx、CY、CZ）和3 × 3旋转矩阵。给定这些预测，我们使用可微函数来计算每个预测框的八个3D角。我们对预测角点和地面实况角点之间的距离损失将自动传播回大小、中心和旋转变量。为了计算旋转矩阵，我们的网络预测了6个参数：（cos x，sin x，cos y，sin y，cos z，sin z）。然后我们将旋转矩阵表示为R=Rx×Ry×Rz。准确预测为积极和其他的点作为负面。在训练阶段，在每次迭代中，我们计算预测框和地面实况匹配之间的IoU重叠，并将IoU超过70%的点分类为正，其余为负。与常规分类损失相比，这种损失给了我们几个百分点的改进（我们将落在对象内部的点标记我们使用softmax loss进行分类。3.2. 目标提案合并每个点预测其对象中心、大小和旋转矩阵。我们创建一个图，其中的点是节点，每个点都连接到它的K个最近的邻居，3D稀疏ConvUNET3D转换3D转换3D转换3D转换3D转换3D转换逐点预测对象中心NX3图卷积中心NX3中心MX3尺寸NX3尺寸NX3尺寸MX3旋转Nx3x3旋转Nx3x3旋转Mx3x3评分NXC评分NXC评分MXC形状NXD形状NXD形状MXD权重NX1行进立方体NX3法拉第最高分物体采样NxF11916i=1i=1i=1中心空间。换句话说，每个点都与具有相似中心预测的点相连。我们执行几层图卷积来巩固每个点的对象预测。网络对每个点估计一个权重值，该权重值确定一个点与其邻居相比所投的选票的重要性我们按如下方式更新由点预测的每个对象属性：y∈Nxwy。的y3.4. 形态预测为了预测形状，首先，我们从CAD模型的外部合成3D数据集学习形状先验函数，如第3.4.1节所述。然后，我们部署我们的学习之前恢复3D形状从嵌入空间预测的对象检测管道。3.4.1建模形状先验ax=y∈Nxwy（二）有多种方式来表示形状先验。为我们其中x是对象属性（例如，对象长度），Nx是预测的中心空间中x的邻居的集合，并且wy是为点y预测的权重。我们在图卷积步骤之前和之后应用边界框预测损失，让网络学习一组权重，使最终预测更准确。通过这种方式，网络自动学习将更大的权重分配给更自信的点，而不是直接对预测的点权重应用损失。3.3.提案箱我们的网络预测一个3D对象框和每个点的语义得分。在训练阶段，我们将损失直接应用于每点预测。然而，在评估过程中，我们需要使用一个盒子建议机制，它可以将数十万个盒子预测减少到几个准确的盒子建议。我们可以选择语义得分高的盒子。然而，我们还希望鼓励拟议盒子位置的空间多样性。出于这个原因，我们计算每个预测框中心与所有先前选择的框之间的距离，并选择远离已拾取点的框（类似于KMeans++使用的启发式初始化[1]）。更准确地说，在步骤t，给定先前步骤B1：t-1的预测框，我们选择种子点如下：在该应用中，假定应当针对点云中的每个点预测形状嵌入向量，则表示需要是紧凑的。我们使用一个编码器-解码器架构与紧凑的瓶颈模型的形状先验。一般框架如图3所示。形状编码器在数据增强技术（例如，随机裁剪），然后输出紧凑形状嵌入向量。对象的点云表示首先被体素化，然后通过编码器网络转发。该网络由三个卷积块组成，每个卷积块都有两个3D稀疏卷积层，中间有 BatchNorm 和 ReLU 层（为简单起见，图中未显示）。特征图的空间分辨率被降低，在每个卷积块之后因子为2。最后，一个全连接层，后面跟着一个全局平均池化层，输出输入形状的嵌入向量。对于形状解码，我们将形状表示为隐函数的水平集[24，32，27]。也就是说，形状被建模为单位超立方体上的带符号距离场（SDF）函数的水平集零。在[24]之后，我们依赖于条件批量归一化[5，6]层来对预测的嵌入向量进行解码。解码器的输入是一批查询点的3D坐标。在五个条件块之后，一个完全连接的层，后面跟着一个tanh函数，预测每个查询与标准视点中对象表面的在训练过程中，我们对一些靠近对象表面的查询点进行采样，并在单位超空间中均匀采样bt= arg maxb/∈B1：t− 1哪里[log（sb）+αlog（D（b，B1：t−1）]围绕对象的立方体，以预测其SDF值。然而，如[32]中所建议的，我们回归离散标签值以捕获表面边界附近的更多细节-D（b，B1：t−1）=minb′∈B1：t− 1b-b′白羊座更准确地说，给定一批训练查询，Q={qi}N∈R3×N，它们对应的地面真值并且SB表示框B的前景语义得分。符号距离值S={si}N∈RN，以及它们的预选择前景语义得分高的框保证了高准确率，选择前景语义得分多样的框保证了高召回率。请注意，我们的采样策略不同指定嵌入向量E={ei}N定义为：1ΣN∈RD×N，损失非最大值抑制算法在NMS中，具有高IoU的盒子被抑制并且不被重新激活。L（Q，S，E|f）=N i=1 f（qi|ei）−sign（si）<$2（3）在我们的算法中，我们可以调整置信度和多样性之间的平衡。其中f（？）是条件解码器函数，符号（. ）是符号函数。11917采样点云典型形状条件解码器X5（x，y，z）32路1/2路64路1/2128通道1/2128稀疏三维转换块体素池稀疏三维转换块体素池稀疏三维转换块体素池简体中文平均合并图3：Shape Prior网络架构。编码器在增强之后消耗对象的点云表示（例如，随机裁剪）并输出紧凑的嵌入向量。该解码器由条件批范数[5]以预测的嵌入为条件的层。解码器的输入是一批3D点坐标，输出是每个点到物体表面的预测有符号距离。3.4.2训练形状预测分支虽然在为自动驾驶等应用收集的检测数据集中没有可用的地面实况3D形状注释，但一旦经过训练，就可以部署学习的先验模型来强制执行形状约束。也就是说，对于不完整点云中的每个对象，我们期望其边界框中的大多数观察点位于其表面上。为了预测形状嵌入，我们将分支添加到对象检测流水线以预测每个点的D然后将属于对象的所有点的形状为了加强约束，我们冻结图3中的3D解码器并丢弃编码器。以预测的形状嵌入为条件，并给定每个对象的一些形状查询，冻结形状解码器应该能够预测有符号距离。为了定义查询，对于点云中存在的每个对象然后，查询被投影到一个单位超立方体。我们还通过移除地面上的点并增加对称点（如果对象是对称的）来预处理它们。最后，由于形状先验是用离散符号标签训练的，我们在将对象中心连接到每个观察点的射线上对一些查询进行采样，并分别为内侧/外侧查询分配-1/+1标签（在本文中，我们以距离δ = 0采样两个点。1到沿着射线的每个观察点）。在训练过程中，我们还优化了等式中定义的损失。3对于具有合理数量的观察点的对象（即，本论文最低分500分）。3.5.实现实时速度我们的3D稀疏特征提取器具有30个3D稀疏卷积层，7个3D稀疏池化层和7个3D稀疏un-pooling layers在Waymo Open数据集上实现了每帧12ms的速度（每帧约有20万个输入点）。在这里，我们描述了我们的Tensorflow稀疏GPU操作的实现细节。我们使用CUDA来实现张量流中的子流形稀疏卷积[11]和稀疏池化GPU操作由于卷积运算的输入是稀疏的，我们需要一种机制来获得每个非空体素的所有邻居我们实现了一个散列表来实现这一点，其中键是体素的XYZ索引，值是输入体素阵列中相应体素的索引。我们使用优化的空间哈希函数 [37] 。我们在Waymo Open数据集上的实验表明，负载因子为0。42，平均碰撞率为0。十八岁我们预先计算所有非空体素的邻居索引我们使用各种CUDA技术来加快计算速度（例如，在共享存储器中分区和高速缓存过滤器并使用位操作）。在CUDA中实现了3D稀疏最大池化和3D稀疏平均池化操作由于每个体素在池化期间仅需要查找一次，因此我们不重用可能引入冗余查找的卷积散列表。相反，我们计算池化的XYZ索引，并将它们用作构建新的“散列-时间映射”的键（多个体素可以被池化在一起，因此具有相同的键），并基于键来混洗体素。我们的实验表明，这种方法比CUB库提供的基数排序快10倍以上。此外，由于我们的池操作不依赖于原始XYZ索引，因此它能够处理重复的输入索引。这允许我们使用相同的操作来对点云进行体素化，这是网络中最昂贵的池化操作。我们的实现比使用预先存在的TensorFlow操作的精心设计的实现快20倍左右。体素化简体中文CBatchNormFC（128）CBatchNorm简体中文CBatchNormFC（1）预测SDF119184. 实验4.1. 实验装置对于我们的对象检测骨干，我们使用具有稀疏3D卷积的编码器-解码器UNET。编码器由6个3D稀疏卷积块组成，每个3D稀疏卷积块内部有两个3D稀疏卷积。更深入地，我们逐渐增加通道的数量（即，64、96、128、160、192、224、256通道）。我们还在每个块之后应用3D稀疏池化操作来降低特征图的空间分辨率。对于解码器，我们使用相同的结构，但以相反的顺序，并用解池操作替换3D稀疏池化层。两个具有256个通道的3D稀疏卷积连接编码器和解码器并形成瓶颈。模型在20个GPU上训练，每个GPU的批量大小为6个我们使用随机梯度下降，初始学习率为0.3，每10K下降一次学习率。通过因子[1.0，0.3，0.1，0.01，0.001，0.0001]计算我们使用5×10−4的重量衰减，当损失达到平台时停止训练。我们使用沿z轴的（-10，10）度的随机旋转和（0.9，1.1）的随机缩放来进行数据扩充。输入mAP@0.25 mAP@0.5DSS [36，14]Geo + RGB15.26.8MRCNN 2D-3D [13，14]Geo + RGB17.310.5F-PointNet [29，14]Geo + RGB19.810.8GSPN [41]Geo + RGB30.617.73D-SIS [14]Geo + 1视图35.118.73D-SIS [14]Geo + 3视图36.619.03D-SIS [14]Geo + 5视图40.222.53D-SIS [14]仅地理位置25.414.6[28]第二十八话仅地理位置58.633.5DOPS（我们的）仅地理位置63.7 38.2表1：ScanNetV2验证集上的3D物体检测结果。我们报告的结果，其他方法出现在原始文件或由作者提供。1000个序列，其中每个序列由大约200个间隔100 ms的帧训练分割由798个序列组成，包含4.81 M车辆盒。验证拆分由202个序列组成，具有相同的持续时间和采样频率，包含125万个车辆箱。Waymo Open我们的形状先验网络中的3D稀疏编码器由三个卷积块组成，每个卷积块中有两个3D稀疏卷积我们使用128维的嵌入大小，并将（（32，64），（64，128），（128，128））设置为3D卷积层中的通道数。我们在每个块后对特征图进行2倍的一个全局平均池，然后是一个完全连接的层输出预测的嵌入。我们的形状解码器consists的5个条件块与两个128维全连接层的干预条件批归一化层。tanh函数将预测映射到[-1，+1]。我们用初始学习率训练模型，0.1具有用于训练检测流水线的相同的逐步学习速率调度。4.2. 数据集ScanNetV2[4]是约1.5K室内场景的3D重建网格数据集，具有3D实例和语义分割注释。网格是从在各种室内环境中捕获的RGB-D视频重建的按照[28]中的设置，我们从重建的网格中采样顶点作为我们的输入点云，由于ScanNetV2不提供非模态或定向边界框注释，因此我们预测轴对齐的边界框，如[28，14]所示。Waymo Open Dataset[26，45]是一个大规模的自动驾驶汽车数据集，最近发布用于基准3D对象检测。该数据集涵盖了美国的多个主要城市，在不同的天气条件下和一天中的不同时间数据集总共包含所有对象类的数据集为75m。在我们的实验中，我们评估了车辆的3D对象检测指标，并预测了它们的3D形状。4.3. ScanNetV2上的目标检测我们在表1中展示了Scan-NetV 2数据集上的对象检测结果。对于这个数据集，我们遵循[28，14]并预测轴对齐的边界框。虽然我们只使用可用的几何信息，我们也比较所提出的方法，使用可用的RGB图像和不同的观点。相对于mAP@0.25和mAP@0.5指标，我们的方法显著提高了3%和4.6%。我们还在表2中报告了ScanNetV2数据集上的每个类别的结果。图7显示了我们的定性结果。4.4. Waymo Open上的物体检测我们在IOU为0.7时实现了56.4%的mAP。而StarNet[26]的mAP为53.0%。注意[45]还报告了Waymo开放数据集上的3D物体检测结果。然而，他们的结果不能直接与我们的结果进行比较，因为他们将应用于多视图的2D网络与3D网络融合在一起。由于我们的检测管道由不同的部分组成，因此我们还对该数据集进行了消融研究。表3显示了系统每个组件对其整体性能的贡献。每列显示排除系统的单个组件而其余组件保持不变时的性能。去除邻域图上预测的图卷积会降低检测性能11919DOPS w/o图形w/o动态不含法拉第&卷积Cls损失最高采样mAP@0.756.454.5 53.1 55.7浴缸床书架内阁椅子计数器窗帘书桌门其他图片冰箱淋浴窗帘水槽沙发表厕所窗口整体评分mAP@0.2586.683.3 41.053.291.651.953.973.7 54.8 59.226.349.264.771.3 82.6 60.598.045.263.7mAP@0.571.070.2 21.425.275.89.524.439.4 27.8 35.012.333.717.335.7 54.8 41.280.612.138.2表2：ScanNetV2上的每个类别结果。我们报告了25%和50%IoU的mAP。2%，显示其重要性。用常规分类损失代替动态分类损失，业绩3.3%。最后，如果不是最远和最高的对象采样，而是直接部署NMS来形成对象，则性能下降0.7%。我们还注意到形状预测对检测精度没有明显的影响。我们认为主要原因是Waymo Open数据集手动标记了用于对象检测的边界框，但没有地面真实形状注释。因此，形状预测仅用噪声、部分和稀疏LIDAR数据来监督，这提供了相对较弱的训练信号。表3：每个组件对Waymo开放数据集整体准确性的贡献256D（b）128D（c）64D（d）32D图 4 ：在 ShapeNet 数据集中从 Marching Cube [21] 在1003SDF体积上学习的嵌入中恢复的重复。我们之前的网络甚至使用低维嵌入向量来捕获形状信息。4.5. Waymo Open上的3D形状预测为了对形状建模，我们首先从合成ShapeNet数据集学习先验知识[2]。图4显示了从ShapeNet中为CAD模型预测的紧凑嵌入向量恢复的形状。每行代表一个形状，列显示不同嵌入尺寸的结果。我们使用marchingcube [21]，其分辨率为每边100个点，由我们的解码器预测SDF值，用于围绕对象的均匀超立方体。可以看出，即使当嵌入空间的维数低时，解码器也可以从预测的嵌入向量恢复对象的范围。（一）（b）第（1）款（c）第（1）款（d）其他事项图5：在Waymo数据集中观察到的点上进行形状拟合的消融。(a)观察点。(b)强制解码器仅对观察点预测零SDF（c）沿着穿过观测点和物体中心的射线在物体内部/外部以δ=0的距离添加两个点。五、(d)将δ减为0。1.一、一旦在ShapeNet数据集上进行了训练，我们就冻结解码器，并使用它从LIDAR传感器捕获的真实场景中的观察点恢复形状。然而，与合成CAD模型相比，LIDAR点是不完整的，有噪声的，并且观察点的分布可以不同于干净的合成数据集。因此，我们发现适当的预处理和数据增强技术至关重要.不过，ShapeNet包含密集的注释，即使是对象内部的表面。然而，当涉及自动驾驶数据集时，仅观察到对象表面上的稀疏点集。我们在ShapeNet数据集上训练时删除了内部点，并注意到这一步提高了收敛性和形状预测质量。此外，LIDAR 传感器经常捕获地面上的点，而这在ShapeNet中不会发生我们还根据每个对象的坐标系删除地面上的点。给定点云中的一组N个观察点、预测的编码向量和冻结的解码器，可以强制执行N个弱监督约束来恢复形状。观察到的点应该以高概率位于物体的表面上。也就是说，以预测的嵌入为条件的冻结解码器然而，这组约束不足以可靠地恢复形状。图5b显示了当形状被拟合到从Waymo Open数据集中的对象观察到的一组点时的情况，如图5a所示。可以看出，解码器能够将复杂表面拟合到点。这是当11920图6：3D物体检测和3D形状预测的定性结果。图7：ScanNet数据集上轴对齐对象检测的定性结果。形状几乎完美地通过观察点。相反，我们增加点与额外的采样沿射线连接的观察对象的中心。对于每个观察点，我们在该射线上添加两个点，分别位于物体内部和外部，距离表面为δ，并分别为它们分配标签-1/+1。图5c和5d显示了当我们将δ设置为0的情况。5和0。1分别。可以看出，这种增强技术是至关重要的，并且对更近的点进行采样提高了恢复的形状的质量。最后，图6显示了我们的端到端形状预测结果。请注意，汽车形状适合点云，而不仅仅是数据库中示例的副本。5. 结论我们提出了DOPS，一个单阶段的对象检测系统，它对点云数据进行操作。DOPS直接预测每个点的对象属性。而不是在预测之前分组点，部署图形卷积模块为了更准确地定位，它还使用在CAD模型的合成数据集上学习的形状输出3D网格。我们展示了室内和室外场景的3D对象检测数据集的最新结果。未来工作的主题包括随着时间的推移检测和跟踪，形状先验的半监督训练，以及扩展形状模型以处理非刚性对象。11921引用[1] D. Arthur和S.瓦西里茨基k-means++：小心播种的优点。离散算法，2007。4[2] A. X. 张氏 T. 芬克豪泽湖 Guibas ， P. Hanrahan ， Q.Huang，Z. Li，S. Savarese，M. Savva，S. Song和H.苏Shapenet ：一个信息丰富的 3D 模型存储库。载于arXiv：1512.03012，2015。7[3] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。2[4] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，2017年。6[5] HarmDeVries，FlorianStrub，Je're'mieMary，HugoLarochelle，Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。神经信息处理系统进展，第6594-6604页，2017年。四、五[6] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016。4[7] Martin Engelcke、Dushyant Rao、Dominic Zeng Wang、Chi Hay Tong和Ingmar Posner。Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测2017年IEEE机器人与自动化国际会议（ICRA），第1355-1361页。IEEE，2017年。2[8] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。arXiv预印本arXiv：1906.02739，2019。2[9] 本·格雷厄姆稀疏3d卷积神经网络。在加里K。L.谭祥华谢，马克 W 。 Jones ，编辑，英国机器视觉会议（BMVC）的专家组，第150.1-150.9页。BMVA Press，September 2015. 2[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在IEEE计算机视觉和模式识别会议论文集，第9224-9232页2[11] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv：1706.01307，2017。三、五[12] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习3D表面生成的一种纸上arXiv预印本arXiv：1802.05384，2018。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。6[14] Ji Hou ， Angela Dai ， and Matthias Nießner.3D-SIS ：RGB-D 扫描的 3D 在 proc 计算机视觉与模式识别（CVPR），IEEE，2019。6[15] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，第3559-3568页，2018年。2[16] Weicheng Kuo，Anelia Angelova，Jitendra Malik，andTsungyi Lin.Shapemask：学习通过细化形状先验来分割新 IEEEInternational Conference on Computer Vision（ICCV），2019年。2[17] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在IEEE计算机视觉和模式识别会议论文集，第12697-12705页2[18] 李波，张天磊，田霞。使用全卷积网络的3d激光雷达车辆检测。arXiv预印本arXiv：1608.07916，2016。2[19] 梁明，杨斌，陈云，胡瑞，拉奎尔·乌塔孙.三维目标检测的多任务多传感器融合。在IEEE计算机视觉和模式识别会议论文集，第7345-7353页2[20] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页2[21] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。在ACM siggraph计算机图形，第21卷，第163ACM，1987年。三、七[22] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在IEEE计算机视觉和模式识别会议论文集，第3569-3577页2[23] Fabian Manhardt ， Wadim Kehl ， and Adrien Gaidon.ROI-10 d：将2d检测提升到6d姿态和度量形状的单目提升在IEEE计算机视觉和模式识别集，第2069-2078页，2019年。2[24] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：Learning 3d reconstruction in function space.在IEEE计算机视觉和模式识别会议论文集，第4460-4470页，2019年。二、四[25] Gregory P Meyer 、 Ankit Laddha 、 Eric Kee 、 CarlosVallespi-Gonzalez和Carl K Wellington。Lasernet：一个用于自动驾驶的高效概率3D物体检测器。在IEEE计算机视觉和模式识别会议论文集，第12677-12686页，2019年。2[26] Jiquan Ngiam ， Benjamin Caine ， Wei Han ， BrandonYang ，Yunning Chai， Pei Sun ， Yin Zhou ， Xi Yi，Ouais Alsharif，Patrick Nguyen，Zhifeng Chen，JonatheShlens，and Vijay Vasudevan. Starnet：点云中目标检测的目标计算。在arXiv：1908.11069，2019。611922[27] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。 arXiv 预印本 arXiv ：1901.05103，2019。二、四[28] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。在IEEE国际计算机视觉会议论文集，2019。二、六[29] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。在IEEE计算机视觉和模式识别会议论文集，第918-927页二、六[30] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页2[31] Charles Ruizhongtai Qi，Li Y

下载后可阅读完整内容，剩余1页未读，立即下载