基于结构的3D目标检测方法及其在自动驾驶中的应用

14 浏览量更新于2023-10-23 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于结构的单阶段点云三维目标检测何晨航1，2，曾辉1，2，黄建强2，华宪生2，张磊1，21香港理工大学2阿里巴巴集团{csche，cshzeng}@ comp.polyu.edu.hk，jianqiang. alibaba-inc.comhuaxiansheng@gmail.com，cslzhang@comp.polyu.edu.hk摘要从点云数据中检测三维物体在自动驾驶中起着至关重要的作用。当前的单级检测器通过以完全卷积的方式逐步缩小3D点云是有效的然而，降尺度特征不可避免地丢失了空间信息，不能充分利用三维点云的结构信息，降低了定位精度。在这项工作中，我们提出了明确利用三维点云的结构信息来提高单级检测器的定位具体来说，我们设计了一个辅助网络，将骨干网络中的卷积特征转换回点级表示。辅助网络通过两个点级监督进行联合优化，以引导骨干网络中的卷积辅助网络可以在训练后分离，因此在推断阶段不引入额外的计算。此外，考虑到单级检测器的预测边界框和相应的分类置信度之间存在不一致性，本文提出了一种有效的局部敏感变形操作来将置信度与预测边界框对齐。我们提出的检测器在KITTI 3D/BEV检测排行榜上名列前茅，推理速度为25 FPS。1. 介绍点云数据中的三维目标检测是自主车辆系统的关键组成部分。与仅从图像平面估计2D边界框的常规2D对象检测这激发了最近出现的应用卷积神经网络的3D对象检测方法。* 通讯作者。本研究得到了国家自然科学基金项目（ No.61672446）及香港研资局一般拨款额（理大152135/16 E）。（一）（b）第（1）款图1：稀疏3D点云的预测边界框(a) 代表性的单阶段检测器SECOND [25]和（b）由辅助任务和点级监督指导的单阶段方法。目标点、地面实况框、辅助网络预测的中心点以及最终检测结果分别以绿色、白色、黄色和红色显示利用人工神经网络（CNN）来处理来自高端LiDAR传感器的更具代表性的点云数据。当前从点云的3D对象检测可以被分成两个流，即，单阶段方法和两阶段方法。单阶段方法[25，30，27，8，22，9]将稀疏3D点云解析为紧凑的表示，例如体素网格或鸟瞰图（BEV）图像，并采用CNN以完全卷积的方式直接预测边界这使得单级方法通常简单且有效。然而，逐步缩小的特征图不可避免地损失了空间分辨率，并且不能显式地考虑点云数据的结构信息，使得单级检测器处理稀疏点云的精度较低。如图1（a），当对象包含不足的点时，单级检测器不能实现精确定位。与单阶段方法相比，两阶段方法11187311874图2：所提出的结构感知单级3D对象检测器的概述我们的网络包含三个子网络，一个从点云提取多级特征的骨干网络，一个预测3D边界框的后端检测网络和一个利用逐点监督的辅助网络。辅助网络中的黄色点表示原始点云坐标系我们还设计了一个部分敏感的翘曲（PSWarp）计划，以调整分类的信心与预测的边界框。ods [16，19，2，28，15，20]可以在第二阶段利用更精细的空间信息，其仅关注第一阶段预测的感兴趣区域（ROI），从而预测更准确的边界框。这揭示了利用点云的细粒度空间信息来实现精确定位的重要性然而，对每个点进行操作并重新提取每个RoI的特征大大增加了计算成本，使得两阶段方法难以达到实时速度。由于两阶段检测器的高精度，本文提出利用细粒度的结构信息来提高定位精度，同时保持单阶段方法的高效率。我们设计了一个结构感知的单级3D目标检测器，其框架如图所示。二、除了生成用于边界框预测的缩小特征的骨干网络之外，我们的检测器还包含一个辅助网络，该辅助网络引导骨干网络通过点级监督来学习更多有区别的特征。具体而言，辅助网络首先将来自骨干网络的特征转换回逐点表示，然后执行两个辅助任务：前景分割使特征漂移到对对象边界敏感，逐点中心估计使特征知道对象内关系。辅助网络在训练阶段与骨干网络联合优化，训练结束后去除如图1（b），我们的模型指导的辅助任务可以产生更准确的定位。此外，我们注意到，单级检测器通常遭受预测的边界框和相应的分类置信度之间的不对准。具体而言，分类置信度与所采用的特征图的当前位置有关，而预测的边界框通常偏离其当前位置。这种未对准可能导致NMS后处理中的次优结果。受PSRoIAlign [3]的启发，我们开发了一种有效的部分敏感扭曲方法（在图中的检测网络中表示为PSWarp）2）通过对分类特征图进行空间变换，将分类置信度与预测边界框总之，我们的贡献是双重的。(1) 我们提出了一种结构感知的单级3D对象检测器，它采用可拆卸的辅助网络来学习结构信息，并在不增加额外成本的情况下表现出更好的定位性能。(2) 我们开发了一种有效的特征映射扭曲方法来减轻预测的边界框和相应的分类置信度之间的不一致性，以微不足道的代价提高检测精度。我们在KITTI [4] 3D/BEV对象检测基准上评估我们提出的检测器。我们的检测器优于所有以前公布的方法，并在同一时间达到25 FPS的推理速度。2. 相关工作单阶段方法。提出了单阶段方法，通过过程-11875在完全卷积网络中处理点云，一种变换后的紧凑表示。这种类型的典型方法或者应用2D CNN来从BEV[22]和前视图全景[24]，或者将3D CNN应用于手工制作的体素网格[9，27]。 Zhou等人[30]提出通过微小的PointNet [17]提取体素特征Lang等人 [8]提出通过将体素特征沿高度轴堆叠为“骨架”来降低特征维度。Yan等人。 [25]研究了一种改进的稀疏卷积，它优化了3D卷积中的GPU使用。我们提出的方法是建立在一个通用的单级架构之上，我们是第一个考虑使用点级监督来增强卷积特征的代表两阶段方法。与直接产生3D包围盒的单阶段方法不同，两阶段方法旨在通过在第二阶段中重新使用具有全分辨率的点云来产生更准确的检测。已经提出了一些图像驱动的方法[16，23]，用于从图像中提取一组3D感兴趣区域（RoI），然后应用PointNet通过收集具有转换的规范坐标的内部点来提取RoI特征。Shi等人[19]建议通过使用PointNet将前景点从3. 基于辅助网络学习的在本节中，我们开发了一个高效的结构感知单级网络用于点云检测。秒3.1介绍我们的骨干网和检测网络。秒3.2介绍了建议的辅助网络，通过两个特殊的辅助任务来丰富骨干网络的秒3.3引入了部分敏感的扭曲操作以生成更准确的置信图。秒3.4给出了用于训练的损失函数。3.1. 主干网和检测网络输入数据表示。以前的工作通常通过划分将点云编码为3D稀疏张量将其转换为体素网格，并将每个体素特征表示为输入张量的非零项。然而，体素化是一种耗时的预处理方法。为了简单起见，我们直接将每个点表示为非零的en-通过将点的坐标量化为张量索引来尝试输入张量令{pi=（xi，yi，zi）：i= 1，. N}是点云的坐标，d=[dx，dy，dz] ∈ IR3是输入张量的量化步长。张量指数则可以表示为{p<$i=（xi，yi，zi）：i=dxd yd z现场其变体工作[2]通过有效的基于体素的CNN生成ROI。Yang等人。 [28]将RoI划分为体素，以便使用常规CNN进行RoI特征提取。 Shi等人 [20]通过执行对象内部分感知分析丰富了RoI特征，并证明了减少边界框模糊性的有效性。两阶段方法的成功启发我们利用编码在地面实况中的全分辨率空间信息来指导单阶段模型学习更具鉴别力的细粒度模式。辅助任务学习。从一组副任务中学习以增强主任务Yang等人 [26]建议估计地面高度，以提高检测员对道路几何形状的认识。 Liang等人[10]提出增强来自多任务预测的跨模态输入的融合。我们的方法与它们紧密相连，通过采用逐点预测任务来改善3D对象检测，同时与它们不同的是，将预测作为辅助任务，这在推理时是可分离的辅助任务可以与主任务异构，从而在优化中提供多重正则化效果例如，Zhao等人。 [29]促进了人群分割任务，以学习用于人群计数的更仔细的密度图。Mordan等人[14]促进了深度估计任务以学习场景感知特征，提高了检测被遮挡物体的鲁棒性。通过利用辅助任务，我们可以保持单级网络的推理效率。1、…N}，其中，f·f是地板函数。我们反复地将每个点分配给输入张量的条目，相关的索引。如果多个点共享相同的索引，我们用最新的点覆盖条目。我们发现，这种预处理方法是有效的，足以实现合理的性能与更精细的量化步骤d =[0。05m、0. 05m、0. 1m]。网络架构。如图2，我们采用常用的骨干网络[30，25，2]作为我们的特征提取器。该网络包含四个卷积块，每个块由核大小为3的子流形卷积组成。最后三个块包含步长为2的附加稀疏卷积。每个卷积之后是批量归一化[5]和ReLU非线性。因此，骨干网络产生不同空间分辨率的多级特征图。检测网络通过将沿深度维度的特征向量连接成一个特征向量，将特征图从主干输出重塑为BEV表示频道然后采用6个标准的3×3非线性卷积进一步提取特征。应用两个无非线性的同胞1×1卷积来生成任务特定的逐像素预测：一套零件-敏感分类图和对定向3D对象的锚偏移进行编码的回归图。3.2. 可拆卸辅助网络如第1，我们建议学习一个具有逐点监督的可分离辅助网络，11876对于已更新（已传播）的特征，每个点处的特征向量可以通过以下公式计算：ΣMw（p）ff=j=1Jij，（1）iΣMw（p）图3：（a）一个预测边界框的普通例子，哪里wj（pi）=j=1.1||2||2J I如果pj∈N（pi）（二）二维点云。前景点、背景点和地面实况边界框分别以绿色、黑色和白色显示。(b)来自卷积特征的预测，黑色和绿色方块表示非零特征向量。(c)边界敏感卷积特征的预测。(d)结构感知卷积特征的预测。黄色十字表示估计的对象中心。帮助骨干网提取的特征感知三维点云的结构信息。动机通常，从点云提取的下采样卷积特征将不可避免地丢失对生成准确局部化至关重要的结构细节。从2D点集检测对象的一个普通例子如图所示。3.第三章。如图在图3（a）中，仅检测到来自对象的几个点，并且存在接近其边界的一些背景点。这个案子非常0否则。N （ pi ）表示球区域，其在每个阶段中分别具有0.05m、0.1m、0.2m和0.4m的半径。我们通过跨阶段链接将这些逐点特征连接起来，应用浅预测器来生成特定于任务的输出。预测器由一个共享的多层感知器实现，神经元大小为（64，64，64），两个任务特定的输出由单位点卷积产生。辅助任务。我们首先引入逐点前景分割任务，以指导骨干CNN在对象边界中学习更多有区别的模式具体地说，我们对分割分支采用S形函数来预测每个点的前景/背景概率，用S形函数i 表示。让si是一个二进制标签，以指示点是否落入地面实况边界框。前景分割任务可以通过焦点损失来优化[12]，即，常见于真实场景，其中对象远离传感器并且被不感兴趣的其他对象遮挡随着CNN逐渐降低点云的空间分辨率，一些对象点可能会淹没在后面。哪里L段=1 ΣNN阳性我.−α（1−si）γlog（si），（3）地面点，导致对象边界处的特征在低分辨率特征空间中被错误分类，Si=如果si=1，则si1-si否则。（四）如图3（b）款。因此，模型被误导了。并产生低质量的边界框。我们的解决方案是构建一个具有点级监督的辅助网络，以引导来自骨干CNN不同阶段的中间特征学习点云的细粒度结构。为了实现这一目标，我们首先需要将提取的CNN特征转换回逐点表示。逐点特征表示。辅助网络如图所示。二、它首先根据当前阶段的量化步长将每个非零索引的骨干特征转换为真实世界坐标，使得每个骨干特征可以以逐点形式表示我们用{（fj，pj）：j=1，.，其中f是α和γ是超参数，我们使用原始论文[12]中指定的经验值0.25和2。上述分割任务使骨干网络能够更精确地检测对象边界，如图所示3（c）款。有了更精确的特征图，模型可以生成更精确的边界框。然而，即使精确地检测到边界点，由于特征图非常稀疏，因此在确定边界框的尺度和形状时仍然存在模糊性。为了进一步提高定位精度，我们采用另一个辅助任务来学习每个对象点到对象中心的相对位置。如图如图3（d）所示，这种对象内关系可以帮助确定对象的尺度和形状，从而导致更精确的定位。特征向量，p是点坐标。为了-让我们一起来吧∈IRN×3是中心估计为了获得全分辨率逐点特征，我们采用了有限元分析，每个阶段的真实传播层[18]，以在原始点云的坐标处内插branch和branch是从对象点到相应的中心。中心估计任务可以是使用以下平滑-l1[13]损失进行优化：{pi：i = 1，.，N}个。对于插值，我们使用逆相邻区域内所有点之间的距离加权平均。令11877{（f∈i，pi）：i=1，.，N}是中间体，Lctr=1 ΣNN阳性我Smooth-l1（p−p）·1[si=1]，（5）11878pIJ其中Npos是e个地面点的数量，1[·]是指示函数。结合前景分割和中心估计任务，使骨干网络能够学习结构感知特征。这将在第二节中看到。4.4、采用这两个辅助任务显著提高了骨干网的定位精度此外，辅助网络只在训练阶段使用，不需要额外的推理计算量。3.3. 局部敏感翘曲为了解决预测的边界框和相应的置信度图之间的不对齐，我们提出了一种部分敏感的扭曲操作，即PSWarp，作为PSRoIAlign [3]的有效变体，通过在特征图上执行空间变换来将分类置信度与预测的边界框类似于PSRoIAlign，我们首先修改最后的分类层以生成K个部分敏感的分类图，由{Xk：k= 1，2，...，K}，其中的每一个编码对象的特定部分的信息，例如，{左上，右上，左下，右下}在K= 4的情况下。与此同时，将每个特征图位置处的预测边界框分成K个子窗口，并选择每个子窗口的中心位置作为样本点。这样，我们可以生成K个采样网格{Sk：k = 1，2，.，K}，并且其中的每一个与分类图相关联。我们的PSWarp是COM-如图所示，由特征图采样器[6]构成。4，其将分类图和采样网格作为输入，产生在网格点处从输入采样的输出图。最终置信度图C通过取K个采样分类图的平均值。给定预测的边界框p及其对应的采样点{（uk，vk）=Sk：k=1，2，.，K}，该边界框的最终置信度可以通过下式计算：图4：部分敏感翘曲。我们从回归分支预测的密集包围盒生成K采样网格。每个网格用于使用双线性插值内核从分类图通过在K个采样图中取平均值来计算最终的分别施加在回归分支和分类分支上的两个损失。Lbox是Smooth-l1损失[13]，Lcls是焦点损失[12]。我们通过应用梯度来联合优化检测任务和辅助任务下降法，以最小化以下损失的加权和：L=Lcls+ωLbox+µLseg+λLctr，（7）其中根据[30，25]，µ和λ，ω根据经验设置为2是平衡辅助任务的超参数，检测任务。我们将进行实验，以适当地选择他们在第二节。四点二。4. 实验我们在KITTI 3D/BEV对象检测基准[4]上评估了我们提出的结构感知单级检测器（SA-SSD）。该数据集包含7，481个训练样本和7，518个测试样本。我们进一步将训练数据划分为具有3，712个样本的训练集和具有3，769个样本的验证集，Cp=1ΣKKΣXk×b（i，j，uk，vk），（6）议定书我们对最常用的汽车类别进行实验，并使用平均精度（AP），k=1i∈ {uk+1}j∈{}其中b是具有b（i，j，u，v）= max（1 - 1）形式的双线性采样核|i − u|，0）× max（1 − |j − v|，0）。与PSRoIAlign和其他基于ROI的方法相比，PSWarp更有效，因为它减轻了Gen的需求使用NMS从密集特征图中计算ROI。它考虑在每个子窗口中只有一个像素，因此具有与标准卷积相同的计算复杂度。节中4.4，我们表明PSWarp可以实现与PSRoIAlign相当的性能，只需1/10的时间。3.4.损失函数我们应用常见的基于锚点的设置[30，25，8]来优化主网络。设Lbox和Lcls为（IoU）阈值0.7作为评估指标。基准考虑三个层次的困难：基于对象大小、遮挡状态和截断级别，可以设置容易、中等和困难。平均精确度（AP）是使用40个召回位置1计算的。源代码可在https://github.com/skyhehe123/SA-SSD上获得。4.1. 实现细节培训详情。我们使用[30，25]中的常见设置，分别选择位于X、Y、Z轴范围（0 m，70.4 m）、（-40 m，40 m）、（-3 m，1 m）之间的感兴趣LiDAR点，并丢弃图像视图中不可见在训练中，我们使用匹配1在2019年10月8日，KITTI通过使用[21]中建议的40个重新调用位置更改了其评估设置。11879方法模态Bev3DFPS容易中度硬容易中度硬两阶段：MV3D[1]激光雷达+RGB86.4978.9872.2374.9763.6354.002.8F-PointNet[16]激光雷达+RGB91.1784.6774.7782.1969.7960.595.9AVOD[7]激光雷达+RGB89.7584.9578.3276.3966.4760.2310[19]第十九话LiDAR92.1387.3982.7286.9675.6470.70-[23]第二十三话激光雷达+RGB91.5185.8476.1187.3676.3966.692.1Fast PointRCNN[2]LiDAR90.8787.8480.5285.2977.4070.2415.4MMF[10]激光雷达+RGB93.6788.2181.9988.4077.4370.2212.5标准[28]LiDAR94.7489.1986.4287.9579.7175.0910一阶段：VoxelNet[30]LiDAR87.9578.3971.2977.8264.1757.514.4联系我们[11]激光雷达+RGB94.0785.3575.8883.6868.7861.6716.7第二届[25]LiDAR89.3983.7778.5983.3472.5565.8220[8]第八话LiDAR90.0786.5682.8182.5874.3168.99422SA-SSD（我们的）LiDAR95.0391.0385.9688.7579.7974.1625表1：在KITTI测试服务器上与以前方法的性能比较。使用BEV和3D对象检测度量，由平均精度（AP）报告，IoU阈值为0.7。粗体值表示最高性能。正锚和负锚的阈值分别为0.6和0.45。边界框和锚点之间的匹配 IoU 用于检测汽车的锚定器尺寸为 1.6m（宽），3.9m（长）和1.56m（高）。忽略所有不包含点的锚使用SGD优化器对网络进行50个时期的训练。批量大小，学习率和权重衰减分别为st到2，0.01和0.001。采用余弦退火策略降低学习速率在推理阶段，我们通过0.3的阈值过滤掉低置信度的边界框。非最大抑制（NMS）的IoU阈值为0.1。数据扩充。我们执行常见的剪切和粘贴策略[30，25，2]来进行数据增强。具体来说，我们收集所有地面实况框和落入这些框的关联点作为实例池。对于每个示例，我们从池中随机抽取最多10个实例，并将它们放置到当前点云中。每次放置后都进行碰撞测试，以避免违反物理规则。所有地面实况框都是单独增强的。每个盒子都是随机旋转和平移的。均匀绘制旋转的噪波从[-π/15，π/15]中提取，平移的噪声从N（0，0，0.第25段）。此外，我们还对整体应用了随机翻转、全局旋转和全局缩放等技术点云全局旋转的噪声均匀地从[−π/15，π/15]中提取，并且比例因子均匀地从[0. 95，1。05]。2PointPillars可以通过使用TensorRT进行GPU加速以62 FPS运行。在这里，我们使用其PyTorch管道显示运行时，根据[8]，它是42FPS，用于公平比较。(a) µ表示前景分割任务（λ= 0）。(b) λ用于中心估计任务。图5：辅助任务的选择权重。4.2. 辅助任务方程中的权重μ和λ7确定每个辅助任务对主任务的影响，这是我们方法中的关键超参数。为了找到它们的最佳值，我们首先在λ固定为0的情况下调整μ，然后用选定的μ调整λ。如图5.当前景分割任务的权重μ在一定范围内时，检测性能（由AP在中等子集中报告）可以得到明显改善。太小的权重难以对主要任务做出贡献，而太大的权重通过疏远特征表示来降低性能。在λ的选择中可以观察到类似的趋势。在下面的实验11880中，我们使用μ= 0。9，λ= 2。11881中度容易硬MV3D [1]62.6871.2956.56AVOD[7]74.4484.4168.65VoxelNet [30]65.4681.9762.85F-PointNet [16]70.9283.7663.65第二届[25]76.4887.4369.10[19]第十九话78.6388.8877.38标准[6]79.889.779.3SA-SSD（我们的）79.9190.1578.78图6：不同方法在KITTI 3D物体检测测试集上的评估结果。对于每种方法，我们绘制了精确率-召回率曲线，报告了最重要的中等子集上的AP。单阶段方法以虚线示出。4.3. 与最新技术水平的比较我们通过将检测结果提交到KITTI服务器进行评估，将我们的SA-SSD 3D点云检测器与其他最先进的方法进行比较。如表1所示，我们的方法在3D和BEV检测任务中均实现了所有竞争对手中的最佳性能截至提交时，我们的方法在KITTI 3D/BEV目标检测排行榜上排名第一，在最重要的汽车类别中。此外，我们的方法比第二个顶级方法STD快2.5倍[28]。在BEV检测中，我们在最重要的中等子集上实现了AP与STD方法的显著改进（1.8%）。在单阶段检测器的情况下，我们的方法优于所有竞争对手的大幅度。具体来说，我们的模型领先PointPillars [8]（6. 2%，5. 5%，5. 2%）在3D检测和（5。0%，4. 5%，3. 1%）。我们的骨干网是建立在第二个架构的顶部[25]，同时实现（5。4%，7. 2%，8. 3%）的改善。这种大的改进主要来自于辅助任务丰富的隐藏功能。由于单级架构和无体素预处理，我们的SA-SSD可以以25 FPS运行，比大多数方法都快。图6件毛皮-结果表明，我们的方法优于具有不同召回设置的现有技术我们还在图中显示了一些预测结果。7并且我们将从LiDAR检测到的3D边界框投影到RGB图像以获得更好的可视化。正如所观察到的，我们的方法可以在不同类型的场景中产生高质量的3D边界框表2：与其他最先进的方法相比，我们的模型在“Car“的KITTI值集上的3D检测AP。AP是用11个召回位置计算的。段中心PSWarp中度容易硬C82.8883.3692.1092.5379.9680.13CC83.9392.8680.91CCC84.3093.2381.36表3：不同配置下拟定方法的性能。报告了KITTI值分割上容易、中等和困难子集的3D对象的平均精度2 ×33 ×54 ×7时间PSWarp84.0584.1384.300.4msPSRoIAlign[3]84.1884.2284.354ms表4：我们的PSWarp和PSRoIAlign之间的比较。报告了中度子集上的AP值数据输入净NMS整体第二届[25]1.56.637.50.746.3SA-SSD（我们的）1.5<0.0137.90.740.1表5：推理过程中不同步骤的时间（毫秒）分析。4.4. 消融研究在本节中，我们对我们的检测器中不同建议模块的有效性进行了全面分析。我们首先评估我们的方法的验证集和报告AP与11个召回位置，以比较与以前的艺术的结果。如表2所示，SA-SSD在中等和容易的子集中优于先前的最先进的方法。然后我们研究了辅助任务和PSWarp对模型的影响。结果如表3所示。分割任务的效果。如表3所示，杠杆老化分割辅助任务有助于性能提高约（0. 5%、0. 4%，0. 2%），每个子集。可以观察到，容易和中等子集上的性能增益高于困难子集这是因为来自硬子集的对象通常只包含几个点，提供非常有限的有用信息-11882图7：KITTI测试集的定性结果。预测的边界框显示为绿色。预测被投影到RGB图像（上排）上以获得更好的可视化。最好用彩色看。分割任务的形成。中心估计任务的效果。中心估计任务带来了实质性的改进（0。6%，0. 3%、0. 8%）的三个子集。这一改进在硬子集上尤为显著这与我们的预期一致，即当数据点相对稀疏时，学习对象的内部结构对于确定对象的尺度和形状是的影响部分敏感的翘曲的提出的PSWarp可以进一步提高性能（0. 4%，0. 3%、0. 5%）的三个子集，验证将分类置信度细化到预测的边界框的有效性。我们还比较了PSWarp与其对应的PSRoIAlign，只有重新评分功能。对2×3、3×5和4×7三种空间分辨率的边界盒对齐进行了评价。作为从表4中可以看出，PSWarp显示出与在高分辨率情况下，PSRoIAlign的性能仅略差于低分辨率情况。这是因为预测的边界框通常仅占用最终特征图中的几个像素，因此每个子窗口的中心点具有足够的代表性。然而，PSWarp避免了从密集的特征图中枚举ROI，只占用了PSRoiAlign的大约1/10运行时间。4.5. 运行时分析We evaluate the runtime of each step of our frameworkduring inference.我们的计划和基地一样-线单级对应SECOND [25]在一个中等的台式机配备了英特尔i7 CPU和2080ti GPU。整个管道包括以下步骤：1）从LiDAR文件中读取数据并去除范围和图像范围之外的点（Data），2）将点云编码为输入张量（Input），3）通过神经网络（Net）处理编码的张量，4）去除重复的预测（NMS）。如表5所示，我们的方法的总运行时间为40.1 ms。与基线方法SEC-OND [25]相比，使用无体素编码预处理可以帮助PSWarp带来的额外开销可以忽略不计（仅0.4ms）。5. 结论在这项工作中，我们研究了当前单级三维物体检测器的局限性，并提出了一种新的检测器，即结构感知单级检测器，用于三维点云检测。我们首先提出使用两个点级监督来学习辅助网络，以引导在骨干网络中学习的特征感知3D对象的结构信息这显著提高了检测精度，而不会在推理阶段引入额外的计算成本。我们进一步发展了部分敏感的扭曲操作，以减轻NMS后处理中预测的边界框与它们的对应置信度之间的不一致。在KITTI 3D/BEV检测基准上的实验结果表明，该方法具有较高的检测效率和最佳的检测性能。11883引用[1] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议上，第1907-1915页，2017年。六、七[2] Y. Chen，S.Liu，X.Shen和J.贾快点r-cnn.在2019年IEEE国际计算机视觉会议（ICCV）上二、三、六[3] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。二、五、七[4] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志，32（11）：1231-1237，2013。二、五[5] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。3[6] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2017-2025页，2015年。五、七[7] J. Ku，M. Mozifian，J. Lee，A. Harakeh和S. L.瓦斯兰德。从视图聚合联合生成3d建议和对象检测。在2018年IEEE/RSJ智能机器人和系统国际会议（IROS）上，第1IEEE，2018年。六、七[8] A. H. Lang，S.Vora，H.凯撒湖Zhou，J.Yang和O.北京点柱：用于从点云中检测物体的快速编码器。在IEEE计算机视觉和模式识别集，第12697一、三、五、六、七[9] B.李用于点云中车辆检测的3D全卷积网络。2017年IEEE/RSJ智能机器人和系统国际会议（IROS），第1513IEEE，2017年。第1、3条[10] M.梁湾，澳-地Yang，Y.陈河，巴西-地Hu和R.乌塔松多任务多传感器融合三维目标检测。在IEEE计算机视觉和模式识别会议上，第7345-7353页，2019年三、六[11] M.梁湾，澳-地Yang，S. Wang和R.乌塔松多传感器三维目标检测的深度连续融合。在欧洲计算机视觉会议（ECCV）的Proceedings中，第641-656页，2018年。6[12] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2980- 2988页，2017年。四、五[13] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。四、五[14] T. Mordan，N.托梅湾Henaff和M.线.用rock重温多任务学习：一个用于视觉检测的深度残差辅助神经信息处理系统的进展，第1310-1322页，2018年3[15] C. R. Qi、台湾野牡丹O. Litany，K.他和L.吉巴斯点云数据中三维目标检测的深度霍夫投票进行中-IEEE国际计算机视觉会议（ICCV），2019年。2[16] C. R.齐，W. Liu，C. Wu，H. Su和L.吉巴斯从rgb-d数据中检测三维目标的截头体点网。在IEEE计算机视觉和模式识别会议上，第918-927页，2018年。二三六七[17] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页3[18] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统的进展，第5099-5108页，2017年4[19] S. Shi，X. Wang和H.李从点云生成和检测三维物体。在IEEE计算机视觉和模式识别会议论文集，第770-779页，2019年。二三六七[20] S.施，Z. Wang，X. Wang和H.李第a部分（2净）：基于3D零件感知和聚合神经网络的点云目标检测。arXiv预印本arXiv：1907.03670，2019。二、三[21] A.西蒙内尔岛 S. R. R.布勒奥湖 Porzi ， M. Lo′pez-Antequera 和P.Kontscheder 解开单眼三维物体检测。arXiv预印本arXiv：1905.12365，2019。5[22] M. Simony ， S. Milzy ， K. Amendey 和 H.- M. 恶心Complex-yolo：用于点云上的实时3D对象检测的欧拉区域建议。在欧洲计算机视觉会议（ECCV）的会议记录中，第0-0页，2018年。第1、3条[23] Z. Wang和K.贾平截头体：滑动平截头体以聚集用于非模态3D对象检测的局部逐点特征。在智能机器人和系统（IROS）国际会议上，2019。三、六[24] B. Wu ，中国茶条 A. Wan ， X. Yue 和 K. 库茨Squeezeseg：具有递归crf的卷积神经网络，用于从3d激光雷达点云进行实时道路对象分割。2018年IEEE机器人与自动化国际会议（ICRA），第1887-1893页。IEEE，2018年。3[25] Y. Yan，Y. Mao和B.李第二：稀疏嵌入卷积检测。传感器，18（10）：3337，2018。一、三、五、六、七、八[26] B.杨，M. Liang和R.乌塔松Hdnet：利用hd贴图进行3d物体检测。在机器人学习会议上，第146-155页3[27] B.杨，W. Luo和R.乌塔松Pixor：从点云中实时检测3D物体在IEEE计算机视觉和模式识别会议论文集，第7652-7660页第1、3条[28] Z. Yang，Y.孙习Liu，X. Shen和J.贾STD：稀疏到密集的点云3D对象检测器。在IEEE国际计算机视觉会议（ICCV）上，2019年。二三六七[29] M. Zhao，J.Zhang C.，中国古猿科Zhang和W.张某利用异质辅助任务辅助人群计数。在IEEE计算机视觉和模式识别会议上，第12736-12745页，2019年。311884[30] Y. Zhou和O.图泽尔Voxelnet：基于点云的3D对象检测的端到端学习。在IEEE计算机视觉和模式识别会议集，第4490-4499页，2018年。一、三、五、六、七

下载后可阅读完整内容，剩余1页未读，立即下载