没有合适的资源?快使用搜索试试~ 我知道了~
73450多任务多传感器融合的3D物体检测0Ming Liang 1 � Bin Yang 1 , 2 � Yun Chen 1 † Rui Hu 1 Raquel Urtasun 1 , 201 Uber先进技术集团 2 多伦多大学0{ ming.liang, byang10, yun.chen, rui.hu, urtasun } @uber.com0摘要0本文提出利用多个相关任务进行准确的多传感器3D物体检测。为实现这一目标,我们提出了一个端到端可学习的架构,可以同时进行2D和3D物体检测、地面估计和深度补全。我们的实验证明,所有这些任务是互补的,并通过在不同层次上融合信息来帮助网络学习更好的表示。重要的是,我们的方法在2D、3D和鸟瞰图物体检测上领先于KITTI基准,并且具有实时性。01. 引言0自动驾驶车辆有潜力提高安全性,减少污染,并为人口中未得到服务的部分提供移动解决方案。其核心能力是实时感知场景。大多数自动驾驶系统依赖于三维感知,因为它可以在鸟瞰图中实现可解释的运动规划。在过去的几年中,我们见证了许多方法来解决从单眼图像[2,31]、立体相机[4]或LiDAR点云[36, 34,16]中进行3D物体检测的问题。然而,每个传感器都有其挑战:相机难以捕捉细粒度的3D信息,而LiDAR在长距离上提供非常稀疏的观测。最近,已经开发了几种尝试[5, 17, 12,13]来融合多个传感器的信息。像[17,6]这样的方法采用级联方法,第一阶段使用相机,第二阶段仅在LiDAR点云中进行推理。然而,这种级联方法受到每个单一传感器的弱点的影响。因此,很难检测到被遮挡或远离的物体。其他方法[5, 12,13]提出融合多传感器特征。单阶段检测器[13]融合每个LiDAR点的多传感器特征图,其中局部0� 相等贡献。† 作为UberAI实习计划的一部分完成的工作。0映射 3D检测 2D检测 深度补全0LiDAR点云 RGB相机图像0图1.不同的传感器(底部)和任务(顶部)相互补充。我们提出了一个联合模型,对两个传感器和四个任务进行推理,并展示了目标任务-3D物体检测如何从多任务学习和多传感器融合中受益。0最近邻插值用于稠密化对应关系。然而,当LiDAR点在长距离上变得非常稀疏时,融合仍然受到限制。两阶段检测器[5,12]根据物体感兴趣区域(ROI)融合多传感器特征。然而,融合过程通常很慢(因为涉及数千个ROI)且不精确(要么使用固定大小的锚点,要么忽略物体方向)。本文认为通过联合解决多个感知任务,我们可以学习到更好的特征表示,从而实现更好的检测性能。为实现这一目标,我们开发了一个多传感器检测器,可以同时进行2D和3D物体检测、地面估计和深度补全。重要的是,我们的模型可以端到端地学习,并同时执行所有这些任务。请参考图1以了解我们方法的示意图。我们提出了一种新的多传感器融合架构,充分利用点级和ROI级特征融合的优势,从而得到完全融合的特征表示。地面位置的信息可以为自动驾驶车辆中的3D物体检测提供有用的线索,因为感兴趣的交通参与者限制在这个平面上。我们的检测器作为其辅助任务之一,可以在线估计准确的体素级地面位置。这进而被鸟瞰图所使用。73460(BEV)主干网络来推理相对位置。我们还利用深度完成任务来学习更好的跨模态特征表示,并且更重要的是,通过来自密集深度的伪LiDAR点实现密集的逐点特征融合。我们在KITTI物体检测基准[8]以及更具挑战性的TOR4D物体检测基准[34]上展示了我们方法的有效性。在KITTI基准上,我们在2D、3D和BEV检测任务上相对于先前最先进的方法显示出非常显著的性能改进。同时,所提出的检测器每秒运行超过10帧,使其成为实时应用的实用解决方案。在TOR4D基准上,我们展示了与先前最先进的检测器相比,通过多任务学习的检测改进。02. 相关工作0我们回顾了利用多传感器融合和多任务学习改进3D物体检测的相关工作。0单模态的3D检测:早期的3D物体检测方法主要集中在基于相机的解决方案上,使用单目或立体图像[3,2]。然而,它们在从图像中估计深度方面存在固有的困难,因此在3D定位方面表现不佳。最近的3D物体检测器依赖于诸如LiDAR [34,36]之类的深度传感器。然而,尽管距离传感器提供精确的深度测量,但观测通常是稀疏的(特别是在远距离),并且缺乏图像的信息丰富性。因此,仅使用LiDAR检测器很难区分行人和骑行者等类别。0用于3D检测的多传感器融合:最近,提出了各种利用多个传感器(例如LiDAR和相机)的3D检测器。F-PointNet[17]使用级联方法融合多个传感器。具体而言,首先在图像上进行2D物体检测,然后通过将2D检测投影到3D来生成3D视锥体,并应用PointNet [18,19]来回归边界框的3D位置和形状。在这个框架中,整体性能受到每个阶段的限制,而每个阶段仍然使用单个传感器。此外,从LiDAR点云中的视锥体中进行对象定位在处理遮挡或远距离对象时存在困难,因为LiDAR观测可能非常稀疏(通常在远距离对象上只有一个点)。MV3D[5]从LiDAR特征生成3D提议,并使用来自LiDAR和图像特征图的ROI特征融合来改进检测结果。AVOD[12]进一步扩展了ROI特征融合到提议生成阶段,以提高对象提议的质量。然而,ROI特征融合仅发生在高级特征图上。此外,它仅在选定的对象上融合特征0在特征图上使用区域而不是密集位置。为了克服这个缺点,ContFuse[13]使用连续卷积[30]来融合来自每个传感器的多尺度卷积特征图,其中通过对LiDAR点进行投影来实现图像和BEV空间之间的对应关系。然而,当LiDAR点非常稀疏时,这种融合是有限的。为了解决这个问题,我们提出使用多传感器数据预测密集深度,并将预测的深度作为伪LiDAR点,以找到多传感器特征图之间的密集对应关系。0来自多任务学习的3D检测:已经利用各种辅助任务来帮助改进3D物体检测。HDNET[33]利用几何地面形状和语义道路掩码进行BEV车辆检测。SBNet[21]利用道路掩码中的稀疏性来加速3D检测速度,速度提高了2倍以上。我们的模型也考虑了几何地图。不同之处在于,这个模块是我们检测器的一部分,因此可以端到端地训练,从而可以共同优化这两个任务。Wang等人[29]利用深度重建和语义分割来帮助3D物体检测。然而,他们依赖于计算密集型的3D渲染。其他上下文线索,如房间布局[23,26]和支撑表面[24],也已被利用来帮助室内场景中的3D物体推理。3DOP[3]利用单目深度估计来根据2D提议来改进3D形状和位置。Mono3D[2]使用实例分割和语义分割作为证据,以及其他几何先验来推理单目图像中的3D物体检测。除了几何地图估计之外,我们还利用深度完成,它带来了两个好处:它引导网络学习更好的跨模态特征表示,并且其预测用作图像和BEV特征图之间的密集融合的伪LiDAR点。03. 多任务多传感器检测器0自动驾驶中的一个基本任务是实时感知场景。在本文中,我们提出了一个多任务多传感器融合模型,用于3D物体检测任务。有关模型架构的说明,请参见图2。我们的方法具有以下亮点。首先,我们设计了一个多传感器架构,结合了点级和ROI级特征融合。其次,我们的集成地面估计模块推理道路的几何形状。第三,我们利用深度完成的任务来学习更好的多传感器特征,并实现密集的点级特征融合。因此,整个模型可以通过利用多任务损失进行端到端学习。接下来,我们首先介绍具有点级和ROI级特征融合的多传感器2D和3D检测器的架构。Ground estimationROI CropRotated ROI CropPseudo LiDAR pointsDense depth73470连接0密集融合0类别概率03D框估计03D框细化02D框细化0在线建图0深度完成0LiDAR点云0相对地面的BEV表示0LiDAR主干网络0RGB图像图像主干网络0稀疏深度图像0物体分类02D和3D回归0图2.提出的多任务多传感器融合模型用于2D和3D物体检测的架构。虚线箭头表示投影,实线箭头表示数据流。我们的模型是一个简化的两阶段检测器,具有密集融合的两流多传感器主干网络。第一阶段是一个单次检测器,输出少量高质量的3D检测。第二阶段应用ROI特征融合进行更精确的2D和3D框回归。地面估计用于将几何地面先验信息引入LiDAR点云。深度完成用于学习更好的跨模态特征表示,并通过将预测的密集深度图像转换为密集伪LiDAR点来实现密集特征图融合。整个模型可以进行端到端学习。0智能特征融合。然后我们展示了如何利用其他两个辅助任务进一步改进3D检测。最后,我们详细介绍了如何端到端地训练我们的模型。03.1. 完全融合的多传感器检测器0我们的多传感器检测器以LiDAR点云和RGB图像作为输入。主干网络采用两流结构,其中一流提取图像特征图,另一流提取LiDARBEV特征图。点级特征融合应用于将多尺度图像特征融合到BEV流中。最终的BEV特征图通过2D卷积在每个BEV体素上预测密集的3D检测。经过非最大值抑制(NMS)和分数阈值处理后,我们得到少量高质量的3D检测和它们的投影2D检测(在KITTI数据集上测试时通常少于20个)。然后,我们通过ROI级特征融合进行2D和3D框细化,其中我们结合了来自图像ROI和BEV定向ROI的特征。经过细化后,检测器输出准确的2D和3D检测。0输入表示:我们使用基于体素的LiDAR表示[13],因为它具有高效性。具体而言,我们将点云体素化为3D占用网格,其中通过对每个LiDAR点进行8点线性插值来计算体素特征。这种LiDAR表示能够有效地捕捉细粒度的点密度线索。我们将得到的3D体积视为BEV表示,将高度切片视为特征。0通道。这使我们能够在2DBEV空间中进行推理,从而在不降低性能的情况下带来显著的效率提升。我们只需将RGB图像作为相机流的输入。当我们利用深度完成的辅助任务时,我们还会添加通过将LiDAR点投影到图像上生成的稀疏深度图像。0网络架构:骨干网络采用两流架构[13]来处理多传感器数据。具体而言,对于图像流,我们使用预训练的ResNet-18[10]直到第四个卷积块。每个块包含2个残差层,特征图的数量从64线性增加到512。对于LiDAR流,我们使用一个定制的残差网络,它比ResNet-18更深更窄,以在速度和准确性之间取得更好的平衡。特别地,我们有四个残差块,每个块中有2、4、6、6个残差层,特征图的数量分别为64、128、192和256。我们还在第一个残差块之前删除了最大池化层,以保留点云特征中的更多细节。在两个流中,我们应用了特征金字塔网络(FPN)[14],使用1×1卷积和双线性上采样来组合多尺度特征。结果是,与输入相比,两个流的最终特征图的下采样因子为4。0在最后的BEV特征图上,我们只需添加一个1×1卷积来执行密集的3D目标检测。经过得分阈值处理和定向NMS后,将少量高质量的3D检测投影到BEV和2D图像空间中Multi-scaleFusionContinuousFusionAddToContinuousFusionAddToContinuousFusionAddToContinuousFusionAddTo0 1 2 3 ...0 1 2 3 ...0 1 2 3 ...0 1 2 3 ...0 1 2 3 ...0 1 2 3 ...(1) periodic issue(2) orientation anchor(3) re-parametrization(4) ROI Align73480LiDAR特征图0图像特征图0图3.LiDAR和图像骨干网络之间的逐点特征融合。使用特征金字塔网络来组合多尺度图像特征图,然后使用连续融合层将图像特征图投影到BEV空间。特征融合通过逐元素求和实现。0空间和2D图像空间,它们的ROI特征通过精确的ROI特征提取从每个流的最后一个特征图中裁剪出来。多传感器ROI特征被融合在一起,并输入到一个具有两个256维全连接层的细化模块中,分别预测每个3D检测的2D和3D框的细化。0逐点特征融合:我们在LiDAR和图像流的卷积特征图之间应用逐点特征融合(如图ref-fig:point所示)。融合是从图像流到LiDAR流的方向进行的,以增加BEV特征的信息丰富度。我们使用LiDAR点来建立图像和BEV特征图之间的密集准确对应关系,受到[13]的启发。对于BEV特征图中的每个像素,我们找到其最近的LiDAR点,并将该点投影到图像特征图上以检索相应的图像特征。我们将BEV像素与LiDAR点之间的距离作为几何特征。检索到的图像特征和BEV几何特征都被传入多层感知机(MLP),输出通过逐元素相加融合到BEV特征图中。需要注意的是,这种逐点特征融合本质上是稀疏的LiDAR观测。稍后我们将解释如何利用稠密深度作为伪LiDAR点,为密集逐点融合提供密集对应关系。0细化模块0(45° ~ 135°)0(0° ~ 45°)0(135° ~ 180°)0dx' dy'0(dx, dy)0(dx', dy')00°0旋转0旋转0180° 0°0图4. 考虑方向周期性的精确旋转ROI特征提取。 (1)旋转周期性导致特征提取顺序的反转。 (2)ROI细化模块具有两个方向锚点。一个ROI被分配给0°或90°。它们共享大部分细化层,除了输出层。 (3)相对偏移的回归目标是根据物体的方向轴重新参数化的。 (4)使用双线性插值提取一个n×n大小的特征(我们展示了一个n=2的示例)。0ROI级特征融合:ROI级特征融合的动机是进一步提高2D和3D空间中高质量检测的定位精度。为了实现这个目标,ROI特征提取本身需要精确,以便正确预测相对框的细化。通过将3D检测投影到图像和BEV特征图上,我们得到一个轴对齐的图像ROI和一个定向的BEVROI。我们采用ROIAlign[9]从轴对齐的图像ROI中提取特征。然而,对于定向的BEVROI特征提取,我们观察到两个新问题(如图4所示)。首先,ROI方向的周期性导致特征在周期边界周围的反向排序。为了解决这个问题,我们提出了一个带有锚点的定向ROI特征提取模块。给定一个定向的ROI,我们首先将其分配给两个方向锚点之一,0度或90度。每个锚点都有一致的特征提取顺序。两个锚点共享细化网络,除了输出层。其次,当ROI被旋转时,其位置偏移也必须在旋转坐标系中进行参数化。在实践中,我们将轴对齐的位置偏移旋转到与ROI方向轴对齐。与ROIAlign[9]类似,我们将双线性插值特征提取到一个n×n的规则网格中,用于BEVROI(实际上我们使用n=5)。03.2.用于3D检测的多任务学习0在本文中,我们利用两个辅助任务来改进3D物体检测,即地面估计和深度完成。它们以不同的方式提供帮助:地面估计提供几何先验来规范化LiDAR点云。深度完成指导图像网络73490学习更好的跨模态特征表示,并进一步促进密集的点级特征融合。03.2.1 地面估计0对于自动驾驶来说,地图构建是一项重要任务,大多数情况下地图构建过程是离线完成的。然而,在线地图构建具有吸引力,因为它减少了系统对离线构建地图的依赖性,增加了系统的鲁棒性。在这里,我们专注于地图构建中的一个具体子任务,即从单个LiDAR扫描中实时估计道路几何。我们将这个任务定义为回归问题,对BEV空间中的每个体素估计地面高度值。这种形式比基于平面参数化[3,1]更准确,因为实际上道路经常是弯曲的,特别是当我们向前看得很远时。网络架构:我们在LiDARBEV表示的顶部应用一个小型全卷积U-Net[25],以在8毫秒的推理时间内估计归一化的体素级地面高度。我们选择U-Net架构是因为它以与输入相同的分辨率输出预测,并且在捕捉全局上下文的同时保持低级细节。地图融合:给定体素级地面估计,我们首先通过在体素化过程中查找点索引来提取点级地面高度。然后我们从每个LiDAR点的Z轴值中减去地面高度,并生成一个新的相对于地面的LiDARBEV表示,将其输入到LiDAR主干网络中。在3D检测的回归部分,我们将地面高度添加回预测的Z项。在线地面估计简化了3D物体定位,因为感兴趣的交通参与者都位于地面上。03.2.2 深度完成0LiDAR提供准确的3D物体检测的长距离3D信息。然而,观测结果在长距离上是稀疏的。因此,我们提出通过从稀疏的LiDAR观测和RGB图像中完成深度来增加LiDAR点云的密度。具体来说,给定投影到图像平面上的稀疏深度和相机图像,模型输出与输入图像相同分辨率的密集深度。从LiDAR投影得到的稀疏深度图像:我们首先从LiDAR点云生成一个三通道的稀疏深度图像,表示亚像素偏移和深度值。具体来说,我们将每个LiDAR点(x,y,z)投影到相机空间中,表示为(xcam,ycam,zcam)(Z轴指向相机的前方),其中zcam是LiDAR点在相机空间中的深度。然后我们将点从相机空间投影到图像空间,表示为(xim,yim)。我们找到像素0( u, v ) 最接近 ( x im , y im ) ,并将 ( x im − u, y im −v, z cam / 10) 1 作为稀疏深度图像上像素 ( u, v )的值。对于没有 LiDAR点的像素位置,我们将像素值设为零。然后将得到的稀疏深度图像与 RGB图像连接起来,输入到图像主干网络中。网络架构:深度补全网络与图像主干网络共享特征表示,并在之后应用四个卷积层和两个双线性上采样层来预测与输入图像相同分辨率的密集像素深度。用于密集点特征融合的密集深度:如上所述,点特征融合依赖于 LiDAR点来找到多传感器特征图之间的对应关系。然而,由于LiDAR观测本质上是稀疏的,点特征融合也是稀疏的。相比之下,深度补全任务提供了每个图像像素的密集深度估计,因此可以用作在多传感器特征图之间找到密集像素对应关系的“伪”LiDAR点。在实践中,我们同时使用真实和伪造的 LiDAR点进行融合,并且只有在没有真实点可用时才使用伪造点。03.3. 联合训练0我们采用多任务损失来端到端地训练我们的多传感器检测器。完整模型输出物体分类、3D 边界框估计、2D 和 3D边界框细化、地面估计和密集深度。在训练过程中,我们有检测标签和密集深度标签,而地面估计则通过 3D定位损失隐式优化。地面估计有两个梯度传递路径。一个是从 3D 边界框输出,其中地面高度添加回预测的 Z项。另一个路径经过 LiDAR 主干网络到 LiDAR体素化层,其中地面高度从每个 LiDAR 点的 Z坐标中减去。对于物体分类损失 L cls,我们使用二元交叉熵。对于 3D 边界框估计损失 L box 和3D 边界框细化损失 L r 3 d ,我们对 3D物体的每个维度(x、y、z、log(w)、log(l)、log(h)、θ)计算平滑 ℓ 1 损失,并对正样本求和。对于 2D边界框细化损失 L r 2 d ,我们类似地对 2D物体的每个维度(x、y、log(w)、log(h))计算平滑 ℓ 1损失,并对正样本求和。对于密集深度预测损失 L depth,我们对所有像素求和 ℓ 1 损失。总损失定义如下:0损失 = L cls + λ ( L box + L r 2 d + L r 3 d ) + γL depth0其中 λ、γ 是平衡不同任务的权重。01 我们将深度值除以 10 进行归一化处理。2我们分别对回归目标的每个维度进行归一化处理。SHJU-HW [35, 7]✓85090.8190.0879.98------RRC [20]✓360090.6190.2387.44------MV3D [5]✓24089.8079.7678.6166.7752.7351.3185.8277.0068.94VoxelNet [36]✓220---77.4965.1157.7389.3579.2677.39SECOND [32]✓5090.4088.4080.2183.1373.6666.2088.0779.3777.95PIXOR [34]✓35------87.2581.9276.01PIXOR++ [33]✓35------89.3883.7077.97HDNET [33]✓50------89.1486.5778.32MV3D [5]✓✓36090.5389.1780.1671.0962.3555.1286.0276.9068.49AVOD [12]✓✓8089.7388.0880.1473.5965.7858.3886.8085.4477.73ContFuse [13]✓✓60---82.5466.2264.0488.8185.8377.33F-PointNet [17]✓✓17090.7890.0080.8081.2070.3962.1988.7084.0075.33AVOD-FPN [12]✓✓10089.9987.4480.0581.9471.8866.3888.5383.7977.9073500检测器 输入数据 时间 2D AP (%) 3D AP (%) BEV AP (%)0LiDAR IMG (ms) 简单 模式 困难 简单 模式 困难 简单 模式 困难0我们的MMF � � 80 91.82 90.17 88.54 86.81 76.75 68.41 89.49 87.47 79.100表1. KITTI2D、3D和BEV目标检测基准测试(车辆)的测试集评估结果。我们按照中等设置中的平均精度(AP)在排行榜上与先前发布的检测器进行比较。0良好的初始化对于更快的收敛很重要。我们使用预训练的ResNet-18网络来初始化图像主干网络。对于输入的稀疏深度图像的附加通道,我们将相应的权重设置为零。我们还使用TOR4D数据集[34]上的离线地面估计地图作为标签,使用ℓ2损失作为目标函数[33]预训练地面估计网络。模型中的其他网络随机初始化。我们使用Adam优化器[11]的随机梯度下降训练模型。04. 实验0在本节中,我们首先在KITTI2D/3D/BEV目标检测基准测试上评估了所提出的方法[8]。我们还提供了详细的消融研究,分析了多传感器融合和多任务学习带来的收益。然后,我们在更具挑战性的TOR4D多类BEV目标检测基准测试上进行评估[34]。最后,我们提供了定性结果和讨论。04.1. KITTI上的2D/3D/BEV目标检测0数据集和评估指标:KITTI的目标检测数据集有7481帧用于训练和7518帧用于测试。我们在“Car”类上评估我们的方法。我们在训练过程中应用与[13]相同的数据增强,对激光雷达点云和相机图像进行随机平移、旋转和缩放。对于多任务训练,我们还利用KITTI深度数据集[28]中的密集深度标签。KITTI的检测指标定义为在精确率-召回率曲线上11个点上平均的平均精度(AP)。对于车辆,评估标准是2D、3D或BEV中的0.7交并比(IoU)。KITTI还根据物体大小和遮挡将标签分为三个子集(简单、中等和困难)。0和截断级别,并按照中等设置中的AP对方法进行排名。0实现细节:我们在自车前方70米和左右40米的范围内检测物体,因为大部分标记的物体都在这个区域内。我们将裁剪后的点云体素化为大小为512×448×32的BEV表示。我们还将不同尺寸的图像中心裁剪为统一尺寸的370×1224。我们在一台4GPU的机器上训练模型,总批量大小为16帧。训练过程中使用在线难例挖掘[27]。我们将初始学习率设置为0.001,并在第30和第45个epoch后将其衰减0.1倍。训练在50个epoch后结束。我们在KITTI上训练了两个模型:一个没有深度补全辅助任务,一个是完整模型。我们将前者提交到测试服务器上,以便与仅在KITTI目标检测数据集上训练的其他方法进行公平比较。我们在消融研究中评估完整模型,以展示深度补全和密集融合带来的性能提升。0评估结果:我们在表1中与先前发布的最先进检测器进行比较,结果显示我们的方法在所有2D、3D和BEV检测任务中都大幅优于竞争对手。在2D检测中,我们在困难设置中的平均精度(AP)上超过了最佳图像检测器RRC [20]1.1%,同时速度提高了45倍。需要注意的是,我们只使用了一个小的ResNet-18网络作为图像流主干网络,这表明2D检测从利用LiDAR传感器和3D推理中获益很多。在BEV检测中,我们在中等设置中的平均精度(AP)上超过了最佳检测器HDNET [33] 0.9%,后者也利用了地面估计。73510模型多传感器多任务2D AP(%)3D AP(%)BEV AP(%)0pt roi map dep depf easy mod. hard easy mod. hard easy mod. hard0仅LiDAR 93.44 87.55 84.32 81.50 69.25 63.55 88.83 82.98 77.260+图像 � +2.95 +1.97 +2.76 +4.62 +5.21 +3.35 +0.70 +2.39 +1.25 +地图 � � +3.06 +2.20 +3.33 +5.24 +7.14 +4.56 +0.36 +3.77+1.59 +细化 � � � +3.94 +2.71 +4.66 +6.43 +8.62 +12.03 +7.00 +4.81 +2.12 +深度 � � � � +4.69 +2.65 +4.64 +6.34 +8.64 +12.06 +7.74+5.16 +2.260完整模型 � � � � � +4.61 +2.67 +4.68 +6.40 +8.61 +12.02 +7.83 +5.27 +2.340表2. 在KITTI目标检测基准(汽车)训练集上进行四折交叉验证的消融研究。pt:点对点特征融合。roi:ROI对特征融合。map:在线地图。dep:深度补全。depf:使用估计的密集深度进行密集融合。0距离(米)0(a)蓝色:原始物体位置;红色:相对于地面的位置。0(b)深度补全有助于在长距离处密集化LiDAR点。0KITTI:50米范围,20个点,~20像素高度TOR4D:80米范围,6个点,~45像素高度0Z(米)0图5. 目标检测从地面估计和深度补全中受益。0改进主要来自多传感器融合。在最具挑战性的3D检测任务中(需要0.7的3DIoU),我们比竞争对手取得了更大的增益。在中等设置中,我们超过了最佳检测器SECOND [32]的3.09%AP,并在中等设置中超过了之前最佳的多传感器检测器AVOD-FPN [12]的4.87%AP。我们认为这种巨大的增益主要来自完全融合的特征表示和用于精确定位的ROI特征提取。0消融研究:为了分析多传感器融合和多任务学习的效果,我们在KITTI训练集上进行了消融研究。我们使用四折交叉验证,并将整个训练集的评估结果累积起来。这样可以产生稳定的评估结果,以进行公平比较。我们在表2中展示了消融研究的结果。我们的基准模型是一个单次LiDAR检测器。添加图像流与点对点特征融合在3D检测中带来了超过5%的AP增益,可能是因为图像特征在Z轴上提供了与BEV表示的LiDAR点云相辅相成的信息。地面估计在中等设置中分别提高了3D和BEV检测1.9%和1.4%的AP。这种增益表明在线地图提供的几何地面先验非常有帮助。0模型 车辆 行人 自行车0AP 0.5 AP 0.7 AP 0.3 AP 0.5 AP 0.3 AP 0.50基准模型 95.1 83.7 88.9 80.7 72.8 58.0 +深度补全 95.684.5 88.9 81.2 74.3 62.2 +深度补全+密集融合 95.7 85.489.4 81.8 76.3 63.10表3.在TOR4D基准测试上进行多任务学习的BEV目标检测的消融研究。基准检测器基于[13],输入中添加了多次扫描的LiDAR和HD地图以获得更好的性能。dep:深度补全。depf:使用估计的密集深度进行密集融合。0在长距离检测中(如图5a所示),我们的3DLiDAR观测非常稀疏。添加ROI-wise特征融合的细化模块在所有三个任务上都带来了一致的改进,这纯粹来自于更精确的定位。这证明了所提出的面向方向的ROI特征提取的有效性。最后,在BEV检测中,模型通过更好的特征表示和密集融合从深度补全任务中获得了进一步的好处,这表明深度补全在BEV空间中提供了互补的信息。在KITTI数据集上,使用估计的深度进行密集点对点融合并没有带来太大的收益。我们推测这是因为在KITTI数据集中,拍摄的图像在长距离处的分辨率与LiDAR相当(如图5b所示)。因此,图像特征并没有太多的提升空间。然而,在TOR4D基准测试中,我们拥有更高分辨率的相机图像,我们将在下一节中展示深度补全不仅通过多任务学习,而且通过密集特征融合来提供帮助。04.2. TOR4D上的BEV目标检测0数据集和度量标准:TOR4DBEV目标检测基准[34]包含超过5,000个视频片段,每个片段的持续时间约为25秒。为了生成训练和测试数据集,我们分别以1 Hz和0.5Hz的频率从不同场景中采样视频片段,导致约100,000个训练帧和约6,000个测试帧。为了验证深度补全在改善目标检测中的有效性,我们使用由长焦镜头相机拍摄的图像,这些图像在长距离上提供更丰富的信息(如图5b所示)。我们在多类BEV目标检测上进行评估(即73520图6. KITTI基准上3D目标检测(汽车)的定性结果。我们用绿色绘制对象标签,用红色绘制我们的检测结果。0车辆,行人和自行车)与自车的距离范围为100米。我们使用不同IoU阈值的AP作为多类目标检测的度量标准。具体而言,我们查看车辆的0.5和0.7IoU,行人和骑自行车的0.3和0.5 IoU。0评估结果:我们在TOR4D数据集上重新生成了先前的最先进的检测器ContFuse[13]。为了进一步提高检测性能,我们进行了两个修改。首先,我们按照FAF[16]的方法将多次扫描的LiDAR点云在BEV表示中进行融合。其次,按照HDNET[33]的方法,我们将语义和几何HD地图先验信息纳入到检测器中。我们将改进的ContFuse检测器作为基准,并在其之上应用提出的深度补全和密集融合。如表3所示,深度补全任务在两个方面有所帮助:多任务学习和密集特征融合。前者使骑自行车的AP绝对增益提高了4.2%。由于数据集中自行车的标签最少,额外的多任务监督特别有帮助。在估计深度的密集融合方面,车辆的性能在0.7IoU的相对误差减少(即1-AP)方面提高了超过5%。这种增益的原因可能是与其他两个类别相比,车辆接收到了更多的额外特征融合。04.3. 定性结果和讨论0我们在KITTI基准上展示了所提出的检测器的定性3D目标检测结果,如图6所示。所提出的检测器能够对高度遮挡或远离自车的车辆进行高质量的3D检测。我们的一些检测结果是KITTI数据集中未标记的汽车。以前的工作[5,12]通常遵循最先进的2D检测框架(如两阶段FasterRCNN[22])来解决3D检测。然而,我们认为这可能不是最优的解决方案。使用数千个预定义的锚点,特征提取既0慢而不准确。相反,我们表明通过在BEV空间中检测3D物体,我们可以通过网络的单次传递(如表2中的无修正模型变体所示)产生高质量的3D检测,前提是我们通过密集融合完全融合多传感器特征图。级联方法[17,6]假设2D检测比3D检测更好解决,因此使用2D检测器生成3D提议。然而,我们认为3D检测实际上比2D更容易。因为我们在3D度量空间中检测物体,所以我们不必处理2D中可能出现的尺度变化和遮挡推理问题。我们的模型使用预训练的ResNet-18作为图像主干网络,并通过数千帧进行训练,超过了使用两个数量级更多的训练数据(即COCO数据集[15])的F-PointNet[17]在KITTI2D检测的困难设置中的AP超过7%。多传感器融合和多任务学习高度交织在一起。在本文中,我们提供了一种将它们在同一个框架下结合在一起的方法。在提出的框架中,多传感器融合有助于学习更好的特征表示以解决多个任务,而不同的任务反过来提供不同类型的线索,使特征融合更深入和丰富。05. 结论0我们提出了一个多任务多传感器检测模型,共同推理2D和3D物体检测,地面估计和深度补全。我们应用点对点和ROI对特征融合,实现全面的多传感器融合,而多任务学习提供了额外的地图先验和几何线索,实现更好的表示学习和更密集的特征融合。我们在KITTI和TOR4D基准测试中验证了所提出的方法,并在所有检测任务中大幅超越了现有方法。未来,我们计划扩展我们的多传感器融合方法,利用其他传感器,如雷达,以及时间信息。[15] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C LawrenceZitnick. Microsoft coco: Common objects in context. InECCV, 2014. 8[17] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas JGuibas. Frustum pointnets for 3d object detection from rgb-ddata. In CVPR, 2018. 1, 2, 6, 873530参考文献0[1] Jorge Beltran, Carlos Guindel, Francisco Miguel Moreno,Daniel Cruzado, Fernando Garcia,和Arturo de la Escalera. Birdnet:一种基于激光雷达信息的3D物体检测框架。在ITSC,2018年。 50[2] Xiaozhi Chen, Kaustav Kundu, Ziyu Zhang, Huimin Ma,Sanja Fidler,和Raquel Urtasun.用于自动驾驶的单目3D物体检测。在CVPR,2016年。 1 , 20[3] Xiaozhi Chen, Kaustav Kundu, Yukun Zhu, Andrew GBerneshawi, Huimin Ma, Sanja Fidler,和Raquel Urtasun.用于准确物体类别检测的3D物体提议。在NIPS,2015年。 2 , 50[4] Xiaozhi Chen, Kaustav Kundu, Yukun Zhu, Huimin Ma,Sanja Fidler,和Raquel Urtasun.使用立体影像的3D物体提议以实现准确的物体类别检测。在PAMI,2018年。 10[5] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li,和Tian Xia.用于自动驾驶的多视角3D物体检测网络。在CVPR,2017年。 1 , 2 , 6 , 80[6] Xinxin Du, Marcelo H Ang Jr, Sertac Karaman,和DanielaRus. 用于车辆3D检测的通用流程。在ICRA,2018年。 1 , 80[7] Liangji Fang, Xu Zhao,和Shiquan Zhang.基于移动的单次检测器的小目标敏感检测。多媒体工具和应用,2018年。 60[8] Andreas Geiger, Philip Lenz,和Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准套件。在CVPR,2012年。 2 , 60[9] Kaiming He, Georgia Gkioxari, Piotr Doll´ar,和Ross Gir-shick. Mask r-cnn. 在ICCV,2017年。 40[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren,和Jian Sun.深度残差学习用于图像识别。在CVPR,2016年。 30[11] Diederik Kingma和Jimmy Ba. Adam:一种用于随机优化的方法。在ICLR,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功