面向自动驾驶的多视图三维物体检测网络

133 浏览量更新于2023-10-16 收藏 1.52MB PDF 举报

自动驾驶

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1907面向自动驾驶的多视图三维物体检测网络清华大学电子工程系1，百度公司2，清华大学电子工程系1，清华大学电子工程系2，清华{chenxz12@mails.，mhmpub@} tsinghua.edu.cn，{wanji，libo24，xiatian}@ baidu.com摘要本文针对自动驾驶场景中的高精度三维物体检测问题我们提出了多视图3D网络（MV3D），这是一个将LIDAR点云和RGB图像作为输入并预测面向3D边界框的传感器融合框架。我们使用紧凑的多视图表示对稀疏的3D点云进行编码。该网络由两个子网组成：一个用于3D对象建议生成，另一个用于多视图特征融合。建议网络从3D点云的鸟瞰图表示有效地生成3D候选框。我们设计了一个深度融合方案，以结合来自多个视角的区域性特征，并实现不同路径的中间层之间的交互在具有挑战性的KITTI基准测试上的实验表明，在三维定位和三维检测任务上，我们的方法比现有的方法分别提高了25%和30%左右的AP。此外，对于2D检测，我们的方法在基于LIDAR的方法中获得了比现有技术高14.9%的AP。1. 介绍三维物体检测在自动驾驶汽车视觉感知系统中起着重要的作用。现代自动驾驶汽车通常配备有多个传感器，例如LIDAR和摄像头。激光扫描仪具有精确的深度信息的优势，而相机保留了更详细的语义信息。LIDAR点云和RGB图像的融合应该能够实现更高的性能和安全性。本文的重点是三维物体检测利用激光雷达和图像数据。我们的目标是在道路场景中的物体的高精度三维定位和识别。最近的基于LIDAR的方法将3D窗口放置在3D体素网格中以对点云[25，6]进行评分，或者在密集框预测方案中将卷积网络应用于前视点图[16]。基于图像的方法[4，3]通常首先生成3D框建议，然后使用Fast R-CNN [9]管道执行基于区域的识别。基于LIDAR点云的方法通常可以实现更精确的3D位置，而基于图像的方法在2D框评估方面具有更高的精度。[10，7]通过采用早期或晚期融合方案将LIDAR和图像结合用于2D检测。然而，对于更具挑战性的3D对象检测任务，需要设计良好的模型以利用多种模态的强度。本文提出了一种多视图三维物体检测网络（MV3D），它以多模态数据为输入，预测三维空间中物体的完整三维范围利用多模态信息的主要思想是执行基于区域的特征融合。我们首先提出一种多视图编码方案，以获得一个紧凑和有效的表示稀疏的三维点云。如图所示。1、多视角三维检测网络由两部分组成：3D建议网络和基于区域的融合网络。3D建议网络利用点云的鸟瞰图表示来生成高度准确的3D候选框。3D对象建议的好处是它可以投影到3D空间中的任何视图。多视图融合网络通过将3D建议从多个视图投影到特征图来提取区域特征我们设计了一个深度融合的方法，使从不同的观点的中间层的互动。结合丢弃路径训练[14]和辅助损失，我们的方法显示出优于早期/晚期融合方案的性能给定多视图特征重新表示，网络执行定向3D盒回归，预测3D空间中对象的准确3D位置、大小和方向。我们评估了我们的方法在具有挑战性的KITTI [8]目标检测基准上的3D propo- sal生成、3D定位、3D检测和2D检测任务。实验表明，我们的3D提案明显优于最近的3D提案方法3DOP [4]和Mono3D [3]。特别是，只有300个建议，我们获得99.1%和91%的3D召回率在交集超过联盟（IoU）阈值为0.25和0.5，分别。的1908基于区域的融合网络4倍去卷积ROI合并2倍去卷积LIDAR鸟视图转换层（BV）3D建议观鸟建议4倍去卷积前视图建议ROI多类分类器池化MMMMLIDAR前视图（FV）3D框回归器conv层图像建议ROI2x去卷积合并图像（RGB）三维盒回归器对象分类器conv层图1：多视图3D对象检测网络（MV3D）：该网络将LIDAR点云的鸟瞰图和前视图以及图像作为输入。它首先从鸟瞰图中生成3D对象提案深度融合网络用于组合经由针对每个视图的ROI池化获得的逐区域特征融合后的特征用于联合预测目标类别和进行面向3D盒回归。我们的方法的基于LIDAR的变体在3D定位任务中实现了约25%的高精度，在3D对象检测任务中实现了30%的高3D平均精度（AP）在KITTI的硬测试集上，它的2D检测性能也优于所有其他基于LIDAR的方法当与图像结合时，在基于激光雷达的结果上实现了进一步的改进2. 相关工作我们简要回顾了现有的工作，从点云和图像，多模态融合方法和3D对象的建议3D对象检测。点云中的三维物体检测。现有的方法大多采用体素网格表示的方法对三维点云进行滑动SVM [21]和Vote3D[25]在用几何特征编码的3D网格上应用SVM分类器。最近提出的一些方法[22，6，15]改进了3D卷积网络的特征重新呈现，但这需要昂贵的计算。除了3D体素表示，VeloFCN [16]将点云投影到前视图，获得2D点图。他们在2D点图上应用完全卷积网络，并从卷积特征图中密集地预测3D框[23，17，11]研究用于3D对象分类的点云的体积和多视图表示。在这项工作中，我们编码的三维点云与多视图的特征映射，使基于区域的多模态融合表示。图像中的3D物体检测。 3DVP [27]介绍3D体素模式，并采用一组ACF检测器进行2D检测和3D姿态估计。3DOP [4]从立体图像重建深度，并使用能量最小化方法生成3D框建议，这些建议被馈送到R-CNN [9]管道进行对象识别。虽然Mono3D [3]与3DOP共享相同的管道，但它从单目图像中生成3D提案。[30，31]介绍了使用3D线框模型的对象的详细几何表示。为了结合时间信息，一些工作[5，20]结合了来自运动和地面估计的结构，以将2D检测框提升到3D边界框。基于图像的方法通常依赖于准确的深度估计或地标检测。我们的工作展示了如何结合LIDAR点云来改进3D定位。多模态融合在自动驾驶的背景下，只有少数工作存在利用多模态数据。[10]结合图像，深度和光流使用混合专家框架进行2D行人检测。[7]在早期阶段融合RGB和深度图像，并训练基于姿势的分类器进行2D检测。在本文中，我们设计了一种受Frac-talNet [14]和Deep-Fused Net [26]启发的深度融合方法。在FractalNet中，一个基本模块被迭代重复以构建一个具有指数增长路径的网络。类似地，[26]通过结合浅层和深层子网络来构建深层融合网络。我们的网络与它们的不同之处在于，每个列使用相同的基础网络，并添加辅助路径和正则化损失。1909日志（64）高度距离高度图密度强度强度(a) 鸟瞰图2：MV3D网络的输入功能。3D对象建议类似于2D对象建议[24，32，2]，3D对象建议方法生成一小组3D候选框，以便覆盖大多数在3D空间中的物体。为此，3DOP [4]设计了立体点云中的一些深度特征，以对一大组3D候选框进行评分。Mono3D [3]利用地平面先验并利用一些分割特征从单个图像生成3D建议。3DOP和Mono3D都使用手工板条箱功能。深度滑动形状[22]利用了更强大的深度学习功能。然而，它在3D体素网格上操作，并使用计算上昂贵的3D卷积。我们提出了一种更有效的方法，通过引入3. MV3D网络MV3D网络采用3D点云的多视图表示它首先从鸟瞰图中生成3D对象建议，并通过基于区域的表示深度融合多视图特征。融合的特征用于类别分类和定向3D盒回归。3.1. 3D点云表示现有工作通常将3D LIDAR点云编码为3D网格[25，6]或前视图地图[16]。虽然3D网格表示保留了点云的大部分原始信息，但它通常需要更复杂的计算来进行后续的特征提取。我们提出了一个更紧凑的表示投影三维点云的图2可视化点云表示。鸟瞰视图表示。鸟瞰我们将投影点云离散成一个2D网格，重解为0.1m。对于每个单元格，高度特征被计算为单元格中的点的最大高度。为了对更详细的高度信息进行编码，将点云等分为M个切片。针对每个切片计算高度图，因此我们获得M个高度图。强度特征是每个单元中具有最大高度的点的反射率值。点云密度指示每个单元格中的点数。为了规范化特征，将其计算为min（1. 0，log（N+1）），其中N是单元中的点的数量。注意，针对整个点云计算强度和密度特征，而针对M个切片计算高度特征，因此总体上鸟瞰前视图表示。前视图表示为鸟瞰图表示提供补充信息。由于LIDAR点云非常稀疏，因此将其投影到图像平面中会产生稀疏的2D点地图。相反，我们将其投影到圆柱平面上，以生成一个密集的前视图图，如[16]所示。给定3D点p=（x，y，z），其在正视图中的坐标pfv=（r，c）可以使用c=λ atan2（y，x）/λθ] λ√（1）r=λ atan2（z，x2+y2）/λφλ，其中，θ和φ分别是激光束的水平和垂直分辨率我们用三通道特征编码前视图图，三通道特征是高度、距离和强度，如图1B二、3.2. 3D提案网络受区域提议网络（RPN）的启发，该网络已成为最先进的2D对象检测器的关键组件[18]，我们首先设计了一个网络来生成3D对象提议。我们使用鸟瞰图作为输入。在3D对象检测中，鸟瞰图相对于前视图/图像平面具有若干优点。首先，对象在投影到鸟瞰第二，鸟瞰图中的物体占据不同的空间，从而避免了遮挡问题。第三，在道路场景中，由于对象通常位于地平面上并且在垂直位置上具有小的变化，因此鸟瞰图位置对于获得准确的因此，使用显式鸟瞰给我一张鸟瞰图。该网络从一组3D先前盒子中生成3D盒子建议每个3D框1910SCC(a) 早期融合（b）晚期融合MMMM输入中间层输出CM级联元素平均值（c）深度聚变图3：不同融合方案的架构：我们实例化的连接节点在早期/晚期融合与concate- nation操作，和深度融合与元素的平均操作。由（x，y，z，l，w，h）参数化，其是LIDAR坐标系统中的3D框的中心和尺寸（以米为单位）对于每个3D先验框，可以通过区分（x，y，l，w）来获得对应的鸟瞰我们通过在训练集中聚类地面实况对象大小来设计N个3D先验框。在汽车检测的情况下，先前框的（l，w）取{（3. 九，一。6），（1. 0，0。6）}，高度h设定为1.56 m。通过将鸟瞰图锚旋转（x，y）是鸟瞰图特征图中的变化位置设置相机高度和物体高度。我们在建议生成中不做方向回归，而我们将其留给下一个预测阶段。3D框的方向被限制为{0°，90°}，这接近于大多数道路场景对象的实际方向这个简化-阳离子使建议回归的训练更容易。在离散化分辨率为0.1m的情况下，鸟瞰视图中的对象框仅占用5 40像素。检测这种超小物体仍然是深度网络的一个难题。一个可能的解决方案是使用更高的分辨率的输入，然而，这将需要更多的计算。我们选择特征图上采样，如[1]中所示。我们在建议网络中的最后一个卷积层之后使用2x双线性上采样在我们的实现中，前端卷积仅进行三个池化操作，即，8倍下采样。因此，结合2x反卷积，馈送到建议网络的特征图相对于鸟瞰图输入被4x下采样我们做3D框回归通过倒退至t=（x，y，z，l，w，h），类似于RPN [18]。（x，y，z）是由锚标准化的中心偏移尺寸，和（l，w，h）是计算为∆s=logsGT得双曲余切值.∈ {l，w，h}.我们使用多任务锚损失同时分类对象/背景和做3D盒回归。特别地，我们使用类熵来处理以下情况下将忽略背景锚点图4：基于区域的融合网络的训练策略：在训练过程中，添加底部三条路径和损失以正则化网络。辅助层与主网络中的相应层共享权重计算盒回归损失。在训练期间，我们计算锚点和地面实况鸟瞰图框之间的IoU重叠。如果锚的重叠大于0.7，则锚被认为是正的，如果重叠小于0.5，则锚被认为是负的。将忽略其间有重叠的定位点。由于LIDAR点云是稀疏的，这会导致许多空锚点，我们在训练和测试过程中删除所有的空锚点，以减少计算量。这可以通过计算点占用图上的积分图像来实现。对于最后一个卷积特征图的每个位置处的每个非空锚点，网络生成3D框。为了减少冗余，我们在鸟瞰图框上应用非最大压缩（NMS）与[22]不同的是，我们没有使用3D NMS，因为对象应该在地平面上占据不同的空间。对于NMS，我们使用0.7的IoU阈值。前2000个盒子在训练中保留，而在测试中，我们只使用300个盒子。3.3. 基于区域的融合网络我们设计了一个基于区域的融合网络，有效地结合功能，从多个视图，共同分类对象的建议和面向3D盒回归。多视图ROI池。由于来自不同视图/模态的特征通常具有不同的分辨率，因此我们为每个视图使用ROI池[9]以获得相同长度的特征给定生成的3D方案，我们可以将它们投影到3D空间中的任何视图。在我们的例子中，我们将它们投影到三个视图，即，鸟瞰图（BV）、前视图（FV）和图像平面（RGB）。给定一个3D建议p3D，我们通过以下方式获得每个视图上的ROI：ROIv=T3D→v（p3D），v∈ { BV， FV， RGB}（2）多模式输入捆绑重量多任务损失SoftmaxMMMM3D框回归Softmax +3DBoxReg.Softmax+3DBoxReg.Softmax+3DBoxReg.辅助路径/损耗1911L1l ll10.80.60.40.210.80.60.40.210.80.60.40.200 0.2 0.4 0.6 0.81IoU重叠阈值0101 102103#提案0101 102103#提案图5：3D边界框调用：从左至右：使用300个建议的召回与IoU，分别在IoU阈值为0.25和0.5时召回与#建议。在KITTI验证集的中等数据上评价召回率。其中T3D→v分别表示从LIDAR坐标系到鸟瞰给定来自每个视图的前端网络的输入特征映射x，我们通过ROI池化获得固定长度的特征fvfv= R（x，ROI v），v ∈ {BV，FV，RGB}.（三）深度融合。为了组合来自不同特征的信息，先前的工作通常使用早期融合[1]或晚期融合[22，12]。受[14，26]的启发，我们采用了深度融合方法，分层融合多视图特征我们的深度融合网络和早期/晚期融合网络的架构的比较如图所示。3.第三章。对于具有L层的网络，早期融合将特征{fv}从输入阶段的多个视图fL=HL（HL−1（···H1（fBVfFVfRGB）（4）{H，l，l = 1，···，L}是特征变换函数，并且R是连接操作（例如，级联、求和）。相比之下，后期融合使用单独的子网络来学习特征变换，并在预测阶段组合它们的输出：定向3D盒回归给定多视图网络的融合特征，我们从3D建议回归到定向3D盒。特别地，回归目标是3D盒的8个角：t=（？x0，···，？x7，？y0，···，？y7，？z0，···，？z7）。它们被编码为通过提议框的对角线长度归一化的角偏移。尽管有这样一个24维矢量表示在表示定向3D框时是冗余的，我们发现这种编码方法比中心和大小编码方法工作得更好请注意，我们的3D框回归与[ 22 ]不同，[ 22]回归到轴对齐的3D框。在我们的模型中，可以从预测的3D盒角计算对象的方向。我们使用多任务损失来联合预测对象类别和定向3D框。与建议网络中一样，类别损失使用交叉熵，3D框损失使用平滑的熵1。在训练期间，基于桥梁的眼睛视图框的IoU重叠来确定正/负ROI如果鸟瞰图IoU重叠高于0.5，则3D投影被认为是正的，否则为在推理过程中，我们在3D包围盒回归后对3D盒子应用NMS。我们将3D框投影到鸟瞰视图以计算它们的IoU重叠。我们使用0.05的IoU阈值来删除冗余框，这确保了对象f=（HBV（···HBV（f）））不能在鸟瞰图中占据相同的空间LL1BV（HFV（···HFV（fFV）（五）网络正规化我们采用两种方法，（HRGB（···HRGB（fRGB）正则化基于区域的融合网络：落轨列车L1[14 ]第14话，一场意外。对于每一次迭代，我们rand-为了使来自不同视图的中间层的特征之间能够进行更多的交互，我们设计了以下深度融合过程：f 0 =fBV B.F.V.RGBfl=HBV（fl−1）<$HFV（fl−1）<$HRGB（fl−1），（6）l= 1，···，L我们使用元素平均值进行深度融合的连接操作，因为它在与丢弃路径训练结合时更灵活[14]。仅以50%的概率选择进行全局丢弃路径或局部丢弃路径。如果选择全局放置路径，则以相等的概率从三个视图中选择单个视图。如果选择本地丢弃路径，则以50%的概率随机丢弃输入到每个连接节点的路径。我们确保每个连接节点至少有一个输入路径被保留。为了进一步加强每个视图的表示能力，我们向网络添加辅助路径和损耗。如图4，辅助路径具有与主网络相同的层数。辅助路径中的每个层与3DOPMono3D我们3D莫欧OP三号水D3D莫欧OP三号水D1912方法数据IoU=0.5IoU=0.7容易中度硬容易中度硬Mono3D [3]单30.522.3919.165.225.194.133DOP [4]立体声55.0441.2534.5512.639.497.59VELOFCN [16]LiDAR79.6863.8262.8040.1432.0830.47我们的（BV + FV）LiDAR95.7488.5788.1386.1877.3276.33我们的（BV+FV+RGB）LIDAR+Mono96.3489.3988.6786.5578.1076.67表1：3D定位性能：KITTI验证集上鸟瞰视图框的平均精度（APloc）（%）方法数据IoU=0.25IoU=0.5IoU=0.7容易中度硬容易中度硬容易中度硬Mono3D [3]单62.9448.242.6825.1918.215.522.532.312.313DOP [4]立体声85.4968.8264.0946.0434.6330.096.555.074.1VELOFCN [16]LiDAR89.0481.0675.9367.9257.5752.5615.2013.6615.98我们的（BV+FV）LiDAR96.0388.8588.3995.1987.6580.1171.1956.6055.30我们的（BV+FV+RGB）LIDAR+Mono96.5289.5688.9496.0289.0588.3871.2962.6856.56表2：3D检测性能：KITTI验证集上3D盒的平均精度（AP3D）（%）主网络我们使用相同的多任务损失，即分类损失加上3D盒回归损失，以反向传播每个辅助路径。我们对所有的损失包括辅助损失进行同等的衡量。辅助路径在推断期间被移除3.4. 执行网络架构。在我们的多视图网络中，每个视图都具有相同的架构。基础网络建立在16层VGG网络[19]上，并进行了以下修改：• 信道减少到原来网络的一半。• 为了处理超小的对象，我们使用特征近似来获得高分辨率的特征图。按面值-特别地，我们在将最后一个卷积特征图馈送到3D建议网络之前插入2x双线性上采样层。类似地，我们在BV/FV/RGB分支的ROI池化层之前插入4x/4x/2x上采样层。• 我们删除了原始VGG网络中的第四个池化操作，因此我们的网络的卷积部分-工作继续进行8倍下采样。• 在多视点融合网络中，我们在原有的fc6和fc7层基础上增加了一个额外的全连接层fc8我们通过从ImageNet上预训练的VGG-16网络中采样权重来初始化参数。尽管我们的网络有三个分支，但参数数量约为在Titan X GPU上，一张图像的网络推理时间约为0.36s。输入表示。在KITTI的情况下，它只提供前视图中对象的注释（约90mm视场），我们使用[0，70.4]×[-40，40]米范围内的点云。我们还去除了投影到图像平面时超出图像边界的点。对于鸟瞰设置为0.1m，因此鸟瞰图输入的大小为704×800。由于KITTI使用64光束Velodyne激光扫描仪，我们可以获得64×512的前视点图。RGB图像被放大，以便最短的尺寸是五百训练网络以端到端的方式训练。对于每个小批次，我们使用1个图像并对128个ROI进行采样，大致保持25%的ROI为阳性。我们使用SGD训练网络，学习率为0.001，迭代100K。然后我们将学习率降低到0.0001，并训练另外20K次迭代。4. 实验我们在具有挑战性的KITTI对象检测基准[8]上评估了我们的MV3D网络。该数据集提供了7，481张用于训练的图像和7，518张用于测试的图像。由于测试服务器只评估2D检测，我们按照[4]将训练数据分为训练集和验证集，每个集大约包含整个训练数据的一半我们对验证集进行3D框评估。我们将实验集中在汽车类别上，因为KITTI为我们基于深度网络的方法提供了足够的汽车实例。根据KITTI设置，我们对三种不同的治疗方案进行了评价：易、中、硬。指标. 我们使用3D框召回作为度量来评估3D对象提案。与2D盒召回[13]不同，我们计算两个长方体的IoU重叠。注意，长方体不需要与轴线对齐，即，它们可以是定向的3D盒子。在我们的评估中，我们将3DIoU阈值分别设置为0.25和0.5。对于最终的3D检测结果，我们使用两个度量来衡量3D定位和3D包围盒检测的准确性对于3D定位，我们将3D框投影到地平面（即，鸟瞰1913数据AP3D（IoU=0.5）AP锁定（IoU=0.5）AP2D（IoU=0.7）容易中度硬容易中度硬容易中度硬早期融合93.9287.6087.2394.3188.1587.6187.2985.7678.77后期融合93.5387.7086.8893.8488.1287.2087.4785.3678.66不带辅助装置的深度融合。损失94.2188.2987.2194.5788.7588.0288.6485.7479.06Deep Fusion w/ aux.损失96.0289.0588.3896.3489.3988.6795.0187.5979.90表3：不同融合方法的比较：在KITTI确认集上评价性能。表4：多视图特征的消融研究：在KITTI确认集上评价了消融。视图框。我们计算平均精度（APLOC），bird's eye视图box框.对于3D边界框检测，我们还使用平均精度（AP3D）指标来评估完整的3D边界框。注意，鸟瞰图框和3D框都是定向的，因此在这两个度量中隐含地考虑对象定向。我们还通过将3D框投影到图像平面来评估2D检测的性能。平均精度（AP2D）也被用作度量。遵循KITTI约定，对于2D框，IoU阈值被设置为0.7。基线由于这项工作的目的是3D对象检测，我们主要将我们的方法与基于 LIDAR 的方法 VeloFCN [16] ，Vote3Deep [6]和Vote3D [25]以及基于图像的方法3DOP[4]和Mono3D [3]进行比较。为了公平比较，我们关注我们的方法的两个变体，即，使用鸟瞰图和前视图作为输入的纯基于LIDAR的变体对于3D框评估，我们与VeloFCN、3DOP和Mono3D进行比较，因为它们提供了验证集的结果对于没有公开结果的Vote3Deep和Vote3D，我们只在测试集上进行2D检测的比较3D建议召回。 3D框召回如图所示。五、我们使用300个专业人员将召回率绘制为IoU阈值的函数我们的方法在所有IoU阈值上显著优于3DOP [4]和Mono3D[3]。图5还示出了分别在IoU阈值为0.25和0.5的情况下作为建议数的函数的3D召回。仅使用300个建议，我们的方法在IoU阈值为0.25时获得99.1%的召回率，在IoU为0.5时获得91%的召回率。相比之下，当使用0.5的IoU时，3DOP可以实现的最大召回率仅为73.9%。大的余量表明我们的基于激光雷达的方法优于基于图像的方法。表5：2D检测性能：KITTI测试集上汽车类别的平均精度（AP 2D）（%）。方法第一组直接优化2D盒，第二组优化3D盒。3D定位。我们使用0.5和0.7的IoU阈值进行3D定位评估。表1显示了KITTI验证集上的AP位置。正如预期的那样，所有基于LIDAR的方法都比基于立体的方法3DOP[4]和单目方法Mono3D [3]表现得更好。在基于LIDAR的方法中，我们的方法（BV+FV）优于VeloFCN [16]在IoU阈值为0.5时，AP锁定率为25%。当使用IoU=0.7作为标准时，我们的改进甚至更大，在轻松，适度和严格的制度下实现了 45% 的 AP LOC 。通过与RGB图像相结合，我们的AP-进一步改进了方法。我们在图1B中可视化一些示例的定位结果。六、3D物体检测。对于3D重叠标准，我们关注基于LIDAR的方法的3D IoU为0.5和0.7由于这些IoU阈值对于基于图像的方法相当严格，因此我们也使用0.25的IoU进行评估。如表2所示，当使用0.5的IoU时，我们的数据AP3D（IoU=0.5）AP锁定（IoU=0.5）AP2D（IoU=0.7）容易中度硬容易中度硬容易中度硬FV67.656.3049.9874.0262.1857.6175.6161.6054.29RGB73.6868.8661.9477.3071.6864.5883.8076.4573.42BV92.3085.5078.9492.9086.9886.1485.0076.2174.80FV+RGB77.4171.6364.3082.5775.1966.9686.3477.4774.59FV+BV95.1987.6580.1195.7488.5788.1388.4178.9778.16BV+RGB96.0988.7080.5296.4589.1980.6989.6187.7679.76BV+FV+RGB96.0289.0588.3896.3489.3988.6795.0187.5979.90方法数据容易Mod.硬更快的R-CNN [18]单86.71 81.84 71.123DOP [4]立体声93.04 88.64 79.10Mono3D [3]单92.33 88.66 78.96SDP+RPN [29，18]单90.14 88.85 78.38美国有线电视新闻网[1]单90.03 89.02 76.11SubCNN [28]单90.81 89.04 79.27[25]第二十五话LiDAR56.80 47.99 42.57VELOFCN [16]LiDAR71.06 53.59 46.92Vote3Deep [6]LiDAR76.79 68.24 63.23我们的（BV+FV）LiDAR87.00 79.24 78.16我们的（BV+FV+RGB）LIDAR+Mono 89.11 87.67 79.541914[16]第十六届中国国际纺织品展览会图6：3D检测结果的定性比较3D框被投影到鸟瞰图和图像中AP3D在中等设置。在IoU=0.7的标准下，我们的多模态方法在简单数据上仍然实现了71.29%的AP3D在中等设置中，使用IoU=0.25的3DOP可以实现的最佳AP3D为68.82%，而我们的方法使用IoU=0.5实现了89.05%的AP3D。一些3D检测结果在图1中可视化。六、消融研究。我们首先将我们的深度融合网络与早期/晚期融合方法进行比较。如在文献中通常如表3所示，早期和晚期融合方法具有非常相似的性能。在不使用辅助损失的情况下，深度融合方法实现了比早期和晚期提高融合方法。增加辅助损耗进一步提高了深度融合网络约1%。为了研究来自不同视图的特征的贡献，我们实验了鸟瞰视图（ BV ）、前视图（ FV ）和 RGB 图像（RGB）的不同组合所有变体的3D方案网络都相同。详细比较见表4。如果仅使用单个视图作为输入，则鸟瞰组合两个视图中的任何一个总是比单独的视图更好。这证明了我们的假设，从不同的角度来看，功能是互补的。当融合所有三个视图的特征时，可以实现最佳的总体性能。2D物体检测。最后，我们在KITTI测试集上评估了2D检测性能。结果见表5。在基于LIDAR的方法中，我们的总的在2D检测方面，基于图像的方法通常比基于LIDAR的方法执行得更好。这是因为基于图像的方法直接优化2D框，而基于LIDAR的方法优化3D框。请注意，尽管我们的方法优化了3D盒，但与最先进的2D检测方法相比，它也获得了定性结果。如图6，与基于立体的方法3DOP [ 4 ]和基于LIDAR的方法VeloFCN [ 16 ]相比，我们的方法获得了更准确的物体的3D位置，尺寸和方向。我们建议读者参考补充材料中的许多额外的结果。5. 结论我们提出了一个多视角传感器融合模型的道路场景中的三维目标检测。我们的模型takes激光雷达点云和图像的优势。我们通过生成3D提案并将其投影到多个视图进行特征提取来对齐不同的模态。提出了一种基于区域的融合网络，对多视点信息进行深度融合，并进行面向三维盒回归。我们的方法在KITTI基准[8]上的3D定位和3D检测任务上显著优于现有的基于LIDAR和基于图像的方法。我们从3D检测中获得的2D盒结果也显示出与最先进的2D检测方法相比的竞争性能。鸣谢。本工作得到了国家重点基础研究计划（2005年）的资助. 2016YFB0100900）和NSFC 61171113。1915引用[1] Z.蔡角，澳-地范河，巴西-地Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV，2016年。四、五、七[2] Carreira和C.斯明奇塞斯库Cpmc：使用约束参数最小切割的自动对象分割。PAMI，34（7）：1312-1328，2012. 3[3] X. Chen，K.昆杜Z. Zhang，H.马，S. Fidler和R.乌塔孙。用于自主驾驶的单目3d物体检测。在CVPR，2016年。一二三六七[4] X.Chen ， K.Kundu ， Y.Zhu ，中国茶青冈A.Berneshawi，H.马，S.Fidler和R.乌塔松用于精确对象类别检测的3D对象建议2015年，在NIPS中。一二三六七八[5] V. Dhiman，Q. H. Tran，J. J. Corso，and M. Chandraker一种用于道路场景理解的连续遮挡模型在CVPR中，第4331-4339页，2016年。2[6] M. Engelcke，D.拉奥，D. Zeng Wang，C.喜堂，以及I. 波斯纳Vote3Deep：使用高效卷积神经网络在3D点云中进行快速对象检测。arXiv：1609.06666，2016年。一、二、三、七、八[7] M. Enzweiler和D. M.加夫里拉行人分类的多级专家混合框架。 IEEE Transactions on Image Processing ， 20（10）：2967-2979，2011. 一、二[8] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。一、六、八[9] R.娘娘腔。快速R-CNN。在ICCV，2015年。一、二、四[10] A.冈萨雷斯D. Vazquez、A. Lopez和J.爱情机载物体检测：多通道、多模式、多视角的随机森林本地专家.在IEEE Transactions on Cybernetics，2016年。一、二[11] V. Hegde和R.扎德Fusionnet：使用多种数据表示的3d对象分类。CoRR，abs/1607.05695，2016。2[12] J. Hoffman，S. Gupta和T.达雷尔。通过模态幻觉学习附带信息在CVPR，2016年。5[13] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议？PAMI，2015年。6[14] G. Larsson，M. Maire和G. 沙赫纳洛维奇压裂液：无残差的超深度神经网络。arXiv：1605.07648，2016年。一、二、五[15] B.李用于点云中车辆检测的3D全卷积网络。arXiv：1611.08069，2016年。2[16] B. Li，T. Zhang和T.夏使用全卷积网络的3d激光雷达车辆检测。机器人：科学与系统，2016年。一二三六七八[17] C. R.齐，M. N. H. Su，A.戴，M. Yan和L. Guibas.三维数据上物体分类的视觉和多视角cnn。在CVPR，2016年。2[18] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。2015年，在NIPS中。三、四、七[19] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。载于arXiv：1409.1556，2014年。6[20] S. Song和M. Chandraker道路场景中单目3d定位的联合sfm和检测线索。在计算机视觉和模式识别中，第3734-3742页，2015年。2[21] S. Song和J. Xiao.用于深度图像中的3d对象检测的滑动形状。在ECCV。2014. 2[22] S. Song和J. Xiao. rgb-d图像中非模态3d目标检测的深度滑动形状。在CVPR，2016年。二三四五[23] H. Su、S.Maji、E.Kalogerakis和E. 学习米勒。用于三维形状识别的多视卷积神经网络在ICCV，2015年。2[24] K. Van de Sande，J. Uijlings，T. Gevers和A.史默德斯分割作为对象识别的选择性搜索。见ICCV，2011年。3[25] D. Z.王和我。波斯纳在线点云目标检测中的投票。在Proceedings of Robotics：科学与系统，2015。一、二、三、七[26] J. Wang，Z.Wei，T.Zhang和W.小曾。深熔网arXiv：1605.07716，2016年。二、五[27] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese 用于物体类别识别的数据驱动三维体素模式。CVPR，2015。2[28] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese用于对象建议和检测的子类感知卷积神经网络。在arXiv：1604.04693。2016. 7[29] F. 杨，W.Choi和Y.是林书利用所有层：快速准确的cnn对象检测器，具有尺度相关池和级联拒绝分类器。在CVPR，2016年。7[30] M. Z.齐亚，M。斯塔克湾Schiele和K.辛德勒用于物体识别和建模的详细三维表示。PAMI，2013年。2[31] M. Z.齐亚，M。Stark和K.辛德勒汽车只是3D盒子吗？联合估计多个对象的3D形状在CVPR，第3678-3685页，2014年。2[32] L. Zitnick和P. 娃娃。边框：从边定位对象在ECCV。2014. 3

下载后可阅读完整内容，剩余1页未读，立即下载