伪LiDAR：弥合自动驾驶中3D物体检测的差距

100 浏览量更新于2023-10-19 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

查1来自视觉深度估计的伪LiDAR：弥合自动驾驶三维物体检测中的差距Yan Wang，Wei-Lun Chao，Divyansh Garg，Bharath Hariharan，Mark Campbell，and Kilian Q.温伯格康奈尔大学，伊萨卡，纽约{yw763，wc635，dg595，bh497，mc288，kqw4}@ cornell.edu摘要输入伪激光雷达（鸟瞰）3D目标检测是自动驾驶中的一项重要任务。最近的技术擅长高精度的检测率，提供的3D输入数据是从精确但昂贵的激光雷达技术获得的。到目前为止，基于更便宜的单目或立体图像数据的方法然而，在本文中，我们认为，这不是数据的质量，但它的代表性，占大多数的差异。考虑到卷积神经网络的内部工作原理，我们建议将基于图像的深度图转换为伪LiDAR表示-本质上是模仿LiDAR信号。有了这种表示，我们可以应用不同的现有的基于激光雷达的检测算法。在受欢迎的KITTI基准上，我们的方法在基于图像的性能方面比现有的最先进技术取得了令人印象深刻的改进-将30米范围内物体的检测精度从之前的最先进的22%提高到前所未有的74%。在提交时，我们的算法持有最高的条目KITTI 3D物体检测排行榜的基于立体图像的方法。1. 介绍可靠和强大的3D物体检测是自动驾驶的基本要求之一毕竟，为了避免与行人、骑自行车的人和汽车发生碰撞，车辆必须能够首先检测到它们。现有的算法主要依赖于LiDAR（光探测和测距），它提供周围环境的精确3D点虽然高度精确，但出于多种原因，LiDAR的替代物是可取的。首先，LiDAR价格昂贵，这为自动驾驶硬件带来了巨大的溢价。第二，过度依赖单个传感器是固有的安全风险，并且具有辅助传感器以回退将是有利的图1：来自视觉深度估计的伪激光雷达信号。左上角：KITTI街道场景，在使用LiDAR（红色）和伪LiDAR（绿色）获得的汽车周围叠加边界框左下角：估计视差图。右图：伪LiDAR（蓝色）与LiDAR（黄色）-伪LiDAR点与LiDAR点对齐得非常好。最佳彩色观看（放大查看详细信息。）以防断电。自然的候选者是来自立体或单目相机的图像。光学相机价格非常实惠（比Li-DAR便宜几个数量级），以高帧速率运行，并提供密集的深度图，而不是LiDAR信号固有限制的64或128个稀疏旋转激光束。几个最近的出版物已经探索了用于3D对象检测[5，6，22，30]的单眼和立体深度（视差）估计[13，19，32]然而，迄今为止，主要的成功主要是在补充激光雷达方法。例如，KITTI基准[11，12]上的一种领先算法[17]使用传感器融合将汽车的3D平均精度（AP）从LiDAR的66%提高到LiDAR和单目图像的73%。相比之下，在仅使用图像的算法中，最先进的算法仅实现了10%的AP[30]。对于这种低劣性能的一个直观且流行的解释是基于图像的深度估计的差精度。与LiDAR相比，立体深度估计的误差随深度二次增长然而，由LiDAR和最先进的立体深度估计器[3]生成的3D点云的视觉比较图1）两种数据模态- 即使是遥远的物体。8445深度图8446在本文中，我们提供了一个替代的解释与显着的性能影响。我们认为，立体声和LiDAR之间的性能差距的主要原因不是深度精度的差异，而是基于ConvNet的3D对象检测系统在立体声上操作的3D信息的表示较差的选择。具体而言，LiDAR信号通常表示为3D点云[23]或从自上而下的“鸟瞰图”视角[ 33 ]观察在这两种情况下，物体的形状和大小都是深度不变的。相比之下，基于图像的深度为每个像素密集地估计，并且通常表示为额外的图像通道[6，22，30]，使得远处的物体更小且更难检测。更糟糕的是，该表示中的像素邻域将来自3D空间的遥远区域的点组合在一起。这使得依赖于这些通道上的2D卷积的卷积网络很难在3D中推理和精确定位对象。为了评估我们的索赔，我们介绍了一个两步的方法，基于立体的三维物体检测。我们首先将估计的深度图从立体或单目图像转换为3D点云，我们将其称为伪LiDAR，因为它模仿LiDAR信号。然后，我们利用基于前向LiDAR的3D对象检测流水线[16，23]，我们直接在伪LiDAR表示上进行训练。通过将3D深度表示改变为伪LiDAR，我们获得了基于图像的3D对象检测算法的准确性的前所未有的提高。特别是，在KITTI基准测试中，对于“中等硬度”汽车实例，IoU（交叉对联合）为0.7-官方排行榜中使用的指标-我们在验证集上实现了45.3%的3D AP：相对于先前的基于图像的现有技术的方法几乎有350%的改进。此外，我们将基于立体声和基于激光雷达的系统之间的差距减半。我们评估了立体深度估计和3D物体检测算法的多种组合，并得出了非常一致的结果。这表明我们观察到的收益是由于伪LiDAR表示，并且较少依赖于3D对象检测架构或深度估计技术的创新。总之，本文的贡献是双重的。首先，我们凭经验证明，基于立体和基于激光雷达的3D对象检测之间的性能差距的主要原因不是估计深度的质量，而是其表示。其次，我们提出伪LiDAR作为用于3D对象检测的估计深度的新推荐表示，并表明它导致最先进的基于立体的3D对象检测，有效地使现有技术增加两倍我们的研究结果指出了在自动驾驶汽车中使用立体相机的可能性-可能会大幅降低成本和/或提高安全性。2. 相关工作基于LiDAR的3D物体检测。我们的工作受到3D视觉和基于LiDAR的3D物体检测的最新进展的启发。许多最近的技术使用LiDAR自然地表示为3D点云的事实。例如，截头体PointNet [23]将PointNet [24]应用于来自2D对象检测网络的每个截头体提案。MV3D [7]将LiDAR点投影到鸟瞰图（BEV）和正面视图中，以获得多视图特征。Vox-elNet [34]将3D点编码为体素，并通过3D卷积提取特征。UberATG-Continuous [17]是KITTI基准[12]上的领先算法之一，它执行连续卷积[27]以融合视觉和BEV LiDAR功能。这些算法都是在给定精确三维点坐标的前提下实现的。因此，主要的挑战是预测点标签或绘制3D边界框来定位对象。基于立体和单目的深度估计。基于图像的3D对象检测方法的关键成分是替代LiDAR的可靠深度估计方法这些可以通过单目[10，13]或立体视觉[3，19]获得。这些系统的准确性已经大大提高，因为早期的工作单目深度估计[8，15，26]。最近的算法，如DORN [10]，将多尺度特征与有序回归相结合，以非常低的误差预测像素深度。对于立体视觉，PSMNet [3]应用Siamese网络进行视差估计，然后进行3D卷积进行细化，导致离群值率小于2%。最近的工作已经使这些方法模式有效[28]，使准确的视差估计能够在移动设备上以30 FPS运行。基于图像的3D物体检测。立体和单目深度估计的快速发展表明，它们可以用作基于图像的三维目标检测算法的替代品。这种风格的现有算法主要基于2D对象检测[25]，施加额外的几何约束[2，4，21，29]来创建3D提案。[5，6，22，30]应用基于立体的深度估计以获得每个像素的真实3D坐标。这些3D坐标或者作为额外的输入通道输入到2D检测流水线中，或者用于提取手工制作的特征。虽然这些方法已经取得了显着的进步，国家的最先进的三维物体检测性能落后于基于激光雷达的方法。正如我们在第3节中讨论的，这可能是因为这些方法使用的深度表示。3. 方法尽管基于图像的3D物体识别具有许多优点，但图像和基于LiDAR的AP的最新检测率8447n=1立体/单声道图像深度估计深度图伪激光雷达3D对象检测预测的3D盒子图2：基于图像的3D对象检测的建议管道。给定立体或单目图像，我们首先预测深度图，然后将其反向投影到LiDAR坐标系中的3D点云中。我们将这种表示称为伪LiDAR，并像LiDAR一样处理它-任何基于LiDAR的检测算法都可以应用。接近（见第4.3节表1）。人们很容易将这一差距归因于激光雷达和相机技术之间明显的物理差异及其影响。例如，基于立体的3D深度估计的误差随着对象的深度二次增长，而年龄，如通常所做的[30]，我们可以在左相机的坐标系中导出每个像素（u，v）的3D位置（x，y，z）（深度）z=D（u，v）（2）对于诸如LiDAR的飞行时间（ToF）方法，该关系近似为线性。尽管这些生理上的差异（u-cU）×z（宽度） x=fU（v−cV）×z（三）有助于准确性差距，在本文中，我们声称，很大一部分的差异可以解释的数据（高度）y=、（四）fV而不是其质量或与数据收集相关的基本物理属性。事实上，用于立体深度估计的最近算法可以生成令人惊讶的精确深度图[3]（参见图1）。因此，我们“缩小差距”的方法为此，我们提出了一个两步的方法，首先从立体（甚至单目）图像估计密集像素深度，然后将像素反向投影到3D点云中。通过将此表示视为伪LiDAR信号，我们可以应用任何现有的基于LiDAR的3D对象检测算法。图2描绘了我们的流水线。深度估计。我们的方法是不可知的不同的深度估计算法。我们主要使用立体视差估计算法[3，19]，尽管我们的方法可以很容易地使用单目深度估计方法。立体视差估计算法将从具有水平偏移（即，基线）b，并且输出与两个输入图像中的任一个相同大小的视差图Y。不失一般性，我们假设深度估计算法将左图像Il视为参考，并且在Y中记录每个像素与Ir的水平视差。与左相机的水平焦距fU一起，我们可以通过以下变换导出深度图DD（u，v）=fU× b.（一）Y（ u，v）伪激光雷达生成。代替将深度D作为多个附加通道并入RGB图像，其中（cU，cV）是对应于所述像素的像素位置。fV是相机中心，fV是垂直焦距。通过将所有像素反向投影到3D坐标中，我们得到3D点云{（x（n），y（n），z（n））}N ，其中N 是像素数。这样的点云可以被变换到给定参考视点和观看方向的任何摆线坐标系中我们将得到的点云称为伪LiDAR信号。激光雷达与伪激光雷达。为了最大限度地与现有LiDAR检测管道兼容，我们对伪LiDAR数据应用了由于真正的激光雷达信号只驻留在一定的高度范围内，我们忽略了伪激光雷达点- yond该范围。例如，在KITTI基准测试中，在[33]之后，我们删除了高于虚构LiDAR源（位于自动驾驶汽车顶部）1米的所有点作为大多数感兴趣的对象（例如，汽车和行人）不超过这个高度范围，几乎没有信息损失。除了深度，LiDAR还返回任何测量像素的反射率（在[0，1]内）。由于我们没有这样的信息，我们简单地将每个伪LiDAR点的反射率设置为1.0图1描绘了来自KITTI数据集[11，12]的同一场景的地面实况LiDAR和伪LiDAR点。使用金字塔立体匹配网络（PSMNet）[3]获得深度估计。令人惊讶的是，伪LiDAR点（蓝色）与真实LiDAR点（黄色）对齐得非常好，这与低精度基于图像的深度是较差3D对象检测的主要原因的常见观点形成我们注意到激光雷达可以为一个场景捕获>100，000个然而，LiDAR点沿着几个（通常64或128个）水平方向分布。立体声/单声道深度基于LiDAR的检测8448梁，仅稀疏地占据3D空间。3D物体检测。利用估计的伪LiDAR点，我们可以将任何现有的基于LiDAR的3D物体检测器应用于自动驾驶。在这项工作中，我们考虑那些基于多模态信息（即，单色图像+ LiDAR），因为将原始视觉信息与伪LiDAR数据结合在一起是很自然的。具体来说，我们在AVOD [16]和平截头体PointNet [23]上进行了实验，这是两个排名靠前的算法，在KITTI基准测试中使用开源代码。一般来说，我们区分两种不同的设置：a) 在第一个设置中，我们将伪LiDAR信息视为3D点云。在这里，我们使用平截头体点网络[23]，它将2D对象检测[18]投影到3D平截头体中，然后应用PointNet [24]在每个3D平截头体处提取点集特征。b) 在第二种设置中，我们从鸟瞰图（BEV）查看伪LiDAR信息具体地，将3D信息从自顶向下视图转换为2D图像：宽度和深度成为空间尺寸，高度记录在通道中。AVOD将视觉特征和BEV LiDAR特征连接到3D框建议，然后将两者融合到执行框分类和回归。数据表示很重要。虽然伪LiDAR传递的信息与深度图相同，但我们声称它更适合基于深度卷积网络的3D对象检测要看到这一点，请考虑卷积网络的核心模块：2D卷积。对图像或深度图操作的卷积网络虽然卷积的滤波器可以学习，但中心假设是双重的：（a）图像中的局部邻域具有意义，并且网络应当查看局部块，以及（b）可以以相同的方式对所有邻域进行操作。这些都是不完美的假设。首先，2D图像上的局部如果它们跨越对象边界，则两个像素可以在深度图中彼此相邻地共同定位，但在3D空间中可以非常远。其次，出现在多个深度处的对象投影到深度图中的不同比例一个类似大小的补丁可能只捕捉附近汽车的侧视镜或远处汽车的整个车身。现有的2D对象检测方法难以解决这种故障，并且必须设计新颖的技术，例如特征金字塔[18]来应对这一挑战。相比之下，点云上的3D卷积或鸟瞰视图切片中的2D卷积对物理上靠近在一起的像素进行深度图深度图（卷积）伪激光雷达伪激光雷达（卷积）图3：我们将具有统一内核的单个2D卷积与原始的伪LiDAR表示（左下）相比，在后投影到伪LiDAR中并从鸟瞰图（右下）显示之后，所得到的深度图我们用一种颜色来标记每辆车的位置。这些框是叠加的，并分别包含绿色和青色汽车的所有点除了来自不同高度的像素之外，世界的物理学意味着在特定空间位置处处于不同高度的像素此外，远处的物体和附近的物体都以完全相同的方式处理。因此，这些操作本质上更具物理意义，因此应导致更好的学习和更准确的模型。为了进一步说明这一点，在图1中。3我们做了一个简单的实验。在左列中，我们示出了图像场景的原始深度图和伪LiDAR表示。场景中的四辆汽车以颜色高亮显示。然后，我们在深度图（右上）上使用箱式滤波器执行单个11×11卷积，该卷积与5层3×3卷积的感受域相匹配。然后，我们将得到的（模糊的）深度图转换为伪LiDAR表示（右下）。从图中可以明显看出，这种新的伪LiDAR表示基本上受到模糊效应的影响。这些汽车的伸展远远超出了它们的实际物理比例，这使得基本上不可能精确定位它们。为了更好的可视化，我们添加了包含绿色和青色汽车所有点的矩形卷积之后，两个边界框捕获高度错误的区域。当然，2D卷积网络将学习使用比箱式滤波器更智能的滤波器，但这个例子表明卷积网络可能执行的一些操作可能接近荒谬。4. 实验我们评估3D对象检测与伪激光雷达在不同的设置与不同的方法进行深度估计和对象检测。8449在整个过程中，我们将突出显示使用伪激光雷达获得的结果（蓝色）和使用实际激光雷达获得的结果（灰色）。4.1. 设置数据集。我们在KITTI对象检测基准[11，12]上评估了我们的方法，该基准包含7，481张用于训练的图像和7，518张用于测试的图像。我们遵循Chen等人建议的相同训练和验证分割。[5]，分别包含3，712和3，769张图像对于每个图像，KITTI提供相应的VelodyneLiDAR点云，立体信息的右图像和相机校准矩阵。公制。我们专注于3D和鸟瞰图（BEV）1对象检测，并报告验证集的结果。具体来说，我们专注于我们遵循基准和先前的工作，并报告平均精度（AP），IoU阈值为0.5和0.7。我们将3D和BEV任务的AP分别表示为AP3D和APBEV。请注意，基准测试根据边界框高度和遮挡/截断级别将每个类别划分为三种情况--简单、中等和困难一般来说，简单的情况对应于自车距离30米内的汽车[33]。基线。我们比较MONO3D [4]，3DOP [5]和MLF [30]。第一种是单目的，第二种是立体的. MLF [30]报告了单眼视差[13]和立体视差[19]的结果，我们分别将其表示为MLF-MONO和MLF-STEREO。4.2. 我们的方法详情立体视差估计。我们应用PSMNET [3]、DISP NET [19]和SPS-STEREO[32]来估计密集视差。前两种方法是基于学习的，我们使用已发布的模型，这些模型在SceneFlow数据集[19]上预训练，具有超过30，000对合成图像和密集视差图，并在KITTI立体声2015基准测试的200对训练对上进行微调[12，20]。我们注意到，MLF-STEREO[30]也使用已发布的DISP-NET模型。第三种方法，SPS-STEREO[32]，是非基于学习的，并且已在[5，6，22]中使用。DISPNET有两个版本，不带和带双折射层。我们测试了这两个，并分别将它们表示为 DISPNET-S 和DISPNET-C。在进行这些实验时，我们发现KITTI立体2015的200个训练图像与KITTI对象检测的验证图像也就是说，发布的PSMNEET和DISPNEET模型实际上使用了一些检测的验证图像因此，我们使用场景流训练PSMNET版本，然后对3，712个训练图像进行微调，而不是200个我们得到了伪视差背景1BEV检测任务也称为3D定位。通过将相应的LiDAR点投影到2D图像空间中来获得真实性。我们将此版本表示为PSMN ET。详情见补充材料。表3中的PSMNET训练的结果（在3，712个训练数据上微调）实际上优于PSMNET（在KITTI stereo 2015上微调）。我们将PSMNET训练的准确性提高归因于它是在更大的训练集上训练的。然而，未来的工作，使用立体声的3D对象检测必须知道这种重叠。单目深度估计。我们使用最先进的单眼深度估计器DORN [10]，该估计器由作者在23，488张KITTI图像上训练。我们注意到，这些图像中的一些可能与我们的验证数据重叠以进行检测。尽管如此，我们决定仍然包括这些结果，并相信它们可以作为基于单筒的3D对象检测的上限。然而，未来的工作必须意识到这种重叠.伪激光雷达生成。我们使用提供的校准矩阵将估计的深度图反向投影到Velodyne LiDAR坐标系统中的3D点我们忽略系统中高度大于1的点。3D物体检测。我们考虑两种算法：[23]和AVOD [16]。更具体地，我们应用F-POINTNET-v1和AVOD-FPN。它们都使用来自LiDAR和单目图像的信息。我们在3,712个训练数据上从头开始训练这两个模型，用立体视差估计生成的伪LiDAR数据我们使用已发布代码中提供的超参数。我们注意到，AVOD将图像特定的地平面作为输入。作者提供了用于训练和验证图像的地面实况平面，但没有提供获取它们的过程（对于新图像）。因此，我们在评估期间将RANSAC [9]的直接应用拟合到落入一定道路高度范围内的伪LiDAR点的地平面参数详情见补充材料。4.3. 实验结果我们在表1中总结了主要结果。我们根据输入信号组织方法进行检测。我们的基于伪激光雷达的立体方法大大优于所有基于图像的替代方案。在IoU = 0.7（中等）-用于在KITTI排行榜上排名算法的指标-我们实现了先前最先进技术的两倍性能。我们还观察到，伪激光雷达是适用的，非常有益的两个三维物体检测算法具有非常不同的架构，这表明其广泛的兼容性。一个有趣的比较是使用具有单眼深度（DORN）和立体深度（PSMN ET）的伪LiDAR的方法之间的比较。虽然DORN已经接受了8450表1：KITTI验证集上的3D物体检测结果。我们报告了汽车类别的AP BEV/ AP 3D（%），以平均鸟瞰视图和3D对象框检测的精度。Mono代表单眼。我们使用PSMNETESTA[3]（立体）或DORN [10]（单眼）估计的伪激光雷达的方法是蓝色的。使用LiDAR的方法是灰色的。最好用彩色观看。检测算法输入信号IoU = 0.5IoU = 0.7容易中度硬容易中度硬MONO3D [4]单30.5/25.222.4/18.219.2/15.55.2/2.55.2/2.34.1/2.3[30]第三十话单55.0/47.936.7/29.531.3/26.422.0/10.513.6/5.711.6/5.4AVOD单61.2/57.045.4/42.838.3/36.333.7/19.524.6/17.220.1/16.2F-POINT NET单70.8/66.349.4/42.342.7/38.540.6/28.226.3/18.522.9/16.43DOP [5]立体声55.0/46.041.3/34.634.6/30.112.6/6.69.5/5.17.6/4.1[30]第三十话立体声-53.7/47.4--19.5/9.8-AVOD立体声89.0/88.577.5/76.468.7/61.274.9/61.956.8/45.349.0/39.0F-POINT NET立体声89.8/89.577.6/75.568.2/66.372.8/59.451.8/39.844.0/33.5AVOD [16]LiDAR + Mono90.5/90.589.4/89.288.5/88.289.4/82.886.5/73.579.3/67.1[23]第二十三话LiDAR + Mono96.2/96.189.7/89.386.8/86.288.1/82.682.2/68.874.0/62.0表2：正面和伪LiDAR表示之间的比较。 AVOD将伪LiDAR表示投影到鸟瞰图（BEV）中。我们在IoU = 0.7时报告了中型车类别的APBEV/ AP3D（%）。每列的最佳结果都以粗体显示。结果表明，数据表示是准确性差距的关键贡献者。检测视差表示APBEV/AP3D多边基金[30]DISP NET正面19.5/9.8AVODDISP NET-S伪激光雷达36.3/27.0AVODDISP NET-C伪激光雷达36.5/26.2AVODPSMNET正面11.9/6.6AVODPSMNET伪激光雷达56.8/45.3几乎十倍于PSMNET的图像（其中一些与验证数据重叠），PSMNET的结果占主导地位。这表明，基于立体的检测是一个很有前途的方向，特别是考虑到立体相机的可负担性越来越高。在以下部分中，我们讨论关键观察结果并进行一系列实验以分析通过具有立体视差的伪LiDAR的性能增益。影响的数据表示.当比较我们的结果使用DISPNET-S 或 DISPNET-C 到 MLF-STEREO[30] （它也使用DISPNET作为基础立体声引擎），我们观察到一个大的性能差距（见表）。2）的情况。在IoU = 0的情况下。7，我们在APBEV和AP3D上的表现分别优于MLF-STEREO至少16%和16%。后者相当于160%的相对改善。我们将这种改进归因于我们表示所得到的深度信息的方式。我们注意到，我们的方法和MLF-STEREO [30]都首先将像素深度反向投影到3D点坐标中。MLF-STEREO将每个像素的3D坐标转换为正面视图中的附加特征图。然后将这些映射与RGB 通道级联，作为基于Faster-RCNN [25]的修改后的2D对象检测流水线的输入正如我们所指出的耳朵-这有两个问题。首先，远处的物体变得更小，检测小物体是一个已知的难题[18]。其次，虽然沿着图像的高度和宽度执行局部计算（如卷积或ROI池化）对于2D对象检测是有意义的，但是它将在具有在3D中相距很远的像素的2D像素邻域上图（3）第三章。相比之下，我们的方法将这些坐标视为伪LiDAR信号，并应用PointNet [24]（在F-POINTNET中）或在BEV投影上使用卷积网络（在AVOD中）。这引入了深度的不变性此外，这些表示中的卷积和池化操作将物理上邻近的点放在一起。为了进一步控制MLF-STEREO和我们的方法之间的其他差异，我们消融我们的方法以使用与 MLF-STEREO相同的正面深度表示。AVOD将正面图像的信息与BEV LiDAR特征融合。我们修改算法，遵循[6，30]，以生成五个前视图特征图，包括3D像素位置，视差和到相机的欧氏距离。我们将它们与RGB通道连接起来，同时忽略AVOD中的BEV分支，使其完全依赖于前视图分支。（我们不做任何额外的架构更改。）表2中的结果揭示了正面和伪LiDAR结果之间的惊人差距。我们发现，正面的方法与推断对象的深度斗争，即使当五个额外的地图提供了足够的三维信息。同样，这可能是因为2d卷积将来自遥远深度的像素放在一起，使得精确定位变得困难。该实验表明，精度提高的主要来源确实是伪LiDAR表示。立体视差估计精度的影响。我们比较了PSMNET [3]和DISP NET [19]基于伪激光雷达的检测精度。KITTI排行榜上8451表3：使用伪LiDAR的立体显示和3D对象检测算法的不同组合的比较。我们报告了IoU中型车类别的APBEV/AP3D（%）= 0.7。每列的最佳结果以粗体显示。视差检测算法AVODF-POINTNETDISP NET-S36.3/27.031.9/23.5DISP NET-C36.5/26.237.4/29.2PSMNET39.2/27.433.7/26.7PSMNET56.8/45.351.8/39.8Stereo 2015，PSMNET实现了1.86%的视差误差，远远优于DISP NET-C的4.32%的误差。如表3所示，视差估计的准确度不一定与对象检测的准确度相关。F-POINT NET与DISP NET-C的性能甚至超过F-POINT NET与PSMNET。这可能是由于两个原因。首先，视差精度可能不反映深度精度：相同的视差误差（在像素上）可以导致取决于像素的真实深度的显著不同的深度误差，根据等式（1）：（一）.其次，不同的检测算法以不同的方式处理3D点：AVOD将点量化为体素，而F-P OINT N ET直接处理它们，并且可能容易受到噪声的影响。到目前为止，最准确的检测结果是由PSMN ET训练器获得的，我们在自己的KITTI训练集上从头开始训练。这些结果似乎表明，通过整个管道的端到端培训，可能会有显著的进一步改进。我们提供了使用SPS-STEREO[32]的结果，并在补充材料中对深度估计进行了与LiDAR信息的比较。我们的方法显着提高了基于立体的检测精度。一个关键的问题是，伪LiDAR检测结果与基于真实LiDAR信号的检测结果有多接近。在表1中，当实际 LiDAR 信号可用时，我们进一步比较AVOD和F-POINTNET为了公平比较，我们重新训练了两个模型。对于IoU = 0的简单情况。5，我们的基于立体的方法表现非常好，仅略差于相应的基于LiDAR的版本。然而，随着实例变得更难（例如，对于距离较远的汽车），性能差距重新出现-尽管不像没有伪激光雷达那样明显。当移动到IoU = 0时，我们也看到了更大的差距。7 .第一次会议。这些结果并不令人惊讶，因为已知立体算法对于遥远的物体具有较大的深度误差，并且更严格的度量要求更高的深度精度。这两个观测结果都强调需要准确的深度估计，特别是对于遥远的距离，以进一步弥合差距。我们的结果的一个关键限制可能是0.4兆像素图像的低分辨率，这导致遥远的物体只包括几个像素。表4：验证集上行人和骑自行车者类别的3D对象检测。我们报告APBEV/AP3D在IoU =0.5（标准度量），并将F-POINT NET与PSMNETET（蓝色）和LiDAR（灰色）估计的伪LiDAR进行输入信号容易中度硬行人立体声41.3/33.834.9/27.430.1/24.0LiDAR + Mono69.7/64.760.6/56.553.4/49.9骑车人立体声47.6/41.329.9/25.227.0/24.9LiDAR + Mono70.3/66.655.0/50.952.0/46.6表5：在车辆分类上的3D对象检测结果测试集我们将伪LiDAR与PSMN ETESTA（蓝色）和LiDAR（灰色）进行了比较。我们在IoU = 0.7时报告APBEV/ AP3D。†：KITTI排行榜上的结果。输入信号容易中度硬AVOD立体声66.8/55.447.2/37.240.3/31.4†LiDAR +Mono88.5/81.983.8/71.977.9/66.4F-POINTNET立体声55.0/39.738.7/26.732.9/22.3†LiDAR +Mono88.7/81.284.0/70.475.3/62.2行人和骑自行车者检测。我们还提出了三维行人和骑自行车的检测结果。这些任务比汽车检测更具挑战性，因为即使在给定LiDAR信号的情况下，物体的尺寸也很小。在IoU阈值为0.5时，行人和骑自行车者的APBEV和AP3D都远低于IoU为0.7的汽车。我们还注意到，基于图像的方法报告结果在这一类之前的工作。表4显示了我们使用F-POINTNEET的结果，并与使用LiDAR的结果进行了比较。与汽车类别相比（参见表1），性能差距是显著的。我们还观察到一个类似的趋势，即当移动到困难情况时，差距会更大。尽管如此，我们的方法已经为基于图像的行人和骑自行车者检测为未来的工作奠定了坚实的起点。4.4. 测试集的结果我们在表5中报告了汽车类别测试的结果。我们看到伪LiDAR和LiDAR之间的差距与验证集相似，这表明我们的方法并不是简单地过度拟合我们还注意到，在提交论文时，我们在KITTI排行榜上所有基于图像的算法中排名第一。行人和骑自行车者类别的详细信息和结果见补充材料。4.5. 可视化我们进一步可视化验证图像上的预测结果，如图1所示。4.第一章我们比较激光雷达（左）、立体声8452LiDAR伪LiDAR（Stereo）前视图（Stereo）图4：定性比较。我们比较AVOD与激光雷达，伪激光雷达，和前视图（立体）。地面实况框为红色，预测框为绿色;伪激光雷达图（底行）中的观察者位于最左侧，向右看。正面视角的方法（右）甚至会错误估计附近物体的深度，完全忽略远处物体。最好用彩色观看。伪激光雷达（中）和正面立体声（右）。我们使用PSMNET插值来获得立体深度图。LiDAR和伪LiDAR导致高度准确的预测，特别是对于附近的物体。然而，伪LiDAR由于深度估计不准确而无法准确地检测到远处的物体。另一方面，基于前视图的方法即使对于附近的对象也做出极其不准确的预测。这证实了我们在表2中观察到的定量结果。我们在补充材料中提供了其他定性结果和失效案例。5. 讨论和结论有时候，简单的发现会带来最大的不同。在本文中，我们已经表明，缩小基于图像和基于LiDAR的3D对象检测之间的差距的一个关键组成部分可能只是3D信息的表示。将这些结果视为对系统性低效率的纠正而不是新算法可能是公平的-然而，这并没有降低其重要性。我们的研究结果与我们对卷积神经网络的理解是一致的，并通过实证结果得到了证实。事实上，我们从这种校正中获得的改进是前所未有的高，并且影响所有方法。有了这一巨大的飞跃，基于图像的自主车辆3D目标检测在不久的将来可能成为现实这种前景的影响是巨大的。目前，LiDAR硬件可以说是自动驾驶所需没有它，自动驾驶的广告硬件成本变得相对较小。此外，即使在LiDAR装备存在的情况下，基于图像的对象检测也将是有益的。人们可以想象这样一种场景，其中LiDAR数据用于连续训练和微调基于图像的分类器。在我们的传感器中断的情况下，基于图像的分类器可能会充当非常可靠的备份。同样，人们可以想象一个场景，高端汽车与LiDAR硬件一起提供，并持续训练用于更便宜模型的基于图像的分类器今后的工作。有多个直接的方向，我们的结果可以在未来的工作中得到改善：首先，更高分辨率的立体图像可能会显著提高远处物体的准确性。我们的结果是用40万像素获得的-与最先进的相机技术相去甚远。其次，在本文中，我们没有关注实时图像处理，并且一幅图像中所有对象的分类都是以1为阶的。然而，很可能将这些速度提高几个数量级。最近对实时多分辨率深度估计的改进[28]表明，加速深度估计的有效方法是首先以低分辨率计算深度图，然后合并高分辨率以细化先前的结果。从深度图到伪LiDAR的转换是非常快的，并且应该可以通过例如模型蒸馏[1]或随时预测[14] 。最后，未来的工作可能会通过 LiDAR 和伪LiDAR的传感器融合来提高3D对象检测的最新技术水平。伪激光雷达的优势在于其信号比激光雷达密集得多，并且两种数据模式可以具有互补的优势。我们希望我们的发现将引起基于图像的3D物体识别的复兴，我们的进展将激励计算机视觉社区在不久的将来完全缩小图像/LiDAR之间的差距。致谢这项研究部分得到了美国国家科学基金会（III-1618134，III-1526012，IIS-1149882，IIS-2003）的资助。1724282，TRIPODS-1740822），国防部海军研究办公室（N00014 -17-1-2175），以及比尔和梅林达盖茨基金会。我们感谢Zillow和SAP America Inc.的慷慨支持。我们感谢高晃的有益讨论。8453引用[1] C. 布西卢河Caruana和A.尼古列斯库-米兹尔模型压缩。见SIGKDD，2006年。8[2] F. 沙博湾Chaouch，J. 拉巴里索阿角你好，还有T.城堡。Deep manta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在CVPR，2017年。2[3] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在CVPR，2018年。一二三五六[4] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在CVPR，2016年。二、五、六[5] X. Chen ， K.Kundu ， Y.Zhu ，中国茶青冈 A.G.Berneshawi，H.马，S.Fi-dler和R.乌塔松用于精确对象类别检测的3D对象建议。2015年，在NIPS中。一、二、五、六[6] X. Chen，K.Kundu，Y.Zhu，H.马，S.Fidler和R.乌塔松使用立体图像进行精确对象类检测的3D对象建议。IEEEtransactionsonpatternanalysisandmachineintelligence，40（5）：1259-1272，2018。一、二、五、六[7] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。二、五[8] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年。2[9] M. A. Fischler和R. C.波尔斯随机样本同意：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381-395，1981.5[10] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在CVPR中，第2002-2011、2018页。二、五、六[11] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志，32（11）：1231-1237，2013。一、三、五[12] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012。一、二、三、五[13] C. 戈达尔湖，澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，2017年。一、二、五[14] G. Huang，黄氏拟谷盗D. Chen，T. Li，F.吴湖，加-地van der Maaten，以及K. Q. 温伯格用于高效预测的多尺度密集卷积CoRR，abs/1703.09844，2，2017。8[15] K.卡尔施角Liu和S. B.康使用非参数采样从视频中提取深度。ECCV，2012年。2[16] J. Ku，M. Mozifian，J. Lee，A. Hara

下载后可阅读完整内容，剩余1页未读，立即下载