时间照明线索下的门控3D物体检测模式

93 浏览量更新于2023-10-13 收藏 2.59MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Gateed3D：从时间照明线索进行单目3D物体检测弗兰克·朱尔卡-阿吉拉尔酒店1* Jason Taylor1* Mario Bijelic2，3 Fahim Mannan1 Ethan Tseng3 FelixHeide1，31Algolux2 Mercedes-Benz AG3普林斯顿大学摘要当今最先进的3D物体检测方法是基于激光雷达、立体或单目相机。基于激光雷达的方法实现了最佳的精度，但是具有大的覆盖区、高成本和机械限制的角度采样率，导致在长距离处的低空间分辨率。使用低成本的单眼或立体相机的最新方法有望克服这些限制，但在低光或低对比度区域中挣扎，因为它们依赖于无源CMOS传感器。我们提出了一种新的三维物体检测模式，利用时间照明的线索，从一个低成本的单目门控成像器。我们介绍了一种新的深度检测架构，Gated3D，这是专为门控图像中的时间照明线索。这种方式允许我们利用成熟的2D对象特征提取器，通过截头体段估计来引导3D预测。我们在3D检测数据集上实验性地评估所提出的方法，所述3D检测数据集包括超过10，000公里的驾驶数据捕获的门控图像。我们验证了我们的方法优于最先进的单声道和立体声方法，开辟了一种新的传感器模式，作为自动驾驶中取代激光雷达的途径。https://light.princeton.edu/gated3d1. 介绍3D物体检测是机器人和自动驾驶中的基本视觉任务。准确的3D检测对于安全的轨迹规划至关重要，其应用出现在各个学科中，例如自主无人机、防过敏和健康机器人以及仓库和交付机器人。使用相关飞行时间的RGB-D相机[22，29，34]，例如微软在过去，自动驾驶需要长距离和高深度精度，依赖于扫描激光雷达进行3D检测[50，60，15，64，35，11，68，30，33]。然而，虽然激光雷达提供精确的深度，但现有系统基本上受到逐点采集的限制，导致*表示同等贡献。空间分辨率与距离成二次方地下降并且与帧速率成线性地下降。与传统相机相比，激光雷达系统的价格要高出三个数量级，在长距离处的分辨率低，并且在存在强反向散射（例如，散射）的情况下失效。在雪或雾中[3]。有希望克服这些挑战，最近的一系列工作提出了伪激光雷达感测[61]，其依赖于低成本传感器，例如立体声[10，7，27]或单声道[9，20，14]，以从常规强度成像器恢复密集的深度图。点云从深度图中采样，并通过在点云表示上操作的3D检测方法摄取[33，68]。最近的方法直接从被动输入图像预测3D框[36，4，54]。尽管所有这些方法都承诺低成本的3D检测，并有可能取代激光雷达，但它们都依赖于被动相机传感。无源立体方法在长距离处降级，其中视差小，并且在低光场景中，例如，在低光场景中。在夜间，当立体或单目深度线索不太明显时。在这项工作中，我们介绍了第一个三维物体检测方法，使用门控成像和评估这是一个低成本的检测方法，优于最近的单目和立体检测方法。类似于被动的方法，我们使用CMOS传感器，但增加了主动的时间照明。所提出的门控成像器捕获所有传感器像素在三个宽门（>30m）中分布的照明。门控成像[25，5，2，63，49，1，21]允许我们捕获在其各自的时间箱中跨越距离连续分布的若干密集高分辨率图像。此外，可以通过早期门的分布来去除反向散射。扫描激光雷达在时间分辨率与空间分辨率和信噪比（SNR）之间进行权衡，而选通相机的顺序采集在密集空间分辨率和SNR之间进行权衡（即，信噪比）。宽门）具有粗略的时间分辨率。我们证明了门控图像中的时间照明变化是自然适合于3D对象检测的在2D门控切片上操作使我们能够利用现有的2D对象检测架构来指导具有新颖的截头体分割的3D对象检测任务。所提出的架构进一步利用门控图像通过解开29382939门控切片1门控切片2门控切片3RGB门控3D检测LiDAR门控切片1门控切片2RGB门控切片3门控3D检测LiDAR图1：我们提出了一种新的3D对象检测方法，“Gated3D”，它使用泛光照明门控相机。门控图像的高分辨率使得能够在长范围内进行语义理解在该图中，我们的门控切片被颜色编码，其中红色用于切片1，绿色用于切片2，蓝色用于切片3。我们使用Velodyne HDL 64-S3 D扫描激光雷达收集的真实数据作为参考来评估Gated 3D，如右侧叠加图所示。通过双流特征提取从门中的深度线索提取语义上下文特征。依赖于所产生的高分辨率2D特征堆叠，该方法优于现有方法，特别是在长距离处。尽管所提出的架构仅使用门控图像作为输入来训练，但它自然支持与其他现有深度模态的融合，例如：从RGB立体或激光雷达深度贴图。该方法以实时帧速率运行，优于现有的无源成像方法，独立于环境照明-具体而言，我们做出以下贡献：• 我们制定的3D对象检测问题作为一个回归从一个截头体段，使用2D检测先验和对象尺寸统计计算。• 我们提出了一种新型的端到端深度神经网络架构，该架构通过深度线索和门控图像的语义特征来解决这种回归• 我们验证了所提出的方法在具有挑战性的汽车场景中获得的真实驾驶数据所提出的方法检测对象具有高精度高达80米，优于现有的单目，立体声和伪激光雷达低成本的方法。• 我们为在北欧捕获的门控数据提供3D注释，以及代码和模型。作为示例，图1示出了所提出的方法的实验结果。门控图像包含场景中较远物体的密集信息。门控传感器用于夜间场景的优点也在该示例中得到证明，其中行人在RGB图像中不2. 相关工作深度感测和估计。用于从常规强度图像恢复深度的被动采集方法在单个单目图像上操作[8，20，32，14，48，4]，单眼图像的时间序列[28，58，59，67]，或在多视图立体图像上[23，51，7，44，36]。这些方法都在低光和低对比度场景中受到影响主动深度感测通过主动照亮场景来克服这些限制，并且扫描激光雷达[50]已经成为独立于环境照明的自动驾驶的必要深度传感器。然而，激光雷达的空间分辨率从根本上受到顺序逐点扫描帧速率的限制，并且传感器成本显著较高。最近，门控相机被提出作为密集深度估计的替代方案[21]。虽然已经用门控相机证明了有希望的深度估计，但是来自Gruber等人的输出中的局部伪影和低置信度区域。[21]质疑其在高质量场景理解任务中的性能是否可以超过最近的单目和基于立体的方法-在这项工作中通过直接处理门控输入切片以端到端的方式解决了这一差距。CNN 2D物体检测。用于高效2D对象检测的卷积神经网络（CNN）的性能大大优于依赖手工制作特征的经典方法[47]。这种学习对象检测器背后的关键概念是在不同位置和尺度下对图像块进行分类[52]。离散网格单元和预定义的对象模板（锚框）通过全卷积网络架构进行回归和分类[40]。为此，探讨了两个流行的研究方向：单阶段[39，46，26，38]和基于提议的两级检测器[19，18，47]。R-CNN [19]和Faster R-CNN[47]等两阶段方法在第一阶段生成对象的区域建议，然后在第二阶段进行对象分类和边界框细化[19]。单级检测器（如SSD [39]和YOLO [46]）直接预测最终检测，通常比两级检测器更快，但精度较低最近，RetinaNet [38]提出了一种焦点损失，可以有效地降低易于分类的背景示例的权重，并表明使用这种损失训练的单级检测器可以在准确性方面与两级检测器相匹配。29403D物体检测。关于3D物体检测的大量工作已经探索了不同的场景和测量表示。对于激光雷达点云数据，一个方向是门控切片1门控切片2门控切片3依赖于基于体素的表示[60，15，68，12，53]。不幸的是，基于体素的方法所需的3D卷积的计算成本对于实时处理是过高的[60，15]。可替代地，体素网格的高度维度可以被折叠成fea。具有在BEV门控的传感器脉冲激光范围-强度曲线0 20 40 60 80 100距离r[m]平面[64，33，41]，权衡高度信息的计算效率。虽然现有的最先进的方法依赖于激光雷达，但最近的工作旨在缩小与低成本无源传感器的性能差距，这是由于扫描激光雷达的限制，例如成本、尺寸、低角分辨率和反向散射失败。早期的工作单目[9，54，4，6，31]和立体声[36]方法从2D对象检测中利用卷积架构，从图2：门控系统由时间同步的脉冲激光源和门控成像器组成。距离-强度分布（RIP）Cl（r）描述了切片i的距离相关照明。根据RIP，在一定距离处的汽车在每个切片中以不同的强度出现c是光速。在[21]之后，距离-强度分布（RIP）C（r）描述了距离相关积分，其独立于场景并且由下式给出：立体视差、几何约束或对象尺寸[6，31]以端到端的方式。我们将这些概念集成到一个基于截头体段的方法，提高了深度预测。∫∞C（r）=−∞g（t-p）p.Σ2Rt−β（r）dt，（1）C最近，伪激光雷达[61]表明，通过首先估计深度图，点此后，有几种方法采用这种方法进行单目[62，43]和立体[65]深度估计。PatchNet [42]提出，伪激光雷达的优势在于其输入中的显式深度信息，而不是点云表示。相反，PatchNet使用2D卷积架构，每个像素的估计（x，y，z）坐标作为其输入。在检测网络之前估计深度有效地将深度信息从对象外观中分离出来，提高了检测精度。在这项工作中，我们提出了一种使用2D门控图像进行3D检测的方法这种输入表示允许我们利用高效的2D卷积架构的丰富主体来执行3D对象检测任务，而门控切片比RGB图像更有效地表示深度3. 选通成像门控成像是一种用于自动驾驶汽车的新兴传感器技术，其依赖于主动闪光照明以允许低光成像（例如，低光成像）。夜间驾驶），同时减少在不利天气情况（例如雪或雾）下的反向散射[21]。如图2所示，选通成像系统由泛光照明器和同步选通图像传感器组成，同步选通图像传感器对落在往返路径长度ξc的窗口中的光子进行积分，其中ξ是选通传感器中的延迟，并且其中g是时间调制的相机门，P是时间调制的相机门。激光脉冲轮廓和β模型大气相互作用。现在假设具有在距离r~处具有反照率α的主导朗伯反射器的场景，通过下式获得每个像素位置的测量：z=αC（r~）+ηp（αC（r~））+ηg，（2）其中ηp描述泊松光子散粒噪声，ηg描述高斯读出噪声 [16] 。在这项工作中，我们捕获三个图像Zi∈Nheight×width，i∈ {1，2，3}，具有不同的配置文件Ci（r），将深度编码到这三个切片中。4. 门控图像接下来，我们介绍Gated3D，一种新的模型，用于检测，ING 3D对象的时间照明线索在门控图像。给定三个门控图像，Gated3D确定3D对象的位置、尺寸、方向和类别。所提出的架构在图3中示出。我们的模型由基于MaskR-CNN [24]的2D检测网络和3D检测网络组成，该3D检测网络旨在有效地集成来自门控图像的语义，上下文和深度信息。我们的模型只使用3D边界框注释进行端到端训练，没有额外的深度监督。然而，我们也研究了使用深度图作为训练信号。虽然我们关注基于门控的模态的深度图，但深度图也可以从RGB或立体图像生成。通过这个实验，我们然后展示了我们的模型如何可以潜在地与可以添加正交于门控线索的功能的模态集成C（r）2941H2D检测器预测用FPN [37]主干引导特征提取的边界框。这些2D框用于估计约束3D位置的平截头体段。除了这些几何估计之外，3D检测网络还接收从输入门控切片和主干特征两者提取的经裁剪和调整大小的感兴趣为了从门控图像的时间强度变化中提取上下文、语义和深度信息，我们的3D检测网络应用两个单独的卷积流：一个用于主干特征，另一个用于门控输入切片。所得到的特征被馈送到预测3D对象位置、尺寸和方向的全连接层序列中。本节的其余部分详细介绍了我们提出的2D对象检测网络4.1、3D预测网络架构4.2和3D预测网络架构4.3。结构4.2和用于训练的损失函数4.3。4.1. 2D目标检测网络所提出的 2D检测网络使用 FPN [37]作为骨干和RoIAlign来提取特征和输入门控切片的作物。我们提取主干的特征图P2、P3、P4和P5，如[37]中所定义的我们的2D对象检测网络遵循两个阶段的架构，其中最终的2D框检测是从区域建议网络（RPN）输出的建议与Mask RCNN [24]相比，我们使用这些2D检测而不是RPN提案进行3D检测。使用精细化的2D检测允许3D盒预测网络获得更精确的区域特征，特别是从输入门控切片获得更精确的区域特征，以及更精确的平截头体段，这对于深度估计是必不可少的。4.2. 3D物体检测网络我们的3D预测网络融合了从输入门控切片和主干特征中提取的特征。门控流利用每切片的卷积序列从裁剪的门控输入切片没有参数共享。这些卷积由 3×3×16 ， 3×3×32 和3×3×32核的三层组成。该网络通过沿着信道维度级联并利用5个剩余层处理来而不是集中（pooling）或平坦化（flattening）所得到的特征，注意力子网络为每个特征通道产生softmax注意力图，该softmax注意力图用于特征的高度和宽度上的加权和。得到的特征向量被馈送到两个完全连接的层中，然后是生成八个3D边界框系数的最终我们将对象的预测2D边界框表示为P=（c，u，v，wu，hv），其中c是对象3D检测网络采用P和估计一组参数Q1，其定义3D边界框，该3D边界框的投影由P给出。问题在于，配对Q是不适定的，因为给定特定的2D边界框P，存在可以投影到P的无限数量的3D框。然而，我们可以使用对象的近似尺寸和P将Q的位置范围限制到从P提取的3D视见平截头体的片段有关说明，请参见图4通过类似于[45]的截头体区域来辅助估计3D位置。对于激光雷达数据，由于激光雷达提供深度值，因此平截头体足以在3D空间中定义对象。在我们的情况下，我们只有图像空间中的数据，没有绝对深度值。代替如[45]中那样考虑整个截头体，我们利用训练集中的相机校准和对象这个想法在图4中示出，其中人位于相对于相机的不同距离处。使用对象高度和2D包围盒投影，我们可以通过三角测量来估计到相机的距离。假设一个有界的高度，我们可以准确地估计该对象所在的截头体的段。在图4的示例中，我们将最小和最大高度值定义为1.5m和2m。对于由2D检测网络生成的每个2D边界框P=（c，u，v，w，u，h，v），我们的3D边界框网络被训练以估计参数Q’=（δu’，δv’，δz’，δh’，δw’，δl’，θ’），其如下编码3D边界框的位置（x，y，z）、尺寸（h，w，l）和取向（θ’）：3D定位。我们使用对象在图像空间上的投影以及frustum段来估计对象位置（x，y，z）具体而言，我们将目标δu′、δv′值定义为δu′=（Proj2du（x，y，z）−u）/wu（3）δv′=（Proj2dv（x，y，z）−v）/hv，（4）其中Proj2du（x，y，z）、Proj2dv（x，y，z）表示图像空间上（x，y，z）的2D投影的u，v为了定义目标z，我们首先定义用作深度估计的参考的截头体段。给定一个高度为h的物体，我们可以估计物体到焦距为fv的相机的距离为Hf（hv，h）=fv.（五）v如果我们假设h服从均值为μh、标准差为σh的高斯分布，给定P=（c，u，v，wu，hv）和fv，我们可以将物体到相机的距离限制在[f（hv，μh−σh），f（hv，μh+σh）]的范围内，或者更一般地，我们推导出截头体段的长度为dd=f（hv，µh+k∝σh）−f（hv，µh−k ∝σh），（6）其中k是调整分段范围的标量，并且与我们的预测置信度成反比。2942图3：从三个门控切片，所提出的Gated3D架构检测对象并预测它们的3D位置、尺寸和方向。我们的网络采用2D检测网络来检测ROI。所得到的2D框用于裁剪来自主干网络和输入门控切片的区域。我们的3D网络使用从训练数据的2D框和3D统计数据计算的截头体段来估计3D对象参数。该网络分别处理门控切片，然后将得到的特征与骨干特征融合，并估计3D边界框参数。P、Q表示地面实况框，并且P’、Q’表示预测框。ℎ2&Y2&−afvℎ2&+的afv2&−afvaf不是固定的，而是使用相机模型和对象统计来相应地调整。注意，其他车辆类型（诸如公共汽车）可以是单独的类别，如在2D对象检测中常规地完成的我们说明了这一点，并在补充材料中显示了对不同方向和位置的概括。在训练期间，我们使用来自地面实况的h;在-在此基础上，我们使用网络预测。Y2&+vY2&图4：存在可以投影到给定边界框P的无限数量的3D长方体。然而，可以使用对象高度、其投影高度和垂直焦距来合理地估计对象在这些观察之后，3D边界框的z坐标δz’被给出为三维框尺寸和方向。使用δh′、δw′、δl′估计目标3D框尺寸，δh′、δ w ′、δl ′被定义为每个类别的对象尺寸的平均值与真实尺寸之间的偏移。δp′= p − µp，p ∈ {h，w，l}。（八）µp为了学习目标方位（观察角度）θ ′，方位被编码为（sin ′，cos ′），并且网络为θ θδz′ = z − f（hv，h）.（七）D因此，训练模型以预测实际深度z与近似深度f（h，v，h）之间的偏移δz’。深度d的归一化是估计对象的绝对深度的关键直观地，对于更高的距离z，标签中存在更大的定位不确定性，因此，训练损失需要按比例考虑这一点。请注意，这并不要求对象位于要检测的截头体段内，而是使用截头体段长度来缩放偏移。对于不同的方向或位置没有附加约束，因为模型可以从数据中学习这些偏移调整。类似于2D检测器，平截头体段可以被认为是锚，除了其位置和尺寸。训练以分别估计每个参数。附加深度图输入。我们还研究了使用密集的深度估计作为一个额外的训练信号。使用[21]中提出的网络估计深度图，并将其集成到Gated3D架构中第二阶段，在RoIAlign种植后。遵循与门控裁剪特征提取器相同的架构，深度图裁剪特征然后与门控特征和主干特征级联。4.3. 损失函数给定3D框参数地面实况框Q=（δu，δv，δz，δh，δw，δl，sinθ，cosθ）及其对应的预测Q′=（δu′，δv′，δz′，δh′，δw′，δl′，θ′），我们将我们的总体损失L3D（Q，Q′）定义为1.5米2.0 m1.5米2.0 m2943L3D（Q，Q′）=α·ΣLloc（δl−δl′）+ΣLdim（δd−δd′）立体相机Velodyne HDL 64-S3l∈{u，v，z}d ∈{h，w，l}+ β·Lori（sinθ，cosθ，θ′），（九）其中L_loc是位置损失，L_dim是尺寸Lori（θ，θ′）是方向损失。我们使用α和β来加权位置和方向损失，并在训练期间定义这些值。我们将Lloc和Ldim定义为SmoothL1，并且将Lori（sinθ，cosθ，θ′）定义为Lori（sin θ，cos θ，θ′）=（sin θ− sin（θ′））2+（cos θ− cos（θ′））2。（十）该方法在Nvidia上以大约10FPS运行。选通相机立体相机激光雷达TensorFlow中的RTX 2080 GPU，无需实现优化，如TensorRT。我们参考补充材料了解其他方法和实施细节。5. 数据集在本节中，我们将描述3D对象检测传感器BrightwayVision2x OnSemiVelodyne我们用来训练和评估Gated3D的数据集。传感器设置。由于现有的汽车数据集[57，13，17，66]不包括来自门控摄像机的测量，因此我们使用Bijelic等人的数据集[3]他在北欧的一次大规模数据采集中收集了门控图像，以及RGB、激光雷达和FIR数据我们将此数据集与使用具有来自BrightwayVision的相同门控系统BrightEye的测试车辆获得的额外验证和测试数据相• 分辨率为1280px×720 px的门控CMOS像素阵列，像素间距为10 µm。使用23mm的焦距提供31的水平和垂直视场。1◦H ×17。8◦五。• 两个重复脉冲垂直腔面发射激光器（VCSEL），其用作波长为808nm的脉冲照明源，人类不可见。峰值功率在眼睛安全规定范围内源安装在车辆保险杠下方，见图5。门控图像由三个曝光曲线组成，如图2所示，参见补充文件中的门控设置（延迟、激光持续时间、门控持续时间）对于每个单次捕获，在读出之前集成多个激光闪光，以增加测量信噪比。为了与最先进的3D检测方法进行比较，遵循Bijelic等人的方法。[3]，我们为测试车辆配备了VelodyneHDL64激光雷达扫描仪和立体相机。立体声系统由两个摄像头组成，OnSemi AR0230传感器安装在20.3 cm基线处。所有传感器规格如图5所示。3D注释和数据集分割除了来自Bijelic et al.[3]，其中包含13k门控图像，我们捕获额外的2.5k门控图像。公司现采用国际图5：用于记录用于训练和评估所提出的方法的数据集的传感器设置。我们还捕获相应的激光雷达点云和立体图像对。立体相机位于与选通相机大致相同的位置处，以便确保相似的视点。使用上述类似系统收集原始数据和附加车辆数据，并使用时间同步的激光雷达测量来注释3D框。数据集的注释和捕获程序详见补充文件。门控图像已手动标记与人类注释匹配激光雷达，门控和RGB帧同时。总共有超过100，000个对象被标记，包括4个类别。注释总共超过15k个图像示例。为了最小化门控图像和RGB图像之间的时间偏移的注释问题，我们针对时间偏移的帧细化投影到门控帧中的RGB框。该数据集被随机分成10 k帧的训练集、1,000帧的验证集和4,441帧的测试集。除了选通图像之外，我们提出的数据集包含由前一段中描述的立体相机系统捕获的对应RGB立体图像。我们注意到，与流行的自动驾驶数据集（包括Waymo [57]，KITTI [17]和Cityscapes[13]）相比，我们的数据集更加令人兴奋，因为它还包括许多夜间图像和在雪和雾等恶劣天气条件下捕获的图像。6. 评估评价设置。使用KITTI评估框架中定义的BEV和2D/3D检测标准[2019 - 06 -24][2019 - 06 -24][2019 - 06][2019 - 06 -06][2019 - 06]选通相机激光源BrightEyeAR0230HDL64-S3D决议1280px×720px1920px×1080px1440”×612”波长808 nm颜色905纳米帧速率120赫兹30 Hz10 Hz位深度10位单元12位单元32位浮点数2944表1：实验数据集上的对象检测性能（测试分割）。我们的方法在大多数短（0- 30 m）、中（30- 50 m）和长（50- 80 m）距离范围内优于单眼和立体方法（表的底部），以及在门控图像上训练的有趣的是，我们的模型甚至优于PointPillars激光雷达在长距离范围内的行人检测参考。(a) 汽车类的平均精度。方法模态白天的图像2D物体检测3D物体检测BEV检测0-30米30-50米50-80米0-30米30-50米50-80米0-30米30-50米50-80米夜间图像2D物体检测3D物体检测BEV检测0-30米30-50米50-80米0-30米30-50米50-80米0-30米30-50米50-80米[33]第三十三话LiDAR90.1282.8356.6391.5184.6354.2891.5986.5454.7190.7384.8854.2290.2987.4052.3290.2987.5152.60M3D-RPN [4]RGB90.4489.2962.7653.2113.2610.5260.8016.1610.5290.8580.6459.7651.1820.762.7352.5321.392.74[36]第三十六话立体声81.5681.0778.0854.1717.166.1757.9217.696.2681.7381.0370.8547.3617.2113.0253.8118.3413.08PSEUDO-LIDAR门控81.7481.3380.8826.1716.0610.2726.9417.2610.8789.3589.0288.3136.5823.0519.8839.5028.6822.82[65]第65话：我的世界门控81.7480.2981.5930.4415.4711.7632.4916.9712.8390.2181.7581.7836.3621.9322.3937.4623.1223.63[42]第四十二话门控90.4681.7489.7823.9110.867.3424.8711.337.8490.8789.8688.8923.7416.797.1625.1517.768.29Gated3D门控90.9190.8890.8558.5527.5017.5959.0532.3718.7490.9181.8290.8557.1829.9717.9357.9930.3618.49Gated 3D w/密集深度门控90.9181.8290.8856.6924.7715.6657.7924.8615.7490.6381.8290.6554.7426.4314.156.3130.3515.44(b) 行人类的平均精度方法模态白天的图像2D物体检测3D物体检测BEV检测0-30米30-50米50-80米0-30米30-50米50-80米0-30米30-50米50-80米夜间图像2D物体检测3D物体检测BEV检测0-30米30-50米50-80米0-30米30-50米50-80米0-30米30-50米50-80米[33]第三十三话LiDAR70.0849.030.0069.7145.240.0070.5348.070.0069.9743.320.0071.2541.210.0070.9943.610.00M3D-RPN [4]RGB79.0866.4136.9826.2014.509.8430.6817.4710.0778.3662.9936.7625.096.432.0726.427.692.74[36]第三十六话立体声88.5775.6359.8248.5823.267.7750.1125.108.3880.3869.1360.9446.0921.6311.5747.5825.4711.84PSEUDO-LIDAR门控77.8778.3869.116.194.592.1510.289.144.1380.3478.6167.787.539.581.6214.2715.725.55[65]第65话：我的世界门控77.8977.9560.889.192.363.3014.325.664.1079.8479.5754.427.377.212.0612.9211.995.64[42]第四十二话门控90.4880.7569.5632.8818.055.6239.4520.279.7781.5088.6265.4315.3713.376.7521.6018.158.46Gated3D门控89.7281.4786.7350.9420.5914.1453.2622.1516.5181.5281.2380.1848.5323.9914.9849.8225.5715.46Gated 3D w/密集深度门控90.3281.4279.8748.3525.7712.2855.4126.7313.6681.7781.2679.9748.7217.3513.1650.2822.6314.09计算关于距离范围的度量。 Forowing Simonelli etal.[54]，平均精确度（AP）基于40个召回位置，以提供公平的比较。我们考虑sider行人和汽车作为我们的目标检测类。3D度量是基于长方体之间的交并（IoU）[11]，其具有等同地惩罚完全错误的检测和IoU低于阈值的检测的缺点。由于强调数据集中的挑战性场景以及不完美的通过使用比KITTI中更低的IoU阈值来缓解0.2对于汽车和0.1对于行人。为了关注不同深度范围的检测，补充文件中提供了基于KITTI中定义的难度的基线。我们比较我们方法到单眼，立体、激光雷达和伪激光雷达方法。为单眼基线，我们评估M3 D-RPN [4]，它通过“深度感知”卷积从单个RGB图像执行3D对象检测，其中网络的一个分支中的作为立体方法，我们评估了 STEREO-RCNN[36]，其利用立体图像对来预测左右2D边界框和关键点，然后使用几何约束来推断3D边界框。最近的伪激光雷达方法允许我们将我们的方法与使用深度图作为输入的最近的最先进的方法进行比较，并且因此更直接地评估我们的模型架构在从门控图像提取信息中的有效性。为此，我们使用的方法从格鲁伯等。[21]为了首先从门控图像生成密集的深度图，对所有的深度图进行反向投影。将深度图的像素转换为3D坐标，并遵循[61]使用截头体点网[45]执行3D对象检测。我们还评估了来自稀疏激光雷达的伪激光雷达++[65]深度校正方法，从我们的64层激光雷达下采样此外，我们评估了PatchNet [42]，它实现了基于2D图像表示的伪激光雷达方法。作为已知（测量）深度的激光雷达参考方法，我们评估POINT PILLARS [33]。我们使用相应的开源存储库，并在数据集的训练过程中调整每个基线模型的超参数。实验验证。如第4节所述，我们还尝试使用深度图作为Gated3D模型的训练信号。在这个实验中，我们在我们的数据集中训练Gated2Depth模型，从这些训练的模型中提取估计的深度图并将其馈送到我们的Gated3D网络。然后，Gated3D网络从深度图中裁剪感兴趣的区域，并通过注意力机制将特征与门控和主干特征融合，如图3所示。表1a和1b分别示出了测试集上用于2D、3D和BEV检测的汽车和行人总的来说，我们的Gated3D模型本身在不同的类别和白天评估设置上获得了更强大的性能，并且使用深度图作为额外的训练信号略微提高了近距离的准确性与先前的工作[36]一致，单眼和立体基线都显示出性能随距离的下降对于10 - 30 cm的小汽车基线的单眼和立体提示随着范围的增加而具有挑战性。拟议 GATED 3D 方法提供了一种新的 im-2945Gated3DM3D-RPN立体声-RCNN伪激光雷达图6：测试数据集的定性比较。所提出的方法的边界框是更紧密，更准确的基线方法。这在第二幅图像中可以看出，其他方法在行人边界框高度中显示出较大的误差BEV激光雷达叠加显示，我们的方法提供了更准确的深度和方向比基线。例如，第四幅图像的交叉点中的汽车在伪激光雷达和立体基线中具有90度的定向误差，并且在单目基线中被错过。我们的方法的优点是最明显的行人，因为汽车更容易为其他方法，由于是大和镜面（请放大电子版本的细节）。单目、立体和激光雷达测量之间的年龄模态。结果表明，改进的强度只有方法，特别是行人和在夜间。GATED3D擅长在远距离或低能见度情况下注意，伪激光雷达和立体方法可以容易地与所提出的方法组合一一门控立体对可以捕获与所提出的方法所利用的门控线索正交的有关Gated3D组件的其他消融研究，请参阅补充文件。图6示出了我们提出的方法和最先进的方法的定性示例。颜色编码的门控图像示出了门控数据的语义和空间信息（红色色调用于较近的对象，蓝色色调用于较远的对象）。我们的方法可以准确地检测近距离和远距离的物体，而其他方法则难以实现，特别是在夜间或恶劣天气下检测行人的安全关键应用7. 结论和未来工作这项工作提出了门控图像的第一个3D对象检测作为激光雷达的低成本替代方案，Gated3D优于最近的立体和单目检测方法，包括最先进的伪激光雷达方法。我们扩展了CMOS传感器阵列中使用的被动成像方法，通过泛光照明的场景，并捕捉在粗TEM的时间强度变化。多孔门门控图像允许我们利用现有的2D特征提取架构。我们分布的结果- ING功能在相机截头体沿相应的- ING门所提出的方法以实时速率运行，我们通过实验验证了该方法，证明了比前单目或立体检测方法更高的3D对象检测精度，包括最近的立体和单目伪激光雷达方法，其成本与所提出的系统相似。我们设想我们的工作是朝着门控成像迈出的第一步，门控成像是一种新的传感模式，超越了激光雷达、雷达和摄像头，适用于机器人和自动驾驶中的广泛任务，包括跟踪、运动规划、SLAM、视觉里程计和大规模场景理解。确认Felix Heide获得了NSF CAREER Award（2047359）和Sony Faculty Innovation Award的支持。这项工作得到了AI-SEE项目的资助，该项目是由EU-REKA批准的共同标记的PENTA和EURIPIDES2项目国家供资机构：奥地利研究促进局（FFG）、芬兰商业部、联邦教育和研究部（BMBF）、加拿大国家研究委员会工业研究援助计划（NRC-IRAP）。M3D-RPNM3D-RPNM3D-RPNM3D-RPN立体声-立体声-立体声-立体声-Gated3DGated3DGated3DGated3D伪激光雷达伪激光雷达伪激光雷达伪激光雷达2946引用[1] Amit Adam，Christoph Dann，Omer Yair，Shai Mazor，and Sebastian Nowozin.实时形状、照明和反射的贝叶斯飞行时间。IEEE Transactions on Pattern Analysis andMachine Intelligence，39（5）：851-864，2017。1[2] 皮埃尔·安德森使用距离选通激光雷达图像的远程三维成像。光学工程，45（3）：034301，2006. 1[3] Mario Bijelic、Tobias Gruber、Fahim Mannan、FlorianKraus、Werner Ritter、Klaus Dietmayer和Felix Heide。透过雾看不见雾：在看不见的恶劣天气下进行深度多模态传感器融合。CVPR，2020年。1、6[4] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在IEEE计算机视觉国际会议论文集，第9287-9296页一、二、三、七[5] 延斯·布斯克水下三维光学成像与选通观察激光雷达。光学工程，2005年。1[6] Yingjie Cai ， Buyu Li ， Zeyu Jiao ， Hongsheng Li ，Xingyu Zeng，and Xiaogang Wang.具有解耦结构多边形估计和高度引导深度估计的单目三维物体检测。AAAI人工智能，34（07）：104783[7] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一、二[8] Richard Chen ， Faisal Mahmood ， Alan Yuille ， andNicholas J Durr.用对抗训练重新思考单眼深度估计arXiv预印本arXiv：1808.07528，2018。2[9] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在IEEE计算机视觉和模式识别会议论文集，第2147-2156页，2016年。第1、3条[10] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， HuiminMa，Sanja Fidler，and Raquel Urtasun.使用立体图像的3D 对象建议用于精确的对象类别检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，40（5）：1259-1272，2017。1[11] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。1、7[12] Yilun Chen，Shu Liu，Xiaoyo

下载后可阅读完整内容，剩余1页未读，立即下载