实时密集激光雷达门控相机的成像框架与传统的扫描激光雷达系统相比具有更高的深度精度和低成本

184 浏览量更新于2023-10-12 收藏 3.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1506Gated2Depth：来自门控图像的实时密集激光雷达Tobias Gruber1， 3 Frank Julca-Aguilar2 Mario Bijelic1， 3 Felix Heide2， 41Daimler AG2 Algolux3 Ulm University4 Princeton University摘要我们提出了一个成像框架，它将三个图像从门控相机转换成高分辨率的深度图，深度精度与脉冲激光雷达测量相媲美现有的扫描激光雷达系统由于机械限制的角采样率而在大范围内实现低空间分辨率，将场景理解任务限制在具有密集采样的近距离集群。此外，当今的脉冲激光雷达扫描仪遭受高成本、功耗、大形状因子，并且它们在强反向散射存在下失效。我们从点扫描出发，证明了通过从三个门控图像学习深度，可以将低成本CMOS门控成像器变成至少80 m范围所提出的架构利用跨门控切片的语义上下文，并在合成的深度损失上进行训练，而不需要密集的深度标签。扫描激光雷达系统的拟议替代是实时的，处理反向散射，并提供密集的深度在长距离。我们在模拟和在北欧4,000公里驾驶中获得的真实数据上验证了我们的方法。数据和代码可在 www.example.com 上获得https://github.com/gruberto/Gated2Depth。1. 介绍诸如扫描激光雷达系统之类的主动深度相机不仅已经成为用于自主驾驶和机器人的基础成像模态，而且正在跨学科的应用中出现，包括自主无人机、遥感、人机交互以及增强现实或虚拟现实。提供密集范围的深度相机在与彩色相机组合时允许密集场景重建[26]，包括相关飞行时间相机（C-ToF）[19，30，33]，诸如微软Kinect One或结构光相机[1，42，43，49]。这些采集系统促进了大规模RGB-D数据集的收集，这些数据集推动了对核心计算机视觉问题的研究，包括场景理解[23，53]和动作识别[40]。然而，虽然现有的深度相机为室内近距离提供高保真深度[26，39]，但在长距离和动态户外场景中的密集深度成像是一个公开的挑战。远距离的主动成像是具有挑战性的，因为扩散场景点仅将发射光子的一小部分返回到传感器。对于完美的朗伯表面，该分数随着距离二次地减小，造成基本限制，因为照明功率只能增加到临界眼睛安全水平[51，54，60]。为了解决这一限制，现有的脉冲激光雷达系统采用在NIR波段具有高光子检测效率的灵敏硅雪崩光电二极管（APD）[60]。这些敏感探测器的定制半导体工艺将当前激光雷达系统限制为单个（或几个）APD，而不是需要逐点扫描的单片传感器阵列。虽然扫描激光雷达方法促进深度成像在大范围内，扫描降低其空间分辨率与距离的平方，禁止语义任务远的对象，如图1所示。最近，单光子雪崩二极管（SPAD）[4，5，41，46]正在成为一种有前途的技术，可以在未来实现CMOS工艺中的传感器阵列[59]。尽管SPAD对单个光子敏感，但现有设计由于填充因子非常低（约1%）[58]和较高脉冲功率下的堆积失真[12]而光子效率极低。此外，被动深度估计技术没有提供解决方案，包括立体相机[20，49]和来自单目图像的深度[13，16，48]。这些方法对于小的差异在大范围内表现不佳，并且当环境光不足时，它们在关键的户外场景中失败，例如，在夜间，并且在存在强反向散射的情况下，例如，在雾或雪中，见图2。门控成像是一种新兴的传感技术，它通过发出脉冲照明并在时间门之间集成场景响应来解决这些挑战。粗略的时间切片允许去除由于雾、雨和雪引起的后向散射，并且可以在容易获得的CMOS技术中实现。与脉冲激光雷达相比，选通成像通过在大的时间切片上积分入射光子，而不是对单个脉冲的第一次返回进行时间标记，从而在长距离处提供高信号测量然而，尽管选通相机为户外成像挑战提供了一种出色的低成本解决方案，但单个切片的顺序采集禁止它们在当今用作深度相机，限制了深度信息的使用。1507图1：我们提出了一个新的实时框架，用于密集深度估计（左上角），无需扫描机制。我们的方法将来自挡风板后面的泛光灯照明门控相机（插图右侧）的测量值实时捕获到具有与激光雷达测量值（中心左侧）相当的深度精度的密集深度图。与稀疏的激光雷达测量相比，这些深度图是高分辨率的，能够在长距离上进行语义理解。我们评估我们的方法的合成和真实数据，收集与测试和扫描激光雷达Velodyne HDL 64-S3 D作为参考（右）。一组稀疏的宽时间仓，深度超过50米注意，使用窄切片不提供解决方案，因为切片宽度与捕获的数量成反比由于最大帧速率为120 Hz至240 Hz，现有系统[18]仅限于动态场景的4至7个切片范围。在这项工作中，我们提出了一种方法，恢复高保真密集深度从稀疏门控图像。通过学习跨门控切片利用语义上下文，所提出的架构在大范围户外场景中实现了与基于扫描的激光雷达相当的深度精度，基本上将门控相机转变为低成本的密集闪光激光雷达，其在长距离处捕获密集深度并且还可以看穿雾、雪和雨。该方法联合解决了深度估计、去噪、缺失或不可靠测量的修复、阴影和多路径去除，同时在消费者GPU上具有实时帧速率的高效性。具体而言，我们做出以下贡献：• 我们介绍了一个图像形成模型和分析深度估计方法，使用不到少数的门控图像。• 我们提出了一种基于学习的方法来估计门控图像的密集深度，而不需要密集的深度标签进行训练。• 我们验证了所提出的方法在模拟和现实世界的测量获得的原型系统在具有挑战性的汽车场景。我们表明该方法恢复密集深度高达80米的深度精度可比扫描激光雷达。• 我们提供第一个远程门控数据集，覆盖整个北欧超过4,000公里的驾驶该数据集包括在雪、雨、城市驾驶和郊区驾驶中的驾驶场景。2. 相关工作基于灰度图像的深度估计。大量的工作探索用于从常规彩色图像传感器提取深度的方法。研究的第一线从运动中恢复结构的方法顺序地捕获单目图像的堆栈，并通过利用堆栈中的时间相关性来提取几何形状[29，56，57，63]。相比之下，多视图深度估计方法[20]不依赖于顺序采集，而是利用同时采集的图像对[52]中的差异。用于估计立体对应性的最近方法允许交互式帧速率[8，28，44]。在过去的几年中，一个有前途的研究方向旨在从单个单目图像[9，13，16，32，48]中估计深度，不再需要多视图或顺序捕获。萨克斯-埃纳等人[48]介绍了一个马尔可夫随机场，它结合了多尺度图像特征进行深度估计。Eigen等等人[13]证明CNN非常适合于通过学习语义相关深度的先验来进行单眼深度估计[10，16，32]。虽然消费者飞行时间相机促进了小型室内场景的大型数据集的获取[23，53]，但大型室内场景的监督训练[23，531508RGB Camera Gated Camera Lidar Bird图2：传感器在雾室中的性能，雾非常浓。第一行显示无雾的录制，而第二行显示浓雾中的相同场景。户外环境是一个开放的挑战。最近的方法通过提出依赖于相对深度[10]、立体图像[15，16，31]、稀疏激光雷达点[31]或语义标签[62]的半监督方法来无源方法的共同点是，它们的精度比扫描激光雷达系统的精度低一个数量级以上，这使得它们不能有效地替代自主车辆中的泛在激光雷达测距[51]。在这项工作中，我们提出了一种方法，允许使用低成本的门控成像器来关闭这个精度差距。稀疏深度完成。作为一种替代方法来恢复准确的密集深度，最近的工作提出了深度完成稀疏激光雷达测量。类似于单目深度估计，已经针对该任务提出了学习的编码器-解码器架构[11，27，37]。Jaritz等人[27]建议将彩色RGB数据合并用于上采样稀疏深度样本，但在下游场景理解任务中也需要稀疏深度样本。为了允许深度估计和场景分析算法的独立设计，必须使用不同的稀疏模式[27，37]或自适应有效性图[11]来训练完成架构。虽然这些深度完成方法提供了改进的深度估计，但它们受到与扫描激光雷达相同的限制：由于有限的角度采样、低分辨率检测器和昂贵的机械扫描，在长距离上的低空间分辨率。飞行时间深度相机。调幅C-ToF相机[19，30，33]（诸如微软这些摄像机通过记录相移来测量深度通过在给定的延迟之后打开并关闭照相机来记录来自一定距离的光子门控成像首先由Heckman等人提出。[21 ]第20段。此采集模式允许门控雾、雨和雪的反向散射[18]。Busck等人[3，6，7]通过捕获窄门控切片的大序列，使用门控成像进行高分辨率深度感测。然而，由于深度精度与选通宽度成反比，因此与所需捕获的数量成反比，因此在实时帧速率下顺序捕获高分辨率选通深度是不可行的。最近，一系列研究提出了已知脉冲和积分形状的分析重建模型[34，35，61]。这些方法需要完全了解积分和脉冲轮廓，由于漂移，这是不切实际的，并且它们在实时捕获设置中为宽门控窗口提供低精度。Adam等人[2]和Schober等人[50]，提出了用于房间大小场景的脉冲飞行时间成像的贝叶斯方法。这些方法使用深度，反射率和环境光的先验知识解决了概率性每像素估计问题，当使用纳秒曝光配置文件[2，50]用于房间大小的场景时，这是可能的在这项工作中，我们证明了利用时空场景语义允许从仅三个切片恢复密集和激光雷达精确的深度，曝光时间长两个数量级（>100 ns），实时获取。使用这种宽曝光门允许我们依赖于低成本的门控CMOS成像器，而不是具有高时间分辨率的检测器，例如SPAD。3. 选通成像在本节中，我们回顾门控成像，并提出一种分析的每像素深度估计方法。门控成像考虑图3所示的设置，其中振幅调制源用宽矩形“脉冲”光泛光照射场景同步照相机在延迟1秒后打开，只接收往返路径长度大于1秒·c的光子，其中c是光速。假设一个主导的朗伯体在距离r处的反射器的情况下，利用导致曝光测量的选通函数g对检测器增益进行时间调制∫∞一种可调泛光灯照明，允许提取从光源到场景再返回到相机的反射泛光的飞行时间。怎么-I（r）=α C（r）=−∞g（t−ξ）κ（t，r）dt，（1）除了调制光之外，该感测方法还记录所有环境背景光。虽然逐像素锁定放大去除了背景COM，其中κ是时间场景响应，α是反射器，以及C（r）距离-强度分布。在反射器处于距离r处的情况下，时间场景响应可以是有效地在室内场景中使用[33]，并且学习的架构可以减轻多径失真[55]，现有的C-ToF相机仅限于几米的范围，描述为.Σ2Rκ（t，r）=αp t−Cβ（r）。（二）[22]在阳光强烈的室外场景。门控摄像机发出泛光灯脉冲，其中P在这里是激光脉冲轮廓和大气效应，例如，在散射介质中，由1509....一千500020 40 60 80 100图3：门控系统由时间同步的脉冲激光源和门控成像器组成。通过设置照明和图像采集之间的延迟，可以将环境切片为仅包含特定距离范围的单个图像。距离依赖函数β注意，我们忽略了方程中的环境光。（2）在我们的设置中通过陷波滤波器使其最小化，并通过在没有主动照明的情况下利用单独捕获的减法来消除。为了防止激光器过热，在一定时间内的激光脉冲的数量是有限的，因此，在激光恢复过程中，可以获得无源图像在没有成本曝光曲线被设计成具有相同的无源元件。距离-强度分布C（r）可以用具有固定曝光度的目标上的测量来校准我们从具有不同延迟的三次捕获，i∈ {1，2，3}，导致一组轮廓Ci（r）和测量Ii（r）。我们用阶数为6的切比雪夫多项式将轮廓近似为C~（r）。图4显示了本工作中使用的范围-强度剖面图及其近似值，参见sup-有关曝光曲线设计的详细信息的补充材料。在读出之后的最终测量受光子散粒噪声和读出噪声的影响，如z=I（r）+ηp（I（r））+ηg，（3）对于给定的像素位置，ηp是泊松信号相关的噪声分量，ηg是高斯信号无关的分量，我们采用[14]。测量失真许多系统和随机测量失真使得从选通图像进行深度估计具有挑战性。具有低反射率的场景对象仅返回很少的信号光子，从而在存在来自等式（1）的泊松-高斯测量波动的情况下，禁止从强度到深度的明确映射（三）、系统失真包括闪光灯照明的多路反射，参见[55]。在典型的驾驶场景中，由于潮湿的道路充当场景中的镜像表面，可能发生严重的多径反射。请注意，这些在基于线或点的扫描激光雷达系统中几乎可以忽略不计[1]。汽车应用需要大型激光源，这些激光源不能放置在相机旁边，这不可避免地导致阴影区域无法进行测量。存在强烈的环境阳光图4：本工作中使用的三个距离-强度分布C i（r），i∈ {1，2，3}的离散测量值（用十字标记），以及它们的连续切比雪夫近似Ci（r）与距离r[m]的关系。作为所有切片中的偏移，减小了选通测量的动态范围。在这项工作中，我们展示了一种重建架构，它以数据驱动的方法解决了所有这些问题，依赖于现成的稀疏激光雷达深度作为训练标签。在描述所提出的方法之前，我们介绍了每像素基线估计方法。每像素最小二乘估计。忽略所有上述测量失真，假设在脉冲和曝光轮廓中没有漂移，并且仅在等式2中存在高斯噪声。（3），即时基线方法是以下每像素最小二乘估计。具体来说，对于一个像素，我们在单个向量z =[z1，. . . ，z3]。我们可以将深度和反照率联合估计为.... 2rLS=argmin.. z−αC<$（r）.. 、（四）r，α2其中C（r）=[C1（r），，C=3（r）]是切比切夫强度轮廓向量由于距离-强度分布是非-线性的，我们使用Levenberg-Marquardt优化方法解决这个非线性最小二乘估计，详见补充文件。4. 从门控图像学习深度在本节中，我们将介绍Gated2DepthNet网络。该模型是对不同输入配置、网络架构和训练方案进行系统评估的结果。我们建议读者参考补充文件，对所有评估模型进行全面研究。所提出的网络架构如图5所示。我们的网络的输入是三个门控切片，允许它利用切片上的相应语义来估计准确的像素深度。这种架构的一个直接明显的问题是，大规模场景的密集地面实况深度不可用。在设计需要大型训练数据集以避免过度拟合的深度模型时，这个我们通过一种训练策略来解决这个问题，该训练策略将在合成数据上学习的密集深度语义转移到在稀疏激光雷达数据上训练的网络。Ci（ r）C-1（r）C-2（r）C-3（r）1510切片3切片2切片1641282565122561281643232我我向下转换。上转换器。平面转换舰长控制室损失函数64128256 512 1图5：所提出的门控2DEPH架构从一组三个门控图像估计密集深度（示出了实际重建和真实捕获）。为了使用来自激光雷达点样本的稀疏深度来训练所提出的生成器网络G我们依赖于三个损失函数分量：稀疏多尺度损失Lmut，其惩罚三个不同分箱尺度上的稀疏深度差;平滑损失Lsmooth;以及对抗损失Ladv。对抗性损失包含一个识别器网络，该网络使用单独的丢弃生成器在合成数据上进行训练，并允许传输密集深度没有域适应的合成数据的细节。所提出的Gated2DepthNet由生成器G组成，我们为我们的密集深度估计任务训练该生成器。G是流行的U-net架构的多尺度变体[47]。为了将密集深度从综合生成的深度图转换为传感器数据，我们引入了判别器D，PatchGAN的变体[25]，并在两阶段过程中训练网络。在第一阶段，我们在合成数据上训练网络（G和D）作为生成对抗网络[17]。在最小二乘GAN [38]方法中，以交替的方式训练生成器和深度估计器：G被训练为使用合成地面实况生成准确的密集深度估计，并使D相信估计对应于真实的深度图;D被训练来检测密集深度图是来自G还是真实的。在第二阶段，我们在遵循目标域分布的真实门控图像上训练网络我们现在使用稀疏激光雷达测量值作为地面实况，并保持鉴别器固定。要在最后的训练阶段使用稀疏激光雷达测量值，我们引入了多尺度损失（请参见第4.1节），该损失会对稀疏激光雷达点的差异进行惩罚4.1. 损失函数我们训练我们提出的网络，以最大限度地减少三个组件的损失，L，每个组件模型的目标深度L=Lmut+λsL smooth+λaL adv（5）多尺度损失（Lmult）该损失分量惩罚地面实况标签和深度标签之间的差异。估算我们将Lmult定义为发生器输出d及其相应目标d上的多尺度损失ΣMLmult（d，d~）=λmLL1（d（i），d~（i）），（6）i=1其中d（i）和d~（i）是发生器的输出，并且在标度（i）处获得，L1（d（i），d~（i））是标度（i）处的损耗，并且λm是相同标度处的损耗的权重。我们定义三个缩放1/2i，其中i ∈ {0，1，2}，如图5所示进行分箱。F或标度（i），我们定义LL1（d（i），d（i））为平均绝对误差通过将这些图像合并到多个尺度的深度图中。我们的生成器由4对卷积组成，每对卷积后都有一个最大池化操作。编码器部LL1（d（i），d（i））=1ΣNj，k（一）JK~（i）JK|,(7)生成内部贴图1、1、1和1原始输入其中下标jk在这里指示离散化的bin corre。2 4 8 16尺寸解码器由四个附加卷积组成，每一对都有转置卷积。由于深度估计与输入共享语义，因此我们使用对称跳过连接，参见图5。响应于像素位置（j，k）。当用合成数据训练时，我们在所有像素上计算LL1。训练对于真实数据，我们仅计算包含至少一个激光雷达采样点的面元处的损失L1的定义是在这篇文章中，我们使用PatchGAN变体来最好地（一） ~（i）1美元（i）~（i）（一）表示高频图像内容。为此我们定义一个具有五层的全卷积网络，LL1（d，d ）=的Nj，k|（8）第一次见面|mjk (8)层，由步长为2的4x 4内核和斜率为0.2的泄漏Re-LU组成。该网络对密集深度图的重叠部分而不是整个地图进行分类。-|D1511其中，当仓（j，k）包含至少一个激光雷达样本时，m_jk = 1，否则，m_jk=0。对于较小的规模，我们对每个箱的所有样本进行平均。1512加权平滑损失（Lsmooth）我们依赖于附加的平滑损失Lsmooth来正则化深度估计。具体来说，我们使用总变异损失加权由输入图像梯度[62]，即一万八千六千四千两千0真实数据集清雪雾四千两千0合成数据集城市道路L光滑1Σ=|xNi、jdi，j|x z i，j|+的|yd|∂yd i、j|y z i，j|、（9）|,(9)图6：数据集分布。其中z在这里是输入图像。由于旋转扫描设置，稀疏激光雷达数据在水平线上采样，因此在此数据上训练的生成器偏向于具有相似水平模式的输出我们发现，增加垂直梯度相对于水平梯度的权重有助于缓解这个问题。对抗性损失（Ladv）我们使用PatchGAN [25]鉴别器定义[38]图7：真实数据集示例（rgb/门控/激光雷达）。Ladv=Eyp（y）[（D（y）−1）2]+2（十）图8：合成数据集的示例（rgb/门控/深度）。眼睛安全条例我们的参考激光雷达系统-1E2xp门控（x） [（D（G（x）2]以10 Hz的频率振荡，得到64条谱线。所有传感器均校准-注意，鉴别器在第二训练阶段中是固定的4.2. 培训和实施详情我们使用 ADAM 优化器，学习率设置为0.0001。对于全局损失函数，我们通过实验确定λ s=0。0001且λ a= 0。001。对于多尺度损失，我们定义λ m0=1，λ m1=0。8，且λ m2=0。六、整个系统以25 Hz的实时速率运行，包括所有捕获和推断（在单个TitanV上）。5. 数据集在本节中，我们将描述用于训练和评估所提出的方法的真实和合成数据集。真实数据集据我们所知，我们提供了第一个远程门控数据集，涵盖了4，000公里野外采集期间的雪、雨、城市和郊区驾驶。为此，我们为测试车辆配备了标准RGB立体摄像头（Aptina AR 0230）、激光雷达系统（ VelodyneHDL64-S3 ）和门控摄像头（BrightwayVision BrightEye），该摄像头带有集成到前保险杠中的泛光光源，如图1所示。两个摄像头都安装在挡风玻璃后面安装在屋顶上。立体相机的运行频率为30 Hz，分辨率为1920x1080像素。门控摄像机提供10位图像，分辨率为1280x720，帧率为120 Hz，我们将其分为三个切片，再加上一个额外的环境捕获，而无需主动照明。该汽车配备了两个垂直腔面发射激光器（VCSEL）模块，它们是扩散的，波长为808nm，每个脉冲光输出峰值功率为500W。峰值功率受限于校准和时间同步。在为期4周的采访中，...在德国，丹麦和瑞典的比赛时间，我们在不同的城市（汉堡，克瓦希涅夫斯基，哥德堡，瓦尔达，卡尔斯塔德，厄勒布鲁，沃斯特，斯德哥尔摩，乌普萨拉，加夫勒，Sundsvall，基尔）记录了17，686帧。图6显示了完整数据集的分布，图7显示了定性的示例测量。我们在夜间和白天以及各种天气条件（晴朗，下雪，雾）下拍摄图像。将晴朗天气条件下的样本（14，277）分成训练集（7，478天/4，460夜）和测试集（1，789天/550夜）。由于雪和雾干扰激光雷达数据，我们不使用雪或雾的数据进行训练。合成数据集虽然现有的模拟数据集包含RGB和深度数据，但它们没有提供足够的信息来合成需要NIR建模和阳光照明的真实门控测量。我们修改GTA5基于模拟器从[45]来解决这个问题。详细说明见补充文件。我们模拟了9，804个样本，使用了8，157个（5，2791，647人（1，114日/ 533夜）用于测试。可视化见图6和图8。6. 评估评估设置我们比较所提出的方法对国家的最先进的深度估计方法。作为每像素基线方法，我们比较了来自方程的最小二乘基线。（4）和对亚当等人的贝叶斯估计。[2]的文件。我们比较了最近的方法，使用单眼RGB图像[16]，立体图像[8]和天晚上天晚上样品深度11513RGB图像结合稀疏激光雷达点[37]。为了完整性，我们还评估了应用于门控切片积分的单眼深度估计[ 16 ]，即一个主动照明的场景图像没有门控，我们称之为全门控图像。此外，我们还展示了仅在全门控图像上训练的Gated2Depth，验证了粗门控本身的好处对于Go-dard et al.[16]，我们将图像大小调整为模型训练的原生大小对于所有其他算法，我们没有观察到这种行为，我们使用全分辨率图像。为了进行公平的比较，我们对从最佳可用模型开始的真实数据集的训练集中获取的RGB立体对进行了微调[16为了在模拟中进行比较，我们校准了实验激光雷达系统的采样模式，并将该模式用于稀疏到密集[37]方法。对于[24]，我们只有一个硬件实现在我们的测试车辆中运行，不允许合成评估。我们用[13]中的度量来评估这些方法方法RMSEARD MAEδ 1δ 2δ3投诉[m][m][%][%][%][%]模拟数据即RMSE、MAE、ARD和δ i <1.一、25i，i∈{1，2，3}。在合成数据集上，我们计算度量在整个深度图上。在真实的数据集上，我们仅在对应于测量的稀疏激光雷达点的预测像素处放置度量。我们观察到我们的激光雷达参考系统在大于80米的距离处退化，因此我们将我们的评估限制在80米。为了与依赖于激光照明的方法进行公平比较，我们不对非照明像素进行评估，并且同时引入描述评估多少地面实况像素的完整性度量。由于[z1，z2，z3]是一组输入门控切片，我们将非照明像素定义为满足max（[z1，z2，z3]）−min（[z1，z2，z3]）<55.该定义使我们能够避免在极端距离和非常低的SNR下对异常值进行评估。6.1. 合成数据集的结果表1（顶部）示出了所提出的方法以大幅度优于所有其他参考方法。没有门控图像的第二好方法是基于激光雷达和RGB的深度补偿[36]，其产生比单目或立体方法更好的结果，因为其使用稀疏激光雷达地面真实样本作为输入。虽然monocular方法难以恢复绝对比例，但由于有限的基线，立体方法在大距离范围内实现低精度图9c显示了我们的方法的输出示例，并将其与其他方法进行了比较。我们的方法在近距离和远距离都能捕捉到更好的细粒度细节。6.2. 真实数据集上的结果表1（底部）示出了所提出的方法优于所有比较的方法，包括使用表1：我们提出的框架和最先进的方法在看不见的合成和真实测试数据集上的比较GTINPUT：使用稀疏地面实况作为输入。FT：根据我们的真实数据进行了精细调整的模型。地面实况激光雷达点作为输入[37]。因此，该方法实现了与扫描激光雷达系统相当的高深度精度，同时相比之下，提供了密集的深度。此外，表1验证了使用多个切片与单个连续照明图像相比的益处。图9a和9b将密集深度估计和由我们的方法捕获的场景细节与现有技术的方法相比可视化。特别是对于行人或小的场景对象周围的细节，所提出的方法实现了更高的分辨率。在图9a的示例中，我们的方法示出了所有场景对象（两个行人，两辆汽车），其也在两种门控每像素估计方法中被恢复，但不是以高密度。虽然稀疏深度完成方法错过了主要的场景对象，我们的方法保留了所有的。对于图9b中的柱和广告栏，在第二示例中可以观察到相同的情况。图10示出了我们的方法在（看不见的）下雪条件下的鲁棒性。虽然激光雷达显示出强烈的杂波，但我们的方法提供了非常清晰的深度[16]第十六话74.400.6258.477.7613.6729.17100DEPTH FROM MONOONFULLGATE [16]84.480.6968.742.537.0320.33100DEPTH从STEREO72.670.6759.944.7310.8819.05100激光雷达上的S解析到D ENSE（GT输入）[37]64.080.3342.3356.7463.1967.87100DEPTH FROMTO F，REGRESSIONTREE [2]40.330.4526.0337.3355.9668.4745东广场30.450.2918.6660.8277.4183.6134GATE2DEPTH12.990.073.9694.2497.2898.34100模拟数据[16]第十六话75.680.6359.956.2714.1428.28100DEPTH FROM MONOONFULLGATE [16]81.670.6966.442.718.4320.04100DEPTH从STEREO75.040.7062.063.768.8614.97100激光雷达上的S解析到D ENSE（GT输入）[37]60.970.3139.6358.8465.3069.77100DEPTH FROMTO F，REGRESSIONTREE [2]27.170.5220.0525.5347.7766.3023东广场15.520.3610.3255.4473.2982.3516GATE2DEPTH9.100.052.6696.4198.4799.16100实时数据[16]第十六话16.870.3811.6421.7463.1580.96100[16]第16话：我的世界11.410.236.1876.6489.5394.19100DEPTH FROM MONOONFULLGATE [16]16.260.3610.1954.0374.4485.00100DEPTH FROM MONO ON F. [16]（FT）15.410.5211.3331.7271.2388.74100DEPTH从STEREO14.580.218.3468.7582.6389.36100DEPTH FROMSTEREO [24]15.510.368.7563.9476.1982.3163激光雷达上的S解析到D ENSE（GT输入）[37]8.790.214.3887.6493.7495.88100DEPTH FROMTO F，REGRESSIONTREE [2]10.540.246.0176.7389.7493.4540东广场13.130.428.8843.6055.8063.5431GATED 2DEPTH-FATED14.860.298.8458.7958.7979.84100GATE2DEPTH8.390.153.7987.5293.0095.21100实际数据对激光雷达格鲁恩d真值点）[16]第十六话17.670.3712.2813.8760.9379.17100[16]第16话：我的世界10.240.185.4780.4991.7895.61100DEPTH FROM MONOONFULLGATE [16]13.890.248.5060.0579.6289.92100DEPTH FROM MONO ON F. [16]（FT）13.330.409.5136.6481.6392.86100DEPTH从STEREO13.940.197.7871.3284.6791.38100DEPTH FROMSTEREO [24]9.630.174.5985.8092.7295.2086激光雷达上的S解析到D ENSE（GT输入）[37]8.210.164.0588.5294.7196.87100DEPTH FROMTO F，REGRESSIONTREE [2]15.830.4911.4056.3075.5482.4523东广场19.520.7514.0543.4254.6363.7616GATED 2DEPTH-FATED13.750.268.1662.4862.4882.93100GATE2DEPTH7.610.123.5388.0794.3296.601001514RGB全选通激光雷达Gated 2Depth Gated 2Depth-全选通最小二乘[m]8060回归树[2]激光雷达+RGB [37]立体声[24]立体声[8]单门[16]（FT）单眼[16]（FT）4020(a) 夜间实验结果。RGB全选通激光雷达Gated 2Depth Gated 2Depth-全选通最小二乘[m]8060回归树[2]激光雷达+RGB [37]立体声[24]立体声[8]单门[16]（FT）单眼[16]（FT）4020(b) 实验日间结果。RGB全门控深度GT门控2Depth最小二乘回归树[m]15010050(c) 白天模拟结果。图9：我们的方法和参考方法在真实和合成实例上的定性结果。对于每个示例，我们包括相应的RGB和全门控图像以及激光雷达测量。与其他方法相比，我们的方法在场景的不同距离范围内生成更准确和详细的地图对于（c）中的模拟结果，我们仅显示根据模拟数据微调的模型。RGB激光雷达在Snow Gated2Depth图10：雪地中强后向散射的结果，行人周围和天空中的激光RGB最小二乘门控2Depth图11：多径干扰。与现有的方法，如最小二乘法相比，我们的方法消除了大多数多径干扰（在这里的道路上）。估计，作为门控成像采集本身的副产品图11比较了每像素估计与所提出的方法。该方法能够填充阴影和低反射率的表面。多径干扰是通过使用存在于整个图像中的上下文信息来抑制的7. 结论和未来工作在这项工作中，我们把一个CMOS门控相机成一个成本敏感的高分辨率密集闪光激光雷达。我们提出了一个一种新的迁移学习方式，允许我们利用具有稀疏深度标签的数据集进行密集深度估计。所提出的方法优于最先进的方法，我们在模拟和实验中验证了户外捕获的大深度范围高达80米（受扫描参考激光雷达系统的范围限制）。未来研究的一个有趣方向是RGB数据的包含，它可以在门控图像中变化信息很少的区域提供额外的然而，融合RGB图像天真地作为一个广告的输入通道，以建议的架构将导致严重的偏见，由于反向散射失真，见图2，这是正确处理的建议系统，TEM。所提出的方法的令人兴奋的未来应用包括大规模的语义场景理解和动作识别使用所提出的架构，无论是数据集生成或在端到端的方式。这项工作已经收到了欧盟在H2020 ECSEL计划下的资助，作为DENSE项目的一部分，合同号692449。WernerRitter在Daimler AG监督了这个项目，Klaus Dietmayer在Ulm大学监督了这个项目。我们感谢Robert Bhler、Stefanie Walz和Yao Wang帮助处理大型数据集。我们感谢Fahim Man-nan对手稿进行了富有成效的讨论和评论。1515引用[1] 作者： Joseph R. 威廉 · 巴特尔斯 Whittaker ， KiriakosN.Kutulakos和Srinivasa G.纳拉希姆汉Epipo- lar飞行时间成像。 ACM Transactions on Graphics （ ToG ）， 36（4）：37，2017。1、4[2] Amit Adam，Christoph Dann，Omer Yair，Shai Mazor，and Sebastian Nowozin.实时形状、照明和反射的贝叶斯飞行时间。IEEE Transactions on Pattern Analysis andMachine Intelligence，39（5）：851-864，2017。三六七八[3] 皮埃尔·安德森使用距离选通激光雷达图像的远程三维成像。光学工程，45（3）：034301，2006. 3[4] 布莱恩·F.作者：Andrew H. 作者：Douglas J. 作者：Richard M. 作者： Bradley J. 作者： Peter J. Daniels 和Deborah J.兰德斯用于三维成像的盖革模式雪崩光电二极管。 Lincoln Laboratory Journal ， 13 （ 2 ）： 335-349，2002. 1[5] Danilo Bronzi、Yu Zou、Federica Villa、Simone Tisa、Alberto Tosi和Franco Zappa。通过单光子计数SPAD相机实现汽车 IEEETransactionsonIntelligentTransportation Systems，17（3）：782-795，2016。1[6] 延斯·布斯克水下三维光学成像与选通观察激光雷达。光学工程，2005年。3[7] Jens Busck和Henning Heiselberg。门控观察和高精度三维激光雷达。应用光学，43（24）：4705-10，2004. 3[8] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。二、六、七、八[9] Richard Chen ， Faisal Mahmood ， Alan Yuille ， andNicholas J Durr.用对抗训练重新思考单眼深度估计arXiv预印本arXiv：1808.07528，2018。2[10] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年。二、三[11] 赵晨，维贾伊·巴德里纳拉亚南，吉拉德·卓兹多夫，安德鲁·拉比诺维奇.从RGB和稀疏感测估计深度。IEEE欧洲会议论文集2018年9月在Computer Vision上发表。3[12] 帕特里夏·科茨辐射寿命测量中光子堆积的修正物理学杂志E：科学仪器，1（8）：878，1968。1[13] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，第2366-2374页，2014年。一、二、七[14] Alessandro Foi、Mejdi Trimeche、Vladimir Katkovnik和Karen Egiazarian。单幅图像原始数据的实用泊松-高斯噪声建模与拟合。 IEEE Transactions on ImageProcessing，17（10）：1737-1754，2008. 4[15] Ravi Garg，B.G. Vijay Kumar，Gustavo Carneiro和IanReid。用于单视图深度估计的无监督CNN：几何学拯救了我们。在IEEE欧洲会议论文集中。计算机视觉，第740-756页，2016年。3[16] Cle' mentGodard，OisinMacAodha，andGabri elJBr

下载后可阅读完整内容，剩余1页未读，立即下载