门控图像自监督深度估计：无监督替代LiDAR

130 浏览量更新于2024-06-19 收藏 1.52MB PDF 举报

门控图像的自监督深度估计方法是一种新兴的技术，它有望改变现有3D深度感知领域的格局，特别是在替代传统的扫描激光雷达（LiDAR）方面。相较于LiDAR，门控相机通过非连续的光脉冲照射和捕获图像，能够在复杂环境如雾、雪和雨中提供高分辨率的深度信息，且无需依赖同步和校准。然而，先前的研究依赖于同步的LiDAR数据进行监督，这限制了其广泛应用和大规模训练的能力。在本研究中，研究人员提出了一种创新的完全自我监督深度估计方法，它摒弃了外部监督，仅利用门控图像的数据进行训练。这个方法的关键在于利用门控强度轮廓和时间一致性作为学习信号，通过端到端的深度估计模型来重建门控视频序列。模型能够处理包含阴影和反射的复杂场景，通过比较给定帧与相邻门控切片的时间一致性来估计深度信息。相比于传统的单目RGB和立体RGB图像深度估计，以及基于门控图像的监督方法，这个自监督方法展现出更强的鲁棒性和适应性。它能够在没有LiDAR或RGB数据的情况下进行训练，使得深度估计更加灵活，可以在地理范围广泛的场景中快速部署，并且有可能扩展到自动驾驶、机器人、遥感、增强现实和虚拟现实等领域的多种应用场景。为了实现这一突破，研究人员开发了一个开源代码库（<https://github.com/princeton-computational-imaging/Gated2Gated>），供学术界和工业界同仁进一步研究和改进。这种方法的推广将极大地推动门控相机技术的发展，使之成为未来智能设备中不可或缺的3D感知元件。

展开

2813

不

图1.门控相机由同步门控相机和闪光脉冲照明源（d）组成。

使用不同的曝光门，图像形成可以用三种方式来描述

根据

距离r

[

]

绘制

的

距离

强度分布C

，

∈

{ 0

，

2 }

，以

及环境的未调制

的

场景对照，

第所有曝光的叠加显示为绿色（b）。（f）短距离3-72米的

深红色，（g）中等距离18-123米的汽油，（h）远距离57-

176米的灰色和（c）橙色的环境光（Z

）的个人范围强度分

布图。场景的相应RGB捕获在（a）中示出。

反射光的回声有100

倍的

延迟。通过CMOS成像传感

器捕获反射光，该传感器仅捕获到达具有轮廓的

G.根据Gruber

等人的

研究[23]，我们将单门控暴露表示

为

（r）

α C

（r）

具有延迟

{

，

}

和未调制的

NIR

被动图像

如图1所示。本机帧速率为

不

120 Hz，建议的门控摄像机提供了一整套

在30 Hz下观察。

自监督选通深度估计

所提出

的

方法学习预测深度，

而

无需

来自LiDAR或

模拟的地面实况监督。为此，我们利用门控图像的循

环测量一致性和深度预测中的时间一致性。自我监督

使我们能够克服在LiDAR地面实况上训练的方法的有

限深度范围（80 m），并消除LiDAR和相机之间的复

杂同步过程。此外，我们可以在恶劣的天气条件下训

练我们的模型，例如，雾、雨或雪，基于激光雷达的

地面实况不可用。

所提出的

Gated2Gated

架构如图

所示。虽然我们

的模型在输入门控切片方面是通用的，但我们在每

个时间

考虑三个切片

，

2。门控测量值

是关联的

在张量Z

中，该张量

被馈送到三个卷积神经网络，该卷积神

经网络将输入解纠缠成反射光、环境光和深度，然后

使用循环损失来重建输入切片。解纠缠类似于[41，

52]，其中训练网络将传统RGB图像分解为RGB和照明

分量。除了这种新的基于门控成像的训练信号，我们

利用时间上的一致性，

∫

∞

（t

−

ε）p

（

）

−

（

）

，

相邻的门控帧来处理阴影和多路径反射区域。

具体而言，所提出的架构由以下部分组成

−∞

三个网络。第一个网络预测密集深度

其中，

（

）是距离处的门控曝光，索引为

每个门控张量

的

映射，记为

：

→

的

和时间

（

）是距离强度分布，即，的

门控切片及其相应脉冲的卷积

剖面;α是表面反射率（λ），β是由于大气相互作用而

沿给定路径的衰减

第二个网络也将

作为输入，并预测环境

和环境，表

示为

：

→

（

，

）

。第三个网络

以两个

时间相邻的门控张量作为输入

（

，

）

，并预测刚性

6DoFp o

。

转变与

和平

深度相关路径衰减在下式中变为统一。

没有任何媒体参与。

从

到

，记为

→

，

0 1

我们注意到，在白天，该模型是不完整的

这是由于NIR波段内的高光谱太阳能导致大量未调制

光子被捕获为环境光Λ分量。我们将[23]中的模型修

改为

（r）=α

（r）+

（

二）

与其他基于CMOS的传感方法类似，门控成像也会受

到噪声的影响，可以使用信号相关的泊松η

和高斯η

进行建模，从而导致

（

）

。

（

3）

在这项工作中，在给定的时间

，我们捕获三个连

续的

下载后可阅读完整内容，剩余14页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

门控图像自监督深度估计：无监督替代LiDAR

ChiTransformer：光学视觉的立体匹配与深度估计新方法

改进无监督单目深度估计算法实现RGB-D模型架构

人脸识别技术深度解析：MATLAB图像特征提取

深度学习中无监督单目深度估计算法改进-基于RGB-D模型架构的设计与实验

深度学习课件8份，自己整理的

【神经网络与反向传播】：构建深度网络模型，深度探索监督学习

Transformer-Unet架构深度剖析：揭秘其在医学图像分割中的卓越性能

【深度学习与监督学习】：实战指南，选择最合适的算法

【图像恢复的艺术】：len图像的奇迹复原技巧

SAR图像数据的机器学习处理：自动识别与分类的未来趋势

最新资源