深度神经网络在单目深度估计中的进步与局限

PDF格式 | 1.29MB | 更新于2025-01-16 | 38 浏览量 | 举报

"神经网络在单个图像深度估计的研究进展及其局限性" 深度学习，特别是神经网络，已经在单个图像深度估计领域取得了显著的进步。深度估计是指从单张图像中推断出场景的三维深度信息，这对于自动驾驶、机器人导航和虚拟现实等应用至关重要。传统的立体视觉和光流方法依赖多视角信息或时间序列图像，但神经网络现在能够从单个图像中提取深度线索。深度神经网络通过学习图像特征与深度之间的关系来估计深度。这些网络通常采用卷积神经网络（CNN）架构，能够自动学习从图像像素到深度的映射。然而，尽管性能不断提升，对于网络究竟学会了哪些深度线索的分析却相对较少。研究表明，现有的深度估计网络往往忽视了已知物体的实际大小，而更多地依赖于物体在图像中的垂直位置作为深度线索。这需要已知的相机姿态，尤其是俯仰角和滚转角。然而，网络对相机姿态变化的识别并不完全准确，微小的俯仰变化就可能干扰深度估计。尽管如此，这种对垂直位置的依赖使得网络能够在未见过的障碍物上进行深度预测。早期的方法，如基于X轴塑形的算法，利用纹理梯度和物体形状信息来推断深度，但这些方法在非结构化环境中的表现受限。另一方面，物体的外观尺寸可以提供深度信息，但这需要环境知识，难以手动编程。近年来，随着硬件性能的提升和机器学习技术的发展，如Eigen等人和Garg等人的工作，深度估计网络可以直接从数据中学习，无需真实深度图的监督，甚至可以从立体图像对中以无监督的方式学习。尽管深度估计网络在单个图像上的性能不断提高，但仍存在一些局限性。首先，它们对图像线索的利用可能过于依赖某些特定条件，如垂直位置，这限制了泛化能力。其次，对相机姿态变化的不敏感可能导致在实际环境中的估计误差。最后，网络可能过度拟合训练数据，对未见过的场景或物体类型可能表现不佳。未来的研究方向可能包括更好地理解网络如何学习深度线索，提高网络对各种环境和光照条件的适应性，以及开发能有效结合几何和语义信息的深度估计模型。此外，无监督学习和自我监督策略的进一步探索有望减少对大量标记数据的依赖，从而推动深度估计技术的普及和应用。

神经网络如何在单个图像中看到深度

汤姆·范·迪克代尔夫

特

荷兰代尔夫特

J.C.vanDijk-tudelft.nl

Guido de Croon

Technische Universiteit

Delft

荷兰代尔夫特

G.C.H.E. tudelft.nl

摘要

深度神经网络已经导致从单个图像进行深度估计的

突破。最近的工作表明，这些估计的质量正在迅速提

高。很明显，神经网络可以在单个图像中看到深度然

而，据我们所知，目前还没有研究分析这些网络学到

了什么。

在这项工作中，我们采取了四个以前发表的网络，

并调查他们利用什么深度线索。我们发现，所有的网

络都忽略了已知障碍物的明显大小，而倾向于它们在

图像中的垂直位置。使用的垂直位置需要的相机姿势

是已知的，但是，我们发现，这些网络只有部分

recg-

nize

相机俯仰角和滚转角的变化摄像机俯仰的微小变化

会干扰对障碍物的估计垂直图像位置的使用允许网络

估计任意障碍物的深度

即使是那些没有出现在训练集

中的障碍物

介绍

立体视觉允许使用多个相机来估计绝对深度。当仅

可以使用单个相机时，光流可以提供深度的测量;或者

如果图像可以在更长的时间跨度上组合，则可以使用

SLAM这些方法倾向于将深度估计视为纯粹的几何问

题，而忽略了图像的

内容

当只有

单个

图像可用时，不可能使用对极几何。相

反，算法必须依赖于

图像线索

：指示单个图像中的深

度的线索，例如纹理梯度或已知对象的表观大小。从

X轴塑形方法（例如[18，1]，[14]，[7]）使用这些线

索中的一些来推断形状，但往往做出强烈的假设，使

它们难以在非结构化环境中使用，例如在自动驾驶中

看到的那些。其他线索，如物体的外观尺寸，

需要有关环境的知识，这是很难用手编程。因此，直

到最近，图像线索在这些场景中的使用相对较少。

随着更强大的硬件和更好的机器学习技术的到来--

使用机器学习的单目深度估计的最早示例之一由

Saxena

等人

在2006年发表。 [19 ]第 10段。 2014 年，

Eigenet al. [4]是第一个使用CNN进行单目深度估计的

人。[4]仍然需要一个真正的深度图进行训练，在2016

年Garg

等人

。提出了一种新的方案，允许网络直接从

立体声对中学习 [9]; 这项工作得到了进一步改进

Godardet al. [11]。并行地，已经开发了使用单目图像

序列以无监督方式学习单帧深度估计的方法，其中

Zhou

等人

的作品。[25] Wanget al.[23]这是一个例子。

最近的工作主要集中在单目深度估计的准确性上，其

中对公开可用的数据集（如KITTI [15]和NYUv2）进

行了

[20]表明神经网络确实

可以

从单个图像生成准确的深

度图。然而，据我们所知，没有任何工作存在，调查

他们

如何

做到这一点。

为什么了解这些神经网络学到了什么很重要？首

先，如果不知道网络的作用，就很难保证正确的路

由。对测试集的评估表明，它在这些情况下工作正

常，但它不能保证在其他情况下的正确行为。其次，

了解网络学到了什么可以为培训提供洞察力。用于训

练集和数据增强的附加指南可以从所学习的行为导

出。第三，它提供了转移到其他设置的洞察力。通过

对网络的理解，可以更容易地预测相机高度变化的影

响，以及这是否会开箱即用，需要数据增强甚至新的

训练集。

在这项工作中，我们采取了四个以前发表的神经网

络（MonoDepth by Godardet al.[11]，SfMLEarner

2183

下载后可阅读完整内容，剩余8页未读，立即下载

cpongm

粉丝: 6

深度神经网络在单目深度估计中的进步与局限

MATLAB实现的BP神经网络毕业设计论文详解

深度敏感信息提取在立体视觉感知中的研究进展

深度学习与稀疏回归结合：神经网络在偏微分方程模型发现的新进展

深度学习神经网络在力学模型参数估计中的应用研究进展.pdf

基于卷积神经网络和稀疏连接条件随机场的单图像深度估计

基于深度学习的单目视觉深度估计研究综述.pdf

基于卷积神经网络的立体深度计算

基于采样汇集网络的场景深度估计.docx

基于神经网络的电网运行趋势估计算法及应用.pdf

改进的神经网络非均匀性校正算法研究.pdf

最新资源