WSM与可靠性驱动的单目深度估计新法：深度图精进与顶尖性能

187 浏览量更新于2024-06-20 收藏 2.28MB PDF 举报

本文主要探讨了一种创新的单目深度估计算法，该方法结合了整条掩模（Whole Scene Masking, WSM）和可靠性求精技术。作者Minhyeok Heo, Jaehan Lee, Kyung-Rae Kim, Han-Ul Kim以及Chang-Su Kim来自韩国高丽大学电气工程学院，他们的研究聚焦于提升单目深度估计的精度和鲁棒性。首先，研究团队开发了一款深度定制的卷积神经网络（CNN），其核心在于设计了一种名为WSM的新型滤波器。WSM滤波器利用了场景在水平或垂直方向上深度变化趋势相对较小的特点，这有助于捕捉和学习更精确的深度信息。该CNN结构将WSM上采样块与ResNet编码器相结合，形成高效的信息提取模块。其次，为了增强深度估计的准确性，他们进一步在主CNN基础上增加了额外的层，专门用于评估和量化估计深度的可靠性。这种方法通过引入条件随机场（Conditional Random Field, CRF）进行优化，利用可靠性信息来修正和细化深度图，从而减少误差并提高一致性。与传统方法如手工制作的几何和语义特征相比，这项工作利用了机器学习的优势，特别是大规模标注数据驱动的CNN，能够自动学习和表示深度的内在模式，无需依赖人工特征工程。这种方法不仅考虑了单目深度估计固有的挑战，如缺乏立体匹配和视差等多源信息，还通过引入可靠性评估，克服了场景假设和数据限制的问题。实验结果显示，该算法在单目深度估计任务上表现出显著的优越性，实现了当前业界领先的成绩。研究的关键词包括单目深度估计、整条掩模、可靠性以及深度图细化，这些都是本文的核心贡献和研究亮点。整个研究过程体现了深度学习在计算机视觉领域的最新进展，对于提升单目深度估计的实用性和普适性具有重要意义。

M. Heo

等人

图2：六个物体类的宽度和高度分布，这是室内场景中经常观察到

的。中心红线指示第一和第三象限的块的中值和

底部

图距

。

大步走对于编码部分，一般来说，在非常大的数据集上预先训练的网

络，

例如

ImageNet [28]，在没有修改的情况下使用或使用较小的数据

集进行微调，以加快学习速度并减轻每个特定任务对大型训练数据集

的需求另一方面，解码部分使用解池化层或去卷积层来处理输入激活

以产生更高分辨率的输出图。换句话说，编码器压缩信号，而解码器

扩展信号。众所周知，收缩使网络具有理论上较大的感受野，而无需

不必要的许多参数[29]。此外，随着网络深度的增加，感受野变得更

大。因此，最近的深度网络，如VGGNet和ResNet-50，具有大于输入

图像大小的理论感受野[29，30]。

然而，即使在深度CNN的情况下，有效范围也小于理论感受野。

Luo

等人。

[30]观察到，并非感受野中的所有像素都有意义地影响输

出响应因此，仅使用局部图像区域中的信息来产生响应。这在深度估

计任务中尤其是不期望的注意，典型图像中的深度表现出非常强的水

平或垂直相关性。在图2中，我们分析了六个对象类的宽度和高度分

布，这些对象类在NYU深度数据集V2 [31]中的室内场景中观察到，其

中语义标签可用。例如，天花板是水平宽的，而门是垂直长的。而

且，这种物体内的平均深度变化非常小，小于0

。

3. 因此，为了可靠

地估计像素的深度，需要图像内的整个行或列中的所有信息。传统

CNN的有限有效感受野可能会降低深度估计性能。

为了克服这个问题，我们提出了一种新的过滤器，称为WSM，上

采样块。请注意，典型的卷积层执行零填充以保持与输入分辨率相同

的输出分辨率，并使用小尺寸的方形内核，

例如，

×1、3×3或5×5。

因此，典型的输出值

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

WSM与可靠性驱动的单目深度估计新法：深度图精进与顶尖性能

基于梯度掩模滤波的边缘细化算法

虹膜图像的掩模估计和特征匹配算法的研究

基于自定义掩模和模板匹配的多指针识别与读数方法.docx

基于深度神经网络的谱掩模估计基于传感器间数据比率模型的鲁棒DOA估计

基于图像局部方差分布的自适应反锐化掩模算法

基于相位掩模法的高阶布拉格波导光栅特性

基于多染色体遗传算法的像素化光源掩模优化方法

基于移动掩模曝光的聚酰亚胺连续微结构刻蚀工艺研究

基于梯度掩模的边缘细化算法提升边缘连续性

优化边缘提取算法：基于图像掩模与击中击不中变换的应用

最新资源