几何感知对称域自适应单目深度估计新方法

139 浏览量更新于2025-01-16 收藏 12.57MB PDF 举报

"基于几何感知的对称域自适应单目深度估计" 在计算机视觉领域，单目深度估计是一项重要的技术，它旨在从单张图像中推断出场景的三维深度信息。随着深度学习的发展，尤其是深度卷积神经网络（DCNNs）的应用，单目深度估计的准确度有了显著提升。然而，依赖于带有地面真实深度标签的大量训练数据是这些模型的一大挑战，而这样的数据通常获取困难且成本高昂。为了解决这一问题，研究者们转向了无监督学习方法，如利用几何线索来训练深度估计网络。尽管这些方法可以避免依赖真实深度标签，但它们的性能往往受光照变化、遮挡和图像模糊等因素的影响，不如有监督学习稳定。因此，一种新的策略是利用域适应技术，从具有深度标签的合成图像中迁移知识到真实世界的数据。本文提出的“基于几何感知的对称域自适应框架”（GASDA）正是针对这一问题的解决方案。GASDA强调了目标域（真实数据）中自然图像的几何结构对于高性能深度预测的重要性。该框架同时利用了合成数据的深度标签和真实数据中的极线几何信息，这是一种几何感知的策略。通过在端到端网络中采用对称训练，GASDA不仅优化了图像风格转换，还能生成更高质量的深度图。实验结果显示，GASDA方法的有效性，并且与现有的先进方法相比具有竞争力。这种创新的域适应策略为深度估计提供了一个新的视角，特别是在处理真实世界数据时，能够更好地应对光照、遮挡等复杂条件，提高了深度预测的鲁棒性。该研究的贡献在于： 1. 提出了一种几何感知的对称域自适应方法，结合了合成数据的标签信息和真实数据的几何特性。 2. 设计了端到端的网络结构，包括两个图像风格转换器和一个深度估计器，通过对称训练实现更好的图像转换和深度生成。 3. 实验验证了GASDA在无监督深度估计上的优越性能，与当前最佳方法相比表现优秀。 GASDA为单目深度估计提供了一个新的范例，特别是在利用合成数据进行域适应时，如何更好地捕捉和利用真实数据的几何特性。这种方法对于推动无监督深度估计技术的进步具有重要意义，并且其代码公开，有助于其他研究者在此基础上进行进一步的研究和开发。

DMDE

T2S

DMDE

AdaDepth [26]

S2T

DMDE

T2Net [59]

S2T

T2S

MDE

GASDA

3.2. GASDA

g a n

s2t

, D

, X

) =E

∼X

) − 1]+

∼X

s2t

))],

g a n

t2s

, D

, X

) =E

∼X

) − 1]+

∼X

t2s

))].

(1)

cyc

t2s

, G

s2t

) = E

∼X

[||G

t2s

s2t

)) − x

]

9790

基础

图2：使用域自适应进行单目深度估计的不同框架。从左到右：[26]中提出的方法，[59]中提出的方法以及本文中的方法。S，T，F，S2T（T2

S）和D分别表示合成数据，真实数据，提取的特征，生成的数据和估计的深度。AL和MDE分别表示对抗性损失和单目深度估计。与现有方法

相比，我们的方法利用了真实的立体数据，并在翻译过程中考虑了合成到真实以及真实到合成。

etal.

[59]开发了一个端到端的自适应网络，即T2Net，其中翻译

网络和深度估计网络被共同优化，以便它们可以相互改进。

然而，这些工作忽视了目标域自然图像的几何结构，而这对

于深度估计[16,

14]非常重要。受到这一观察的启发，我们提出了一种新颖

的几何感知的对称域自适应网络，即GASDA，通过利用立

体图像的极线几何关系。GASDA与先前的深度自适应方法[

26,59]之间的差异如图2所示。

3.方法

3.1.方法概述

给定一组N个合成图像-深度对{(xis,yis)}Ni=

1（即源域X

s），我们的目标是学习一个能够准确预测目标域X

t（即目标域）中自然图像深度的单目深度估计模型。由于

域偏移，很难保证模型能够很好地推广到真实数据[2,

59]。因此，我们通过利用立体图像之间的极线几何关系并

开发一种几何感知的对称域自适应网络（GASDA）来提供

一种解决方案。我们的GASDA包括两个主要部分，包括风

格转换网络和单目深度估计网络，与现有的工作不同[2,59,

26]，我们同时考虑合成到真实[59]和真实到合成的转换[2,

26]。因此，我们可以分别在原始合成数据（X

s）和生成的逼真数据（Gs2t（Xs））上使用生成器Gs2

t以监督的方式训练两个深度估计器Fs和F

t。这两个模型是互补的，因为Fs具有干净的训练集X

s，但由生成器Gt2s生成的测试集Gt2s（X

t）存在噪声，如失真和模糊，由于不满意的转换，F

t则相反。然而，由于深度信息与特定场景几何相关，而源

域和目标域之间的特定场景几何可能不同，因此在Xs或Gs

2t（Xs）上训练的模型可能在Gt2s（Xt）或X

t上表现不佳。为了提供解决方案，我们利用了

在训练过程中利用真实立体对的极线几何结构{（xitl，xi

tr）}Mi=1（xitl和xit

r分别表示左图像和右图像2）来鼓励Ft和F

s捕捉目标/真实数据的相关几何结构。此外，我们引入了额

外的深度一致性损失，以确保Ft和F

s的预测在局部区域内一致。GASDA的整体框架如图3所示

。为简单起见，我们在大多数情况下省略上标i。

双向风格转换损失我们的目标是学习双向翻译器Gs2t和G

t2s来弥合源域（合成）Xs和目标域（真实）X

t之间的差距。具体而言，以Gs2t为例，我们希望Gs2

t（xs）与X

t中的真实图像无法区分。因此，我们使用一个鉴别器D

t，并通过进行最小最大博弈来以对抗方式训练Gs2t和D

t，遵循[20]。对抗性损失表示为：

不幸的是，普通的GAN会遭受模式崩溃。为了提供补救措施

并确保输入图像和输出图像以有意义的方式配对，我们使用

循环一致性损失[61]。具体来说，当按顺序将图像xs

输入到Gs2t和Gt2s中时，输出应该是xs

的重建，对于xt也是如此，即Gt2s(Gs2t(xs))≈

xs和Gs2t(Gt2s(xt))≈xt

。循环一致性损失的形式如下：

+ExtXt[||Gs2t(Gt2s(xt))−xt||1].(2)

除了对抗损失和循环一致性损失，我们还使用身份映射损失[

48]来鼓励生成器保留几何内容。

2在大多数情况下，我们将省略左图像的下标l。

剩余10页未读，继续阅读

cpongm

粉丝: 6

几何感知对称域自适应单目深度估计新方法

几何无监督域自适应：提升模拟到真实世界语义分割性能

点云领域自适应：基于几何感知隐式的非监督学习新方法

基于共焦图像序列的自适应聚焦度量场景深度估计方法研究

基于几何结构块和自适应邻域的SAR降噪混合方法

几何感知的无监督域自适应_Geometry-Aware Unsupervised Domain Adaptation.pdf

用于点采样几何的曲率感知自适应重采样

基于共焦图像序列的自适应聚焦度量场景深度估计方法

基于自适应几何分析的高效交互式导航

基于深度学习网络的神经元自适应投影分类方法.pdf

点云拼接新方法：几何+图像特征自适应配准

最新资源