没有合适的资源?快使用搜索试试~ 我知道了~
97880基于几何感知的对称域自适应单目深度估计0赵珊珊1 傅欢1 龚明明2,3 陶大成101UBTECH悉尼人工智能中心,悉尼大学计算机科学学院,澳大利亚悉尼达令顿2008,2 匹兹堡大学生物医学信息学系,3卡内基梅隆大学哲学系0{ szha4333@uni., hufu6371@uni., dacheng.tao@ } sydney.edu.au mig73@pitt.edu0摘要0由于先进的深度网络架构,监督式深度估计已经取得了很高的准确性。由于很难获得地面真实深度标签,最近的方法尝试通过探索无监督线索以无监督方式学习深度估计网络,这些线索虽然有效,但可靠性不如真实标签。解决这一困境的新方法是通过域适应技术从具有地面真实深度的合成图像中转移知识。然而,这些方法忽视了目标域(即真实数据)中自然图像的特定几何结构,这对于高性能深度预测很重要。受到这一观察的启发,我们提出了一种基于几何感知的对称域自适应框架(GASDA),以同时探索合成数据中的标签和真实数据中的极线几何。此外,通过在端到端网络中对两个图像风格转换器和深度估计器进行对称训练,我们的模型实现了更好的图像风格转换和生成高质量的深度图。实验结果证明了我们提出的方法的有效性,并与最先进的方法具有可比性。代码将公开在:https://github.com/sshan-zhao/GASDA。01. 引言0单目深度估计[44, 45, 9,28]是计算机视觉领域的一个活跃研究领域。近年来,在深度卷积神经网络(DCNNs)成功用于从单个图像估计深度之后,这一任务取得了巨大的进展[9]。迄今为止,已经有很多后续工作[35, 30, 8, 31, 54, 51,10]对这项工作进行了改进或扩展。然而,由于所提出的深度模型是以完全监督的方式进行训练的,它们需要大量具有地面真实深度的数据,这在实践中是昂贵的。为了解决这个问题,已经提出了无监督单目深度估计[16, 57, 14,53],使用基于几何的线索,在训练过程中不需要图像深度对。不幸的是,这种方法往往容易受到光照变化、遮挡和模糊等因素的影响。与真实世界的数据相比,合成数据更容易获得深度图。因此,一些工作提出利用合成数据进行视觉任务[29, 37,7]。然而,由于从合成到真实的域转移,在合成数据上训练的模型往往在真实数据上表现不佳。为了解决这个问题,利用域适应技术来减少数据集/域之间的差异[2, 5, 37]。0真实图像0合成图像0真实转合成图像0合成转真实图像0地面真实深度0GASDA0图1:GASDA估计的深度。从上到下:目标域中的输入真实图像(KITTI数据集[38])和用于训练的合成图像(vKITTI数据集[11]),我们方法中的中间生成图像,地面真实深度图和使用GASDA估计的深度图。0使用合成数据通过域适应的现有方法[2, 26,59]在单目深度估计方面取得了令人印象深刻的性能。这些方法通常基于合成到真实的转换或反之进行域适应。然而,由于缺乏配对图像,图像转换函数通常会引入除了风格变化之外的不良失真。失真的图像结构严重降低了后续深度预测的性能。幸运的是,真实图像中的无监督线索,例如立体对,对可能的深度预测产生了额外的约束。因此,同时探索合成和真实图像以及相应的深度线索对于生成更高质量的深度图是至关重要的。受到上述分析的启发,我们提出了一种基于几何感知的对称域自适应网络(GASDA)用于无监督单目深度估计。该框架由两个主要部分组成,即对称风格转换和单目深度估计。受CycleGAN[61]的启发,我们的GASDA采用了合成到真实和真实到合成的转换,并基于真实立体图像的极线几何使用几何一致性损失。我们的网络通过合成域的地面真实标签以及真实域的极线几何进行学习。此外,通过在端到端的方式训练风格转换和深度预测网络,我们的模型能够在不失真几何和语义内容的情况下进行图像转换,从而实现01 在大多数情况下,我们将域名和数据集互换使用,表示相同的含义。Existing works [2, 26, 59] using synthetic data via do-main adaptation have achieved impressive performance formonocular depth estimation. These approaches typicallyperform domain adaptation either based on synthetic-to-realistic translation or inversely. However, due to the lack ofpaired images, the image translation function usually intro-duces undesirable distortions in addition to the style change.The distorted image structures significantly degrade the per-formance of successive depth prediction. Fortunately, theunsupervised cues in the real images, for example, stereopairs, produces additional constraints on the possible depthpredictions. Therefore, it is essential to simultaneously ex-plore both synthetic and real images and the correspondingdepth cues for generating higher-quality depth maps.Motivated by the above analysis,we propose aGeometry-Aware Symmetric Domain Adaptation Net-work (GASDA) for unsupervised monocular depth estima-tion. This framework consists of two main parts, namelysymmetric style translation and monocular depth estima-tion. Inspired by CycleGAN [61], our GASDA employsboth synthetic-to-realistic and realistic-to-synthetic transla-tions coupled with a geometry consistency loss based on theepipolar geomery of the real stereo images. Our network islearned by groundtruth labels from the synthetic domain aswell as the epipolar geometry of the real domain. Addition-ally, the learning process in the real and synthetic domainscan be regularized by enforcing consistency on the depthpredictions. By training the style translation and depth pre-diction networks in an end-to-end fashion, our model is ableto translate images without distorting the geometric and se-mantic content, and thus achieves better depth predictionperformance. Our contributions can be summarized as fol-lows:97890•我们提出了一种用于单目深度估计的端到端域自适应框架。该模型可以为图像风格转换和深度估计生成高质量的结果。0•我们展示了使用合成域中的地面真实深度和真实域中的极线几何训练单目深度估计器可以提升性能。0•我们在KITTI数据集[38]上展示了我们方法的有效性,并在Make3D数据集[45]上展示了其泛化性能。02. 相关工作0过去十年来,单目深度估计一直是研究的热点,因为它在3D场景理解中起着关键作用。典型的方法通过利用概率图模型(如MRFs)[45, 44, 33]和非参数技术[36, 24,0然而,这些方法在性能和效率上存在一些限制,因为它们使用手工设计的特征和低推理速度。最近的研究表明,可以通过依赖深度卷积神经网络(DCNNs)[9, 35, 22, 55, 41, 40,3, 30, 42,4]来获得性能优越的深度估计器。Eigen等人[9]开发了第一个端到端的深度估计深度模型,包括一个粗粒度网络和一个细粒度网络。为了利用图像特征之间的关系,Liu等人[35]提出在超像素级别将连续CRF与DCNN集成。虽然以前的工作将深度估计视为回归任务,但Fu等人[10]通过提出一种序数回归损失来解决离散范式中的深度估计,以鼓励深度值之间的序数竞争。监督深度估计的一个弱点是对带注释的训练图像的严格要求。为了缓解这个问题,一些值得注意的尝试通过立体对应的方式以无监督的方式进行深度估计。Xie等人[53]提出了Deep3D网络,通过最小化像素级重建误差来进行2D到3D转换。这项工作推动了后续无监督深度估计网络的发展[14, 16, 56,60]。具体而言,Garg等人[14]表明,根据极线几何,无监督深度估计可以被重新解释为图像重建问题。在Garg等人[14]之后,一些后续的工作通过利用左右一致性[16]改进了结构,通过半监督方式学习深度[27],并引入了时间光度约束[57]。域自适应[39]旨在解决在一个数据集上训练的模型由于数据集偏差而无法推广到另一个数据集的问题。在这个领域,以前的工作要么在特征空间上学习域不变表示[12, 13, 37,1, 19, 18,32],要么在特征或像素级别上学习源域和目标域之间的映射[43, 47, 17,58]。例如,Long等人[37]通过最小化最大均值差异(MMD)[21]来对齐源域和目标域的特征分布。Tzeng等人[50]提出在DCNN框架中同时最小化MMD和分类错误。Sun等人[47]提出使用相关对齐(CORAL)损失[46]来匹配两个域的深度特征的均值和协方差。对于深度估计的域自适应,Atapour等人[2]开发了一个两阶段的框架。具体而言,他们首先学习一个翻译器来使自然图像与合成图像无法区分,然后使用原始合成图像以监督的方式训练深度估计网络。Kundu等人[26]提出了一种内容一致的正则化方法来解决高维特征空间中由于域自适应而引起的模型崩溃问题。最近,ZhengSTDMDET2SALFSTFALDMDEAdaDepth [26]STS2TALFFALDMDET2Net [59]STS2TALT2SDMDEDMDEALGASDA3.2. GASDALgan(Gs2t, Dt, Xt, Xs) =Ext∼Xt[Dt(xt) − 1]+Exs∼Xs[Dt(Gs2t(xs))],Lgan(Gt2s, Ds, Xt, Xs) =Exs∼Xs[Ds(xs) − 1]+Ext∼Xt[Ds(Gt2s(xt))].(1)Lcyc(Gt2s, Gs2t) = Exs∼Xs[||Gt2s(Gs2t(xs)) − xs||1]97900基础0图2:使用域自适应进行单目深度估计的不同框架。从左到右:[26]中提出的方法,[59]中提出的方法以及本文中的方法。S,T,F,S2T(T2S)和D分别表示合成数据,真实数据,提取的特征,生成的数据和估计的深度。AL和MDE分别表示对抗性损失和单目深度估计。与现有方法相比,我们的方法利用了真实的立体数据,并在翻译过程中考虑了合成到真实以及真实到合成。0et al.[59]开发了一个端到端的自适应网络,即T2Net,其中翻译网络和深度估计网络被共同优化,以便它们可以相互改进。然而,这些工作忽视了目标域自然图像的几何结构,而这对于深度估计[16,14]非常重要。受到这一观察的启发,我们提出了一种新颖的几何感知的对称域自适应网络,即GASDA,通过利用立体图像的极线几何关系。GASDA与先前的深度自适应方法[26, 59]之间的差异如图2所示。03. 方法03.1. 方法概述0给定一组N个合成图像-深度对{(x i s, y i s)} N i =1(即源域Xs),我们的目标是学习一个能够准确预测目标域Xt(即目标域)中自然图像深度的单目深度估计模型。由于域偏移,很难保证模型能够很好地推广到真实数据[2,59]。因此,我们通过利用立体图像之间的极线几何关系并开发一种几何感知的对称域自适应网络(GASDA)来提供一种解决方案。我们的GASDA包括两个主要部分,包括风格转换网络和单目深度估计网络,与现有的工作不同[2, 59,26],我们同时考虑合成到真实[59]和真实到合成的转换[2,26]。因此,我们可以分别在原始合成数据(Xs)和生成的逼真数据(G s 2 t(X s))上使用生成器G s 2t以监督的方式训练两个深度估计器F s和Ft。这两个模型是互补的,因为F s具有干净的训练集Xs,但由生成器G t 2 s生成的测试集G t 2 s(Xt)存在噪声,如失真和模糊,由于不满意的转换,Ft则相反。然而,由于深度信息与特定场景几何相关,而源域和目标域之间的特定场景几何可能不同,因此在X s或G s2 t(X s)上训练的模型可能在G t 2 s(X t)或Xt上表现不佳。为了提供解决方案,我们利用了0在训练过程中利用真实立体对的极线几何结构{(x i t l,x it r)} M i = 1(x i t l和x i tr分别表示左图像和右图像2)来鼓励F t和Fs捕捉目标/真实数据的相关几何结构。此外,我们引入了额外的深度一致性损失,以确保F t和Fs的预测在局部区域内一致。GASDA的整体框架如图3所示。为简单起见,我们在大多数情况下省略上标i。0双向风格转换损失我们的目标是学习双向翻译器G s 2 t和Gt 2 s来弥合源域(合成)X s和目标域(真实)Xt之间的差距。具体而言,以G s 2 t为例,我们希望G s 2t(x s)与Xt中的真实图像无法区分。因此,我们使用一个鉴别器Dt,并通过进行最小最大博弈来以对抗方式训练G s 2 t和Dt,遵循[20]。对抗性损失表示为:0不幸的是,普通的GAN会遭受模式崩溃。为了提供补救措施并确保输入图像和输出图像以有意义的方式配对,我们使用循环一致性损失[61]。具体来说,当按顺序将图像 x s输入到 G s 2 t 和 G t 2 s 中时,输出应该是 x s的重建,对于 x t 也是如此,即 G t 2 s ( G s 2 t ( x s )) ≈ x s 和 G s 2 t ( G t 2 s ( x t )) ≈ x t。循环一致性损失的形式如下:0+ E x t � X t [ || G s 2 t ( G t 2 s ( x t )) − x t || 1 ] . (2)除了对抗损失和循环一致性损失,我们还使用身份映射损失[48]来鼓励生成器保留几何内容。02 在大多数情况下,我们将省略左图像的下标 l 。𝐺𝑠2𝑡𝐹𝑠𝐹𝑡𝐷𝑠𝐷𝑡𝐺𝑡2𝑠𝐹𝑡𝐹𝑠Ltrans(Gt2s, Gs2t, Dt, Ds) = Lgan(Gs2t, Dt, Xt, Xs)+ Lgan(Gt2s, Ds, Xt, Xs)+ λ1Lcyc(Gt2s, Gs2t)Ltde(Ft, Gs2t) = ||ys − ˜yts||.(5)Lsde(Fs) = ||ys − ˜yss||(6)+ µ||xt − x′tt||,+ µ||xt − x′st||,97910预测深度0预测深度0真实合成图像0真实到合成图像0右实际图像0左实际图像0深度一致性0几何一致性0几何一致性0GAN损失0L1损失0GAN损失0L1损失0图3:本文提出的框架。它由两个主要部分组成:图像风格转换和单目深度估计。i)风格转换网络,包括两个生成器(即 G s 2 t 和 G t 2 s)和两个判别器(即 D t 和 D s ),基于CycleGAN [61]。ii)单目深度估计网络包含两个互补的子网络(即 F s 和 F t)。为了简洁起见,我们省略了辅助输出。更多细节可以在第3节和第4.1节中找到。0身份映射损失如下:0L idt ( G t 2 s , G s 2 t , X s , X t ) = E x s � X s [ || G t 2 s (x s ) − x s || 1 ] + E x t � X t [ || G s 2 t ( x t ) − x t || 1 ]. (3) 双向风格转换的完整目标如下:0+ λ 2 L idt ( G t 2 s , G s 2 t , X t , X s ) (4) 这里, λ 1和 λ 2 是权衡参数。深度估计损失现在我们可以将合成图像渲染成目标域(KITTI)的“风格”,然后在合成域 X s中使用提供的地面真实深度进行监督训练深度估计网络 F t。在这里,我们最小化预测深度 ˜ y ts 和真实深度 y s之间的 ℓ 1 距离:0除了 F t ,我们还直接在 X s 上使用 ℓ 1损失训练一个补充的深度估计器 F s :0其中 ˜ y ss = F s ( x s ) 是 F s 的输出。 F s 和 F t都是减轻几何和语义不一致问题的重要支撑。0深度估计损失的完整形式如下:0L de ( F t , F s , G s 2 t ) = F sde ( F s ) + F tde ( F t , G s 2 t ) . (7)0几何一致性损失综合上述组件,我们已经制定了一个简单的深度对抗适应框架。然而,G s 2 t 和 G t 2 s通常是不完美的,这会导致预测结果 ˜ y st = F s ( G t 2 s (x t )) 和 ˜ y tt = F t ( x t )不理想。此外,先前的深度适应方法忽视了特定的物理几何结构,这些结构可能因场景/数据集而异。我们的主要目标是准确估计真实场景的深度,因此我们在训练阶段考虑目标数据的几何结构。为此,我们通过利用真实立体图像的极线几何和无监督线索,对 F t 和 F s引入几何约束。具体而言,我们使用预测的深度从右图像生成逆向变换图像,以重建左图像。因此,我们将 ℓ 1与单尺度 SSIM [52]结合作为几何一致性损失来对齐立体图像:0L tgc ( F t ) = η 1 − SSIM ( x t , x ′tt )0L sgc ( F s , G t 2 s ) = η 1 − SSIM ( x t , x′ st )0L gc ( F t , F s , G t 2 s ) = L tgc ( F t ) + L sgc ( F s , G t 2 s ) (8)其中 L gc表示完整的几何一致性损失,L tgc 和 L sgc 分别表示 F t 的几何一致性损失12ΣPrediction 𝑦𝑡𝑡ℒ𝑑𝑒ℒ𝑔𝑐ℒ𝑑𝑠ℒ𝑑𝑐𝐹𝑡𝐹𝑠𝐺𝑠2𝑡ℒ𝑡𝑟𝑎𝑛𝑠𝐹𝑡𝐹𝑠𝐺𝑡2𝑠𝐺𝑠2𝑡ℒ𝑑𝑒ℒ𝑔𝑐ℒ𝑑𝑠ℒ𝑑𝑐𝐺𝑡2𝑠ℒ𝑑𝑒ℒ𝑔𝑐ℒ𝑑𝑠ℒ𝑑𝑐𝐹𝑡𝐹𝑠𝐺𝑠2𝑡ℒ𝑡𝑟𝑎𝑛𝑠𝐹𝑡𝐹𝑠𝐺𝑡2𝑠𝐺𝑠2𝑡ℒ𝑑𝑒ℒ𝑔𝑐ℒ𝑑𝑠ℒ𝑑𝑐𝐺𝑡2𝑠GASDA97920� � � �2�0预测 �� �� � � � �2�0� �0图4:推理阶段(第3.3节)。0分别是 F t 和 F s。x ′ tt ( x ′ st ) 是使用估计的深度图 y tt (y st)、相机之间的基线距离和相机焦距[16]基于双线性采样[23]从右图像生成的逆向变换。在我们的实验中,η 被设置为0.85,µ 是 0.15。深度平滑损失为了在局部均匀区域中鼓励深度一致性,我们利用边缘感知的深度平滑损失:0L ds ( F t , F s , G t 2 s ) = e −� x t ||� ˜ y tt || + e −� x t ||� ˜ y st || (9)0其中 � 是沿空间方向的一阶导数。我们只对 X t 和 X t 2s(真实数据)应用平滑损失,因为 X s 和 X s 2t(合成数据)具有完全的监督。深度一致性损失 我们发现x t 的预测结果,即 F t ( x t ) 和 F s ( G t 2 s ( x t ))在许多区域显示出不一致性,这与我们的直觉相反。可能的原因之一是 G t 2 s 可能未能将 x t的细节翻译出来。为了强制实现这种一致性,我们引入了一个关于 ˜ y tt 和 ˜ y st 的 ℓ 1 深度一致性损失,如下所示:0L dc ( F t , F s , G t 2 s ) = || ˜ y tt − ˜ y st || . (10)0完整目标函数的形式如下:0L ( G s 2 t , G t 2 s , D t , D s , F t , F s ) = L trans ( G s 2t , G t 2 s , D t , D s ) + γ 1 L de ( F t , F s , G s 2 t )0+ γ 2 L gc ( F t , F s , G t 2 s ) + γ 3 L dc ( F t , F s , G t2 s ) + γ 4 L ds ( F t , F s , G t 2 s ) (11)其中 γ n ( n ∈ {1 , 2 , 3 , 4 } )是权衡因子。我们在一个端到端的深度网络中优化这个目标函数。03.3. 推理0在推理阶段,我们旨在使用生成的模型为给定的图像(例如KITTI数据集[38])预测实域中的深度图。实际上,有两条路径可以获取预测的深度图:x t → F t ( x t ) → ˜ y tt 和 x t→ G t 2 s ( x t ) → x t 2 s → F s ( x t 2 s ) → ˜ yst,如图4所示,最终的预测结果是 ˜ y tt 和 ˜ y st的平均值:0˜ y t 102 (˜ y tt + ˜ y st ) . (12)0反向0更新 G s 2 t 和 G t 2 s0向后0更新 F t 和 F s0图6:迭代更新阶段。我们通过迭代更新图像风格转换器和深度估计器来学习我们的模型,即在更新虚线框中的模块时冻结实线框中的模块。有关详细信息,请参阅正文。为简洁起见,我们省略了 D t和 D s 。0输入图像0真实值0图8:在Make3D数据集[45]上的定性结果。从左到右:输入图像,真实深度和我们的结果。04. 实验0在本节中,我们首先介绍了网络架构和学习策略的详细信息。然后,我们对自动驾驶背景下最大的数据集之一,即KITTI数据集[38]进行了GASDA。我们还展示了我们的模型对包含在Make3D[45]中的其他真实场景的泛化能力。最后,我们进行了各种消融实验来分析GASDA。04.1. 实现细节0网络架构:我们提出的框架由六个子网络组成,可以分为三组:G s 2 t 和 G t 2 s 用于图像风格转换,D t 和 D s用于判别,F t 和 F s用于单目深度估计。每个组中的网络具有相同的网络架构,但参数不同。具体来说,我们使用CycleGAN[61]提供的生成器(G s 2 t 和 G t 2 s )和判别器(D s 和D t )。对于单目深度估计器 F t 和 F s,我们使用具有跳跃连接和侧输出的标准编码器-解码器结构[59]。数据集:目标域是KITTI[38],这是一个由42,382个矫正的立体图像对组成的真实世界计算机视觉基准,分辨率约为375×1242。在我们的实验中,KITTI提供的真实深度图仅用于评估目的。源域是VirtualKITTI(vKITTI)[11],其中包含50个逼真的合成视频,共21260个图像-深度对。25397930方法 监督 数据集 容量 误差指标(越低越好) 准确度指标(越高越好)0Eigen et al. [9] 有 K 80 m 0.203 1.548 6.307 0.282 0.702 0.890 0.958 Liu et al. [35] 有 K 80 m 0.202 1.614 6.523 0.275 0.678 0.895 0.965 Zhou et al. [60] 无 K80 m 0.208 1.768 6.856 0.283 0.678 0.885 0.957 Zhou et al. [60] 无 K+CS 80 m 0.198 1.836 6.565 0.275 0.718 0.901 0.960 Kuznietsov et al. [27] 半监督 K 80m 0.113 0.741 4.621 0.189 0.862 0.960 0.986 Godard et al. [16] 无 K 80 m 0.148 1.344 5.927 0.247 0.803 0.922 0.9640全部合成(基线1) 无 S 80 m 0.253 2.303 6.953 0.328 0.635 0.856 0.937 全部真实(基线2) 无 K 80 m 0.158 1.151 5.285 0.238 0.811 0.934 0.9700Kundu et al. [26] 无 K+S(DA) 80 m 0.214 1.932 7.157 0.295 0.665 0.882 0.9500Kundu et al. [26] 半监督 K+S(DA) 80 m 0.167 1.257 5.578 0.237 0.771 0.922 0.9710GASDA 无 K+S(DA) 80 m 0.149 1.003 4.995 0.227 0.824 0.941 0.9730Kuznietsov et al. [27] 有 K 50 m 0.117 0.597 3.531 0.183 0.861 0.964 0.989 Garg et al. [14] 无 K 50 m 0.169 1.080 5.104 0.273 0.740 0.904 0.962 Godard et al.[16] 无 K 50 m 0.140 0.976 4.471 0.232 0.818 0.931 0.9690全部合成(基线1) 无 S 50 m 0.244 1.771 5.354 0.313 0.647 0.866 0.943 全部真实(基线2) 无 K 50 m 0.151 0.856 4.043 0.227 0.824 0.940 0.9730Kundu et al. [26] 无 K+S(DA) 50 m 0.203 1.734 6.251 0.284 0.687 0.899 0.9580Kundu et al. [26] 半监督 K+S(DA) 50 m 0.162 1.041 4.344 0.225 0.784 0.930 0.9740Zheng et al. [59] 无 K+S(DA) 50 m 0.168 1.199 4.674 0.243 0.772 0.912 0.9660GASDA 无 K+S(DA) 50 m 0.143 0.756 3.846 0.217 0.836 0.946 0.9760表 1:使用 [9] 中建议的测试集在 KITTI 数据集上的结果。对于训练数据,K 代表 KITTI 数据集,CS 代表 CityScapes 数据集 [6],S 代表vKITTI 数据集。应用域自适应技术的方法用灰色标记。0输入图像0地面真实深度0Eigen 等人 [9]0Zheng 等人 [59]0GASDA0图 5:我们的结果与 Eigen 等人 [9] 和 Zheng 等人 [59] 在 KITTI数据集上的方法进行定性比较。为了便于比较,我们遮盖了顶部区域,因为顶部区域没有地面真实深度信息。我们的方法保留了更多细节并生成了高质量的深度图。0尺寸为 375 ×1242。此外,为了研究我们方法的泛化性能,我们还将训练好的模型应用于 Make3D 数据集 [45]。由于 Make3D不提供立体图像,我们直接在测试集上评估我们的模型,无需训练或进一步微调。0训练细节 我们使用 PyTorch 实现了GASDA。我们以两阶段的方式训练我们的模型,即预热阶段和端到端迭代更新阶段。在预热阶段,我们首先使用ADAM 求解器 [25] 对样式转换网络进行 10 个 epoch的优化,动量参数设置为 β1 = 0.5,β2 =0.999,初始学习率设置为 α = 0.0002。然后,我们使用β1 = 0.9,β2 = 0.999,α = 0.0001 对 F_t 进行 {X_t,G_s2t(X_s)} 的训练,对 F_s 进行 {X_s, G_t2s(X_t)}的训练,大约进行 20 个epoch。为了使样式转换器生成高质量的图像,从而改善后续的深度估计器,我们以图 6所示的端到端迭代更新方式对网络进行微调。具体来说,我们使用 F_t 和 F_s 对 G_s2t 和 G_t2s 进行 m 个 epoch的训练,然后再对 F_s 和 F_t 进行 n 个 epoch的训练。在我们的实验中,我们设置 m = 3,n =7,并重复此过程直到网络收敛。0(大约 40 个epoch)。在这个阶段,我们使用与第一阶段相同的动量和求解器,学习率分别设置为 2e-6 和 1e-5。权衡因子设置为λ1 = 10,λ2 = 30,γ1 = 50,γ2 = 50,γ3 = 50,γ4 =0.5。在训练阶段,我们将所有图像下采样为192×640,并使用一些常见的数据增强策略增加训练集大小,包括随机水平翻转、旋转(角度范围为[-5°,5°])和亮度调整。04.2. KITTI 数据集0我们在 29 个场景中提取的 697张图像上测试我们的模型,并使用其他 32 个场景中包含的全部23,488 张图像进行训练(22,600 张)和验证(888 张)[9,16]。为了与之前的工作进行比较,我们使用标准的误差和准确度度量 [16, 59] 在地面真实深度小于 80 m 或 50 m的区域评估我们的结果。需要注意的是,vKITTI中的最大深度值为 655.35 m,而不是 KITTI 中的 80 m,但与[59] 不同,我们在训练过程中没有将 vKITTI 的深度图剪裁到80 m。在表 1 中,我们报告了在 Eigen s- 上的基准分数3https://github.com/aitorzip/DeepGTAV.97940方法 监督 数据集 错误度量(越低越好) 准确0绝对相对误差 平方相对误差 均方根误差 对数均方根误差 δ < 1.25 δ < 1.25^2 δ < 1.25^30Godard et al. [16] 无 K 0.124 1.388 6.125 0.217 0.841 0.936 0.975 Godard et al. [16] 无 K+CS 0.104 1.070 5.417 0.188 0.8750.956 0.983 Atapour et al. [2] 无 K+S�(DA) 0.101 1.048 5.308 0.184 0.903 0.988 0.992 GASDA 无 K+S(DA) 0.106 0.987 5.2150.176 0.885 0.963 0.9860表 2:在 KITTI 2015 平面视觉深度估计基准测试的 200 张训练图像上的结果。S� 是从 GTA5 中捕获的图像,与真实数据更相似,而不是vKITTI。我们的方法的误差比现有方法更低,并且与 [2] 相比具有竞争力的准确度。0真实图像0CycleGAN [61]0GASDA0合成图像0CycleGAN [61]0GASDA0图7:我们的方法和CycleGAN[61]的定性图像风格转换结果。左:真实到合成的转换;右:合成到真实的转换。我们的方法在合成到真实的转换和反向转换中都能更好地保留几何和语义内容。请注意,翻译结果是GASDA的副产品。改进由黄色框标出。0方法 训练� 误差指标(越低越好) 绝对相对误差 平方相对误差均方根误差0Karsch等人[24] 是 0.398 4.723 7.801 Laina等人[30] 是 0.1981.665 5.461 Kundu等人[26] 是 0.452 5.71 9.5590Godard等人[16] 否 0.505 10.172 10.936 Kundu等人[26] 否 0.64712.341 11.567 Atapour等人[2] 否 0.423 9.343 9.002 GASDA 否0.403 6.709 10.4240表4:在Make3D[45]的134个测试图像上的结果。�表示模型是否在Make3D上训练。误差是在中心图像裁剪中计算的深度小于70m的情况下计算的[16]。可以观察到我们的方法与在Make3D上训练的方法相当。0在只有KITTI和vKITTI的训练集的情况下,GASDA相对于先前的最先进方法取得了令人信服的改进。具体来说,我们与两个基线进行了比较,即全部合成(基线1,使用标记的合成数据进行训练)和全部真实(基线2,使用真实的立体图像进行训练),以及最新的域自适应方法[59,26]和(半)监督/无监督方法[9, 35, 27, 14, 16,60]。所有指标上的显著改进证明了我们方法的优越性。请注意,GASDA的得分高于[26],后者在KITTI中包含了自然图像的额外地面真实深度图。GASDA无法在Eigen分割中超越[2]。主要原因是[2]中使用的合成图像来自GTA53,而GTA5和KITTI之间的域偏移没有vKITTI和KITTI之间的那么显著。0此外,与我们相比,[2]中的训练集大小约为我们的三倍。然而,与[2]相比,GASDA在官方的KITTI2015立体数据集和Make3D上表现出了竞争力,如表2和表4所示。除了定量结果,我们还在图5中展示了一些示例输出。我们的方法保留了更多细节,并能够恢复小物体的深度信息,例如远处的汽车和铁轨,并生成清晰的边界。04.3. Make3D数据集0为了讨论GASDA的泛化能力,我们在Make3D数据集[45]上进行了定量和定性评估。我们没有使用Make3D提供的图像进行训练或进一步微调我们的模型。如表4和图8所示,尽管Make3D和KITTI之间存在较大的域偏移,我们的模型仍然表现良好。与在Make3D上以监督方式训练的最先进模型[26,24, 30]和使用域自适应[26,2]的其他模型相比,GASDA取得了令人印象深刻的性能。04.4. 消融研究0在这里,我们进行了一系列消融实验来分析我们的方法。定量结果如表3所示,样本化的风格转换结果如图7所示。域自适应我们首先通过比较两个简单的模型SYN(在Xs上训练的Fs)和SYN2REAL(在Gs2t(Xs)上训练的Ft)来证明域自适应的有效性。如表3所示,由于域偏移,SYN无法在KITTI上获得满意的分数。翻译后,域偏移减小,这意味着合成数据分布相对接近真实数据。SYN0.2532.3036.9530.3280.6350.8560.937SYN2REAL0.2292.0946.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功