没有合适的资源?快使用搜索试试~ 我知道了~
Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular DepthEstimation in the DarkKun Wang1*, Zhenyu Zhang2,1*, Zhiqiang Yan1, Xiang Li1, Baobei Xu3, Jun Li1† and Jian Yang1†1PCA Lab‡, Nanjing University of Science and Technology, China2Tencent YouTu Lab3Hikvision Research Institute{kunwang, yanzq, xiang.li.implus, junli, csjyang}@njust.edu.cnzhangjesse@foxmail.com, 21625177@zju.edu.cnAbstractMonocular depth estimation aims at predicting depthfrom a single image or video.Recently, self-supervisedmethods draw much attention since they are free of depthannotations and achieve impressive performance on sev-eral daytime benchmarks.However, they produce weirdoutputs in more challenging nighttime scenarios because oflow visibility and varying illuminations, which bring weaktextures and break brightness-consistency assumption, re-spectively. To address these problems, in this paper we pro-pose a novel framework with several improvements: (1) weintroduce Priors-Based Regularization to learn distributionknowledge from unpaired depth maps and prevent modelfrom being incorrectly trained; (2) we leverage Mapping-Consistent Image Enhancement module to enhance imagevisibility and contrast while maintaining brightness con-sistency; and (3) we present Statistics-Based Mask strat-egy to tune the number of removed pixels within texture-less regions, using dynamic statistics. Experimental resultsdemonstrate the effectiveness of each component. Mean-while, our framework achieves remarkable improvementsand state-of-the-art results on two nighttime datasets. Codeis available at https://github.com/w2kun/RNW.1. IntroductionMonocular depth estimation is a fundamental topic incomputer vision as it has wide range of applications in aug-mented reality [35], robotics [11] and autonomous driving[34], etc. It often needs dense depth maps to learn the map-*Contributes equally†Corresponding authors‡PCA Lab, Key Lab of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, and Jiangsu Key Labof Image and Video Understanding for Social Security, School of Com-puter Science and Engineering, Nanjing University of Sci & Tech.Figure 1. Depth from nuScenes (left) and RobotCar (right). (a) In-put images: cyan dashed box indicates an textureless patch causedby the low visibility (e.g., dark), and two red borders illustrate thevarying lights between t and t + 1 frames. (b) shows that low visi-bility and varying lights result in big holes and non-smoothness inthe depth maps using MonoDepth2 [15], respectively. (c) demon-strates depth predictions of our framework.ping from color images to the depth maps in supervised set-tings [12, 47, 50]. However, high-quality depth data arecostly collected in a broad range of environments by us-ing expensive depth sensors (e.g. LiDAR and TOF). Hence,many efforts have been made to develop self-supervised ap-proaches [14, 54, 24, 52], which train a depth network toestimate depth maps by exploring geometry cues in videos,i.e., reconstructing a target view (or frame) from anotherview, instead of utilizing high-quality depth data. Further-more, their performances are comparable to the supervisedmethods in well-lit environments, such as KITTI [13] andCityscapes [10]. Unfortunately, there are a very few worksto handle with more challenging nighttime scenarios. Thuswe focus on nighttime self-supervised depth estimation.Actually, the nighttime scenario includes two importantproblems, low visibility and varying illuminations, result-16055160560由于大多数现有的自监督方法(例如MonoDepth2[15])产生了奇怪的深度输出(见图1(b)),我们提出了一个高效的夜间自监督深度估计框架,以解决以下两个问题:1)低能见度通常会产生无纹理区域。例如,图1(a)左侧的青色虚线框显示了一个没有可辨别视觉纹理的黑暗区域。尽管这些区域可能通过采样附近亮度相似的像素来正确重建目标视图,但是这种无纹理会导致图1(b)左侧的深度图中出现大的空洞。2)来自闪烁的路灯或移动车辆的不同照明状况破坏了图1(a)右侧的亮度一致性假设,其中两个具有不同亮度的图像块被裁剪自两个时间上相邻的帧的相同位置。这种不一致性会导致目标视图的不完美重建,即高训练损失,也会在图1(b)右侧产生非平滑的深度图。显然,不正确的深度预测(例如非平滑和大的空洞)表明深度网络训练失败。为了解决这两个问题,本文提出了三个改进:首先,我们引入了基于先验的正则化(PBR)模块,以约束深度参考点附近的不正确深度,并防止深度网络被错误训练。这个约束通过在对抗性方式下学习来自不配对参考点的先验深度分布来实现。此外,2D坐标被编码为PBR的附加输入,以找到与像素位置相关的有用深度分布。其次,我们利用映射一致的图像增强(MCIE)模块来处理低能见度。尽管图像增强方法(例如对比度有限直方图均衡化(CLHE)[37])可以在低光图像上取得显著的效果[9,23],但它们很难处理视频帧之间的对应关系,这对于自监督深度估计是必要的。因此,我们扩展了CLHE方法,以在增强低能见度的视频帧时保持亮度一致性。最后,我们提出了基于统计的掩码(SBM)来处理无纹理区域。虽然自动掩码[15]是一种广泛使用的选择无纹理区域的策略,但它对光度损失的依赖性使其无法调整移除像素的数量。为了弥补这个缺点,我们引入了SBM来通过动态统计灵活地调整无纹理区域内的掩码像素。总之,我们的贡献可以总结为三个方面:0•我们提出基于先验的正则化模块,从不成对的参考数据中学习分布知识,防止模型被错误训练。0•我们利用映射一致的图像增强模块来处理暗光环境下的低可见性,并保持亮度一致性。0•我们提出基于统计的掩膜,通过使用动态信息来更好地处理无纹理区域。这些贡献共同实现了夜间深度估计任务的最先进性能,并有效减少了深度输出中的异常情况。02. 相关工作0从视频中自监督学习深度。SfM-Learner[54]是这个任务中的开创性工作。它同时学习预测相机的深度和相对姿态,其监督信号是目标帧的重建。这个过程基于静态场景的假设,而移动物体违反了这个假设。为了解决这个问题,之前的工作采用了光流[56, 48,38]和预训练的分割模型[16, 33,7]来分别补偿和遮蔽移动物体中的像素。遮挡也是一个挑战。MonoDepth2提供了最小重投影损失来处理遮挡。此外,利用几何先验,如法线[46,29]和几何一致性[2]的方法已被用于提高性能。最近,PackNet[18]提出了一种新颖的网络架构来学习保留细节的表示。FM[41]利用更具信息量的特征度量损失来解决无纹理区域的问题。这些方法提供了改进自监督深度估计在白天环境中性能的思路,但对于更具挑战性的夜间场景却很少关注。夜间自监督学习方法。夜间自监督深度估计是一个相对较少研究的主题,因为它面临着许多挑战。现有的工作已经探索了从热像仪图像[25,30]预测深度的方法。然而,热像仪图像的纹理细节较少,分辨率有限。热像仪相机也很昂贵。Defeat-Net[42]提出了同时学习跨域特征表示和深度估计的方法,以获得更强的监督。然而,它无法解决低可见性和不同照明条件的问题。ADFA[43]将这个问题视为域适应的一种,并将在白天数据上训练的网络适应到夜间图像上。它旨在将白天数据的先验深度分布作为正则化,并直接利用夜间场景的深度估计知识。深度估计中的域适应。域适应(DA)[44]是迁移学习[55]的一个子项目,旨在有效地利用从源域学到的先验知识。在深度估计中,一个重要的应用是缩小合成数据[4,3]和真实世界数据之间的差距[1, 53,17],以减少对大规模真实世界地面真值的需求。为了更好地利用几何结构,GASDA[51]已经应用于利用立体图像的极线几何。CoMoDA[27]已经应用于在测试视频上连续调整预训练模型。我们的框架中也使用了先验知识,但是用于正则化训练。低光图像增强。图像增强是一种改善图像亮度和对比度的有效方法。Retinex[28]将图像分解为反射和光照。基于直方图均衡化的方法(例如CLHE[37])重新调整像素的亮度级别。最近,将Retinex与卷积神经网络(CNN)相结合的方法[9,49]展示了令人印象深刻的结果。以前的基于学习的方法[6,8]需要成对的数据。为了解决这个问题,人们已经尝试探索使用无配对输入[23]或零参考[19]的方法。尽管这些方法已被证明是有效的,但它们没有注意到帧之间的亮度对应关系,这对于自监督深度估计的训练是至关重要的。to continuously adapt a pre-trained model on test videos.The prior knowledge is also employed in our frameworkbut is to regularize training.Low-light Image Enhancement. Image enhancement is aresultful approach to improve the brightness and contrast ofimages. Retinex [28] decomposes an image into reflectanceand illumination. Histogram equalization based methods(e.g. CLHE [37]) readjustment the brightness level of pix-els.Recently, methods [9, 49] combining Retinex withConvolutional Neural Network (CNN) have shown impres-sive results. Previous learning-based works [6, 8] requirepaired data. To address this problem, efforts have been putinto exploring approaches with unpaired inputs [23] or zero-reference [19]. Although these methods have proven to beeffective, they pay no attention to the brightness correspon-dence among frames which is essential for self-supervisedtraining of depth estimation.(3)160570图2.整体流程图,包括三个改进(橙色框):基于先验的正则化(PBR),映射一致的图像增强(MCIE)和基于统计的掩膜(SBM)。PBR显示在右侧。concat表示沿通道维度的连接操作,Dr和Ip分别表示参考深度图和坐标图像。03. 方法0在本节中,我们提出了一种新颖的自监督框架,用于从夜间视频中学习深度估计。在介绍该框架之前,我们首先介绍了基本的自监督训练和必要的符号。03.1. 自监督训练0在自监督深度估计中,学习问题被视为一种视图合成过程。它通过使用深度Dt和相对姿态Tt→s,从每个源图像Is的视点重建目标帧It。在单目训练的设置中,通过两个神经网络预测深度Dt = Φd(It)和相对姿态Tt→s = Φp(It,Is)。投影操作还需要相机内参数K。有了上述变量,我们可以获得每个像素的对应关系。0通过p s � KTt→sDt(p t)K^(-1)p t,获得It中任意点p t与Is中另一个点p s 的对应关系。0p s � KTt→sDt(p t)K^(-1)p t,(1)0之后,It可以通过可微的双线性采样[22]操作s(∙,∙)从Is中重建。0ˆIt = s(Is, p s)。 (2)0模型学习基于上述的配准过程,即从源视图重建目标帧,目标是通过优化Φd和Φp来减小重建误差,产生更准确的输出。按照[14]的方法,我们同时应用ℓ1和SSIM[45]作为光度误差,衡量It和ˆIt之间的差异。0Lpe(It, ˆIt) = α(1 -α)∥It - ˆIt∥1,02(1 - SSIM(It, ˆIt))+0(1 - α)∥It - ˆIt∥1,0其中α在所有实验中设置为0.85。此外,这是一个不适定问题,因为存在大量可能的错误深度,这些深度导致在给定相对姿态Tt→s的情况下对目标帧进行正确重建。为了解决这个深度模糊问题,我们按照之前的工作[14],应用边缘感知平滑损失来强制深度的平滑性。0Ls = |∂xDt|e - |∂xIt| + |∂yDt|e - |∂yIt|,(4)0其中∂x和∂y分别是沿水平和垂直轴的图像梯度。03.2. 夜间深度估计框架0在这里,我们提出了一种夜间自监督深度估计框架,如图2所示。该框架包含三个改进,包括PBR、MCIE和SBM,下面将详细描述它们。µ(D) = D/avg(D),(5)minωD LD =12EDr∈{Dr}[(ΦD(cat(Ip, µ(Dr))) − 1)2]+12EDt∈{Dt}[ΦD(cat(Ip, µ(Dt)))2]min LG =1EDtDt [(ΦD(cat(Ip, µ(Dt)))1)2],I′t = γ(It), I′s = γ(Is).(7)γ(b) = cdf(b) − cdfmincdfmax − cdfmin× (L − 1),(8)ˆI′t = s(γ(Is), ps).(9)1605803.2.1 先验约束正则化0先验约束正则化(PBR)是使用对抗方式来限制深度输出在深度参考的邻域中,如图2右侧所示。深度估计网络Φd被视为生成器,使用Patch-GAN[21]的鉴别器ΦD被应用于PBR中。对抗性深度图是(Dt,Dr),其中深度输出Dt由Φd生成,Dr是一个参考深度图。鉴别器用于区分Dt和Dr,而Φd试图使其输出与Dr不可区分。为了获取参考深度图,我们训练一个深度估计网络Φ'd以自监督的方式使用白天数据集生成Dr。注意,Dt和Dr是不配对的,因此不需要与夜间数据集相同的场景。此外,我们发现像素的深度与其位置之间存在密切关系。例如,驾驶场景的图像通常显示从道路到天空的垂直方向的视图。基于这个观察,我们将每个像素的2D坐标编码成图像Ip作为ΦD的额外输入。Ip由两个单通道地图组成,分别表示沿x轴和y轴的坐标,并缩放到[0,1]的范围进行归一化。此外,Dt和Dr都具有尺度不确定性,因此统一它们的尺度是不合理的。我们应用µ(∙)对深度图进行归一化,以解决尺度不匹配的问题。0其中 avg ( D ) 计算沿空间维度的平均值。令 cat ( ∙ , ∙ )表示沿通道维度的连接操作,ω d 和 ω D 是 Φ d 和 Φ D的网络权重,{ D t } 和 { D r } 分别表示 D t 和 D r的集合,则PBR的优化目标可以写成:0(6)其中采用了[32]中的损失格式以获得更好的收敛性。备注:从一般深度分布中实例化特定样本的深度是困难的,因为深度分布在一个范围内而不是一个确定的值。但是,很容易找到一个异常值(在我们的情况下是奇怪的深度值),因为它与预期输出有很大的偏差。这就是为什么我们使用PBR作为正则化器的原因。此外,PBR的应用不仅限于夜间深度估计,还可以扩展到其他类似的任务。0图3.顶部两幅图像说明了MCIE的有效性,我们可以看到可见性有明显改善,特别是在红色框框内。底部三个图示出了计算亮度映射函数 γ的主要步骤。03.2.2 映射一致的图像增强0映射一致的图像增强(MCIE)是从对比度有限直方图均衡化[37](CLHE)算法中改编而来,以满足保持亮度一致性的需求,这对于自监督深度估计至关重要。这是通过使用亮度映射函数 b ′ = γ ( b )并将其应用于目标帧和源帧的方式来实现的,即0γ是一个单值映射函数,将输入亮度映射到确定的输出。通过这种方式,目标帧和源帧之间的亮度一致性自然得到保持。我们在图3的底部展示了计算 γ的主要步骤。假设给定输入图像的频率分布 f b = h ( b),其中 f b 是亮度级别 b的频率。首先,我们剪切频率大于预设参数 σ的部分,以避免噪声信号的放大。其次,剪切后的频率均匀填充到每个亮度级别,如子图(b)所示。最后,通过累积分布 cdf 可以得到 γ,具体计算公式如下:0其中 cdf min 和 cdf max 分别表示 cdf的最小值和最大值,L表示亮度级别的数量(通常在彩色图像中为256)。MCIE为夜间图像带来更高的可见性和更多的细节。我们在图3的顶部两幅图像中进行了说明,可以看到亮度和对比度有了显著的改善,特别是在红色框框出的区域内。MCIE只在计算光度损失时增强图像,不改变网络的输入。它重新定义了配准过程,如下所示:(b) ms(c) maL′pe(I′t, ˆI′t) = α2 (1 − SSIM(I′t, ˆI′t))+(1 − α)∥I′t − ˆI′t∥1.(10)160590(a) 输入0图4. m s 与 m a[15]之间的视觉比较,其中黑色像素已从损失中移除。我们可以看到,m s 可以更好地遮盖无纹理区域(例如红色框框中的光斑)。0因此,光度损失被调整为通过增强图像来使用03.2.3 基于统计的掩膜0我们引入基于统计的掩膜(SBM)来补偿自动掩膜[15](AM)策略,因为它无法调整由于光度损失的依赖关系而移除的像素数量。用[]表示Iverson括号。AM通过以下方式在目标帧和源帧之间产生掩膜:0m a = [ L pe ( I t , ˆ I t ) < L pe ( I t , I s )]. (11)0与AM不同,SBM使用动态统计量来灵活调整掩膜像素。在训练过程中,SBM通过d ts = ∥ I t - I s ∥1计算目标帧与每个源帧之间的差异,并使用指数加权移动平均(EWMA)获得最近样本中的平均d ts,计算如下:0˜ d ts ( i ) = β × ˜ d ts ( i - 1) + (1 - β ) × d ts ( i ),(12)0其中i是当前时间,β是动量参数,在我们的实验中设置为0.98。它更稳定并反映全局统计信息。为了调整掩膜像素,需要定义一个参数ϵ∈[0, 100],表示˜ dts的百分位数,并可用于通过以下方式生成目标帧和源帧之间的掩膜ms∈{0, 1}:0m s = [ d ts > p ( ˜ d ts , ϵ )],(13)0其中p( ˜ d ts , ϵ )计算˜ dts的ϵ百分位数。我们通过逐元素乘积将ma与ms组合在一起,生成我们框架中使用的最终掩膜,即:0m = m a ⊙ m s. (14)0图4显示了ms和ma之间的视觉比较。可以看出,ms在掩盖无纹理区域(例如天空和红框所围绕的亮光点)方面更有效。我们同时使用ms和ma,因为ma可以防止大误差的引入,起到正则化的作用。03.2.4 最终损失0总之,最终损失由光度损失(公式(10)),边缘感知平滑度(公式(4))损失和PBR正则化(公式(6))组成,即:0损失 = mL ′ pe + ηL s + ξL G + τL D,(15)0其中η,ξ和τ是权重参数。04. 实验0在本节中,通过一系列实验评估了提出的框架,并与最先进的方法进行了比较。在报告之前,首先介绍了RobotCar-Night和nuScenes-Night数据集,对所有方法进行了测试,然后描述了实现细节。最后,展示了证明PBR、MCIE和SBM的有效性的消融研究。04.1. 数据集0RobotCar-Night. Oxford RobotCar[31]数据集包含从牛津中心一条路线上收集的大量数据,涵盖了各种天气和交通条件。我们使用前置立体相机(BumblebeeXB3)数据的左图像构建了RobotCar-Night,数据来自2014-12-16-18-44-24的序列,图像被裁剪为1152×672以排除车前盖。训练集由前5个分割组成,其中移动相机的帧被删除。与官方工具箱一起使用前置LMS激光传感器数据和INS数据生成用于测试的深度地面真值。为了更准确地评估,我们手动选择了高质量的输出。因此,RobotCar-Night数据集包含超过19k个训练序列和411个测试样本。nuScenes-Night. nuScenes[5]是一个用于自动驾驶的大规模数据集,由波士顿和新加坡的1000个多样化驾驶场景组成,每个场景由20秒长的视频呈现。我们首先选择了总共60个夜间场景。由于能见度较低和交通条件较复杂,这些场景比RobotCar更具挑战性。图像首先被裁剪为1536×768。部分场景的前置摄像头数据用于构建训练集,其余场景的顶部LiDAR传感器数据与官方发布的工具箱一起用于生成深度地面真值。总之,nuScenes-Night包含超过10k个训练序列和500个测试样本。04.2. 实现细节0我们的深度估计网络基于U-Net[39]架构,即具有跳跃连接的编码器-解码器。编码器是ResNet-50[20],去除了全连接层,并用步幅卷积替换了最大池化。160600方法 Abs Rel Sq Rel RMSE RMSE log δ 1 δ 2 δ 30RobotCar-Night MonoDepth2 [15] 0.3999 7.4511 6.6416 0.4429 0.7444 0.8921 0.9280 SfMLearner[54] 0.6754 15.4334 9.4324 0.6046 0.5465 0.8003 0.8733 SC-SfMLearner [2] 0.6029 16.0173 9.24530.5620 0.7185 0.8722 0.9091 PackNet [18] 0.2836 4.0257 5.3864 0.3351 0.7425 0.9143 0.9560 FM[41] 0.3953 7.5579 6.7002 0.4391 0.7605 0.8943 0.9299 DeFeat-Net [42] 0.3929 4.8955 6.34290.4236 0.6256 0.8290 0.89920MonoDepth2(Day)0.3211 1.8672 4.9818 0.3568 0.4446 0.7813 0.9353 FM(Day)0.2928 1.53804.5951 0.3337 0.4888 0.8054 0.9497 Reg Only 0.5006 3.7608 6.6351 0.7518 0.2841 0.5643 0.81560我们的 0.1205 0.5204 2.9015 0.1633 0.8794 0.9688 0.98960nuScenes-Night MonoDepth2 [15] 1.1848 42.3059 21.6129 1.5699 0.1842 0.3598 0.5044SfMLearner [54] 0.6004 8.6346 15.4351 0.7522 0.2145 0.4166 0.5961 SC-SfMLearner [2] 1.050830.5865 19.6004 0.8854 0.1823 0.3673 0.5422 PackNet [18] 1.5675 61.5101 25.8318 1.3717 0.13870.2980 0.4313 FM [41] 1.1383 41.6166 20.8481 1.1483 0.2376 0.4252 0.5650 我们的 0.3150 3.79269.6408 0.4026 0.5081 0.7776 0.89590表1.定量结果。我们在RobotCar-Night和nuScenes-Night数据集上与先前的最先进方法进行比较。基准方法已经用下划线标出0每个类别中的最佳结果以粗体显示。DeFeat-Net使用在RobotCar-Season[40]上训练的检查点进行测试。(Day)表示模型是在其他白天数据集上训练的。RegOnly在训练中仅使用PBR正则化作为损失。0深度解码器包含五个3×3卷积层,并使用最近邻插值进行上采样。输出处使用Sigmoid和LeakyRelu非线性,其他地方使用。姿态预测网络Φp采用ResNet-18结构,为每个样本输出一个六元素长度的向量。PBR中的ΦD是基于Patch-GAN[21]的鉴别器,具有三个4×4卷积层。在RobotCar-Night的实验中,MCIE和SBM中的两个参数分别设置为σ = 0.008和ϵ = 10。在最终损失中,η = 1e-3,ξ = 2.5e-4和τ =2.5e-40已设置。从OxfordRobotCar于2014-12-09-13-21-02捕获的数据用于训练网络Φ'd。对于nuScenes-Night,σ和ϵ分别设置为0.004和20。η= 1e-3,ξ = 4e-4和τ =4e-4用于最终损失的配置。nuScenes中包含白天图像的其他场景用于训练Φ' d。请注意,用于训练Φ'd的场景不限于白天。使用白天数据集的原因是模型更容易在白天环境中训练。有关场景选择和参数设置的更多信息,请参阅补充材料(Supp)。我们的模型使用PyTorch[36]实现,在四个RTX2080TIGPU上使用Adam[26]优化器进行20个epoch的训练,RobotCar-Night和nuScenes-Night的输入分辨率分别为576×320和768×384。学习率初始化为3e-5,在500次迭代后线性增加到1e-4,并在第15个epoch时减半。我们应用了七个标准测试指标,包括Abs Rel,Sq Rel,RMSE,RMSElog,δ1,δ2和δ3。有关测试指标的更多信息,请参阅Supp。在评估过程中,我们将最大深度限制为40m和60m。0RobotCar-Night和nuScenes-Night数据集,此外,通过[54]引入的比例因子对预测深度和地面实际深度进行了对齐0ˆ s = median(D gt)/median(D pred)。(16)0在评估之前,将预测的深度乘以 ˆ s ,这称为中值缩放。04.3. 与SOTA方法比较0在这里,我们将我们的方法与几种SOTA方法进行比较,包括SfMLearner [54]、SC-SfMLearner [2]、MonoDepth2[15]、PackNet [18]和FM[41]。所有方法都在RobotCar-Night和nuScenes-Night数据集上进行评估。结果报告在表1中,我们选择SqRel指标进行后续分析。总体而言,我们的方法明显优于其他竞争对手,并在每个评估指标上取得了显著的改进。它在RobotCar-Night和nuScenes-Night上分别提高了基线方法的93.0%和91.0%。与使用昂贵的3D卷积来学习保留细节的表示的PackNet相比,我们的方法更轻量级,并在这两个数据集上分别实现了87.1%和93.8%的改进。与最近的FM方法相比,该方法引入了特征度量损失来约束损失景观以形成适当的收敛盆地,与之相比,可以看到93.1%和90.9%的改进。此外,我们进行了几个验证实验,并在RobotCar-Night的第二部分报告了结果。标有(Day)的模型是在白天数据集上训练并直接在夜间场景中进行测试的。它们在前四个误差指标上得分更高,但在后三个指标上得分较低。160610图5. RobotCar-Night数据集上的定性比较。顶部一行是输入图像。从第二行到第四行分别列出了SC-SfMLearner [2]、MonoDepth2[15]和FM [41]的结果。我们的结果显示在底部。0图6. 我们的方法(中间)和ADFA[43](右侧)的定性比较。图像来自ADFA的图1。0准确度指标,表明它们在预测准确性方面的弱点。有关更多分析,请参见补充材料。仅使用PBR正则化训练的RegOnly效果不好,因为仅仅通过约束与参考深度图的分布一致性来推断特定图像的深度是不够的。这也是我们在框架中将光度损失作为主要约束和PBR损失作为正则化的原因。0RobotCar-Night和nuScenes-Night上的定性结果分别在图5和图7中报告。我们将我们的方法与SC-SfMLearner[2]、MonoDepth2 [15]和FM[41]进行了比较。总体而言,SOTA方法无法产生平滑的深度图并且错过了一些目标的细节。相比之下,所提出的框架极大地减轻了非平滑性,并产生了更高质量的深度输出。在图7中,我们的模型仍然能够做出合理的猜测。0在非常黑暗的场景中,甚至对人眼来说都具有挑战性。这证明了我们的方法在夜间深度估计中规范奇怪的输出的有效性。更重要的是,我们与ADFA[43]在定性结果上进行了比较。它首先专注于夜间深度估计,并利用对抗性领域自适应来解决这个问题。在图6的两个样本中,ADFA产生模糊的输出,并且无法准确预测红框所框定的两个物体的深度。相比之下,我们的结果更清晰、更准确。与ADFA相比,所提出的方法直接从夜间数据中学习预测深度,而不是从白天场景中转移学习的知识。这使得模型能够更好地适应夜间环境,从而实现更好的性能。04.4. 消融研究0在这里,我们进行了一系列实验来证明所提出的组件的有效性,并在表2中报告了结果。首先,我们测试了基线方法与每个单独组件(仅PBR、仅MCIE和仅SBM)的组合。第二部分的结果显示了改进的性能,表明每个组件的有效性。其中,仅PBR表现最佳。它分别提高了RC和NS上的Sq Rel92.8%和90.2%。其次是仅SBM,然后是仅MCIE,前者分别在这两个数据集上分别获得了27.7%和39.0%的改进,而后者分别获得了9.6%和3.7%的改进。接下来,我们通过逐步评估框架来进一步评估该框架。MethodAbs RelSq RelRMSERMSE logδ1δ2δ3RobotCar-NightMonoDepth20.4007.4516.6420.4430.7440.8920.928nuScenes-NightMonoDepth21.18542.30621.6131.5700.1840.3600.504160620图7. nuScenes-Night上的定性结果。由于能见度较低和交通情况较复杂,该数据集更具挑战性,但我们的方法仍能做出合理的预测。0仅PBR 0.126 0.539 2.953 0.168 0.865 0.970 0.990 仅MCIE 0.377 6.735 6.530 0.425 0.7280.884 0.931 仅SBM 0.348 5.389 5.896 0.400 0.742 0.898 0.9350PBR + MCIE 0.122 0.528 2.914 0.165 0.875 0.969 0.989 无 I p 的完整方法 0.128 0.588 3.1120.173 0.856 0.966 0.989 完整方法 0.121 0.520 2.902 0.163 0.879 0.969 0.9900仅PBR 0.325 4.127 9.88
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功