没有合适的资源?快使用搜索试试~ 我知道了~
138140实用的单目室内深度估计0Cho-Ying Wu 2, Jialiang Wang 1, Michael Hall 1, Ulrich Neumann 2 and Shuochen Su 101 Meta Reality Labs, 2 University of Southern California0{jialiangw,michaelhall,shuochsu}@fb.com, {choyingw,uneumann}@usc.edu0图1. 我们框架的优势。(A) 我们实现了零样本跨数据集推断。(B)我们在模拟数据上训练的框架与在真实数据上训练的框架产生了相当的结果。0摘要0大多数没有地面真实深度指导的单目深度估计方法主要关注驾驶场景。我们发现这些方法在未见过的复杂室内场景中的泛化能力较差,其中物体在近场中杂乱排列。为了获得更强的鲁棒性,我们提出了一种结构蒸馏方法,从一个现成的相对深度估计器中学习技巧,该估计器产生结构化但度量不可知的深度。通过将结构蒸馏与学习左右一致性的分支相结合,我们获得了适用于通用室内场景的结构化和度量深度,并实时进行推断。为了便于学习和评估,我们收集了SimSIN数据集,该数据集包含数千个环境的模拟数据,以及UniSIN数据集,其中包含约500个通用室内环境的真实扫描序列。我们在模拟到真实和真实到真实的设置中进行实验,并展示了使用我们的深度图进行改进以及下游应用。本工作提供了一项全面的研究,涵盖了方法、数据和应用方面。01. 引言0本工作提出了一个实用的室内深度估计框架,具有以下特点:从现成的估计器和左右图像对中学习,而无需它们的深度注释,高效的训练数据收集,对跨数据集推断具有高泛化能力,以及准确和实时的深度感知。我们的工作适用于消费级AR/VR,如3D室内场景重建和虚拟物体插入和与环境交互[32]。尽管最近自监督深度估计,特别是使用左右一致性的方法引起了很多研究兴趣,但是流行的工作,如MonoDepth [23],MonoDepth2 [24],DepthHints[74]和ManyDepth [75],主要关注驾驶场景,并在KITTI[22]和Cityscapes[13]等大规模驾驶数据集上进行训练,不清楚这些方法如何应用于室内环境。通过自监督学习室内深度在许多方面可能更具挑战性的原因有:(1)结构先验:驾驶场景的深度估计对学习范式施加了强烈的场景结构先验。图像的上部分通常由天空或建筑物占据,通常距离较远;另一方面,较远的部分通常是道路,通常比较近;(2)分布:驾驶场景的场景深度在近到远的范围内分布更均匀,而室内深度可以集中在近或远的范围内,例如放大的桌子或天花板的视图。不均匀的深度分布使得在室内场景中预测准确的度量深度具有挑战性;(3)相机姿态:深度感知设备可以在室内捕捉时进行6DoF移动,但它们通常在汽车上固定以收集驾驶数据,其中平移通常没有高度变化,旋转由偏航角主导。因此,对于室内情况,理想的网络需要对任意相机姿态和复杂的场景结构更具鲁棒性;(4)无纹理表面:大面积的无纹理区域,如墙壁,使常用的光度损失模糊不清。38150相对于驾驶场景,室内环境的结构先验较弱,因为物体可能会在近场中杂乱排列。驾驶场景的场景深度在道路上从近到远的范围内分布较均匀,而室内深度可以集中在近或远的范围内,例如放大的桌子或天花板的视图。不均匀的深度分布使得在室内场景中预测准确的度量深度具有挑战性。室内捕捉时,深度感知设备可以进行6DoF移动,但通常在汽车上固定以收集驾驶数据,其中平移通常没有高度变化,旋转由偏航角主导。因此,对于室内情况,理想的网络需要对任意相机姿态和复杂的场景结构更具鲁棒性。大面积的无纹理区域,如墙壁,使常用的光度损失模糊不清。0在这项工作中,我们提出了DistDepth,一种通过结构蒸馏方法来增强自监督学习训练的深度准确性。DistDepth使用现成的相对深度估计器DPT[59,60],它产生结构化但仅相对的深度(输出值反映深度排序关系但不具有度量意义)。我们的结构蒸馏策略在统计和空间上都鼓励深度结构的相似性。通过这种方式,DPT中的深度排序关系可以有效地融入通过左右一致性训练的度量深度估计分支中。我们的学习范式只需要一个现成的相对深度估计器和立体图像输入,而无需它们的精心策划的深度注释。在测试时,给定一张单目图像,我们的深度估计器可以预测出结构化和度量准确的深度,具有对未见室内场景的高泛化能力(第3.2节)。蒸馏还有助于将DPT的大型视觉变换器缩小为更小的架构,从而实现在便携设备上的实时推理。0接下来,我们将描述我们在数据集级别的贡献。当前公开可用的立体数据集要么针对驾驶场景[9, 13, 20, 22,76],规模较小且缺乏场景变化[65,66],要么是从不现实的3D动画中渲染出来的[6,52],或者是在野外收集的[35,70]。流行的室内数据集要么规模较小(Middlebury[65]),要么缺乏立体对(NYUv2[54])。目前还没有大规模的室内立体数据集来促进自监督研究中的左右一致性。我们利用流行的Habitat模拟器[63,69]在3D室内环境中收集立体对。我们选择了常用的环境,包括Replica[68],Matterport3D(MP3D)[8]和Habitat-Matterport3D(HM3D)[57],创建了一个名为SimSIN的新数据集,其中包含约1000个室内环境的约50万个模拟立体室内图像(第4节)。通过SimSIN,我们能够研究先前的自监督框架在室内场景上的性能。0场景[24, 74,75]。我们发现,通过直接训练这些模型,我们可以在SimSIN上进行拟合,但这样的模型在未见环境的异构领域中的泛化能力较差。然而,使用我们的结构蒸馏策略可以在未见数据上产生高度结构化和度量准确的深度(第5节)。我们利用几个商业质量的模拟和真实数据进行评估,包括具有挑战性的虚拟公寓(VA)序列[1, 2],Hyper-sim中的预渲染场景[61]以及NYUv2中的真实单目图像[67]。为了进一步研究在模拟数据上训练与在真实数据上训练之间的差距,我们进一步收集了UniSIN数据集,其中包括500个真实的室内立体序列,共计20万张图像,使用现成的高性能立体相机在大学的建筑和空间中进行拍摄。我们展示了我们在仅使用模拟数据训练的DistDepth与那些在真实数据上训练的模型具有相当的性能。我们的DistDepth尤其能够实现零样本跨数据集推理,并缩小了模拟到真实和真实到真实学习之间的差距,如图1所示。在整个工作中,我们将深度图可视化为实际的度量范围,除非标记为相对深度。我们总结我们的贡献如下:1.我们提出了DistDepth,这是一个将深度领域结构知识蒸馏到自监督深度估计器中以获得高度结构化和度量准确的深度图的框架。2.我们提出了SimSIN,一个大规模的室内模拟数据集,通过左右一致性推动室内深度估计的研究,并提供了一个真实数据集UniSIN,用于研究在模拟和真实数据上训练之间的差距。3.我们实现了一个实用的室内深度估计器:学习无需精心策划的深度地面真实性,通过模拟进行高效有效的数据收集,具有高泛化性和准确的实时深度感知推理。02. 相关工作0单目场景深度估计。许多研究兴趣集中在学习基于深度域的映射:I → D,从图像到深度的映射。02.1. 监督式场景深度估计0监督学习需要像素级深度注释。早期的方法[17-19, 33, 45,46, 49, 58, 79,81]使用卷积神经网络对深度值进行像素级回归,以最小化预测和真实值之间的损失。最近,Bhat等人[4]采用自适应分箱进行深度回归,并使用视觉变换器[16]。MiDaS[60]和Wei等人[82]巧妙地混合了几个数据集,使用尺度和平移不变的损失函数进行大规模深度训练。BoostingDepth[53]根据[34]中的观察,基于MiDaS融合了多尺度深度线索,但是pe(I′t, ˆI′t) = κ1 − SSIM(I′t, ˆI′t) + (1κ)L1(I′t, ˆI′t), (1)38160图2.DistDepth概述。我们将结构从现成的专家蒸馏到自监督深度估计分支DepthNet中。这种方法使我们能够获得具有精细结构的度量深度图,而无需精心策划的深度注释。请注意,为了简单起见,我们在这里省略了时间扭曲和PoseNet。0后处理一个深度图需要几分钟的时间。DPT(MiDaS-V3)[59]设计了一个密集视觉变换器,并取得了比原始MiDaS更好的结果。尽管最先进的MiDaS[60]和DPT[59]可以为野外图像估计细粒度的深度结构,但它们只提供相对深度,需要未知的尺度和平移因子来与实际尺寸对齐,这是由于混合数据集训练策略。我们的DistDepth采用这种在野外场景上的预训练作为深度结构蒸馏的专家,通过左右一致性训练的分支获得结构化和度量化的深度。02.2. 左右和时间一致性0左右和时间一致性有助于实现自监督学习,减少对训练中地面真实深度的要求,更接近实际深度感知[27, 41, 43, 44,55]。MonoDepth[23]从立体图像对中学习深度,并使用左右深度重投影和光度损失最小化。MonoDepth2[24]进一步包括时间相邻帧,并最小化光度一致性损失。DepthHints[74]采用预计算的SGM[30,31]深度作为代理仍然保持自监督。ManyDepth[75]使用测试时多帧输入和代价体积最小化来获得更准确的预测。然而,这些方法都集中在驾驶场景,并且它们在室内数据上的适用性尚待研究。我们的工作基于左右和时间一致性以及深度结构蒸馏,实现了结构化、度量化和通用化的深度估计,而大多数工作都没有讨论通用性[24-26, 75,80]。请注意,我们的结构蒸馏与常规蒸馏[29, 62,84]不同,因为我们的专家只能估计深度排序,并且需要与学生推断的度量结合以获得最终输出。其他一些工作只通过时间一致性实现自监督[5,36],这使得尺度不太稳健。另一项基于曼哈顿世界假设的工作[47]最小化共面和法线损失,但只对平面区域显示出稳健性。0具有固有模糊尺度。03. 方法03.1. 基本问题设置0本节中,我们描述了自监督方法(如MonoDepth2、DepthHints和ManyDepth)中常用的左右和时间光度一致性。在训练过程中,I t 和 I ′ t 是时间步 t的立体图像对。DepthNet f d 用于预测 I t 的深度,即 D t= f d ( I t )。通过已知的相机内参 K 和变换 T t :I t → I ′t,可以将 I t 投影到三维空间,然后利用 K、D t 和 T t将其重新投影到 I ′ t 的成像平面上。ˆ I ′ t = I t � proj ( D t ,T t , K ) � 表示重新投影。目标是最小化光度损失 L = pe ( I ′t , ˆ I ′ t ),其中 pe 定义如下。0其中 κ 通常设置为0.85,SSIM[72]用于测量图像域结构相似性, L 1用于计算像素级差异。 pe ( I ′ t , ˆ I ′ t )衡量了立体对的光度重建误差,以实现左右一致性。还利用了时间上相邻的帧来计算光度一致性。PoseNet计算了时间步长 t 与 t + k 之间的相对相机姿态: T t + k → t = fp ( I t , I t + k ) ,其中 k ∈ { 1 , − 1 } 。然后,通过将 t+ k 的图像进行扭曲到 t 并计算等式 1中的光度一致性来实现时间一致性。在推理时,通过单目图像预测深度 D = f d ( I )。适用性。我们在SimSIN数据集上训练了MonoDepth2、DepthHints和ManyDepth,并在图4中展示了场景拟合。先前的方法适用于训练集,但在室内环境中由于未见过的复杂物体排列而无法很好地推广到跨数据集的推理。03.2. DistDepth: 从专家中进行结构蒸馏0为了克服将自监督框架应用于室内环境时的普适性问题,我们Lstat = 1 − SSIM( ¯D∗t , Dt),(2)38170提出了DistDepth(图2)。DPT[59]使用密集视觉变换器可以生成高度结构化但仅具有相对深度值的深度图,通过 D � t = f � d ( I t ) 1来解释(详见第2.1节)。我们提取 D � t的深度域结构,并将其转移到自监督学习分支,包括Depth-Net f d 和PoseNet f p。自监督分支学习度量深度,因为它利用具有已知相机内参和基线以及深度扭曲操作 I t � proj ( D t , T t , K ) �的立体对。我们的蒸馏使得 f d能够同时生成高度结构化和度量深度,并且在训练时无需地面真实深度仍然能够正常工作。我们首先通过最小化 ¯ D � t= a s D � t + a t 与 D t 之间的差异来估计尺度因子 a s和平移因子 a t的粗略对齐因素,其中差异通过最小二乘优化的闭式表达式计算得到(见补充材料)。统计损失。与图像域结构相比,深度域结构排除了与深度无关的低层次线索,如纹理和物体上的绘制图案,并显示几何结构。可以通过SSIM[71-73]获得图像结构相似性与统计约束。深度域结构还与由均值、方差和协方差表示的深度分布相关联,用于相似性度量。因此,我们计算使用深度图输入 ¯ D � t 和 D t的SSIM,并使用负度量作为损失项0与广泛使用的将SSIM与 L 1损失相结合的外观损失不同,我们发现像素级差异度量导致训练不稳定,因为从视差到深度的反演放大了预测的不确定性,并产生了更大范围的异常值。相比之下,SSIM损失约束了两个分布的均值和方差项,而不是每个像素的差异,成为一种理想的选择。空间细化损失。SSIM损失仅约束统计深度分布,但丢失了空间信息。我们接下来提出了一种使用深度遮挡边界图的空间控制方法(图2(B))。我们应用Sobel滤波器来计算深度域梯度: g= ( ∂X0∂v ) , 其中 X ∈ { ¯ D � t , D t } ,u, v代表2D网格上的水平和垂直方向。然后,我们计算梯度图的95%分位数处的激活水平 α,以确定深度遮挡边界,其中梯度大于 α。我们通过使用各自的 α 项对 ¯ D � t 和 D t进行阈值处理,计算0/1二值图 E � 和 E,以表示遮挡边界位置。最后,我们计算01DPT(和MiDaS)在视差(逆深度)空间中输出相对关系,因为它训练于多样的数据源(基于激光的深度、SfM的深度或未知校准的立体图像)。我们将其输出反转并在深度空间中计算损失,因为我们的训练数据源是单一的。0图3.从相对深度到度量深度的映射并不简单。x轴捕捉DPT的(反)输出值,y轴表示来自模拟系统或传感器的度量深度。我们使用RANSAC运行最小二乘线性回归,为我们的数据集中的随机场景生成相对深度和度量深度之间的最佳拟合线。0汉明距离,即按位差异,E�和E之间的差异,并通过地图大小进行归一化,将其作为空间损失项,Lspat = E�⊕E/|E|,(3)0其中 ⊕ 是两个布尔集合的异或操作,|E|计算集合的大小。在实现中,为了使阈值和二值化操作可微分,我们从¯D�t和Dt中分别减去相应的α,并应用类似于符号函数但反向传播平滑且非零梯度的soft-sign函数,以获得值为{-1,1}的映射。除以2后,我们得到了映射之间的逐元素汉明距离。结构蒸馏的损失函数为Ldist = Lstat +10−1Lspat。I t的最终损失函数Lt与左右一致性L LR = pe(I′t,ˆI′t)、时间一致性Ltemp = pe(It,ˆIt+k→t)相结合,其中ˆIt+k→t是前向和后向的变形,k∈{1, -1},并且Ldist:Lt = L LR + Ltemp +10−1Ldist。设计的结构蒸馏对于提高自监督深度估计器的泛化能力至关重要,以便更好地区分与深度相关和与深度无关的低级线索。从另一个角度来看,通过左右一致性训练的学生有助于DPT学习不同室内场景之间的范围。另一种替代方法是根据对齐关系[60]预测比例和偏移因子,将相对深度对齐到度量深度。这种看似简单的方法,然而,由于神经网络深度估计不可避免地包含不确定性,不论是由神经网络模型还是由数据引起[38, 39,51],它都存在缺点。相对深度和度量深度之间的转换显示出整体线性但嘈杂的趋势,并且对于不同场景,最佳线方程可能有很大的变化,如图3所示。因此,这种替代方法无法仅通过比例和偏移项来分解噪声和异常值。我们在补充材料中使用这种方法进行实验。38180图4.数据集内/间推理。先前的自监督方法可以拟合训练数据(SimSIN),如第一行所示,但它们对未见过的测试数据集(VA),如第二行和第三行所示,泛化能力较差。我们的DistDepth可以根据地面真实值产生更有结构和准确性的范围。0我们采用ResNet [28]作为DepthNet fd。尽管可以使用密集视觉变换器获得更高的预测准确性,但由于网络规模较大和复杂操作,它们的推理速度较低,无法满足实时设备上的深度感知需求。因此,我们最大限度地利用了DPT中嵌入的结构知识,并将大型视觉变换器缩小为较小尺寸的ResNet,这使我们能够以交互速率(35 + fpsvs. 不同版本DPT的8-11 fps,在配备RTX 2080GPU的笔记本电脑上测得)运行深度感知,以满足实际深度估计的目的。请参阅补充材料进行演示。04. 数据集04.1. 训练:SimSIN0为了利用左右和时间上的相邻帧实现自监督训练的光度一致性,我们采用了流行的Habitat模拟器[63,69],该模拟器启动一个虚拟代理并渲染摄像头捕捉的3D室内环境。我们采用了Replica、MP3D和HM3D作为后端3D模型,遵循先前的具身化人工智能工作[10-12, 14, 21,56]。我们采用了13cm的立体基线,按照[7]中的相机设置进行渲染,分辨率为512×512。代理多次导航并捕捉立体序列。然后我们手动筛选出失败的序列,例如当代理靠近墙壁或导航到空白区域时。我们的数据集包含来自Replica、MP3D和HM3D的约80K、205K和215K张图像,共计约1000个不同环境的500K张立体图像,是迄今为止最大的用于通用室内环境的立体数据集。04.2. 训练:UniSIN0为了研究模拟和现实之间的差距,并比较在模拟数据上训练和在真实数据上训练的模型的性能。我们使用ZED-2i [ 3],一个高性能立体相机系统,来收集大规模的立体序列。0执行立体相机系统,从大学周围的各种室内空间中收集大规模的立体序列,并创建UniSIN数据集。其训练集包含500个序列,每个序列有200对立体图像,共计20万个训练图像。04.3. 评估集0商业质量的模拟。我们选择了一个精心设计的虚拟公寓(VA),并沿着轨迹渲染了约3.5K个逼真的图像作为评估集[1,2]。VA数据集包含具有挑战性的室内场景,用于深度感知,例如具有不同照明、薄结构和复杂装饰品的橱柜立方体。这些场景使我们能够对私人室内空间的深度感知进行详细研究,这是AR/VR的最常见用例。我们还从预渲染的Hy-persim [ 61]数据集中选择了样本,该数据集包含虚拟环境的单目图像,用于定性演示。真实数据。我们采用了流行的NYUv2 [ 67],其测试集包含654个带有深度图的单目图像,使用Kinectv1的飞行时间激光进行采集。为了弥补Kinect的较旧的成像系统和低分辨率,以满足更实际的AR/VR使用,我们收集了由ZED-2i提供的1K高清图像,并进行了精细优化的深度。我们在补充材料中展示了所有数据集的样本集合。05. 实验和分析0我们将输入大小设置为256×256,批量大小设置为24,迭代次数设置为10。使用Adam [ 40]作为优化器,初始学习率为2×10−4,在第8和第10个迭代时降低10倍。我们采用常见的颜色抖动和随机翻转数据增强。我们为PoseNet f p 和DepthNet f d使用ResNet50,对于MonDepth2、DepthHints和ManyDepth,我们在本节中进行比较时也使用相同的网络。DPT采用大尺寸的密集变换器网络应用于野外场景。因此,我们选择更大的DepthNet架构来展示泛化能力,但仍然可以以交互帧速率运行(见补充材料)。05.1. 模拟数据实验0我们在第5.1节中使用SimSIN作为训练数据集,并在各种商业质量的模拟数据上进行评估。在SimSIN上训练的先前自监督方法。我们首先直接在SimSIN上训练MonoDepth2、DepthHints和ManyDepth,按照它们论文中的设置进行训练,并在训练数据上进行拟合和在VA上进行推理,如图4所示,以研究其泛化能力。ManyDepth和DepthHints的结果优于MonoDepth2。我们的DistDepth在结构高度规范化方面具有对未见示例的鲁棒性,与地面真实值相比。范围MAE0.2950.2910.253-14.2%0.2750.239-13.1%AbsRel0.2030.1970.175-13.8%0.1890.166-12.2%RMSE0.4320.4270.374-13.4%0.4080.357-12.5%RMSElog0.2510.2480.213-15.1%0.2410.210-12.9%38190表1. VA数据集上的定量比较。我们的DistDepth的误差远低于先前的方法,具有左右一致性。DistDepth-M进一步使用了ManyDepth中的测试时多帧策略。详见正文。0测试时单帧 测试时多帧 方法MonoDepth2 [ 24 ]0DistDepth改进ManyDepth [ 75 ]0DistDepth-M改进0图5.VA序列的定性结果。为了比较,显示了DistDepth和MonoDepth2的深度和误差图。这些示例演示了我们的DistDepth对常见室内物体的几何结构深度的预测。0预测也得到了改进,我们认为这是由于更好的结构遮挡边界推理所致。在VA上进行误差分析。VA数据集包含室内空间中的各种具有挑战性的场景。我们在图5中展示了定性的误差分析。在误差图中,我们的Dist-Depth在估计不同照明条件下的绘画、货架和墙壁等底层几何结构方面具有更好的泛化能力。更多示例请参见补充材料。我们还在表1中展示了对整个VA序列的数值比较。所有比较方法都是在SimSIN上训练的。我们进一步将DistDepth配备了测试时多帧策略,采用了ManyDepth中引入的代价体积最小化方法,并将其称为DistDepth-M。方法分为测试时单帧和测试时多帧两种情况。在两种情况下,Dist-Depth的误差都低于先前的方法。这验证了我们的网络设计:通过使用专家进行深度域结构蒸馏,学生网络f d可以产生更接近于地面真实值的结构化和度量深度。在VA上进行消融研究。我们首先研究了专家网络,并采用了不同版本的DPT(混合和传统),它们的网络大小不同。表2显示了由较大尺寸专家DPT-教授的学生网络,DPT-0图6.深度域结构改进的定性研究。展示了两个示例(A)和(B),以研究蒸馏损失和空间细化中α的开启级别对我们设计的影响进行验证。0表2.选择专家网络进行蒸馏的研究。采用不同网络大小(参数数量)的DPT[59]作为专家来教授学生。DPT-遗留更好地定位遮挡轮廓,并导致性能更好的学生网络。监督学习的结果作为参考提供。0自监督 监督 无蒸馏0DPT -混合0DPT -遗留0与地面真实值对比0参数数量 - 123M 344M - MAE 0.295 0.276 0.253 0.221 AbsRel0.203 0.188 0.175 0.158 RMSE 0.432 0.394 0.374 0.325 RMSElog0.251 0.227 0.213 0.1880使用遗留方法,可以获得更低的深度估计误差。没有蒸馏,结果更差,因为其估计仅依赖于光度损失,而在无纹理区域(如墙壁)上失败。作为一个合理性检查,我们还提供了使用SimSIN的地面真实深度进行监督训练,并在VA数据集上进行测试的结果,这显示了在经过专家网络预测的深度和经过策划深度训练之间的差距。接下来,我们在第3.2节中研究了不同蒸馏损失的训练策略和α的开启级别的影响。38200图7.Hypersim上的结果。MonoDepth2和我们的DistDepth的深度图和纹理点云对比。通过结构蒸馏,DistDepth获得更好的物体结构预测,如(A)中的桌子和墙上的绘画,以及(B)中大书架的畸变更少。0比较(1)无蒸馏,(2)只使用统计损失的蒸馏,以及(3)同时使用统计和空间细化损失的蒸馏。我们在图6中展示了定性结果,以展示深度域结构的改进。没有蒸馏,空间结构无法清晰推理。通过统计细化,深度结构更加明显。添加空间细化后,深度域结构显示出细粒度的细节。我们进一步分析了不同α的开启级别的影响。低α会使结构模糊,因为细化不会像高α那样专注于高梯度的遮挡边界,高α仅将高梯度区域视为遮挡边界,并有利于结构知识传递。在Hypersim上的比较。我们在图7中展示了Hypersim中一些场景的深度和纹理点云。点云可视化采用了两个不同的视角。可以发现,我们的DistDepth在深度图和点云中预测出更好的几何形状。更多示例请参见补充材料。05.2. 实际数据上的实验0缩小仿真与实际数据之间的差距。我们比较了在仿真数据(SimSIN)和实际数据(UniSIN)上训练的结果,以研究性能差距。我们分别对以下四种情况进行了研究:(1)在仿真数据上训练MonoDepth2并在实际数据上评估,(2)在实际数据上训练MonoDepth2并在实际数据上评估,(3)在仿真数据上训练DistDepth并在实际数据上评估,(4)在实际数据上训练DistDepth并在实际数据上评估。图8展示了这四种情况的结果。通过比较(1)和(2),可以发现在实际数据上训练的MonoDepth2产生比在仿真数据上训练的更可靠的结果。相比之下,当比较(3)时,这种差距变得不明显。0为了平衡训练数据集的大小,我们在SimSIN中随机抽样约20万张图像,以匹配UniSIN的数据集大小。0使用DistDepth进行实验。结果显示,(3)的效果与(4)相当,有时甚至能够产生更好的几何形状,如突出显示的区域。我们还在补充材料中进行了数值分析。0结果在方法和数据集两个层面上验证了我们的提议。首先,DistDepth利用专家网络将技巧传授给学生。这种蒸馏显著增加了在模拟数据上训练的模型的鲁棒性,并使结果与在真实数据上训练的模型可比。这表明了DistDepth在缩小模拟数据和真实数据之间差距方面的能力。其次,立体模拟数据为左右一致性提供了学习度量深度的平台。我们使用仅在模拟数据上训练的DistDepth展示了一系列结果,图9中的几何形状优于MonoDepth2。DistDepth在模拟训练中有时显示出比在真实训练中更好的结构,从而具体减小了模拟到真实的差距。0在NYUv2上的评估。表3显示了在NYUv2上的评估结果。我们首先在SimSIN上训练了DistDepth,然后仅使用时间一致性在NYUv2上进行微调。需要注意的是,一个微调模型(Sup:△)被归类为半监督学习,因为它利用了在NYUv2的深度数据上进行训练的专家。微调模型产生了在没有NYUv2深度监督的方法中最好的结果,甚至与许多有监督方法达到了可比较的结果。接下来,我们仅在模拟数据(SimSIN)或真实数据(UniSIN)上训练DistDepth,并在NYUv2上进行评估。与在UniSIN上训练的模型相比,仅在SimSIN上训练的模型的性能略有下降,这再次证明了我们的模拟到真实的优势。在不涉及任何NYUv2的训练数据的情况下,DistDepth仍然达到了许多有监督和自监督方法的可比性能,进一步验证了我们的零样本跨数据集的优势。我们在补充材料中展示了实时深度感知、3D照片和深度感知的增强现实应用。AbsRelRMSEδ1δ2δ338210图8.在UniSIN上的比较。DistDepth产生的几何形状优于MonoDepth2。DistDepth具体减小了模拟到真实的差距:(3)和(4)获得了相当的结果,有时在模拟训练中显示出比在真实训练中更好的结构。0图9. 使用我们仅在模拟数据(SimSIN)上训练的DistDepth在真实数据(UniSIN)上的结果。0表3.在NYUv2上的评估。Sup:�-使用地面实况深度的半监督学习,�-不使用地面实况深度,△-半监督学习(我们使用在NYUv2上进行微调的专家,间接获得地面实况深度)。我们在所有自监督方法中取得了最佳结果,我们在NYUv2上进行半监督和自监督微调的结果甚至超过了许多有监督方法。最后两行显示了没有地面实况监督和没有在NYUv2上进行训练的结果。在这个具有挑战性的零样本跨数据集评估中,我们仍然达到了许多在NYUv2上训练的方法的可比性能。报告了错误和准确度(黄色/绿色)指标。0方法 Sup 在NYUv2上训练0Make3D[64] 0.349 1.214 44.7 74.5 89.7 Li等人[48] 0.143 0.635 78.8 95.8 99.1Eigen等人[17] 0.158 0.641 76.9 95.0 98.8 Laina等人[45] 0.127 0.573 81.1 95.3 98.8DORN[19] 0.115 0.509 82.8 86.5 99.2 AdaBins[4] 0.103 0.364 90.3 98.4 99.7 DPT[59]0.110 0.357 90.4 98.8 99.80Zhou等人[87] 0.208 0.712 67.4 90.0 96.8 Zhao等人[85] 0.189 0.686 70.1 91.2 97.8Bian等人[5] 0.157 0.593 78.0 94.0 98.4 P2 Net+PP[83] 0.147 0.553 80.4 95.2 98.7StructDepth[47] 0.142 0.540 81.3 95.4 98.8 MonoIndoor[36] 0.134 0.526 82.3 95.898.9 DistDepth(微调)0.130 0.517 83.2 96.3 99.0 DistDepth(微调)△ 0.113 0.44487.3 97.4 99.30DistDepth(SimSIN)0.164 0.566 77.9 93.5 98.0 DistDepth(UniSIN)0.158 0.54879.1 94.2 98.506. 结论和讨论0本文针对一个实用的室内深度估计框架,具有以下特点:在没有深度信息的情况下进行训练0地面真实性,模拟训练的有效性,高泛化性和准确的实时推理。我们首先确定室内深度估计的挑战,并研究现有自监督方法在SimSIN上具有左右一致性的适用性。通过从专家那里获得的深度领域结构知识进行装备,我们在推断更精细的结构和更准确的度量深度方面取得了实质性的改进。我们展示了零样本跨数据集推理,证明了它在异构数据领域上的泛化能力,并获得了适用于室内场景的广泛适用的深度估计器。更重要的是,从模拟数据中学习的深度可以很好地转移到真实场景中,这显示了我们的蒸馏策略的成功。在推理时,只需对DepthNet进行一次前向传递,即可产生结构化的度量深度,并在便携设备上达到35 + fps,满足实时需求。0限制 .尽管DistDepth能够使用深度估计的单次前向传递产生结构化和度量深度,但它是基于每帧的操作,可以通过改进来产生更具时间一致性的视频输入深度 [ 42 , 50]。深度估计的另一个常见问题是如何正确处理反射物体。通过蒸馏,DistDepth可以为具有清晰轮廓的物体产生估计,如图1中的灯泡所示。然而,我们的方法仍然对大型镜子不够稳健。一种可能的解决方案是定位镜子并对原始估计进行深度补全 [ 77 , 78 , 86 , 88 ]。[3] Zed2i-stereolabs.https://www.stereolabs.com/zed-2i/. 538220参考文献0[1] 虚幻引擎4. https://www.unrealengine. com/en-US/unreal . 2 , 50[2] 温暖的港湾环境.https://www.unrealengine.com/marketplace/en-US/product/warmharbor . 2 , 50[4] Shariq Farooq Bhat, Ibraheem Alhashim, and PeterWonka. Adabins: 使用自适应箱进行深度估计. 在CVPR, 2021. 2, 80[5] Jia-Wang Bian, Huangying Zhan, Naiyan Wang, ZhichaoLi, Le Zhang, Chunhua Shen, Ming-Ming Cheng, and IanReid. 从视频中无监督地学习尺度一致的深度. IJCV, 2021. 3 , 80[6] D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black.用于光流评估的自然开源电影. 在ECCV, 2012. 20[7] Rohan Chabra, Julian Straub, Christopher Sweeney,Richard Newcombe, and Henry Fuchs. Stereodrnet:扩张残差Stereonet. 在CVPR, 2019. 50[8] Angel Chang, Angela Dai, Thomas Funkhouser, MaciejHalber, Matthias Niebner, Manolis Savva, Shuran Song, AndyZeng, and Yinda Zhang. Matterport3D:在室内环境中学习RGB-D数据. 在3DV, 2017. 20[9] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy,Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang,Peter Carr, Simon Lucey, Deva Ramanan, and James Hays.Argo-verse: 具有丰富地图的3D跟踪和预测. 在CVPR, 2019. 20[10] Changan Chen, Ziad Al-Halah, and Kristen Grauman.语义视听导航. 在CVPR, 2021. 50[11] Changan Chen, Unnat Jain, Carl Schissler, Sebastia VicencAmengual Gari, Ziad Al-Halah, Vamsi Krishna Ithapu, PhilipRobinson, and Kristen Grauman. Soundspaces:在3D环境中的视听导航. 在ECCV, 2020. 50[12] Changan Chen, Sagnik Majumder, Ziad Al-Halah, RuohanGao, Santhosh Kumar Ramakrishnan, and Kristen Grauman.学习为视听导航设置航点. 在ICLR, 2020. 50[13] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在CVPR, 2016. 1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功