没有合适的资源?快使用搜索试试~ 我知道了~
自监督单目深度估计及其不确定性评估
3227自监督单目深度估计Matteo Poggi Filippo Aleotti Fabio Tosi Stefano Mattoccia计算机科学与工程系(DISI)意大利博洛尼亚大学{m.poggi,filippo.aleotti2,fabio.tosi5,stefano.mattoccia}@ unibo.it摘要用于单目深度估计的自监督范例是非常有吸引力的,因为它们根本不需要地面实况注释。尽管这些方法产生了令人惊讶的结果,但学习推理估计的深度图的不确定性对于实际应用是至关重要的,但在文献中是未知有目的地,我们第一次探索如何估计这项任务的不确定性,以及这如何影响深度准确性,提出了一种专门为自我监督方法设计的新颖的特殊技术在标准的KITTI数据集上,我们详尽地评估了每种方法在不同自监督范式下的性能。这样的评估强调了我们的建议i)总是显着提高深度准确性,ii)在序列上训练时产生关于不确定性估计的最先进的结果,并且独特地部署立体声对的竞争结果。1. 介绍深度估计通常是计算机视觉中各种高级任务的关键,例如自动驾驶、增强现实等。尽管诸如LiDAR的主动传感器被部署用于上述应用中的一些,但是由于若干优点,从标准相机估计深度通常是优选的。其中包括:标准成像设备的成本低得多,其更高的分辨率和帧速率允许更可扩展和引人注目的解决方案。在计算机视觉中,从两个[59]或多个图像[60]进行深度感知有着悠久的历史。然而,只有在过去的十年中,从单个图像[57]进行深度估计才一方面,该方向特别有吸引力,因为它克服了传统多视图解决方案的几个限制(例如,遮挡、重叠的框架区域等),使得能够利用配备有相机的任何设备进行深度感知。不幸的是,这是一项极具挑战性的任务,远密切低高图1. 我们能在多大程度上信任自我监督的单目深度估计?从单个输入图像(顶部),我们估计深度(中间)和不确定性(底部)图。最好的颜色。问题的病态性质深度学习引发了单声道深度框架的传播[13,38,15],代价是需要大量用地面真实深度标签注释的图像样本[47,68]才能实现令人满意的结果。然而,获取带注释的深度数据特别昂贵且麻烦。事实上,与离线手工注释繁琐但相对容易的许多其他监督任务相比,收集准确的深度标签需要主动(并且通常昂贵)传感器和特定校准,使得离线注释难以以其他方式实现自我监督[19,82,45,56,53]或弱监督[76,65,72]分别利用图像重投影和噪声标签的范例已经消除了这个问题,并产生接近监督方法的精度[15],完全忽略了用于标签目的的额外深度传感器的部署。在自我监督的范例中,部署单眼序列的那些更具挑战性,因为3228比例和相机姿态是未知的,但对于大多数实际应用是优选的,因为它们允许利用用于推断深度的相同设备来收集对于其他的感知策略,在单目深度估计网络中,当出现故障时,找出故障情况是至关重要的。例如,在自动驾驶场景中,对与行人或其他车辆的距离的错误感知可能具有显著的后果。此外,与利用场景几何学的技术相比,单声道深度感知任务的不适定性使得这种可能性更有可能发生[59,60]。在后一种情况下,通过基于模型的[24]和基于学习的[55,30]方法,光学测量流[27]和语义分割[26,30]。尽管在其他相关领域取得了稳步进展,但自我监督范式的不确定性估计仍然几乎未被探索,或者当面对时,没有定量评估[32]。尽管该领域的并行工作[20,72,65]针对的是独特的深度精度,但我们对这种匆忙进行了呼吸,并首次专注于自监督单目深度估计网络的不确定性估计,展示了这种做法如何提高深度精度。我们的主要贡献可概括如下:• 针对所考虑的任务量身定制的不确定性估计方法的综合评估• 深入调查部署的自我监督训练范式如何影响不确定性和深度估计。• 一个新的和独特的自学模式,以模型的不确定性,特别是有用的姿势是未知的训练过程中,始终能够提高深度精度。在该领域部署标准度量,我们提供了KITTI数据集上的exhaustive实验结果[18]。图1显示了一个最先进的单目深度估计器网络的输出,该网络丰富了模型的不确定性。我们可以注意到我们的建议如何有效地允许检测错误的预测(例如,在骑自行车的人附近)。2. 相关工作在本节中,我们回顾了有关自监督单目深度估计和估计深度神经网络中的不确定性的技术的文献。对单核细胞增多症的自我监督。深度学习的出现,以及地面实况深度数据的日益可用性,导致了框架的发展[38,40,74,15]与以前的方法[58,37,14]。尽管如此,收集大量标记图像的努力是很高的。因此,为了克服对地面真实数据的需求,图像重建形式的自我监督代表了现在流行的研究课题。利用这种范式的框架属于两个(不相互排斥的)类别,分别通过单目序列或立体对进行监督。第一网络族联合学习以估计通过以下方式获取的两个图像之间的深度和相对姿态:移动的照相机。在这个方向上的种子工作是[82],通过利用点云对齐[45],可区分的DVO [69],光流[78,83,11,3],语义[66]或规模一致性[5]。这些方法的缺点之一是由训练图像中出现的移动对象表示,在[8,75]中采用实例分割和随后的分割动态对象的运动估计来对 于 第 二 类 , 关 键 是 Garg 等 人 的 作 品 。 [17]Godardet al. [19 ]第10段。其他方法提高了效率[53,50],以实现在嵌入式设备上的部署,或通过模拟三目设置[56],联合学习语义[79],使用更高的分辨率[51],GAN [1],视觉里程计[2] 或教师-学生方案[52]。最后,在[80,77,41,20]中提出了利用这两种监督的对单核细胞的监管不力。自我监督和完全监督之间的权衡由利用较弱注释的另一系列方法表示。在这种情况下,标签可以来源于合成数据集[46],用于训练单视图立体[42]和标签蒸馏[22]的立体网络,或者在处理真实图像时学习深度估计并执行域转移[4]。另一个薄弱的监督来源包括使用采用LiDAR传感器的原始输出[35]或基于模型的算法获得的噪声注释。在后一种情况下,使用传统的立体声算法(如SGM[23])来获得代理标签[65,72],可选地与置信度测量[64]一起,允许改善立体声对的自我监督。其他作品利用来自运动的结构[32]或直接立体测距法[76]提取噪声标签不确定度估计估计从图像中推断出的线索的不确定性(或互补性,置信度)对于它们在实际计算机视觉应用中的部署至关重要。这方面甚至在深度学习传播之前就已经得到了广泛的探索,例如,在处理光流和立体匹配时。关于光流,不确定性估计方法属于两个主要类别:模型-固有和事后。前一个家庭[7,36,71]估计不确定性3229a)b)、图2. 不确定性估计实现概述。分别是a)经验方法将不确定性建模为来自同一网络的所有可能实例的子集的预测方差,b)预测被训练以估计深度和不确定性作为分布的均值和方差,c)贝叶斯方法通过采样多个预测模型并将单个不确定性与深度预测的方差相加来近似[48]基于内部流估计模型的分数,即,能量最小化模型,而后者[43,33,34]分析已经估计的流场。关于立体视觉,已经类似地推断出置信度估计。首先,从内部差异估计模型提取的特征,即,成本量[24],然后通过对已经估计的视差图进行深度学习[55,61,54,67,31]。不确定性估计在神经网络中也有很长的历史,从贝叶斯神经网络开始[44,10,73]。从权值分布中抽取不同的模型,以经验的方式估计目标分布在[21,6]中,抽样被变分推理所取代从权重分布中采样的其他策略是自举合奏[39]和蒙特卡洛辍学[16]。差异策略包括以预测的方式估计不确定性。有目的地,神经网络被训练来推断分布的均值和方差,而不是单个值[49]。这种策略比经验策略既有效又便宜,因为它不需要多次向前传递,并且可以适应自我监督方法,如[32]所示最近的作品[29,30]在一个联合框架中结合了两者。最后,Ilget al. [27]对深层光流网络的不确定性建模进行了研究。尽管如此,除了我们任务的不同性质(即,不适定的单目深度估计问题),我们的工作不同的监督范式,传统的情况下,Lfs=F(d,d∞)(1)当传统监督不可用时,可以用图像重建获得的自我监督来代替结构在这种情况下,地面实况图df被第二图像If替换。然后,通过知道相机本征函数K、K+和相对相机姿态(R|t)之间,获得作为函数π的本征函数、姿态、图像It和深度d,使得能够计算损失信号Lss作为输入It和I t的通用F。Lss=F(I,I)=F(π(I,K,R|t,K,d),I)(2)I和It可以通过单个移动相机或利用立体装备来获取在后一种情况下,(R|t)由于立体声校准参数而预先已知。Eters,而对于由单个相机获取的图像,通常联合学习深度,两者都达到比例因子。F的一个流行选择是L1和结构相似性指数度量(SSIM)之间的加权和[70]F(I,I)=α·1−SSI M(I,I)+(1−α)·|I−I|(三)2通常α设定为0.85 [20]。在用于监督的K帧的情况下,例如通过联合单眼和立体监督,对于每个像素q,计算的损失中的最小值允许鲁棒的重投影[20]和自我监督Lss(q)=mini ∈[0..K]F(Ii(q),I(q))(4)3. 单声道深度和不确定性在本节中,我们将介绍如何使用自监督深度估计框架来处理不确定性建模。给定静止图像I,任何从单声道深度的帧产生对观察到的场景的深度进行编码的输出映射d。当完全监督可用时,为了训练这样的网络,我们的目标是最小化通过估计d的输入的通用函数F获得的损失信号Lfs和地面实况深度图。传统网络是确定性的,产生的单个输出通常对应于所有可能输出p(d) 的 分 布 的 平 均 值|I,D),D是图像和对应的深度图的数据集。估计这种分布的方差允许建模网络输出的不确定性,如[28,29]所示,如图2所示,a)以经验的方式,b)通过学习预测模型或c)结合两种方法。首先,我们指出,提供给网络的自我监督是间接的,相对于其主要的,c)、3230Cℐℐ图3.图像翻转的不确定性。 的区别−←→−概率p,以避免过度拟合。在测试时,所有连接都保持不变。通过在测试时启用dropout,我们可以每次对不同的网络执行多个前向采样经验均值μ(d)和方差σ2(d)计算如下,执行多个(N)推断:从图像I推断的深度d,以及←−D、从ΣN翻转的图像I提供了不确定性的基本形式µ(d)=1Ni=1(6)任务这意味着网络估计没有相对于期望的统计分布进行优化,即,深度d,但它们是函数(π)的输入参数u下降= σ2( d)=1ΣNNi=1(di−µ(d))2(7)在不同的统计模型上进行优化,即,意象岛虽然这并不代表经验方法的问题,但如Klodt和Vedaldi[32]所做的那样,负对数似然最小化等预测方法可以适用于这种范式。然而,我们将展示如何解决这个问题是次优时的姿态是未知的,即。π是两个未知参数的函数。3.1. 图像翻转一个简单的策略来估计不确定性的启发后处理(后)戈达尔等人提出的步骤。[19 ]第10段。这种细化包括估计两个深度←−映射d和d用于图像I及其水平翻转的计数器,在测试时,使用相同数量的网络参数,需要N×次转发Bootstrapped Entrance(引导)。一个简单而有效的权重采样替代方案是通过随机训练N个神经网络的集合[39]来初始化相同架构的N个实例并使用自举训练它们,即,在整个训练集的随机子集上。该策略产生N个专门的模型。然后,类似于dropout抽样,我们可以获得em-p平均值μ(d)和方差σ2(d),以便近似深度值分布的平均值和方差在ue它需要存储N×个参数,N×个独立训练的结果,以及每个训练的单个前向传递←−特帕特岛细化的深度图dr是通过平均-测试时存储的配置。d和→−←−d,即,后翻转的 ←−D. 我们把它编码-快照封装(快照)。虽然前面的方法是引人注目的,获得神经网络的集合-dr的区别在于两者之间的差异。→−←−u Post=|d− d|(五)即,在小的输出分布上的方差(即,2),正如下一节中概述的经验方法通常所做的那样尽管与原始单声道深度模型相比,该方法在测试时需要2倍的前向,因为它需要进行独立的训练,所以它是昂贵的。另一种解决方案[25]包括通过利用单个训练获得N个快照循环学习率调度,以获得C预收敛模型。假设初始学习率为λ0,我们在任何训练迭代t处获得λt作为步骤T和循环C总数的函数,如[25]所示。如图3所示,它可以无缝地应用于任何预先训练的框架,而无需任何修改。3.2. 经验估算λt=.λ0·2cos.ΣΣπ·mod(t−1,<$T <$) 简体中文(八)这类方法旨在对不确定性进行经验编码,例如,通过测量一组所有可能的网络配置之间的方差。它允许解释模型的不确定性,即认识论[29]。属于这一类的策略[27]可以直接应用于自我监督框架。丢弃抽样(丢弃)。早期的工作估计神经网络中的不确定性[44]通过从单个架构的权重分布中采样多个网络。Monte Carlo Dropout [63]代表了一种流行的方法,可以对N个独立模型进行采样,而无需多次独立训练。在训练时,层之间的连接被随机丢弃,与Boot和Drop类似,我们通过从单个训练过程中获得的C个模型中选择N个来获得经验均值μ(d)和方差σ2(d)3.3. 预测性估计这一类别旨在通过学习预测模型来编码不确定性这意味着在测试时,这些方法产生的估计值是网络参数和输入图像的函数,因此可以推断当前的观测值,对任意异方差不确定性进行建模[29]。由于经常从真实数据分布中学习,例如作为预测与地面真实值之间的距离的函数或通过最大化对数似然,C3231这些方法需要重新考虑,以处理自我监督的范例。学习重投影(Repr)使用分类器学习预测误差的函数是用于立体声[55,62]和光流[43]的流行技术然而,由于缺乏地面真值标签,我们无法将这种方法无缝地应用于自监督然而,我们可以驱动我们的网络的一个输出来模仿用于训练它的自监督损失函数的行为,从而学习影响范式本身的模糊性(例如,闭塞,低纹理和更多)。实际上,当估计的深度错误时,每像素损失信号应该是高因此,通过将以下项添加到Lss来训练不确定性uReprLRepr=β·|uRepr−F(I,I)|(九)t+1tt-1图4. 自学计划。网络T以自我监督的方式训练,例如.单目序列[t−1,t,t+ 1]。在T的d T输出上训练相同的新实例S。mini∈[0.. K]F(Ii(q),I(q))由于多个图像It可以用于监督,即,L对数=u日志+loguLog(13)当结合单目和立体,通常为每一个考虑像素q的最小重投影信号来训练网络,因此相应地训练uRepr回想一下,F是根据等式2在π上计算的。虽然对于立体监控来说,这种表述与传统的监控是等价的,即π是单目监控情况下单个未知参数d的函数L Repr(q)=β·|u Repr(q)−mini ∈[0.. K]F(Ii(q),I(q))| (十)这个公式共同解释了深度和姿态的不确定性,这两个都是π中的未知变量。我们将展示这种方法如何导致次优建模以及如何过度-在我们的实验中,我们将β设置为0.1,并停止F梯度在LRepr内进行数值稳定性。类似的技术出现在[9]中,尽管没有定量评估。对数似然最大化(Log)。另一种流行的策略[49]包括训练网络来推断分布p(d) 的 均 值 和 方 差|I,D)的标准杆a米Θ。该网络通过对数似然最大化(即,负对数似然最小化)logp(d)|w)=1logp(d(q)|(I,w)(11)NQw是网络权重。如[27]所示,在L1或L2损失计算的情况下,预测分布可以分别建模为Laplacian或Gaussian。注意,D。 在前一种情况下,这意味着最小化下一种方法会带来这种限制。自学(SelfTeaching)为了在建模不确定性时解耦深度和姿势,我们建议从学习的模型本身获得直接形式的监督。通过以自监督方式训练第一网络,我们获得产生噪声分布的网络实例TDT.然后,我们训练同一模型的第二个实例,即S,以模仿来自T的分布。类型-通常,应用于单眼深度估计[52]的师生框架[81]相比之下,在我们的方法中,教师T和学生S共享相同的架构,因此我们将其称为自我教学(Self-Teaching)。通过假设L1损失,我们可以将负对数似然最小化建模为跟随损失函数LSelf 为|µ(dS)− dT|+ logσ(dσ( dS)S)(14)L对数= |µ(d) − d∗| +logσ(d)(12)σ( d)我们将展示如何用这种策略i)我们获得一个网络S比T更准确,ii)在单眼手术的情况其中μ(d)和σ(d)是网络的输出,对分布的均值和方差进行编码。额外的对数项阻碍了对任何像素的无限预测。考虑到数值稳定性[29],训练网络以估计对数方差,以避免方差的零值。如Klodt和Vedaldi所示[32],在没有根据光度匹配,通过透视,我们可以将深度与姿势解耦,并实现更有效的不确定性估计。图4总结了我们的建议。3.4. 贝叶斯估计最后,在贝叶斯深度学习[29]中,模型的不确定性可以通过对所有可能的w进行边缘化而不是选择点估ℒℐ➚➚ℒℒℐ3232计来解释。据尼尔说3233[48],可以通过对N个模型进行采样并将均值和方差建模为ΣNp(d)|I,D) p(d|Θ(I,wi))(15)i=1如果为每个wi样本建模均值和方差,我们可以获得[29,27]中报告的总体均值和方差。1ΣN我们使用本征分裂[13]并将80米设置为最大深度。为此,我们使用[68]中介绍的改进的地面实况,比原始LiDAR数据准确得多,因为我们的目标是严格评估,而不是与现有的单目方法进行比较。尽管如此,我们还是报告了使用Garg深度度量。为了评估深度准确性,我们报告了七个标准指标中的三个,在[13]中定义。 具体来说,我们报告的绝对关系-µ( d)=NΣNi=1(16)绝对误差(Abs Rel)、均方根误差(RMSE)和内点数量(δ <1. 第25段)。我们请读者参考[13]或补充材料,以获得完整的描述σ2(d)=1(µ(d)−µ(d))2+σ2(d)(17)Ni我我 我i=1通过结合经验和预测方法,这种近似的实现是直接的[29,27]。在我们的实验中,我们将有目的地选择最好的经验和预测方法,例如。Boot+Self(Boot+Self)4. 实验结果在本节中,我们将详尽地评估联合深度和不确定性估计的自监督策略。4.1. 评价方案、数据集和指标首先,我们描述了有关培训和评估的所有细节,以确 保 完 全 的 可 重 复 性 。 源 代 码 将 在https://github.com/mattpoggi/mono-uncertainty上提供。架构和培训时间表。我们选择Monodepth 2作为基线模型[20],这要归功于所做的代码可用的,并根据单目,立体声或两种自我监督范例进行无缝训练的可能性。在我们的实验中,我们按照[20]中定义的协议训练这种方法的任何变体,从ImageNet[12]上的预训练编码器开始,在批量为12张大小为192×640的图像上训练20个epoch此外,我们始终遵循[20]中描述的增强和培训实践。最后,为了评估Post,我们使用作者公开提供的相同权重。关于经验方法,我们将N设置为8,Snap的循环数C设置为20。我们在Boot中为每个独立的网络随机提取25%的训练集。丢弃仅在解码器中的卷积之后应用。对于预测模型,在深度预测通道的基础上增加了一个并行的输出通道.数据集。我们比较了KITTI数据集[18]上的所有模型,该数据集由61个场景(约42K立体帧)组成。在驾驶场景中获得。 数据集包含图像这些指标。它们能够进行有关相对(Abs Rel和δ<1)的紧凑评估。25)和绝对误差(RMSE)。此外,我们还报告了测试时估计深度所需在在单眼监督的情况下,我们如[82]中那样缩放深度。不确定性度量。为了评估建模的不确定性有多重要,我们使用[27]中的稀疏图给定一个误差度量,我们将每个深度图中的所有像素按不确定性降序排序。然后,我们迭代地提取像素的子集(即,在我们的实验中为2%),并计算剩余部分以绘制曲线,如果不确定性适当地编码深度图中的误差,则一个理想的稀疏化(oracle)是通过排序像素的大小降序。相比之下,随机不确定性可以被建模为常数,没有给出关于如何去除错误测量的信息,因此,曲线是平坦通过绘制估计值与Oracle稀疏化之间的差异,我们可以测量稀疏化误差下的面积(AUSE,越低越好)。从随机稀疏化中减去估计稀疏化可以计算随机增益下的面积(AURG,越高越好)。前者量化了估计与预言不确定性的接近程度,后者与根本没有建模相比有多好(或更差,正如我们将在某些情况下看到的那样我们假设Abs Rel、RMSE或δ≥1。25(自δ<1. 25将准确度分数定义为0。4.2. 单目(M)监督深入表1a报告了Monodepth 2变体在使用单眼监督进行训练时实现不同不确定性估计策略的深度准确度。我们可以注意到,一般来说,经验方法无法改善大多数指标的深度预测,Drop与基线有很大的差距。 另一方面,Boot和Snap略微降低了RMSE。预测方法也会产生更差的深度估计,除了所提出的Self方法,该方法与平均分辨率为375 ×1242,校准过的激光雷达传感器根据实地标准,1七项指标的结果可作为补充材料提供3234方法Sup训练次数标准杆数#前进绝对相对值RMSEδ<1.25单深度2 [20]M1×1×1×0.0903.9420.914[20]第二十话M1×1×2×0.0883.8410.917单深度2-跌落M1×1×N×0.1014.1460.892Monodepth 2-BootMN×N×1×0.0923.8210.911Monodepth2-SnapM1×N×1×0.0913.9210.912单深度2-重复M1×1×1×0.0923.9360.912单深度2-对数M1×1×1×0.0914.0520.910Monodepth2-SelfM(1+1)×1×1×0.0873.8260.920Monodepth2-Boot+LogMN×N×1×0.0923.8500.910Monodepth2-Boot+SelfM(1+N)×N×1×0.0883.7990.918Monodepth2-Snap+LogM1×1×1×0.0923.9610.911方法Sup训练次数标准杆数#前进绝对相对值RMSEδ<1.25单深度2 [20]S1×1×1×0.0853.9420.912[20]第二十话S1×1×2×0.0843.7770.915单深度2-跌落S1×1×N×0.1294.9080.819Monodepth 2-BootSN×N×1×0.0853.7720.914Monodepth2-SnapS1×N×1×0.0853.8490.912单深度2-重复S1×1×1×0.0853.8730.913单深度2-对数S1×1×1×0.0853.8600.915Monodepth2-SelfS(1+1)×1×1×0.0843.8350.915Monodepth2-Boot+LogSN×N×1×0.0853.7770.913Monodepth2-Boot+SelfS(1+N)×N×1×0.0853.7930.914Monodepth2-Snap+LogS1×1×1×0.0833.8330.914a) 深度评测绝对相对RMSEδ≥ 1。25方法AUSEAURGAUSEAURGAUSEAURG单深度2-立柱0.0440.0122.8640.4120.0560.022单深度2-跌落0.0650.0002.5680.9440.0970.002Monodepth 2-Boot0.0580.0013.982-0.7430.084-0.001Monodepth2-Snap0.059-0.0013.979-0.6390.083-0.002单深度2-重复0.0510.0082.9720.3810.0690.013单深度2-对数0.0390.0202.5620.9160.0440.038Monodepth2-Self0.0300.0262.0091.2660.0300.045Monodepth2-Boot+Log0.0380.0212.4490.8200.0460.037Monodepth2-Boot+Self0.0290.0281.9241.3160.0280.049Monodepth2-Snap+Log0.0380.0222.3851.0010.0430.039单深度2-捕捉+自0.0310.0262.0431.2300.0300.045b) 不确定度评定表1.单目(M)监督的定量结果。[13]《易经》中的“道”字,是指“道”字。基线,即使在后处理时。关于贝叶斯解决方案,Boot和Snap在与Log结合时表现较差,而它们总是通过所提出的Self方法得到改进。不确定性表1b总结了模型不确定性在减少估计深度图上的误差方面令人惊讶的是,经验方法很少比Post解决方案更好。特别地,经验方法单独在比随机机会更好地执行方面失败,除了另一方面产生差得多的深度图的Drop之外预测方法性能更好,Log和Self产生最佳结果。其中,我们的方法优于日志的显着保证金。结合经验和预测方法是有益的,往往比单一的选择更好。特别是Boot+Self实现了最佳的整体效果。摘要 一般来说,Self与经验方法相结合,在处理M监督时,由于深度和姿态之间的解纠缠,因此在深度精度和不确定性建模方面表现更好。我们相信,经验方法的性能可以归因于深度尺度,在训练过程中是未知的。4.3. 立体声(S)监控深入在表2a中,我们显示了在立体声监督下训练时相同方法的结果。同样,Drop未能提高深度精度,以及预测方法中的Repr。Boot产生最好的改进,特别是在RMSE方面根据RMSE和δ 1,传统Log在基线上改进了这一时间<。25个指标,同时,自我不断提高a) 深度评测绝对相对RMSEδ≥ 1。25方法AUSEAURGAUSEAURGAUSEAURG单深度2-立柱0.0360.0202.5230.7360.0440.034单深度2-跌落0.103-0.0296.163-2.1690.231-0.080Monodepth 2-Boot0.0280.0292.2910.9640.0310.048Monodepth2-Snap0.0280.0292.2521.0770.0300.051单深度2-重复0.0400.0172.2751.0740.0500.030单深度2-对数0.0220.0360.9382.4020.0180.061Monodepth2-Self0.0220.0351.6791.6420.0220.056Monodepth2-Boot+Log0.0200.0380.8072.4550.0180.063Monodepth2-Boot+Self0.0230.0351.6461.6280.0210.058Monodepth2-Snap+Log0.0210.0370.8912.4260.0180.061单深度2-捕捉+自0.0230.0351.7101.6230.0230.058b) 不确定度评定表2.立体声(S)监督的定量结果。 用改进的地面真值[68]评估本征分裂[ 13 ]。所有指标的基线,尽管它没有超越后,这需要两个向前传球。不确定性表2b总结了建模不确定性的有效性。这一次,只有Drop的表现比Post差,实现了负AURG,因此在稀疏化方面是在这些实验中,由于立体设置的已知姿态,Log仅处理深度不确定性,因此表现非常好。Self,虽然允许更准确的深度,如表2a所示,这次排名第二考虑到贝叶斯实现,再次,无论是启动和捕捉总是改进。相反,与M情况相比,Log这次在任何贝叶斯公式中都始终优于Self摘要当姿态已知时,Log和Self之间关于深度精度的差距较小,Self在仅对预测不确定性建模时表现更好,Log在贝叶斯公式中表现稍好。对于不确定性估计,Log始终表现得更好。仅经验方法的行为就证实了我们从以前的实验中得出的结论:通过了解规模,Boot和Snap模型的不确定性要好得多。相反,Drop在此方面失败。4.4. 单目+立体(MS)监控深入表3a报告了单目和立体监督相结合时的深度精度行为。在这种情况下,只有自我始终优于基线,并与邮政竞争,这仍然需要两个向前通行证。在实证方法中,Boot是最有效的。关于贝叶斯解决方案,那些使用Self3235a) 深度评价绝对相对值RMSEδ≥ 1。25图5. 稀疏化误差曲线。从左到右,平均RMSE与M,S和MS监督。最好用颜色看δ≥ 1。第25章补充材料b) 不确定度评定表3. 单目+立体(MS)监督的定量结果。 [13]《易经》中的“道”字,是指“道”字。总的来说,在大多数指标上都更准确,但令人惊讶的是,它比单独的Self更差。不确定性表3b显示了所考虑的不确定性的性能。除了Log和Self之外,所有变体的行为都类似于使用立体监督观察到的行为。我们可以注意到Self优于Log,类似于M监督观察到的情况。它证实了姿势估计会使Log的不确定性估计更差,而Self模型则要好得多,这要归功于Teacher网络产生的代理标签的训练。关于贝叶斯解决方案,一般来说,引导和快照在与Log和Self组合时得到改进,Self组合通常优于其Log对应部分并且等同于独立Self。摘要单目和立体监督的评估证实,当沿着深度估计姿态时,Self被证明是比Log和一般其他建模方法不确定性最后,经验方法单独表现为立体监督实验,证实了训练期间的规模知识对Drop,Boot和Snap的正确行为至关重要。4.5. 稀疏化曲线为了进一步概述我们的发现,我们在图5中报告了在M,S或MS监督下训练时在测试集上平均的RMSE稀疏化误差曲线。图显示,在处理姿态估计时,利用自(蓝色)的方法是最好的模型不确定性,即。M和MS,而使用Log(绿色)的人在S上训练时我们报告Abs Rel和4.6. 补充材料由于篇幅限制,我们在补充材料中报告了迄今为止所显示的实验的更多细节。具体而言,i)使用[13]中定义的所有七个指标进行完整的深度评估,ii)深度和不确定性评估,深度范围减少到50米,iii)评估假设原始LiDAR数据为地面实况,以符合先前的工作[20]和iv)所有指标的稀疏我们还以图像和视频序列的形式提供了其他定性结果,可在www.example.com上获得www.youtube.com/watch? v=bxVPXqf4zt4。5. 结论在本文中,我们第一次在文献中深入研究了自监督单目深度估计中的不确定性建模。我们已经审查和评估现有的技术,以及介绍了一种新的自我教学(自我)的范例。我们已经考虑了多达11种策略来估计以自监督方式训练的单声道深度网络预测的不确定性我们的实验强调了不同的监督策略如何在所考虑的方法中导致不同的赢家。特别是,在经验方法中,只有Dropout采样在训练期间尺度未知时表现良好(M),而它是唯一一个经验方法受姿态估计的影响,对于姿态估计,当姿态未知时,对数似然最大化给出次优结果(M,MS)。在这些后一种情况下,可能是最有吸引力的实际应用,提出的自我技术的结果在最佳的战略模型的不确定性。此外,不确定性估计还提高了深度准确度,无论是在任何训练范例中。谢谢。我们衷心感谢NVIDIA公司的支持,捐赠了用于本研究的Titan Xp GPU。方法Sup训练次数标准杆数#前进绝对相对值RMSEδ<1.25单深度2 [20]MS1×1×1×0.0843.7390.918[20]第二十话MS1×1×2×0.0823.6660.919单深度2-跌落MS1×1×N×0.1725.8850.679Monodepth 2-BootMSN×N×1×0.0863.7870.910Monodepth2-SnapMS1×N×1×0.0853.8060.914单深度2-重复MS1×1×1×0.0843.8280.913单深度2-对数MS1×1×1×0.0833.7900.916Monodepth2-SelfMS(1+1)×1×1×0.0833.6820.919Monodepth2-Boot+LogMSN×N×1×0.0863.7710.911Monodepth2-Boot+SelfMS(1+N)×N×1×0.0853.7040.915Monodepth2-Snap+LogMS1×1×1×0.0843.8280.914方法AUSEAURGAUSEAURGAUSEAURG单深度2-立柱0.0360.0182.4980.6550.0440.031单深度2-跌落0.103-0.0277.114-2.5800.303-0.081Monodepth 2-Boot0.0280.0302.2690.9850.0340.049Monodepth2-Snap0.0290.0282.2451.0290.0330.047单深度2-重复0.0460.0102.6620.6350.0620.018单深度2-对数0.0280.0291.7141.5620.0280.050Monodepth2-Self0.0220.0331.6541.5150.0230.052Monodepth2-Boot+Log0.0300.0281.9621.2820.0320.051Monodepth2-Boot+Self0.0230.0331.6881.4940.0230.056Monodepth2-Snap+Log0.0300.0272.0321.2720.0320.048单深度2-捕捉+自0.0230.0341.6841.5100.0230.0553236引用[1] 菲利波·阿莱奥蒂,法比奥·托西,马特奥·波吉,斯特凡诺·马特托西亚.用于无监督单目深度预测的生成对抗网络。2018年第15届欧洲计算机视觉会议(ECCV)研讨会。2[2] 洛伦佐·安德拉盖蒂,PanteleimonMyriokefalitakis,Pier Luigi Dovesi , Belen Luque , Matteo Poggi ,Alessandro Pieropan,and Stefano Mattoccia.用传统的视觉自动机增强第七届3D视觉国际会议(3DV),2019年。2[3] Ranjan Anurag,Varun Jampani,Kihwan Kim,DeqingSun,Jonas Wulff,and Michael J.黑色.竞争性合作:深度、相机运动、光流和运动分割的联合无监督学习。在IEEE计算机视觉和模式识别会议(CVPR),2019年。2[4] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计,通过图像风格转换进行局部自适应。 在IEEE计算机视觉和模式识别会议论文集,第18卷,第1页,2018年。2[5] Jia-Wang Bian,Zhichao Li,Naiyan Wang,HuangyingZhan,Chunhua Shen,Ming-Ming Cheng,and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。在第三十三届神经信息处理系统会议(NeurIPS),2019年。2[6] CharlesBlundell,JulienCornebise,KorayKavukcuoglu,and Daan Wierstra.神经网络中的权重不确定性。arXiv预印本arXiv:1505.05424,2015。3[7] 这是布鲁恩和约阿希姆·维克特。变分光流法的置信度不完整数据的几何属性,第283-298页。Springer,2006年。2[8] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测第三十三届AAAI人工智能会议(AAAI-19),2019。2[9] 陈龙,唐文,奈杰尔·约翰。自监督单目图像深度学习和 置 信 度 估 计 。 arXiv 预 印 本 arXiv : 1803.05530 ,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功