没有合适的资源?快使用搜索试试~ 我知道了~
12727尺度一致的单目深度能以自监督尺度不变的方式学习吗?Lijun Wang1,Yifan Wang1,*,Linzhao Wang,2Yunlong Zhan,2Ying Wang,2andHuchuan Lu1,3,*1大连理工大学、2华为技术有限公司、有限公司、3鹏程实验室@ dlut.edu.cn{wanglinzhao,zhanyunlong,wangying110} @ huawei.com摘要0.1300.1255.20.880.870.970.96几何约束,以加强规模一致性和补救的规模模糊性问题,在自我监督的单目深度估计。同时,尺度不变损失集中于学习相对深度,从而导致准确的相对深度预测。结合最好0.1200.1150.1100.1050.100我们基线5.04.84.60.860.850.840.830.820.81我们基线0.950.940.930.920.910.90在这两个世界中,我们以尺度不变的方式学习尺度一致的自监督深度。为了实现这一目标,我们提出了一个规模感知几何(SAG)的损失,强制规模的一致性,通过点云对齐。与现有技术相比,SAG损失在相对运动估计期间考虑了相对尺度,从而使得能够实现更精确的对准和对尺度推断的明确监督。此外,设计了一种新的用于深度估计的双流架构,其从深度估计中解开尺度,并允许以尺度不变的方式学习深度。SAG损失和双流网络的集成使得能够实现更一致的尺度推断和更准确的相对深度估计。我们的方法在尺度不变和尺度相关的评估设置下实现了最先进的性能。1. 介绍为了缓解对高质量地面真实深度数据的需求,最近对自监督单目深度估计的兴趣激增[36,10]。基本思想是联合学习由光度重建损失监督的深度估计和自我运动预测尽管这些方法在流行的基准测试中取得了显著的成功,但是已知它们遭受每帧尺度模糊性问题[27,2]。一方面,估计深度不能保证尺度一致,并且自我运动网络也不能预测长视频的全局一致轨迹另一方面,在没有适当约束的情况下,深度网络必须根据自我运动预测来调整其尺度,反之亦然,这包括:*通讯作者(a) 误差(b)准确度输入图像我们的基线(c)深度图图1.我们的规模一致的深度估计学习的力量以尺度不变的方式。(a)KITTI [9]上的尺度相关评估,其中在每个序列的基础上使用一个全局尺度而不是传统的每帧尺度对准将预测与地面实况4.2.2)。(b)尺度不变学习允许我们的方法产生更准确的相对深度。融合网络训练并导致性能退化甚至训练发散[27]。同时,最近的证据[7]也表明,全局尺度是监督深度估计中不确定性的基本来源,并且尺度不变损失集中在相对深度学习上,并且在准确性和泛化能力方面大大有利于深度估计[19]。鉴于上述分析,一个有趣的问题是,我们是否可以实现尺度一致的深度估计,但也享受自监督框架下的尺度不变训练的优势?我们首次尝试回答这个问题,提出了一个新的范式,自我监督的单目深度估计。为此,我们提出了一个规模感知的几何损失(被称为SAG损失),在3D空间中操作。首先将相邻帧的估计深度投影到3D点云,然后使用预测的自我运动将其转换为公共视图。不是直接惩罚-绝对相对RMSE<一点二五<1.252绝对相RMSE<一点二五<1.25212728利用点云之间的坐标差,在最小二乘意义下估计它们的相对运动参数,其中不仅包括旋转和平移,而且还包括相对比例因子。SAG损失通过合并三个运动参数来计算,以强制相邻帧的尺度一致的深度估计。通过迭代训练,深度一致性最终可以通过整个序列传播(见图1)。1(a)(b))。为了享受尺度不变训练的好处,我们建议将深度估计任务分解为两个子任务:归一化深度预测和尺度推断。通过仔细的设计,我们确保SAG损失对于归一化深度预测的尺度是不变的,并且可以以明确的方式学习尺度推断以保证深度尺度一致性。我们提出了一个具体的实现上述想法,通过一个新的深度网络与双流架构。以尺度不变的方式学习尺度一致的深度由于所提出的SAG损失,可以在自监督学习期间显式地计算规模监督,以同时确保规模一致性并允许深度和规模的分离。事实上,当尺度不一致性确实存在时,将尺度纳入显式考虑本身的想法被示出为有益于运动估计。此外,我们还探索了一种新的策略,用于寻找点云之间的对应点通过将SAG损失与我们的双流深度网络相结合,我们的方法能够利用尺度不变的深度学习,从而提高几何上更一致和定量上更准确的深度估计(见图11)。(c)第1段。这项工作的贡献可以概括为三个方面。一种新的自监督深度估计框架,具有尺度不变学习的优势,并提供尺度一致的深度。尺度感知几何损失,以加强深度一致性,并在自监督学习期间为显式尺度推理提供监督。一个双流深度网络,用于解开深度和尺度预测,允许学习归一化深度,而不管全局尺度如何。在KITTI数据集上的实验表明,该方法不仅可以提高深度精度,而且可以用于长时间的自运动估计。还进行了广泛的消融研究,进一步证实了我们的贡献的有效性。2. 相关工作在深度学习时代,完全监督的CNN模型已经显示出破纪录的性能[7,18,8,29]。最近的研究也强调了自我监督学习[12,30,16],以减轻地面实况深度注释的需求。 在周等人的开创性工作中al. [36],在纯单目设置中实现了自监督深度估计。遵循这一工作路线,通过探索新的架构和培训策略,进一步提高准确性和鲁棒性,取得了快速进展[23,34,22,17]。例如,一些作品[37,32,4,34]提出结合光流来处理移动对象,而其他作品[14,5]则利用语义标签来指导自监督学习。稍后,光度损失被深度特征反射损失所取代,其中深度特征是预先训练的[33]或与深度网络联合学习的[24]。在[11]中,Godardet al.提出了一种新的外观匹配损失与自动掩模技术,这进一步缩小了立体和单目自我监督深度估计之间的性能差距。最近,在[13]中设计了具有对称3D打包和解包块的自监督深度估计网络,其表现甚至优于监督对应物。规模一致的深度学习。为了确保单目自监督学习中的深度尺度一致性,在[2]中提出了一种几何一致性损失,其直接最小化连续帧的深度预测之间的差异。以类似的精神,[4]通过将多视图深度投影到3D空间中并惩罚对应点的坐标差异来强制深度尺度和结构一致性。在[13]中,利用摄像机速度作为额外的监督来解决尺度模糊问题。相比之下,[25]使用束调整场景结构并作为监督来学习更一致的深度估计。与上述方法相比,我们的独特贡献是在自监督学习框架下将尺度一致的深度估计与尺度不变学习的优点相与我们最相关的工作是[20],它提出了一个3D约束,通过近似反向传播算法对齐点云。我们的方法与[20]的不同之处主要在三个方面。首先,点云对齐[20]是通过估计包括旋转和平移的6-DOF变换来执行的,其中我们明确考虑了尺度,这被示出为导致更精确的对准,并且可以用于为深度尺度推断提供直接监督。其次,在[20]中,通过使用最近点启发式[ 1 ]来确定3D点之间的对应关系,该启发式[1]以迭代方式求解并且只能提供局部最优。相比之下,我们利用从视图合成中学习到的对应关系,···12729不S不不y不不tt这是更精确的,并且能够实现用于点云对准的封闭形式的解决方案。最后,通过结合提出的双流网络和SAG损失,我们的方法可以以尺度不变的方式进行训练,这不仅可以确保尺度一致性,而且可以提供更准确的相对深度结构。尺度不变深度学习。尺度不变训练的优点首先在监督方法中探索[7,3,31]。Eigen等人[7]观察到全局深度尺度在单目图像中是模糊的,并且提出了尺度不变误差来学习相对深度,而不管尺度如何。该想法在[19]中进一步扩展,以提高跨不同尺度数据集的泛化能力。后来,Wanget al.[28]提出了一种新的体系结构,用于对全监督学习的深度和尺度估计进行飞机整个过程可以表示如下1.[2001年1月1日]|KRDi jK−1[i,j,1]|+KT,(2)其中[(i,(j)]和[i,j]分别是源帧和目标帧中的对应像素的坐标根据这种像素级映射,我们可以使用源帧通过双线性变形重建目标帧。上述视图合成过程是完全可区分的,并且所预测的深度和自我运动作为中间变量被因此,可以通过最小化光度重建误差来联合训练深度和自运动网络。大多数现有方法利用L1和SSIM损失的组合来实现光度损失L=α(1−SSIM(I,I))+(1−α)I−I,(3)ing. 在自监督域中,Wanget al.[27]实现P2t不t t1通过深度归一化进行尺度不变学习然而,在保证尺度一致性的同时利用尺度不变训练仍然是一个悬而未决的问题。其中,It是重构的目标帧,并且α=0。八十五边缘感知的梯度平滑约束也在[12]中引入了正则化预测深度:3. 自监督尺度一致深度本节将详细说明我们的主要贡献,L=Σ|∂i、jDij|e−|xIij|+的|Dij|e−|伊伊季|.(四)即,双流深度网络与解纠缠规模推理和规模感知几何损失,以加强规模一致性。我们首先在第二节中回顾自监督深度估计的原理。3.1介绍我们的动机和符号。节中3.2和3.3中,我们分别给出了我们的网络结构和损失函数。最后,SEC。3.4提供了实现细节。3.1. 再论自我监督训练单目视频的自监督深度估计背后的主要思想是将联合学习的深度和自我运动网络到一个新的视图合成问题。更正式地,给定彼此相邻的目标帧It和源帧Is,It的深度Dt和从源到目标帧的相机运动M=[R,T](具有旋转矩阵R和平移T)可以分别使用深度和自我运动网络来估计目标帧深度可以如下投影到点云Pt中,Pij=K−1Dij[i,j,1]|、(1)可以容易地示出,(3)中的光度损失对于深度和自我运动的联合预测是尺度模糊的为了证明这一点,可以考虑另一组预测Dt′=aDt和M′=[R,T′],其中T′=aT,其具有与原始预测D t和M不同的尺度。 通过用(2)中的Dt’和M’替换Dt和M,建立相同的像素映射,导致相同的光度损失。作为尺度模糊性问题的结果,所学习的深度和自我运动在一个视频序列上不是尺度一致此外,深度和自我运动网络必须学会共同适应它们的尺度,这可能会混淆网络学习,甚至导致训练分歧。3.2. 解缠深度和尺度估计我们的主要目标是缓解上述规模不确定性问题。同时,由于尺度不变学习被证明有利于全监督深度估计,我们也希望这种优势可以转移到自监督领域。我们实现这一目标的第一步是在网络架构中将尺度推断与深度估计分开。结构层次因此,我们网络的一部分可以专注于其中K表示相机本征;[i,j,1]表示图像平面的位置[i,j]处的像素的齐次坐标;而Pij和Dij表示对应的学习预测准确的相对深度而不管尺度,而另一部分能够显式地学习深度尺度推断以确保所描述的尺度一致性。t t计算像素3D点和深度。利用预测的摄像机运动,我们可以将点云Pt变换为源帧的点云Pts=RPt+T,然后将点云投影回源图像我们通过设计一个双流深度网络,如图所示二、组成1为了符号简洁,我们省略了到齐次坐标X12730××Φ~,Γ~,τ~¨SS¨2双流深度网络标度推断深度估计光度损失,尺度感知几何损失自我运动网络��� ���对齐约束Φ、Γ��� ���点云对准尺度一致性约束图2.我们提出的方法的管道。的深度估计和尺度推断流建立在共享的骨干网络之上。根据现有技术,我们采用ResNet18网络[15]作为我们的骨干网,它已经可以实现令人满意的结果,但更轻量级和高效。我们相信其他更复杂的网络也可以满足我们的目的。给定一个输入帧,主干网络生成一个多尺度特征金字塔(即,由ResNet 18的Res 2-Res 5级产生的输出特征图),其用作深度估计流的输入。在每个特征级别中,深度估计流首先用标准3 × 3卷积层处理输入特征图。处理后的特征图然后通过级联与来自最后一级的特征图组合,随后是另一个3 - 3卷积层。最后,组合特征用最近邻插值进行上采样并馈送到下一级。上述过程从最粗糙到最精细的特征级别逐步进行,产生输出特征图。一个额外的卷积层将所产生的特征图作为输入以生成单通道深度输出。我们进一步探索不同的策略来规范化输出深度,如下所示:D¯=D/m,(5)其中,D0表示深度估计流的输出深度; m表示输出深度的平均值或中值;并且D'表示归一化深度。因此,归一化深度与深度流输出的全局尺度无关,因此可以以尺度不变的方式学习深度流。与深度估计流并行,比例推断流消耗主干的最粗输出(即,ResNet 18中Res 5的输出功能),由四个3×3卷积层组成,后面是一个全局平均池-以产生输入帧的深度标度μ鉴于归一化深度和尺度,我们通过将它们相乘D=µD¯来计算最终深度。利用我们的SAG损失的进一步训练允许最终深度是尺度一致的。对于自我运动估计,我们采用了[11]中提出的架构,该架构修改了ResNet 18主干以接受一对RGB帧作为输入并预测6-DoF相对运动,包括轴角表示的旋转和平移。更多架构细节请参考[113.3. 缩放感知几何损失实施尺度一致性的直接想法是直接惩罚相邻帧的估计深度之间的不一致。我们的尺度感知几何(SAG)损失也遵循这一原则,但操作点云。如下所示,我们的SAG损失与双流深度网络一起不仅可以确保尺度一致性,而且还可以保留尺度不变深度学习的益处。回想一下,在3.1节中,我们将目标和源帧的预测深度投影到点云Pt和Ps中,尊重ively,并将Pt转换为源视图P s,使用预测的自我运动。为了测量预测的目标深度和源深度之间的不一致,我们首先对齐点云Ps,其中Ps通过最小二乘估计它们之间的转换参数。由于P和Ps在大多数情况下是尺度不一致的,变换参数不仅包括旋转Φ和平移Γ,而且还包括尺度因子τ,以确保更精确的点对准。 我们假设相应的-给出了两个点云之间的差异,最小二乘估计可以被正式描述如下,Φ,Γ,τ=argminΣ¨τ~Φ~P¨i+Γ~−P N (i)¨2,(6)我ing层最后,Sigmoid单元充当输出层12731.ΣC凹陷11微秒µs1其中,i和N(i)表示点云P_s和P_s中的两个对应点的索引。上述最小二乘估计-如[26]中所示,可以以封闭形式求解估计,并且解可以进一步表示为输入点云的可微分函数,从而允许梯度向后传播。我们的SAG损失使用估计的变换参数来定义,并且包括对准约束和尺度一致性约束。对准约束用于执行相对深度和自我运动预测的准确性,而不管尺度如何。如果预测的相对深度和自我运动是精确,缩放的点云τPs应该已经是与Ps完全一致。否则,(6)中的估计旋转Φ和变换Γ将暗示它们的未对准。因此,我们的对齐约束通过迫使估计的变换Φ和Γ近似恒等映射来惩罚我们的规模一致性约束追求更直接的深度尺度推理的监督。让我们将µt和µs表示为我们的尺度推断流预测的目标和源帧的深度尺度。根据点云对齐(6),缩放的点云τPs(具有深度比例(1)在P(1)中,P(1)是一个常数,P(1)是常数。因此,对于尺度一致的预测,目标和源帧的理想深度尺度应分别为τkµt和kµs,直到未知因子k,其中估计的尺度因子τ体现了预测尺度之间的不一致性,并作为对目标尺度的修正通过将理想尺度视为我们的目标,我们通过除法消除未知因素,并将我们的尺度一致性约束定义为两个帧的预测尺度比和目标尺度比之间的差异:变换参数的最小二乘估计然而,仅基于最接近点启发法找到对应性,并且光度外观信息未被使用。在我们的初步实验中,我们发现ICP算法是计算效率低下,只能提供局部最优值,特别是当两个点云是规模不一致的。因此,我们建议使用由(2)建立的像素级对应关系,这消除了迭代估计的需要。由于这些对应关系是通过视图合成直接学习的,因此它们比仅依赖于最近点启发式的那些更准确。随着训练的进行,深度和自我运动网络变得更强,从而产生更准确的对应关系。然而,人们可能仍然担心由(2)建立的对应关系可能仍然不准确,特别是在初始训练阶段期间。详见第二节。3.4中,我们通过探索选择机制以仅使用可靠的对应关系来执行最小二乘估计来解决这个问题讨论与现有方法相比,我们的SAG损失需要明确估计深度尺度,因此称为“尺度感知”。我们的实验表明,考虑尺度可以促进更准确的平移估计(6),从而更有效的3D约束。此外,我们进一步利用估计的尺度因子来构造尺度一致性约束(7),其为深度尺度推断提供直接和明确的监督通过使用我们的SAG损失来训练我们的分解的深度和尺度预测网络,我们最终可以实现尺度一致性,同时保留尺度不变训练的优点。3.4. 执行L=¨µt−τkµt¨1(七)=¨µt−τµt¨,微秒µs1我们的网络以高效率、高精度的方式运行,输入分辨率为640×192像素,但分辨率更高其中符号x表示x用作常数来计算地面实况和它的梯度传播被禁用。我们在补充材料中提供了更详细的推导和解释来解释尺度一致性约束。通过组合对准和尺度一致性约束,我们的SAG损失可以描述如下:µtτµt(8)L=Φ−E+Γ+¨−¨,示出了进一步提高精度的解决方案 我方最后损失函数组合了光度损失、平滑度约束和所提出的SAG损失:L=LP+λ1LSAG+λ2LS,(9)其中损失权重根据经验设置为λ1=0。05且λ2=0。001。在训练过程中,我们预测深度,并根据先前的工作在多个尺度上计算损失值。解决遮挡、视野外和静电相机,我们采用[11]中提出的策略。具体其中E表示单位矩阵。到目前为止,一个剩余的问题是如何获得点云P?s和P?s之间的对应关系i,N(i),以便估计(6)中的变换在[20]中,这是通过迭代最接近点(ICP)方法[1]来接近,该方法在寻找对应和因此,我们不是计算所有像素上的平均光度损失,而是在每个像素处比较损失a)通过将目标帧扭曲到所有源视图而计算的损失和b)通过使用原始目标帧而计算的损失。然后可以获得指示潜在有效像素的每像素掩模。我们使用此遮罩来加权光度损失,并选择微秒kµs我们使用在ImageNet上预训练的ResNet18初始化深度和自我运动网络的主干[6]。把-12732−−方法年绝对相对值平方误差↓Rel RMSERMSE日志δ<1。25准确度↑δ<1。252δ<1。253SfMLEarner [36]CVPR 20170.1981.8366.5650.2750.7180.9010.960DDVO等人[27日]CVPR 20180.1511.2575.5830.2280.8100.9360.974Mahjourian等人[20个]CVPR 20180.1631.2406.2200.2500.7620.9160.968Zhan等[33个]CVPR 20180.1351.1325.5850.2290.8200.9330.971DF-Net [37]ECCV 20180.1461.1825.2150.2130.8180.9430.978Bian等[二]《中国日报》NeurIPS 20190.1371.0895.4390.2170.8300.9420.975中文(简体)CVPR 20190.1401.0705.3260.2170.8260.9410.975Zhou等[35]第三十五届ICCV 20190.1210.8374.9450.1970.8530.9550.982Monodepth2 [10]ICCV 20190.1150.9034.8630.1930.8770.9590.981SGDepth [17]ECCV 2020年版0.1130.8354.6930.1910.8790.9610.981pRGBD-精制[25]ECCV 2020年版0.1130.7934.6550.1880.8740.9600.983[24]第二十四话CVPR 20200.1260.9255.0350.2000.8620.9540.980Johonston等人[16]*CVPR 20200.1110.9414.8170.1890.8850.9610.981[13]第十三话CVPR 20200.1110.7854.6010.1890.8780.9600.982我们–0.1090.7794.6410.1860.8830.9620.982表1.与KITTI基准比较。最佳和次佳方法分别以粗体和下划线表示。* 表示使用ResNet18主干实现的结果,以进行公平比较。用于点云对齐的对应(6)。我们采用三帧序列长度进行训练,中心帧作为目标视图,其余帧作为源视图。Adam优化器用于学习网络参数,前20个时期的初始学习率为1e4,另外15个时期的初始学习率为1e5。数据增强策略,包括随机颜色抖动和水平翻转也被采用,以提高泛化能力。4. 实验4.1. 单眼深度我们通过遵循Eigen等人建立的训练协议在KITTI基准[9]上评估我们的方法。[7]的文件。我们还采用Zhouet al.' s [36]的预处理策略来去除静态帧,产生3910个用于训练的单眼除了ImageNet预训练的主干之外,我们不对深度数据集进行任何额外的预训练。源代码和预训练模型将在https://bit.ly/3m8GFON网站。我们的方法和最先进的方法之间的比较结果在表1中示出1.一、除非另有说明,否则所有比较方法均使用具有相同输入分辨率的相同方案进行训练。由于自监督学习无法恢复准确的尺度,因此我们在每帧的基础上计算尺度对齐后的可以表明,我们的方法可以在所有度量方面一致其中,[20]还使用3D约束进行一致的深度估计。与我们不同的是,他们的方法没有明确考虑规模。我们的双流深度网络采用了与Godard相同的骨干结构等人[10 ]第10段。我们的规模推理流带来的额外开销非常有限。然而,我们的方法相对于[10]的改进是实质性的,这验证了由我们的双流架构实现的尺度不变训练的强度以及SAG损失。图3使用我们的方法进一步可视化预测的深度和点云重建。4.2. 单眼深度为了理解以尺度不变方式学习尺度一致深度的影响,我们在KITTI数据集上进行消融研究。我们还评估了我们的方法与更强的骨干和更高的输入分辨率的perfor-曼斯。由于这些不是我们的主要贡献,它们被包括在补充材料中。4.2.1标度不变训练我们比较了我们的方法的5种变体,以分析自监督深度估计中尺度不变训练的强度。其中,Baseline仅包含深度估计流,而Baseline+MN用其平均值进一步归一化每个预测的深度图。Two-stream采用与我们相同的架构 , 具 有 分 离 的 深 度 和 规 模 估 计 。 同 时 , Two-stream+MN和Two+stream+MdN分别用平均深度值和中值深度值对预测深度进行归一化。所有上述方法都使用具有平滑度约束的常规光度损失进行训练比较结果见 表 1 。 第 2 段 ( a ) 分 段 。 与 Baseline 相 比 ,Baseline+MN以尺度不变的方式学习深度估计。然而,其相对于基线的改进是边际的,这与我们从自监督模型12733方法缩放-Disen。缩放-反转标度-一致性错误↓绝对相对RMSE准确度↑δ<1。25(一)基线0.1184.9560.862基线+MNC0.1174.9560.864双流C0.1164.9540.863双流+MNCC0.1124.6890.878双流+MdNCC0.1154.8640.862双流+MN+SAG-w/o-scaleCCC0.1114.6890.880双流+MN+SAG-ICPCCC0.1154.8540.865双流+MN+SAGCCC0.1094.6410.883(b)第(1)款基线0.1265.0350.824双流+MNC0.1244.9560.826双流+MN+SAG-w/o-scaleCCC0.1144.7230.870双流+MN+SAGCCC0.1114.6720.875表2. KITTI基准的消融研究。(a)尺度不变评估,其中预测深度的尺度与每个帧的地面实况(b)尺度相关设置,其中预测与每个序列具有相同尺度因子的地面实况对齐缩放- Disen.,比例反转,和Scale-Consis。指示该方法分别以尺度解纠缠、尺度不变和尺度一致的方式进行训练MN和MdN分别表示均值和中值归一化。最佳结果以粗体显示。方法.一个可能的原因可能是深度和自我运动网络必须在自监督学习中共同适应它们的尺度。直接归一化深度会混淆自运动网络,进而影响深度估计的训练。由于Two-stream的模型大小与Baseline相当,因此当使用相同的训练策略学习时,它们的性能也相似。通过输出均值归一化,Two-stream+MN不仅将尺度推断与深度估计分开,而且还确保以尺度不变的方式学习深度估计,这显著提高了自监督学习下的深度准确性通过比较Two-stream+MN和Two-stream+MdN,可以清楚地看出,均值归一化比中值归一化更优越。4.2.2规模一致性培训在双流+MN变体之上,我们研究了不同的约束以理解尺度一致性训练的影响。如Tab.所示。在图2(a)中,SAG-w/o- scale表示我们的SAG损失的简化版本,其在点云对齐期间不考虑比例并且仅由对齐约束组成。SAG-ICP使用迭代ICP算法执行点云对齐。具有和不具有SAG-w/o-scale的双流的性能是相似的,这是合理的,因为我们的评估过程具有标度不变性,即,在计算度量之前进行每帧尺度与地面实况深度的对准。尽管如此,SAG损失相对于SAG-w/o-scale的改善仍然是相当大的,这表明明确考虑尺度可以获得更精确的点云对准,因此具有更优越的深度估计性能。与此同时,该perfor-方法序列9序列10帧[21]第二十一话0.014± 0.0080.012±0.011–SfMLEarner [36]0.021± 0.0170.020±0.0155DF-Net [37]0.017± 0.0070.015±0.0095中文(简体)0.012± 0.0070.012±0.0085DDVO [27]0.045± 0.1080.033±0.0743[20]第二十话0.013± 0.0100.012±0.0113Monodepth2 [11]0.017± 0.0080.015±0.0102基线0.020± 0.0100.016±0.0112我们0.014± 0.0080.014±0.0102表3.与KITTI里程计基准进行比较。最好的结果是粗体字。SAG-ICP的精度不令人满意,表明从视图合成学习的点对应比基于最近点启发式的对应点更上述评估过程是尺度不变的,因此不利于我们的SAG损失。为了进一步证明我们的SAG损失的能力,我们在计算所有度量之前用每序列比对替换每帧深度尺度比对,即,我们将一个视频序列的每一帧的深度标度与使用地面实况深度计算的相同标度如Tab.所示在图2(b)中,由我们的SAG损失带来的性能增益变得更加显著,这证实了我们的SAG损失在保持规模一致性方面的有效性。4.3. 自我运动评价12734由于深度网络与自运动网络联合训练,因此它们的性能彼此依赖。为了进一步证实我们的方法的有效性,KITTI里程计基准的评估结果报告在表。3 .第三章。在[11]之后,我们的方法被训练在12735输入图像我们的点云我们的深度基线深度图3.我们的方法和基线的视觉比较。我们的方法的预测深度图在感知上更准确,具有更多的细节。基于我们的预测重建的点云在视觉上也是合理的。最好在彩色和放大。序列0-8并在序列9和10上评估。绝对轨迹误差在测试序列中的所有重叠的五帧片段虽然我们的自我运动网络只接受两个连续的帧作为输入,把预测他们的相对运动,我们仍然比较有利地对现有的方法。此外,我们的自我运动网络采用与[11]完全相同的架构。因此,我们的方法的性能增益仅由我们提出的使用我们的SAG损失训练的双流深度网络带来。5. 结论我们提出了一种自监督的深度估计方法,该方法可以在保证尺度一致性的同时享受尺度不变学习的优势的核心设计我们的方法是双流深度网络和尺度感知几何(SAG)损失。一方面,网络将尺度推断与深度估计分开,允许以尺度不变的方式学习深度。另一方面,SAG损失明确估计3D几何对准期间的相对比例因子,为一致的比例推断提供直接监督。KITTI深度和里程数据集上的实验验证了我们的贡献。谢 谢 。 本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目( 61906031 , 62006036 , U1903215 , 61725202 ,61829102)的中央高校科研基金(DUT21RC(3)025、DUT20RC( 3 ) 017 ) 、 大 连 市 创 新 领 军 人 才 支 持 计 划(2018RD07)。12736引用[1] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV : controlparadigmsanddatastructures,第1611卷,第586-606页二、五[2] Jiawang Bian,Zhichao Li ,Naiyan Wang,HuangyingZhan,Chunhua Shen,Ming-Ming Cheng,and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。神经信息处理系统的进展,第35-45页,2019年。一、二、六[3] 陈伟峰,赵甫,杨大伟,邓佳。在野外的单一图像深度感知。在高级神经信息。过程系统,第730-738页,2016年。3[4] 陈宇华,考迪莉亚·施密德,克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习:连接流量,深度和摄像头。在国际会议计算中目视,第7063-7072页,2019年。2[5] Bin Cheng,Inderjot Singh Saggu,Raunak Shah,GauravBansal,and Dinesh Bharadia. S3网:基于单目视频和合成数据的语义感知自监督深度估计以Eur.确认补偿目视,第52-69页,2020。2[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别,第248-255页5[7] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在高级神经信息。过程系统,第2366- 2374页,2014。一、二、三、六[8] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归网络在CVPR中,第20022[9] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集 。 International Journal of Robotics Research , 2013.1、6[10] Cle' mentGodard , OisinMacAodha , MichaelFirman ,andGabriel J. Brostow.深入研究自我监督的单目深度估计。在国际会议计算中目视,第3827- 3837页,2019年。1、6[11] Cle' mentGodard , OisinMacAodha , MichaelFirman ,andGabriel J Brostow.深入研究自我监督的单目深度估计。在CVPR中,第3828-3838页,2019年。二、四、五、七、八[12] C le'mentGodard , OisinMacAodha , andGabrielJBrostow.具有左右一致性的无监督单目深度估计。在IEEE Conf.Comput.目视模式识别,第270-279页,2017年。二、三[13] Vitor Guizilini 、 Rares Ambrus 、 Sudeep Pillai 、 AllanRaventos和Adrien Gaidon。用于自监督单目深度估计的3d包装。 在IEEE会议Comput. 目视模式识别,第2485-2494页,2020。二、六[14] Vitor Guizilini,Rui Hou,Jie Li,Rares Ambrus,andAdrien Gaidon.语义引导的表示学习,用于自监督单目深度。arXiv预印本arXiv:2002.12319,2020。2[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在IEEE会议Comput. 目视模式识别,第7704[16] 阿德里安·约翰斯顿和古斯塔沃·卡内罗。自监督单眼训练深度估计使用自注意和离散视差体积。在IEEE Conf.Comput.目视患者记录,第4756-4765页,2020。二、六[17] MarvinKlingner , Jan-AikeTermöhlen , JonasMikolajczyk,and Tim Fingscheidt.自我监督单眼深度估计:用语义指导求解动态对象问题。以Eur.确认补偿目视,2020年。二、六[18] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision,第239-248页,2016中。2[19] Katrin Lasinger 、 Rene 'Ranftl 、 Konrad Schindler 和Vladlen Koltun。走向鲁棒的单眼深度估计:混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv:1907.01341,2019。第1、3条[20] Reza Mahjourian,Martin Wicke,and Anelia Angelova.使用3d几何约束从单目视频进行深度和自我运动的无监督学习。在IEEE Conf. Comput.目视模式识别,第5667-5675页,2018年。二五六七[21] Raul Mur-Artal,Jose Maria Martinez Montiel,and JuanD Tardos. Orb-SLAM:一个多功能和精确的单目SLAM系统。IEEE Transactions on Robotics,31(5):1147-1163,2015. 7[22] 马特奥·波吉,菲利波·阿莱奥蒂,法比奥·托西,和斯特凡诺·马特托西亚.自我监督单目深度估计的不确定性。在IEEE Conf. Comput.目视模式识别,第3227-3237页,2020。2[23] Anurag Ranjan,Varun Jampani,Lukas Balles,KihwanKim,Deqing Sun,Jonas Wulff,and Michael J Black.竞争性协作:深度、摄像机运动、光流和运动分割的联合无监督学习。在IEEE Conf. Comput.目视模式识别,第12240-12249页,2019年。二六七[24] 海梅·斯宾塞理查德·鲍登和西蒙·哈德菲尔德Defaint-net:通过同步无监督表示学习的一般单眼深度。在IEEE会议Comput.目视模式识别,第14402二、六[25] Lokender Tiwari , Pan Ji , Quoc-Huy Tran , BingbingZhuang,Saket Anand,and Manmohan Chandraker.用于自改进单目slam和深度预测的伪rgb-d。 以Eur.确认补偿目视,2020年。二、六[26] 梅山真司两点模式间变换参数的最小二乘估计 IEEETrans. 模式分析马赫内特尔,(4):376-380,1991. 5[27] Chaoyang Wang,Jose 'Miguel Buenaposada,Rui Zhu,and Simon Lucey.使用直接方法从单眼视频学习深度。在IEEE Conf. Comput.目视模式识别,第2022-2030页,2018年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功