基于双边循环约束和自适应正则化的无监督单目深度预测

116 浏览量更新于2023-10-19 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于双边循环约束和自适应正则化的无监督单目深度预测Alex Wong，StefanoSoatto UCLA视觉实验室加州大学洛杉矶分校，CA 90095{alexw，soatto}@ cs.ucla.edu摘要从单个图像推断（假设）场景深度的监督学习方法我们遵循几何方法，利用丰富的立体图像学习模型来假设场景结构，而无需直接监督。虽然我们用立体对训练网络，但我们在测试时只需要一张图像来假设视差或深度。我们提出了一个新的目标函数，利用左右视差之间的双边循环关系，我们引入了一个自适应正则化方案，允许网络处理立体对中的共同可见和遮挡区域。这个过程最终产生一个模型，以生成在单个图像中看到的场景的三维结构的假设。当用于生成一个单一的（最可能的）深度估计，我们的方法优于国家的最先进的无监督monocular深度预测方法的KITTI基准。我们通过将我们在KITTI上训练的模型应用于Make3d数据集，证明了我们的方法可以很好地推广。1. 介绍估计场景的三维几何形状是机器感知中的一个基本问题，具有广泛的应用，包括自动驾驶[24]，机器人[32，43]，姿态估计[41]，定位[18]和场景对象组成[17，26]。众所周知，在合适的条件下，可以从从不同视点（包括立体）拍摄的场景的多个图像然而，在任何情况下，一幅图像都不足以恢复三维场景结构，除非关于填充场景的对象的形状的先验知识是可用的。即使在这种情况下，度量信息在投影中丢失，因此我们最多可以使用单个图像来生成场景几何的假设，而不是估计。最近的作品[3，6，31，33，34，50，51]试图通过使用像素级深度anno来利用这种强场景先验用距离传感器捕获的位置（例如，深度相机、激光雷达）从RGB图像回归深度。认识到这一努力的内在局限性，我们利用立体图像来训练一个没有地面实况监督的网络，以生成深度假设，用作3-D重建的参考。我们通过来自KITTI数据集[13]的两个基准测试来评估我们的方法对地面真实深度的影响，并通过将在KITTI上训练的模型应用于Make3d[40]来证明它的推广效果。我们没有试图通过将原始像素值与深度相关联来学习先验知识，而是将深度估计重新转换为图像重建问题[12，14]，并利用矫正立体对中图像之间的对极几何来训练深度全卷积网络。我们的网络学习预测立体对之间的密集像素对应（视差场），尽管只看到其中一个。因此，我们的网络隐式地学习训练中使用的相机的相对姿态，并在测试期间给定单个图像时，对从相同相对姿态拍摄的第二图像的存在产生幻觉根据dispar- ity预测，我们可以使用训练中使用的相机的已知焦距和基线来合成深度。虽然[12，14，49]遵循类似的培训计划，[49]没有缩放到高分辨率，[12]使用不可微的目标。[14]提出使用两个单向边缘感知视差梯度和左右视差一致性作为正则化器。然而，边缘感知应当双向地通知，并且左右感知遭受遮挡和不遮挡。此外，规律性不仅应该是数据驱动的，而且应该是模型驱动的。我们的贡献有三个方面：（i）模型驱动的自适应加权方案，它是空间和训练时变的，可以一般地应用于正则化器。（ii）双边一致性约束，其强制将左视差和右视差的循环应用作为身份。（iii）双分支解码器，其专门学习最大化数据保真度所必需的特征，并利用这些特征通过强制规则性来细化初始预测。我们-56445645将我们的贡献模拟为目标函数，即使通过通用编码器-解码器实现，也可以在两个KITTI [13]基准上实现最先进的性能，并表现出对Make 3d [40]的可推广性。2. 相关作品监督单目深度估计。 [39]第三十九届提出了一种基于块的模型，结合局部估计与马尔可夫随机场（MRF），以获得全球深度。类似地，[20，25，29，40]利用局部单眼特征进行全局预测。然而，局部方法缺乏生成准确深度估计所需的全局背景。[34]相反，使用了卷积神经网络（CNN）。[30]通过将语义线索纳入其模型，进一步改进了单眼方法。[5，6]介绍了一个两尺度网络。 [31]建议具有上采样模块的残差网络，以产生更高分辨率的深度图。[3]使用众包注释学习深度，[10]使用atrous空间金字塔池学习顺序关系。[38]使用带有神经森林的图像补丁。[27，50，51]使用条件随机场（CRF）与CNN联合。无监督单目深度估计。最近，[9]介绍了通过预测像素值的新颖视图合成UE基于来自附近图像的插值。[49]通过产生每个像素的视差分布来最小化图像重建损失，以使给定左侧的立体对的右视图的存在幻觉化。[12]通过重建立体对的右图像与左图像并合成视差作为中间步骤来训练用于单目深度预测的网络然而，它们的图像形成模型不是完全可微的，使得它们的目标函数难以优化。无监督方法[14，37，57，58]利用在空间Transformer网络[23]之后建模的双线性采样器，以允许其各自网络的完全可微损耗和端到端训练。具体来说，[14]使用SSIM [46]作为图像重建损失之外的损失还有，[14]预测了左右视差，并通过左右一致性检查以及边缘感知平滑项将其用于正则化。[2]训练生成对抗网络（GAN）[15]来约束输出以重建真实图像，以减少从立体重建中看到的伪影。这类方法也用于深度完井[54]。自我监督方法[35，44，56，59]使用姿势网络从单眼视频中学习自我运动和深度，而[45，52]利用现成方法[7，42]和[8]重力的视觉里程计[55]遵循无监督和自我监督的范式，在无人监督的环境下进行最先进的技术。我们的方法遵循无监督范式，我们表明它不仅优于[14]，而且[55]利用来自无监督和自监督领域的技术自适应正则化许多计算机视觉问题可以用变分框架中的能量最小化来表示，该变分框架具有数据保真度项和由固定标量加权的解决方案由最小能量涉及数据保真度和正则化之间的权衡。寻找正则化的最佳参数是一个长期研究的问题，因为[11]探索了在图像去噪中确定正则化参数的方法，而[36]使用交叉验证作为权重的选择标准。[14，47，48]使用图像梯度作为数据驱动加权方案的提示。[53]在图像上最近，[21，22]提出，规则不仅应该是数据驱动的，而且应该是模型驱动的。施加的规律性的量应该适应模型相对于数据的拟合度，而不是在整个训练过程中保持恒定。我们提出了一种新的目标函数，使用双边循环一致性约束以及空间和时间变化的正则化调制器。我们表明，尽管使用的参数比[14]少，但我们的表现优于[[14]以及其他无监督的方法。我们详细介绍了我们的损失函数与自适应正则化，在第二节。 3、提出了一种双分支译码器结构。4，并指定超参数和数据扩增程序中使用的第4节五、我们评估我们的模型在KITTI2015，KITTI Eigen Split和Make3d基准在第二节。六、最后，我们以讨论我们在SEC的工作结束。7 .第一次会议。3. 方法配方我们学习一个模型来假设或然后，我们在测试期间使用焦距F和基线B合成场景的深度z=FB/d。给定I0，我们估计表示I0的视差的函数d∈R+，我们将其公式化为损失函数L（等式2）。1）、包括数据项和自适应正则化器。我们的网络由ω参数化，将单个图像I0作为输入并估计函数d=f（I0;ω），其中d表示对应于I0的视差（与逆深度单调相关）。我们用I1来驱动训练过程，I 1只在损失函数中使用，通过替代损失来最小化I0到I1的重投影误差，反之亦然。我们将L估计的视差分别称为I0和I1的d0和d1有兴趣的读者可以参考补充材料（Supp。Mat.）了解我们的配方的更多详情。使用立体视频流，并提出了一个功能重建，L=wphlph+wstlst+wsmlsm+wbclbc（一）结构损失虽然额外的监督和数据被用来改善预测，[14]仍然是作为国家-联系我们数据保真度联系我们正则化5646其中每个单独的项l将在接下来的部分中描述，并且它们的权重w将在第2节中描述。五、3.1. 数据保真度我们的数据保真度条款寻求最大限度地减少观察到的立体声对（I0，I1）和他们的重建（I0，I1）之间的差异。我们通过在每个位置（x，y）处将1-d水平视差移位应用于I来生成每个I视差项通过简单地取视差梯度ΔDd，该约束将不正确地惩罚对象边界（高图像梯度区域），因此[14，19]应用边缘感知项以降低有效性。正则化对边缘区域的影响。尽管边缘感知术语给出了关于正则化的数据驱动方法，但它仍然是静态的（相同的图像将始终具有相同的权重）并且独立于模型的性能。相反，我们提出了一个空间和培训时间，I=0xy = I10 且I=1xy=I01（二）根据我们xy−dxyxy+dxy通过重投影残差测量的模型。我们通过使用在来自空间Transformer网络[23]的图像采样器之后建模的1-d水平双线性采样器来这样做-而模型驱动的自适应权重。我们提出了一个自适应权重αxy，它基于局部残差ρxy=|Ixy−Ixy|和全局残差，表示为使用差异的对应方我们的采样器是本地完全每个输出像素是两个（左和右）像素的加权和。我们建议尽量减少-平均每像素残差，σ=1|Ω|Σ1：|Ixy−Iˆxy|预测残差作为两部分损失，它衡量αxy= exp. cρxy−（x，y）∈（六）标准色恒常性（光度）和差照明、对比度和图像质量（结构）。光度损失。我们通过光度损失lph对图像形成过程进行建模，该光度损失lph测量图像空间中每个（x，y）位置处每个通道上每个I和Iλ的重投影残差的L1惩罚：σα由图像I与其在每个位置处的重投影I之间的局部残差控制，同时考虑全局残差σ，其与训练时间步长相关并随时间减小。c是α范围的比例因子。当残差较大时，α自然较小，ΣL=|I0-我...|+的|I1-我的1|1、训练收敛。phxyxy（x，y）∈Ωxyxy（三）当地适应。考虑一对匹配不良的像素（Ixy，Ixy），其中残差|Ixy−Ixy|这是一个伟大的。通过结构性损失。为了使推理不变的局部照明变化，我们使用的感知度量（SSIM），折扣这种变化。我们将SSIM（φ）应用于I中对应（x，y）处的大小为3×3的图像块而我，由于两个相似的图像给出的SSIM分数接近1，我们用分数减去1来表示距离：Σl=2−（φ（I0，I<$0）+φ（I1，I<$1））（4）减少解dxy的正则性，我们有效地允许在解空间中进行探索以找到更好的匹配，并因此找到最小化数据保真度项的DXY 或者，考虑一对完全匹配的pi x els，（Ixy，Ixy），其中|Ixy−Ixy|=0。我们应该申请正则化以减小解空间的范围这样我们就可以收敛并传播解。因此，空间自适应的αxy必须在-St（x，y）∈ΩXYXYXYXY对局部残差ρxy这样我们就可以3.2. 基于残差的自适应加权方案点估计d可以通过使用数据保真度项（能量）D（d）和贝叶斯或吉洪诺夫正则化器R（d）最大化贝叶斯准则来获得，其形式为：D（d）+αR（d）（5）其中权重α是预定义的正标量参数，其控制施加在模型上的规则性，从而导致数据保真度和规则化之间的权衡。权重α在数据保真度和正则化之间调节，约束解空间。然而，使整个解（密集视差场）服从相同的规律性未能解决假设不成立的情况。假设强制平滑度约束当残差很小时，剩余部分很大。全球适应。考虑在第一训练时间步长t= 1处提出的解dxy。强加正则性有效地减少了基于关于dxy的假设的解空间，并使最终解偏置我们提出了一个加权方案αxy→ 1当t → ∞。然而，如果αxy直接依赖于t，那么即使在收敛后继续训练，αxy也会改变相反，令αxy与全局残差σ，使得当σ较大时（通常对应于早期时间步长）αxy较小，当σ→0时αxy→1。当训练收敛时（即全局残差已经稳定），αxy也将是稳定的。这自然导致退火时间表，其中随着训练步骤中的时间推移，αxy→15647=d10=d0 1XY（λXYDXY|DXY|DXYXYXY|∂XYXYXYXYXY图1：从左到右：左图像，右图像，左重建，自适应权重。自适应权重减少了高残差区域处的正则化;因此，它们对突出显示区域中的不遮挡和遮挡3.3. 自适应正则化不遮挡被忽略。我们的正则化器假设局部平滑和估计的左右视差之间的一致性。我们ˆ0 0xyxy+dxy−dXYD11xy−dxy+d XY（九）建议最小化视差梯度（平滑度）和视差重投影误差（双边循环一致性），同时用α（Sec. 3.2）。平滑度损失。我们鼓励预测的差异局部光滑，通过应用L1罚函数，在x（X）和y（Y）方向上的奇偶梯度。然而，这样的假设在对象边界处不成立，对象边界通常对应于像素强度的高变化的区域;因此，我们包括边缘感知项λ以允许视差梯度中的不连续性。我们也用α自适应地加权这项：通过对视差场及其重构施加L1惩罚，我们约束循环变换应该是恒等变换，其在共同可见区域中保持d0和d1如果存在遮挡区域，则重建的区域将与原始区域不一致，从而产生为了避免由于数据的性质而惩罚模型的不可解析对应关系，我们提出使用我们的基于残差的加权方案（Eqn.（六）。令人惊讶的是，高重投影残差的局部区域通常对应于Σlsm=0 0xyxy|∂X0|+ λ0|∂Y0|）+对闭塞区域作出反应。Σ（x，y）∈Ω1XY1XY X1|+ λ1|∂Y1（七）lbc=0 0XYXY（x，y）∈Ωˆ0 |+ α11ˆ1|（十）其中λ=e−|2002Ixy|并且，λ2算子表示图像拉普拉斯算子。我们使用图像拉普拉斯算子在第一个排序图像梯度，因为它允许视差梯度知道两个方向上的强度变化。然而，我们使用视差梯度来正则化视差场，使得我们可以允许在每个方向上的独立在计算λ的图像拉普拉斯算子之前，我们用高斯核平滑图像以减少噪声。双侧循环一致性丧失。在立体视觉中，一种常见的规则化技术是通过重新调整视差来保持左视差（d0）和右视差（d1）之间的一致性。通过投影具有视差偏移的对应部分来构造每个视差：4. 一种双支路译码器作为我们的自适应加权方案（Sec. 3.2）是数据保真度残差的函数，我们试图确保网络学习足够的表示以最小化数据保真度损失（第3.2节）。第3.1节）。我们提出了一个双分支解码器（图。2）其中一个分支（前缀为“i”）专用于学习进行最小化数据保真度损失的预测所必需的特征iconv：L0=wphlph+wstlst（11）使用经由上卷积和来自编码器的对应跳过我们使用残差块[16]来学习最小化等式n所需的跳过连接残差rskip。 1d0p=d 10d1p=d01（八）和规律性损失。通过连接iconv和rskipxyxy−dxyxy xy+dxy以初始预测（UMP）作为SEC的特征，然而，在这样做时，投影的视差受到视差斜坡、遮挡和解除遮挡两者的未解决的对应关系的我们提出了一个双边循环一致性检查，旨在具体reason约闭塞，同时消除立体dis-occlusion的影响。我们遵循这样的直觉，即视差d在投影到域，并反投影到原始域作为其立体对应物的重建在第二分支（前缀为分支现在可以利用这样的信息，通过基于数据保真度残差自适应地应用正则化来细化初始预测。为了保持类似的网络大小和运行时间，我们将网络的深度减少了1，并添加了一个卷积作为第一层，以实现到最后一层的跳过连接事实上，这导致了DαDDα（λDα--|）5648XY度量定义AbsRelSqRelRMS对数均方根log10精度Σ|z xy −zgt|1xy|z gt|z gt（x，y）∈xxyΣ|z xy −zgt |21xy|z gt|z gt.（x，y）∈ xxyΣ1|zxy−zgt |2|Ω|XY.（x，y）∈ ΩΣ1|log zxy−log zgt |2|Ω|XYx，y）∈Σ（1|logzxy−log zgt||Ω|XY（x，y）∈Ω.，zxyzgtXY%zxy s.t.δ=maxGT，zxy<阈值zxy表1：误差和准确度指标。 zxy是预测的在（x，y）∈N和zgt处的深度是对应的地面图2：双分支解码器。Rdisp仅基于数据项产生初始预测，rdisp使用整个损失函数产生精细预测（等式10）。①的人。通过仅最小化数据项（Eqn. 11）在RDISP中，我们强制iconv学习用于重建任务的足够信息，使得RDISP可以利用这些特征以及从跳过连接学习的残差，以通过基于数据保真度残差施加规律性来细化满足数据保真度的预测。在我们的网络中，参数比[14]少了1000万。我们在图中显示了定性结果。图3和图4中，我们观察到学习满足以下条件的特征的好处：数据保真度，因为我们恢复了更多关于场景几何学的细节。量化，我们在表2和表3中示出，该结构改善了我们的具有单个分支解码器的通用编码器所实现的所有度量的最新性能，其中两个解码器的最终预测①的人。5. 实现细节我们的方法是使用TensorFlow [1]实现的。在通用编码器-解码器[14]中有1.31亿个可训练参数，在我们提出的结构中有1.21Mat. 表2和3）。使用Nvidia GTX1080Ti进行培训需要18小时。每幅图像的推理时间为32毫秒我们利用了亚当[28]为了优化我们的网络，1 .一、8×10−4，β1= 0。9，β2= 0。999然后，我们在1个epoch后将学习率提高到2×10−4，将其降低一半，在46个时期之后以及在48个时期之后的四分之一，总共 50 个时期。我们使用批量大小为 8 ，分辨率为512×256，损失金字塔中有4个级别。我们能够使用以下损失函数中每个项的权重集来实现我们的结果：wph= 0。15，w_st= 0。425，wsm= 0。10且wbc=1。05. 我们选择比例因子c= 5。0表示自适应权重α。对于平滑度项，对于损失金字塔中的每个第r个分辨率，我们将其减少2r，其中r= 0是指我们的最高分辨率真相三个不同的阈值（1。25，1。252和1。253）中使用的准确性度量作为一种惯例，在文献中分辨率为512×256，r= 3最低。数据扩充在训练期间在线执行。我们以50%的概率对立体声对执行水平翻转（通过交换来保持正确的相对位置）。每个通道的亮度、伽马和色移的颜色增强也有50%的机会发生我们从[0]中均匀采样。五一五是要有定力，要有定力。八，一。2]分别用于伽马和每个颜色通道6. 实验和结果我们在KITTI数据集[13]上展示了我们在两种不同的训练和测试方案下的结果，KITTI 2015分裂[14]和KITTI本征分裂[6，12]。的KITTI数据集包含来自61个场景的42，382个校正立体对，分辨率约为1242×375。我们评估了我们的方法对单目深度估计任务的KITTI本征分裂，并比较我们的方法与类似的变体的视差误差度量作为一个AB。使用KITTI 2015拆分的Lation研究。我们表明，我们的方法优于最先进的无监督单细胞方法，甚至在KITTI基准测试中的监督方法，同时推广到Make3d [40]。6.1. KITTI Eigen Split我们使用KITTI本征分裂[6]评估我们的方法，该方法具有来自29个场景的697个其余32个场景包含23，488个立体声对，其中22，600对用于训练，其余用于验证[12]。我们将velodyne点投影到左边的输入颜色中相机框架来生成地面实况深度。地面实况深度图是稀疏的（整个图像的1.5%），并且容易由于速度计的旋转以及车辆和周围物体的运动以及遮挡而产生误差因此，我们使用[12]提出的裁剪方案，其包含图像尺寸的大约58%的高度和93%我们比较我们的方法与最近的单目深度估计方法在80和50米帽在Ta-rdispconvrconvconvrconcat布吕普conviconvconv图标conv国际石油公司联合会convupconvskiprskip5649误差精度方法数据集帽绝对相对值平方相对RMS对数均方根δ<1。25δ<1。252δ<1。253Zhou等人[56个]K80m0.2081.7686.8560.2830.6780.8850.957Mahjourian等人[35]第三十五届K80m0.1631.2406.2200.2500.7620.9160.968Garg等人[12个]K80m0.1521.2265.8490.2460.7840.9210.967Godard等人[14个]K80m0.1481.3445.9270.2470.8030.9220.964Zhan等人[55]（w/视频）K80m0.1441.3915.8690.2410.8030.9280.969我们的（全模型）K80m0.1351.1575.5560.2340.8200.9320.968我们的（完整型号）*K80m0.1331.1265.5150.2310.8260.9340.969Zhou等人[56个]CS+K80m0.1981.8366.5650.2750.7180.9010.960Mahjourian等人[35]第三十五届CS+K80m0.1591.2315.9120.2430.7840.9230.970Godard等人[14个]CS+K80m0.1241.0765.3110.2190.8470.9420.973我们的（完整型号）*CS+K80m0.1180.9965.1340.2150.8490.9450.975Zhou等人[56个]K50m0.2011.3915.1810.2640.6960.9000.966Garg等人[12个]K50m0.1691.0805.1040.2730.7400.9040.962Godard等人[14个]K50m0.1400.9764.4710.2320.8180.9310.969Zhan等人[55]（w/视频）K50m0.1350.9054.3660.2250.8180.9370.973我们的（全模型）K50m0.1280.8564.2010.2200.8350.9390.972我们的（完整型号）*K50m0.1260.8324.1720.2170.8400.9410.973表2：KITTI [13]本征分裂[6]基准的定量结果1深度上限为50和80米。K表示KITTI培训。CS+K表示Cityscape [4]的预训练和KITTI的微调。我们使用通用编码器-解码器的完整模型在两个深度上限的所有指标中始终优于其他方法，但δ<1除外。其中[55]使用了时间信息（立体声对的序列），略微超过了我们的0.1%。我们提出的解码器（*）在所有指标上都优于我们的编码器-解码器模型，并且是最先进的。图3：KITTI本征分裂的定性结果从左到右：输入图像，地面实况差异，Godard等人的结果。[14]，我们的结果与通用解码器和我们的结果与建议的解码器。我们的方法在两个解码器下恢复更多的场景结构（行2，3：街道标志，第5行：车在中间）。此外，所提出的双分支结构的预测更现实（第1行：第四排右边的行人：右下角另一辆车的尾部，第5排：左边卡车的中空树干，其中[14]和通用解码器都预测为表面）。表2.图3提供了我们的方法和基线之间的定性比较。我们注意到[55]使用立体视频流训练两个网络（而不是像我们和[14]那样使用立体对的单个网络），这使得他们的网络能够在两个空间中学习深度先验和时间域。使用[ 14 ]的网络（具有单个分支解码器的通用编码器），我们在两个深度上限下的所有度量中优于所有竞争方法，除了δ<1。第25章我是你的对手[55]我们在[14]和[55]中持续改进，平均提高5650误差度量准确性度量方法绝对相对值平方相对RMS对数均方根D1-所有δ<1。25δ<1。252δ<1。253[49]第四十九话：一个人0.41216.3713.6930.51266.8500.6900.8330.891[49]第四十九话：一个人0.1511.3126.3440.23959.6400.7810.9310.976ph+st+λGsm（[14] w/o左右一致性）0.1231.4176.3150.22030.3180.8410.9370.973ph+st+λGsm+lr[4]0.1241.3886.1250.21730.2720.8410.9360.975ph+st+αλGsm+αlr（[14] w/我们的自适应正则化）0.1201.3676.0130.21130.1320.8490.9420.975Aleotti等人[二]《中国日报》0.1191.2395.9980.21229.8640.8460.9400.976ph+st+λLsm+bc（我们的无自适应正则化）0.1171.2645.8740.20729.7930.8510.9440.977ph+st+αλLsm+αlr（我们的无双边循环一致性）0.1171.2515.8760.20629.5360.8510.9440.977ph+st+αλGsm+αbc（我们的无双向边缘感知）0.1151.2115.7430.20328.9420.8520.9450.977ph+st+αλLsm+αbc（我们的完整模型）0.1141.1725.6510.20228.1420.8550.9470.979ph+st+αλLsm+αbc* （我们的全模型，带2个分支解码器）0.1101.1195.5760.20027.1490.8560.9470.980表3：[14]提出的KITTI 2015分裂模型变体之间的定量比较1每个变量根据其损失函数命名。ph和st表示数据项，sm表示局部平滑度，α表示自适应权重，λG表示图像梯度[14]，λL表示图像拉普拉斯算子，lr表示左右一致性[14]，bc表示双边循环一致性。我们展示了自适应正则化的有效性（第二节）。3.3）通过将其应用于[14]并改进其模型。我们使用通用编码器-解码器的完整模型在每个指标上都优于所有变体，包括[2]预测生成照片级逼真图像的差异。我们使用我们提出的双分支解码器（*）的完整模型进一步改进了最先进的技术。图4：KITTI 2015拆分的定性结果。从左至右：输入图像，地面实况深度，Godard等人的结果。[14]，我们的结果使用一个通用的解码器和我们的结果提出的解码器。我们的方法生成了更一致的深度（第1行：右边的墙，第2行：左边的建筑物），并恢复了更详细的结构（第3行：右边的摩托车和电线杆，第4行，第5行：街道标志），其中两个分支解码器恢复最多。AbsRel 为 8.7% 和 5.75% ， SqRel 为 13.1% 和 10.5% ，logRMS为5.25%和2.55%。此外，我们在δ 1中的得分显著更高<。25（最难的精度指标），这表明我们的模型比所有竞争方法产生更正确和更现实的详细深度。此外，我们的双分支解码器在所有指标和深度上限上都改进了上述结果，并且是当前最先进的。表2显示，当在Cityscape [4]上进行预训练并在KITTI上进行微调时，我们的模型也击败了[ 14 ]。一项关于本征分裂的消融研究检查了我们每一个贡献的影响（第二节）。3.3）可以在我们的Supp中找到。Mat.6.2. KITTI 2015 Split我们在200个高质量视差图上评估了我们的方法，这些视差图作为官方KITTI训练集的一部分[13]。这200对立体声覆盖了61个场景中的28个从覆盖其余33个场景的30，159个立体声对中，我们选择29，000个用于训练，其余用于验证。虽然典型的训练和评估方案将velodyne激光值投影到深度，但我们选择使用所提供的视差图，因为它们比velodyne数据点的错误更少。此外，我们还使用官方KITTI显示器-5651误差度量方法监督AbsRel Sq Rel RMS log10Karsch等人[25]是0.417 4.894 8.172 0.144Liu等人[34]是0.462 6.625 9.972 0.161Laina等人[31]是0.198 1.665 5.461 0.082Godard等人[14]否0.468 9.236 12.525 0.165我们的号码0.454 8.470 12.211 0.163我们的 * 没有0.427 8.183 11.781 0.156（一）（b）第（1）款图5：Make3d [40]上的定性（a）和定量（b）结果1在（a）中，从上到下：输入的图像地面实况差异我们的结果在（b）中，列出的无监督方法都是在KITTI本征分裂上训练的。尽管在KITTI上进行了培训，但我们对Make3d上培训的许多监督方法进行了测试端点误差（D1-all）的度量来测量我们的性能，因为它是关于我们的方法类别的更合适的度量，该方法类别输出视差并使用相机焦距和基线从输出合成深度。我们在图中显示了定性比较。4和表3中的定量比较。表3还用作使用不同图像形成模型和正则化项对属于立体非监督范例的变体的消融研究。我们表明，通过简单地将我们的自适应正则化应用于[14]，我们实现了对他们模型的改进。我们还研究了用左右一致性正则化子替换我们的双边循环一致性的效果[14]。我们还取代图像拉普拉斯算子与图像梯度的边缘感知权重。此外，我们发现自适应正则化和双边循环一致性对模型的改进有相似的然而，当它们结合在一起时，在每个指标上都比基线方法（和所有变体）有了显著的改进。此外，当使用我们提出的解码器时，我们再次超越了每个矩阵上的所有变体。我们还优于[2]，后者使用GAN来约束输出视差，以在重建过程中产生照片般逼真的图像。这一结果与我们在精度指标上的表现一致6.3. 泛化到不同的数据集：Make3d为了表明我们的模型具有普遍性，我们在图中给出了定性和定量结果。5在Make3d数据集[40]上，包含134张分辨率为2272×1707的测试图像。Make3d提供了地面实况深度的范围图（分辨率为305×55），这些深度必须重新缩放并插入。我们使用的中心作物提出的[14]在这里，我们生成一个以图像为中心的852×1707裁剪。我们使用标准的C1评估指标1提出的Make3d和限制的最大深度为70米，特斯监督方法的结果取自[14]。由于Make3d不提供立体声对，我们无法在其上进行训练在KITTI Eigen split上训练我们的模型后，我们的性能与在Make3d上训练的监督方法相当，并且在所有指标上都优于基线7. 讨论在这项工作中，我们提出了一个自适应加权方案（第二。3.3），其在空间上和时间上都是变化的，不仅允许数据驱动，而且允许模型驱动的正则化方法。此外，我们引入了一个双边循环一致性约束，不仅强制左右视差之间的一致性，而且还消除了立体不闭塞，同时折扣未解决的闭塞时，结合我们的加权方案。最后，我们提出了一个双分支解码器，通过学习特征来改善数据残差，从而实现我们的自适应规律性。我们在两个KITTI基准测试中实现了最先进的性能，并表明我们的方法可以推广到Make3d。我们的双分支解码器进一步改善了这些结果。我们的实验（表2和表3）表明，我们的方法在保持全局正确性的同时生成了具有更多细节的深度图。对于未来的工作，我们计划提高镜面和透明表面的鲁棒性，因为这些区域往往会产生不一致的深度。我们还在探索更多的sophisticated正则化的地方简单的视差梯度。最后，我们认为任务应该驱动网络架构。而不是使用通用网络，找到更好的架构适合可以证明是突破性的，并进一步推动国家的最先进的。鸣谢。Byung-Woo Hong（hong@cau.ac.kr; Chung-AngUniversity，韩国）提供了指导和有益的讨论，我们认为这是作者资格的保证。在这里，我们承认他是作者（如本文其他版本所列），并感谢他他的贡献。本工作得到NRF-2017 R1 A2 B4006023、NRF-2018 R15652A4 A1059731、ONR N 00014 -17-1-2072、ARO W911 NF-17-1-0304的支持。5653引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。5[2] F. Aleotti，F. Tosi，M. Poggi和S.马托西亚用于无监督单目深度预测的生成对抗网络。2018年第15届欧洲计算机视觉会议（ECCV）研讨会。二七八[3] W. Chen，Z. Fu，D. Yang和J.邓小平更在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年。一、二[4] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，第3213-3223页，2016年。六、七[5] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页2[6] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年。一、二、五、六[7] J. 恩格尔河谷Koltun和D.克莱姆斯直接稀疏测距法。IEEEtransactionsonpatternanalysisandmachineintelligence，40（3）：611-625，2018。2[8] X. Fei、A.Wong和S.索阿托地理监督视觉深度预测。arXiv预印本arXiv：1807.11130，2018。2[9] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在IEEE计算机视觉和模式识别集，第5515-5524页，2016年。2[10] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议论文集，第2002-2011页2[11] N. P. Galatsanos和A.K. 卡萨格洛斯图像复原中正则化参数的选取和噪声方差的估计方法及其相互关系。IEEE图像处理学报，1（3）：322-336，1992. 2[12] R.加格BG、G. Carneiro和我里德用于单视图深度估计的无监督CNN：把几何图形放回休息室。欧洲计算机视觉会议，第740-756页。施普林格，2016年。一、二、五、六[13] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012 IEEE会议，第3354-3361页中IEEE，2012。一、二、五、六、七[14] C. 戈达尔湖，澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，第2卷，第7页，2017年。一二三五六七八[15] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。25654[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 770-778，2016中。4[17] T.他，H.黄湖，澳-地Yi，Y. Zhou C.，中国青冈C.Wu，J. Wang，和S.索阿托Geonet：用于点云分析的深度测地线网络。arXiv预印本arXiv：1901.00680，2019。1[18] T.他和S。索阿托Mono3d++：单目3d车辆检测，具有双尺度3d假设和任务先验。arXiv预印本arXiv：1901.03446，2019。1[19] P. Heise，S.克洛泽湾Jensen和A.诺尔Pm-huber：使用huber正则化进行立体匹配的补丁匹配。在计算机视

下载后可阅读完整内容，剩余1页未读，立即下载