室内环境下的自我监督单目深度估计方法

183 浏览量更新于2023-10-15 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12787MonoIndoor：室内环境潘吉*1、润泽里*1、2、比尔巴努2、易旭11OPPO美国研究中心、创峰科技有限公司2加州大学河滨分校摘要（i）室内序列的深度范围在不同帧之间变化很大，使得深度网络难以引起一致的深度线索，而室外场景中的最大距离大多保持与相机通常看到的天空相同（ii）室内序列包含多得多的旋转运动，这导致姿势网络的困难，而室外序列的运动主要是平移的，特别是对于诸如KITTI的驱动数据集。在本文中，特别考虑到这些挑战，并巩固了一套良好的做法，以提高在室内环境中的自我监督单目深度估计的性能。该方法主要由两个新模块组成，深度因式分解模块和残余姿态估计模块，其中的每一个被设计为分别解决上述挑战。每个模块的有效性通过仔细进行的消融研究和三个室内数据集上的最新性能的演示来显示，即，EuRoC、NYUv 2和7-Scenes。1. 介绍深度估计在诸如自动驾驶、虚拟现实（VR）和增强现实（AR）的各种3D感知任务中起着至关重要的作用。在本文中，我们解决的问题，估计的深度图从一个单一的图像在一个自我监督的方式。与监督方法[5，8]相比，自我监督[9，46，12]使我们不必使用深度传感器（例如，激光雷达），因此，它是更有吸引力的情况下，获得地面真相是不可能的。*联合第一作者。P. Ji是通讯作者（pe-terji530@gmail.com）。R.Li最近，自监督方法[12]已经取得了显著的成功，产生了与监督方法[14，8]产生的深度预测可比较的深度预测例如，在KITTI数据集[10]上，Monodepth2 [12]实现了10.6%的绝对相对深度误差（AbsRel），这与监督DORN [8]的7.2%的AbsRel相差不远。然而，大多数这些自监督深度预测方法[9，46，12]仅在室外数据集（如KITTI）上进行评估，使其性能对于室内环境不透明。一些方法[45，44]已经考虑了室内自监督深度预测，但是它们的性能仍然远远落后于室外数据集上的方法，例如[9，46，12]或室内数据集上的监督对应物[8，41]例如，在室内NYUv2数据集[33]上，Zhaoetal.[44]达到了18.9%的AbsRel，远高于Monodepth2在KITTI上所能达到的。鉴于室内和室外场景之间的性能差异，我们研究是什么使得室内深度预测比室外情况更具挑战性。我们的第一个猜想是，这部分是由于室内序列的场景深度范围比室外变化更大。这导致深度网络在跨图像诱导一致的深度线索时更加困难。我们的第二个观察结果是，通常用于自监督方法[46，12]的[47]中的类似发现表明预测的姿态具有高得多的旋转误差（例如，10倍大）比几何SLAM [26]，即使在使用循环姿态网络之后。这个问题在KITTI上并不突出，因为其中的运动主要是平移的。然而，由于室内数据集通常由不可避免地经历频繁旋转的手持相机[33]或MAV [31]捕获，因此不准确的旋转预测对于室内环境的深度模型的自监督训练变得有害。鉴于上述考虑，我们提出了MonoIn- door，一种针对室内环境定制的单目自监督深度估计我们的MonoIndoor由两个新颖的模块组成：深度因子分解模块和12788残余姿态估计模块。在深度分解模块中，我们将深度图分解为全局深度尺度（针对当前图像）和相对深度图。深度缩放因子由深度网络中的额外分支单独预测以这种方式，深度网络具有更多的模型可塑性以适应训练期间的深度尺度变化。在残差姿态估计模块中，除了初始大姿态预测之外，我们还通过执行残差姿态估计来解决不准确旋转预测的问题。这样的残差方法导致光度损失的更准确的计算[12]，这进而导致深度网络的更好的模型训练。总的来说，我们的贡献是：• 新颖的深度因子分解模块，帮助深度网络适应快速的尺度变化;• 新颖的残余姿态估计模块，其减轻姿态网络中的不准确旋转预测问题，并且进而改进深度预测;• 在三个公开的室内数据集，即[31]，NYUv 2 [33]和7-Scenes [32]。2. 相关工作在本节中，我们回顾了用于单目深度估计的监督和自监督方法。2.1. 有监督的单目深度估计早期的深度估计方法大多是有监督的。Saxena等人[30]从具有超像素特征和马尔可夫随机场（MRF）的单个图像回归深度Eigen等人[6]提出了第一种基于深度学习的方法，用于使用多尺度卷积神经网络（CNN）进行单目深度估计。后来的方法通过更好的网络架构[19]或通过更复杂的训练损失[21，8，41]来提高深度预测的性能。一些方法[36，34]依赖于两个网络，一个用于深度预测，另一个用于运动，以在监督框架中模拟几何运动恢复结构（SfM）或同时定位和映射（SLAM）。训练这些方法需要地面实况深度数据，这通常是昂贵的捕获。一些其他方法然后求助于利用传统的3D重建方法[23，22]（诸如SfM [31]和SLAM[26]或3D电影[28]）来生成伪地面实况深度标签。这样的方法具有跨不同数据集的更好的通用化能力，但不一定能够实现手头数据集的最佳性能。2.2. 自监督单目深度估计自监督深度估计最近引起了很多关注，因为它不需要使用地面实况进行训练。沿着这条线，Garget al.[9]建议使用立体图像之间的颜色一致性损失来训练单目深度模型的第一自监督方法。Zhou等[46]采用两个网络（即，一个深度网络和一个姿态网络）来构造跨时间帧的光度损失。许多后续的方法，然后试图通过新的损失条款，以改善自我监督。Go- dard等。[11]将左右深度一致性损失并入立体声训练。Bian等[1]提出了时间深度一致性损失以鼓励相邻帧具有一致的深度预测。Wang等人[37]观察训练过程中深度模型的衰减问题，并提出一种简单的Yin等[42]和Zouet al. [48个]使用三个网络（即，一个深度网络、一个姿态网络和一个额外的流网络），以加强光流和密集深度之间Wang等人[39]和Zouet al. [47]利用诸如LSTM的递归神经网络来对姿势网络和/或深度网络中的长期依赖性进行建模。Tiwari等人[35]与单目SLAM和自监督深度模型[12]形成自改进循环以改进每个的性能。值得注意的是，Monodepth2 [12]通过一组技术显著提高了先前方法的性能：处理遮挡的每像素最小光度损失，掩蔽静态像素的自动掩蔽方法，以及减轻深度中的纹理复制问题的多尺度深度估计策略。由于其良好的性能，我们实现了基于Monodepth2的自监督深度估计框架，但对深度和姿势网络都进行了上述方法中的大多数仅在户外数据集（如KITTI）上进行评估。其他一些近期方法[45，44，2，43]关注室内自我监督深度估计。Zhou等[45]提出了一种基于光流的训练范例，并通过预处理步骤来处理大的旋转Yu等人[43]利用块匹配和平面正则化来改进自监督运动恢复结构。Zhao等人[44]采用几何增强策略，该策略通过两视图三角剖分求解深度Bian等[2]认为我们有一个类似于[45]和[2]的观察结果，即大的旋转会导致网络的困难。但是，我们采取了不同的策略。而不是从训练数据中删除旋转，我们通过一个新的残差姿势模块逐步估计它们。这进而改进了深度预测。3. 方法在本节中，我们给出了使用MonoIndoor执行自监督深度估计的详细描述。12789⟨·⟩~不不单户I个深度网络I ⋯ ⋯IY��F→��IF→��经纱经纱（concat|concat|res（（I规模网络深度分解模块图1.建议的MonoIndoor概述。深度因子分解模块：我们使用基于编码器-解码器的深度网络来预测相对深度图，并使用非局部尺度网络来估计全局尺度因子。残差姿态估计模块：我们使用姿态网络来预测一对帧的初始相机姿态，并且使用残差姿态网络来基于预测的初始姿态迭代地预测残差相机姿态。具体来说，我们首先介绍了自监督深度估计的背景。然后，我们描述了使用MonoIndoor预测深度的良好实践。3.1. 自监督深度估计类似于[46，12，47]，我们还通过训练模型来从源图像的不同视点预测目标图像，将自监督深度估计视为一种新的视图合成通过使用深度图作为桥接变量来训练和约束图像这样的系统既需要目标图像的预测深度图和估计深度是基于目标图像的深度扭曲到目标坐标系的源图像。 proj（）是将来自目标图像的图像坐标pt映射到其在源图像上的pt’的变换函数。pt′KTt→t′Dt（ pt）K−1 pt，（4）并且是局部次可微的双线性采样算子。在[12]之后，假设所有图像的相机本征K相同，并且采用边缘平滑项为Ls=|xd|e−|xIt|+的|yd|e−|it|、（五）一对目标和源图像之间的相对姿态具体地，给定来自另一视图的目标图像I t和源图像I t’，系统被联合训练以预测目标图像的密集深度图D t和从目标到源的相对相机姿态Tt-t’。然后，可以如下构造光度量Σ其中d*t =d/d¯t是平均归一化逆深度（37）。在训练过程中，我们采用了自动掩蔽方案[12]来处理静态像素。类似于[1]，我们使用额外的深度一致性损失来实施跨相邻帧的一致深度预测。我们首先通过等式（2）对源图像的深度图像Dt’进行加权以生成Dt’→t，其对应于和LA=ρ（It，It′→t），（1）t′在源图像的坐标系中响应深度图。然后，通过等式（4）将Dt’-t变换到目标图像的坐标系，以产生合成的It′→t=It′∠p ro j（Dt，Tt→t′，K ）∠，（2）其中ρ表示光度重建误差[46，12]。它是L1和结构化的加权组合相似性（SSIM）损失定义为α。Σρ（I，I′）=的1−SSIM（I，I′）+（1−α）I，I′。12790~~得到深度图Dt′→t。深度一致性损失可以写为为|Dt−Dt′→t|.（六）Dt+Dt′→t训练模型的总体目标是不t → t2不t→t不t→t1（三）L=LA+τLs+γLc，（7）CL12791FF~ψS·SΣ∼其中τ和γ分别是边缘感知平滑度损失和深度一致性损失的权重即使现有的单目自监督方法能够在室外环境中产生有竞争力的深度图，这些方法在室内环境中仍然遭受较差的如第1节中所讨论的，室内环境中的主要挑战来自以下事实：深度范围变化很大，并且室内序列包含难以预测的规则旋转运动为了处理这些问题，我们提出了MonoIndoor，如图1所示的单通道自监督深度估计框架，以实现室内环境中的改进的预测深度质量。回归网络来预测当前视图的全局比例因子。规模网络。我们设计的规模网络作为一个新的分支，作为输入的彩色图像和输出其全球的比例因子。由于全局比例因子由某些区域（例如，远点），我们探索使用自注意块[40]，使得可以引导网络更多地注意某个区域，该区域是信息丰富的，以诱导场景中当前视图的深度比例因子。给定从输入图像中学习的特征表示，我们利用自关注块作为输入，形成查询，键和值输出ψ（F）=WψF，该系统以单色图像作为输入，并通过我们的MonoInoor输出深度图，该深度图由两个核心部分组成：深度因子分解模块和残差姿态（F）=Wh（F）=WhF，（九）估计模块我们在以下几节中介绍了我们的主要贡献。3.2. 深度分解我们使用Monodepth2 [12]作为深度预测的骨干模型。Monodepth2中的深度模型采用自动编码器结构，在编码器和解码器之间具有跳过连接。深度编码器将彩色图像I作为输入，并且解码器输出其深度图。注意，最终深度预测不是直接来自卷积层，而是在如下的S形激活函数和线性缩放函数之后，d=1/（aσ+b），（8）其中σ是S形函数a和b之后的值以将深度图D约束在某个深度范围内。实际上，a和b分别被预定义为在已知环境中可以获得的最小深度值和最大深度值。例如，在KITTI数据集[10]上，a被选为0.1，b被选为100。将a和b设置为固定值的原因是，当相机总是看到远点处的天空时，深度范围在视频序列上是一致的然而，这个设置对于大多数室内环境是无效的.随着场景的变化，深度范围变化很大。例如，浴室中的深度范围（例如，0.1m 3m）可以非常其中Wψ、W和Wh是要学习的参数查询和关键值然后在G F=softmax（FTWTWF）h（F）中组合作为学习的自我关注。最后，自我注意力G F和F通过使用S F=WSFG F+ F。（十）一旦我们获得了作为F的关注表示，我们就应用两个残差块，每个残差块中包括两个卷积层，随后是三个完全连接的层，在中间具有丢弃层，以输出当前图像的全局比例因子S概率尺度回归负责人。为了预测全局尺度，必须将高维特征图映射到单个正数。一种直接的方法是让网络直接回归尺度数。然而，我们观察到使用这种方法的不稳定训练。为了解决这个问题，受[4]的启发，我们建议使用概率尺度回归头来估计这个连续值。给定全局比例因子在其内的最大界限，经由softmax 操作softmax（）从比例网络的输出计算每个比例s的概率。预测的全局尺度S被计算为每个标度s之和由其概率加权为DMax不同于大厅中的（例如，0.1m 10m）。预设深度范围将作为不准确的引导S=s=0s×softmax（S~）。（十一）对于模型捕获精确的深度尺度是有害的。当存在快速比例变化时尤其如此，这通常在室内场景中观察到。为了克服这个问题，我们提出了一个深度分解模块（见图1），以学习一个相对深度图和全局比例因子的形式解开表示。我们采用Monodepth2 [12]的深度网络来预测相对深度，并提出了一种自我注意力引导的尺度通过这样做，回归问题得到了顺利解决通过基于概率分类的策略（更多消融结果见第4.1.13.3. 剩余位姿估计如第3.1节所述，自监督深度估计建立在新颖的视图合成上，其需要精确的深度图和相机姿势。Es-12792转t→ti iit→t0Y0→t′′我t如果0t0→t表示尚未应用0→t。我们随后0→t现在，我们从合成图像中双线性采样为I′= I′proj（D，Tres−1，K）>。（十三）（t0→t）→tt0→tt（t′0→t）→t源视图虚拟视图目标视图图2.残差姿态估计。在这里，我们给出了一个说明性的例子，一个单阶段的姿态可以分解成一个初始姿态和残余姿态的虚拟视图合成。估计准确的相对姿态对于摄影测量重投影损失是关键的，因为不准确的姿态可能导致目标和源像素之间的错误对应，从而导致预测深度的问题。现有的方法大多采用独立的PoseNet来估计两个图像之间的6自由度（DoF）姿势。在室外环境（例如，驾驶场景，如KITTI），相对相机姿势相当简单，因为汽车主要是向前移动，平移较大，旋转较小这意味着姿态估计通常不太具有挑战性。相反，在室内环境中，通常用手持设备（例如，Kinect），因此涉及更复杂的自我运动以及更大的旋转运动。因此，姿态网络更难以学习准确的相机姿态。与现有的方法[45，2]不同，这些方法集中在在第一阶段中，姿态网络将目标图像It和源图像It’作为输入，并预测目标图像I t和源图像I t’之间的距离。初始相机姿态Tt′，其中t′0indi变换中的下标0等式（2）从源图像进行双线性采样，重建预期与目标图像相同的虚拟视图It’，对应匹配准确。然而，由于不准确的姿态预测，情况将不是这样。注意这里的转换定义为It′→t=It′∠proj（Dt，T−′1 ，K）>。（十二）接下来，我们利用残差姿态网络（参见图1中的残差-PoseNet），该残差姿态网络将目标图像和合成视图It’作为输入并输出残差凸轮。一旦我们获得新的合成视图，我们就可以继续估计用于下一个视图合成的下一个残余姿态为了简化等式（13）中的符号，我们用t′1替换下标t′0 t以指示应用一个扭曲变换，并且对于第i个变换类似。因此，等式（13）的一般形式定义为：It′→t=It′∠p ro j（Dt，Tr′es−1，K）∠，i=0，1，···。（十四）在我们估计多个残余姿态之后，源图像It’相对于目标图像It的相机姿态可以记作Tt→t′=T−′1哪里Tt′→t=Tt′i→t，i=···，k，···，1，0。（十五）我通过迭代地估计残余姿态，我们期望获得与从单级姿态网络预测的姿态相比更准确的相机姿态，使得可以建立更准确的光度重投影损失以用于更好的深度预测。4. 实验数据集。我们在两个具有挑战性的室内数据集上评估所提出的框架 MonoIn-door： EuRoC MAV [31]数据集、NYUv 2深度数据集[33]和RGB-D 7-场景数据集[32]（更多定量结果参见补充材料）。评估指标。为了评估，我们遵循[6]以使用平均绝对相对误差（AbsRel）、均方根误差（RMS）和阈值下的准确度（δ i<）。25i，i=1，2，3）。实施详情。我们使用PyTorch [27].在深度分解模块中，我们使用与[12]相同的深度网络;对于尺度网络，我们使用两个基本残差块，然后是三个全连接层，中间有一个丢弃层。辍学率设置为0.5。在残差姿态模块中，我们让残差姿态网络使用由共享姿态编码器和独立姿态回归器组成的公共架构[12]。每个实验使用Adam [17]优化器训练40个epoch，前20个epoch的学习率设置为10- 4，其余epoch的学习率下降到10- 5平滑项τ和一致性项γ分别被设置为0.001和0.054.1. EuRoC MAV数据集EuRoC MAV数据集[31]包含11个视频序列。第三代（t0→t）→t，表示在两个主要场景中捕获的序列，机器大厅和合成图像It′0→t。vicon房间序列被分类为容易、中等单级位姿IF初始姿态IF剩余位姿我逆翘曲12793×个表 1. 设计选择的消融结果和我们在 EuRoC 上的模型（MonoIndoor）的深度分解模块中组件的有效性[31]。Porb.注册号：概率尺度回归块。注意：在这里，我们还使用残差姿态估计模块，当实验不同的网络设计的深度分解模块。网络设计关注概率Reg.误差度量准确性度量AbsRelRMSEδ1δ2δ3I. ScaleCNNII. ScaleNet✓✓✓✓0.1400.1410.5180.5190.8210.8170.9560.9590.9850.988三. 标度回归三. 标度回归三. 标度回归✗✓✓✗✗✓0.1390.1350.1250.5080.5010.4660.8170.8250.8400.9600.9640.9650.9870.9890.993并且根据变化的照明和摄像机运动而困难对于训练，我们使用三个序列“机器大厅”（MH 01，MH02，MH 04）和两个序列的“Vicon室”（V1 01和V102）。用所提供的相机固有函数校正图像以去除图像失真。在训练期间，图像被调整大小为512 256。在[13]之后，我们使用Vicon房间序列V2 01进行测试，其中通过将Vicon 3D扫描投影到图像平面上来生成地面实况深度4.1.1消融研究我们对EuRoC MAV数据集上的深度因子分解模块的设计选择进行消融研究。首先，我们考虑以下设计作为我们规模网络的骨干：I）预训练的ResNet-18 [15]，随后是一组Conv-BN-ReLU层; II）预训练的 ResNet-18[15]，随后是两个残差块;III）具有两个残差块的轻量级网络，其共享来自深度编码器的特征图作为输入。这三个选项在表1中分别称为ScaleCNN、ScaleNet和ScaleRegressor。接下来，我们验证将新组件添加到主干设计中的有效性。如3.2节所述，我们主要集成两个子模块：i）自我注意块和ii）概率尺度回归块。如表1所示，最佳性能是通过使用自我关注和概率尺度回归的ScaleRegressor实现的。这证明了与深度编码器共享特征有利于尺度估计。比较三个ScaleRegressor变体的结果，性能随着我们添加更多组件（即，注意和概率Reg.）。具体地，添加自注意力块提高了基线骨干的整体性能;加入概率回归模块后，算法得到了进一步的改进，验证了所提出的子模块的有效性。4.1.2定量结果由于Eu-RoC MAV [31]数据集上报告的公开结果不多，我们主要将我们的模型与表2.我们的MonoIndoor消融结果和与EuRoC测试序列V2 01基线的定量最佳结果以粗体显示。方法深度分解残余构成误差Me tricAccu 性感的我tricAbsRelRMSEδ1δ2δ3Monodepth2 [12]✗✗0.1570.5670.7860.9410.986单户✓✗0.1490.5350.8050.9550.987单户✗✓0.1410.5180.8150.9610.991单户✓✓0.1250.4660.8400.9650.993[12]第十二话图3. EuRoC上深度预测的定性比较。我们的模型产生更准确和更清晰的深度图。基线模型Monodepth2 [12]，并验证MonoIndoor每个模块的有效性。如表2所示，添加我们的深度因子分解模块将AbsRel从15.7%降低到14.9%，并且我们的残余姿态模块将AbsRel降低到14.1%，这验证了每个模块的有用性我们的完整模型在所有评估指标中实现了最佳性能具体而言，与Monodepth2相比，我们的MonoIndoor的AbsRel从15.7%显著降低至12.5%，并且δ1提高了约6%，从78.6%提高至84.0%。4.1.3定性结果图3给出了Monodepth2 [12]和我们的MonoIndoor预测的深度图的定性比较。从图3中可以清楚地看到，我们的模型生成的深度图比Monodepth2生成的深度图要好得多。例如，在第一行中，我们的模型可以预测右下角处的孔区域的精确深度，而Mon_odepth2的深度图中的这种孔结构缺失。此外，在第二行中，我们的模型可以预测右上角区域的阶梯的更清晰的深度图，而Monodepth2不能。这些观察结果也与较好的定量结果12794×个×个∼表3.我们的MonoIndoor在NYUv2上的每个模块的有效性的消融结果。“No. Residual Pose Block” means the模型深度分解号残余姿势块误差Me tricAccu 性感的我tricAbsRelRMSδ1δ2δ3Monodepth2 [12]单户✗✓000.160.1520.6010.5760.7670.7920.9490.9510.9880.987单户单户✗✓110.1420.1340.5530.5260.8130.8230.9580.9580.9880.989单户单户✗✓220.1410.1410.5480.5460.8140.8180.9580.9580.9880.989在表2中，证明了我们模型的优越性4.2. NYUv2深度数据集在本节中，我们在NYUv 2深度数据集[33]上评估我们的MonoIndoor，该数据集包含由分辨率为640480的手持式Microsoft KinectRGB-D相机捕获的464个室内我们使用官方的训练和验证分割，分别包括302和33个序列。我们纠正提供的相机参数的图像，以消除失真。在[44，2]之后，原始数据集首先沿着时间维度下采样10次以去除冗余帧，从而产生20K图像用于训练。在训练期间，图像被调整大小为320 256。我们使用官方提供的654张带有密集标记深度图的图像进行测试。4.2.1消融研究我们对NYUv2上的深度因子模块进行了另一项消融研究[33]。在表3中，与在没有全局尺度的任何指导的情况下预测深度的Monodepth2相比，使用具有单独尺度网络的深度因式分解模块可以提高性能，将AbsRel从16%降低到15.2%并且将δ1增加到79.2%。接下来，我们进行实验以验证残余姿态估计模块的有效性。比较表3中的行，通过添加具有一个残余姿态块的残余姿态估计模块，我们观察到对于AbsRel从16.0%下降到14.2%以及对于δ1从76.7%上升到81.3%的改进的性能。此外，通过应用深度因子分解模块和残余姿态估计模块（即，我们的完整Mono-In-door），可以在所有评估指标上实现显著改进。例如，AbsRel降低至13.4%，δ1增加至82.3%。然而，参考最后两行，当添加更多残余姿态块并且在具有/不具有深度因式分解模块的情况下进行训练时，性能没有显著改善或者甚至变得更差。我们将把对这一现象的调查留到以后的工作中去做。表4.我们的方法与NYUv2上现有的监督和自监督方法的比较[33]。监督和自我监督方法中的最佳结果以粗体显示。方法监督误差度量准确性度量AbsRelRMSδ1δ2δ3Make3D [30]✓0.3491.2140.4470.7450.897深度转移[16]✓0.3491.210---Liu等[25日]✓0.3351.060---Ladicky等人[18个国家]✓--0.5420.8290.941Li等[20个]✓0.2320.8210.6210.8860.968Roy等人[29日]✓0.1870.744--Liu等[24日]✓0.2130.7590.6500.9060.976Wang等人[38个]✓0.2200.7450.6050.8900.970Eigen等人[五]《中国日报》✓0.1580.6410.7690.9500.988查克拉巴蒂等[3]第一章✓0.1490.6200.8060.9580.987Laina等人[19个]✓0.1270.5730.8110.9530.988Li等[21日]✓0.1430.6350.7880.9580.991DORN [8]✓0.1150.5090.8280.9650.992越南国家图书馆[41]✓0.1080.4160.8750.9760.994Fang等人[七]《中国日报》✓0.1010.4120.8680.9580.986Zhou等[45个]✗0.2080.7120.6740.9000.968Zhao等人[第四十四届]✗0.1890.6860.7010.9120.978Monodepth2 [12]✗0.1600.6010.7670.9490.988Bian等[二]《中国日报》✗0.1470.5360.8040.9500.986MonoIndoor（我们的）✗0.1340.5260.8230.9580.9894.2.2定量结果我们在表4中呈现了我们的模型MonoIn-door以及最先进的（SOTA）监督和自监督方法对NYUv 2的定量结果。它表明，我们的模型优于以前的自我监督SOTA 方法，在所有指标中达到最佳结果。具体地，与Bian等人最近的自我监督方法相比。[2]通过“弱校正”去除旋转，我们的除此之外，我们的模型优于一组监督方法，并缩小了自监督方法和全监督方法之间的性能差距4.2.3定性结果图4可视化了NYUv2上的预测深度图。与Monodepth2[12]的结果相比，从我们的模型（MonoIndoor）预测的深度图更精确，更接近地面实况。例如，查看第一行中的第三列，从我们的模型预测的椅子区域中的深度在同一图像的最右侧区域，有一个架子，我们的模型可以产生更好的深度预测，反映其形状。这些观察结果与我们在表4中的定量结果一致。5. 结论在这项工作中，我们提出了一种新的单目自监督深度估计模型，即MonoIndoor，以研究预测准确深度的良好实践12795[12]第十二话图4.NYUv2的定性比较[33]。与Monodepth2 [12]相比，我们的模型产生了更接近地面真实的准确深度图（在第室内环境中的地图。我们首先引入深度因子分解模块来从输入图像中联合学习全局比例因子和相对深度图。为了估计准确的相机构成的新的视图合成，我们提出了一个残差姿态估计模块，分解成一个初始姿态和一个或几个残差姿态，这反过来又提高了深度模型的全局姿态。我们已经证明，我们的模型在三个挑战中实现了自监督方法中最延长室内数据集，即，EuRoC、NYUv 2和7-Scenes。要注意的是，我们的深度因子分解模块本身对于监督的类型是不可知的，因此它也可以有助于监督深度预测。在未来，我们计划调查其有效性的监督设置。另一个有趣的未来方向是在具有各种深度范围的多个数据集上训练我们的方法，然后测试它的零次交叉数据集传输，如[28]所示。12796引用[1] Jia-Wang Bian，Zhichao Li，Naiyan Wang，HuangyingZhan，Chunhua Shen，Ming-Ming Cheng，and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。arXiv预印本arXiv：1908.10553，2019。二、三[2] Jia-Wang Bian，Huangying Zhan，Naiyan Wang，Tat-Jun Chin，Chunhua Shen，and Ian Reid.在具有挑战性的室内视频中进行无监督深度学习：整改不力要抢救。arXiv预印本arXiv：2006.02708，2020。二、五、七[3] Ayan Chakrabarti，Jingyu Shao，and Greg Shakhnarovich.深度从一个单一的图像，通过协调过完整的局部网络预测。InNeurIPS，2016. 七个[4] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR中，第5410-5418页，2018年。四个[5] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签InICCV，December 2015.1、7[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度arXiv预印本arXiv：1406.2283，2014。二、五[7] Zhicheng Fang，Xiaoran Chen，Yuhua Chen，and LucVan Gool. 基于 cnn 的单目深度估计的良好实践在WACV，2020年3月。七个[8] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR，2018年6月。一、二、七[9] Ravi Garg，Vijay Kumar Bg，Gustavo Carneiro，and IanReid.单视图深度估计的无监督cnn：Geome-尝试拯救。在ECCV，第740-756页，2016中。一、二[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。1、4[11] Cle' mentGodard，OisinMacAodha，andGabrie lJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR，第270-279页，2017年。二个[12] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在ICCV，第3828-3838页，2019年。一二三四五六七八[13] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.来自野外视频的深度：来自未知相机的无监督单目深度学习。在CVPR，2019年。六个[14] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。参见ECCV，第484-500页，2018年。一个[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年6月。六个[16] Kevin Karsch，Ce Liu，and Sing Bing Kang.深度转移：使用非参数采样从视频中提取深度。TPAMI，2014年。七个[17] Diederik P Kingma和Jimmy Lei Ba。Adam：一种随机梯度下降法在ICLR，第1-15页，2015年。五个[18] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys.把事情扯远。在CVPR，2014年6月。七个[19] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在 3DV ，第 239-248 页中。IEEE，2016. 二、七[20] Bo Li ， Chunhua Shen ， Yuchao Dai ， Anton van denHengel，and Mingyi He.基于深度特征和层次crfs回归的单目图像深度和表面法线估计。在CVPR，2015年6月。七个[21] 李俊，莱因哈德·克莱恩，姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。InICCV，Oct2017. 二、七[22] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker，Noah Snavely，Ce Liu，and William T Freeman.通过观察冷冻人来学习感动人的深度。在CVPR中，第4521-4530页，2019年。二个[23] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在CVPR中，第2041-2050页，2018年。二个[24] Fayao Liu，Chunhua Shen，and Guosheng Lin.用于从单个图像进行深度估计的深度卷积神经场。在CVPR，2015年6月。七个[25] Miaomiao Liu，Mathieu Salzmann，and Xuming He.从单个图像进行离散-连续深度估计在CVPR，2014年6月。七个[26] 劳尔·穆-阿塔尔和胡安·D·塔尔·多斯. Orb-slam2：一个开源的单目、立体和rgb-d相机系统。IEEE Transactions onRobotics，33（5）：1255-1262，2017。一、二[27] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：命令式的高性能深度学习库。NeurIPS，第8024-8035页。2019.五个[28] Rene 'Ranftl，Katrin Lasinger，David Hafner，KonradSchindler和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv：1907.01341，2019。二、八[29] Anirban Roy和Sinisa Todorovic使用神经回归森林进行单目深度估计。在CVPR，2016年6月。7[30] Ashutosh Saxena，Min Sun和Andrew Y Ng。Make3d：从单个静态图像学习3D场景结构TPAMI，31（5）：824-840，2008. 二、七[31] Johannes L Schonb

下载后可阅读完整内容，剩余1页未读，立即下载