循环单目深度的无监督学习方法及其在动态场景中的应用

10 浏览量更新于2023-10-25 收藏 16.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16750RM-Depth：动态场景中无监督学习的循环单目深度*0Tak-Wai HuiH-1研究0eetwhui@gmail.com0摘要0无监督方法在单目深度估计上显示出了有希望的结果。然而，训练数据必须在没有移动物体的场景中捕获。为了提高准确性，最近的方法倾向于增加模型参数。本文提出了一种无监督学习框架，用于联合预测单目深度和包括移动物体和相机运动在内的完整3D运动。（1）采用循环调制单元来自适应地和迭代地融合编码器和解码器特征。这提高了单幅图像深度推断的性能，而不会过度消耗模型参数。（2）不使用单一滤波器集进行上采样，而是设计了多组滤波器用于残差上采样。这有助于学习保持边缘的滤波器，并提高了性能。（3）使用基于配准的网络来估计移动物体的运动场，而不使用语义先验。这打破了场景刚性的要求，并允许使用一般的视频进行无监督学习。运动场还通过一种考虑异常值的训练损失进行正则化。尽管深度模型在测试时只使用单个图像和2.97M个参数，但在KITTI和Cityscapes基准测试中取得了最先进的结果。01. 引言0视觉感知是人类理解和感知世界的重要能力。因此，关于场景几何的研究工作已经吸引了很多关注，持续了几十年。这促进了技术在许多应用中的部署，如自动驾驶车辆、交互式机器人、虚拟和增强现实等。场景几何问题通常涉及从一个图像中估计深度、相机运动1和光流。0* 除非与作者事先达成安排，否则本研究工作不得用于商业用途。1本文中的词语“自我运动”、“相机运动”和“姿态”可以互换使用。0图像序列。上述计算机视觉任务通常一起进行恢复，因为它们通过几何约束相互耦合[34，44]。与三角测量不同，单幅图像深度估计本质上是不适定的，因为沿着每条光线朝相机中心有多个可能的3D点。卷积神经网络已经展示了利用捕获图像与相应场景深度之间关系的能力[9，25]。最近的无监督方法[13，14，34，44，47]比早期的监督方法取得了更好的性能。它们的成功主要依赖于运动结构的使用。给定至少两个图像，从图像生成的新视图将与成对的另一个图像一致，如果深度和相机运动被正确估计。这严格要求训练数据在没有移动物体的静态场景中捕获，即场景刚性。为了摆脱这个要求，通常采用立体图像序列[13]和遮挡动态物体[34，47]。最近的工作倾向于设计多图像方法[42]，大量的模型参数[16]和语义先验[39]来提高深度准确性。本文提出了一种无监督学习的循环单目深度框架，称为RM-Depth，用于联合预测深度、相机运动和移动物体的运动场。RM-Depth既不需要大量的参数，也不需要语义先验。特别地，训练时使用图像对，而在测试时只使用单个图像进行深度推断。本文的贡献总结如下：01. 循环调制单元 -编码器和解码器之间的特征图融合通常出现在自顶向下的方法中[14,35]。我提出通过自适应调制编码器特征，使用解码器的隐藏状态来迭代地改善融合。这进一步提高了单图像深度推断。02. 残差上采样 - 传统上，使用一组滤波器对特征图进行上采样[37,45]。我提出使用多组滤波器，使得每组滤波器专门用于上采样某些频谱分量。这有效地改善了沿边缘的上采样。16760它们中的一组专门用于上采样一些频谱分量。这有效地改善了沿边缘的上采样。03. 移动物体的运动场 -除了相机运动外，我提出通过一种变形方法在粗到精的框架中估计移动物体的三维运动场。这打破了场景刚性假设，并允许使用一般的视频进行无监督学习。通过引入一个异常值感知的正则化损失，进一步改善了运动场的无监督学习。0通过以上创新，RM-Depth在KITTI和Cityscapes基准测试中取得了最先进的结果。深度模型仅需要2.97M个参数，而与Monodepth2[14]和PackNet[16]相比，模型大小分别减少了4.8倍和44倍。代码和训练模型已公开在https://github.com/twhui/RM-Depth。02. 相关工作02.1. 无监督深度和自我运动的联合学习0单图像深度。Zhou等人[47]的开创性工作提出了一种用于估计深度和自我运动的无监督学习框架。基于[47]，Godard等人[14]引入了逐像素最小重投影损失、静止像素的自动遮罩和全尺度估计损失，以改进无监督训练。Mahjourian等人[31]和Bian等人[3]分别探索了连续帧之间的3D点云和深度图的一致性。Wang等人[40]设计了使用直接视觉里程计进行姿态估计而不需要额外的姿态网络。最近，Guizilini等人[16]利用3D卷积来打包和解包特征图。Johnston等人[22]提出使用自注意力和视差体积来估计深度图。Poggi等人[33]在无监督训练中引入了深度不确定性。与之前的工作不同，RM-Depth引入了循环调制单元（RMU）和深度模型中的残差上采样。所提出的组件提高了性能，而深度模型只需要非常少的参数（2.97M）。先前的工作通过估计场景深度的投影来恢复刚性流2，但是场景中的移动物体无法考虑。Yin等人[44]提出使用网络级联来估计考虑移动物体的残差流。Ranjan等人[34]提出了一个框架，促进深度、自我运动和光流的协同训练。02 光流的一个组成部分，仅由相机运动引起，而不考虑场景中的移动物体。0他们的方法可以将场景分割为静态区域和移动区域。Chen等人[5]使用一个分离的网络恢复光流，并开发了一个在线细化方案。与之前的工作不同，RM-Depth恢复了相机和物体的运动。在无监督深度模型的训练中，使用的是全流而不是刚性流，这消除了对场景刚性的要求。多图像深度。Wang等人[41]利用卷积长短期记忆（LSTM）中的连续帧之间的时间相关性。尽管使用了一个10帧序列，但它的性能与Monodepth2[14]相当。Li等人[28]利用自包含光流网络产生的编码特征作为每个LSTM的输入。然而，他们的模型需要15个LSTM模块进行适当的深度推断。Li等人[27]提出了一种自监督在线元学习方法，使用LSTM来聚合过去的时空信息。Watson等人[42]提出了一种基于代价体积的方法来融合时间信息。与LSTM或GRU[6]不同，所提出的RMU使用来自单个静态图像的特征作为输入，而不是来自时变图像序列的特征。02.2. 深度、自我运动和物体运动的无监督联合学习0视频数据通常是在涉及动态物体的场景中捕获的。因此，场景刚性的假设被违反了。大多数先前的工作依赖于额外的分割标签来辅助无监督学习物体运动。Casser等人[4]利用语义先验估计每个动态物体的3D运动，使用与自我运动相似的网络。Gordon等人[15]提出了一个用于估计移动物体运动场的网络。预先计算的定位移动物体位置的分割掩码对运动场进行了规则化。Li等人[27]通过引入稀疏性损失消除了[15]中使用的语义先验。Gao等人提出了注意力CNN块，以在没有语义先验的情况下分离相机和物体运动[10]，但他们的实验结果仅限于KITTI数据集。Lee等人[26]提出了一种实例感知的光度和几何一致性损失，为静态和移动物体区域施加了自我监督信号。RM-Depth在不使用语义先验的情况下估计了移动物体的运动场。提出了一种基于变形的网络用于运动场估计。进一步利用了一种鲁棒性训练损失来规范运动场。由于所提出的创新，RM-Depth的性能优于先前的工作。02.3. 使用立体训练数据进行无监督深度学习0场景刚性要求限制了无监督方法只能使用单目数据，而不涉及动态的内容。̸16770图1.无监督学习框架概述。为简洁起见，仅显示了3级设计。给定图像序列{I1，I2，I3}，将It=2定义为目标图像，其余{Is=1，3}定义为源图像。深度图和运动场在粗到精的框架中进行估计。对于运动网络，根据由运动场Tobj，相机姿态(Rcam，tcam)和场景深度Dt计算的图像投影的Eq.(2)，将{Is}向It进行变形。对于深度网络，编码器和解码器特征通过RMU自适应和迭代融合。深度和运动网络的更多细节分别在第3.2节和第3.4节中介绍。0场景中的物体。由于立体相机的左右图像是同时捕获的，立体数据为无监督训练提供了另一种选择。Garg等人[11]提出使用每个立体对中图像之间的光度差异来控制单眼深度估计的学习。Godard等人[13]探索了相对于左右图像产生的视差之间的一致性。Zhan等人[46]设计了立体图像序列中的时间和空间线索，以改善无监督训练。Yang等人[43]对训练图像的光照进行对齐，并对输入图像的像素光度不确定性进行建模。03. 单张图像的深度0通过同时训练两个网络来实现对单张图像深度估计的无监督学习[14,47]。主要（深度）网络以图像作为输入，并逐渐预测场景深度（按比例因子）并增加空间分辨率。次要（姿态）网络估计每个图像对的相机运动。给定图像序列中的源帧通过将计算得到的3D点云投影到目标帧上进行变形。目标帧与每个合成帧之间的差异被用作无监督训练的驱动力。本文提出了一种无监督学习框架RM-Depth，用于在一般场景中联合学习深度、自我运动和物体运动。学习框架的概述如图1所示。更详细地说，深度网络利用循环调制单元（RMU）来自适应地和迭代地组合编码器和解码器特征（第3.2节）。残差上采样（第3.3节）用于促进边缘感知滤波器的学习。此外，还恢复了移动物体的3D运动场（第3.4节）。正如第4节所示，所提出的创新使得深度准确性得到了改善，尽管没有使用任何分割标签。03.1. 准备工作0透视投影。将O表示为与图像I关联的相机坐标系，Ω �R2表示图像域。假设D：Ω → R是深度图。点x ∈Ω在I上是从3D点p ∈R3的图像投影。一旦给定D(x)（即p的z坐标），可以通过反投影恢复p，如下所示：0p = D(x)K − 1 � x 1 � �，(1)0其中K表示3×3的相机内参矩阵。新视角合成。假设给定一个图像序列{I1, I2, ...,IN}。以下，下标t和s将用于表示在目标视角和源视角中定义的变量。设想I t 是目标视角的一帧，其余的是源视角的Is（1 ≤ s ≤ N，s ≠ t）。从O t 到O s的变换由3×3的旋转矩阵R和3D平移向量t控制。使用式（1），p t 在I s 上的图像投影由以下公式给出：� x s 1 � � � = K �R D t (x t) K − 1 � x t 1 � � + t �，(2)0其中“� =”表示相等，但可能相差一个正比例因子，D t是目标视角的深度图。I s 被向I t 扭曲，形成一个新视角I s→ t，其视觉位移为x s − x t。03.2. 循环深度网络0自顶向下的方法[14,47]通常采用U-Net架构[35]进行深度推断。图2a提供了网络架构的概述。上采样的解码器特征x与相应的编码器特征F通过连接后的卷积层进行融合。特征融合可以表示为：h =θ(conv([x, F]))，(3)zk = σ(conv([hk−1, F′k])),(5a)hk = (1 − zk) ⊙ hk−1 + zk ⊙ F′k,(5b)h0 = tanh(convs(F)).(6)ˆDt = σ�convs(hk)�,(7a)Dt = Dmin(1 − ˆDt) + Dmax ˆDt.(7b)x′ = θ�f(x; W)�,(8)16780图2. 不同深度模型的网络架构：（a）传统方法[14,47]和（b）基于RMU的模型。为了方便表示，图中只展示了3层设计。0其中“θ”和“conv”分别表示激活函数和卷积层。由于卷积核是固定的，融合无法适应不同的输入。这限制了深度推断的性能。希望使特征融合具有自适应性。直观地说，解码器特征可以与调制的编码器特征相结合。为此，根据解码器的当前隐藏状态，自适应地转换编码器特征。这等效于改变编码器的前向传播行为，尽管使用相同的输入。此外，循环卷积神经网络已被证明对提高网络性能有用[23]。在这些启示下，为深度网络设计了循环调制单元（RMU）。图2b提供了所提出网络的概述。这种设计可以提高深度准确性（第4节）。以下讨论金字塔级别的操作时，相同的操作适用于其他级别。循环调制单元（RMU）。RMU内部有两个组件，即调制和更新。图3显示了详细信息。在迭代步骤k中，编码器特征F根据先前融合特征hk-1（即迭代k-1的隐藏状态）通过一个包含权重和偏置项（w k，b k）的仿射变换进行自适应调制（调制阶段）：0w k, b k = convs([hk-1, F]), (4a)0F' k = tanh(conv(w k ⊙ F + b k))，(4b)0其中“convs”和“⊙”分别表示卷积和Hadamard乘积。式（4a）可以重写为残差形式，即conv(conv(hk-1) +conv(F))。由于F是固定的，第二项可以预先计算以减少计算量。03 这里可能还有其他选择的调制函数，选择仿射变换是因为其计算复杂度较低。0图3. RMU的详细信息。在第 k 次迭代中，编码器特征 F被调制为 F ′ k 。新的隐藏状态 h k 是根据逐元素自适应标量 z k 在 F ′ k 和上一个隐藏状态 h k − 1 之间的加权平均值。0计算复杂度。将上一个隐藏状态 h k − 1与调制的编码器特征 F ′ k结合起来进行特征融合，根据逐元素自适应标量 z k，具体如下所示（更新阶段）：0其中“ σ ”表示sigmoid函数。特别地，Eq. ( 3)中的传统特征融合是静态的，而提出的特征融合是动态且迭代的。与GRU [ 6]相比，RMU使用来自单个静态图像的特征作为输入，而不是来自时间变化的图像序列的特征。GRU使用一个依赖于当前时间输入的额外内存状态进行更新。整体而言，GRU使用两个sigmoid门，而RMU使用一个sigmoid门。隐藏状态初始化。将编码器顶层生成的 F 转换为第一个隐藏状态 h 0，具体如下所示：0深度推断。深度图 D t是从最后一个隐藏状态推断出来的。为了防止在反向传播过程中出现数值问题，将 D t 限制在 [ D min , D max ] 范围内，具体如下所示：03.3. 残差上采样0在自顶向下的方法中，从低分辨率级别到高分辨率级别时需要上采样解码器特征[ 14 , 47 ]。通过上采样函数 f（如反卷积[ 45 ]或子像素卷积[ 37 ]），将特征图 x上采样为 x ′ 。该过程可以表示为：x′ = θ�ifi(x; Wi) .(9)x′ = θ fl(conv1×1(x)) + fh(x; Wh) ,(10)Tobj,l = convs([T ↑2obj,l+1, Fl(It, Is→t)]) + T ↑2obj,l+1, (11)̸16790其中“ θ”表示激活函数。由于特征图（如彩色图像）由不同的光谱分量组成，单个滤波器 W不足以在所有区域上表现良好。希望在不同的区域上使用不同的上采样滤波器（平坦区域：平均滤波器，边缘区域：高通滤波器）。为此，提出了一种通用的上采样层，使用多个滤波器 { W i } ，具体如下所示：0特别地，每个上采样操作符 f i都被限制在一些光谱分量上。在应用激活函数之前，将各个上采样特征图相加。为了在准确性和速度之间取得平衡，RM-Depth仅使用两种类型的上采样操作符，即低频 f l和高频 f h ，具体如下所示：0其中使用1×1卷积将 x 压缩以匹配 f h ( ∙ )的通道维度。选择双线性上采样作为 f l 。与Eq. ( 8)相比，模型参数或计算开销没有额外增加。03.4. 物体运动0无监督学习深度依赖于新视图合成，如第3.1节所述。以前的工作倾向于联合恢复深度和相机运动，但忽略了移动物体的运动[ 14 , 16 ]。因此，由Eq. ( 2)计算得到的视觉位移只是由相机运动推断得到的完整光流（所谓的刚性光流）的一个组成部分。新视图没有正确合成，反过来影响了无监督训练。当不考虑物体运动时，移动物体中常常存在伪影（见第4.2节的图6）。为了解决这个问题，必须同时恢复相机和物体运动。由于在街景场景中很少有物体以大幅度自旋，可以假设移动物体的旋转运动几乎为零。所提出的运动网络的概述如图4所示。下面介绍更多细节。基于配准的运动场推断。移动物体的运动以运动场 T obj： Ω → R 3的形式在粗到细的框架中估计，如图4所示。将运动场 Tobj 与相机运动 t cam 结合形成完整的运动场。源图像 { Is } 根据完整光流 u full = x s − x t 向目标图像 I t进行配准，其中 x s 由Eq. ( 2)计算得到。对于初始化，通过将 T obj 设置为 0 ，将 { Is } 根据刚性光流向 I t 进行配准。将配准后的源图像 { I s→ t } 与目标图像 I t 一起输入运动编码器，生成一个新的0图4.所提出的运动网络的架构。编码器由姿态和对象运动解码器共享。通过新颖的视图合成（见第3.4节），对象运动场Tobj在多尺度框架中进行了改进。0一组多尺度编码器特征{F(I t , I s → t)}。由于{I s}已经向I t进行了扭曲，编码器特征更加与I t对齐。这反过来使得运动场的生成更加容易，受到了LiteFlowNet系列[19-21]中提出的特征扭曲的启发。对象运动解码器通过以下方式利用与同一尺度的编码器特征相结合来改进先前的估计Tobj,l +1：0这里，“convs”表示几个卷积层，(∙)↑2表示2倍上采样操作符。特别地，编码器特征被用于运动细化。这与之前的工作[15,27]使用固定的编码器特征不同。异常值感知正则化损失。运动场通常是稀疏的，因为移动物体并不完全占据场景，即当图像位置x不受非刚性运动影响时，Tobj(x) =0。这一观察结果可以对无监督训练施加约束，并进而提高深度准确性。通过将完整光流ufull（使用深度、相机和对象运动计算的，通过公式（2））与刚性光流urig（仅使用深度和相机运动计算的）进行比较，构建了运动掩码M。如果场景中除了移动的相机之外没有其他移动物体，则u full = u rig。否则，u full ≠ urig。这种动机使我们能够使用以下条件分割受非刚性运动影响的图像位置：0M(x) = [∥u full − u rig∥2 < α]，(12)0这里，[∙]是Iverson括号。采用阈值法来通过设置α =0.5来抑制异常值。当图像位置x受非刚性运动影响时，M(x)= 0。g�M · Tobj�,(13)16800否则，M(x) =1。根据运动掩码，提出了一种基于异常值感知的运动场正则化损失Lreg0Lreg(Tobj) = �0这里，g(∙)选择为稀疏函数[27]，因为它比L1范数更鼓励稀疏性。Lreg有助于运动网络通过抑制刚性区域中不需要的对象运动的增长来正确学习Tobj。04. 实验04.1. 实现细节0网络架构。深度和运动网络的概述可以参考图2和图4。采用了修改后的6级ResNet18[17]作为编码器，其中在第1级添加了一个额外的卷积层，并且去除了分类头部。特别地，深度编码器中不使用前两级。对于自我运动网络，解码器采用了[14]中的方法。其他未提及的部分是自定义设计的。级别4分配了9个RMU，其余级别分配了2个RMU。为了最大化不同尺度的滤波器多样性，不同级别之间不共享RMU。训练细节。系统使用TensorFlow[1]实现。与[14]相同的数据增强方法应用于训练数据，即50％的水平翻转，随机亮度、对比度、饱和度和色调变化。根据[47]，每个图像序列的长度固定为3帧。中心帧被视为目标视图。深度和运动网络使用Adam[24]进行联合训练，批量大小为16到24。为了解决静止像素和遮挡问题，采用了自动遮罩和逐像素最小投影损失[14]。深度图和运动场通过边缘感知平滑损失[14]进行正则化，同时在对象运动场上进一步施加了提出的异常值感知正则化损失。还采用了自监督[38]，但没有应用裁剪。所有损失权重保持与建议值相同。整个网络训练25个epochs。前15个epochs的学习率为1e-4，剩余epochs的学习率降低为1e-5。所有编码器都在ImageNet[36]上进行了预训练。其他具体的训练细节可在代码包中找到。数据集。系统在KITTI[12]和Cityscapes[7]上进行训练和验证。图像分辨率设置为640×192。对于KITTI，使用了Eigen等人[8]的数据划分，排除了所有静态和评估帧，如Zhou等人[47]所述。对于Cityscapes，使用了标准的训练集划分，并且没有忽略任何静态帧。评估时使用了[42]中定义的裁剪方案“A”。04.2. 结果0RM-Depth与之前的最先进方法进行了比较，它们也是在单目图像序列上进行训练，并进行单幅图像深度推断，除非另有说明。深度图被限制在80m[13]，并使用中位数缩放[47]进行归一化。其他实验结果（与未见数据集的泛化、视觉里程计等相关）可在补充材料[18]中找到。0深度（KITTI）。如表1的上半部分所示，RM-Depth优于其他方法。图5提供了估计的示例。可以观察到，与GeoNet[44]相比，RM-Depth在恢复细小结构和移动物体方面更优秀。Monodepth2[14]无法正确预测具有反射表面的物体的深度值（例如第一个示例中的道路上的火车和第三个示例中的白色汽车），而RM-Depth则没有这些缺陷。PackNet[16]和RM-Depth能够恢复具有明显不连续性的深度图。然而，PackNet无法正确估计第二个示例中的移动汽车。0深度（Cityscapes）。这个数据集更具挑战性，因为它涉及到比KITTI更多的移动物体。只有少数几个研究报告了在Cityscapes上的评估结果。表1的下半部分总结了结果。尽管RM-Depth不使用分割标签，但它的性能优于之前的工作。图6提供了可视化比较。当忽略物体运动时，移动物体上经常出现空洞（即深度值趋近于最大值）。0物体运动和分割。遵循[34]的协议，对KITTI2015数据集[32]进行了运动分割评估。结果总结在表2中。RM-Depth的性能与Distilled Semantics[39]相当，而RM-Depth既不使用语义标签进行训练，也不使用语义网络。图7显示了运动场和分割预测的示例。0光流。使用深度、相机和物体运动计算，公式（2）给出了计算方法。如表3所示，当考虑物体运动时，AEE得到了改善。性能是合理的，因为没有构建独立的光流网络。图7显示了光流的示例。0模型大小和运行时间。如图8所示，RM-Depth的深度模型只需要2.97M个参数，而且即使对于那些具有语义的模型，它也优于之前的工作。在配备GeForce GTX1080的计算机上，RM-Depth在单个深度预测上以40FPS运行。04.3. 消融研究0通过评估RM-Depth的不同变体来研究所提出组件的贡献。由于KITTI上的移动物体有限，与物体运动相关的提出组件在AbsRelSqRelRMSRMSlogδ <1.25δ <1.252δ <1.25316810表1.KITTI数据集（K）上的单目深度结果，由Eigen等人[8]的测试集和Cityscapes数据集（CS）的测试集组成。需要明确语义数据的模型已经突出显示。每个类别中最好的结果以粗体显示，第二好的结果以下划线显示。0方法语义数据集误差（较低为更好）准确性（较高为更好）0Zhou等人[47] K 0.208 1.768 6.856 0.283 0.678 0.885 0.957 GeoNet [44] K 0.164 1.303 6.090 0.247 0.765 0.919 0.968Mahjourian等人[31] K 0.163 1.240 6.220 0.250 0.762 0.916 0.968 GeoNet（ResNet）[44] K 0.155 1.296 5.857 0.233 0.793 0.931 0.973DDVO [40] K 0.151 1.257 5.583 0.228 0.810 0.936 0.974 Li等人[28] K 0.150 1.127 5.564 0.229 0.823 0.936 0.974 DF-Net [48] K 0.1501.124 5.507 0.223 0.806 0.933 0.973 Pilzer等人[2] K 0.142 1.231 5.785 0.239 0.795 0.924 0.968 EPC++ [29] K 0.141 1.029 5.350 0.2160.816 0.941 0.976 Struct2Depth [4] • K 0.141 1.026 5.291 0.215 0.816 0.945 0.979 CC [34] K 0.140 1.070 5.326 0.217 0.826 0.941 0.975Bian等人[3] K 0.137 1.089 5.439 0.217 0.830 0.942 0.975 GLNet [5] K 0.135 1.070 5.230 0.210 0.841 0.948 0.980 Li等人[27] • K 0.1300.950 5.138 0.209 0.843 0.948 0.978 Gordon等人[15] • K 0.128 0.959 5.230 0.212 0.845 0.947 0.976 Distilled Semantics [39] • K 0.1260.835 4.937 0.199 0.844 0.953 0.982 Monodepth2 [14] K 0.115 0.882 4.701 0.190 0.879 0.961 0.9820PackNet[16] K 0.111 0.785 4.601 0.189 0.878 0.960 0.9820PackNet[16]（弱速度支持）K 0.111 0.829 4.788 0.199 0.864 0.954 0.980 Johnston等人[22] K 0.111 0.941 4.817 0.189 0.885 0.961 0.981Monodepth2- Boot + Self[33] K 0.111 0.826 4.667 0.184 0.880 0.961 0.983 Monodepth2- Snap + Log[33] K 0.117 0.900 4.838 0.1920.873 0.958 0.981 Lee等人[26] • K 0.112 0.777 4.772 0.191 0.872 0.959 0.9820Gao等人[10] K 0.112 0.866 4.693 0.189 0.881 0.961 0.981 RM-Depth K 0.108 0.710 4.513 0.183 0.884 0.964 0.9830Struct2Depth[4] • CS 0.145 1.737 7.280 0.205 0.813 0.942 0.976 GLNet[5]（在线优化）CS 0.129 1.044 5.361 0.212 0.843 0.938 0.976Gordon等人[15] • CS 0.127 1.330 6.960 0.195 0.830 0.947 0.981 Li等人[27] CS 0.119 1.290 6.980 0.190 0.846 0.952 0.982 Lee等人[26] •CS 0.111 1.158 6.437 0.182 0.868 0.961 0.9830RM-Depth CS 0.100 0.839 5.774 0.154 0.895 0.976 0.9930RGB图像0GeoNet[44]0Monodepth2[14]0PackNet[16]0RM-Depth0图5. KITTI上深度图预测的示例。0RGB图像0无物体运动0Struct2Depth[4]0Gordon等人[15]0RM-Depth0图6. Cityscapes上深度图预测的示例。0表2. KITTI 2015数据集上的运动分割结果。0方法语义交并比（IoU）0整体静止汽车移动汽车0EPC++[29] 50.00 - - CC[34] • 56.94 55.77 58.11 DS[39] • 62.66 58.42 66.89DS（语义网络）[39] • 63.98 64.16 63.79 RM-Depth 64.48 66.91 62.040Cityscapes。所有结果都是在测试集上评估，并按照标准做法限制在80m内。0RMU和残差上采样。如表4所示，完整模型在性能上优于基准模型。所提出的组件对提高深度准确性是有效的。通过移除残差上采样或0表3. KITTI 2015数据集上的平均端点误差。0深度0蒸馏语义（自我运动）[39] 13.50 51.22% 蒸馏语义[39] • 11.61 25.78%GeoNet（DirFlowNetS）[44] • 12.21 - RM-Depth（自我运动）13.1444.17% RM-Depth（完整运动）11.77 41.62%0分割掩模Segmentation maskFigure 7. Examples of depth, object motion ﬁeld, segmentation mask, and optical ﬂow predictions on the KITTI 2015 dataset.0501000.110.130.1416820RGB图像0运动场0光流0RM-Depth0HR-Depth[30] PackNet[16]Lee等人[26] Monodepth2[14]0Lite-HR-Depth[30]0蒸馏语义[39]Gordon等人[15]0ian等人[3]0CC[34] Struct2Depth[4]0模型参数数量（M）0误差（AbsRel）0图8.KITTI数据集上深度模型的误差与模型参数数量的关系。红点表示需要语义的模型。0表4. RM-Depth在KITTI上的消融研究。0模型误差（越低越好）0AbsRel SqRel RMS RMSlog0完整 0.1081 0.7100 4.5138 0.1831 无残差上采样 0.1097 0.73134.5269 0.1839 无RMU 0.1167 0.8186 4.7100 0.1895 无调制 0.11650.7546 4.6623 0.19100基准模型（无我的贡献）0.1187 0.8382 4.7894 0.19270RGB图像0传统方法[37]0残差上采样0图9.使用不同上采样方法的深度图预测。0RMU，深度误差增加。由于残差上采样，深度边缘的分散性较小，与使用传统上采样[37]的结果相比，如图9所示。RMU由调制和更新部分组成。当去除调制部分时，深度误差增加。这表明深度改进主要受益于调制，因为它自适应地修改编码器的前馈行为。物体运动。在表5中总结的各种变体中，完整模型表现最好。0表5.在Cityscapes上对RM-Depth进行的消融研究。0模型误差（越低越好）0完整模型 0.1002 0.8387 5.7742 0.1540 无配准 0.1022 0.9847 5.92720.1563 无异常值感知的正则化 0.1052 0.9291 6.1911 0.1638使用稀疏性损失[27] 0.1108 1.1254 7.4494 0.18250基线（无我的贡献） 0.1238 1.1508 6.5320 0.17800表6. KITTI上RMUs数量的消融研究。0RMUs数量误差（越低越好）运行时间03（L4: 1，L3: 1，L2: 1） 0.1161 0.7713 4.6799 0.1906 14.99 6（L4:2，L3: 2，L2: 2） 0.1135 0.7490 4.6128 0.1877 20.40 8（L4: 4，L3:2，L2: 2） 0.1098 0.7251 4.5535 0.1845 22.07 13（L4: 9，L3: 2，L2:2） 0.1081 0.7100 4.5138 0.1831 24.780在非刚性场景中，这些组件对提高深度准确性是有效的。当禁用配准时，源图像不会向目标图像进行配准。图像对之间存在较大的“视觉差距”，因此深度误差增加。通过禁用异常值感知的正则化，深度准确性会下降。与使用稀疏性损失[27]的变体相比，完整模型的性能要好得多。当禁用所有提出的组件时，经验表明训练在6个时期后发散。如图6所示，移动物体上经常出现空洞。0RMUs数量。在牺牲准确性和计算复杂性的情况下，对于2-3级别，最多分配2个RMUs。如表6所示，随着RMUs数量的增加，深度准确性和运行时间增加。结论0RM-Depth是一种无监督学习框架，用于单幅图像深度估计。完整的运动包括相机和物体运动，用于辅助无监督学习。这打破了场景刚性的要求。深度网络利用循环调制单元进行动态和迭代特征融合。使用残差上采样可以实现不同光谱分量的特定上采样。对于运动网络，已经设计了一种基于配准的方法来恢复物体运动。还利用了一种异常值感知的正则化损失。通过提出的创新，深度网络在只需要2.97M个模型参数的情况下取得了有希望的结果。16830参考文献0[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C.Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghe-mawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R.Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Man´e, R.Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens,B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V.Vasudevan, F. Vi´egas, O. Vinyals, P. Warden, M. Wattenberg,M. Wicke, Y. Yu, and X. Zheng.TensorFlow：异构系统上的大规模机器学习，2015年。 60[2] S. Lathuili`ere Andrea Pilzer and, N. Sebe, and E. Ricci.通过利用循环不一致性和知识蒸馏进行无监督单目深度估计的改进和蒸馏。CVPR，页9768-9777，2019年。 70[3] J.-W. Bian, Z. Li, N. Wang, H. Zhan, C. Shen, M.-M. Cheng,and I. Reid.从单目视频中无监督地学习尺度一致的深度和自运动。NeurIPS，2019年。2，7，80[4] V. Casser, S. Pirk, R. Mahjourian, and A. Angelova.无传感器的深度预测：利用结构进行无监督学习从单目视频中。AAAI，页8001-8008，2019年。2，7，80[5] Y. Chen, C. Schmid, and C. Sminchisescu.单目视频中具有几何约束的自监督学习连接光流、深度和相机。ICCV，页7063-7072，2019年。2，70[6] K. Cho, B. V. Merri ´ ’enboer, D. Bahdanau, and Y. Bengio.关于神经机器翻译性质的研究：编码器-解码器方法。arXiv:1409.1259，2014年。2，40[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,R. Benenson, U. Franke, S. Roth, and B. Schiele.用于语义城市场景理解的Cityscape

下载后可阅读完整内容，剩余1页未读，立即下载