综述：利用仿射、垂直池化和标记增强的卷积神经网络进行单目深度估计的研究进展

193 浏览量更新于2023-10-13 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

利用仿射、垂直池化和标记增强的Yukang Gan1，2，Xiangyu Xu1，3，Wenxiu Sun1，and Liang Lin1，21商汤科技2中山大学3清华大学{甘玉康，徐翔宇，孙文秀}@linliang@ieee.org抽象。利用卷积神经网络（CNN）进行单目深度估计已经取得了重大进展。虽然绝对特征，如边缘和纹理，可以有效地提取，相邻像素的深度约束，即相对特征，已被最近的基于CNN的方法大多忽略。为了克服这一限制，我们明确地建模不同的图像位置与亲和层的关系，并结合绝对和相对功能的端到端的网络。此外，我们考虑了主要深度变化位于垂直方向的先验知识，因此，这是有益的以捕获用于精确深度估计的长距离垂直特征。在该算法中，我们引入垂直池聚合图像特征垂直，以提高深度精度。此外，由于激光雷达深度地面实况相当稀疏，因此我们增强深度标签通过使用以左右图像对作为输入的现成立体匹配方法来生成高质量的密集深度图。我们还将多尺度结构集成到我们的网络中，以获得对图像深度的全局理解，并利用残差学习来帮助深度细化。我们证明，该算法表现良好，对国家的最先进的方法，定性和定量的KITTI驾驶数据集。关键词：单目深度;垂直聚集1介绍图像深度估计是计算机视觉中的一个基本问题，在机器人、自动驾驶汽车、场景理解和三维重建等领域有着广泛的应用。然而，大多数关于3D视觉的工作都集中在具有多个观察结果的场景上，例如多个视点[22]和来自视频的图像序列[14]，这些在实际情况下并不总是可访问的因此，单目深度估计成为克服这一问题的自然选择，并且随着近年来深度学习的快速发展，在这一领域取得了实质性的改进这两位作者对这项研究的贡献相等2Y. 甘，X.Xu，W.太阳湖林具体地，大多数现有技术方法[7，12，16] 依赖于卷积神经网络（CNN），其学习一组卷积核以提取用于单目深度估计的局部特征。在网络的接收场内计算每个像素的学习深度特征它是深度推断的绝对线索，表示以像素为中心的图像块的外观，例如边缘和纹理。虽然这些绝对特征的每个图像位置的卷积层是相当有效的，在现有的算法，它忽略了相邻像素之间的深度约束直观地，具有相似外观的相邻图像位置应该具有接近的深度，而具有不同外观的相邻图像位置更可能具有相当大的深度变化。因此，不同像素之间的关系，即亲和力，是深度估计的非常重要的特征，而基于深度学习的单目深度算法大多忽略了这些特征。这些亲和度与直接用卷积运算提取的绝对特征不同。它们是描述不同图像位置的外观之间的相似性的相对特征。并且明确地考虑这些相对特征可能潜在地帮助深度图推断。事实上，亲和度已广泛用于图像处理方法中，例如双边滤波器[25]，其将空间距离和颜色强度差异作为边缘保留滤波的相对特征。与我们的工作更相关的是，在条件随机场（CRF）框架[23]中，仿射也被用于估计深度，其中相对深度特征被建模为从两个相邻块计算的梯度直方图之间的差异。并且相邻像素的上述深度约束由CRF中的成对势来实施。与这些方法不同的是，我们通过引入一个简单而有效的亲和层来学习提取神经网络在这一层中，我们将一对像素之间的亲和力定义为它们的绝对特征的相关性因此，一个像素的来自亲和层的相对特征是由与其周围像素的相关值组成的通过将亲和层集成到CNN中，我们可以无缝地将学习到的绝对和相对特征结合起来，以便在完全端到端的模型中进行深度估计由于只有附近的像素之间的关系是重要的深度推断，所提出的在所提出的方法中，我们只使用在最低的特征尺度的亲和力操作，以减少计算量。除了相邻像素之间的约束之外，我们还考虑深度估计中的另一个重要观察，即在垂直方向上比在水平方向上有更多的深度变化[3]。换句话说，在许多图像中，对象倾向于从底部到顶部变得更远。例如，在驾驶场景中，在图片中垂直向前延伸的道路通常离相机更远。因此，在垂直方向上捕获局部信息可能有助于精确的深度估计，这促使我们在所提出的神经网络中集成垂直特征池单目深度估计3管道细化模块上下文网络输入图像编码器深度估计深度细化输出深度编码器特征仿射层全连通深度估计器粗略深度粗略深度上次比例的要素上采样（2x）垂直合并残差估计精细深度Fig. 1. 建议的网络概述。网络是由一个深 CNN用于编码图像输入，上下文网络用于估计粗略深度，以及多尺度细化模块用于预测更准确的深度。上下文网络分别采用亲和层和全连接层来捕获相邻上下文信息和全局上下文信息。细化模块通过学习具有来自先前尺度和垂直池化的特征的残差图来逐渐上采样粗略深度为了进一步改善深度估计结果，我们通过利用左右图像对来增强来自激光雷达的稀疏与以前使用光度损失[9，16]来学习与图像深度成反比的视差的方法不同，我们采用现成的立体匹配方法来预测图像对的密集深度，然后使用预测的高质量密集结果作为辅助标签来辅助训练过程。我们对KITTI驾驶数据集进行了全面的评估，并表明该算法在定性和定量方面都优于最先进的方法。我们的贡献可以概括如下。– 我们提出了一个相邻的亲和层，以提取深度估计的相对特征– 我们建议使用垂直池聚合本地功能，以捕获长距离的垂直信息。– 我们使用立体匹配网络从左右图像对生成高质量的深度预测，以辅助稀疏激光雷达深度地面实况。– 此外，我们采用多尺度架构来获得全局上下文并学习残差图以获得更好的深度估计。CNN上下文网络4Y. 甘，X.Xu，W.太阳湖林2相关工作2.1监督深度估计。有监督的方法将单个RBG图像作为输入，并使用RGB-D相机或激光扫描仪测量的深度图作为训练的地面实况Saxena等人。 [23]提出了一种基于学习的方法来预测深度图作为输入图像的函数他们采用马尔可夫随机场（MRF），结合多尺度手工制作的纹理特征，在个别点的深度，以及在不同点的深度之间的关系模型。[23]后来扩展到称为Make3D [24]的基于块的模型，该模型首先使用MRF来预测过分割块的平面参数，然后估计这些平面的3D位置和方向。我们还模拟了不同点的深度之间的关系。但我们不是依靠手工制作的特征，而是将一个相关操作集成到深度神经网络中，以获得更鲁棒和更一般的表示。深度学习在许多应用中取得了有希望的结果[12，3，28，29]。许多最近的作品[7，6，27]利用强大的卷积神经网络（CNN）来学习用于单目深度估计的图像特征。本征等等人[7，6]采用多尺度深度网络来预测来自单个图像的深度。他们首先基于整个图像预测粗略的全局深度图，然后使用堆叠神经网络来细化粗略的预测。本文主要并采用多尺度策略进行深度估计。但是我们只在最粗糙的级别预测深度图，然后学习预测残差，这有助于改进估计。Li等人。 [18]还使用DCNN模型来学习从图像块到超像素级深度值的映射。然后使用分层CRF将估计的超像素深度细化到像素级。此外，有几种监督方法采用不同的技术，例如从示例图像的深度转移[15，21]，结合语义信息[20，17]，以及将深度估计公式化为逐像素分类任务[2]。2.2无监督深度估计最近，几项工作尝试训练单目深度预测模型以用于预测深度。- 在训练时不需要地面实况深度的无监督方式。Garg等人。 [9]提出了一种编码器-解码器架构，该架构针对图像对齐丢失的单个图像深度估计进行训练。该方法在训练时只需要一对图像，即源和目标。获得在图像对准损失的情况下，扭曲目标图像以使用预测深度重构源图像。Godard等人 [12]通过强制相对于左图像和右图像产生的视差之间的一致性来扩展[9]。除了图像重建损失外，该方法还采用了外观匹配损失、视差平滑损失和左右一致性损失来产生更精确的视差图。Xie等人。 [26]提出了一种新方法，该方法试图在给定左视图时合成右视图而不是直接单目深度估计5通过对视差值的回归，得到不同视差水平的概率图。然后，利用选择层来使用这些概率图和给定的左视图渲染右视图。整个流水线也在图像重建损失上进行训练。与上述使用立体图像训练的方法不同，Zhou等人。 [30]提出在非结构化视频序列上训练无监督学习框架。它们采用深度CNN和姿势CNN来同时估计单目深度和相机运动。使用所计算的深度和姿态将附近视图扭曲到目标视图以计算图像对准损失。代替使用视图合成作为监督信号，我们采用了强大的立体匹配方法[22]来从立体图像预测密集的深度图。预测的密集深度图，在我们的训练期间，使用稀疏的velodyne数据作为地面实况2.3半/弱监督深度估计只有很少的工作落在单图像深度预测的半监督和弱监督训练的研究中Chen等人。 [3]提出了一种新方法，该方法使用相对深度的注释来学习预测不受约束场景中的深度图。但相对深度的注释只能提供间接信息连续的深度值。最近，Kuznietsov等人。 [16]提出使用稀疏地面实况和无监督线索来训练半监督模型。他们使用地面实况测量来解决无监督线索的模糊性，因此在训练期间不需要粗到细的图像对齐损失2.4特征相关性其他工作已经尝试在分类的背景下探索特征图中的相关性[19，8，5]。Lin等人。[19]利用双线性CNN对局部成对特征相互作用进行建模。虽然完全双线性池化的最终表示是非常高维的，但Gao等人（2005）将其描述为完全双线性池化。[8]通过两个紧凑的双线性池来降低特征维度。为了捕捉更高阶的相互作用的特征，Cui et al.[5]提出了一种内核池化方案，并将其与CNN相结合。而不是采用双线性模型来获得判别特征，我们建议模型相邻图像块之间的特征关系，以提供更多的信息，深度推断。3方法我们的框架概述如图1所示所提出的网络采用编码器-解码器架构，其中输入图像首先由深度CNN特征提取器变换并编码为绝对特征图。然后使用上下文网络来捕获具有绝对特征的相邻和全局上下文信息。具体来说，我们提出了一个亲和层模型的每个像素的局部区域内的相对特征。通过将绝对和相对特征与全连接层相结合，我们获得了全局特征，该全局特征6Y. 甘，X.Xu，W.太阳湖林图二. 由立体匹配模型生成的增强的密集深度图的示例[22]。我们使用这些深度图作为稀疏地面实况深度图的补充数据。左列包含RGB图像，而中间和右列分别示出增强的深度图和稀疏地面实况指示图像的全局布局和属性。的全局特征全连接层、来自深度编码器的绝对特征和相对特征被馈送到我们的深度估计器（多层CNN）中，以生成图像深度的初始粗略估计。同时，我们也将这些特征作为后续多尺度细化模块的初始输入。每个尺度下的细化网络由垂直聚合局部深度信息的所提出的垂直池化层和学习残差图以用于从最后一个尺度细化粗略深度估计的残差估计器组成。在残差估计器中使用来自先前尺度和所提出的垂直池化层3.1亲和性层虽然相邻像素之间的关系（即亲和力）是推断深度的非常重要的线索，但它们不能在普通CNN模型中显式表示。为了克服这一限制，我们提出了一个亲和层来学习这些线索，并结合绝对和相对特征，以获得更好的深度估计。为了简洁和有效的制定，我们定义的亲和力之间的相关性的两个图像像素的绝对特征。由于绝对特征表示图像位置的局部外观，诸如边缘和纹理，因此相关操作可以有效地对这些像素之间的外观相似性进行在数学上，该运算可以公式化为：v（x）m，n=f（x）·f（x+（m，n）]）;m，n∈[−k，k] （1）其中v（x）∈R（2k+1）×（2k+1）表示在大小为（2k+1）×（2k+1）的平方局部区域中计算的位置x的亲和度。f（X）是来自位置X处的卷积特征提取器层的绝对特征向量。其实我们单目深度估计7可以将v（x）整形为大小为1×（2k +1）2的一维向量，并且输入图像的相关特征成为（2k +1）2个特征图，其可以被馈送到随后的估计和细化层。假设输入特征图的大小为w×h×c，其中w、h和c分别是宽度、高度和通道计算相对特征需要w×h×c×（2k+1）2次乘法，计算量大。为了解决平方复杂性的问题为了减少计算量，我们只在最低的特征尺度上执行这一层（在图1的上下文网络中）。所提出的亲和层集成在CNN模型中，并与绝对特征互补，这显著有助于深度估计。3.2任务特定垂直池真实世界场景中的深度分布具有一种特殊的模式，即大部分深度变化位于垂直方向。这条路经常沿着垂直方向延伸到远处。远处的物体，如天空和山脉，更有可能位于风景图片的顶部。识别这种模式可以为精确的单图像深度估计提供有用的信息。然而，由于缺乏监督和巨大的参数空间，深度神经网络中的正常操作，例如卷积和使用平方滤波器的池化，可能无法有效地找到此类模式。此外，相对较大的平方池化层聚集了来自水平位置的太多不必要的信息，而仅考虑垂直特征更有效。在本文中，我们提出通过垂直池化层获得垂直方向上的局部上下文。垂直池化层使用大小为H×1的核的平均池化，并输出与输入特征大小相等的特征图在我们的网络中使用了具有不同内核高度的多个垂直池层来处理不同尺度的特征映射我们特别使用大小为5×1、7×1、11×1和11×1的四个核来处理尺度为S/8、S/4、S/2和S的特征图，其中S表示输入图像的分辨率。给出了垂直聚合深度信息的更详细分析第4.5节。3.3多尺度学习如图1所示，我们的模型通过一个控制器来预测一个粗略的深度图。文本网络。除了使用预览部分中提到的操作来利用本地上下文之外，我们还遵循[7]来利用完全连接的层来将对整个场景的全局理解集成到我们的网络中。将编码器和自相关层的输出特征图作为输入完全连接层的。全连通层的输出特征向量然后再整形以产生与输入图像相比分辨率为1/8给定粗深度图，我们的模型通过采用He等人提出的残差学习方案来学习细化粗深度。[13]。细化8Y. 甘，X.Xu，W.太阳湖林22模块首先以因子2对输入特征图进行上采样。残差估计器然后学习基于上采样特征、局部上下文特征和长跳跃连接低级特征来预测对应的残差信号。在不需要预测绝对深度值的情况下，细化模块可以专注于学习帮助产生准确深度图的残差。这种学习策略可以导致更小的网络和更好的收敛。在我们的模型中采用了几个细化模块来产生跨多个尺度的残差。细化过程可以被公式化为：ds=UP{ds+1}+rs0≤s≤S（2）其中ds和rs表示从全分辨率大小以2sUP{·}表示2×上采样操作。我们监督跨S+ 1尺度的估计深度图第4.5节中的消融研究表明，结合剩余学习可以导致更多与直接学习策略相比，精确的深度图。3.4损失函数地面实况增强。从激光雷达传感器获得的地面实况深度图太稀疏（仅5%的像素是有效的），无法提供足够的超分辨率信号用于训练深度模型。为了产生高质量、密集的深度图，我们用通过立体匹配方法预测的密集深度图来增强稀疏地面实况[22]。我们使用密集的深度图和稀疏的velodyne数据作为训练时的地面实况。预测深度图的一些样本在图2中示出训练损失。与地面实况深度图相比，由立体匹配模型产生的增强的密集深度图不够准确。预测深度图与地面实况深度图之间的我们使用加权和L2损失来抑制增强的密集深度图中包含的噪声：损失= ∑i∈Λpredi−gti∑i∈Ωpredi−gti（三）其中pred_i和gt_i表示第i个像素处的预测深度和地面实况深度。Λ表示稀疏地面真值有效的像素集合Ω表示稀疏真实值无效且来自增强深度图的值用作真实值的像素集合在所有实验中，α4实验我们将在本节中展示主要结果，并在补充材料中提供更多评估。单目深度估计9表1. 我们的方法和方法的定量结果在文献中报道，关于Eigen等人 [7]针对不同上限使用的KITTI原始数据集的测试集基于地面实况和/或预测深度。增强深度表示由[22]生成的深度图。最佳结果以粗体显示ARDSRD RMSE RMSE（log）δ1.25δ<1。252δ<1。253方法帽低越好越高越好Eigen等人[七]《中国日报》0 - 80米0.2151.5157.1560.2700.6920.8990.967Liu等人[ 21日]0 - 80米0.2171.8416.9860.2890.6470.8820.961Zhou等人[30个]0 - 80米0.1831.5956.7090.2700.7340.9020.959Godard等人[12个]0 - 80米0.1140.8984.9350.2060.8610.9490.976Kuznietsov等人[16个]0 - 80米0.1130.7414.6210.1890.8620.9600.986我们0 - 80米0.0980.6663.9330.1730.8900.9640.985增强的深度0 - 80米0.0250.0751.7230.0490.9940.9980.999Zhou等人[30个]1 - 50米0.1901.4364.9750.2580.7350.9150.968Garg等人[9]第一章1 - 50米0.1691.0805.1040.2730.7400.9040.962Godard等人[12个]1 - 50米0.1080.6573.7290.1940.8730.9540.979Kuznietsov等人[16个]1 - 50米0.1080.5953.5180.1790.8750.9640.988我们1 - 50米0.0940.5523.1330.1650.8980.9670.9864.1数据集我们在公开可用的KITTI数据集[10]上评估了我们的方法，KITTI数据集是单图像深度估计领域中广泛使用的数据集。该数据集包含超过9.3万个半密集深度图以及相应的激光雷达扫描和RGB图像。该数据集中的所有图像都是从城市场景中行驶的汽车上拍摄的，典型的图像分辨率为1242×375。为了与现有工作进行公平的比较，我们采用了Eigen等人提出的分割方案。[7]将原始KITTI数据集中的总共56个场景分割为28个用于训练，28个用于测试。具体来说，我们使用了22,600张图片用于培训，其余用于验证。对697张图像的测试分割进行评价。我们还采用了KITTI stereo 2015提供的KITTI分割，它提供了来自28个场景的200个高质量视差图像我们使用来自剩余场景的30，159张图像作为训练集。虽然200个视差图像提供了比稀疏的重新投影的velodyne激光数据更多的深度信息，但它们具有代替移动汽车的CAD模式。我们评估我们的模型，这些高品质的视差图像，以获得更有说服力的演示。4.2实现细节我们使用公开可用的TensorFlow [1]框架实现我们的方法。整个模型是一个沙漏结构，其中使用Resnet50我们从头开始训练我们的模型80 个epoch，使用Adam方法，β1= 0，批量大小为8。9，β2= 0。999和ε=10−8。的学习率初始化为10- 4，每30秒以10的指数衰减10Y. 甘，X.Xu，W.太阳湖林|不||不|训练期间的时间。我们模型中的所有参数都是基于关于Xavier算法[11].它的成本约为7G的GPU内存和50小时，在具有12GB内存的单个NVIDIAGeForce GTX TITAN X GPU上训练我们的模型。每个图像的平均训练时间小于100ms，测试一个图像所需的时间小于70ms在培训过程中也进行了数据扩充。输入图像以0.5的概率翻转我们将原始图像随机裁剪为2h×h的大小以保持图像比例，其中h是原始图像的高度输入图像是通过将裁剪后的图像的大小调整为512×256。我们还通过从[0.5，2.0]范围内的均匀分布中采样，以50%的机会进行随机亮度的颜色增强4.3评估指标我们评估我们的方法在单目深度预测的测试图像上使用velodyne地面实况数据的性能。我们遵循Eigen等人使用的深度评价指标。【7】：∑√∑ARD：1y∈T |/y * RMSE：|/y∗RMSE:1|√ y∈ T|√y∈Ty−ySRD：1Σy∈T y−y1∑|不|y∈T 电子学−电子学2阈值：y s. t的% max（yi，y*）= δ

下载后可阅读完整内容，剩余1页未读，立即下载