基于卷积空间传播网络的深度估计方法及其在图像中的应用

22 浏览量更新于2023-10-13 收藏 2.09MB PDF 举报

深度估计

单幅图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于卷积空间传播网络Xinjing Cheng佘，Peng Wang佘，Ruigang Yang百度研究院、百度公司{chengxinjing,wangpeng54,yangruigang}@baidu.com抽象。从单幅图像中估计深度是计算机视觉中的一个基本问题。在本文中，我们提出了一个简单而有效的卷积空间传播网络（CSPN）来学习深度预测的亲和矩阵具体地，我们采用高效的线性传播模型，其中以递归卷积操作的方式执行传播，并且通过深度卷积神经网络（CNN）来学习相邻像素之间的亲和力。我们将所设计的CSPN应用于给定单个图像的两个深度估计任务：（1）细化来自现有技术水平（SOTA）方法的深度输出;（2）通过将深度样本嵌入传播过程内来将稀疏深度样本转换为密集深度图。第二个任务的灵感来自于LiDAR的可用性，其提供稀疏但准确的深度测量。我们在流行的NYU v2[1]和KITTI[2]数据集上实验了所提出的CSPN，其中我们表明，我们提出的方法不仅提高了质量（例如，深度误差减少30%以上），而且速度（例如，2至5倍的速度）的深度图比以前的SOTA方法。CSPN的代码为可在https://github.com/XinJCheng/CSPN上获得。保留字：深度估计，卷积空间传播1介绍从单个图像的深度估计，即预测到相机的每像素距离具有从增强现实（AR）、自动驾驶到机器人的许多应用给定单个图像，最近估计每像素深度的努力已经通过利用深度全卷积神经网络[3，4]和来自室内[1，5，6]和室外[2，7，8]的大量训练数据产生了高质量的输出。改进主要在于使用高级网络（如VGG [9]和ResNet [10]）更准确地估计全局场景布局和尺度，以及通过反卷积操作[11]，跳过连接[12]或上投影[4]进行更好的局部结构恢复。然而，在对当代方法的输出进行更仔细的检查后[13]（图1）。1（b）），预测的深度仍然是模糊的，并且没有与给定的图像结构（诸如对象轮廓）很好地对准最近，Liu et al. [14]建议通过具有空间传播网络（SPN）的深度CNN直接学习图像相关的亲和力，产生更好的结果同等贡献2X. Cheng，P.Wang和R.杨（a）（b）（c）（d）（e）0.035（f）（g）（h）（i）（j）图1：（a）输入图像;（b）来自[13]的深度;（c）双边滤波后的深度;（d）SPN[14]的精化深度;（e）CSPN的精化深度;（f）稀疏深度样本（500）;(g) 地面实况（h）我们网络的深度;（i）用深度样品通过SPN进行的细化深度;（j）CSPN用深度样品进行的精细深度。对应的均方根误差（RMSE）被放置在每个预测的深度图的左上方。与人工设计的图像分割相似度相比然而，其传播是以扫描线或扫描列的方式执行的，其本质上是串行的。例如，当从左到右传播时，最右列处的像素必须等待来自最左列的信息来更新其值。直观地说，深度细化通常只需要一个局部上下文，而不是一个全局上下文。在这里，我们提出了卷积空间传播网络（CSPN），其中所有像素的深度在局部卷积上下文内同时更新。通过递归操作获得长范围上下文。图1示出了示例，从CSPN（e）估计的深度比从SPN（d）和双边滤波（c）估计的深度更准确在我们的实验中，我们的并行更新方案导致显着的性能改善，在速度和质量的串行的，如SPN。实际上，我们表明所提出的策略也可以很容易地扩展到将稀疏深度样本转换为给定相应图像的密集深度图[15，13]。该任务可以广泛应用于机器人和自动驾驶汽车中，其中深度感知通常通过LiDAR获得，LiDAR通常生成稀疏但准确的深度测量。通过将稀疏测量与图像相结合，我们可以生成全帧密集深度图。对于这个任务，我们考虑算法的三个重要要求：（1）恢复的密集深度图应与图像结构对准;（2）应当保留来自稀疏样本的深度值，因为它们通常来自可靠的传感器;（3）稀疏深度样本与其相邻深度之间的过渡应当平滑且不明显。为了满足这些要求，我们首先基于[13]中的网络添加镜像连接，这会产生更好的深度，如图所示。1（h）。然后，我们尝试将传播嵌入到SPN中，以保持稀疏点处的深度值如图1（i），它产生更好的细节和更低的错误比SPN没有深度样本（图1）。1（d））。最后，将SPN更改为我们的CSPN会产生最好的结果（图1）。1（j））。如可以看到的，我们的仅具有500个深度样本的恢复的深度图产生更准确地估计的场景布局和尺度。我们实验我们的方法在两个流行的基准深度估计，即。[1][2][3][4][5][6][7]0.0500.21970.0650.064CSPN3放免法在这两个数据集中，我们的方法明显优于（在大多数关键测量中相对提高了30%）之前基于深度学习的最先进（SOTA）算法[15，13]。更重要的是，与SPN相比，它非常有效，可以产生2-5倍的加速度。综上所述，本文有以下贡献：1. 我们提出了卷积空间传播网络（CSPN），其对于深度估计比先前的SOTA传播策略[14]更有效和准确，而不牺牲理论保证。2. 我们扩展CSPN的任务，稀疏的深度样本密集的深度图，通过使用提供的稀疏深度到传播过程中。它保证稀疏输入深度值保留在最终深度图中。它实时运行，非常适合机器人和自动驾驶应用，其中来自激光雷达的稀疏深度测量可以与图像数据融合。2相关工作深度估计和增强/细化长期以来一直是计算机视觉和机器人技术的中心问题由于篇幅所限，本文仅从几个方面对这些工作进行总结，不一一列举。通过CNN和CRF进行单视图深度估计。近年来发展的深度神经网络（DCN）为来自单个图像的每像素深度估计提供了强特征表示许多算法是通过监督方法[16，3，4，17]、半监督方法[18]或无监督方法[19，20，21，22]开发的。并添加跳过和镜像连接。其他人试图通过附加条件随机场（CRF）[23，24，25]和联合训练[26，27]来进一步改善估计的细节。然而，用于测量相邻像素的相干性的亲和度是手动设计的。深度增强。传统上，深度输出也可以通过图像滤波[28，29]的显式设计的亲和性来有效地增强，或者通过总变差（TV）[30，31]和通过合并更多先验来学习扩散[32]的数据驱动的亲和性来扩散偏微分方程（PDE）然而，由于缺乏有效的学习策略，它们对于大规模复杂的视觉增强是有限的最近，基于深度学习的增强在图像[33，34]和深度[35，36，37，38]的超分辨率上产生了令人印象深刻的结果。该网络采用低分辨率输入并输出高分辨率结果，并且是端到端训练的，其中输入和输出之间的映射是隐式学习的。然而，这些方法仅使用完美对应的地面实况低分辨率和高分辨率深度图以及通常的黑盒模型进行训练和实验。在我们的场景中，输入和地面实况深度都是非完美的，例如从低成本LiDAR或网络中提取深度，因此需要明确的扩散过程来引导增强，例如SPN。空间扩散的学习亲和力。近年来，由于其理论支持和保证，使用深度CNN学习扩散或空间传播的亲和矩阵受到高度关注[39]。 Maire等人[40]训练了一个深度CNN来直接预处理对实体进行仿射矩阵的判定，在图像分割上表现出良好的性能。然而，亲和力后面是一个独立的不可微4X. Cheng，P.Wang和R.杨(a) SPN（b）CSPN图2：SPN[14]和CPSN中传播过程的比较。解算器的频谱嵌入，它不能监督端到端的预测任务。Bertasius等人。[41]介绍了一种随机游走网络，该网络优化了语义分割的像素亲和度然而，它们的亲和矩阵需要来自真实稀疏像素对的额外监督，这限制了像素之间的潜在连接。Chen等人。[42]尝试对域变换的边缘图进行显式建模，以提高神经网络的输出。与我们的方法最相关的工作是SPN[14]，其中用于扩散的大型亲和矩阵的学习然而，正如在SEC中提到的那样。1，深度增强通常需要局部上下文，可能没有必要通过扫描整个图像来更新像素实验结果表明，我们提出的CSPN是更有效的，并提供了更好的结果。给定稀疏样本的深度估计。稀疏深度到密集深度估计的任务由于其在增强3D感知方面的广泛应用而被引入机器人中[15]。与深度增强不同的是，所提供的深度通常来自低成本LiDAR或一线激光传感器，从而仅在几百个像素中产生具有有效深度的地图，如图所示1（f）. 最近，Ma et al. [13]建议将稀疏深度图作为基于ResNet [4]的深度预测器的额外输入，产生比仅使用图像输入的CNN深度输出更好的结果。然而，输出结果仍然是模糊的，并且不满足我们在第2节中讨论的深度要求。1. 在我们的情况下，我们直接将采样深度嵌入扩散过程中，其中所有要求都得到了保持和保证。其他一些作品直接将稀疏3D点转换为密集点，而无需图像输入[43，44，45]，而稀疏点的密度必须足够高以揭示场景结构，这在我们的场景中不可用。3我们的方法我们将问题表述为各向异性扩散过程，扩散张量通过深度CNN直接从给定图像中学习，这指导了输出的细化。CSPN5.3.1卷积空间传播网络给定网络输出的深度图Do∈Rm×n，图像X∈Rm×n，我们的任务是在N个迭代步骤内将深度图更新为新的深度图Dn这首先揭示了图像的更多细节，其次改善了每像素深度估计结果。图图2（b）说明了我们的更新操作。形式上，不失一般性，我们可以将Do嵌入到某个隐藏空间H∈Rm×n×c中。对于每个时间步长t具有k的核大小的卷积变换泛函可以被写为，Σ（k−1）/2Hi，j，t+1=a，b=−（ k−1）/2κi，j（a，b）⊙Hi−a，j−b，t其中，κ i、j（a，b）=i，j（a，b）a，b，a，b/=0|κi，j（a，b）|Σki，j（0，0）=1−a，b，a，b/=0ki，j（a，b）（1）其中k内核κi，j∈Rk×k×c上的变换格式i是来自有限网络的输出，该有限网络在空间上依赖于输入图像。核大小k通常被设置为奇数，使得围绕像素（i，j）的计算上下文是对称的。⊙是元素乘积。在[14]之后，我们在（−Σ1，1）的范围内对内核权重进行归一化，以便通过满足以下条件来稳定和校正模型条件a，b，a，b=0|κi，j（a，b）|≤1。最后，我们执行该迭代N步以达到a平稳分布用偏微分方程（PDE）对应扩散过程。与[14]类似，这里我们证明了我们的CSPN拥有SPN的所有期望属性形式上，我们可以将传播重写为等式：（1）作为一个扩散演化过程，首先对特征映射H进行列优先向量化，得到Hv∈Rmn×c。1−λ0，0κ0，0（1，0）··· 0κ1，0（−1，0）1−λ1，0···0t+1tHv=0。.. ..=GHv（2）其中λi，j=. ····················1 −λm，nΣa，bκi，j（a，b），G是一个mn×mn变换矩阵.DF融合用偏微分方程（PDE）表示的过程推导如下，Ht+1=GHt=（I−D+A）Htv v vHt+1−Ht=−（D−A）Htv v vtHt+1=−LHt（三）V V其中L是拉普拉斯矩阵，D是包含所有λi，j的对角矩阵，并且A是仿射矩阵，它是G的非对角部分。在我们的公式中，与[14]不同，[14]在四个方向上扫描整个图像（图1）。2.6X. Cheng，P.Wang和R.杨（a））顺序地，CSPN在每个方向上朝向所有方向传播局部区域。CSPN7i、ji、ji、j图3：（a）在给定稀疏深度点处具有来自[13]的深度图的RMSE的直方图(b) 使用稀疏深度替换（蓝色条）和我们的CSPN（绿色条）的深度图之间的梯度误差比较，其中我们的要小得多检查图4为例。垂直轴显示像素的计数。每一步（图）（2）同时，即在k×k局部上下文的情况下，而当执行递归处理时观察到更大的上下文，并且上下文获取率为O（kN）的数量级。在实际应用中，我们选择使用卷积运算，因为它可以有效地最近通过图像矢量化实现，在深度细化任务中产生实时性能。原则上，CSPN也可以从具有和-积算法的循环置信传播中导出[46]。然而，由于我们的方法采用线性传播，这是有效的，而只是一个特殊的情况下，成对潜在的L2重建损失的图形模型。因此，为了使其更准确，我们称我们的策略为扩散过程领域中的卷积空间传播。3.2稀疏深度样本的空间传播在该应用中，我们具有附加的稀疏深度图Ds（图4（b））以帮助从RGB图像估计深度图。具体来说，稀疏的像素集被设置为具有来自一些深度传感器的真实深度值，这可以用于指导我们的传播过程。类似地，我们还嵌入稀疏深度图Ds={ds{to a hidden representa-我们可以通过简单地添加一个替换来写出H在执行Eq. （1）、Hi，j，t+1=（1−mi，j）Hi，j，t+1+mi，jHs（四）其中mi，j=I（ds>0）是（i，j）处的稀疏深度的可用性的指示符。通过这种方式，我们可以保证我们的细化深度在这些深度上具有完全相同的值稀疏深度图中的有效像素另外，我们将来自那些稀疏深度的信息第三，由于扩散过程，最终的深度图与图像结构很好地对准。这完全满足了在我们的引言（1）中讨论的该任务所期望的三个性质。8X. Cheng，P.Wang和R.杨（一）（b）第（1）款深度Sobel_x（c）第（1）款（d）其他事项图4：深度图[13]与稀疏深度替换和我们的CSPN w.r.t.的比较。稀疏深度点处深度梯度的平滑性。(a)输入图像。(b)稀疏深度点。（c）具有稀疏深度替换的深度图（d）具有稀疏深度点的CSPN的深度图我们在红框中突出显示了差异。此外，该过程仍然遵循具有PDE的扩散过程，其中，可以通过简单地将满足m，i，j=1的行替换为满足m，i，j = 1的行来构建变换矩阵。G（等式1）（2）），其对应于稀疏深度样本i+ j * m. 这里ei+jm是一个单位向量，在i+j<$m处的值为1。因此，每行的求和仍然是1，显然稳定性在这种情况下仍然成立。我们的战略有几个优势，比以前的国家的最先进的稀疏，密集的方法[13，15]。在图3（a）中，我们绘制了来自Ma等人的输出的给定稀疏深度像素处的地面实况的深度位移的直方图。[13]第10段。它表明稀疏深度点的准确性无法保持，并且一些像素可能具有非常大的位移（0.2m），这表明直接训练CNN进行深度预测不会保留所提供的真实稀疏深度的值。为了获取这样的属性，可以简单地用在那些像素处提供的稀疏深度来替换来自输出的深度，然而，它产生非平滑的深度梯度w.r.t.周围的像素。图在图4（c）中，我们绘制了这样的示例，在图的右侧，我们计算沿着X方向的深度图的Sobel梯度[47]，其中我们可以清楚地看到，具有替换的深度值的像素周围的梯度是不平滑的。我们在图中统计验证了这一点图3（b）使用500个稀疏样本，蓝色条是通过比较具有稀疏深度替换的深度图的梯度和地面实况深度图的梯度，在稀疏像素处的梯度误差的直方图我们可以看到差异是显著的，2/3的稀疏像素具有较大的梯度误差。另一方面，我们的方法，如图中的绿色条所示。在图3（b）中，平均梯度误差小得多，并且大多数像素具有零误差。InFig. 在图4（d）中，我们示出了稀疏像素周围的深度梯度是平滑的并且接近地面实况，证明了我们的传播方案的有效性。3.3复杂性分析如公式中所示（1），我们的CSPN采用卷积运算，其中使用CUDA和GPU进行一步CSPN的复杂度为O（log2（k2）），其中k是内核大小。这是因为CUDA使用并行求和归约，它具有对数CSPN9图5：我们的网络的架构，其具有镜像连接，用于通过具有CSPN（最佳彩色视图）的变换核预测进行深度估计。稀疏深度是可选的输入，其可以被嵌入到CSPN中以引导深度细化。复杂性此外，可以对所有像素和通道并行执行卷积运算，其具有O（1）的恒定复杂度。因此，执行N步传播，CSPN的总复杂度为O（log2（k2）N），这与图像大小（m，n）无关。SPN[14]采用四个方向的扫描行/列传播。使用k路连接，并行运行，一步的复杂度为O（log2（k））。传播需要从一侧到另一侧扫描整个图像，因此SPN的复杂度为O（log2（k）（m+n））。虽然这已经比[48]提出的密集连接的CRF更有效，其置换体晶格的实现复杂度为O（mnN），但我们的O（log2（k2）N）更有效，因为迭代次数N总是远小于图像m，n的大小。我们在实验中显示（第二节）。4），其中k=3和N=12，CSPN已经优于SPN，其中一个大的利润率（相对30%），证明效率和所提出的方法的有效性。3.4端到端架构我们现在解释我们的端到端网络架构，以预测转换内核和深度值，它们是CSPN的输入，用于深度细化。如图5，我们的网络有一些相似之处，从马等。[13]，具有输出密集深度图的最终CSPN层。为了预测等式中的变换核κ，（1），而不是像Liu等人[14]那样构建一个新的深度网络来学习亲和力，我们从给定的网络中分支出一个额外的输出，它与深度网络共享相同的特征提取器。这有助于我们节省用于深度估计和变换内核预测两者的联合学习的存储器和时间成本。1x2x2x4x4x8x8x1x16x16x32x12048102425651251225625664648conv bnconv bn上采样convbnReLUconvbnconv bnReLU上采样convbnconvBNconvbn热卢热卢UpProjUpProj_CatConvCSPN© 2019CatPlus.保留所有权利.10X. Cheng，P.Wang和R.杨亲和度的学习依赖于输入图像的细粒度空间细节。然而，在[4]中的ResNet的前向过程期间，空间信息随着下采样操作而减弱或丢失。因此，我们通过将来自编码器的特征定向连接到上投影层来添加与U形网络[12]类似的镜像连接，如图1B中的“UpProj_Cat”层所示。五、请注意，仔细选择镜像连接的端点非常重要。通过实验确定了三种可能的连接位置，即：在conv之后、在bn之后和在relu之后，如图1B中的“UpProj”层所示。5，我们发现最后一个位置通过使用NYUv2数据集进行验证提供了最佳结果（Sec. 4.2）。在这样做时，我们发现不仅来自网络的深度输出被更好地恢复，并且CSPN之后的结果被额外地细化，我们将在实验部分（Sec. 4）. 最后，我们采用与[13]相同的训练损失，产生端到端学习系统。4实验在本节中，我们描述了我们的实施细节，我们的实验中使用的数据集和评估指标然后给出了CSPN在深度细化和稀疏到密集任务上的综合评价实作详细数据。用于深度估计的编码层中的ResNet的权重（Sec. 3.4）使用ImageNet数据集上预训练的模型进行初始化[49]。我们的模型是用SGD优化器训练的，我们使用24个小批量，对所有实验进行40个epoch的训练，并使用在验证集上表现最好的模型进行测试。学习率从0.01开始，并且每10个epoch降低到20%一个小的10−4的权重衰减被应用于正则化。我们基于PyTorch1平台实现了我们的网络，并使用其逐元素乘积和卷积运算进行一步CSPN实现。对于深度，我们证明了具有隐藏表示H的传播仅实现相对于在深度D的域内进行传播的边际改进。因此，我们直接使用D执行所有实验，而不是学习额外的嵌入层。对于稀疏深度样本，我们采用500个稀疏样本，如[13]中所使用的。4.1数据集和指标我们所有的实验都在两个数据集上进行评估：[1]和KITTI [2]，使用常用的指标。纽约大学第二版。NYU-Depth-v2数据集由从464个不同室内场景收集的RGB和深度图像组成。我们使用官方的数据分割，其中249个场景用于训练，我们以与[13]相同的方式从训练集中采样50K图像。为了测试，遵循标准设置[3，27]，使用具有654个图像的小标记测试集作为最终性能。首先将大小为640×480的原始图像下采样到一半，然后进行中心裁剪，产生304×228的网络输入大小。1http://pytorch.org/CSPN11|D|（一）（b）第（1）款（c）第（1）款图6：消融研究。(a)RMSE（左轴，越低越好）和δ<1。02（右轴，越高越好）。迭代次数水平线显示SPN [14]的相应结果。（b）RMSE和δ <1。02的CSPN w.r.t.内核大小(c) 测试时间w.r.t.输入图像大小。KITTI里程计数据集。它包括相机和LiDAR测量，由22个序列组成。序列的一半用于训练，而另一半用于评估。在[13]之后，我们使用来自训练序列的所有46k图像进行训练，并使用来自测试序列的3200个图像的随机子集进行评估。具体来说，由于顶部区域没有深度，我们采用底部部分912×228，并且仅使用地面实况评估像素。指标. 我们采用相同的指标并在[13]中使用它们的实现。给定地面.真值深度D*={d*}和预测深度D={d}，度量包括：（1）RMSE：1Σ|D|∗d∈D ||二、||2. (2)绝对相对值：1Σd∈D |/d*。|/d∗. （3）δt：d∈D的%，s.t.max（d，d）

下载后可阅读完整内容，剩余1页未读，立即下载