单目深度估计的相对深度图算法

72 浏览量更新于2023-10-17 收藏 3.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9729基于相对深度图的李载汉高丽大学jaehanlee@mcl.korea.ac.kr昌洙金高丽大学changsukim@korea.ac.kr摘要我们提出了一种新的算法，单目深度估计使用相对深度图。首先，使用卷积神经网络，我们估计区域对之间的相对深度，以及普通的深度，在各种尺度。其次，我们恢复相对深度图从选择性估计的数据的基础上，成对比较矩阵的秩-1性质。第三，我们将普通深度图和相对深度图分解为组件，并将它们最佳地重组以重建最终的深度图。实验结果表明，该算法提供了最先进的深度估计性能。1. 介绍深度估计是计算机视觉中的一个基本问题，即从一幅或多幅图像中估计出场景的深度信息。估计的深度在视觉应用中提供了重要的几何线索，例如图像合成[8，44]，场景识别[50，56]，姿态估计[60，68]和机器人[4，34]。存在用于从多视图图像[48，55]或视频序列[30，62]推断环深度的各种技术，其提供有希望的结果。然而，当只有一个单一的图像是可用的，这个问题是具有挑战性的，因为它是不适定的[12]。用于单目深度估计的早期方法对场景进行了假设：由方块组成的空间[16]，由平面区域组成的场景[54]，具有地板和墙壁的典型室内房间[9，32]，以及暗通道先验[17]。然而，当假设无效时，这些方法变得近年来，已经提出了基于卷积神经网络（CNN）的单目深度估计方法[6，11- 13，31，33，51]，随着计算硬件的进步和丰富训练数据的可用性[14，57]，显著提高了性能。一些方法[20，36，39，65，66]将CNN与连续随机场（CRF）模型相结合，以产生更多的边缘一致深度图。此外，已经尝试与密切相关的数据[27，47，61，64，69]联合估计深度，例如表面法线和光流。D3R3R4R5R6输入图像普通深度图多分辨率相对深度图D01 2 3 45最优深度图深度图分解图1.所提出的算法的概述。首先，从图像中获得一个普通深度图和四个相对深度图然后，它们被分解成深度分量，这些分量又被组合以重建最佳深度图。这些基于CNN的方法试图直接估计绝对深度然而，如[12]所述，单目深度估计在尺度上是模糊的：一个物体可能看起来与另一个形状相同但在较近距离内较小的物体相同。另一方面，两个点的深度之间的比率，在这项工作中被称为相对深度甚至对人来说，在两点之间选择较近的一点比估计每一点的绝对深度更容易。换句话说，相对深度比普通深度更容易估计。基于这些观察，我们提出了一种新的monocular深度估计算法使用相对深度图。图1示出了所提出的算法的概述。首先，我们在编码器-解码器架构中开发了一个CNN，它包括多个解码器块，用于在各种尺度下估计相对深度以及普通深度其次，我们形成一个成对的比较矩阵，这是稀疏填充的估计相对深度。通过利用矩阵的秩-1属性，我们使用交替最小二乘（ALS）算法[28]恢复整个矩阵，从中获得相对深度图。第三，每个深度图被分解成分量，这些分量被重新组合以通过约束优化方案重构最终深度图。实验结果表明，该算法提供了最先进的深度估计性能。我们强调这项工作的主要贡献如下：• 我们提出了相对深度的概念，并发展了一个9730基于成对比较矩阵的秩1性质的相对深度图的有效估计器• 我们提出了新的深度图分解和深度分量组合的方法。• 我们在NYUv2数据集上实现了最先进的深度估计性能[57]。2. 相关工作在CNN被广泛采用之前，手工制作的特征被用于单目深度估计。萨克斯-埃纳等[53]提出了一种马尔可夫随机场（MRF）模型来估计多尺度斑块和全球尺度列斑块的深度。此外，Saxenaet al. [54]通过推断平面参数来预测深度，假设场景由平面区域组成。Liu等[38]利用语义分割类的先验知识来预测深度。Karsch等人[25]假设语义相似的图像具有相似的深度分布。他们通过从数据库中搜索相似的图像并扭曲它们来估计深度图。最近，已经提出了用于单眼深度估计的各种基于CNN的技术。Eigen等人[12]使用AlexNet结构[29]进行全局深度预测，并使用额外的精细尺度网络进行局部深度细化。Eigen和Fergus [11]将[12]中的方法扩展到三个级别，并联合执行深度估计，正常估计和语义分割。Roy和Todorovic [51]提出了一种深度估计模型，将浅层CNN纳入回归森林。Laina等人[31]开发了一个基于ResNet结构的深度估计网络[19]，并提出了一个向上投影模块来提高深度图分辨率。Fu等人[13]提出了深度有序回归网络（DORN），它将深度回归问题转化为一个分类问题。他们的算法产生了最先进的深度估计性能。为了生成更清晰和更符合边缘的深度图，条件随机场（CRF）模型通常与CNN相结合。Li等[36]使用CNN在超像素级估计深度信息，并基于CRF模型在像素级对其进行细化Liu等[40]开发了另一种基于超像素的算法。他们在CNN框架内训练CRF的一元和成对项Xu等[65]在几个CNN层提取特征图对深度网络的估计性能的积极影响。因此，一些方法利用附加的注释数据来训练深度估计网络。例如，Wanget al. [61]提出了一种用于深度图估计和语义分割的联合CNN结构。此外，他们通过CRF优化改进了深度估计结果。Qi等人[47]利用曲面法线和深度之间的几何关系，改进法线和深度估计的结果。此外，Yin和Shi [69]提出了一种用于深度、光流和相机运动的联合估计算法。[7，70]中的方法与所提出的算法类似，因为它们也使用像素之间的成对深度比较Zoran等人[70]预测采样点之间的相对深度，并将它们传播到超像素以重建整个深度图。Chen等人[7]将像素之间的相对深度分为三类：“更近”“更远”和“相等”他们通过根据成对标签使用不同的损失函数训练网络来然而，所提出的算法不同于[7，70]。虽然[7，70]使用粗采样点之间的比较结果，但所提出的算法估计密集的成对信息并将其与普通深度图相结合以重建精细尺度深度信息。3. 该算法3.1. 深度图分解设I∈Rr×c是一个大小为r×c的像。目标是估计相应的深度图D∈Rr×c。然而，这种单目深度估计是不适定的。尤其是它在规模上是模糊的[12]。例如，建筑物及其小型复制品可能产生相同的图像，但具有不同的深度图。即使我们可以通过从许多训练图像中学习来近似地预测图像的规模，但模糊性仍然存在。为了解决这个问题，在这项工作中，我们定义和估计一个尺度不变的量，称为相对深度，这是一个图像中的两个区域的深度之间的比率。如果我们知道图像中所有像素对的相对深度，我们可以用归一化的尺度重建深度图在证明这一点之前，让我们将深度图D的几何平均值表示为：在这些层进行CRF优化，以产生多个-Ple深度图，并将它们集成到最终的深度图中。Yrg（D）=Yc1D（i，j）rc（1）Heo等人[20]预测深度以及相应的可靠性水平。他们在CRF优化中利用了可靠性信息。Xu等[66]将多尺度CRF优化集成到编码器-解码器网络中，实现端到端训练。扩展训练数据的域往往具有正-i=1j=1其中D（i，j）是D中的第（i，j）个深度。1.提案如果I中所有像素对的相对深度是已知的，则可以重构缩放的深度图D/g（D）。9731证据通过假设，对于任何像素（i，j），我们知道D/D（i，j）中的所有相对深度。通过几何平均这些深度，我们得到g（D）/D（i，j）。因此，我们知道它的倒数D（i，j）/g（D）。因此，我们有D/g（D）。实际上，D/g（D）具有如下的归一化标度。第二个提案 D/g（D）的几何平均值为1。证据g（D/g（D））=g（D）/g（D）= 1。根据命题1和命题2，如果我们知道像素对之间的所有相对深度，我们可以重建相对深度。表1. 深度映射Dn和Rn的分解结果3≤n≤7。D0F 1F2F3F4F5F6F7D3√ √√√----D4√ √√ √√√√√√√-√--D5√ √√√√√-√-D6-D7√ √√√√√√√√√√R3-√√√-√---R4----R5-√√√√√√√√√√-√-R6-√√√√√√-√R7-在对数标度中，可以通过递归应用（5）来分解Dn主动深度图R = D/g（D），（2）Σnlog Dn = logUn（D0）+i=1logUn−i（Fi）（6）其被称为相对深度图。然后，原始深度图D和相对深度图R之间的关系可以重写为D =g（D）R。接下来，我们将深度图D缩小到几个尺寸。让其中log是逐元素对数函数。换句话说，logDn被分解为平均深度图logU n（D 0）和残差深度图logU n−i（Fi），Dn表示大小为2n×2n的深度图。较低分辨率深度图Dn−1通过以下方式从Dn获得：1≤i≤ n。注意，根据命题3，算术每个残差图logUn−i（Fi）的平均值为零。类似地，相对深度图Rn可以分解为：Y1Dn−1（i，j）=Y11Dn（2i-k，2j-l）4.（三）Σnlog Rn =logU n−i（Fi）.（七）k=0l =0换句话说，Dn−1中的深度是Dn中四个相应深度的几何平均值。注意，最低分辨率图D0由单个深度组成，其等于总体几何平均值g（D）。在典型的深度图中，低频分量更占主导地位[33]。因此，它们的估计比高频分量的估计更强烈地影响深度重建。我们把Dn−1看作低频信息，它是通过消除Dn中的高频（或精细细节）信息而获得的。设Fn表示精细细节图。首先，我们将上采样操作U定义为在水平和垂直方向上使深度图的大小它重复每个输入深度四次，以填充输出深度图中相应的四个像素。然后，Fn由下式给出：Fn= Dn<$U（Dn−1）（4）式中，λ表示阿达玛除法，即两个矩阵的元素除法。等价地，Dn=U（Dn−1）<$Fn（5）其中是Hadamard乘积。i=1在这项工作中，给定一个图像I，我们估计Dn和Rn ，其中3≤n≤7。然后，我们分别通过（6）或（7）分解每个Dn或Rn表1列出了分解结果这些深度图。请注意，每个组件都有多个候选项。例如，F1总共有10个候选项，而F6有4个。我们将候选组合以产生最佳深度分量，如第3.4节和补充文档中所述。最后，我们使用最优分量经由（6）生成最优深度图D73.2. 深度估计网络我们使用编码器-解码器架构[2，67]来估计深度图，如图2所示在编码器部分，从图像中提取深度特征。在解码器部分中，多达十个解码器使用这些特征来重建常规深度图Dn和相对深度图Rn。编码器部分：编码器处理图像以产生低分辨率的高级特征。DenseNet-BC [23]，不包括最后一个密集块，用作编码器，它由一个卷积层，一个最大池化层和三对密集块和过渡层组成，如图2所示。请注意，DenseNet-BC中的最后一个密集块3号提案年q1k=0 年q1l=01Fn（2i−k，2j−l）4=1表示9732在解码器部分的十个解码器中采用。DenseNet-BC中的每个密集块都由hyper定义，each（i，j），且g（Fn）=1。证据它来自（3）和（4）。参数：复合函数的数量n增长率K。密集块的设置（包括超参数）在补充文件中进行了描述9733致密D1或D1致密D2或D2WSM D2-1致密D3WSM D3-1WSM D3-2或D3致密D4WSM D4-1WSM D4-2WSM D4-3或D4致密D5WSM D5-2WSM D5-1WSM D5-4WSM D5-3或D5ALS D6ALS D8ALS D9ALS D10编码器部分解码器部分D3D4D5D6D7输入图像致密块过渡层整条掩蔽块有序回归交替最小二乘算法R3R4R5R6R7图2. 提出的深度估计网络的结构。如上所示，可以使用多达十个解码器。在默认设置中，使用（D3，R3，R4，R5，R6）的五个解码器。WSM表示整个条带掩蔽块[20]，OR表示有序回归层，ALS表示交替最小二乘层。文档. 总的来说，给定224×224RGB图像，编码器生成具有1，056个通道的8 ×8解码器部分：这十个解码器用于将低分辨率特征扩展到更高分辨率的深度图Dn和Rn。每个解码器有一个密集块和可变数量（0到4）的整条掩蔽（WSM）块[20]。WSM是初始结构中的上采样块[58，59]。它通过应用水平或垂直尺寸等于整个输入信号。它有五个初始路径，分别使用大小为1×1、3×3、5×5、W×3和3×H的卷积核这里，W和H表示输入信号的宽度和高度。目标深度图的分辨率确定WSM块的数目例如，用于估计D3和R3的解码器不包括WSM块，因为D3和R38 ×8的分辨率等于编码器特征图。另一方面，D7 和R7 分别使用4 个WSM 块，将特征图扩展到128×128分辨率。有序回归：每个解码器执行顺序回归[37]以重建深度。可以使用多个二元分类器来执行顺序回归任务，这些二元分类器确定值是否大于不同的阈值。已经提出了各种有序回归方法来解决回归问题[13，24，46]。特别地，Fuet al. [13]提出了一种回归网络，称为DORN，用于单目深度估计。对于有序回归，他们使用空间增加离散化方案将深度量化为多个重建级别我们采用他们的重建水平和有序损失函数，用于普通深度图Dn的解码器。然而，在用于相对深度图Rn的解码器中，有必要使用不同的重构级别集合注意，相对深度是两个深度的比率。因此，对于任何相对深度r，总有一个倒数1/r。换句话说，在对数标度中，相对深度的分布相对于零对称。为了确定R3的重建级别，我们从训练数据中计算所有像素对的深度比我们应用Lloyd算法[42]来对它们进行排序。为了利用对称性，我们仅对大于或等于1的比率执行算法然后，我们将1固定为一个重建级别以符合对称性，并通过交替最近邻分区和质心计算来确定20个重建级别[15]。它们的倒数也成为重建水平。总共有41个重建级别。此外，对于4 ≤ n ≤ 7，Rn被设置为Rn−1的水平区间的一半。可以针对所有像素对来估计相对深度然而，这需要过多的复杂性，因为在Dn中应该考虑（2n×2n）×（2n×2n）=24n对。为了降低算法的复杂度，对于Dn中的每个像素，我们只估计与相邻3×3像素的深度比，从而将深度比对的数量减少到32×22n。此外，这些相邻的3 × 3像素从Dn−1中选择，而不是Dn，如图3所示。这是有利的，因为对于固定数量的比较，将D n中的每个深度与更大的区域进行比较。未估计的相对深度使用ALS算法重建，如第3.3节所述。ALS D7或D1致密D1或D2WSM D2-1致密D2或D3WSM D3-2WSM D3-1致密D3或D4WSM D4-3WSM D4-2WSM D4-1致密D4或D5WSM D5-4WSM D5-3WSM D5-2WSM D5-1致密D5密集D6或D6密集D7WSM D7-1或D7密集D8WSM D8-1WSM D8-2或D8致密D9WSM D9-1WSM D9-2WSM D9-3或D9致密D10WSMD10-1WSMD10-2WSMD10-3WSMD10-4或D10Conv E1合并液E1致密E2Trans E2致密E3Trans E3致密E4Trans E49734D3（j）我D3（k）D3（k）稀疏估计4，3密集修复��第4、3章相对企业简介重塑和规范化��深度图R4图3.DD−1为了估计相对深度，Dn，描绘图4. 稀疏比较矩阵P4，3被恢复为稠密比较矩阵P 4，3。矩阵P=4，3的ALS算法。然后，P=4，3被重塑，由一个点，是比较的深度的3×3最近的像素，D n− 1，用紫色方块表示。为了说明，D n与Dn−1重叠。3.3. 相对深度图重建归一化到相对深度图R4。命题4的证明，在理想情况下，比较矩阵由下式给出：P =[dn，dn，···，dn]T[1，1，· · ·， 1]在图2中，底部解码器6-10估计相对于解码器6- 10的相对输出。n，n−11 222Nn−1n−1n−1深度图Rn，3≤n≤7。为了降低复杂性，他们有选择地估计相对深度。的剩余的相对深度如下重建。首先，在解码器6中，估计最低分辨率深度图D3中的所有像素对的相对深度。不可避免地，存在估计误差。让我们考虑三个像素i、j和k。解码器估计相对深度D3（i）、D3（j）和D3（i）。但是，由于估计呃-1 222n−2（八）其中dn表示Dn的整形向量中的第i个深度。在没有估计误差的情况下，Pn，n−1的秩也是1。当存在估计误差时，在这种情况下不能使用用于重构R 3的特征值分解方法，因为Pn，n−1不是方阵。我们可以使用奇异值分解（SVD）。已知的错误，结果可能是不一致的，即，有可能P<$ n，n−1=σ1u1vT（九）D3（i）×D 3（j）1D3（i）.我们应该处理估计的D3（j）D3（k）D3（k）是Pn，n−1的最佳秩-1近似[5]，其中σ1相对深度，以产生一致和可靠的结果。为此，我们构造成对比较矩阵P3，它包含D3中所有像素对之间的相对深度。由于D3中的像素数为8 ×8，P3的尺寸为64×64。第（i，j）个元素P3由下式给出：是最大奇异值，u1和v1是相应的奇异向量。因此，Rn可以通过归一化左奇异向量u 1来获得。然而，如图3所示，只有一部分关系，tiv e深度dn/dn−1是估计的，Pn，n−1是不确定的。dj/di的估计，其中di表示ij中的第i个深度D3的整形向量第四个提案如果不存在估计误差，则P3是秩1矩阵.证据在没有误差的理想情况下，我们有P3 =[d1，d2，···，d6 4]T[1，1，···，1].完全。 Pn，n-1的缺失项应填写在rank-1近似之前。各种铝-出租[26，49]已经提出来解决这个矩阵完成问题。我们使用ALS算法[28]如下。设S表示中的位置（r，c）的集合，Pn，n−1，其中相对深度由de-编码器同样，设p和q是大小为22n和22n−2的向量，D1 D2d64分别然后，我们重复以下两个步骤-如果有错误，Saaty [52]表明，对应于 P3的最大特征值的特征向量是[d1 ， d2 ， ···，d64]T的一个很好的逼近，直到一个比例因子。根据Perron-Frobenius定理[21]，natelyq← arg minQΣ（r，c）∈S(p(r）q（c）−Pn，n−1（r，c））2（10）因为P3是正的，所以最大的本征向量是代数单的和正的，并且主本征向量中的所有元素也是正的。因此，通过规范化本金，p←arg minpΣ（r，c）∈S（p（r）q（c）−Pn，n−1第2（11⋯⋯9735）条特征向量，使得元素的几何平均值为1，我们重建相对深度图R3。为了重建Rn（4≤n≤7），我们应该重新定义比较矩阵，因为Dn中的深度与Dn−1中的深度进行比较，如图3所示。与P3类似，在每一步中，凸条件得到满足，并且容易导出q或p的封闭形式解。因此，该算法产生一致的解p和q，P<$ n，n−1=p<$q<$T（12）9736度量RMSE（直线）定义（（d−1N我我ˆ（d））21我2NNN我我Di得出注意，这已经是Pn，n−1的秩-1近似。因此，我们通过归一化和整形左向量pn来重建相对深度图R n。图4显示了填充稀疏Pn，n-1并恢复相对深度图Rn的过程。表2. 用于估计的深度图的评估度量：dji和di分别表示像素i的估计深度和真实深度，并且N是深度图中的像素的数量。1RMSE（log）（1（logd−3.4. 深度组件组合一般来说，普通深度图重建过-RMSE（s.inv）RMSE（log）for relative depth mapARD1|di−di|/diSRD1|di−di|2/di所有深度分布鲁棒，而相对深度图ˆδ

下载后可阅读完整内容，剩余1页未读，立即下载