基于整条掩模和可靠性的单目深度估计算法

82 浏览量更新于2023-10-13 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于整条掩模和可靠性求精Minhyeok Heo1、Jaehan Lee2、Kyung-RaeKim2、Han-Ul Kim2和Chang-Su Kim21个导航实验室heo. naverlabs.com2韩国高丽大学电气工程学院{jaehanlee，krkim，hanulkim}@ mcl.korea.ac.kr，changsukim@korea.ac.kr抽象。我们提出了一种基于整条掩蔽（WSM）和基于可靠性的细化的单目深度估计算法首先，我们开发了一个为深度估计量身定制的卷积神经网络（CNN）。具体来说，我们设计了一种新的过滤器，称为WSM，利用的趋势，一个场景在水平或垂直方向具有类似的深度。所提出的CNN将WSM上采样块与ResNet编码器相结合。其次，我们通过向主CNN添加额外的层来测量估计深度的可靠性使用可靠性信息，我们执行条件随机场（CRF）优化，以完善估计的深度图。实验结果表明，该算法提供了国家的最先进的深度估计性能。关键词：单目深度估计，整条掩蔽，可靠性，深度图细化1介绍从图像中估计深度信息是计算机视觉中的基本问题[1人类可以很容易地推断出深度，因为我们直观地使用各种线索，并具有天生的感觉。然而，在计算上模拟这种能力是非常具有挑战性的。特别是，与立体匹配[4]和基于视频的方法相比，单目（或单图像）深度估计甚至更加困难，因为缺乏可靠的视觉线索，例如匹配点之间的视差单目深度估计的早期研究试图补偿这种信息的缺乏。一些技术依赖于场景假设，例如盒子模型[5]和典型的室内房间[6]，这使得这些技术仅适用于有限的情况。一些使用额外的数据，例如用户注释[7]和语义标签[8]，这些数据并不总是可用的。此外，还设计了基于几何和语义线索的手工制作特征[9-11]。例如，由于深度图通常在水平或垂直方向上具有相似的值，因此，深度图的值通常与深度图的值相同。M. Heo等人2在[9]中使用了细长的矩形贴片然而，这些手工制作的功能已经过时，最近被机器学习方法所取代随着标记数据的增加，已经提出了许多基于数据的技术。在[12]中，从图像池中对齐的候选者转移深度图。最近，已经提出了许多卷积神经网络（CNN）用于单目深度估计[13-19]。它们自动地、隐式地学习特征来表示深度，而不需要传统的特征工程。此外，几种技术将CNN与条件随机场（CRF）优化相结合，以提高深度图的准确性[15在这项工作中，我们提出了一种新的基于CNN的算法，它实现了准确的深度估计，通过利用深度信息的特点，在更大程度上。首先，我们开发了一种新的上采样块，称为整体条带掩蔽（WSM），利用的趋势，深度是平坦的水平或垂直的场景。我们通过将这些上采样块与深度网络ResNet [20]级联在一起来估计深度图第二，我们使用估计深度的可靠性的概念具体地，我们测量每个像素的估计深度的可靠性（或置信度），并使用该信息来定义CRF的一元和成对电位。通过基于可靠性的CRF优化，我们细化估计的深度图，提高其准确性。我们强调我们的主要贡献如下：– 我们提出了一个深度CNN与新的WSM上采样块的monocular深度估计。– 我们测量估计深度的可靠性，并使用该信息进行深度细化。– 所提出的算法产生最先进的深度估计性能，显著优于传统算法[8，122相关工作在CNN被广泛采用之前，手工制作的特征被用来估计单个图像的深度信息Saxena等人提出的早期方法。[9]，采用马尔可夫随机场（MRF）模型来预测来自多尺度斑块和垂直长形状的柱状斑块的深度。Saxena等人[10]还通过假设场景由小平面组成并推断平面参数集来预测深度。Liu等人。 [11]基于通过语义分割获得的类相关深度和几何先验估计深度。假设语义相似的图像具有相似的深度分布，Karsch等人。[12]通过从数据库中找到相似的图像并扭曲它们来提取深度图。最近，随着深度学习在许多应用中的显着成功-[22-24]中，已经提出了用于单目深度估计的各种基于CNN的方法。Eigen等人。 [13]首先将CNN应用于单眼深度估计。他们基于AlexNet [25]预测了一个粗略的深度图，它与另一个网络在一个很好的规模。Eigen和Fergus [14]用更深的VGGNet [26]取代AlexNet，并使用通用网络来预测深度，基于WSM和可靠性细化的单目深度估计3^图1：所提出的深度估计算法的概述。语义标签和表面法线。 Laina等人[19]通过将上采样块与ResNet [20]相结合来提高深度估计性能，ResNet比VGGNet深约三倍。此外，Lee等人。 [27]将傅立叶域分析的概念引入单目深度估计。这些方法通过采用更深的网络逐渐提高了估计性能。然而，它们通常产生模糊的深度图。可以通过将CNN与CRF优化组合来获得更清晰的深度图。Liu等人。[15]提出了一种基于超像素的算法，该算法将图像划分为超像素，并在网络训练期间学习CRF的一元和成对电位。Li等人 [17]采用了分层CRF。他们在超像素水平上估计深度，然后在像素水平上对其进行改进。此外，Wang等人。 [16]提出了一种用于联合深度估计和语义分割的CNN，并使用双层CRF细化了深度图。这些基于CNN的方法[13-17，19]提供了不错的深度图。在这项工作中，通过在更大程度上利用深度信息的特性，以及通过采用传统方法的优点，我们试图进一步提高深度估计性能。3该算法图1是所提出的单目深度估计算法的概述。我们首先基于ResNet-50架构将输入图像编码为特征向量[20]。然后，我们使用四个WSM上采样块对特征向量进行解码然后，我们将解码结果用于两个目的：1）估计深度图d和2）获得可靠性图α。最后，我们执行CRF优化，以在重新定义的图中执行操作。3.1深度图估计用于生成高分辨率图像（或地图）作为输出的大多数CNN由编码和解码部分组成。编码部分通过池化或卷积层降低输入图像的空间分辨率，编码解码输入图像Estimate d depth深度细化密切可靠性远可靠CRF优化1×1卷积层×2WSMUp samplepl in gblockReliabilit ymapRdefineddepthResNet-50Conv1WSM-up1WSM-up2WSM-up3WSM-up4Rel1预测Rel2规格化反转M. Heo等人4图2：六个物体类的宽度和高度分布，这是室内场景中经常观察到的。中心红线指示第一和第三象限的块的中值和底部图距。大步走对于编码部分，一般来说，在非常大的数据集上预先训练的网络，例如ImageNet [28]，在没有修改的情况下使用或使用较小的数据集进行微调，以加快学习速度并减轻每个特定任务对大型训练数据集的需求另一方面，解码部分使用解池化层或去卷积层来处理输入激活以产生更高分辨率的输出图。换句话说，编码器压缩信号，而解码器扩展信号。众所周知，收缩使网络具有理论上较大的感受野，而无需不必要的许多参数[29]。此外，随着网络深度的增加，感受野变得更大。因此，最近的深度网络，如VGGNet和ResNet-50，具有大于输入图像大小的理论感受野[29，30]。然而，即使在深度CNN的情况下，有效范围也小于理论感受野。Luo等人。 [30]观察到，并非感受野中的所有像素都有意义地影响输出响应因此，仅使用局部图像区域中的信息来产生响应。这在深度估计任务中尤其是不期望的注意，典型图像中的深度表现出非常强的水平或垂直相关性。在图2中，我们分析了六个对象类的宽度和高度分布，这些对象类在NYU深度数据集V2 [31]中的室内场景中观察到，其中语义标签可用。例如，天花板是水平宽的，而门是垂直长的。而且，这种物体内的平均深度变化非常小，小于0。3. 因此，为了可靠地估计像素的深度，需要图像内的整个行或列中的所有信息。传统CNN的有限有效感受野可能会降低深度估计性能。为了克服这个问题，我们提出了一种新的过滤器，称为WSM，上采样块。请注意，典型的卷积层执行零填充以保持与输入分辨率相同的输出分辨率，并使用小尺寸的方形内核，例如，1×1、3×3或5×5。因此，典型的输出值基于WSM和可靠性细化的单目深度估计5(a)（b）（c）（d）图3：WSM层的功效：（a）图像，（b）其地面真实深度，（c）仅使用卷积层的估计深度，以及（d）使用卷积层和WSM层两者的估计深度。+2ଶ3× Ⅺ卷积复制12004年输入要素压缩特征输出要素图4：所提出的3XH WSM层的图示。卷积层仅合并输入特征的局部信息因此，在图中。如图3（c）所示，尽管壁具有类似的特征和深度，但是仅使用卷积层的网络的估计结果不产生壁上的平坦深度。相比之下，为了考虑深度图的水平或垂直平坦特性，所提出的WSM采用长矩形核并且在水平或垂直方向上复制核响应。因此，如图所示如图3（d）所示，所提出的WSM促进了壁上垂直平坦深度的更忠实的假设输入特征的空间分辨率为W×H。图图4示出了3×H WSM层。我们首先仅在水平方向上应用零填充。然后，我们使用3×H掩码执行水平卷积，这会产生大小为W×1的压缩特征图这个压缩的特征图总结了输入特征图的垂直条带中的信息，并被迫在垂直方向上具有最大的感受野。接下来，我们复制压缩的特征以产生与输入具有相同大小的输出特征图。因此，输出特征图中的每个响应组合了对应垂直条带中的所有信息，并且同一列中的所有响应具有相同的值。W×3 WSM也以类似方式执行我们在图1中的每个上采样块中使用3×H和W×3WSM层1.一、注意，所提出的上采样也被称为WSM上采样。然而，在上采样中仅使用WSM层具有一些限制首先，在估计深度时，利用局部信息以及全局信息是重要的。其次，对于大的3×H和W×3掩模，需要大量的参数。为了减轻这些限制，我们采用了[32]中的初始结构Inception结构合并了M. Heo等人6^我渠道输入渠道输出卷积Concat卷积WSMWSM卷积卷积卷积卷积卷积渠道反卷积图5：所提出的WSM上采样块的结构。不同核大小的各种卷积，但首先应用1× 1卷积参数。通过将WSM层的初始结构，建议的WSM上采样试图最大限度地提高网络容量，并整合全球和本地的信息，同时需要一个中等数量的参数。图5示出了WSM上采样块。首先，我们使用去卷积层将特征图的空间分辨率加倍。然后，我们采用1× 1卷积层来降低特征维数，然后应用传统的3× 3和5× 5卷积层以及提出的W×3和3×H WSM层。我们连接所有结果以产生输出特征图。WSM上采样由图1中的整个网络采用。1.我们在编码步骤中使用ResNet-50架构，但删除了最后两个完全连接的层，而是添加了1× 1卷积层以降低特征维度，因为ResNet-50的最后一个卷积层产生了相对较高的特征维度。对于解码步骤，我们级联了四个WSM上采样块，以将输出空间分辨率提高到160× 128。最后，通过1×1卷积层，我们得到一个估计的深度图d。来训练网络在端到端的方式中，我们采用欧几里德损失来最小化由在该时间间隔上的数据点和在该时间间隔上的数据点之间的平方差之和。表1显示了两个关键字。3.2深度图细化如图6，即使所提出的深度估计提供了promisingreult，theestimateddepthmapd？仍然包含残余误差es-特别是在对象边界周围。在各种各样的估计问题中，已经尝试不仅进行估计，而且测量估计的可靠性或置信度（或相反的不确定性）例如，在[33]中的经典运动深度技术中，Matthies等人预测了每个像素处的深度和深度不确定性，并逐步细化估计以降低不确定性。在这项工作中，我们观察到，可以使用来自解码器的用于深度估计本身的相同特征来量化所估计的深度的可靠性，令人惊讶地1.一、我们增强网络以学习可靠性。图1、可靠性图是通过对1×1个约束层的“R e l 1”和“R e l 2”进行加法运算得到的基于WSM和可靠性细化的单目深度估计7我^^ ^您的位置：^将CRF选项的扩展定义为p（d|d（1，α）=1·表1：拟议网络的成本。输入和输出大小由W×H×C给出，其中W、H和C分别是通道的宽度、高度和数量图层名称输入输入大小输出大小编码ResNet-50图像304× 228× 310× 8× 2048Conv1ResNet-5010× 8× 204810× 8× 1024解码WSM-up1Conv110× 8× 102420× 16× 1024WSM-up2WSM-up120× 16× 102440× 32× 512WSM-up3WSM-up240× 32× 51280× 64× 256WSM-up4WSM-up380× 64× 256160× 128× 128预测WSM-up4160× 128× 128160× 128× 1细化Rel1WSM-up4160× 128× 128160× 128× 128Rel2Rel1160× 128× 128160× 128× 1最终放大器层是W SM- up 4。为了让这两个版本的所有版本都能正常运行， |di−dgt|，这是因为采用了粗粒化和欧几里得损失。因此，添加的卷积层的输出为不是可靠性值而是误差估计（或不确定性）。因此，我们将误差估计归一化为[0， 1]，并从1中减去归一化结果以产生可靠性值。图6（d）示出了可靠性图α。我们看到，可靠性图在图1中的实际误差图中的错误区域中产生低值。6（c）.接下来，基于可靠性图α，我们对条件概率进行建模e xp.−E（d，d^，α）ΣZ其中E是能量函数，Z是归一化term.能量函数由下式给出：E（d， d，α）=U（d， d，α）+λ·V（d，α）（1）其中，U是一元项，以使细化深度d类似于估计深度d，并且V是成对项，以使每个细化深度类似于相邻深度的加权和。此外，λ控制两项之间的折衷。一元项定义为U（d，d^，α）=Σαi.di−dΣ（2）2我我其中di、di和αi分别表示像素i通过采用αi，我们强烈鼓励仅当估计深度可靠时，细化深度换句话说，当估计的深度不可靠时，可以在CRF优化期间对其进行显著修改为了对相邻像素之间的关系进行建模，我们使用自回归模型，该模型用于各种应用，例如图像抠图[34]，深度恢复[35]和单目深度估计[17]。此外，以M. Heo等人8我我^^^j·exp不-c∈Cij22· 3·σ2-c∈Cik2· 3·σ2Σ12(a) G rund-truthdgt（b）Estimatedepthd^ （c）Errormap|d^−dgt|（d）Reliabi litymapa图图6：可靠性图的示例在（c）和（d）中，亮色表示比深色高的值。利用图像和深度图的不同特性，我们使用[36，37]中介绍的颜色相似性在这项工作中，我们推广了[35]中的颜色引导自回归模型，基于可靠性图，定义成对项V（d，α）= Σi.di−j∈Ni2ωijd j（三）其中，Ni是p i x el i的11× 11个nig hb或hd。A1是0，ωij是n个像素i和它的邻居j之间的最小值，由下式给出：α。 ΣBi◦（Sc− Sc）其中，Sc表示从图像的颜色通道c中提取的以像素i为中心的5×5块，并且C是三个YUV颜色通道的集合此外，〇表示逐元素乘法，〇1是加权参数，并且T是归一化因子。颜色引导核Bi被定义在以像素i为中心的5×5块上，并且其对应于相邻像素k的元素由下式给出：.（I c− I c）2其中Ic是通道c中的像素i的图像值，并且〇2是参数。（4）中的指数项通过（3）中的成对项V促使具有相似颜色的相邻像素具有相似的深度。此外，由于（4）中的α j，当相邻像素j更可靠时，我们将像素i的深度约束为与相邻像素j的深度更相似。这使得可靠像素的深度传播到不可靠像素的深度，从而提高整体深度图的准确性。我们可以用向量符号重写（1）中的能量函数。E（d， d，α）=（d− d）TA（d− d）+λ（d− Wd）T（d− Wd）（6）其中，A是边形矩阵，其中，边形矩阵是αi，并且W，[ωij]是边形矩阵。最终，可以通过解决以下问题来获得找到的数据ωij=（四）Bi，k=exp（五）基于WSM和可靠性细化的单目深度估计9我DdgtDN我我dgt我10我最大后验（MAP）推断问题：d~=argmaxp（d|（1，（1，（1）=argminE（d，d，a）。（七）由于能量函数是二次的，因此闭合形式的解由下式给出：d~=（A+ λ（I-W）T（I-W））−1Ad^。（八）4实验4.1实验装置实施详情：我们使用Caffe库[38]在具有12GB内存的NVIDIA GPU上实现所提出的网络。我们在编码器中使用预先训练的权重初始化我们分两个阶段训练网络。首先，我们训练深度估计网络，由编码和解码部分组成。学习率初始化为10- 7，当训练误差收敛时降低10倍。批量大小设置为4。动量和重量衰减被设置为0.9和0.0005的典型值其次，我们固定编码和解码部分的参数学习率从10−8开始，而批量大小、动量和权重衰减与第一阶段相同。（1）中的参数λ、（4）中的σ1和（5）中的σ2被设置为1.5、6.5和0.1。训练整个网络大约需要两天时间评估指标：对于定量评估，我们基于四个评估指标[8，13，14]评估所提出的单目深度估计算法– 平均绝对相对误差（rel）：1Σ1010N我10|dˆi−dgt|D我Nigt– A veragelogerror（log）：1Σ|log（di）−log（dgt）|– Rotmeansquarderror（rms）：.1Σ（di−dgt）2– ACCURA CYWithreshdt：PerCNtageofDsucthatmax{di，i}=δ

下载后可阅读完整内容，剩余1页未读，立即下载