利用结构化的自监督室内深度估计

9 浏览量更新于2023-10-13 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12663结构深度：利用结构化的自监督室内深度估计李伯英*，黄元 *，刘泽宇，邹丹平†，于文贤导航与位置服务上海市重点实验室上海交通大学摘要自监督单目深度估计在户外数据集上取得了令人印象深刻的性能。然而，由于缺乏纹理，其性能在室内环境中显著降低。没有丰富的纹理，光度一致性太弱，无法训练良好的深度网络。受室内建模的早期工作的启发，我们利用室内场景中表现出的结构规律来训练更好的深度网络。具体来说，我们采用两个额外的监督信号进行自我监督训练：1）Manhattan法线约束和2）共面约束。Manhattan法线约束强制主曲面（楼板、天花板和墙）与主方向对齐。共面约束规定，如果3D点位于相同的平面区域内，则3D点由平面很好地拟合为了生成监督信号，我们采用两个组件来分类的主要表面法线到主导方向和检测的平面区域上飞行在训练过程中。随着预测的深度在更多的训练时期之后变得更准确，监督信号也得到改善，并且反过来反馈以获得更好的深度模型。通过在室内基准数据集上的大量实验，结果表明我们的网络优于最先进的方法。源代码可在https：//github.com/SJTU-ViSYS/StructDepth网站。1. 介绍从单个图像推断密集的3D地图是一个具有挑战性的问题，直到深度神经网络的蓬勃发展才有令人满意的解决方案使用深度卷积神经网络（CNN），我们可以通过训练网络从单个图像预测准确的深度两人都是第一作者，贡献相等†对应作者：邹丹萍（dpzou@sjtu.edu.cn）.本工作得到了国家自然科学基金（62073214）的资助。图1.我们的自监督单目深度学习利用室内环境的结构规律进行训练。对齐的法线（具有曼哈顿方向）和平面区域在训练中提供了额外的损失，并在推理时产生更好的3D结构。有很多真实的深度标签最近的自监督学习范例不需要地面实况深度，同时仍然在基准数据集上获得高质量的结果，使用光度一致性作为主要的监督信号。然而，当现有的自监督方法在室内图像上训练时，深度估计的质量显着下降[51][3]。主要原因是室内图像中缺乏纹理与室外场景不同，室内场景充满了无纹理区域，例如白色墙壁、天花板和地板。没有丰富的纹理，光度损失变得太弱，无法训练良好的深度模型。因此，寻求更强或额外的监督信号对于训练更好的深度网络是必要的有过几次尝试。通过自监督网络从稀疏SURF[1]流传播的光流场用于引导对无纹理区域的训练[51]。另一种尝试[48]是使用图像块而不是单个像素来计算光计量损失，并对从图像分割中提取的平面区域内的深度应用额外的约束。虽然这些尝试改善了结果，但它们并没有完全消除...12664利用室内环境中呈现的结构规律，这是3D学习的宝贵信息来源。被称为曼哈顿世界模型[6]的结构规则性描述了场景由与主导方向对齐的主要平面组成。这种简单而有效的高级先验在许多视觉任务中产生了更好的性能，例如室内建模 [16][17][5] ，视觉SLAM[50][12][43]和视觉惯性测距[54]，但尚未应用于单目深度学习。在这项工作中，我们建议将室内结构规律的高级先验应用于自我监督的深度估计，如图所示。1.具体而言，我们采用两种额外的监督信号进行训练：1）Manhattan正常约束和2）共面约束。Manhattan法线约束强制主曲面（楼板、天花板和墙）与主方向对齐共面约束规定，如果3D点位于相同的平面区域内，则3D点由平面很好地拟合。我们在训练过程中增加了两个额外的组件。第一个是曼哈顿正常检测。它分类的主要表面法线，从网络预测的深度计算，到与消失点的自适应阈值方案相关联的方向。第二个是平面区域检测。我们融合的颜色和几何信息的深度和应用一个经典的分割算法提取平面区域。在训练期间，两个分量结合估计深度以在运行中产生监督虽然这些信号在早期可能由于不准确的深度而有噪声，但是它们将随着深度质量的改善而逐渐改善，并且反过来有利于深度估计。我们在室内基准数据集上进行实验： [39] ，ScanNet[7]和InteriorNet[28]。结果表明，我们的方法优于现有的国家的最先进的方法。我们的主要贡献如下：1) 利用室内环境的结构规律进行自我监督深度估计的新型学习管道据我们所知，这在以前的工作中没有提出。2) 两个新颖的组件在训练过程中提供额外的监控信号。我们的组件可以用来训练一个多任务网络，包括深度估计，正常估计，平面区域检测，在自我监督的方式，虽然后两个任务用于训练一个更好的深度模型，在我们目前的实施。3) 我们在自我监督的室内深度估计中设置了一个新的最先进的状态2. 相关工作单目深度估计。从单个图像的深度估计是已知为非常难以解决的不适定问题。自从先锋作品[10 9]采用卷积神经网络（CNN）直接回归深度，已经提出了许多基于CNN的单目深度估计方法[31，25，24，42，15]，在基准数据集中产生令人印象深刻的准确结果。它们中的大多数是监督方法，需要地面实况深度数据进行训练。没有地面实况深度的自监督深度学习已经成为一种有前途的替代方案，因为大规模获取地面实况深度具有挑战性。在[19]中首次引入了图像外观，以取代地面实况深度作为监督信号来训练深度网络。立体对中的一个图像被扭曲了与另一视图相差预测深度。然后，合成图像和真实图像之间的差异或光度误差用于监督。这个想法被进一步扩展到单眼设置[52][19]。通过仔细设计网络架构[20]，损失函数[38]和在线细化[4]，自监督方法在基准数据集上获得了令人印象深刻的结果。尽管在室外数据集上实现了令人印象深刻的性能，例如KITTI[18]和Make3D[36]，但现有的自监督方法在室内数据集中表现不佳。原因是室内场景充满了无纹理区域，例如白色墙壁和天花板，使得照片度量损失变得太弱而不能监督深度学习。Zhou等人[51]采用了基于光流的训练范式，由来自光流网络的流场监督，从稀疏SURF [1]对应初始化最近的工作[48]采用更具区分力的补丁而不是单个像素来计算光度量损失，并且还通过假设彩色区域是平面区域来在深度学习虽然他们的方法提高了性能。他们没有充分利用环境的结构优势。此外，[48]中的平面区域假设不适用于具有相同颜色的平面，例如相互垂直的白色墙壁。因此，它导致使深度模型恶化的假平面区域。平面区域检测。虽然强大的平面区域检测器[29][44][49]最近已经提出，并在复杂的室内图像中显示出高质量的结果。这些基于CNN的检测器需要大量的平面标签进行训练，并且不适合自监督学习方案。虽然检测图像中的平面是具有挑战性的，如果深度是可用的，这个任务变得容易得多[35][23]。在这里，我们使用经典的基于图形的分割方法[11]检测平面区域。12665图2.我们的自监督单眼深度学习管道，由三个主要组件组成：a）DepthNet：要训练的神经网络，用于从单个图像预测深度。b）Manhattan法线检测：其将从深度预测估计的表面法线c）平面区域检测：通过基于图的分割，使用颜色和几何信息两者来提取平面区域。在训练迭代期间，平面区域检测利用改进的深度保持更新。两个额外的损失，曼哈顿正常损失和共面损失，用于训练网络，如红点箭头所示更大到[48]，同时采用从训练时动态估计的深度提取的附加几何虽然深度最初可能不精确，但它将随着训练的进行而逐渐改善，使得分割也将改善。与额外的几何信息，我们的方法避免了虚假的平面区域，是无法区分的颜色和纹理丰富的平面区域上产生较少的过度分割。室内环境中的结构规律。室内场景呈现出强烈的结构规律性，可以被描述为也就是说，场景可以被分解成主平面，其中它们的法向量相互正交。这些结构规律性是有价值的先验，已应用于广泛的室内3D视觉任务，如 vSLAM[50][12][43] ， VIO[54] 和映射[16][17][5]。事实上，利用室内场景的结构先验可能是早期从单个图像推断3D信息的唯一几何度量方法[8][26]。很自然地认为结构规则性也应该有益于室内环境中的基于学习的视觉任务。Wang等人。[40]提出使用消失点和线来训练表面法线估计器，其实现了最先进的性能。我们的工作采用了类似的精神，但与他们的不同之处在于，我们的主要任务是深度估计，其中表面法线只是一个中间结果，用于更好的训练。此外，我们的深度网络是以完全自我监督的方式训练的，不需要线图作为额外的输入。据我们所知，我们的工作是第一个将室内环境的结构规律纳入自我监督的单目深度估计。3. 方法我们的自监督深度学习管道如图所示。2.它由三个主要部分组成。第一个是深度网络，它以单个图像作为输入并预测深度图。我们使用与[48]中相同的深度网络架构。基于预测的深度，另外两个组件，曼哈顿正常检测和平面区域检测，用于产生利用室内环境的结构先验的监控信号。曼哈顿法线检测将从深度图计算的法线与从图像中的消失点估计的主导取向对准。平面区域检测应用基于图的分割来检测具有颜色、法线和平面到原点距离信息的组合的平面区域Manhattan法线检测和平面区域检测在初始训练时期可能不准确，但随着深度预测变得更好，它们将在稍后的时期中得到改善改进的监督信号也导致更好的深度预测在以下部分中，我们3.1. Manhattan正规约束主导方向提取。室内环境的结构可以从图像中的结构线估计主导方向。图像中的一组平行结构线的交点是消失点。设V是从2D图像提取的消失点。之一12666∈∈·p··ppMp·ǁ ǁ· ǁǁ.1s≥ γ（4）M←p相机坐标系中的主导方向被计算为η∝K−1v，（1）其中，ηR3是表示该主导方向的单位向量，并且K是相机固有矩阵。注意，我们只需要两个消失点来获得所有的主方向，因为第三个主方向可以通过叉积来获得。我们应用双线搜索方法[32]从图像中提取主导方向在训练之前仅进行一次主导方向提取。提取的方向和它们的相反方向都被认为是场景中的主平面（诸如天花板、地板和墙壁）的可能的法线方向。表面法线估计。为了估计表面法线，我们首先通过下式从预测深度获得每个像素pXp= D（p）K−1p。（二）这里，D（p）表示由深度网络预测的深度。接下来，我们采用可微的点到法线层[45，46，22]来从3D点估计表面法线。具体地，给定像素p的法线np是从以点Xp为中心的小邻域内的一组3D点计算的。在我们的实现中，邻域被设置为7 ×7，图3.平面区域检测流水线。该算法利用颜色和几何信息计算平面区域分割的相异度。通过比较RGB颜色来计算颜色相异性几何不相似性是法线和平面到原点距离不相似性的总和。基于所提出的相异性，应用基于图的分割[11]来提取平面区域。在我们的实现中，阈值γ随着迭代次数N train线性增长：γ=α N train+β，其中α和β被设置为1。633e-3和0。9分别。曼哈顿正常损失。我们通过使用（3）中获得的对齐法线作为监督信号来在曼哈顿区域内应用曼哈顿法线约束。该约束强制所估计的法线尽可能接近对齐的法线，这由损失函数L范数描述：L=1ΣMM MP（1 − s（n，nalign））（5）N曼哈顿正常检测。从表面上看-mal predictionn，我们提出了曼哈顿正态检测规范啪啪啪啪范数p用于对属于主导平面的表面法线进行分类。我们的策略是通过使用余弦相似度s（，）来比较估计的法向量np与每个主导方向ηk之间的差异，并选择具有最佳相似度的一个，即nalignarg maxs（np，ηk）（3）ηk其中，n_align是对齐的法线，并且余弦相似性被定义为s（n_p，η_k）=（n_pη_k）/（n_pη_k）。设每个像素的最大相似度为smax。我们将曼哈顿面具定义为：其中Nnorm是位于曼哈顿区域的像素的数量，P表示像素p是否位于平面区域，我们3.2. 共面约束平面区域检测。为了加强共面约束，我们需要正确地检测分段平面区域。先前的工作[48]通过假设具有均匀颜色的区域是平面的来检测平面区域。然而，这种简单的策略通常会导致错误检测或过度分割，从而产生错误的监督信号。Mp=最大p0s最大 γnals。我们提出了一种新的平面区域检测方法，如图所示。3，综合颜色和在线更新的几何信息提取平面其中1和0分别表示曼哈顿和非曼哈顿区域在训练过程中，我们使用一个自适应阈值方案检测曼哈顿地区。我们最初设置了一个相对较小的阈值，以允许更多的像素被分类到曼哈顿区域，因为不准确的正常估计，并逐渐增加阈值，因为正常的估计在以后的时期变得准确在地区更可靠。关键的想法是，我们采用了一种新的相异度图在下面的基于图的分割。这种不相似性考虑了颜色、法线和平面到原点的距离。我们使用对齐的法线来推导相异性，而不是估计的法线，因为我们发现后者太嘈杂。设像素p的3D坐标为Xp。假设该3D点位于12667p对齐对齐-∈pppppQnnnnnpp平面N平面ppp照片SSIM不pSp∈LSSIM=SSIM（It[N]，Is[N-]）图4.在训练过程中提出的平面区域检测从左到右列：输入图像，地面真实深度，估计深度，相异性图，以及仅通过颜色[48]检测的平面区域和我们基于颜色和几何信息的方法。第一行：两堵墙不能用颜色区分，但可以用我们的方法分开。第二行：仅使用颜色对地板进行过度分割，但可以通过我们的方法正确检测。normal是aligned normalnalign。平面到原点的距离计算为dp=−X Tnali gn。（六）设q是p的相邻像素。它们之间的正常相异度被定义为两个向量之间的欧几里得距离：Dn（p，q）= n − n。（七）分别用D_max、D_min表示所有相邻像素之间的最小和最大相异性，我们定义[·]算子来通过以下来归一化相异性：[Dn（p，q）]=（Dn（p，q）-D min）/（Dmax-Dmin）。（ 8）平面到原点距离相异度被定义为请注意，我们的平面区域分割在训练期间更新。随着训练的进行，逐渐提高的深度导致更好的分割，反之亦然。nar区域，我们调用共面约束来展平位于这些平面区域内的3D点。第一步是平面区域内的3D点的平面拟合。我们通过求解最小二乘问题得到了平面参数θ=n/dR3XTθ=1，（ 13）其中，XR3×N的每一列表示平面区域内的3D点。之后，通过平面拟合的像素p的逆深度ρρ被计算为ρplane=θTK−1p=1/Dplane，（14）Dd（p，q）= |d p− d q|.（九）几何相异性将两个相异性的归一化版本组合为Dg（p，q）=[Dn（p，q）]+[Dd（p，q）].（十）颜色相异性计算为Dc（p，q）=Ip−Iq，（11）其中K表示相机固有矩阵。然后我们将逆深度变换为具有最大和最小保护的深度D平面，如下[19，20，48]。共面损耗。从平面拟合获得的深度D平面然后被用作额外信号以约束估计。配合深度损失函数定义为L=1海里/小时D-D平面。，（15）p其中Ip、Iq是RGB颜色。最后，我们通过以下方式获得结合颜色和几何信息的D（p，q）= max（[Dc（p，q）]，[Dg（p，q）]）。（十二）基于相异性，我们应用基于图形的分割[11]并过滤掉小区域以获得[48]之后的使用这样一种方法的好处是...其中N平面是平面区域内的像素的数量GionsMP.3.3. 全损我们使用图像块而不是单个像素来计算如[48]中所建议的光度损失，其被定义为L1损失和结构相似性损失SSIM的组合[53]：相似性定义可以在图1中看到。4. 比较由于只利用了颜色信息，避免了错误的t t→sL=ωL+（1−ω）I[N]−I[N]生成共面深度。在检测pla-112668不能通过颜色区分的平面区域以及由不同颜色引起的过分割。t t sp p（十六）12669↑↓×N←图5. NYUv2结果的可视化，通过在屏幕上放大可以更好地查看。深度结果位于左列，曲面法线结果位于右列。Monodepth 2[20]、P2 Net[48]和地面真实深度/法线的结果用于比较。与P2 Net[48]和Monodepth 2 [20]相比，我们的方法获得了更好的表面法线和深度估计，如红色矩形所示。请参阅选项卡。1和Tab。2为定量结果。前两个块列出了监督方法的结果。第二块包含具有平面检测的监督方法。第三和第四块列出了自监督方法的结果。表示越低越好，表示越高越好。我们的方法在自我监督的方法中表现最好。√- 监督学习- 自我监督学习pp-使用如[19]表1.NYUv2数据集上的深度估计结果其中p表示围绕p的局部窗口。ω是两个部分的相对重量，并设置为0。85与以前的工作相同我们还采用了边缘感知平滑损失L平滑= |xρt|e−|xIt|+的|∂yρt|e−|it|、（十七）其中ρt ρt/ρt是平均归一化逆深度，x，y是沿x和y方向的梯度。总损失定义为L=Lphoto+λ1Lsmooth+λ2Lnorm+λ3Lplane ，（ 18 ）其中λ1、λ2和λ3分别被设置为0.001、0.05、0.14. 实验结果我们在NYUv 2数据集上训练我们的模型[39] us-将数据拆分为与先前工作相同的数据[51][48]，并在NYUv2[39]，ScanNet[7]和InteriorNet[28]数据集上评估我们的方法。我们在训练图像上检测消失点，并跳过未能检测到有效消失点的18个图像序列这导致21465 monocular- ular训练序列和 654个图像用于验证。每个单目训练序列由五个帧组成。我们的网络模型采用与[48]相同的架构。我们比较我们的方法与单目深度估计的最先进的方法。除了深度估计，我们还评估了表面法线估计的性能，并提出了消融研究的有效性，更多的结果可以在补充材料中找到。方法辅助核算RMS↓AbsRel↓ Log10↓ δ1↑δ2↑δ3↑Hu等人（2019年）[21]Yin等人（2019）[47]AdaBins（2021）[2]Niklaus et al.（2019年）[33]√√√√√0.5300.4160.3640.3000.1150.1080.1030.0800.0500.0480.0440.03086.687.590.394.097.597.698.499.099.399.499.7100.0PlaneNet（2018）[30]PlaneReg（2019）[49]√0.5140.5030.1420.1340.0600.05781.282.795.796.398.999.0[2019年][51]Monodepth2（2019）[20]P2Net（2020）[48]我们我们的+pp×××××0.7120.6000.5610.5400.2080.1610.1500.1420.0860.0680.0640.06067.477.179.681.390.094.894.895.496.898.798.698.812670××方法RMS↓AbsRel↓Log10↓δ1↑δ2↑δ3↑[20]0.8170.3680.12458.681.589.8P2网络[48]0.7370.3460.11564.283.390.2P2Net-finetune0.7360.3400.11464.483.390.3我们0.7150.3300.11166.084.090.5表2. NYUv2上的表面法线估计结果。我们报告的结果，表面正常的估计网络在第一块。从深度网络计算的正常结果在第二和第三块中，其中ods和' ’表示自我监督的。正常计算-对于所有方法来说，这是相同的我们的方法优于现有的单目深度估计方法在表面法线估计。图6.使用NYUv2上的训练模型的ScanNet结果地面实况中的孔被排除在评估之外。方法RMS↓AbsRel↓Log10↓δ1↑δ2↑δ3↑[20]0.4510.1910.08069.392.698.3P2网络[48]0.4200.1750.07474.093.298.2P2Net-finetune0.4120.1720.07374.393.598.4我们0.4000.1650.07075.493.998.5表3.使用NYUv2上的训练模型的ScanNet结果图7.InteriorNet结果与NYU V2上的训练模型表4.InteriorNet结果与NYUv2上的训练模型4.1. 实现细节基于预训练模型，该网络总共训练了50个时期，批量大小为32 [48]。我们使用亚当优化器和多步学习率降低策略。我们将初始学习率设置为10−4，然后在第26个epoch和第36个epoch将其衰减0.1我们在训练过程中进行随机翻转和颜色增强所有的图像首先是不失真的，从边界裁剪16个像素，然后缩放到288 384进行训练。相机内部参数来自官方规格[39]，并进行调整以与图像裁剪和缩放一致。我们遵循[20，48]中使用的相同标准进行评估。也就是说，我们的深度上限为10米，并使用中值缩放策略，以避免单目深度估计的规模模糊。评估度量包括均方根误差（RMS）、绝对相对误差（AbsRel）、平均 log10 误差（ Log10 ）和阈值下的准确度（ δ11<）。25i，i = 1，2，3）。4.2. NYUv2数据集深度估计。深度估算的定量结果列于表1。1.结果表明，我们的方法优于MovingIndoor[51]和P2Net[48]，这是室内单目深度估计的最先进的自监督方法。实验结果还表明，该方法优于一些监督方法。深度估计结果在图1中可视化5. 我们可以看到，我们的方法获得更准确的室内结构和更平滑的平面比现有的方法。表面法线估计。我们还评估了表面法线估计，如表1所示。2.我们的方法优于现有方法，也优于一些监督方法[13，34，15]。结果也显示在图1D中。五、4.3. ScanNet和InteriorNet我们使用仅在NYUv2上训练的模型来评估我们推广到其他室内数据集的方法。ScanNet[7]使用连接到iPad的深度摄像头捕获，包含在1513个场景中捕获的约250万RGBD视频我们使用[48]提出的测试分割，其中包括533个图像。评价结果见表。 3和图6. InteriorNet[28]是室内视频序列的合成数据集，包含数百万精心设计的室内设计布局，家具和对象模型。由于InteriorNet上目前没有用于深度估计的官方训练/测试分割，因此我们从完整数据集的HD 7数据中随机选择了540张图像评价方法火车平均值↓11.2◦↑22.5◦ ↑30◦ ↑表面法线估计网络√3DP（2013）[13]Fouhey等人[14] Wanget al.（2015）[41]Eigen et al.2015年[9]√√√33.035.228.823.718.840.535.239.240.754.157.162.052.458.965.571.1根据深度√[2018年]√36.615.736.549.4[2019年][51]Monodepth2（2019）[20]P2Net（2020）[48]我们我们的+pp×××××43.545.136.634.534.210.210.415.021.922.626.827.336.744.444.737.937.649.055.255.412671结果显示在表中。4和图7.第一次会议。虽然ScanNet和InteriorNet尚未用于训练，但结果表明，我们的方法仍然具有很好的泛化能力，并且优于现有的方法。方法RMS↓AbsRel↓Log10↓δ1↑δ2↑δ3↑P2网络[48]0.5610.1500.06479.694.898.6P2Net-finetune0.5550.1470.06280.495.298.7仅共面0.5480.1440.06180.895.398.8仅正常0.5430.1430.06181.095.598.9我们的（全部）0.5400.1420.06081.395.498.8表5.使用不同监测信号的消融研究。我们评估的性能，仅使用曼哈顿正常的约束（正常的），仅使用共面约束（共面的），和所提出的方法（我们的（全））。最后给出了P2Net-finetune模型的优化结果请注意，所有模型都使用相同数量的epoch进行训练，以进行公平比较。4.4. 消融研究为了更好地理解我们方法的每个部分的有效性，我们通过在NYU V2数据集上改变我们模型的我们使用预训练模型[48]初始化网络，并使用建议的监督信号对其进行训练结果见表。5.无论是曼哈顿正常损失或共面损失导致的深度估计优于原始和原始微调方法。将它们结合在一起可以获得最大的性能增益。我们还测试我们的方法使用不同的网络architec-tures。如Tab.所示。6、利用所提出的监控信号，对两种模型进行了改进，表明该方法对不同的网络结构具有通用性。但是基于Monodepth2的结果比基于P2Net的结果要差这在很大程度上是由于基于块的光度损失，如[48]中所建议的，其对于纹理较少的区域更好。4.5. 训练中的平面区域检测我们在图1中示出了训练期间的中间平面区域检测结果。8.结果表明，随着深度和法线估计的更新，平面区域分割逐渐改善。相比之下，仅颜色方法产生如红色矩形所指示的假平面区域。火车RMS↓AbsRel↓ Log10↓δ1↑δ2↑δ3↑使用Monodepth2 [20]架构原始0.6000.1610.06877.194.898.7Original-finetune0.5980.1590.06777.594.998.7我们0.5640.1510.06579.195.098.8使用P2Net [48]架构原始0.5610.1500.06479.694.898.6Original-finetune0.5550.1470.06280.495.298.7我们0.5400.1420.06081.395.498.8表6.使用不同网络架构的消融研究。我们额外的训练损失改善了两个模型，表明我们的方法对不同的架构具有通用性。图8.第一行：通过仅颜色方法检测到的平面区域底部行：NYUv2上不同时期的估计深度、表面法线和分割结果。随着训练的进行，我们的分割结果逐渐改善。5. 限制我们讨论了我们的方法的局限性第一个限制是提取主导方向高度依赖于曼哈顿世界假设。它可能无法很好地工作在室内场景与不规则布局包含斜面。可能的解决方案包括使用如[37][54]中的曼哈顿世界假设的放松版本，或者直接使用来自每个检测到的消失点的估计方向来导出法线约束。换句话说，这些主导方向不限于相互垂直。第二个限制是应避免初始深度的低质量。由于我们的平面区域检测依赖于深度信息，因此低深度质量将破坏分割结果并生成错误的监督信号，这反过来又会阻止网络收敛到一个好的模型。我们的解决方案是使用预先训练的深度模型，或者只在早期阶段使用光度和平滑度损失来训练模型。它为设计一个更好的平面区域检测器提供了低质量的初始深度估计。6. 结论在本文中，我们建议利用单目深度估计的室内环境的结构regularities。两个额外的损失，曼哈顿正常损失和共面损失，用于监督深度学习。这些监控信号在训练期间通过曼哈顿正常检测和平面区域检测实时生成。我们的方法在室内基准数据集上实现了最先进的结果。12672引用[1] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。欧洲计算机视觉会议论文集，第404-417页。Springer，2006年。[2] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. Adabins ：使用自适应箱的深度估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第4009-4018页，2021年[3] Jia-Wang Bian，Huangying Zhan，Naiyan Wang，Tat-Jun Chin，Chunhua Shen，and Ian Reid.在具有挑战性的室内视频中进行无监督深度学习：整改不力要抢救。arXiv预印本arXiv：2006.02708，2020。[4] 陈宇华，考迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习：连接流量，深度和摄像头。在IEEE/CVF计算机视觉国际会议论文集，第7063-7072页[5] Alejo Concha 、 Muhammad Wajahat Hussain 、 LuisMontano和Javier Civera。稠密单目映射的曼哈顿和分段平面约束。机器人：科学与系统，2014年。[6] James M Coughlan和Alan L Yuille。曼哈顿世界：基于贝叶斯推断的单幅图像罗盘方位。 IEEE/CVFInternational Conference on Computer Vision，第2卷，第941-947页。IEEE，1999年。[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别国际会议论文集，第5828-5839页，2017年。[8] Erick Delage，Honglak Lee和Andrew Y Ng。室内单幅图像自主三维重建的动态贝叶斯网络模型。在IEEE计算机视觉和模式识别国际会议论文集，第2卷，第2418-2428页。IEEE，2006年。[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在IEEE/CVF国际计算机视觉会议论文集，第2650[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度2014年[11] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59（2）：167[12] Alex Flint Christopher Mei Ian Reid和David Murray为视觉大满贯建立语义有意义的模型在IEEE计算机视觉和模式识别，第467IEEE，2010。[13] David F Fouhey，Abhinav Gupta，and Martial Hebert.用于单个图像理解的数据驱动的3d基元。在IEEE/CVF计算机视觉国际会议论文集，第3392-3399页，2013年。[14] David Ford Fouhey，Abhinav Gupta，and Martial Hebert.展开一个室内折纸世界。欧洲计算机视觉会议论文集，第687-702页。Springer，2014.[15] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别国际会议集，第2002-2011页[16] Yasutaka Furukawa，Brian Curless，Steven M Seitz，andRichard Szeliski.曼哈顿世界立体声。在IEEE计算机视觉和模式识别国际会议论文集，第1422-1429页。IEEE，2009年。[17] Yasutaka Furukawa，Brian Curless，Steven M Seitz，andRichard Szeliski.从图像重建建筑物内部。在IEEE/CVF计算机视觉国际会议论文集，第80-87页IEEE，2009年。[18] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别国际会议论文集，第3354- 3361页。IEEE，2012。[19] Clément Godard，Oisin Mac Aodha，and Gabriel J Bros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别国际会议论文集，第270-279页[20] Clément Godard，Oisin Mac Aodha，Michael Firman，and Gabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议集，第3828[21] Junjie Hu ， Mete Ozay ， Yan Zhang ， and TakayukiOkatani.重新审视单幅图像深度估计：实现具有准确对象边界的更高在 IEEE Winter 计算机视觉应用会议（WACV），第1043-1051页中。IEEE，2019。[22] Masaya Kaneko，Ken Sakurada，and Kiyoharu Aizawa.三深度：基于三角形块的深度预测。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页[23] Pyojin Kim，Brian Coltin，and H Jin Kim.用于平面环境的线性rgb-d在欧洲计算机视觉会议论文集，第333-348页[24] Seungryong Kim，Kihong Park，Kwanghoon Sohn，andStephen Lin.通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。欧洲计算机视觉，第143-159页。施普林格，2016年。[25] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D视觉国际会议上，第239-248页。IEEE，2016.[26] David C Lee，Martial Hebert和Takeo Kanade。单图像结构恢复的几何推理2009年12673IEEE计算机视觉和模式识别会议，第2136-2143页。IEEE，2009年。[27] Boying Li，Danping Zou，Daniele Sartori，Ling Pei，and Wenxian Yu. Textslam：具有平面文本特征的视觉slam。在IEEE机器人和自动化，第2102IEEE，2020年。[28] Wenbin Li ， Sajad Saeedi ， John McCormac ， RonaldClark ， Dimos Tzoumanikas ， Qing Ye ， YuzhongHuang，Rui Tang，and Stefan Leutenegger.内部网：大规模多传感器照片逼真的室内场景数据集。2018年英国机械视觉会议[29] Chen Liu ， Kihwan Kim ， Jinwei Gu ， YasutakaFurukawa，and Jan Kautz.Planercnn：从单幅图像进行3d平面检测和重建。在IEEE计算机视觉和模式识别国际会议，第4450-4459页[30] 刘晨，杨集美，杜伊古·锡兰，埃尔辛·尤默，古川雅秀.Planenet：从单个rgb图像进行逐段平面重建。在IEEE计算机视觉和模式识别国际会议论文集，第2579-2588页[31] Fayao Liu，Chunhua Shen，Guosheng Lin，and Ian Reid.使用深度卷积神经场从单目图像学习深度。 IEEETransactionsonPatternAnalysisandMachineIntelligence，38（10）：2024-2039，2015.[32] Xiaohu Lu ， Jian Yaoy ， Haoang Li ， Yahui Liu ， andXiaofeng Zhang.2-曼哈顿世界中用于实时消失点估计的线穷举搜索。在IEEE Winter Conference on Applicationsof Computer Vision（WACV

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

利用结构化的自监督室内深度估计

自监督单目深度估计方法的改进及其重要性

自监督单眼深度估计：解决边肥问题

室内环境下的自我监督单目深度估计方法

门控图像的自监督深度估计方法

设计并验证一种基于语义分割的无监督深度估计算法

深度估计cityscapes数据集

单目深度估计3d视觉工坊百度云

人员结构化算法和结构化算法的关系

基于全景图的深度估计方法研究与实现

对非结构化文本进行信息提取、结构化，采用什么深度学习模型比较好

如何由lambert模型做单目深度估计

DSS主要 解决的是 （ ） A 半结构化决策和非结构化决策问题 B 结构化决策和半结构化决策问题 C 非结构化决策问题 D 结构化决策问题

nlp非结构化数据转结构化

基于单目视觉的深度估计，及它与双目视觉的深度估计的区别，他们在电网安全监测方面有啥应用

opencv 单目深度估计c++

在mimic iii中使用结构化和非结构化数据预测30天icu再入院率

单目深度估计 有什么高精度的方法

结构化数据半监督多分类Python实现

详细介绍一下自监督学习

最新资源

DSS主要解决的是（） A 半结构化决策和非结构化决策问题 B 结构化决策和半结构化决策问题 C 非结构化决策问题 D 结构化决策问题

单目深度估计有什么高精度的方法