基于轻量级三维点融合的单目深度估计方法的研究及应用

33 浏览量更新于2023-10-14 收藏 2.52MB PDF 举报

单目深度估计

轻量级网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12767基于轻量级三维点融合的单目深度估计Lam Huynh1Phong Nguyen1Jiri Matas2Esa Rahtu3Janne Heikkila¨11奥卢大学2布拉格捷克技术大学3坦佩雷大学摘要在本文中，我们建议通过添加3D点作为深度指导来增强单目深度估计。不像现有的深度完成方法，我们的方法表现非常稀疏和不均匀分布的点云，这使得它不可知的3D点的来源。我们通过引入一种新的多尺度三维点融合网络来实现这一点，该网络既轻便又高效。我们证明了它的多功能性，在两个不同的深度估计问题的3D点已获得与传统的结构从运动和Li-DAR。在这两种情况下，我们的网络与最先进的深度完成方法相当，并且在仅使用少量点时实现了显著更高的精度，我们表明，我们的方法在准确性和紧凑性方面都优于一些当代基于深度学习的多视图立体和运动恢复结构方法1. 介绍来自2D图像的深度估计是经典的计算机视觉问题，其主要通过来自多视图几何的方法来解决[15，45]。传统的立体声、运动恢复结构和SLAM方法已经很好地建立并集成到许多实际应用中。然而，它们依赖于特征检测和匹配，这可能是具有挑战性的，特别是当场景缺乏明显的细节时，并且因此3D重建通常变得稀疏和不完整。最近，已经引入了基于学习的方法，其通过利用从训练图像学习的先验来实现密集深度估计。特别地，仅利用单个图像与学习的先验结合的单目深度估计已经成为流行的研究领域，其中深度神经网络用于实现直接预测给定输入图像的深度图的模型[39，4，17，33，55，19]。虽然基本思想简单而有吸引力，但单目深度估计方法的精度受到缺乏强几何约束的限制像视差这样的限制。因此，可以利用基于深度学习的多视图立体方法[53，54，34，2]来实现相当准确的深度图然而，准确性是以增加的计算复杂度为代价的，因为需要通过网络聚合多个图像以产生单个深度图。用于密集深度估计的另一种方法是从像LiDAR这样的深度传感器开始，并且使用深度完成来基于RGB数据对缺失的深度值进行插值。尽管最近的方法取得了令人印象深刻的结果，如[56，36，18]，但它们主要适用于具有相对高的3D点密度的情况，但对于稀疏点云表现不佳。在本文中，我们从单目深度估计开始，并使用一组3D点作为约束，以获得高质量和密集的深度图，如图1所示。我们的方法与先前深度完成方法的主要区别在于点云可以是极其稀疏且不均匀采样的，这使得能够使用用于获取3D数据的各种方法，包括常规的多视图立体、运动恢复结构和SLAM管线，以及诸如LiDAR的范围传感器。我们认为，稀疏性是重要的，因为它提供了灵活性和成本节约深度传感。例如，在移动成像中，现有的AR框架，即ARCore [23]，ARKit [22]和AREngine [24]提供稀疏的3D点云，而在机器人和自动驾驶应用中，低分辨率范围传感器就足够了。为此，我们提出了一种新的基于学习的方案，用于融合RGB和3D点数据。更具体地说，我们的贡献如下：• 我们介绍了一种新的多尺度3D点融合神经网络架构，这是更轻量级的比现有的国家的最先进的深度完成方法，同时能够有效地利用由稀疏的3D点集提供的几何约束。• 我们在NYU-Depth-v2和KITTI数据集上展示了最先进的结果，与其他最近的架构相比，该网络仅使用了一小部分参数。12768RGB图像输入输出深度侧视图俯视图前视图门绘画一B表输出置信度1.0一B0.8AB稀疏点输入0.60.4深度预测置信度稀疏点0.2a0级50100 150 200 250 300B稀疏重建点融合网络图1. NYU-Depth-v2 [44]测试集上的密集深度预测。点云是由传统的基于点的稀疏重建方法产生的。稀疏的3D点和单个RGB图像被馈送到网络以估计高质量的深度图。密集的重建点云（右上）很好地保留了几何形状。图表（右下）示出了沿着估计的深度图、置信度图和采样点的A-B线的值。估计深度值趋向于采样点值。采样点区域周围的置信度值较高。（图表中的所有值均已归一化，稀疏点已增强以实现可视化）• 我们还表明，我们的方法与通过使用COLMAP[43，42]获得的3D点云相结合，在准确性和紧凑性方面都优于最近基于深度学习的多视图立体2. 相关工作单幅图像深度估计（SIDE）：SIDE由Saxena等人首次引入。[41]它从Eigen等人的工作中获得了动力。[10、9]。从那时起，相关研究的数量迅速增长[28，14，37，40，30，41]。26、17、4、12、39、33、32、29、19]。首先，所提出的SIDE方法通过采用大型架构[28，17]和更复杂的编码-解码方案[4]来提高准确度。然后，他们开始使用语义标签[26]，利用深度和表面法线之间的关系[37]，重新制定为分类问题[14]或混合两者[40]。其他研究建议估计相对深度[30]或学习校准模式以提高泛化能力。最近的SIDE方法利用单眼先验，例如遮挡[39]，以及显式[33，32，55]或隐式[19]的平面结构尽管做出了这些努力，SIDE对看不见的数据的概括仍然很差。在这项工作中，我们利用SIDE从稀疏深度估计密集深度：深度补偿是一个相关的问题，其目的是对不完整的深度图进行加密或修补。Diebel和Thrun [8]是使用马尔可夫随机场解决这个问题的首批研究之一。Hawe等人。[16]使用小波分析估计视差。随着商品化深度传感器和激光扫描仪（或LiDAR）变得更加可用，该问题变得流行。Uhrig等人[47]提出了稀疏卷积来训练稀疏不变网络。Jaritz等人[25]利用语义在不同的稀疏水平上训练网络。Ma等人[35]将稀疏深度图连接Xu等人[51]使用深度法线约束填充缺失的深度值Imran等人[21]使用深度系数作为表示来解决深度完成问题。Qiu等人。[38]建议使用学习的注意力地图进行深度和正常融合。基于空间传播网络（SPN）迭代的方法在局部[6，7]或非局部[36]亲和性中优化密集深度图。Chen等人。[5]建议融合图像和3D点的特征以产生密集深度。然而，这些深度完成方法通常针对其中点来自LiDAR的室外深度补全问题的难度很大程度上取决于用作算法输入的3D点的密度。例如，LiDAR可以产生相对密集且规则采样的点云，而没有大的孔，而被动的基于图像的3D重建12769投影连接2D卷积输入要素输出要素×个×× ×RGB图像输入提取低级特征FusionNet 1FusionNet 2FusionNet 3融合Net 4FusionNet 5最终深度预测稀疏点输入图2.3D点融合网络的概述架构我们的模型由五个融合网络组成，在以最高空间分辨率预测最终深度图之前，以多尺度迭代提取和融合诸如立体或SLAM之类的技术导致基本上更稀疏的点集，其中采样是高度不规则的并且取决于表面细节。因此，我们认为，当使用来自基于图像的重建而不是来自LiDAR的稀疏点云时，深度完成变得更加困难，因此，它还需要更好的深度正则化。为此，我们引入了一种新的3D融合点网络，该网络有效地学习融合图像和几何特征，以提高单目深度估计网络的性能。这是一种通用的方法，可以利用来自各种来源和环境的RGB和3D点数据。它可以处理通常比室外环境更多样化和更有挑战性的室内场景，但它也可以用于从街景场景进行深度估计。我们的工作受到[5]的启发，但我们不是以相同的分辨率顺序融合特征，而是建立一个更深层次的模型来提取和融合多尺度的特征这是至关重要的，因为[5]已经被开发用于LiDAR数据的深度完成，并且如我们的实验所示，它在稀疏的点集上失败，而由于多尺度方法，我们的方法可以从几个甚至零深度测量中实现合理的精度。3. 方法我们的3D点融合网络的概述如图2所示。它是一个完全卷积的框架，将RGB图像和稀疏3D点作为输入来估计密集的深度图。3D点用作约束以固定由网络产生的深度图的整体几何形状。为了处理非结构化3D点云，首先将点投影到图像平面，并且使用它们的z坐标来创建稀疏深度图。接下来，RGB图像与稀疏深度堆叠以形成RGBD图像。我们还将两个卷积层分别应用于稀疏深度和RGBD图像。这两个输出被级联以构建被馈送到第一融合网络模块的低电平输入特征。核心网络由在不同特征分辨率下操作的五个融合网络组成。每个融合网络包含特征融合编码器（E）、置信度预测器（C）、解码器（D）和细化（R）模块，如图3所示。我们在下面的小节中描述这些模块，并通过详细介绍损失函数来结束本节3.1. 特征融合编码器卷积神经网络擅长处理张量形式的规则采样数据。因为我们的输入点云是稀疏的，并且它们表示与图像数据不同的几何约束，所以我们不能仅仅依靠简单的串联来融合信息，而是需要更好的表示。受最近的深度完成方法[5]的启发，我们设计了一个特征融合编码器来从RGB图像和3D点中提取低级特征。我们的特征融合编码器将3D张量（C H W）和一组稀疏点（3N）作为输入，其中C是特征通道的数量，H和W是输入张量的高度和宽度，并且N是3D特征通道的数量。点输出是具有与输入张量类似形状的3D张量。特征融合编码器的细节在图3的灰色框中示出。它由两个2D分支，一个3D分支和一个用于特征融合的卷积层组成。2D卷积分支：2D分支以两种不同的分辨率进行卷积，以从输入3D张量学习多尺度表示。第一个2D分支具有一个卷积层，其步幅为1，以提取与输入体积相同大小的特征第二2D分支是步长二卷积、步长一卷积和上采样层的级联，以获得输入张量的较粗糙特征。对两个输出求和以聚合不同分辨率的外观特征。3D点卷积分支：3D分支旨在从稀疏点提取结构特征。这对于在局部邻居上操作的2D卷积是困难的，因为3D点位于不规则网格上因此，我们认为，12770∈×个×个×× ××× ××× ×图3. Fusion-Netn[1，5]的详细信息，其中n是尺度分辨率。主要组件包括特征融合编码器（E）、置信度预测器（C）、解码器（D）和细化（R），分别被颜色编码为灰色、青色、橙色和黄色我们利用直接在3D点上操作的特征核对齐卷积（FKA-Conv）[3]来避免这个问题。FKAConv的关键思想是学习线性变换以将相邻点与网格状内核对齐。之后，它执行该内核与3D点的特征可以看出，2D卷积是一种特殊情况，其中学习的线性变换总是单位矩阵。如图3所示，我们的3D分支由两个FKAConv层组成。我们首先使用它们在图像平面上的投影2D指标从输入张量提取3D点的特征。此卷的大小为C N.接下来，我们将点特征及其3D坐标馈送到FKAConv层。FKAConv为每个输入点选择一组k-相邻点，并学习变换矩阵以将3D点与其内核对齐然后将点特征与对齐的3D点进行卷积以产生形状C N的2D张量。使用投影的2D索引将输出特征投影回大小为C H W的空3D张量。其他位置的特征设置为零。可以显著地减小我们的解码器的尺寸并改进设计。也就是说，我们的解码器和细化模块对于每个组件只有两个卷积层为了进一步简化，我们对所有融合网使用相同的解码器和细化设计。如图3的橙色框所示，解码器在将来自编码器的融合特征馈送到细化模块（图3中的黄色框）之前对其进行变换。然后，我们最初获得解码器的输出张量和深度图。估计的置信图稍后修改这两个输出。置信度预测值：虽然输入3D稀疏点提供有用的深度测量，但是它们也可能包含噪声。因此，我们提出了一个简单而有效的信心预测衰减噪声的影响。如图3的青色框所示，来自特征融合编码器的输出体积被馈送到三个卷积层，随后是S形以输出每个像素的概率。该信息然后用于改变解码器的初始深度图和输出特征2D-3D特征融合： 2D的输出体积图像重构地面实况并且 3D 分支具有与输入张量（ CH ）相同的形状W）。因此，为了融合这些特征，我们在应用2D卷积层以输出大小为C的3D张量之前将它们求和在一起 HW.最后，我们添加了一个残差连接，以避免在训练过程中梯度消失。3.2. 编码器、解码器和置信度预测器模块编码器和解码器模块：设计有效的解码器和细化模块对于深度估计问题是必不可少的[13，50]。常见的做法是创建大型且复杂的解码器，以产生具有锐利边缘和精细细节的准确深度然而，我们认为0.01.0信心误差图点云预测深度图点云地面实况深度图通过迭代地融合来自3D点的相关深度测量与来自图像像素的外观特征，我们图4.通过预测置信度进行深度图校正（绿色箭头）。置信度图值的范围为0.0（低）到1.0（高）。来自fusion-net n-1或低级特征的输入来自融合网络n+1的输入到融合网络n+1的输出馈送输出馈送到融合网络n-1逐通道乘法逐元素求和上采样x2下采样x2Concat**五、五C H W三三C'H WC N三三C H W三三*五五五五C H WC N128 H W64 H WD五五五五32 H W1 H W九九1 H W深度提取特征3D点的数量投影要素3D点C H W三三三三三乙状稀疏两特征核对齐点输入卷积（FKAConv）3 NEC H WC H W1 H WC置信度图R三三**12771↓↑日志LLL∈表1.在NYU数据集上进行评估。指标标记意味着越低越好，反之亦然。具有‡的方法使用额外的数据进行训练。带的图表示3DCOLMAP点，而不带的图使用GT深度的随机采样点获得架构#3D pts #params REL↓RMSE↓δ1↑δ2↑δ3↑SharpNet Ramam。19‡ [39] 0 80.4M 0.139 0.502 0.836 0.966 0.993重温单深度胡0157.0M0.1150.5300.8660.9750.993SARPN陈0210.3M0.1110.5140.8780.9770.994VNL殷0114.2M0.1080.4160.8750.9760.994DAV[ 19 ]第十九话025.1M0.1080.4120.8820.9800.996点融合我们08.7M0.1280.5050.8470.9710.994NLSPN[ 36 ]第三十六话225.8M0.3001.1520.3930.6970.879点融合我们28.7M0.1090.4700.8750.9750.995NLSPN[ 36 ]第三十六话3225.8M0.1140.5540.8250.9470.985点融合我们328.7M0.0570.3190.9630.9920.998稀疏密集[ 25 ]第二十五话20058.3M0.0500.1940.9300.9600.991S2d马20042.8M0.0440.2300.9710.9940.998GuideNet唐20063.3M0.0240.1420.9880.9981.000NLSPN[ 36 ]第三十六话20025.8M0.0190.1360.9890.9980.999点融合我们2008.7M0.0150.1120.9950.9991.000FuseNet陈5001.9M0.3180.8590.6880.7890.887CSPN成50018.5M0.0160.1170.9920.9991.000DeepLiDAR邱50053.4M0.0220.1150.9930.9991.000深度系数[ 21 ]第二十一话50045.7M0.0130.1180.9940.999-深度正常徐50029.1M0.0180.1120.9950.9991.000公司简介Cheng50028.8M-0.116---GuideNet唐50063.3M0.0150.1010.9950.9991.000NLSPN[ 36 ]第三十六话50025.8M0.0120.0920.9960.9991.000点融合我们5008.7M0.0140.0900.9960.9991.000MVSNet姚-124.5M0.0430.1620.9400.9720.996CodeSLAMBloesch-66.3M0.0960.2510.9100.9620.989一致深度罗-178.2M0.0860.3450.9160.9590.984NLSPN[ 36 ]第三十六话50025.8M0.0420.1440.9490.9810.999点融合我们5008.7M0.0220.1260.9940.9991.000此外，我们在解码器和细化块的末尾添加残差连接，以防止消失梯度问题并正则化置信图如图4所示，基于置信度图来校正初始深度图。3.3. 多尺度损失函数我们计算多个特征分辨率的损失来训练我们的网络。全额损失定义为：n=5如何使用这些损失函数来训练网络。4. 实验在本节中，我们评估了所提出的方法的性能，并将其与NYU-Depth-v2和KITTI数据集上的几个基线进行了比较。4.1. 数据集和评估指标数据集。NYU-Depth-v2数据集包含从464个室内记录的约120KL=Σγi（Li我毕业了i范数）（1）场景我们从原始视频中提取原始RGB帧，并使用i=1其中η是分辨率尺度的数量，并且γiR+是尺度i处的损失权重，log是L1范数的变化，其最小化稀疏深度像素上的误差，梯度优化边缘结构上的误差，并且范数惩罚地面实况与预测的正常表面之间的角度误差。这些损失条款介绍了胡等人。[17]并且被现有技术的单眼深度估计方法[4，19]广泛采用第4.2小节详细描述了+微升+θL12772使用 COLMAP [42 ， 43] 运动恢复结构软件。COLMAP也被用来提取多视点立体方法的相机姿态3D点被反投影到每个输入视图以获得稀疏的深度值集合。我们使用60K图像进行训练，并从人工测试集的654图像进行评估的方法。对于KITTI，我们使用85K图像进行训练，1000个图像进行验证，1000个图像用于KITTI深度完成基准测试[47]。12773RMSE（mm）∗0.86NYU-Depth-v2（一）2.60KITTI（b）第（1）款表2.KITTI深度补偿器测试装置的评估结果我们的CSPN公司简介DeepLiDAR我们的NConvCSPN++MSG-中国查询基准绩效数据用红色标注0.71NLSPN2.47NLSPNFusionNet0.550.390.24S2dFuseNetGuideNet深度法线稀疏密集深度系数2.352.222.09FuseNetDDPENetPENetGuideNetDeepLiDAR深度正常稀疏密集绿色和蓝色，分别对应于第一、第二和第三最佳结果。Architecture#param RMSE MAE iRMSE iMAE0.09515二十五个3545五十五1.9720四十个60八十1001201.251.000.750.500.25参数（百万）1 2 8 16 32 64一百二十八二百五十五百输入点参数（百万）12K10K8K6K4K2K我们的（d）ENetPENetDeepLiDARDepth2Depth双侧快速双侧1 2 16 32 72 28511504600已满输入点图5.上图：RMSE和iRMSE指标与NYU-Depth-v2（a）和KITTI（b）上最新深度完井方法的参数图数量。底部：NYU-Depth-v2（c）和KITTI（d）的不同稀疏性和模式的RMSE度量。评估指标。我们报告每个数据集的标准指标的结果。对于 NYU-Depth-v2 ，我们计算平均绝对相对误差（REL）、均方根误差（RMSE）和阈值精度（δi）。对于KITTI，我们还计算RMSE加上平均绝对误差（MAE），均方根误差（iRMSE）和平均绝对误差（iMAE）的反深度值。补充材料中提供了测量的详细定义。4.2. 实现细节所提出的模型在单个TITAN RTX上使用批量大小32训练150个历元，Adam优化器[27]具有（β1，β2，ε）=（0. 九比零。999，10−8），以及（1）中给出的损失函数。初始学习速率为1 .一、210−4，但从epoch 10开始，每5 epoch学习减少6%。我们将（1）中的尺度数n设为5，重量损失系数μ，θ设为1。0，并且水垢重量损失γ1、γ2、γ3、γ4、γ5至1。0，0。75，0。5，0。25和0。分别为125。为了消除COLMAP 点的任意尺度的影响，我们在训练之前将3D输入居中并归一化到单位球体在训练期间，我们使用随机旋转（[-5.0，+5.0]度）、水平翻转、直角窗口下降和着色（仅RGB）来增强输入RGB和地面实况深度图像。4.3. 与最新技术水平的所提出的方法与多个部分重叠的问题有关，因此，我们将其与单眼深度估计[39，17，4，55，19]，深度完成[5，6，7，11，18]中的几种基线方法进行比较。20、21、25、31、35、36、38、46、48、51、52]，深度多视图立体声[53]，深结构从运动/SLAM [34，2]。使用预训练的模型获得基线结果[2019-05-17] 01：05：05 [2019 - 05 -17]01：05ficial NYU-v2 [2，35，36，53]代码，使用我们自己的重新实现[19，25]，以及原始论文[7，38，51，21，46，52]。NYU-Depth-v2. 在估计的深度图和地面实况之间计算的性能度量在表1中提供。此外，我们报告的方法参数的数量，以及在估计中使用的3D点的数量与单目深度估计研究相比，所提出的方法根据所有度量提供了实质性的改进。例如，REL、RMSE和阈值准确度（δ i）提高了47%、22. 通过仅使用35%的模型参数和32个额外的3D点，分别为5%和10%。表1还示出了我们的方法即使不使用任何3D输入也产生接近最先进水平的结果，而2个点已经足以与基线方法相当。与深度完井方法相比，我们获得了最先进的性能，同时使用明显更少的模型参数，如图5a）所示。性能最好的基线， NLSPN [36] ， DepthNormal [51] ，GuideNet [46]使用2. 九三4和7。与我们的方法相比，参数分别增加了3倍。代替使用显式3D点，多视图立体[53]、运动恢复结构[34]和SLAM [2]方法利用多个RGB带有相机姿势的图像。表1中的结果表明，所提出的模型也优于这些方法，仅使用一小部分的模型参数。图6示出了我们的方法和[36]的预测深度图和重建点云的定性结果。基线[36]结果使用作者提供的预训练模型获得。虽然两我们的colmap点（c）我们的随机点NLSPNcolmap点NLSPN随机点RMSE（m）RMSE（m）iRMSE（1/km）[25]第二十五话NConv [11]58.3M0.36M917.6829.9234.8233.22.172.60零点九五1.03深度正常[51]29.1M777.1235.22.421.13FusionNet [48]2.5M772.9215.12.190.95保险丝网[5]1.9M752.9221.22.341.14DeepLiDAR [38]53.4M748.4226.52.561.15DDP [52]29.1M832.9203.92.100.85MSG-CHN [31]1.25M762.2220.42.300.98CSPN++28.8M743.7209.32.070.90NLSPN [36]25.8M741.7199.61.990.84GuideNet [46]63.3M736.2218.82.250.99ENet [18]131.6M741.3216.32.140.95PENet [18]133.7M730.1210.62.170.94[20]第二十话-840.2195.62.080.82点融合（我们的）8.7M741.9201.11.970.8512774图片NLSPN Ours Ground truth图6.NYU-v2测试集的定性结果注意，所有方法都使用200个随机采样的3D点作为输入。方法产生高质量的深度图，所提出的模型在恢复具有挑战性的区域中的精细细节方面更好，并且在平坦表面上引入更少的失真。我们还提供了示例，其中我们从两个图像中重建了一组非常稀疏的3D点（32个点），并将其用作3D输入。使用我们的方法NLSPN [36]和MVS-Net [53]通过该设置获得的密集深度图如图8所示。我们认为，国家的最先进的深度完成的方法通常是脆弱的高稀疏性的情况下，而深多视图立体性能下降与较少的输入视图。另一方面，我们的方法产生高质量的深度图，具有显著更少的失真。补充材料中提供了其他结果。凯蒂为了证明所提出的方法的多功能性，我们还与室外数据实验。为此目的，我们使用KITTI深度完井数据集[47]训练和测试我们的模型，其中我们使用表2中所示的显著较少数量的参数与最先进的方法进行比较。我们注意到（一）是模型参数和性能之间的明确权衡，如图5b）所示图7呈现了与基线方法的定性比较。所提出的方法产生更精细的深度细节，强调在突出显示区域。然而，如图5d）所示，在输入3D点的结果表明，高质量的深度图，可以通过使用，ING只有几个激光雷达点，使更多的成本效益的解决方案。补充材料中还添加了其他结果。4.4. 消融研究输入3D点的数量和采样。为了分析输入3D点的数量和空间分布如何影响结果，我们使用不同的3D点图案进行实验。为了这个目的，我们生成稀疏点集随机采样从密集地面真相或从COLMAP输出。我们期望通过从密集深度图采样提供比COLMAP点更好的结果。这是因为，密集深度贴图还覆盖平坦的无纹理表面，例如墙壁、地板和门。然而，这样的点在实践中可能不容易获得，而COLMAP点表示（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）（h）图7.来自KITTI验证集的示例。输入图像（a），地面实况激光雷达（b）。结果来自（c）Depth2Depth [56]，(d)DeepLiDAR [38]，（e）NLSPN [36]，（f）ENet [18]，（g）PENet [18]和（h）所提出的方法。（一）（b）第（1）款（c）第（1）款（d）其他事项（e）图8. NYU测试集示例（a）。来自两个图像的密集深度图和重建点云：（b）地面实况，（c）NLSPN [36]，（d）MVSNet [53]和（e）所提出的方法。12775--↓ ↓ ↑ ↑ ↑∼∼↓ ↓ ↑↑图像32点深度图128点点云200点图9.输入点的模式（左）和数量（右）的定性比较。从密集地面实况深度图中采样随机点。对于COLMAP点，我们从原始NYU数据中提取图像帧并运行COLMAP以获得点。在所有情况下，点的图案和数量保持相似。左：使用的点数为64。第一行中的结果显示随机输入点具有比COLMAP点更好的空间分布，因为它们覆盖平坦表面，如墙壁、地板或门。右：示例结果分别示出了使用32、128和200个点的随机采样集的预测深度图。在所有情况下，我们的方法始终优于NLSPN [36]。（点已增强以实现可视化）通常通过SfM或SLAM方法重建的位置。图5c）呈现了两种类型的不同数量的输入点的RMSE误差。结果证实了最初的假设，即从密集的深度图采样会产生更好的性能。此外，我们注意到，与所有点集的NL- SPN [36]相比，所提出的方法获得了更高的准确性事实上，我们使用COLMAP点获得与使用来自密集深度图的点的NLSPN [36]图9显示了与NLSPN [36]的定性比较。置信度预测器。我们研究的信心预测模块的影响，通过训练我们的方法有和没有这个组件。我们在表3中报告了结果。当与没有置信图的模型相比时REL提高了3。5%，RMSE7。百分之二。多尺度融合网络我们评估融合网络的数量如何影响性能。为此，我们使用2 - 6融合网训练我们的模型。NYU-Depth-v2测试集的相应RMSE见表4。结果通过将融合网络的数量增加到五个而得到改善，然后下降。由于每个融合网络在不同的特征分辨率下执行，我们认为5是网络从3D输入中学习几何特征的最佳级联大小。表3.不含和含NYU-Depth-v2上的confi-de预测因子（CP）的模型的消融研究。训练REL RMSEδ1δ2δ3不含CP 0.015 0.097 0.994 0.997 0.999含CP 0.014 0.090 0.996 0.999 1.0003D点卷积。我们通过使用深度参数连续卷积（PCC）[49]和FKAConv [3]训练我们的模型来研究不同类型的3D点卷积结果提供于表5中。与PCC的比较表明，FKAConv模块减少了5%的网络规模，同时稍微提高了3%的性能。我们还在没有3D分支的情况下训练了我们的模型，并且性能明显下降，如表5所示。5. 结论我们提出了一种新的和务实的方法，融合RGB单目深度估计与信息从一组稀疏的3D点密集的深度估计。在常见的室内和室外数据集上的实验表明，我们实现了最先进的结果，同时在参数数量方面是紧凑的。此外，与竞争对手不同，我们的方法还可以使用极其稀疏的3D点集来产生高质量的深度图，这使得能够为需要密集深度的各种应用表4.在NYU-Depth-v2上使用不同数量的Fusion-Net的模型性能。FusionNet数量23456RMSE0.1050.0970.0940.0900.093表5.我们的模型在NYU-Depth-v2上应用不同类型的3D点卷积的性能。训练#参数REL RMSEδ1 δ2不含3D分支7.6M0.044 0.196 0.980 0.993含PCC 9.1M 0.015 0.096 0.994 0.996带FKAConv 8.7M 0.014 0.090 0.996 0.999随机点的模式COLMAP数量的点地面实况NLSPN我们NLSPN我们NLSPN我们12776引用[1] 乔纳森·T·巴伦和本·普尔。快速双边求解器。欧洲计算机视觉会议，第617- 632页。施普林格，2016年。[2] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J Davison。Codeslam-learning一个紧凑的，可优化的表示密集的视觉冲击。在IEEE计算机视觉和模式识别会议论文集，第2560-2568页，2018年。一、五、六[3] Alexandre Boulch Gilles Puy 和 Renaud Marlet FKA-Conv：点云卷积的特征核对齐。2020年第15届亚洲计算机视觉会议（ACCV 2020）四、八[4] Xiaotian Chen，Xuejin Chen，Zheng-Jun Zha.用于单目深度估计的结构感知残差金字塔网络第28届国际人工智能联合会议论文集，第694-700页。AAAI Press，2019.一、二、五、六[5] 云琛、杨斌、明良、拉克尔·乌塔孙。深度补全的联合2d-3d表示学习。在IEEE计算机视觉国际会议论文集，第10023-10032页，2019年。二三五六[6] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在欧洲计算机视觉会议（ECCV）中，第103-119页，2018年。二、五、六[7] Xinjing Cheng，Peng Wang，and Ruigang Yang.使用卷积空间传播网络学习深度。 IEEE Transactions onPattern Analysis and Machine Intelligence，2019。二、五、六[8] James Diebel和Sebastian Thrun。马尔可夫随机场在距离传感中的应用。神经信息处理系统的进展，第291-298页，2006年。二个[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE International Conference on Computer Vision ，第2650二个[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年二个[11] Abdelrahman Eldesokey ，Michael Felsberg ，and FahadShah- baz Khan.通过cnns的置信度传播用于引导稀疏深度回归。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2019。六个[12] Jose M Facil、Benjamin Ummenhofer、Huizhong Zhou、Luis Montesano 、 Thomas Brox 和 Javier Civera 。 cam-convs：用于单视图深度的相机感知多尺度卷积。在IEEE计算机视觉和模式识别会议论文集，第11826-11835页二个[13] Zhicheng Fang，Xiaoran Chen，Yuhua Chen，and LucVan Gool. 基于cnn的单目深度估计的良好实践在IEEE计算机视觉应用上，第1091-1100页，2020年。四个[14] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018。二个[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。一个[16] Simon Hawe Martin Kleinsteuber和Klaus Diepold来自稀疏视差测量的密集视差图。2011年国际计算机视觉会议，第2126-2133页IEEE，2011年。二个[17] Junjie Hu ， Mete Ozay ， Yan Zhang ， and TakayukiOkatani.重新审视单幅图像深度估计：实现具有准确对象边界的更高在IEEE Win-ter Conf. 计算机视觉应用（WACV），2019年。一、二、五、六[18] 穆虎、王叔陵、李斌、宁世玉、李凡、公孝津。实现精确和高效的图像引导深度完井。ICRA，2021年。一、六、七[19] Lam Huynh ， Phong Nguyen-Ha ， Jiri Matas ， EsaRahtu，and JanneHeikki la¨. 使用深度注意体积指导单目深度估计在欧洲计算机视觉会议上，第581-597页。Springer，2020年。一、二、五、六[20] Saif Imran，Xiaoming Liu，and Daniel Morris.在遮挡边界用双曲面外推法求深度。在IEEE计算机视觉和模式识别的程序中，田纳西州纳什维尔，2021年6月。六个[21] Saif Imran ， Yunfei Long ， Xiaoming Liu ， and DanielMorris.深度完井的深度系数2019年IEEE/CVF计算机视觉和模式识别会议（ CVPR ），第 12438-12447 页IEEE，2019。二、五、六[22] 苹果公司 ARKit 2，2019年2月28日访问。一个[23] 谷歌公司ARCore Resources，已于2018年3月1日发布。一个[24] 华为公司AREngine，2019年6月30日发布。一个[25] Maximilian Jaritz，Raoul De Charette，Emilie Wirbel，Xavier Perrotton，and Fawzi Nashashibi.使用cnns的稀疏和密集数据：深度完成和语义分割。在2018年3D视觉国际会议（3DV）上，第52IEEE，2018年。二、五、六[26] Jianbo Jiao，Ying Cao，Yibing Song，and Rynson Lau.看得更深更深：具有语义增强器和注意力驱动损失的单目深度估计。在欧洲计算

下载后可阅读完整内容，剩余1页未读，立即下载