基于表面法线约束的深度估计方法

73 浏览量更新于2023-10-13 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12849自适应表面法线约束深度估计龙晓晓1程琳1、4刘玲杰2李伟3克里斯蒂安·西奥博尔特2杨瑞刚3王文平51香港大学2马普信息研究所3Inceptio4腾讯游戏CROS数字内容技术中心5德州农工大学摘要本文提出了一种基于表面法线约束的单幅图像深度估计新方法。现有的深度估计方法或者缺乏几何约束，或者受限于难以可靠地捕获几何上下文，这导致深度估计质量的瓶颈。因此，我们介绍了一个简单而有效的方法，命名为自适应表面法线（ASN）约束，有效地相关的深度估计，灰与几何一致性。我们的关键思想是自适应地确定可靠的局部几何形状从一组随机采样的候选人，以获得表面正常约束，我们测量的几何背景特征的一致性。因此，我们的方法可以VNL我们的GT它忠实地重建3D几何形状，并且对局部形状变化（例如边界、尖角和噪声）具有鲁棒我们使用公共数据集进行广泛的评估和比较。实验结果表明，我们的方法优于国家的最先进的方法，并具有优越的效率和鲁棒性。代码可在以下网址获得：https://github.com/xxlong0/ASNDepth1. 介绍从单个RGB图像估计深度（最基本的计算机视觉任务之一）已经被广泛研究了几十年。随着深度学习的最新进展，使用神经网络的深度估计引起了越来越多的关注。该领域的早期工作[6，22，9，35，32]直接最小化像素级深度误差，其结果不能忠实地捕获3D几何特征。因此，最新的努力将几何约束纳入网络，并显示出可喜的成果。在各种几何属性中，由于以下两个原因，主要采用表面法线。首先，可以通过从深度转换的3D点来估计表面法线。其次，表面法线由表面切平面确定，其固有地编码局部几何背景。因此，提取或-图1.地面实况的示例结果，我们的和VNL [48]。通过执行我们提出的自适应表面法线（ASN）约束，我们重建的点云保留全局结构信息和局部几何特征。恢复的表面法线比VNL更准确，噪声更小。作为几何约束，以前的作品提出了各种策略，包括随机采样[48]，Sobel算子[13，16]和可微最小平方[29，27]。尽管现有努力带来了改进，但一个关键问题仍未解决，即，如何确定可靠的局部几何形状以使法线约束与深度估计相关。例如，在形状边界或拐角处，点的相邻像素可以属于不同的几何形状，其中不满足局部平面假设。由于这种挑战，这些方法要么难以捕获局部特征[48]，要么对局部几何变化（噪声或边界）敏感[13，16]，要么计算昂贵[29，27]。考虑到局部上下文约束的重要性，有大量关于如何将形状器正则化纳入单目重建任务的工作，范围从光流的复杂变分方法[34，43，33，1]到立体声[37]和单目重建[14，30]中的边缘感知滤波但这些方法点云深度正常12850具有复杂的公式并且仅关注从图像强度变化导出的2D特征边缘，而不考虑3D空间中的形状的几何结构。在本文中，我们介绍了一个简单而有效的方法，相关的深度估计与表面法线约束。我们的公式比任何上述方法简单得多，但显著提高了深度预测质量，如图所示。1.一、我们的主要思想是自适应地确定忠实的局部几何从一组随机抽样的候选人，以支持正常的估计。对于图像上的目标点，首先，我们在其邻域中随机采样一组点三元组以定义法线的候选者。然后，我们通过测量候选者和目标点之间的学习潜在几何特征的一致性来确定每个正常候选者的置信度得分最后，法线被自适应地估计为所有候选的加权和。我们简单的策略有一些独特的优势：1）随机采样从目标点的邻域捕获足够的信息，这不仅对于计算是高效的，而且适应各种几何上下文; 2）置信度分数自适应地确定可靠的候选，使得正态估计对于局部变化是鲁棒的，例如，噪声、边界和急剧变化; 3）我们使用所学习的上下文特征来测量置信度，其表示能力适用于复杂结构并且提供信息以将法向约束与估计深度相关联。更重要的是，我们的方法在公共数据集上取得了优异的结果，并且大大优于最先进的方法。我们的主要贡献总结如下：• 我们引入了一种新的公式来导出用于深度估计的几何约束，即，自适应曲面法线。• 该方法简单、快速、有效。它对噪声和局部变化具有鲁棒性，并且能够始终如一地捕获忠实的几何形状。• 我们的方法在公共数据集上的性能大大优于最先进的方法。2. 相关工作单目深度估计作为一个不适定问题，单目深度估计是具有挑战性的，因为可以从单个图像中提取最小几何信息。最近，受益于由神经网络学习的先前结构信息，许多基于学习的工作[6，22，45，9，35，32，25，11，10，24，23]已经取得了有希望的结果。Eigen等人[6]通过将图像馈送到多尺度神经网络中来直接估计深度图。Laina等人[18]提出了一种更深的残差网络，并进一步提高了深度估计的准确性。Liu等[22]第二十二话场（CRF）来平滑超像素深度估计。Xu等[45]提出了一种基于多尺度CRF的顺序网络来估计深度。Fu等人[9]设计了一种新的序数损失函数，从单幅图像中恢复序数信息。不幸的是，这些方法的估计深度图在转换为点云时总是不能恢复重要的3D几何特征，因为这些方法不考虑任何几何约束。联合深度和法线估计由于深度和表面法线在3D几何学方面密切相关，因此使用神经网络来提高性能的联合深度和法线估计中的兴趣越来越大。几项工作[5，49，44，20]使用多个分支联合估计深度和表面法线，并传播彼此的潜在特征。然而，由于没有对深度估计施加明确的几何约束，因此这些方法的预测几何仍然勉强令人满意。因此，提出了方法[46，47，31，13，29，27，16]来明确地对估计的深度图实施几何约束。Hu等人[13]和Kusupati等人[16]利用类似Sobel的算子从估计的深度计算表面法线，然后强制它们与地面实况一致。尽管如此，类Sobel算子可以被认为是不加区别地作用于整个图像的固定滤波器内核（参见图1B）。3），导致不可接受的不准确性和对噪声的敏感性。为了更可靠地约束曲面法线，Qi等人[29]和Longet al. [27]提出利用可微最小二乘模块进行表面法线估计。这些方法对几何一致性进行了优化，其解更精确，对噪声具有鲁棒性，但计算量有限。Yin等[48]引入虚拟法线，这是从来自估计深度的随机采样点三元组导出的全局几何约束然而，由于点三元组是从整个图像中随机采样的，因此该约束难以捕获局部几何特征。边缘保持方法在形状边界和图像强度边缘之间的统计关系之外，许多工作在有益于许多视觉任务之前利用该统计。作品[34，43，33，1]提出了具有各向异性扩散[28，2，42]的变分方法来模拟光流估计的局部边缘结构Su等人[38]提出了像素自适应卷积操作，其比典型的卷积操作更能保持边缘。一些立体/单目深度估计工作依赖于预训练的边缘检测网络[37]或Canny边缘检测器[14，30]来提取图像边缘以改善深度估计。然而，只有一小部分强度边缘与真实的几何形状边界保持一致。我们的方法可以检测到真正的形状边界的3D几何形状的变化，而不是强度的边缘。12851×..ΣΣ×KKK点Pi=PJ|Pj∈ R3，j= 0，. . . ，r2− 1内、）我Σ高输入图像指引特征相似核低估计深度点三重采样恢复正常GT深度GT正常图2.我们的方法概述。以单个图像作为输入，我们的模型分别从两个解码器产生估计的深度和引导特征。我们从估计的深度图中恢复表面法线，并提出了自适应表面法线计算方法。从引导特征计算的相似性核使我们的表面法线计算能够是局部几何感知的，如形状边界和拐角。最后，对估计的深度执行逐像素深度监督，而对恢复的表面法线执行几何监督。3. 方法给定单色图像I作为输入，我们使用编码器-解码器神经网络来输出其深度图Dpred。我们大小为r r的局部片。然后，我们在Pi中随机采样K个点三元组。目标点Pi的所有采样点三元组被表示为Ti= Ti。PA，P B，P C|P ∈ R3，k = 0，. . . ，K − 1。如果恢复高质量的3D几何图形。为此，我们将表面法线约束与深度估计相关联。三点不共线时，可直接通过交叉法计算采样局部平面总的来说，我们对训练网络实施两种类型的监督。首先，像大多数深度估计工作一样，我们产品名称：−PA−P→B×−PA−P→Cnk=kkkk .（一）采用像L1损失|−P−A−P−→B×−P−A−P−→C|预测深度Dpred 和地面实况深度Dgt. 更多-k k k k在此基础上，采用自适应策略从Dpred计算出表面法线Npred，并强制Npred与地面真实表面法线Ngt之间的一致性，称为自适应表面法线（ASN）约束。该方法在图1中概述。二、局部平面假设。为了将表面法线约束与深度估计相关联，我们采用了[29，27]中也就是说，点的一小组因此，对于深度图上的像素，可以通过由其相邻点形成的局部补丁来估计其表面法线。理论上，局部补丁可以具有任意形状和大小。然而，在实践中，正方形局部面片被广泛采用，其大小为（2m+1）（2m+1），m=1，2，.，n，由于其简单性和效率。正常候选人抽样。为了计算表面法线，与利用最小二乘拟合[29，27]或Sobel样核近似[13，16]的现有工作不同，我们提出了一种基于随机采样的策略。如果法向量与相机方向不匹配，则将根据查看方向翻转法向量以这种方式，对于每个目标点，我们获得对应于K个采样局部平面的K个法线接下来，我们自适应地确定每个候选人的置信度，以获得最终的正常估计结果。几何上下文自适应。我们观察到，目标点的邻近可能不位于相同的切平面中，特别是在几何形状改变的区域处，例如，形状边界或尖角。因此，我们提出学习上下文感知的引导特征图以反映几何变化。因此，网络可以通过测量学习的上下文特征来确定相邻几何结构的置信度。给定学习的制导特征图，我们测量采样点Pj和目标点Pi的特征的L2距离，然后使用归一化的高斯核函数将它们的潜在距离编码为[0，1]：L（Pi，Pj）= e−0。5f（Pi）−f（Pj）2对于一个目标。点Pi∈R3，我们首先提取所有L（Pi，Pj）Pn∈PiL（P，P（二）可微运营监督解码器解码器编码器这种方法的目的不仅是估计准确的深度，L（Pi，Pj）=n12852·∥·∥Σ−¨l=λDdpredYKΣ−s=k=0，⑷k kk×图3. Sobel类算子与我们的表面法向估计。类Sobel算子首先计算沿上下和左右方向的两个主我们的第一次计算的正常向量的随机采样的三元组，然后自适应地将它们组合在一起，以获得最终的估计。其中f（）是引导特征图，2是L2距离，并且Pi是局部片中的相邻点集4. 执行网络结构我们的网络采用多尺度结构，它由一个编码器和两个解码器组成。我们使用HRNet-48 [39]作为我们的骨干。以一个图像作为输入，一个编码器在四个尺度中产生由粗到细的估计深度，并且另一个解码器用于生成捕获几何上下文的引导特征图深度估计解码器由不同尺度的四个块组成，每个块由两个ResNet [12]基本块构成。附加卷积层用于回归最终深度值。导引特征编码器采用与深度编码器相同的结构。损失函数我们的训练损失有两种类型的术语：深度损失项和表面法向损失项。对于深度项，我们使用L1损失进行多尺度估计：3如前所述。情商2给出置信度得分，其中置信度越高，点Pj越可能位于与目标相同的切平面中s3spreds=0-Dgt¨1、（五）P点因此，局部平面其中D是表示在第s尺度的估计深度图（PA，PB，PC）到由几何Dgt给出的中心点P i的距离是地面实况深度图，并且λ是k k k自适应定义为：gk=t=A、B、CL. Pi，P t ti.（三）平衡不同的尺度。这里我们设置λ = 0。8.为了加强对估计深度图的几何约束，使用我们提出的自适应策略，我们只根据最精细的估计深度计算表面法线地图正则化计算表面的一致性这是三个采样点的三个独立概率分数的乘积，其测量采样局部平面的可靠性。区域适应。采样局部平面（三角形）的面积是确定候选可靠性的重要参考较大的三角形捕获更多信息，因此对局部噪声更具鲁棒性，如[48]所示。对于三角形Tk，我们简单地将其在图像上的投影面积sk视为置信度得分的度量注意，面积是在2D图像上计算的，因为3D空间中的采样三角形可能由于深度变化而非常大，导致不合理的高估。法线与地面实况，我们采用余弦嵌入损失：ln= 1−cos（Npred，Ngt），（6）其中Npred是从最精细的估计深度图计算的表面法线图，并且Ngt是地面实况表面法线。因此，总损失定义为：l=ld+αln，（7）其中在所有实验中α被设置为5，这是使两种类型的项大致相同的折衷参数。最后，点P的法线为是由一个同样的规模。在其周围采样的所有K个候选者的加权组合，其中权重表示由我们的自适应策略给出的置信度ΣK−1sk·gk·nk我们的模型由PyTorch使用Adam优化器（init lr=0）实现。0001，β1=0。9，β2=0。999，权重衰减=0。00001）。学习率以多项式幂0.9多项式衰减。该模型仅用第一个中的深度损失项来训练。iK1k=0k·gk20个历元，然后加上最近20个历元中的深度和表面法向损失项整个培训是由...其中K是采样三元组的数量，sk是2D图像上的三个采样点（PA，PB，PC）的投影面积，并且nk是其法向量。313=122��=12基于采样类Sobel科隆12853在四个GeForce RTX 2080 Ti GPU上完成了8个批次在所有实验中，我们采用55局部12854GT联系我们输入图像GT左视图GeoNet VNL BTS Ours Ours左侧视图图4.与NYUD-V2上的SOTA进行定性比较。与其他方法相比，我们的深度估计是更准确的，包含更少的噪声。恢复的表面法线图和点云表明，我们估计的深度忠实地保留重要的几何特征。黑色区域是缺少地面实况的无效区域。5. 实验5.1. 数据集NYUD-V2我们的模型是在NYUD-V2数据集上训练的。NYUD-V2是一个广泛使用的室内数据集，包含464个场景，其中249个场景用于训练，215个场景用于测试。我们直接采用Qi等人提供的收集的训练数据。[29]，其具有从具有预先计算的地面真实表面法线的原始训练场景采样的30，816帧。按照[7]的过程生成预先计算的表面法线。注意，DORN [9]、Eigenet al.[5]，Xuet al. [45]，Lainaet al. [18]和Huet al. [13]使用407k，120k，90k，95k和51k图像进行训练，这些图像都比我们的大得多对于测试，我们使用包含654张图像的官方测试集，这与竞争方法相同。ScanNet我们还在最近提出的室内数据集ScanNet [4]上评估了我们的方法，该数据集具有超过1600个场景。它的官方测试分割包含100个场景，我们统一从其中选取2167张图像进行跨数据集评估。5.2. 评估指标为了评估我们的方法，我们在三个方面将我们的方法与最先进的方法进行比较：深度估计的准确性、恢复的表面法线的准确性以及恢复的点云的质量。深度按照前面的方法[6]，我们采用以下指标：平均绝对相对误差（rel）、平均log10误差（log10）、均方根误差（rms）和阈值下的准确度（δ <1. 其中i为1、2、3）。表面法线与以前的作品类似[5，29]，我们评价-使用以下度量评估曲面法线：平均值正常俯视图深度12855∈表1.NYUD-V2数据集的深度评价方法rel（↓）log10（↓）均方根（↓）δ1（↑）δ2（↑）δ3（↑）Saxena等人[36个]0.349-1.2140.4470.7450.897Karsch等人[第十五条]0.3490.1311.21---Liu等[26日]0.3350.1271.06---Ladicky等人[17个]---0.5420.8290.941Li等[20个]0.2320.0940.8210.6210.8860.968Roy等人[35]第三十五届0.1870.0780.744---Liu等[22日]0.2130.0870.7590.6500.9060.974Wang等人[第四十届]0.2200.0940.7450.6050.8900.970Eigen等人[五]《中国日报》0.158-0.6410.7690.9500.988查克拉巴蒂等[3]第一章0.149-0.6200.8060.9580.987Li等[21日]0.1430.0630.6350.7880.9580.991Laina等人[18个国家]0.1270.0550.5730.8110.9530.988Hu等人[13个国家]0.1150.0500.5300.8660.9750.993DORN [9]0.1150.0510.5090.8280.9650.992[29]第二十九话0.1280.0570.5690.8340.9600.990越南国家图书馆[48]0.1080.0480.4160.8750.9760.994免费WiFi [19]0.1130.0490.4070.8710.9770.995我们0.1010.0440.3770.8900.9820.996角度误差的平均值（mean）、角度误差的中值（median）和低于阈值t的准确度，其中t[11. 25度22度5◦，30◦]。点云为了定量地评估从估计的深度图转换的点云，我们利用以下度量：平均欧氏距离（dist）、均方根欧氏距离（rms）和以下精度阈值t，其中t∈[0. 1米，0. 3m、0. 5m]。5.3. 评价深度估计精度我们在NYUD-V2数据集上将我们的方法与其他最先进的方法进行了比较。如表1所示，我们的方法在所有评估指标上显著优于其他SOTA方法。此外，为了进一步评估我们的方法的泛化能力，我们将我们的方法与ScanNet数据集上的一些强大的SOTA进行了比较。如表2所示，我们的12856表2.ScanNet数据集的深度评估方法rel（↓）log10（↓）均方根（↓）δ1（↑）δ2（↑）δ3（↑）[29]第二十九话0.2550.1060.5190.5610.8550.958越南国家图书馆[48]0.2380.1050.5050.5650.8560.957免费WiFi[19]0.2460.1040.5060.5830.8580.951我们0.2330.1000.4840.6090.8610.955表3.NYUD-V2数据集上的点云评价方法dist（↓）均方根（↓）0的情况。1米（↑）0的情况。3米（↑）0的情况。5米（↑）越南国家图书馆[48]0.5150.6860.1810.4690.644[29]第二十九话0.3920.6080.2200.5580.747免费WiFi[19]0.3170.5440.2780.6530.822Hu等人[13个国家]0.3110.5370.2880.6660.831我们0.2660.4970.3320.7270.869方法仍然表现出比其他方法更好的性能。除了定量比较之外，我们还展示了几种SOTA方法的一些定性结果，这些方法也使用几何约束，包括i）GeoNet [29]（最小二乘法线）; ii）VNL [48]（虚拟法线约束）; iii）BTS [19]（预测局部平面方程，不直接预测深度）。如图4、所提出的方法忠实地完全恢复了原始几何。对于高曲率区域，如沙发，我们的结果得到更干净，更光滑的表面;我们预测的深度图还产生高质量的形状边界，与地面真实深度图相比，这导致更好的准确性。此外，请注意，即使对于无纹理的墙壁和地板，我们估计的深度仍然令人满意。点云从表3中，就点云的质量而言，我们的方法大大优于其他方法。令人惊讶的是，尽管VNL [48]在深度评估误差方面比GeoNet [29]具有更好的性能，但其平均欧几里得距离比GeoNet差，这揭示了专门为点云设计的评估的必要性如图4（第三行），我们的点云具有更少的扭曲，并且比其他点云更准确。从其他方法的深度图生成的点云遭受严重的失真，并且难以保留突出的几何特征，诸如平面（例如，壁）和具有高曲率的表面（例如，沙发）。此外，我们还展示了我们的点云和地面真实之间的定性比较，从不同的角度在图中。4.第一章高度一致的结果进一步证明了我们的方法表面法线如表4所示，我们恢复的表面法线具有比其他方法更好的质量。作为参考，我们还报告了直接在网络中输出法线映射的方法所生成的结果。令人惊讶的是，我们恢复的表面法线的准确性甚至高于这种可以显式预测法线的方法。此外，我们在图中提出了定性比较。4.第一章可以看出，我们的表面法线比其他的更平滑和更准确，表4.NYUD-V2数据集上的表面法线评价方法平均值（↓）中位数（↓）11个国家。25◦（↑）二十二岁5米（↑）30◦（↑）从网络3DP [7]33.028.318.840.752.4Ladicky等人[17个]35.525.524.045.655.9Fouhey等人[八]《中国日报》35.217.940.554.158.9Wang等人[41个]28.817.935.257.165.5Eigen等人[五]《中国日报》23.715.539.262.071.1从点云免费WiFi [19]44.035.414.432.543.2[29]第二十九话36.832.115.034.546.7DORN [9]36.631.115.736.549.4Hu等人[13个国家]32.123.524.748.459.9越南国家图书馆[48]24.617.934.160.771.7我们20.013.443.569.178.6表5. NYUD-V2数据集上具有不同几何约束的模型的比较。约束rel（↓）log10（↓）深度δ1（↑）平均值（↓）中值回收（↓）11个国家。25◦正常（↑）L10.1130.0470.87531.323.224.9L1 + SOSN0.1180.0490.86722.816.136.2L1 + LSSN0.1190.0500.86223.516.335.7L1 + VN0.1110.0470.87631.721.428.4L1 + ASN0.1110.0470.87622.215.836.9这表明我们的策略对于将法线约束与深度估计相关联更有效，不仅导致准确的深度估计，而且导致可靠的表面法线和3D几何形状。5.4. 讨论在本节中，我们进一步使用HRNet-18 [39]主干进行一系列评估，以更深入地了解所提出的方法。为了验证我们提出的自适应表面法线约束的有效性，我们训练具有不同约束的模型：a）仅L1深度约束;b) 深度和类Sobel算子曲面法向约束; c）深度和最小二乘表面法向约束（LSSN）; d）深度和虚拟法线约束（ VN ） ; e ）深度和我们的自适应表面法线约束（adaptive surface normal constraints，简称ORS）。如表5所示，具有自适应表面法线约束的模型优于（ ASN ）所有其他模型。虽然使用类 Sobel 算子（SOSN）和最小二乘法向约束（LSSN）的模型具有更好的恢复表面法向，但与没有几何约束的模型相比，它们的深度估计精度下降。具有虚拟法线（VN）[48]约束的模型示出了四种类型的几何约束中恢复的表面法线的最差质量，假定虚拟法线是从估计的深度图上的全局采样导出的，这不可避免地丢失了局部几何信息。此外，我们在图中给出了一组定性比较。五、结果清楚地表明，我们的ASN约束实现了更好的表面法向估计结果和captures详细的几何特征，即使对于薄的结构，如椅子的腿。12857(a) 不含geo。约束（b）w/SOSN（c）w/LSSN(d) 带VN（e）带ASN GT正常图5.具有不同几何约束的模型的比较。具有ASN约束的模型实现了更好的表面法线估计，甚至可以准确地捕获详细的几何形状，如椅子腿（见白色框）。表6. NYUD-V2数据集上拟定自适应模块的消融研究。我们评估恢复的表面法线的准确性输入图像Canny边缘检测引导特征图6.我们的指导特征图与Canny算子检测到的边缘图。虽然形状边界与图像边缘具有高的统计相关性，但它们并不总是重合的。我们的特征图捕获了真实的几何边界，而Canny算子检测到具有显著强度差异的边缘自适应模块的消融研究为了评估所提出的两个自适应模块的效果，即，几何上下文自适应和区域自适应，我们进行消融研究。我们使用不同的自适应配置来训练模型：仅几何上下文（GC）自适应、仅区域自适应、以及两者。从表6中可以看出，具有完全自适应配置的模型实现了最佳性能，这验证了每个自适应模块的必要性。引导特征的可视化几何适应性-输入图像A点B10自适应曲面法向约束方法的关键是确定模型。为了更好地理解网络学习的内容，我们将指导图的学习特征可视化。我们绘制了引导特征图的通道，其在图1中示出六、引导图上的点的颜色是局部指示符，以反映其与其相邻几何形状的变化，从而仅在形状边界周围产生明显的因此，学习的引导图捕获形状上下文和几何变化，给出信息丰富且可区分的边界。为了比较，我们使用Canny算子检测输入图像的边缘，通过图像强度方差。正如我们所看到的，我们的指导特征图不仅仅与Canny 边缘重合。例如图6，Canny算子基于壁画和沙发的纹理检测碎片边缘，而我们的指导特征图指示3D几何形状变化的真实形状边界。为了验证我们的模型是否能够捕捉到真实的几何边界C点D点E图7.相似核的可视化。点A、B和E的相似性核表明，我们的方法可以成功地区分不同的几何形状。点C和点D的相似性核进一步表明，我们的方法捕获了3D世界中形状的3D几何变化，而不是图像颜色差异。形状，我们选择图像上的五个点，并在图中可视化它们的颜色编码相似性内核。7.第一次会议。点A、点B和点E的相似性核表明，该方法可以成功地区分不同的几何形状，例如形状边界和拐角。此外，点C和D的相似性核表明，我们的方法捕获的3D几何形状的变化在现实世界中，而不是图像的颜色区别例如，点D在图像中具有大的颜色变化，但是其相似性核具有指示未改变的几何形状的恒定值取样三重峰的数量。为了定量分析采样三胞胎的数量的影响，我们恢复一BCDE模块平均值（↓）中值（↓）11个国家。25◦（↑）二十二岁5米（↑）30◦（↑）无区域无GC31.323.224.948.860.4唯一领域22.616.036.463.674.4仅GC22.315.836.964.174.812858×∼.Σ×图8.恢复的表面法线的准确性与采样三重峰的数量。采样的三元组越多，恢复的曲面法线就越准确。表7.局部斑块大小的影响大小rel（↓）log10（↓）深度δ1（↑）平均值（↓）中位数（↓）11个国家。25◦恢复正常（↑）30.1120.0470.87722.515.836.950.1110.0470.87622.415.837.170.1120.0470.87722.215.737.190.1110.0470.87522.415.837.0表面法线从我们估计的深度图使用我们的自适应表面法线计算方法与55局部补丁。基于图因此，更多的三重态样本将有助于更准确的表面正态分布，这并不奇怪的准确性显着增加，从10 - 20采样的三胞胎，并逐渐饱和与更多的三胞胎采样。为了平衡效率和准确性，建议采样三胞胎的数量为40 -60。本地修补程序的大小。我们评估的局部补丁的大小，我们的方法通过训练网络与不同的局部补丁大小的效果。如表7所示，较大的局部面片可以提高性能，特别是对于表面法线，但改进并不显著。这背后的原因是，我们的ASN约束是一种自适应策略，可以自动确定给定不同局部补丁的采样点的可靠性;因此，我们的方法是鲁棒的局部补丁大小的选择。基于面积的自适应我们使用采样三角形的面积作为自适应的组合权重。为了评估基于区域的自适应的有效性，我们进行了一个实验，与简单的平均策略进行比较。我们创建一个单位半球表面作为无噪声数据，然后添加高斯噪声来模拟真实的噪声数据（见图1）。9（a））。我们比较了这两种方法估计的法线角度误差的均值与噪声的增加，结果如图所示。第9（b）段。我们可以看到，我们的基于区域的自适应给出了较低的估计误差随着噪声水平的增加，证明了鲁棒性的使用区域的自适应。(a)（b）第（1）款图9.基于地区的适应的有效性。(a)理想而嘈杂的表面。（b）我们采用平均角度误差来评估由简单平均策略和我们的基于区域的自适应估计的表面法线。与简单的平均策略相比，我们的基于区域的自适应是更强大的噪声。时间复杂度在这里，我们讨论了不同的正常计算方法的时间复杂度，包括我们的基于采样的方法，Sobel类算子[13，16]和基于最小二乘法[29，27]。我们的和Sobel类算子只涉及矩阵加法和向量点/交叉产生操作;因此很容易显示时间复杂度为O（n），而我们的时间复杂度将随着样本的增加而然而，最小二乘模[29，27]直接计算最小二乘方程的封闭形式解，这涉及矩阵乘法，求逆和行列式，导致O n3的时间复杂性。实验上，这些方法在GPU上从320 240深度图恢复法线的推理时间为：0.014s（类Sobel）、0.056s（ASN）和0.106s（最小二乘法）。因此，我们的方法有效地平衡了精度和计算效率。6. 结论在本文中，我们提出了自适应表面法线（ASN）的约束，一个简单而有效的配方单目深度估计。与其他曲面法向约束相比，该约束能够自适应地确定用于法向计算的可靠的局部几何，通过联合利用潜像特征和显式几何属性。广泛的评估表明，这种新的约束不仅给出了准确的深度图，而且忠实地保留了重要的三维几何特征，从而导致高质量的表面法线和三维点云的估计结果。致谢我们感谢匿名评论者的宝贵反馈。王文平感谢AIR@InnoHK -转型服装生产中心（TransGP）的支持。 Christian Theobalt 确认来自 ERC 整合者赠款4DReply（770784）的支持。刘玲洁感谢Lise Meitner博士后奖学金的支持。噪声面理想表面12859引用[1] 包林超，杨庆雄，金海林。大位移光流场的快速边缘保持拼接算法。在IEEE计算机视觉和模式识别会议论文集，第3534-3541页一、二[2] MichaelJBlack ， GuillermoSapiro ， DavidHMarimont，and David Heeger.鲁棒各向异性扩散。IEEETransactions on Image Processing，7（3）：421-432，1998. 2[3] AyanChakrabarti ， JingyuShao ， andGregoryShakhnarovich.深度从一个单一的图像，通过协调过完整的局部网络预测。arXiv预印本arXiv：1605.07081，2016。5[4] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。5[5] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision ，第2650-2658页，2015年。二、五、六[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度arXiv预印本arXiv：1406.2283，2014。一、二、五[7] David F Fouhey，Abhinav Gupta，and Martial Hebert.用于单个图像理解的数据驱动的 3d 基元在 IEEEInternationalConferenceonComputerVision的Proceedings，第3392-3399页五、六[8] David Ford Fouhey，Abhinav Gupta，and Martial Hebert.展开一个室内折纸世界。欧洲计算机视觉会议，第687-702页Springer，2014. 6[9] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018。一、二、五、六[10] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页2[11] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议集，第38282[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[13] Junjie Hu ， Mete Ozay ， Yan Zhang ， and TakayukiOkatani.回顾单个图像深度估计：朝向具有精确对象边界的更高分辨率地图。2019年IEEE计算机视觉应用冬季会议（WACV），第1043-1051页。IEEE，2019。一二三五六八[14] Jianbo Jiao，Ronggang Wang，Wenmin Wang，ShengfuDong，Zhenyu Wang，and Wen Gao.具有改进的匹配成本和视差细化的局部立体匹配IEEE多媒体，21（4）：16-27，2014。一、二[15] Kevin Karsch，Ce Liu，and Sing Bing Kang.使用非参数采样从视频中提取深度欧洲计算机视觉会议，第775-788页Springer，2012. 5[16] 乌代·库苏帕蒂、程硕、陈睿、苏浩。正规辅助立体深度估计。 In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第2189-2199页，2020年。一二三八[17] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys.把事情扯远。在Proceedings of the IEEE conference on computervision and pattern recognition，第89-96页，2014中。五、六[18] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。2016年第四届3D视觉国际会议（3DV），第239- 248页。IEEE，2016. 二、五[19] Jin Han Lee，Myung-Kyu Han，Dong Wook Ko，和一弘淑从大到小：用于单目深度估计的多尺度局部平面引导。arXiv预印本arXiv：1907.10326，2019。五、六[20] Bo Li ， Chunhua Shen ， Yuchao Dai ， Anton Van DenHengel，and Mingyi He.基于深度特征和层次crfs回归的单目图像深度和表面法线估计。在IEEE计算机视觉和模式识别会议论文集，第1119-1127页，2015年。二、五[21] 李俊，莱因哈德·克莱恩，姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。在IEEE计算机视觉国际会议论文集，第3372-3380页，2017年。5[22] Fayao L

下载后可阅读完整内容，剩余1页未读，立即下载