P3Depth：具有分段平面先验的单目深度估计

66 浏览量更新于2023-10-25 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11610P3Depth：具有分段平面先验的单眼深度估计Vaishakh Patil1 Christiane Sakaran1 Alexander Liniger1 Luc Van Gool1，21ComputerVVisionLab，ETHZuürich 2PSI，KULeuv en摘要单目深度估计对于场景理解和后续任务至关重要。我们专注于监督设置，其中地面实况深度仅在训练时可用。基于对真实3D场景的高正则性的了解，我们提出了一种方法，该方法学习选择性地利用来自共面像素的信息来提高预测深度。特别地，我们引入了分段平面性先验，其指出对于每个像素，存在与前者共享相同平面3D表面的种子像素。受此启发，我们设计了一个具有两个头的网络。第一个头输出像素级平面系数，而第二个头输出识别种子像素的位置的密集偏移向量场图像深度中间表示然后，种子像素的平面系数用于预测每个位置处的深度。所得到的预测是自适应融合的初始预测，从第一个头通过学习的信心，以考虑潜在的偏差，从精确的局部平面性。由于所提出的模块的可区分性，整个架构都是端到端训练的，并且它学会预测规则的深度图，在遮挡边界处具有尖锐的边缘。对我们的方法的广泛评估表明，我们在监督式单目深度估计中设置了最新的技术水平我们的方法提供深度图，产生plausible三维重建的输入场景。代码是可用的-可在：https://github.com/SysCV/P3Depth1. 介绍深度估计是计算机视觉中的一个基本问题。它包括预测在每个像素处描绘的3D点的垂直应用范围从机器人到自动驾驶汽车。有实验证据[84]表明，深度是执行动作的最重要的视觉级线索在这项工作中，我们专注于单目深度估计，这涉及到规模模糊的挑战，因为相同的输入图像可以由无限多个3D场景生成。解决这一任务的当前趋势涉及输出密集深度预测的全卷积神经网络图1.真实世界的3D场景具有高度的规律性。我们提出了一种方法，它可以利用这种规律性，通过implementary学习中间表示，包含有用的信息，在现场的局部平面。所提出的端到端模型预测在遮挡边界处具有尖锐边缘的高质量深度图，从而产生一致的3D重建。通过对深度的标准监督[9，12，32，71]或通过使用预测深度来重建场景的相邻视图[16，18，19，85]的自我监督来实现大多数监督方法使用像素级损失，其分别对待不同像素处的预测该机制忽略了真实世界3D场景的高度规则性，其通常产生分段平滑的深度图。用于对真实3D场景的几何形状的这种先验知识进行建模的常见选择是平面[2，6，41，42]。平面是局部可微深度图的局部一阶泰勒近似，并且它们易于使用三个独立系数进行参数化。一旦像素与平面相关联，就可以从像素的位置和相关联的平面的系数恢复其深度。在[83]中，这样的平面系数表示用于学习显式预测平面。我们采用[83]中的平面表示，但我们脱离了平面的显式预测，而是使用此表示作为适当的输出空间，用于基于平面性先验定义像素之间的相互作用。特别是，我们网络的第一个头输出密集的11611平面系数图，其随后被转换为深度图，如图2所示。预测平面系数的动机是属于同一平面的两个像素p和q理想地具有相等的平面系数表示，而它们通常具有不同的深度。因此，如果像素属于同一平面，则使用q的平面系数表示来预测位置p处的深度导致正确的我们通过学习识别与被检查像素共享相同平面的种子像素来利用该属性，只要这样的像素存在，以便选择性地使用这些像素的平面系数来改善预测深度。该方法由分段平面性先验激发，分段平面性先验声明对于具有相关联的3D平面的每个像素p，在p的邻域中存在与p相同的3D平面相关联的种子像素q。为了用这个方案预测深度，我们需要通过预测偏移量q-p来识别（i）先验有效的区域和（ii）这些区域中的种子像素。因此，我们在网络中设计了第二个头，它输出一个密集偏移向量场和置信图，如图2所示。预测的偏移用于对来自第一头部的平面系数进行重采样，并生成第二深度预测。然后使用置信度图作为融合权重自适应地融合来自两个头部的深度预测，以便降低基于偏移的预测的权重，并且主要依赖于分段平面性先验无效的区域中的基本深度预测，例如，在现场的高频结构部分通过监督融合深度预测，隐式地应用对偏移和置信图的监督由于使用种子像素进行预测，我们的模型隐式地学习根据像素在深度图的平滑区域中的成员资格对像素进行分组。这有助于保持清晰的深度不连续性，如图1所示。最后但并非最不重要的是，我们提出了一个平均平面损失，强制执行一阶的一致性，我们预测的3D表面与地面的真相，并进一步提高证明性能。我们在6个数据集上对我们的方法进行了广泛的评估，用于监督单目深度估计： NYU Depth-v2 ，KITTI，ScanNet，SUN-RGBD，DIODE Indoor和ETH-3D。与竞争方法的比较表明，我们在NYU Depth-v2和KITTI上设置了一个新的最先进的方法，在NYU和KITTI的Garg分裂[16]上的所有常用评估指标中超过了以前的最佳方法此外，在具有挑战性的零触发传输设置中，我们在ScanNet、SUN-RGBD、DIODE Indoor和ETH-3D上的表现优于现有技术。我们进行了彻底的消融研究，并定量显示我们的新配方的深度预测的优点我们还提供了与现有技术的定性比较，这证明了我们预测的高质量，特别是当后者用于3D重建时。2. 相关工作监督单目深度估计假设地面实况深度图可用于训练图像，并且需要对单个图像进行推断一个值得注意的早期方法是Make3D [59]，它明确地在场景上手工制作一个分段平面结构，并使用马尔可夫随机场局部学习相关参数[9]的多尺度网络通过学习从图像到深度图的端到端映射，开创了深度CNN在深度估计中的使用。后来有几部著作集中在这一背景下，提出了一个。（i）更高级的架构，如残差网络[32]，卷积神经场[43，73]，频域中多尺度的融合[34]，关注全局深度统计的基于变换的块[1]和用于处理多个分辨率的深度合并网络[50]，（ii）更适合深度预测的损失，如反向Huber损失[32]，分类损失[3]，有序回归损失[12]，成对排名损失[71]和几个深度相关损失的自适应组合[35]，以及（iii）深度与法线或语义标签的联合学习[8，53，72]。混合数据设置中深度偏移和焦距比例的模糊性在[78]中通过将3D点云编码器应用于提升的深度图来解决。我们的方法属于这一类，并将深度预测投射到一个更合适的空间，以利用输入场景的深度。其他深度估计设置包括无监督和半监督单目深度估计以及基于立体的深度估计。在[16]中引入了基于新颖视图合成[10]的具有立体对的深度的无监督学习，其使用图像重建损失，其中预测的深度用于将对中的一个图像扭曲到另一个的帧，并且在[18]中被转换为完全可微的公式。在这个方向上的进一步工作利用时间信息[47，52，82]。在这个框架中，对立体声对的需求被解除了在[85]中，它对单眼视频进行操作。估计的3D结构和跨视频帧的自我运动的一致性在[27，40，48]中被强制执行。深度和自我运动与[26，79]中的光流和语义以及[76]中的边缘在[19]中，以最小的重新投影损失实现了对视频帧间遮挡的鲁棒性[20，61]中的特殊损失有助于优化最近的方法利用测试时的视频输入[69]，与分割输出的一致性[86]以及相邻帧之间的尺度一致性[67]。非监督方法通常假设比监督方法更复杂的训练数据，并且遭受规模模糊和违反朗伯假设。在[29]中引入了半监督深度估计，其将稀疏深度测量与图像重建损失相结合。关于压力的数据集特定假设11612在[ 39 ]和[ 56 ]中，深度监督的强度和格式也被放宽，[39]利用多视图图像集合来生成可靠的大规模深度监督，[56]利用为单目深度估计提供不同形式的监督的不同数据集来更好地生成看不见的数据。早期的立体声方法依赖于手工制作的匹配成本[22]来估计差异。学习匹配函数的初始方法包括[30，65]，而后续工作依赖于完全卷积架构[5，49]。立体方法还在训练和测试时以立体对的形式假设更复杂的数据，这阻止了它们应用于更一般和不受控制的单眼设置。深度的几何先验已在文献中被广泛研究。特别是，分段平面性先验传统上用于多视图立体[14]和3D重建[2，6]，以便使这些问题能够更快地优化。这些方法涉及显式深度平面，并将这些平面拟合在来自输入点云的图像超像素或点集上。超像素级深度平面也用于深度去噪和完成[58，66]。在最近的基于深度学习的方法中，几何先验的合并通过分割平面[36，41，42，81]显式地执行，或者通过适当地设计损失[80]隐式地执行。在[77]的虚拟法线框架中，通过使用来自虚拟平面的监督来非局部共面性约束通过深度注意体积嵌入到[23表面法线在[46]中用于增加规则结构上的几何一致性。一种直接与图像空间中三维平面系数3. 方法正如SEC所指出的那样1，我们的网络通过选择性地组合每个像素及其对应的种子像素的深度来估计深度为了使这个公式起作用，使用可以捕获像素级深度以及平面度信息的公共表示是至关重要的我们通过使用类似于[83]的平面系数表示来实现我们解释了这种表示，并得出了解析关系之间的平面系数和深度在第二节。3.2，它允许我们仅用深度来监督网络。平面系数表示法的主要优点是，在假设两个像素在同一平面上的情况下，图像中像素的深度可以直接由不同像素的平面系数计算。这一优势形成了我们的平面性先验和使用种子像素的选择性平面深度自举的基础，我们将在第2节中解释三点三最后，在第3.4我们提出了一个额外的补丁级平均平面损失，这是对前面的组件的补充，并有助于独立地学习规则的深度图。3.1. 预赛单目深度估计需要学习密集映射fθ：I（u，v）→D（u，v），其中I是具有空间维度H×W的输入图像，D是相同分辨率的对应深度图，（u，v）是像素坐标。nates和θ是映射f的参数。在监督设置中，在训练时间，地面实况深度图Dm可用于每个图像I在训练期间，参数θ被优化，使得函数fθ在训练集T上最小化预测深度和地面实况深度之间的差。这可以形式化为Σ在[74，83]中使用了不依赖于固有相机参数的方法来估计场景中的主导深度平面。具有平面系数的相同表示为：minθ（I，D<$）∈TL（fθ（I），Dθ），（1）在[33]中用于指导深度网络的解码器部分的上采样模块，实现最先进的性能。我们也使用平面系数的这种表示，但与[74，83]相反，我们学习它而不需要平面的注释。相反，我们优化平面系数与空间偏移向量一起学习识别共面像素，并使用此共面性进行预测。其中，L是损失函数，其惩罚预测和事实再加上深度图D以及相机内部函数，我们可以将每个像素反向投影到3D空间。使用针孔相机模型并给定焦距（fx，fy）和主点（u0，v0），根据下式将每个像素p=（u，v）T映射到3D点P=（X，Y，Z）T：的深度。虽然偏移向量也用于[54]，Z（u−u）Z（v−v）后处理深度，我们在单个端到端架构中结合偏移向量，并通过利用与偏移所指向的种子像素相关联的平面进行内插来生成预测我们的方法受到[51]的启发，它训练偏移向量以从注释图像中识别实例分割中心，而我们专注于深度预测并在没有监督的情况下操作平面实例。Z=D（u，v），X =0，Y =0。（二）fx fy3.2. 深度的平面系数表示假设反向投影的3D点P对应于3D场景的平面部分。点法线形式的关联平面方程11613深度平面系数（h）D平面系数解码器平面系数（C）αβγiρFDf反向工程图片（一）特征提取器关闭. 维克场解码器偏移矢量场细化O关闭. 维克字段参考平面系数恢复深度平面系数（h）（Di，D*）Ds（Ds，D*）Df，D*D*反向工程MMPL图2. 我们的端到端P3Depth方法概述。P3Depth包括两个输出头。第一头输出像素级平面系数（C），而第二头输出识别种子像素的位置的密集偏移向量场（o）以及置信度图（F）。然后，使用种子像素的平面系数来预测每个位置处的深度。使用置信图将所得到的预测（Ds）与初始预测（D i）自适应地融合，以考虑与精确局部平面性的潜在偏差。-d是平面到原点的距离。将（2）中的P代入点法线方程，在这个世界上，网络只需要预测这些像素之一q处的C，就可以正确获得所有的深度值该像素可以被解释为描述平面的种子像素怎么-1−a−b1a b曾经，定义这个种子像素和=u+v+（Zf df du0+fv0−c）。（三）深度应该从它引导是不平凡的。因此，在本发明中，你好，阿吉·阿吉克斯dfx电子邮件 x在这项工作中，我们让网络发现这个种子像素，αˆβˆ的γˆ各自的区域。因此，对于描绘平面3D表面的图像区域逆深度是像素位置的仿射函数，其中系数对相机本征函数和t进行编码。3D 飞机我们重新公式化（3），引入ρ=αβ2+ββ2+γβ2，并归一化α=αβ，β=β，形式上，让我们从定义分段平面性先验开始，这是前面思想的放松版本。定义1. （分段平面性先验）对于每个像素p与相关联的3D平面，则存在种子像素 qγ=γinto在p的邻域中的ρ ρ 也与与P相同的平面。ρZ= [（αu+ βv+ γ）ρ]−1。（四）我们把C=（α，β，γ，ρ）T作为平面系数。使用这个符号，（4）可以写为Z=h（C，u，v）。代替直接预测深度，我们将我们的模型设计为具有平面系数头，其首先预测密集平面系数表示C（u，v），然后应用（4）来计算我们用Di表示的初始深度预测。更正式地说，从Sec.3.1现在是组合fθ=hθ（gθ，p），其中gθ：I（u，v）→C（u，v）将输入图像映射到平面系数表示。在每个像素处应用（4）。通过（1）对输出深度Di与直接预测深度相比，将平面系数预测为中间输出并没有立即带来优势。然而，描绘相同3D平面的两个像素具有相同的参数C，但通常具有不同的深度。这个事实是网络的下一部分的核心，它允许通过选择性地从种子像素引导平面系数来预测深度3.3. 学习识别种子像素让我们假设我们有一个像素p，它属于3D中的平面根据定义，该平面上的每隔一个像素具有相同的C值。因此，在理想情况下，注意，一般而言，对于p，可能存在多个种子像素或没有种子像素。假设先验成立，深度预测的任务也可以通过识别q来求解，即，通过预测偏移O（p）=q-p。因此，我们设计我们的模型，使其具有第二个偏移头，并让该偏移头预测密集偏移向量场o（u，v）。网络的两个头共享一个共同的编码器，解码器，如图2所示。我们使用预测的偏移向量场通过以下方式对平面系数进行重采样：Cs（p）=C（p+o（p）），（5）使用双线性插值来处理分数偏移。然后使用重新采样的平面系数来计算第二深度预测Ds（u，v）=h（Cs（u，v），u，v），（6）基于种子位置。这允许网络从种子像素引导深度。然而，先验并不总是有效的，因此与基于种子的自适应融合11614预测Di相比，初始深度预测Di实际上可能是优选的。为了说明这种情况，第二头部另外预测置信度11615KK图3. 地面实况平面与预测偏移向量场。像素处的预测偏移向量倾向于指向与其共享相同平面系数的左图示出了来自NYU Depth-v2的示例上的分割平面的叠加标签，右图示出了相应的预测偏移向量场。右图中左下角的图例显示了向量场的颜色编码图F（u，v）∈[0，1]，其指示模型在使用预测种子像素以经由Ds估计深度时的置信度。利用置信图来计算通过自适应地融合Di和Ds的最终深度预测：D f（u，v）= F（u，v）D s（u，v）+（1−F（u，v））D i（u，v）. （七）我们通过优化以下损失，对模型中的Df、Di和DsL深度=L（Df，D）+λL（Ds，D）+µL（Di，D），（8）其中λ和μ是超参数。通过这种方式，我们鼓励（i）平面系数头输出在所有像素上都准确的表示，即使它们具有高置信度值，以及（ii）偏移头学习高置信度值这种级联细化的动机在于，同一平面区域内的种子像素应当收敛到该区域的中心，这有助于在预测该区域的平面系数时积累来自更多像素的信息。同时，没有可靠种子像素的像素无论如何都被分配低置信度值，因此级联偏移不会损害相应的深度预测。3.4. 平均平面损耗我们用于公式化平均平面损失的假设是，给定像素坐标，其相邻像素应该位于3D空间中的同一平面上该平面的正规n应满足一个超定线性方程组然而，地面实况深度图通常由具有噪声测量和有限精度的消费级传感器捕获，这使得上述用于法线的局部拟合的机制不适用，因为不能保证找到真正的最优解。即使这是一个有效的观察，深度测量仍然包含有关场景结构的全面细节这些信息可以在本地聚合，以加强预测和地面实况3D表面之间的一阶一致性法线是一种可以执行这种跨补丁聚合对于输入面片，相应的法线n需要满足An=b，s.t.其中，A是数据矩阵构建通过在面片中堆叠3D点，b是一个向量。在[11，53]之后，这个问题的封闭形式解最小二乘问题是：（ATA）−1ATbn=“”。（九）<$（ATA）−1ATb<$平面度先验“”2保持和低置信度值的相反。然而，这一提法有一个警告。特别是，模型不直接监督偏移。事实上，它可以简单地预测到处都是零偏移，为了计算平均平面损失，我们首先估计表面D和D中所有K个非重叠面片然后惩罚他们的差异，ΣK仍然产生有效的预测Ds和Df，这将是LMPL=nk−n.（十）与Di相同。由于神经网络情况下映射f θ的规则性，初始预测Di在深度边界附近被错误地平滑，因此在实践中避免了这种不希望的行为。因此，对于边界两侧的像素，预测指向远离边界的非零偏移产生L深度的较低值，这是因为这样的偏移使用D深度的种子像素，该种子像素远离边界并且由于平滑而遭受较小的误差。也是因为regu-由于生成偏移向量场的映射的多样性，这些非零偏移从边界传播到具有平滑深度的区域的内部，从而帮助网络预测非平凡偏移。在我们的方法的成熟版本中，我们在重新扫描平面系数映射之前多次叠加偏移向量。例如，单个级联步骤对位置p + o（p）+o（p + o（p））进行采样。我们K1k=1对于具有深度不连续性的片块，即使当片块k的n不对应于地面实况3D平面时，平均平面损失仍然提供有用的监督信号。nal，因为它惩罚与nnal不一致的局部深度轮廓。此外，与[53]相反，我们不需要地面实况法线。给定（9），我们可以看到损失（10）直接影响补丁内所有点的深度，A. 最后，完全损失为Ltotal=Ldepth+LMPL。4. 实验我们将这一节的结构安排如下。我们首先讨论我们的实验装置，即，数据集，评估指标和我们的方法的实施细节。然后，我们将我们的方法与最先进的方法进行比较，然后对我们的方法进行彻底的消融研究。11616表1. 我们实验中使用的数据集。（*）使用RGBD传感器的混合。补充：监管数据集#培训测试次数辅助核算类型场景类型[62]第六十二话24,231654Kinect室内KITTI [17]23,488697LiDAR户外ScanNet [7]-2167Kinect室内SUN-RGBD [63]-5050混合 *室内[64]第六十四话-325LiDAR室内[60]第六十话-454LiDAR混合图4. 关于NYU Depth-v2的定性结果。我们使用与[77]相同的示例将我们的方法与SOTA方法进行前视图侧视图顶视图图5.重建示例来自NYU Depth-v2。我们将由我们预测的深度引起的3D重建与结果使用两个SOTA深度估计方法[33，77]。4.1. 实验装置在本节中，我们将介绍用于评估我们的方法的数据集。NYU Depth-v2和KITTI数据集被用作训练和测试的主要数据集。此外，我们使用四个以上的数据集测试我们的方法在零拍摄传输设置，以评估其推广潜力。使用下文解释的标准深度评价指标对所有六个数据集进行评价。[62]第六十二话NYU Depth-v2数据集由464个大小为640×480的室内场景组成。这些场景分为249个场景用于训练，215个场景用于测试。我们使用以前的方法[33]提供的官方分裂进行训练，测试集基于[9]。KITTI [17]. KITTI是一个自动驾驶数据集，由61个不同类型的户外场景组成。我们采用Eigen等人提出的标准深度估计分裂。[9]和Garget al. [16]，用于培训和测试。我们使用32个场景进行训练，29个场景进行测试。用于零发射测试的数据集。为了测试我们的P3 Depth的泛化能力，我们在训练过程中看不到的四个数据集上进行了评估：ScanNet，SUN-RGBD，DIODE Indoor和ETH-3D。所有图像的分辨率降低到640×480。详情见表1。评估指标。我们使用标准的深度估计，灰评价指标。特别地，我们使用均方根误差（RMSE）及其对数变量（RMSElog）、Log10误差、绝对（A.Rel）和平方（S.rel）平均相对误差以及具有δ的内点像素的百分比。KITTI的最大深度分别设置为Garg和Eigen分裂的50米和80米。对于NYU Depth-v2，根据特征值分割，通过使用在NYU Depth-v2上训练的模型来执行零拍摄传输，而无需额外的微调。在所有四个测试数据集中，此任务的最大深度在所有评估中，根据标准实践，预测深度被重新缩放，使得其中值匹配地面实况的中值。实作详细数据。我们的网络包括两个头。第一磁头输出四个通道，每个平面系数一个通道。第二个头输出三个通道：一个用于偏移的每个坐标，一个用于置信度。这些头由ResNet101编码器[21]提供，初始化为预先训练的ImageNet [28]权重。这种初始化对于实现有竞争力的结果非常重要，在[13，23，33，77]中。从[70]中得到启发的解码器使用从σ= 0.01的正态分布中提取的权重进行初始化。所述平面系数解码器另外配备有引导模块。详见补充资料。偏移向量经由双曲正切层被限制为在归一化图像坐标中具有τ的最大长度。我们将τ默认设置为0.1，并对偏移量应用两步级联细化。置信度图通过S形层预测。对于所有实验，我们使用批量大小为8，并使用Adam优化器[25]，学习率为10−4，权重衰减为10−4。我们GT我们BTS[33]越南国家图书馆[77]GT我们越南国家图书馆[77]BTS[33]DORN[13]图像11617表2. NYU Depth-v2 [62]测试集上深度估计方法的比较。在本征分裂（Eigen split）上进行比较[9]。(nF)是帧数，（*）表示自监督方法，（†）表示使用[33]中的训练集重新训练的结果。方法A.RelLog10RMSE低越好δ1δ2δ3越高越好平面检测方法[42]第四十二话0.1420.0600.5140.8120.9570.989[41]第四十一话0.1240.0770.644–––Yu等人[八十一]0.1340.0570.5030.8270.9630.990P2 Net（5F）*0.1470.0620.5530.8010.9510.987StruMonoNet [75]0.1070.0460.3920.8870.9800.995其他单目深度估计方法Saxena等人[59个]0.349-1.2140.4470.7450.897Karsch等人[24日]0.3490.1311.21---Liu等[45个]0.3350.1271.06---Ladicky等人[三十一]---0.5420.8290.941Li等[37]第三十七届0.2320.0940.8210.6210.8860.968Wang等人[68个]0.2200.0940.7450.6050.8900.970Liu等[第四十四届]0.2130.0870.7590.6500.9060.974Roy等人[五十七]0.1870.0780.744---AdaBins [1]0.1780.0780.5950.6980.9370.988Eigen等人[9]第一章0.158-0.6410.7690.9500.988查克拉巴蒂[4]0.149-0.6200.8060.9580.987Li等[38个]0.1430.0630.6350.7880.9580.991Laina等人[32个]0.1270.0550.5730.8110.9530.988Fu等人[13个国家]0.1150.0510.5090.8280.9650.992Yin等[77个国家]0.1080.0480.4160.8750.9760.994Huynh等人[23日]0.108-0.4120.8820.9800.996Lee等[33个]0.1100.0470.3920.8850.9780.994Long等人[46个]0.1010.0440.3770.8900.9820.996Ranftl等人[55个]0.1100.0450.3570.9040.9880.998我们0.1040.0430.3560.8980.9810.996训练我们的网络25个epoch，尽管模型从epoch 5开始产生不错的预测。学习率每5个epoch降低10倍，使用表3. KITTI上深度估计方法的比较[17]。比较是在特征检验分裂上进行的。方法A.RelS.RelRMSE日志低越好δ1δ 2δ 3越高越好Garg split [16] cap：50 mGarg等人[16个]0.1691.0805.1040.2730.7400.9040.962Godard等人[18个国家]0.1080.6573.7290.1940.8730.9540.979库兹涅佐夫[29]0.1080.5953.5180.1790.8750.9640.988Gan等人[第十五条]0.0940.5523.1330.1650.8980.9670.986Fu等人[13个国家]0.0710.2682.2710.1160.9360.9850.995AdaBins [1]0.0580.192.360.0880.9640.9950.999Lee等[33个]0.0560.1691.9250.0870.9640.9940.999我们0.0550.1301.6510.0810.9740.9970.999本征分裂[9]上限：80米Saxena等人[59个]0.2803.0128.7340.3610.6010.8200.926Eigen等人[9]第一章0.2031.5486.3070.2820.7020.8980.967Liu等[四十三]0.2011.5846.4710.2730.6800.8980.967Godard等人[18个国家]0.1140.8984.9350.2060.8610.9490.976库兹涅佐夫[29]0.1130.7414.6210.1890.8620.9600.986Gan等人[第十五条]0.0980.6663.9330.1730.8900.9640.985Fu等人[13个国家]0.0720.3072.7270.1200.9320.9840.994Yin等[77个国家]0.072-3.2580.1170.9380.9900.998Lee等[33个]0.0590.2452.7560.0960.9560.9930.998AdaBins [1]0.0670.2782.960.1030.9490.9920.998Ranftl等人[55个]0.062-2.5730.0920.9590.9950.999我们0.0710.2702.8420.1030.9530.9930.998可以有益于网络的整体深度估计能力的平面。NYU Depth-v2的定性结果支持上述发现。在图4中，我们使用与[77]中相同的示例与SOTA方法进行了比较，显示了我们的方法生成的高质量预测。可以清楚地观察到，与SOTA方法相比，适合我们的分段平面假设的表面，例如桌子、橱柜，甚至更小的物体，例如计算机屏幕、相框等，具有具有清晰细节的一致预测。总的来说，我们的方法产生了优越的VI-步骤调度器。类似地调整训练图像的至[33]。对于所有直接深度损失，我们使用[9]中的损失公式。损失权重λ和μ设置为0.5。此外，使用最终深度预测Df来应用平均平面损失。偏置头的性能更好，监管因此，Ds是使用完成的Ds来监督的。为了完成D修复，使用[62]中的深度修复方法。修复后的地面实况也用于计算平均平面损耗为最小二乘SVD算法提供稳定性。我们将补丁大小设置为32，并且（10）中的K由补丁大小和图像大小间接设置使用[33]4.2. 与最新技术水平的比较NYU Depth-v2：NYU Depth-v2（主要室内深度基准）的结果见表2。我们在NYU Depth-v2上设置了最新的技术水平，在所有六个标准指标上都超过了先前的最新技术水平（SOTA）方法我们在RMSE中实现了9.18%的相对性能增益，在A.Rel中实现了3.7%的相对性能增益，同时还将δ1提高了1.1%。性能的这种改进表明，在不使用地面实况平面作为监督的情况下，P3Depth学习了sual结果。在某些情况下，尤其是w.r.t.场景的度量尺度，[33]的结果与我们的结果相当。我们的方法尤其擅长于室内场景的人造规则结构。更重要的是，预测的深度图产生3D重建，这是一致的地面实况点云，并保留场景的结构比竞争的方法，如图所示。五、KITTI：表3中KITTI的结果表明，我们的方法完全适用于室外数据集。特别是，我们在所有指标上都超过了Garg分裂（最大范围为50 m）的现有技术水平。更具体地说，我们将RMSE提高了14.2%，δ1提高了1.0%。这证明了我们的方法利用了室外场景中的规则结构来提高深度预测。此外，我们的方法与本征分裂[9]的最大范围为80 m的最新技术水平相当我们在本征分裂上的排名略低的原因是场景的远处部分被投影到更小的区域，因此深度图的各个平滑部分的范围也更小，使得更难以预测正确的偏移。此外，有关KITTI基准套件的结果，请参阅补充。总的来说，该方法能够处理平面对象，11618表4. 度量深度广义学习的SOTA方法比较。所有方法都在NYU Depth-v2上进行了训练，并在其他四个数据集上进行了测试，没有进行微调。图6. KITTI的定性结果。我们呈现预测的偏移向量场（中间）和深度估计（右）。以及即使在可变照明条件下，如图所示六、虽然底部图像中的标志牌是明亮的，而中间图像中的汽车是昏暗的，但是该方法能够检测物体表面的规则性并预测一致的深度。图6的顶部图像展示了我们的方法的局限性。特别是，右侧交通标志杆两侧的路段被映射到显著不同的深度值，因为它们是断开的，因此在平面系数方面不相互作用，即使它们属于同一个3D平面。此外，中间图像中的汽车的平面镜面玻璃表面被错误地预测。这是由于用于测量深度的传感器的缺点。错误的地面实况不允许网络学习这些区域中的深度或偏移向量场。零触发实验：在表4中，我们证明了我们的方法在零触发设置中的泛化能力，其中在训练期间没有看到测试域。我们在ScanNet [7]和SUN-RGBD [63]室内数据集上实现了所有指标的最佳性能在DIODE In-door和ETH-3D上，[77]在A.Rel方面表现最好，但我们在RMSE和δ1方面都是迄今为止最好的。这种比较表明，即使我们的方法只在室内数据集（如NYU Depth-v2）上训练，它也能在具有不同类型场景的各种数据集上运行良好。4.3. 消融研究我们通过表5中的烧蚀来研究我们的方法的组件的重要性。我们观察到在在独立设置中，直接预测深度优于预测平面系数。然而，一旦我们插入预测偏移向量的第二头部，与直接预测深度相比，通过使用平面系数表示获得了实质性的益处这表明，由于平面系数表示，网络学习有效利用种子像素处的局部平面信息来提高深度。此外，添加我们的指导模块提供了轻微的改进。烧蚀还验证了级联细化的效用off-表5. 我们的方法的组件的消融研究。D：直接预测深度，C：预测平面系数，“指南"：用于平面系数解码器的引导模块，“OV”：偏移矢量，“Ref."：偏移的级联细化，“MPL”：平均平面损耗， “+" ：偏移长度被限制为 τ=0.3 而不是τ=0.1。Pred.伙计。 OV参考MPLA.Rel↓RMSE↓δ1↑D0.1420.4580.821C0.1440.4870.811C✓0.1420.4580.824D✓0.1400.4530.824C✓0.1160.3900.877C✓0.1180.3950.872C✓ ✓0.1150.3840.879C公司简介0.1160.3900.879D✓ ✓0.1340.4400.839C✓ ✓0.1130.3780.884C✓ ✓✓0.1090.3700.890C0.1090.3730.889C0.1040.3560.898集合，这比简单地使用更大的最大偏移长度产生更好的结果。最后，在平面系数、偏移向量和级联偏移细化之上添加我们的平均平面损耗，产生NYUDepth-v2上的SOTA结果。5. 结论我们已经提出了一种监督的方法，利用局部平面信息的3D场景中的单目深度估计，以预测一致的深度值在整个场景的平滑部分。该方法使用深度的平面系数表示，这使得能够共享来自种子位置的信息并提高预测深度。我们隐式地学习预测这些种子位置的偏移，并根据准确性自适应地加权从它们获得的深度。我们在单目深度估计的主要室内和室外基准上经验性地验证了我们的方法，并在监督方法中设置了新的最新技术水平，这显示了深度估计的精心选择的几何先验的潜力。鸣谢。这项工作是由丰田汽车欧洲通过研究项目TR ACE-Zürich资助的。我们感谢孙国磊分享他的GPU配额。数据集度量越南国家图书馆[77]BTS [33]我们A.Rel↓0.2270.2550.223ScanNet [7]RMSE↓δ1↑0.5630.5440.6150.4720.5380.551A.Rel↓0.3170.3170.307SUN-RGBD [63]RMSE↓δ1↑0.4490.7930.4610.7940.4310.797A.Rel↓0.2910.3100.373室内二极管[64]RMSE↓δ1↑0.8900.6350.9810.5590.7840.639A.Rel↓0.3310.3660.343[60]第六十话RMSE↓δ1↑1.6491.8401.6370.46811619引用[1] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. AdaBins ：使用自适应 bin 进行深度估计。IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。二、七[2] Andras Bodis-Szomoru ， Hayko Riemenschneider ， andLuc Van Gool.基于稀疏运动恢复结构和超像素的快速近似分段平面建模。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2014年。第1、3条[3] 原州韩曹，吴子峰，沈春华。使用深度全卷积残差网络从单目图像估计深度作为分类。IEEE Transactions onCircuits and Systems for Video Technology，28（11）：3174-3182，2018。2[4] AyanChakrabarti ， JingyuShao ， andGregoryShakhnarovich.深度从一个单一的图像，通过协调过完整的局部网络预测。在NIPS，2016年。7[5] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[6] Anne-Laure Chauve ， Patrick Labatut 和 Jean-PhilippePons。基于大规模非结构化点数据的鲁棒分段平面三维重建与实现IEEE计算机视觉与模式识别会议，2010年。第1、3条[7] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，20

下载后可阅读完整内容，剩余1页未读，立即下载