基于置信度的深度和表面法线迭代算法

164 浏览量更新于2023-10-08 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6168一种基于置信度的深度和表面法线迭代算法王钊1，3* 刘绍辉2，3 *易伟1郭恒凯3刘永进1，41清华大学2苏黎世联邦理工学院3字节跳动4JCMVb1ueber2y@gmail.com，{zhao-w19，y-wei19}@ mails.tsinghua.edu.cn，guohengkai@bytedance.com，liuyongjin@tsinghua.edu.cn摘要在本文中，我们介绍了一个深度多视图立体（MVS）系统，联合预测深度，表面法线和每视图的置信度图。我们的方法的关键是一种新的求解器，迭代地解决每视图的深度图和法线图，通过优化的能量潜力的基础上的局部平面的假设。具体地，该算法通过从具有倾斜平面的邻近像素传播来更新深度图，并且通过局部概率平面拟合来更新法线图两个步骤都是(a) 输入RGB图像(b) w/o。求解器由定制的置信图监测。该求解器不仅作为用于基于平面的深度细化和完成的后处理工具是有效的，而且是可微的，使得它可以被有效地集成到深度学习流水线中。我们的多视图立体系统采用多个优化步骤的求解器在初始预测的深度和表面法线。整个系统可以进行端到端的训练，将纹理不良区域内的像素匹配的挑战性问题与基于成本-体积的神经网络解耦。在ScanNet和RGB-D Scenes V2上的实验结果证明了所提出的深度MVS系统在多视图深度估计上的最新性能，其中我们提出的求解器与传统的和基于深度学习的MVS流水线相比不断提高深度质量代码可在https://github.com/thuzhaowang/idn-solver上获得。1. 介绍稠密多视点立体（MVS）是计算机视觉领域的一个重要课题。大多数现有技术的关键思想是在不同深度假设下比较图像块的相似性，从而在图像之间密集地匹配像素。虽然近几十年来已经取得了很大的进步，但从姿态图像中精确估计稠密几何体*同等贡献(c) W.仅在训练时求解器（d）w.训练和推理图1.通过将所提出的迭代求解器集成到端到端训练中，我们的方法将估计纹理不良区域内的深度值的挑战性问题与初始网络预测解耦，使网络更加专注于对纹理良好的像素进行可靠估计。这提高了纹理（蓝色）和无纹理（红色）区域的注意，在无纹理区域（（c）（d）上的红色框）上，与求解器联合训练的网络仅关注于预测相邻区域上的可靠几何形状，留下纹理不良的像素以使用迭代求解器模块来求解。在许多实际情况下，尤其是在室内环境中，其中最典型的故障原因之一是存在无纹理区域（例如，墙），这导致匹配步骤的显著模糊性，因为多个不同的深度都导致低匹配成本。已经有各种尝试来解决这个关键问题。全局优化[19，5，50]是解决模糊性的一个可能的这些方法最初假设一组固定的超像素，并应用具有倾斜平面模型的马尔可夫优化更喜欢全局平滑的几何形状与局部平面表面，并取得了良好的性能。然而，全局优化方法遭受大的计算复杂性，并且性能也受到超像素和手工密集特征的质量的限制随着最近深度学习的成功，基于学习的6169由于所学习的特征和深度先验的改进的质量，这些方法在数据集上实现了很好的性能。通常，基于成本-体积的架构[51，47]是用深度上的逐像素损失函数进行端到端虽然由无纹理区域引起的不确定性仍然存在于构建的成本体积中，但几种方法提出利用联合预测[38，29]或在线拟合[52，33]的表面法线来帮助训练深度预测，旨在通过直接监督预测的深度图的局部结构来隐式地丰富具有局部平面先验的网络。然而，它仍然是一个困难的问题，成功地学习这样的先验知识，并准确地预测深度的纹理较少的地区直接从模糊的成本卷上建立的翘曲补丁。在本文中，我们提出了一种新的深度多视图立体系统，解耦的本地平面先验的成本体积为基础的深度/正常预测网络。我们所提出的系统的关键是一个可微的基于置信度的求解器，其通过优化局部平面表面的能量势来迭代地求解深度图和法线对于每次优化迭代，求解器通过从具有倾斜平面的相邻像素传播来更新深度图，并且通过局部概率平面拟合来更新法线图。定制的置信图可用于监测这两个步骤。我们的深度MVS系统首先联合预测深度、法线和置信度，然后在初始预测上应用深度法线求解器的多个优化步骤。这些多个步骤实现可靠深度和法线的长距离传播。整个系统可以端到端地训练，引导深度/法线网络更多地关注纹理区域上的置信深度/法线预测对于求解器模块，可以使用组合深度置信度预测和常规几何重投影检查的混合置信度图来在推理时稳定优化过程。所提出的系统结合了倾斜平面模型[4]和基于学习的技术的优点。利用端到端训练，引导初始深度预测仅关注部分区域上的可靠估计，而不是整个图像（如图2所示）①的人。ScanNet和RGB-D Scenes V2上的实验结果表明，我们的新型深度MVS在深度和表面法线的准确性方面达到了最先进的性能，所提出的求解器始终提高了传统和深度MVS管道的深度质量。2. 相关工作多视图立体。从姿态图像重建3D模型已经被广泛研究了几十年。早期的方法[30，12，46]利用体积优化。后来尝试[53，14，6，20，41]重建每视图深度通过比较跨视图图像块来映射，这是现代多视图立体管线的事实上的方法。最近的进展包括采用superpix-els [39]，后细化[27，28]和先进的propa。随着深度学习的成功，提出了许多基于学习的技术来解决这个问题。虽然几种方法学习直接预测3D几何形状为网格[25，24]，点云[7]和TSDF [35]，但由于其鲁棒性和灵活性，每视图深度图估计仍然是大多数方法的首选[47，51，23，32，21，29，33，10，36]。这些方法中的大多数遵循传统方法的精神[14，6]并训练基于成本量的神经网络。一些方法[21，10，36]还将时间信息与递归网络相结合。然而，在纹理不良的区域上的直接预测一直是依赖于成本量的大多数方法的主要困难之一。其中一个例外是DELTAS [43]，它提出学习兴趣点并在稀疏点上执行三角测量和加密。在这项工作中，我们还专注于每视图的深度估计，并介绍了一个端到端的MVS系统配备了一个新的迭代求解器，隐式解耦的深度预测纹理无区域的成本-体积为基础的网络。置信度估计准确地估计每视图深度图置信度对3D重建流水线是有益的。早期的置信度测量，如匹配成本，峰值比和最大似然在[18，22]中得到了广泛的研究。局部平滑度也可以有助于立体声问题的置信度测量[44，17]。最近，基于学习的方法[42，37]被证明是有效的置信度估计。与我们关系最密切的[28]利用从几何一致性检查获得的计数器映射进行深度置信度预测。在我们的MVS系统中，我们将深度置信度估计和几何一致性检查结合在一起，以获得最终的置信度图，该置信度图在推理时监视求解器。深度法线约束。由于深度和表面法线通过局部平面拟合自然地耦合，因此广泛采用接头具有倾斜平面模型的马尔可夫随机场最初在[4]中引入，并且后来用于许多立体技术[19，5，50]。那些方法在超像素上操作并且优选局部平面表面。[6]提出在其PatchMatch立体框架中采用倾斜的支持窗口，将深度传播与随机初始化的每像素表面法线耦合。[15]进一步介绍了一种最小曲面正则化方法。[45]建议在平面拟合过程中嵌入双边滤波，以促进输出深度图的局部平面结构。最近的基于学习的方法也利用表面法线来帮助训练深度预测。而[11，38，29]联合预测深度6170XC-2和表面法线一起受益于多任务特征学习，最近的文献[52，33]采用在线拟合。在[55]中，训练表面法线网络以帮助从稀疏深度观察中求解密集深度图。与以前的工作不同，我们的方法通过可微迭代求解器明确利用深度法线约束。(a) 棋盘(b) d步n��→��像素点处的局部平面(c) n步3. 一种迭代深度法向求解器我们的深度多视图立体系统的关键是基于置信度的迭代深度法线求解器模块，其从初始预测求解每视图深度图和法线图具体而言，我们假设局部平面结构的深度图和耦合的法线映射在我们的优化方案。3.1. 能量方程我们的势能Etotal由一个数据项Edata和一个基于平面的结构项Eplane组成，超参数α对这两项进行加权：E总=αE数据+E平面，（1）数据项相对于给定的初始几何形状正则化输出几何形状。以di，ni为每-图2.建议的求解器的图示。(a)我们使用稀疏棋盘来定义每个像素的邻域，这使得能够实现大的感受野和有效的计算。(b)在D步骤中，我们通过从具有倾斜平面的相邻像素传播来更新深度图。(c)在N步中，我们用局部概率平面拟合来更新法线映射。对于相邻像素的定义，我们可以使用稀疏棋盘[13，48]（如图11所示）2（a））或在固定窗口内随机采样稀疏点。这实现了相邻几何结构的有效长距离传播。在结构能量的两个公式中，每个像素的贡献也由每像素置信度ci监测。受双边滤波技术[2，3]中的有效公式化的启发，我们还利用边缘感知双边α f有限对相邻像素的贡献进行加权，表示为分别为像素深度和表面法线，并且Ci为每像素置信度。表示初始深度和表面正常为d和n。数据项写为如下：wij=exp（−||2 ||22σ2||2 ||22σ）、（3）i i在哪里表示每个像素处的RGB值虽然我们E data=Σci（di−d（i）2+Σci||ni−ni||二、（二）我我为了简单起见，这里使用RGB颜色空间，权重可以很容易地扩展到YUV空间，如[2，3]中所采用的。基于平面的结构项E平面强制执行-3.2. 深度和表面法线使深度和表面法线与当地平面一致相对于相邻几何形状的nar假设令（xi，di，ni）和（xi，di，ni）分别表示当前像素及其相邻像素的2D坐标、深度和表面法线P（x，d，n）表示位置x处的倾斜平面，该倾斜平面是通过从d和x恢复的对应3D点与表面法线n跨越平面而生成的。我们的基于平面的结构能量可以在以下两个方向中的任一个上公式化• Ej→i。从当前pixeli处的di和xi恢复的3D点与在其相邻pixel j处生成的倾斜平面P（xj ，dj ，nj ）之间的距离函数的总和（在每个像素上）。 dj-i表示倾斜平面P（xj，dj，nj）在pi x eli处的投影。我们的目标是最小化的总能量与一个有效的，并行化的和可微的近似。为了并行化计算，我们假设固定的相邻几何和解决每个像素单独在每个更新的步骤。由于深度和表面法线在从相邻像素传播时由于倾斜平面的透视投影而非线性地耦合，因此对于在数据项1中考虑深度和法线的整个能量势，不能获取闭合形式的解。我们的建议是迭代求解深度和表面法线。如图2（b）（c）所示，每次迭代进一步分为两个子问题优化步骤，其中我们单独求解深度/法线，其他变量（法线/深度）固定。这两个亚-• Ei→j. 距离func的和（在每个像素上）所有问题都可以有封闭形式的解。此外，委员会认为，我们在两个基于平面的结构项之间交替在当前像素i处生成的倾斜平面P（x i，di，n i）与在其相邻像素pi x elj处从x j和d j恢复的3D点之间的距离。 di-j表示倾斜平面P（xi，di，ni）在像素j处的投影。n��→��像素处的局部我6171公式，以更好地适应每个子问题，获得一个1如果只考虑表面法向数据项，则可通过变量代换导出闭合形式的解。6172ΣΣΣΣΣRef 1目标Ref 2GT配置（N）GT配置（D）基于迭代深度-法线解算器1n��→��共享编码器局部平面在像素处信心信心分支（N）分支（D）D步特征地图特征地图2n正常分支��→��单应翘曲局部平面在像素处特征成本量深度分支N步迭代地特征图图3.我们的深度多视图立体（MVS）系统的概述。首先，我们将目标图像和多个参考图像馈送到共享编码器中以提取每视图深度图像特征，这些特征用于构建特征成本量。然后，我们使用3D CNN和2D扩张CNN联合预测深度，表面法线和置信度[54]。最后，基于置信度的深度法线求解器迭代地应用于预测的深度和表面法线以获得最终输出。整个系统可以进行端到端的训练在训练时，使用由相对深度误差计算的地面实况置信度图来帮助引导初始预测集中于估计纹理区域上的可靠几何形状注意，置信度分支的输入被简化以用于更好的可视化。解耦的线性系统代数的两个步骤，从而使整个求解器的梯度易于处理。使表面法线能量最小的表面法线n如下：minEtotal= minEn（6）深度更新（D步）。在深度更新步骤中，我们固定表面法线图，并求解最小化深度能量Ed的最佳深度图，如下所示：n nE n= αci||n i我-ni||（七）最小ED总= minEdD（四）+ij∈N（i）cjwi jDn（dj，P（xi，di，ni））.Ed=αci（di我-d（i）2+我j∈ΣN（i）cjwij （di-dj→i）2、（五）Dn是相邻像素处的深度di与像素i处的倾斜平面P（xi，di，ni）之间的距离函数。根据在最后步骤中更新的深度di和被优化的表面法线ni来计算平面方程其中N（i）表示像素i的定义邻域。我们采用Ej→i作为基于平面的结构项，并计算优化深度和传播深度dj→i之间的L2距离。如前所述，我们假设固定的相邻几何形状，因此给定深度dj→i，这里是倾斜平面的投影形成局部概率平面拟合问题。注意，如在D步骤中，简单地在d1和d1-j之间采用L2距离将由于基于平面的传播期间的透视投影而相反，我们可以参数化表面或-mal asn=（a，b，−1）并利用P（xj，dj，nj）在pi x eli处。对比Ei→j 仅平面方程以获得二次能量，其中2线性方程可以通过设置一阶导数来获得。在像素本身使用一个表面法线查询，采用Ej→i提高了对初始表面法线映射中异常值的鲁棒性，使求解器能够利用所有相邻像素中的表面法线。我们可以通过将Ed的一阶导数设置为零来导出闭合形式的最优深度曲面法线更新（N步）。在表面法线更新步骤中，我们固定深度图并求解最优26173从而足以以闭合形式2求解2-DoF表面法线ni。4. 深度多视角立体系统基于基于置信度的迭代求解器，我们提出了一个深度多视图立体系统，联合预测2请参阅我们的补充材料了解更多详情。6174- -每视图深度、表面法线和置信度图。图3示出了所提出的系统的概述。4.1. 估计初始深度和表面法线由于我们的工作不集中在网络架构上，所以我们主要遵循先前的工作[23，29]来构建基于成本-体积的多视图深度-正常网络。首先，将目标图像和多幅参考图像分别馈入共享的神经网络编码器，以获取每视深度图像特征。然后，我们在特征图上应用平面扫描来构建特征成本量。3D CNN和2D扩张CNN [54]应用于成本体积以聚合和正则化成本信息。然后使用软argmin算子从最终成本体积回归深度图法线分支遵循[29]的设计，其将世界坐标体积与特征成本体积连接起来，并使用成本体积切片来估计表面法线。对于置信度估计，利用多个源来促进有效的置信度回归，包括中间特征图、成本量和预测的深度/法线。我们将它们馈送到两个迷你网络中，这两个网络由几个扩张卷积和一个最终的S形激活组成，分别估计深度和正常的置信度。有关网络架构的详细信息，请参阅我们的补充材料。为了训练网络，我们使用平滑的L1损失用于深度和法线，交叉熵损失用于置信度。根据相对深度误差e rel和法向角度误差e ang计算地面实况置信度图c dgt和c ngt：cdgt=max（1. 0γ1e rel，0. 0）和c_ngt=max（1. 0γ2eang，0. 0），其中γ1、γ2是超参数。4.2. 集成建议的求解器在获得初始预测之后，我们在初始深度图和表面法线图上使用我们的求解器模块具体地，针对多次迭代迭代地应用D-步骤和N-步骤我们使用5次迭代进行训练，并且可以在推理时使用更多步骤多次迭代导致更准确的近似的最佳深度和表面正常下的局部平面的假设。此外，由于基于平面的传播受到棋盘的窗口大小的限制，因此使用多次迭代能够实现从可靠像素的长距离传播。实际上，我们发现改进推断时的迭代次数确实导致更好的深度质量（参见表6）。由于求解器中的所有操作都是可微的，因此整个系统可以端到端地进行训练，其中最终求解的几何形状上的损失可以反向传播到网络中，用于训练初始深度/法线预测。在训练阶段，我们将深度损失和法向损失应用于初始预测和最终求解的几何形状。系统的端到端培训提出了几个(a) 图像（b）深度误差(c)几何配置（d）深度配置图4.不同置信度图上的可视化。相对深度误差⑹用于计算地面实况置信度。虽然通过几何一致性检查（c）获得的置信度更准确，但深度置信度（d）是完整的，并且充当对推断时的几何置信度的补充。优势首先，求解器可以被认为是对初始深度/法线预测的封闭形式的细化步骤，这提高了对噪声和异常值的此外，基于平面的结构项有利于局部平面表面，这在室内环境中的纹理不良区域和遮挡区域上特别有益，其中基于成本-体积的方法由于大的模糊性而难以估计将所提出的求解器集成到我们的端到端深度MVS系统中，消除了网络处理极无纹理区域中的像素的必要性，因为它可以在推理时留给求解器的传播步骤。这促使我们的网络只关注纹理区域的可靠估计，这在很大程度上减轻了学习负担。如图1所示，该机制显著提高了纹理化区域和无纹理区域的深度质量。为了更好地利用这些行为来丰富网络，在训练时，我们将迭代求解器与地面实况深度/法线置信度图一起应用，该置信度图是通过将深度/法线图的误差与地面实况深度/法线进行比较来计算的。我们根据经验观察到，在训练期间需要求解器的高质量置信度图仅在训练时使用联合预测的置信度图不能成功地用上述好的属性来丰富初始预测。4.3. 推理在推理时，我们使用训练好的网络来预测初始深度、表面法线和置信度图。预测的置信度可以在迭代求解器中使用，其中初始深度图和法线图作为输入。为了进一步提高深度置信度的质量，我们还在多个视图处的预测深度图上利用跨视图几何一致性检查目标深度被重新投影并与参考深度进行比较以计算相对深度误差，然后将其转换为几何置信度。如果有多个参考图像可用，则我们在计算的置信度图上取最小值以获得6175(a) 目标（b）初始（c）迭代1（d）迭代3（e）迭代10图5.用于综合概念验证实验的建议深度法向求解器的优化过程的可视化这减少了假阳性高置信度像素的数量如图4所示，虽然几何置信度通常更准确，但在遮挡和小重叠下，深度置信度是完整的，这在实践中可以作为很好的补充。可以通过深度置信度和几何置信度的相乘来获取混合置信度图，其在迭代求解器中用于产生最终输出几何形状。5. 实验5.1. 实现细节我们使用ScanNet数据集[9]来训练我们的系统。采用正式的培训分割。来自具有固定帧间隔20的一个序列的三个视图形成训练数据样本。初始深度和正常网络首先用15个epoch训练，然后与求解器集成并端到端训练另外10个epoch。我们在4个Nvidia V100 GPU上使用Adam优化器[26对于求解器，我们通过水平和垂直偏移每个坐标1、3、5、10个像素来定义邻域，形成传播棋盘的16个有效条目（如图2（a）所示）。时间效率。P y T o r c h 中的直接实现在Nvidia V100GPU上的每次迭代需要14ms。实现CUDA C++内核可以在400万像素的图像上实现0.9ms/iter（15倍加速），与主干网络相比几乎可以忽略不计。5.2. 验证求解器模块我们首先执行一个验证检查的有效性，建议的求解器模块下的非学习设置，求解器作为一个后处理工具，深度细化和完成。我们从一个合成案例开始，其中四个不同的100x100平面区域被投影到200x200图像上。对于初始输入，每个像素的几何形状具有95%的概率被随机噪声替代，模拟不可靠的像素。图5示出了在输入几何上应用迭代求解器的定性结果。随着深度和法线的迭代优化，几何形状逐渐细化到接近地面实况目标，表明我们提出的求解器成功地将局部平面先验集成到优化中。我们进一步在从AdelaideRMF数据集[1]获取的真实室外数据上测试求解器，该数据集广泛用于多结构拟合方法[16，34]。具体图6.将所提出的求解器应用于来自COLMAP的稀疏重建的结果[40，41]。顶行：输入图像。中间行：从COLMAP获取的初始稀疏深度图。底行：应用建议的解算器后的输出深度。最后，我们将迭代求解器应用于从COLMAP [40，41]的稀疏重建结果示于图6中。我们提出的求解器成功地完成了稀疏输入合理正确的输出，证明了该模块的有效性。5.3. 多视点立体实验为了将我们提出的深度MVS系统与领先的方法进行比较，我们在完善的基准测试上评估了我们的方法，这两个数据集都包括具有许多纹理不良区域的具有挑战性的室内场景。多视图深度估计的定量结果如表1和表3所示，其中我们的系统在两个数据集上都以较大的幅度超过了所有现有的最先进的方法。图7中的定性结果也证明了我们提出的系统的巨大改进。我们的方法不仅产生准确的深度图，而且还成功地处理边界周围的细节。我们进一步评估我们的深MVS系统的估计表面法线。结果如表2所示，我们再次在ScanNet数据集上实现了最先进的性能[9]。图9中的定性可视化清楚地显示了我们的方法的改进。最后，我们在图8中示出了TSDF融合[8]后重建模型的可视化。与强基线方法相比，我们的方法产生了视觉上更吸引人的重建[23，43]。6176方法绝对相对值绝对差值平方相对RMSERMSE日志δ<1。25δ <1.一、252δ <1.一、253MVDepth [47]0.10530.19870.06340.30260.14900.88170.97230.9924MVDepth（FT）0.10140.18910.04760.28500.13900.89300.97640.9941GP-MVS [21]0.09200.22830.06440.44360.15600.89180.96290.9918GP-MVS（FT）0.07870.20080.05180.40090.13940.91340.96430.9931[32]第三十二话0.08710.17100.04090.26930.13240.91500.97850.9925全国妇女委员会[33]0.11190.21010.05100.29700.14850.86860.97240.9930DPSNet [23]0.11640.19920.06060.30650.16020.85690.95750.9884DPSNet（FT）0.09100.18070.04100.26970.12910.90080.97870.9952NAS [29]0.07950.15970.03230.23570.11120.92840.98620.9966DELTAS[43]0.07380.13800.02450.20510.10210.94730.98900.9976我们0.06650.12810.02400.19950.09900.94890.98960.9978表1.我们的方法与ScanNet数据集上最先进的深度MVS方法之间的定量比较[9]。所有方法均使用长度为3和固定参考区间为20的序列进行测试，但GP-MVS [21]和NeuralRGBD [32]除外，其直接使用整个序列。由于[47，21，23]最初没有在ScanNet上训练，我们还报告了微调后的结果，表示为(a) 图片（b）地面实况（c）我们的（d）DELTAS [43]（e）NAS [29]（f）DPSNet（FT）[23]（g）MVDepth（FT）[47]（h）N-RGBD [32]图7.ScanNet上多视图深度估计的定性结果[9]。放大后看得更清楚方法是说中值11.25度二十二点五度30°全国妇女委员会[33]27.9222.1227.4352.1663.44NAS [29]24.1218.0231.5960.2069.45我们22.3016.7534.8064.3975.11表2.我们的方法和最先进的方法之间的表面法线估计的定量比较[33，29]。5.4. 消融研究我们进行了几个消融研究，以进一步了解站的行为所提出的求解器。所有消融研究均在ScanNet上进行[9]。研究深度法线解算器及其后处理的贡献-方法绝对相对值绝对差值平方相对RMSEδ<1。25MVDepth [47]0.08850.14670.03140.23130.9184GP-MVS [21]0.10870.15140.08270.28730.9170N-RGBD [32]0.09950.15300.03520.23610.9233全国妇女委员会[33]0.13500.18730.04840.26190.8667DPSNet [23]0.07710.12900.02340.20450.9401NAS [29]0.07320.12410.01980.18930.9576DELTAS[43]0.10650.15280.02990.21380.91566177表3.我们的方法与RGB-D场景V2数据集上最先进的深度MVS方法之间的定量比较[31]。ing和端到端的联合训练，我们训练一个基线与相同的网络架构，完全没有提出的解决方案，这并不受益于联合训练。为6178→(a) （b）我们的（c）DELTAS [43]（d）DPS [23]图8.与DELTAS [43]和DPS [23]相比，我们的重建结果的可视化放大后看得更清楚[29]第二十三话：我的世界表4.对后处理和端到端联合训练中使用的求解器的贡献进行消融研究。“post” indicates using the solver to post-process thedepth map with 10图9.扫描网上曲面法线估计的定性结果[9].请参阅supp。用于更高分辨率的图像。为了比较，我们还应用求解器在推断时用混合置信图来细化基线从表4中所示的结果可以获得三个结论：1）作为后处理工具，所提出的求解器无论网络是否被联合训练，都一致地提高了网络的输出2）联合训练提高了估计的初始深度的质量（0.0735 ± 0.0711）。这是因为联合训练使网络更专注于对纹理良好区域的可靠估计，这在很大程度上减轻了学习负担。3）在端到端联合训练的情况下，在推理处应用求解器模块的性能增益增加。这与我们的假设一致，即在端到端训练期间，网络被引导输出与后续求解器模块非常匹配的初始几何形状此外，我们还研究了在置信图上的设计选择表5示出了结果。我们观察到几何置信度比估计的深度置信度更有效。虽然包含深度置信度的性能增益不显著，但深度置信度是完整的，不会受到遮挡或小重叠的影响，在实际应用中可以作为几何置信度的一个很好的补充。此外，我们还研究了几何一致性检查时不同参考视图数和推理时不同迭代次数的影响。表6示出了结果，其表明改进迭代次数一致地改进了最终深度质量。然而，由于目前我们在所有参考帧上采用最小置信度来获得“严格”深度置信度，因此添加视图将仅导致轻微的性能增益。基于多视点深度融合的更高级置信度有待于进一步研究。表5.不同置信图的选择研究查看/迭代1 iter5升10公升25升1视图0.06940.06800.06750.06702个视图0.06900.06720.06650.06594个视图0.06880.06690.06620.0655表6.消融研究的影响，不同数量的意见，在几何一致性检查和不同数量的迭代推理。报告每个条目的绝对相对值。6. 结论在这项工作中，我们提出了一个深MVS系统与一个新的基于置信度的迭代深度法向求解器。我们formul-late有利于局部平面表面的能量势，并建议进行迭代子问题的深度和表面法线依次优化。求解器不仅能够充当用于基于平面的深度细化和完成的后处理工具，而且它还处于封闭形式，使得它可以通过端到端联合训练集成到我们的深度MVS系统中。未来的方向包括先进的置信度估计和基于时空平面的传播。鸣谢：本论文得到了国家自然科学基金（61725204）、BN- Rist和清华大学（计算机科学系）-深蓝科技（上海）有限公司机器视觉联合研究中心（JCMV）的部分资助方法绝对相对值RMSEδ<1。25基线0.07350.21690.9359基线+术后0.07200.21480.9378联合列车（不设员额）0.07110.21210.9384方法绝对相对值RMSEδ<1。25联合列车（不设员额）0.07110.21210.9384Groundtruth会议0.05990.19310.9604仅深度配置0.06920.20400.9421仅几何配置0.06670.20010.94866179引用[1] http://cs.adelaide.edu.au/hwong/doku.php？id=数据。6[2] 乔纳森·T·巴伦、安德鲁·亚当斯、石义昌和卡尔·洛斯·赫尔·南德斯。最后的双边空间立体合成散焦。在CVPR中，第4466-4474页，2015年。3[3] 乔纳森·T·巴伦和本·普尔。快速双边求解器。参见ECCV，第617-632页。施普林格，2016年。3[4] 斯坦·伯奇菲尔德和卡洛·托马西。立体和运动与倾斜表面的多向切割。在ICCV，第1卷，第489-495页2[5] 迈克尔·布莱耶和玛格丽特·格洛兹。一种基于图像分割和全局可见性约束的分层立体匹配算法。ISPRS Journalof Photogrammetry and remote sensing，59（3）：128-150，2005. 一、二[6] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。在BMVC，第11卷，第1-11页，2011中。2[7] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在ICCV，第1538- 1547页，2019年。2[8] Brian Curless和Marc Levoy。从距离图像建立复杂模型在Proceedings of the 23rd annual conference on Computergraphics and interactive techniques，pages 3036[9] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。六七八[10] ArdaDu¨zc¨ ek er ， Silv anoGalliani ， ChristophVogel ，PabloSpeciale，MihaiDusmanu，andMarcPollefeys.Deep- videomvs：具有经常性时空融合的视频上的多视图立体。在CVPR，2021年。2[11] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，第2650-2658页，2015中。2[12] 奥利维尔·福格拉斯和雷诺·克里文。变分原理，曲面演化，偏微分方程IEEE，2002年。2[13] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在ICCV，第873-881页，2015中。二、三[14] DavidGallup，Jan-MichaelFrahm，PhilipposMordohai，Qingxiong Yang，and Marc Pollefeys.具有多个扫描方向的实时平面扫描立体声。在CVPR，第1-8页，2007中。2[15] Gottfried Graber，Jonathan Balzer，Stefano Soatto，andThomas Pock.变分立体中透视深度图在CVPR，第511-520页2[16] Kwang Hee Lee和Sang Wook Lee。使用具有内点尺度估计的迭代maxfs对多个结构的确定性拟合。在ICCV，第41-48页，2013中。6[17] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理PAMI，30（2）：328-341，2007. 2[18] 海科·赫施穆勒和丹尼尔·沙尔斯坦。具有辐射差异的图像上的立体匹配代价的评估。PAMI，31（9）：1582-1599，2008. 2[19] 李红和乔治陈。基于图割的分段立体匹配。在CVPR，第1卷，第I-I页，2004中。一、二[20] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。PAMI，35（2）：504-511，2012. 2[21] Yuxin Hou，Juho Kannala，and Arno Solin.基于时间非参数融合的多视点立体视觉。在ICCV，第2651-2660页，2019年。二、七[22] 胡晓燕和菲利普·莫多海。立体视觉置信度的定量评价。PAMI，34（11）：2121-2133，2012. 2[23] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon. Dpsnet：端到端深度平面扫描立体声。2019年，在ICLR。二五六七八[24] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在ICCV，第2307-2315页，2017年。2[25] AbhishekKa r，ChristianHaene，andJitendraMalik. 学习多视角立体机。NeurIPS，2017。2[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[27] Andreas Kuhn，Shan Lin，Oliver Erdler.用于多视图立体重建的平面补充和滤波。载于《全球政策审查报告》，第18-32页。Springer，2019年。2[28] Andreas Kuhn，Christian Sormann，Mattia Rossi，OliverErdler，and Friedrich Fraundorfer. Deepc-mvs：用于多视图立体重建的深度置信度预测。在3DV，第404-413页中。IEEE，2020年。2[29] 乌代·库苏帕蒂、程硕、陈睿、苏浩。正常辅助立体声深度估计。在CVPR中，第2189二、五、七、八[30] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论IJCV，38（3）：199-218，2000. 2[31] Kevin Lai，Liefeng Bo，and Dieter Fox.用于3d场景标注的无监督ICRA，第3050IEEE，2014。六、七[32] Chao Liu ， Jinwei Gu ， Kihwan Kim ， Srinivasa GNarasimhan，and Jan Kautz.神经rgb（r）d感知：从摄像机里看出来的深度和不确定性。在CVPR中，第10986-10995页，2019年。二、七[33] 龙晓晓，刘玲杰，克里斯蒂安·西奥博尔特，王文平.具有自适应法线约束的遮挡感知深度估计。见ECCV，第640-657页。Springer，2020年。二三七八[34] Luca Magri和Andrea Fusiello。T-连接：用于多模型拟合的j-连接的连续松弛。在CVPR，第3954-3961页，2014年。6[35] Zak Murez、Tarrence van As、James Bartolozzi、AyanSinha、Vijay Badrinarayanan和Andrew R

下载后可阅读完整内容，剩余1页未读，立即下载