基于不确定性的自适应薄体积表示的深度立体网络

164 浏览量更新于2023-10-25 收藏 2.68MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2524基于不确定性感知的自适应薄体积表示的深度立体广州3 *广州白云宾馆1*Zhuwen Li2 Li Erran Li3，4 Ravi Ramamoorthi1郝苏11加州大学圣地亚哥分校2Nuro Inc.3Scale AI4哥伦比亚大学摘要提出了一种基于不确定性的级联立体网络（UCS-Net），用于多幅RGB图像的三维重建。多视点立体（MVS）的目标是从多视点图像中重建细粒度的场景几何。先前基于学习的MVS方法使用在每个平面处具有固定深度假设的平面扫描体积（PSV）来估计每视图深度;这需要密集采样的平面以获得高精度，这对于高分辨率深度是不切实际的。一阶段预测深度预测两阶段预测三阶段预测我们最终的点云重建因为记忆力有限。相反，我们建议自适应薄卷（ATV）;在ATV中，每个平面的深度假设是空间变化的，这适应于先前每像素深度预测的不确定性。我们的USC-Net有三个阶段：第一阶段处理一个小的PSV来预测低分辨率的深度;然后在接下来的阶段中使用两个ATV来以更高的分辨率和更高的精度细化深度。我们的ATV只包含少量的飞机，具有低存储和计算成本;然而，它在学习的小的不确定性间隔内有效地划分局部深度范围。我们建议使用基于方差的不确定性估计来自适应地构造ATV;这种可微的过程导致合理的和细粒度的空间划分。我们的多阶段框架逐步细分广阔的场景空间，增加深度分辨率和精度，这使得重建具有高完整性和准确性，以粗到细的方式。我们证明了我们的方法在各种具有挑战性的数据集上与其他基于学习的MVS方法相比具有更好的性能。1. 介绍从捕获的图像中推断3D场景几何形状是计算机视觉和图形学的核心问题，在3D可视化、场景理解、机器人和自动驾驶中有着广泛的应用。多视点立体（MVS）旨在从多幅图像*同等贡献。ATV边界（不确定区间）图1：我们的UCS-Net利用自适应薄体积（ATV）通过多个阶段逐步重建高度准确的高分辨率深度图我们展示了输入的RGB图像，从三个阶段增加尺寸的深度预测，以及通过融合多个深度图获得的最终点云重建。我们还说明了一个局部切片（红色），从我们的深度预测与相应的ATV边界，反映像素的不确定性间隔。我们的全地形车在经过一个不确定性降低的阶段后变得更薄，从而实现更高的精度。带着校准过的摄像头受深度卷积神经网络（CNN）成功的启发，已经提出了几种基于学习的MVS方法[23，27，54，20，47];最近的工作利用了学习管道中的成本量[58，21]，并且优于许多传统的MVS方法[13]。MVS [58，21]最近成功的核心是在平面扫描成本体积上应用3D CNN，以有效地推断多视图对应关系。然而，这样的3D CNN涉及用于具有高准确性和完整性的深度估计的大量存储器使用。特别地，对于大场景，高精度要求对大量扫描平面进行采样，并且高完整性要求重构高分辨率深度图。一般来说，鉴于内存有限，在先前的工作中[58，21]，在准确性（更多平面）和完整性（更多像素）之间存在不期望的权衡。RGB图像2525我们的目标是实现高精度和高完整性的重建与低内存和计算消耗在同一时间。为此，我们提出了一种新的基于学习的不确定性感知多视图立体框架，该框架利用多个小体积，而不是大的标准平面扫描体积，以从粗到细的方式逐步在我们的方法中的一个关键是，我们提出了新的自适应薄卷（ATV，见图。1）实现有效的空间划分。具体来说，我们提出了一种新颖的级联网络与三级（见图。2）：级联的每一级预测具有不同大小的深度图;每一随后的级构造ATV以用更高的像素分辨率和更精细的深度划分来细化来自级联级的预测深度。第一阶段使用具有低图像分辨率和相对稀疏的深度平面的小标准平面扫描体积-虽然由非常少量的平面组成，但我们的ATV是在学习的局部深度范围内构建的，这使得能够进行有效和细粒度的空间分区，以实现准确和完整的深度重建。这是可能的，由新的不确定性意识的亚视建设。特别是，我们利用预测的每像素深度概率的变化，并在不确定性区间（如图所示）。1）通过计算用于ATV构造的每像素概率分布的基于方差的置信区间。具体地，我们应用先前预测的深度图作为中心曲面，并且在局部每像素不确定性区间内围绕中心平面构造ATV通过这种方式，我们在一个阶段显式地表达深度预测的不确定性，并将此知识嵌入到下一阶段的输入体积中。我们的基于方差的不确定性估计是可预测的，并且我们通过对所有三个阶段的预测深度的深度监督来端到端地训练我们的UCSNet因此，我们的网络可以学习优化估计的不确定性区间，以确保ATV被构建为具有适当的深度覆盖，该深度覆盖既足够大以尝试覆盖地面真实深度，又足够小以能够为后续阶段进行总的来说，我们的多阶段框架可以以合理的方式逐步我们证明了我们的新UCS-Net在各种数据集上的性能优于最先进的基于学习的MVS方法。2. 相关工作多视图立体是用许多传统方法长期研究的视觉问题[44，39，33，32，26，10，8，13，14，15]。43]。我们的基于学习的框架利用新颖的空间表示，ATV重建高质量的深度细粒度场景重建。在这项工作中，我们主要讨论3D重建的空间表示和基于深度学习的多视图立体。三维重建的空间表示。存在-可以基于所学习的3D表示来对成像方法进行分类。基于体积的方法将空间划分为具有数百万个小vox的规则3D体积[23，27，54，55，60，40]，并且网络预测，如果体素是否在表面上。光线跟踪可以被合并到这种体素化结构中[49，38，50]。这些方法的主要缺点是计算和分类效率低，因为大多数体素不在表面上。研究人员还试图重建点云[22，13，35，52，36，2]，然而，高维-点云的完整性通常会导致噪声离群值，点云不能有效地编码点之间的连通性。最近的一些工作利用单个或多个图像来重建给定强形状先验的点云[11，22，36]，其不能直接扩展到大规模场景重建。最近的工作还尝试直接重建表面网格[34，25，53，19，46，28]，可变形形状[24，25]和一些学习的隐式距离函数[7，41，37，6]。这些重建的表面通常看起来比基于点云的方法更平滑，但通常缺乏高频细节。深度图表示密集的3D信息，参考视图;深度重建已经在许多以前的关于单视图重建 [9，51，16，17，62]和多视图重建的工作中得到证明[4，48，18，14，43，57，43]。他们中的一些人也不-也是一种信息 [14 ， 15] 。在本文中，我们提出了ATV，一种新的空间表示的深度估计，我们使用两个ATV逐步分区局部空间，这是实现粗到精重建的关键。深度多视图立体（MVS）。传统的MVS流水线主要依赖于照片一致性约束来推断底层3D几何形状，但通常在纹理较少或遮挡区域或复杂光照环境下表现不佳。为了克服这些限制，在过去两年中出现了许多基于深度学习的MVS方法，包括基于回归的方法[58，21]，基于分类的方法[20]和基于递归或迭代式架构的方法[59，61，5]。和许多其他方法[30，38，3，45]。这些方法中的大多数通过将2D图像特征投影到3D空间中来构建具有均匀采样深度假设的单个成本体积，然后使用2D或3DCNN的堆栈来推断最终深度[58，12，56]。然而，单个成本体往往需要大量的深度平面才能达到足够的重建精度，并且难以重建高分辨率的深度，受到内存瓶的限制，2526输入图像预测深度概率（Sec. 3.3）Warping3DCNN(1st阶段）均匀深度假说平面扫描体概率体积不确定估计翘曲3D CNN(2nd阶段）空间变化深度假说自适应薄体积概率体积不确定估计（Sec.第翘曲3D CNN(3rd阶段）多尺度特征提取器空间变化深度假说多尺度I=2（第二节）第3.1节）建筑成本（第二节）3.2）自适应薄体积概率体积深度预测多尺度GT深度图2：我们的UCS-Net概述。我们的UCS-Net利用多尺度成本量，通过三个级联阶段实现从粗到精的深度预测。使用来自多尺度特征提取器的多尺度深度图像特征来构造成本体积。最后两个阶段利用先前深度预测的不确定性来构建自适应薄体积（ATV）以用于更精细尺度的深度重建。我们用不同的颜色标记网络的不同部分。请参阅第3节和相应小节了解更多详情。脖子R-MVSNet [59]利用循环网络以高深度采样率（512个平面）顺序构建成本卷。相比之下，我们对ATV应用自适应采样策略，这可以使用更少的深度平面（总共104个平面，参见表1）以更高的深度采样率实现更3），并且我们的方法实现了比R-MVSNet显著更好的重建（参见表3）。1和Tab。2）。另一方面，Point-MVSNet [5]在预定义的局部空间范围内对粗略重建进行了加密，以便通过基于学习的细化实现更好的我们建议使用自适应薄体积在学习的局部空间中细化深度，以获得准确的高分辨率深度，这导致比Point-MVSNet和其他最先进的方法更好的重建（参见表1）。1和Tab。2）。3. 方法最近的一些工作旨在改进基于学习的MVS方法。递归网络[59]已被用于实现高精度的精细深度划分;还提出了一种基于PointNet的方法[5]，以使重建致密化，从而实现高完整性。我们的目标是重建高质量的三维几何结构，同时具有高精度和高完整性。为此，我们提出了一种新的不确定性感知级联网络（ UCS-Net），以重建高精度的高分辨率每视图深度。给定参考图像I1 和N−1源im-存在图像。我们在图中示出了UCS-Net的架构。二、我们的UCS-Net首先利用2D CNN以三种分辨率提取多尺度深度图像特征（第二节）。第3.1节）。我们的深度预测是通过三个阶段来实现的，这三个阶段利用多尺度图像特征来预测多分辨率深度图。在这些阶段中，我们构建多尺度成本量（第二节）。3.2），其中每个体积是平面扫描体积或自适应薄体积（ATV）。然后，我们应用3D CNN来处理成本量以预测每像素深度概率分布，并且根据分布的期望来重建深度图（第二节）。3.3）。为了实现有效的空间分割，我们利用深度预测的不确定性来构建ATV作为最后两个阶段的成本体积（第二节）。第3.4段）。我们的多级网络以粗到细的方式有效地重建深度（第二节）。3.5）。3.1. 多尺度特征提取器先前的方法使用下采样层[58，59]或UNet [56]来提取深度特征并以单个分辨率构建平面扫描体积。为了重建高分辨率深度，我们引入了多尺度特征提取器，其使得能够在不同尺度上构建多个成本体积以用于多分辨率深度预测。如图1所示。2，我们的特征提取器是一个小的2D UNet [42]，它有一个编码器和一个带有跳过连接的解码器。编码器由一组控制器组成年龄{Ii}N ，我们的UCS-Net逐步回归到一个很好的-卷积层，然后是BN（批量归一化），与refer-ReLu激活层相同分辨率的粒度深度图;我们使用stride = 2卷积来25274 4 22i ii 11将原始图像大小缩减两次。解码器对特征图进行上采样，对上采样的特征和来自跳过链接的级联特征进行卷积，并且还应用BN和Relu层。给定每个输入图像Ii，特征提取器从解码器提供三个尺度特征图Fi，1、Fi，2、Fi，3，用于以下成本体积构造。我们将原始图像尺寸表示为W×H，其中W和H表示图像的宽度和高度，相应地，Fi，1，Fi，2和Fi，3的分辨率分别为W×H，W×H和W×H，通道数分别为32，16和8我们的多尺度特征提取器允许高分辨率特征通过学习的上采样过程适当地合并较低分辨率的信息;因此，在多阶段深度预测中，每个阶段都知道在前一阶段中使用的有意义的特征知识，这导致合理的高频特征提取。3.2. 成本量施工我们通过将提取的特征图Fi，1，Fi，2，Fi，3从源视图扭曲到参考视图来构建多个尺度下的多个成本体积与以前的工作类似，这个过程是通过可微的非投影和投影来实现的。特别地，给定每个视图i的相机固有和非固有矩阵{Ki，Ti}，参考视图处的深度d处的4×4扭曲矩阵由下式给出：H（d）=KT T −1K−1。（一）具体地，当扭曲到参考图像I1中在位置（x，y）和深度d处的像素时，H1（d）乘以齐次向量（xd，yd，d，1）以在齐次坐标中找到其在每个I1每个成本体积由多个平面组成;我们使用Lk，j表示第k阶段第j个平面的深度假设，Lk，j（x）表示其在像素x处的值。在阶段k，一旦我们利用对应的假设Lk，j在所有深度平面处扭曲每视图特征图3.3. 深度预测和概率分布在每个阶段，我们应用3D CNN来处理成本量，推断多视图对应关系并预测深度概率分布。特别地，我们使用类似于[58]的3D UNet，其具有多个下采样和上采样3D卷积层，以在多个尺度下推理场景我们在3DCNN的末尾应用深度softmax来预测每像素的深度概率。我们的三个阶段使用相同的网络架构，但没有共享权重，因此每个阶段都可以学习以不同的规模处理其信息。请参阅补充材料了解我们的3D CNN架构的详细信息。每个阶段的3D CNN预测由与深度假设L k，j相关联的D k深度概率图Pk，j组成的深度概率体积。Pk，j表示每像素深度概率分布，其中Pk，j（x）表示像素x处的深度为Lk，j（x）的可能性。一通过加权和来重构阶段k处的深度图L_kdkL_k（x）= L_k，j（x）·P_k，j（x）。（二）j=13.4. 不确定度估计与ATV我们的框架的关键是逐步子分区的局部空间和细化的深度预测，提高分辨率和准确性。为了做到这一点，我们为最后两个阶段构建了新的ATV，其具有具有空间变化深度假设的弯曲扫描平面（如图所示）。1和图2），基于在其先前阶段中的预测深度的不确定性推断。给定一组深度概率图，先前的工作仅利用每像素分布的期望（使用等式11）。（2））确定估计深度图。第一次，我们利用分布的方差进行不确定性估计，并使用不确定性构造ATV污点特别是，概率的方差Vk（x）在像素X和级k处的分布被计算为：在每个平面上构建成本体积。我们用Dk代表Vk（x）=dkPk，j（x）·（Lk，j（x）−Lk（x））2，（3）重新发送阶段k的平面数量。对于第一阶段，我们建立一个标准的平面扫描体，其深度假设为常数，即， L1，j（x）=dj. 我们Dj=1相应的标准d e为σk√（x）=Vk。均匀采样{dj}1从预定义的深度，Giv enthedepthprediL（x）及其方差σ（十）2j=1k kval[dmin，dmax]来构造卷，其中每个卷利用Hi（dj）构造平面，对多视点图像进行变形。对于第二和第三阶段，我们建立了新的自适应薄卷，其深度假设在空间上-根据先前深度预测的逐像素不确定性估计来改变深度值在这种情况下，我们通过在等式n中设置d=Lk ，j（x）来计算每像素每平面扭曲矩阵。1来扭曲图像并构建成本卷。请参阅Sec。3.4不确定性估计。在像素x处，我们建议使用基于方差的置信区间来测量预测的不确定性：Ck（x）=[Lk（x）−λσk（x），Lk（x）+λσk（x）]，（4）其中λ是确定置信区间有多大的标量参数。对于每个像素x，我们从第k级的Ck（x）均匀采样Dk+1个深度值，以得到其深度值 Lk+1 ， 1 （ x ）， Lk+1 ， 22528（x），.，Lk+1，Dk+1（x）25294 4 224 4 22RGB图像GT深度我们的预测RGB图像GT深度我们的预测1.00.50.0阶段1预测GT1.0阶段10.50.0预测GT（一）1.00.50.01.00.50.0阶段2预测（b）1.0阶段2GT0.50.01.0阶段30.50.0预测GT预测GT560570580590600610510520530540550560预测GT阶段3图3：我们说明了两个例子的详细深度和不确定性估计。在顶部，我们显示了RGB图像裁剪，预测深度和地面真实深度。在底部，我们显示了两个像素（图像中的红点）的细节，其中预测的深度概率（连接的蓝点）、深度预测（红色虚线）、地面真实深度（黑色虚线）和三个阶段中的不确定性区间（紫色）对于阶段（k+1）的深度平面。以这种方式，我们构造Dk+1个空间变化的深度假设Lk+1，j，其形成阶段（k+1）的ATV。估计的Ck（x）表示预测Lk（x）的不确定性，其确定每个像素处ATV的物理厚度。在图3中，我们显示两个实际的例子，两个像素和他们的估计不确定性间隔Ck（x）周围的预测（红色虚线）。Ck基本上描绘了地面实况表面周围的概率局部空间，并且地面实况深度以非常高的置信度位于不确定性区间中。请注意，我们基于方差的不确定性估计是可微的，这使我们的UCS-Net能够学习调整每个阶段的概率预测，以在端到端训练过程中为后续阶段实现优化的间隔和相应的ATV。因此，ATV中的空间变化深度假设自然地适应深度预测的不确定性，这导致高效的空间分割。3.5. 由粗到细预测我们的UCS-Net利用三个阶段来重建从粗到细的多个尺度的深度，这通常在每个阶段中支持不同数量（D k）的平面。在实际应用中，我们用D1=64，D2=32， D3=8构造一个平面扫描体，用 W×H×64，W×H×32，H×W×8三个ATV分别在相应的分辨率下进行深度估计。虽然我们的两个ATV具有少量（32和8）深度平面，但它们实际上以比第一阶段体积更精细的尺度划分局部深度范围;这是通过我们的新颖的不确定性感知体积构造过程来实现的，该过程自适应地控制局部深度间隔。这种有效利用小表1：DTU测试集的准确度、完整性和总体定量结果数字代表以毫米为单位的距离，越小意味着越好。深度平面的数量使得最后两个阶段能够在给定有限的分类的情况下处理更高的逐像素分辨率，这使得细粒度的深度重建成为可能。我们的新ATV有效地表达了深度预测中的局部性和不确定性，这使得最先进的深度重建结果具有高精度和高完整性，通过一个由粗到细的框架。3.6. 培训详情训练装备。我们在DTU数据集上训练网络[1]。我们将数据集分为训练集、验证集和测试集，并创建类似于[58]的地面实况深度。特别是，我们在DTU中的点云上应用泊松重建[29]，并以三种分辨率（W×H，W×H和原始W×H）在捕获的视图上渲染表面。特别地，我们使用W×H=640×512进行训练。损失函数我们的UCS-Net在三种分辨率下预测深度;我们在每个分辨率下对深度预测应用L1损失，其中在相同分辨率下呈现地面实况。我们的最终损失是三个L1损失的组合。培训政策。我们训练我们完整的三阶段网络，端到端60个时期。我们使用Adam优化器，初始学习率为0。0016。我们使用8个NVIDIA GTX 1080Ti GPU来训练网络，批量大小为16（每个GPU的小批量大小为2）。4. 实验我们现在评估我们的UCS-Net。我们对DTU和Tanksand Temple数据集进行基准测试然后，我们证明我们的网络的设计的有效性，在不确定性估计和多阶段预测。对DTU数据集的评价[1]。我们在DTU测试集上评估了我们的方法。为了重建最终的点云，我们遵循[14]来融合多个视图的深度;我们将这种融合方法用于我们所有的实验。方法Acc.Comp.整体营地[4]0.8350.5540.695免费WiFi [13]0.6130.9410.777[第48话]0.3421.1900.766吉普马[14]0.2830.8730.578[46]第四十六话0.4501.0400.745MVSNet [58]0.3960.5270.462R-MVSNet [59]0.3830.4520.417点MVSNet [5]0.3420.4110.376我们的第一阶段0.5480.5290.539第二阶段0.4010.3970.399我们的完整模型0.3380.3490.344253044方法平均家庭弗朗西斯马灯塔M60黑豹游乐场火车MVSNet[58]43.4855.9928.5525.0750.7953.9650.8647.9034.69R-MVSNet[59]48.4069.9646.6532.5942.9551.8848.8052.0042.38[59]第五十九话50.5573.0154.4643.4243.8846.8046.6950.8745.25点MVSNet [5]48.2761.7941.1534.2050.7951.9750.8552.3843.06我们的完整模型54.8376.0953.1643.0354.0055.6051.4957.3847.89表2：坦克和圣殿的F-分数（越高意味着越好）的定量结果R-MVSNet我们的结果Ground truth图4：与R-MVSNet在DTU数据集中的示例上的比较。我们展示了我们的方法，R-MVSNet和地面实况的点云的渲染图像。在本例中，来自扫描的地面实况是不完整的。我们还显示了用于详细比较的插图，标记为地面实况中的蓝框。请注意，我们的结果比R-MVSNet的结果更平滑，离群值更少暗示。为了公平比较，我们使用与[ 58 ]中相同的视图选择、图像大小和初始深度范围，N=5，W=1600，H=1184，d最小值=425mm，dmax=933。8mm;类似的设置也用于其他基于学习的MVS方法[5，59]。我们使用NVIDIAGTX 1080 Ti GPU运行评估。我们使用[1]中的距离度量来比较最终重建的准确性和完整性。我们与传统方法和基于学习的方法进行比较，平均定量结果显示在表1中。1.一、虽然Gipuma[14]（一种传统方法）在所有方法中达到了最好的准确性，但我们的方法具有更好的完整性和整体得分。此外，我们的方法优于所有国家的最先进的基线方法的准确性和完整性。注意，在相同的输入下，MVSNet和R-MVSNet不损失准确性;由于我们的不确定性感知渐进重建，我们的准确性也显著更好。Point-MVSNet [5]在预定义的局部深度范围内加密低分辨率深度，这也在原始图像分辨率下重建深度;相反，我们的UCS-Net利用了学习的自适应局部深度范围，并实现了更好的准确性和完整性。我们还显示了结果，从我们的中间低分辨率深度的第一和第二阶段的Tab。1.一、注意，由于更稀疏的深度平面，我们的第一阶段结果（64个平面）比以相同的低分辨率重建深度的MVSNet（256个平面）和R-MVSNet（512个平面）更差。然而，我们的新型不确定性感知网络在以下阶段引入了高效的空间分区与ATV，因此我们的中间第二阶段重建已经比前两种方法好得多，我们的第三阶段进一步提高了质量并实现了最佳重建。我们在图 1 中示出了我们的方法与 R-MVSNet[59]4，其中我们使用R-MVSNet网站上发布的点云重建虽然这两种方法在该示例中实现了相当的相比之下，我们的方法是能够获得高的完整性和高精度同时反映在光滑的完整的几何图像坦克和寺庙数据集的评估[31]。现在，我们通过在Tanks和Temple中间数据集中的复杂户外场景上测试使用DTU数据集训练的网络来评估模型的泛化。我们采用N=5和W×H=1920×1056进行实验。我们的方法优于大多数已发表的方法，据我们所知，与所有已发表的基于学习的方法相比，我们获得了最好的平均F分数（54.83），如表1所示。二、特别是，我们的方法在所有九个测试场景中获得了比MVSNet [58]和Point-MVSNet [5]更高的F分数。密-R-预测深度图的大小仅为W×H;我们的最终MVSNet利用了精心设计的后处理方法以原始图像尺寸估计深度图，其分辨率高得多，并导致明显更好的完整性。同时，如此高的完整性是并在两个场景上实现了比我们稍好的性能，而我们的工作集中在高质量的每视图深度重建上，我们使用传统的傅里叶变换。2531比间隔DK单元PSV百分百508.8mm647.95mm第一个ATV百分之九十四点七二13.88mm320.43mm阶段规模大小Acc.Comp.整体1×1400x2960.5480.5290.5391×2800x5920.4110.5350.4732×1800x5920.4010.3970.3992×21600x11840.3420.3860.3643×11600x11840.3380.3490.344表3：不确定度估计的评价。 PSV是第一级平面扫描体积;第一辆ATV在第一阶段之后建造并用于第二阶段;第二个ATV用于第三阶段。我们展示了覆盖地面实况深度的不确定性区间我们还显示了间隔的平均长度，深度平面的数量和单位采样距离。用于后处理的Sion技术。尽管如此，由于我们的高质量深度，我们的方法在大多数测试场景中仍然优于Dense- R-MVSNet，并实现了最佳的整体性能。不确定度估计的评价。我们的UCS-Net的一个关键设计是利用ATV构造的可微不确定性估计。现在我们在DTU验证集上评估我们的不确定性估计在选项卡中。 3，我们显示了我们估计的不确定性间隔的平均长度，平面之间相应的平均采样距离，以及其估计的不确定性间隔覆盖ATV中的地面真实深度的像素的比率;我们还显示了第一阶段中使用的标准平面扫描体积（PSV）的相应值，其间隔长度为dmax-dmin= 508。8毫米，并涵盖了地面真相深度与确定性。我们可以看到，我们的方法能够构建覆盖非常局部深度范围的高效ATV第一个ATV显著地将初始深度范围从508.8mm 减小到平均仅13.88mm ，并且第二个ATV进一步将其减小到仅3.83mm。我们的ATV能够以自适应的方式进行有效的深度采样，并且仅用32或8个深度平面就可以获得约0.48mm的采样距离。注意，MVSNet和R-MVSNet以统一的方式对具有大量平面（256和512）的相同大深度范围（508.8mm）进行采样;而均匀采样仅获得沿深度采样距离为1.99mm和0.99mm的体积。相比之下，我们的UCS-Net用少量的平面实现了更高的实际深度采样率;在给定有限存储器的情况下，这允许将成本体积的焦点从对深度进行采样改变为对具有ATV中的密集像素的图像平面进行采样，这使得能够进行高分辨率深度重构。此外，我们的自适应精简卷可实现高比率（94. 72%和85。22%）覆盖验证集中的地面实况深度，如Tab. 3;这证明我们估计的不确定性区间具有高置信度。我们基于方差的不确定性估计相当于ap-表4：在不同阶段和上采样尺度的DTU测试集上进行的消融研究（尺度1表示该阶段的原始结果）。定量结果以mm表示平均距离（越小越好）。将深度概率分布近似为高斯分布，然后如式（1）所示，在其标准偏差上以指定尺度计算其置信区间4.第一章我们注意到，我们基于方差的不确定性估计不仅对图1中的单模类高斯分布有效。3.a，但也适用于许多多模式的情况下，如图。图3.b示出了物体边界附近的具有挑战性的示例。在图3.b中，预测的第一阶段深度分布具有多个模式;然而，它相应地具有大的方差和足够大的不确定性区间。我们的网络预测了合理的不确定性区间，这些区间在大多数情况下能够覆盖地面实况深度，这使得在后续阶段中在更精细的局部空间尺度上进行越来越精确的重建成为可能。这是通过可微分的不确定性估计和端到端训练过程实现的，从该过程中，网络学习控制每个阶段的概率估计，以获得用于ATV构造的适当正因为如此，我们观察到我们的网络对不同的λ不是很敏感，并学会预测类似的不确定性。我们的不确定性感知体积构建过程能够实现高效的空间划分，这进一步允许最终重建具有高准确性和高完整性。多阶段深度预测评价我们已经定量地证明了我们的多阶段框架在每个阶段都以越来越高的准确性和完整性重建场景几何形状（见图1）。1）。我们现在进一步评估我们的网络，并在DTU测试集上对不同阶段进行消融研究，并进行详细的定量和定性比较。我们比较与天真的upsample，以证明我们的不确定性意识的粗到细的框架的有效性。特别是，我们比较了我们的完整模型的结果和前两个阶段的结果，在Tab中使用尺度为2（高度和宽度）的朴素双线性上采样4.第一章我们可以看到，上采样确实改善了重建，这得益于更密集的几何结构和使用我们的高质量低分辨率结果作为输入。然而，通过朴素上采样所做的改进非常有限，这远低于我们基于ATV的上采样的改进。我们的UCS网络利用ATV-一种学习的2532我们的第一阶段我们的第二阶段我们的完整模型Ground truth图5：DTU验证集中场景上的多阶段点云和地面实况点云之间的定性比较。我们显示缩小（顶部）和放大（底部）渲染点云;相应的放大区域在地面实况中被标记为绿框。我们的UCS-Net通过多个阶段实现越来越密集和准确的重建。请注意，地面实况点云是通过扫描获得的，其质量甚至低于本示例中的重建。方法运行时间存储器（MB）输入大小预测大小一个阶段0.0651309160x120两个阶段0.1141607640x480320x240我们的完整模型0.2571647640x480MVSNet [58]1.0494511640x480160x120R-MVSNet [59]1.4214261640x480160x120表5：性能比较。我们通过运行第一阶段、前两个阶段和完整模型来显示我们方法的运行时间和内存。以不确定性感知方式构建的sentation图. 图5示出了我们重建的点云和地面实况点云之间的定性比较我们的UCS-Net能够通过多个阶段有效地细化和加密请注意，我们基于MVS的重建比通过扫描获得的地面实况点云更完整，这表明我们的重建质量很高。比较运行时性能。我们现在评估我们的方法的时间和内存使用。我们在DTU验证集上运行我们的模型，输入图像分辨率为W × H = 640×480;我们使用相同的输入，在256个深度平面上比较了 MVS- Net 和 R-MVSNet的性能。表5显示了包括运行时间和内存在内的性能比较。请注意，我们的完整模型是唯一一个以原始图像分辨率重建深度的模型，其分辨率远高于比较方法。然而，这并没有引入任何更高的计算或内存消耗。事实上，我们的方法需要signif-这意味着更少的内存和更短的运行时间，只有其他方法所用内存和时间的四分之一左右。这证明了我们的粗到细框架在系统资源使用方面具有更少的深度平面（总共104个）的好处。我们的UCS-Net与ATV实现了高质量的重建，具有高计算和内存效率。5. 结论在本文中，我们提出了一种新的基于深度学习的多视图立体方法。我们提出了一种新的不确定性感知的级联立体声网络（UCS-Net），它利用了自适应薄体积（ATV），一种新的空间表示。我们首次在基于学习的MVS系统中利用预测的不确定性。具体来说，我们利用方差为基础的不确定性区间在一个级联阶段构建一个ATV的下一个阶段。ATV能够以更精细的尺度逐步细分局部空间，并确保较小的体积仍然以高概率围绕实际表面我们的新UCS-Net以粗到细的方式实现了高度准确和高度完整的场景重建我们比较我们的方法与各种国家的最先进的基准;我们证明了我们的方法是能够实现定性和定量的最佳性能与高的计算和存储效率。我们的新UCS-Net朝着使基于学习的MVS方法更加可靠和高效的方向迈出了一步。鸣谢本工作部分由快手科技、NSF资助IIS-1764078、NSF资助1703957、Ronald L.格雷厄姆椅子和加州大学圣地亚哥视觉计算中心。2533引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2）：153-168，2016。五、六[2] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在机器学习国际会议上，第40-49页，2018年。2[3] 康斯坦丁诺斯 · 巴索斯，蔡长江，菲利普 · 莫多海.Cbmv：用于视差估计的合并的双向匹配体积。在IEEE计算机视觉和模式识别会议论文集，第2060- 2069页2[4] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。欧洲计算机视觉会议，第 766-779 页。Springer，2008. 二、五[5] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在IEEE国际计算机视觉会议论文集，第1538二三五六[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。IEEE计算机视觉与模式识别会议论文集（CVPR），2019年。2[7] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议论文集，第5868- 5877页，2017年。2[8] Jeremy S De Bonet和Paul Viola。点元：概率体素化体积重建。在 Proceedings of International Conference onComputer Vision（ICCV），第418- 425页2[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision ，第2650-2658页，2015年。2[10] Car l osHern a'ndezEstebanandFrancisSchmitt. 三维物体建模中的轮廓计算机视觉与图像理解，96（3）：367-392，2004。2[11] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。2[12] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界在IEEE计算机视觉和模式识别会议论文集，第5515- 5524页2[13] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：1362-1376，2010. 一、二、五[14] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在 Proceedings of the IEEEInternational Conference on Computer Vision，第873-881页，2015中。二、五、六[15] 加利亚尼和辛德勒。看看这个图像：用于改进的多视图重建的视点特定表面法线预测。在IEEE计算机视觉和模式识别会议论文集，第5479-5487页，2016年。2[16] Ravi Garg ， Vijay Kumar BG，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。2[17] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页2[18] 哈特曼，加利亚尼，哈弗莱纳，范古尔，辛德勒。学习多补丁相似性。在IEEE计算机视觉国际会议论文集，第1586-1594页，2017年。2[19] 保罗·亨德森和维托里奥·法拉利。通过形状、姿态和阴影的生成建模学习单图像3d重建国际计算机视觉杂志，第12[20] Po-Han Huan

下载后可阅读完整内容，剩余1页未读，立即下载