通过迭代动态代价体积实现高效的多视图立体匹配

128 浏览量更新于2023-10-25 收藏 13.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2468100.310.320.330.340.350.3600.25 0.5 0.7511.25 1.50.310.320.330.340.350.36CasMVSNetCVP-MVSNetUCS-NetPatchmatchNetOurs(Iters: 3 3 3)Ours(Iters: 1 1 1)86550通过迭代动态代价体积实现高效的多视图立体匹配0邵谦王�李波�戴宇超* 西北工业大学电子与信息学院，中国西安0摘要0在本文中，我们提出了一种新颖的迭代动态代价体积用于多视图立体匹配。与其他方法相比，我们的代价体积更轻，因此可以使用基于2D卷积的GRU进行处理。值得注意的是，GRU的每一步输出可以进一步用于生成新的代价体积。通过这种方式，构建了一个迭代的基于GRU的优化器。此外，我们提出了一个级联和分层的细化架构，利用多尺度信息加速收敛。具体来说，我们使用轻量级的3DCNN生成最粗糙的初始深度图，这对于启动GRU并保证快速收敛至关重要。然后，深度图通过在金字塔特征图上工作的多阶段GRU进行细化。在DTU和Tanks &Temples基准测试上进行了大量实验，结果表明我们的方法在准确性、速度和内存使用方面都能达到最先进的水平。代码将在https://github.com/bdwsq1996/Effi-MVS发布。01. 引言0多视图立体匹配（MVS）旨在基于一系列定位图像和相应的相机参数重建密集的3D模型。预测深度图，然后将深度图融合到点云模型中是MVS最常见的流程。作为一个基本问题，MVS在计算机视觉领域已经研究了几十年[5, 8, 10, 12, 16,23, 24, 27, 28,34-36]。最近，我们见证了基于深度学习的MVS方法的快速发展[5, 10, 12, 23, 28,34-36]。一般来说，MVS任务最常见的基本结构是使用一系列图像的特征构建一个3D代价（相关）体积，然后用3DCNN对其进行规范化，最后回归深度。已经有大量的工作[3, 4, 17, 31, 32, 35, 36]遵循这个流程，并在MVS基准测试[1,13]上的重建准确性方面超过了大多数传统方法。然而，由于高GPU内存和处理0* 前两位作者贡献相同。YuchaoDai是通讯作者（daiyuchao@gmail.com）。0GPU内存（GB）0总体(mm)0运行时间（s）0总体(mm)0图1.我们的方法与SOTA基于学习的多视图立体匹配方法在DTU数据集[1]上的比较。我们报告了整体误差与运行时间（左）和GPU内存消耗（右）的准确性。图像分辨率为1600×1184。'Iters'表示每个阶段的迭代次数。0对于规范化步骤的时间要求，现有的方法[31,35]只能处理低分辨率的图像。显然，除了改善重建质量外，减少运行时间和GPU内存消耗也非常重要，这使得基于学习的MVS工作适应内存和计算受限设备。最近，已经提出了一些工作[5, 10, 28, 36,37]来提高MVS的效率。然而，同时提高准确性和降低消耗仍然非常具有挑战性。在这项工作中，我们旨在提高高分辨率MVS的计算速度和减少内存消耗，并确保重建质量。我们方法的核心思想是构建一个轻量级和动态的代价体积，可以以迭代方式进行处理。这种策略可以带来许多好处。首先，由于使用了轻量级的代价体积，它极大地减少了推理阶段的峰值内存使用量。其次，迭代和动态处理可以保证一个重要的搜索空间，对准确性很重要。最后，我们的动态代价体积能够在几个迭代步骤内收敛，因此我们的方法非常高效。老实说，我们的方法在一定程度上受到了[5, 10, 25,26]的启发。在[5, 10,25]的工作中，提出了级联自适应代价体积。相比之下，我们进一步缩小了代价体积的大小，并扩展了这个多级86560阶段策略转变为迭代方式。我们的迭代思想也受到了最近光学估计工作[26]的启发。与[26]相比，我们放弃了全尺寸的静态相关体积，因为它对内存不友好。更重要的是，与光流估计不同，我们利用轻量级的3DCNN来估计粗糙深度图，作为GRU的初始化，我们发现这对于MVS上GRU的快速收敛非常重要。此外，由于3DCNN非常轻量级，它对效率的影响很小。总之，我们的贡献可以总结如下：01）我们提出了一种新颖的动态成本体积，非常轻量级，可以通过基于2D卷积的GRU进行迭代处理。通过这种方式，我们避免了大尺寸静态成本体积的内存和时间消耗问题。02）我们提出了一种级联和分层细化架构，利用多尺度信息加速收敛。具体而言，通过轻量级的3DCNN，我们为GRU提供了可靠的初始化，这对于快速收敛和最终性能至关重要。03）我们的方法在准确性、推理速度和GPU内存消耗方面实现了最先进的性能（参见图1）。就准确性而言，我们的方法在DTU[1]和Tanks＆Temples数据集的高级序列上取得了最好的结果[13]。更重要的是，我们的方法在内存消耗较少的情况下比亚军快2倍。02.相关工作02.1.传统MVS方法0传统的MVS方法可以大致分为四类：基于体素的方法[24,27]，基于表面的方法[7, 14]，基于块的方法[8,16]和基于深度图的方法[9, 21,30]。在这些方法中，基于深度图的方法具有更好的灵活性和可扩展性。Gipuma等人[9]提出了一种基于棋盘格的传播方案，更适合并行计算，并将PatchMatch[2]立体方法扩展到多视图立体。COLMAP[21]通过联合估计像素级视图选择、深度图和表面法线来增强算法的鲁棒性。ACMM[30]提出了一种自适应棋盘格传播和多假设联合视图选择的多尺度MVS框架。尽管这些方法可以获得稳健的3D重建结果，但它们面临计算要求高和重建质量差的问题。02.2.基于学习的MVS方法0最近，已经提出了大量基于深度学习的多视图立体方法[5,10, 12, 28, 34-36]。0SurfaceNet[12]是较早的代表作之一，它构建了一个体素体积来聚合多视图信息，并使用3DCNN进行规范化。基于可微分单应性[6]，Yao等人[35]提出了一种广泛使用的基于深度学习的MVS流程。具体而言，MVSNet[35]首先为每个视图图像提取特征图，然后构建一个代表深度假设的成本体积来聚合几何信息。此外，通过3DCNN对成本体积进行规范化，并通过回归策略预测最终深度。然而，由于构建和规范化成本体积对内存使用和计算要求较高，MVSNet只能处理低分辨率的图像。为了减少内存消耗，R-MVSNet [36]使用递归神经网络代替3DCNN规范化，通过沿深度维度处理成本体积，从而减少了内存需求但增加了运行时间。D2HC-RMVSNet[33]提出了一种高效且有效的密集混合递归多视图立体网，具有动态一致性检查。AttMVS[18]提出了一种新颖的注意力增强匹配置信度体积和注意力引导规范化模块，以提高匹配的鲁棒性。Vis-MVSNet[38]通过匹配不确定性估计显式推断和集成了MVS网络中的逐像素遮挡信息。AA-RMVSnet[29]提出了一种自适应聚合模块，并利用具有递归结构的混合网络进行成本体积规范化。最近，MVS的效率越来越受到关注。Fast-MVSNet[37]提出了一种新颖的稀疏到稠密粗到细的框架，用于快速准确的MVS深度估计。通常，许多方法利用粗到细的策略来减少内存消耗并提高准确性和速度[5, 10,34]。CVP-MVSNet [34]和CasMVSNet[10]基于金字塔特征图构建了级联成本体积。UCS-Net[5]提出了一种使用不确定性估计来优化深度假设的策略。值得注意的是，最近，PatchmatchNet[28]将传统的PatchMatch算法引入到深度学习框架中，从而大大减少了运行时间和内存消耗。与PatchmatchNet相比，我们的方法在更少的运行时间和内存消耗下可以实现更好的重建质量。03. 方法0如图2所示，我们的方法由多尺度特征提取器和基于GRU的优化器组成。具体而言，基于GRU的优化器包括动态成本体积构造器和GRU模块。与许多先前的工作不同，我们的动态成本体积不仅可以聚合几何信息，还可以聚合上下文和深度信息。更重要的是，它可以UpsampleUpsampleUpsample��Similar to previous MVS works [19, 28, 29, 31], given Ddepth hypotheses {dj|j = 1, ..., D} of the reference view,we construct a local cost volume to represent the correla-tion between reference and source features. Speciﬁcally, foreach pixel p in the reference view, we utilize the differen-tiable homography to compute the corresponding pixel p′i,jby warping the source feature Fi into the j-th depth hypoth-esis dj:p′i,j = Ki · (R0,i · (K−10· p · dj) + t0,i)(1)t1(p)− 22−kIm,86570上下文特征0参考图像0多尺度特征提取器基于GRU的优化器0源图像0动态成本体积0GRU0变形0更新后的深度图0��0隐藏状态0初始深度预测0基于GRU的优化器0多尺度级联框架0基于GRU的优化器0基于GRU的优化器0特征图0图2.我们提出方法的流程图。我们的方法由多尺度特征提取器和基于GRU的优化器组成。具体而言，基于GRU的优化器包括动态成本体积构造器和GRU模块。利用基于多阶段GRU的级联架构来聚合多尺度信息并加速收敛。特别地，我们使用轻量级3D CNN来估计初始深度并启动GRU。0通过GRU以迭代方式处理。具体而言，在每个更新步骤中，我们首先构建一个提议的动态成本体积，然后通过GRU更新深度图。此外，我们提出了级联和分层细化架构，以利用多尺度信息并加速收敛。具体而言，我们使用轻量级3DCNN生成最粗糙的深度图，该深度图可用作下一个GRU的可靠初始化。然后，深度图通过在金字塔特征图上工作的多阶段GRU进行细化。值得注意的是，在每个阶段k中，给定初始深度图Dk0，所提出的基于GRU的优化器可以迭代更新它多次并输出最终深度图。接下来，我们详细介绍我们的方法。03.1. 多尺度特征提取器0尺寸为W×H的输入图像由参考图像I0和N-1个源图像{Ii}N-1i=1组成。与[15]类似，我们使用特征金字塔网络（FPN）从N个输入图像中提取多尺度特征。具体而言，特征图金字塔有3个尺度阶段k=0,1,2。我们用Fki表示第k阶段图像Ii的特征，其分辨率为H。02 3 −k。同样，我们使用额外的FPN网络处理参考图像，提取多尺度上下文特征和GRU优化器的初始隐藏状态。03.2. 动态成本体积0成本体积在MVS问题中起着关键作用。如图3所示，与许多先前的工作中的静态成本体积不同，我们聚合几何特征、深度特征和上下文特征来构建我们的动态成本体积。几何特征、深度特征和上下文特征分别从本地成本体积、深度特征和参考图像中提取。更重要的是，0与先前的MVS工作[19, 28, 29,31]类似，给定参考视图的深度假设{dj | j = 1, ...,D}，我们构建一个本地成本体积来表示参考和源特征之间的相关性。具体而言，对于参考视图中的每个像素p，我们利用可微分的单应性将源特征Fi通过将其warp到第j个深度假设dj的对应像素p'i,j：03.2.1 本地成本体积0这里 K i 表示视图 i 的内参矩阵。R 0 ,i 和 t 0 ,i表示参考视图和源视图 i 之间的相对旋转和平移参数。给定p ′ i,j 和源特征图 F i，我们通过可微的双线性插值重构出经过变换的源特征图 F ′i。根据MVSNet [35]的方法，代价图是 N-1个经过变换的源特征图 { F ′ i } N-1 i =1的方差。然而，考虑到基于GRU的优化器可以迭代更新深度图，我们在每次迭代中只在一个狭窄的逆深度范围内均匀采样了几个深度假设。具体来说，对于每个像素 p 在阶段 k和迭代 t 中，我们在逆深度范围 R k 中均匀采样了 D k个深度假设：0p ′ i,j = K i ∙ ( R 0 ,i∙ ( K − 1 0 ∙ p ∙ d j )+ t 0 ,i ) (1)0R k = [ 10这里 I m 表示最小深度假设平面间隔，详细介绍见第4.2节。D k t − 1 是迭代 t - 1中更新的深度图。为了使用2DCNN处理局部代价体积并将其与上下文和深度信息融合，我们取消了深度维度，并沿通道维度连接了代价图。因此，与MVSNet [35]不同，我们的局部代价体积的形状是 C L ∈ R W × H × (C × D)，其中 C 和 D分别表示通道和深度维度。Dinit =dmax�d=dmind × Pd(3)86580动态代价体积0局部代价体积0几何特征0深度特征0C C0上下文特征02D卷积层0C 连接0深度图0参考图像0图3.我们动态代价体积的构建过程。我们从局部代价体积中提取局部几何特征。并将其与深度特征和上下文特征融合，形成最终的动态代价体积。0迭代 t - 1中更新的深度图。为了处理局部代价体积并将其与上下文和深度信息融合，我们取消了深度维度，并沿通道维度连接了代价图。因此，与MVSNet[35]不同，我们的局部代价体积的形状是 C L ∈ R W × H ×(C × D)，其中 C 和 D 分别表示通道和深度维度。03.2.2 特征聚合0如图3所示，在每次迭代 t中，我们使用两个轻量级提取器从局部代价体积和深度图 Dk t − 1中提取几何特征和深度特征，这两个提取器由两个2D卷积层组成。上下文特征来自多尺度上下文特征提取器，并且每个阶段只需要提取一次。为了构建最终的动态代价体积 CD，我们首先使用一个2D卷积层处理几何特征和深度特征的连接。然后，将输出与上下文特征连接起来，形成动态代价体积。所有的连接操作都在通道维度上进行。03.3. 多阶段GRUs0我们的动态代价体积通过GRUs以迭代方式进行处理。此外，为了利用多尺度信息并加快收敛速度，我们构建了一个多阶段GRUs架构。这样，动态代价体积在金字塔特征图上构建，并分别由多尺度GRUs进行处理。具体而言，在每个阶段 k 中，优化模块将为 T k次更新深度图，并输出一组更新量 Δ d k t，其中 t的取值范围是从 1 到 T k。在每次迭代 t 中，输入深度图 Dk t − 1 将通过0初始深度图0第一次迭代第二次迭代第三次迭代0参考图像0图4. 参考图像，初始深度图和最粗阶段的三次迭代更新深度图。0D k t = D k t − 1 + Δ d k t ，然后作为下一次迭代 t + 1的输入。更重要的是，每个阶段最后一次迭代的深度图 D kT k 将被上采样到 D k T k +1 。然后， D k T k +1将作为下一阶段的初始深度图 D k +1 0 。如图 4所示，每次迭代后深度图的质量都会显著提高。特别是，我们可以从图 4 中看到，基于 GRU的优化模块可以填补无纹理区域的空洞并锐化边界。03.3.1 初始深度预测0基于局部空间信息，GRU-based优化模块更新深度值，这使得它对初始深度值非常敏感。由于 MVS中弱纹理区域和相似区域的常见问题，不可靠的初始深度图会使 GRU-based优化更容易输出错误的深度值。因此，我们提出了一个初始深度值预测模块，在最粗糙的阶段预测一个可靠的初始深度值。受到其他基于学习的 MVS 方法的启发 [ 19 , 28 ,029 , 31 ]，我们使用三个模块预测概率体积 P d 和相应的深度图：成本体积构建、3DCNN 正则化和回归。初始深度预测模块的架构如图 5 所示。在 MVSNet [ 35 ]的工作中，我们构建了一个小型成本体积，它包含稀疏的深度假设，但包含足够大的逆深度范围。然后，我们使用一个轻量级的 3D CNN对成本体积进行正则化，并得到与每个深度假设 d 对应的概率体积 P d。最后，我们回归初始深度图 D init0使用 softargmin ：3.3.2GRUrt = σ(conv([ht−1, Ct−1D ], Wr))(5)˜ht = tanh(conv([rtht1, Ct−1D ], Wh))(6)86590参考特征0源特征0成本体积0回归0初始深度图0正则化0图 5.初始深度预测模块的结构。我们使用最粗糙的特征图构建一个成本体积，使用轻量级的 3D CNN 对其进行正则化，并回归初始深度图。0受到 [ 11 , 26 ] 的启发，我们设计了一个 GRU模块来更新深度图。我们的 GRU模块的详细信息如下所示：z t = σ ( conv ([ h t − 1 , C t −1 D ] , W z )) (4)0h t = (1 − r t ) ⊙ h t − 1 + z t ⊙ ˜ h t (7) 这里 σ 是 sigmoid 激活函数，W表示相应卷积网络的参数，conv 表示一个小的二维卷积模块，由一个 1 × 5卷积和一个 5 × 1 卷积组成。我们的 GRU 的输入是动态成本体积 C t − 1 D以及潜在的隐藏状态 h t − 1 。动态成本体积 C t − 1 D 可以通过先前的深度图 D k t −1 来更新。此外，在每个阶段，初始隐藏状态 h 0由上下文特征网络初始化。基于隐藏状态 h t ，我们利用一个深度头模块来预测残差深度Δ d t 。深度头模块包含两个卷积层，并使用 tanh激活函数来限制输出值的范围。在每个阶段的最后一次迭代 T k 中，我们使用一个 mask上采样模块 [ 26 ] 来上采样当前的深度图(H02 3 − k ). 更具体地说，基于最后的隐藏状态 h T k ，我们利用两个卷积层来预测一个 H02 3 − k × (2 × 2 × 9) 掩码，表示每个像素的邻居权重。然后可以将深度图上采样到H 的分辨率02 2-k通过基于预测掩码的加权组合。03.4. 损失函数0在训练阶段，我们的方法可以从初始深度预测模块和多阶段基于GRU的优化模块中输出一对深度图，这些深度图在不同的迭代步骤中。我们使用对应分辨率的地面真实深度图计算所有输出深度图与地面真实深度图之间的L1损失。因此，最终损失是所有损失的加权和：0Ltotal = Linit +02 �0k=00i=1 λkiLki, (8)0其中Linit是通过初始深度预测模块得到的初始深度图的损失。Tk是第k个阶段的优化迭代次数。{Lki |i=1...Tk+1}是Tk个输出深度图和第k个阶段的上采样深度图的损失，λki是相应的权重。04. 实验0我们在DTU[1]和Tanks &Temples数据集[13]上评估了我们的方法。进行了大量实验证明了我们方法的准确性和效率。04.1. 数据集0DTU数据集DTU数据集[1]是一个大规模的室内MVS数据集，包含128个不同的扫描，每个扫描有49个视图，光照条件各异。所有扫描都是在同一实验室环境下采集的，具有相同的相机轨迹。DTU为79个训练扫描提供了地面真实深度图，并为22个评估扫描提供了3D点云。根据大多数MVS工作[19, 28, 29,31]的配置，我们使用DTU数据集来训练和评估我们的网络。Tanks & Temples数据集Tanks &Temples数据集[13]是一个大规模的室外MVS数据集，提供了一组在不同场景下的逼真环境中的视频序列。它分为中级和高级集，共包含14个场景。我们还使用在DTU数据集[1]上训练而没有进行微调的模型对中级和高级集进行评估。04.2. 实现细节0训练在DTU数据集[1]上进行训练时，我们将输入图像的分辨率设置为640×512，输入图像的数量设置为N=5。对于初始深度预测模块，我们将深度假设的数量设置为48。对于局部代价体积，我们将所有阶段的深度假设数Dk设置为4。我们为逆深度定义了一个最小假设平面间隔Im：0Im = (0dmin-10dmax)/Z (9)0我们将Z设置为384，并将各阶段的深度假设间隔设置为4Im、2Im、Im（阶段0是分辨率为W×H=80×64的粗略阶段）。对于每个阶段的优化模块，我们将迭代次数Tk设置为0在阶段0、1、2上分别设置为3、3、3。我们使用AdamW在OneCycleLR调度器下进行48个时期的模型训练，学习率为0.001。我们设置批量大小为4，在1个NVIDIA GeForceRTX 3090GPU上训练模型。评估我们提出的方法时，我们在DTU评估集[1]以及中级和高级集上进行评估。86600Tanks &Temples数据集[13]的数据集集合。在DTU的评估中，我们将输入图像的数量N设置为5，输入图像的尺寸设置为1600×1184。在Tanks &Temples数据集的评估中，我们使用在DTU上训练的模型，没有进行任何微调。我们将视图的数量N设置为7，输入图像的尺寸设置为1920×1056，并将初始深度预测模块中的深度假设数量设置为96。Tanks &Temples数据集的相机位置、稀疏点云和深度范围是通过开源的SfM软件OpenMVG[20]恢复的。与其他基于学习的MVS方法类似，我们根据光度和几何一致性对输出深度图进行滤波。我们对滤波算法[22]进行了一些改进，具体细节请参见补充材料。同时，我们将初始深度预测模块得到的概率体积Pd进行上采样，作为每个像素的置信度测量，并丢弃概率估计深度低于0.3的像素。04.3. 基准性能0我们将我们的方法与最近发表的顶级学习型MVS方法在重建质量、运行时间和GPU内存消耗方面进行比较。如表1、3所示，我们的方法在DTU数据集[1]和Tanks &Temples数据集[13]的高级序列上取得了最佳性能。对于Tanks &Temples数据集的中间序列，我们也取得了非常有竞争力的结果。我们进一步将我们的方法与最近发表的学习型MVS方法[5, 10, 28, 34, 37,38]进行比较，这些方法致力于提高时间和内存消耗的效率。我们为所有方法设置相同的配置，使用原始大小的图像，并在DTU和Tanks &Temples数据集上将输入视图数设置为5和7。如表2所示，我们的方法在运行时间和内存消耗方面更加高效。值得注意的是，我们的快速版本（Iters: 1 1 1）比PatchmatchNet[28]的最接近的竞争者快近2倍。更令人惊讶的是，我们的快速版本（Iters: 1 11）仍然能够实现非常高的重建精度，如表1所示。这些实验结果明显表明，我们的方法不仅能够提高计算速度和减少内存消耗，还能够确保高质量的重建。在图6中，我们在DTU数据集上将我们的方法与一些最先进的方法进行了更多的质量比较。从图6中，我们可以看到，与CVP-MVSNet[34]和PatchmatchNet[28]相比，我们的方法在边界的准确性和3D点云的结构细节上表现更好。此外，图7展示了Tank &Temples数据集上的一些3D点云重建结果。从图7中，我们可以看到，我们的方法在质量上非常高，即使对于具有挑战性的高级序列。最后，在表3中呈现了更全面的数量结果，我们的方法在大多数评估指标上取得了非常有竞争力的结果。0方法整体（mm）↓ 精度（mm）↓ 完整性（mm）↓0COLMAP [21] 0.532 0.400 0.664 MVSNet [35] 0.462 0.396 0.527R-MVSNet [36] 0.417 0.385 0.459 CIDER [31] 0.427 0.417 0.437D2HC-RMVSNet [33] 0.386 0.395 0.378 AttMVS [18] 0.356 0.3830.329 AA-RMVSNet [29] 0.357 0.376 0.3390Vis-MVSNet [38] 0.365 0.369 0.361 Fast-MVSNet [37] 0.3700.336 0.403 CVP-MVSNet [34] 0.351 0.296 0.406 CasMVSNet[10] 0.348 0.346 0.351 UCS-Net [5] 0.344 0.338 0.349PatchmatchNet [28] 0.352 0.427 0.2770Ours(Iters:1 1 1) 0.324 0.314 0.334 Ours(Iters:3 3 3) 0.3170.321 0.3130表1.在DTU的评估集[1]上的距离度量（较低为更好）比较和在Tanks &Temples基准[13]上的平均F分数（较高为更好）比较。'Iters'表示每个阶段的迭代次数。0DTU Tanks & Temples0方法时间内存时间内存0Vis-MVSNet [38] 0.61 5.6 0.79 6.3 Fast-MVSNet[37] 0.52 7.0 0.68 7.9 CVP-MVSNet [34] 1.51 8.81.79 9.4 CasMVSNet [10] 0.55 9.1 0.72 9.7 UCS-Net[5] 0.54 6.6 0.71 7.5 PatchmatchNet [28] 0.25 3.60.35 4.00Ours(Iters: 3 3 3) 0.19 3.1 0.28 3.6 Ours(Iters: 1 1 1)0.11 3.1 0.19 3.60表2. 在DTU [1]和Tanks &Temples基准[13]上不同方法之间的运行时间（秒）和内存消耗（GB）的比较。0方法的重构结果质量非常高，即使对于具有挑战性的高级序列。最后，在表3中呈现了更全面的数量结果，我们的方法在大多数评估指标上取得了非常有竞争力的结果。04.4. 消融研究0在本节中，我们进行了广泛的消融实验，分析了迭代次数、初始深度预测、动态成本体积组件和阶段数的影响。04.4.1 迭代次数0按照4.2节介绍的相同实验配置，我们进行了不同迭代次数的消融实验。通过这种方式，我们想要验证迭代次数的影响。结果如表4所示。从表4可以看出，迭代次数尤其重要。intt-o-r-ei-e�ton-4�4�40.3230.3110.3170.233,3,30.3210.3130.3170.192,2,20.3190.3210.3200.161,1,10.3140.3340.3240.11In this experiment, we evaluate the beneﬁcial effect of thedepth features(DF) and context features(CF) in the con-struction process of dynamic cost volume on DTU’s eval-uation set [1]. As shown in Table. 6, the depth features andcontext features have a great impact on the completenessof the reconstruction results, which can reduce complete-ness error from 0.368 to 0.313. Without depth features andcontext features, the dynamic cost volume can only providegeometric feature information extracted from the local cost86610中级高级0方法平均 Fam. Franc. Horse L.H. M60 Pan. P.G. Train 平均 Audi. Ballr. Courtr. Museum Palace Temple0COLMAP [21] 42.14 50.41 22.25 25.63 56.43 44.83 46.97 48.53 42.04 27.24 16.02 25.23 34.70 41.51 18.05 27.94 MVSNet [35] 43.48 55.99 28.55 25.07 50.79 53.96 50.8647.90 34.69 - - - - - - - R-MVSNet [36] 48.40 69.96 46.65 32.59 42.95 51.88 48.80 52.00 42.38 24.91 12.55 29.09 25.06 38.68 19.14 24.96 CIDER [31] 46.76 56.79 32.39 29.8954.67 53.46 53.51 50.48 42.85 23.12 12.77 24.94 25.01 33.64 19.18 23.15 D2HC-RMVSNet [33] 59.20 74.69 56.04 49.42 60.08 59.81 56.61 60.04 53.92 - - - - - - - AttMVS[18] 60.05 73.90 62.58 44.08 64.88 56.08 59.39 63.42 56.06 31.93 15.96 27.71 37.99 52.01 29.07 28.84 AA-RMVSNet [29] 61.51 77.77 59.53 51.53 64.02 64.05 59.47 60.8554.90 33.53 20.96 40.15 32.05 46.01 29.28 32.710Vis-MVSNet [38] 60.03 77.40 60.23 47.07 63.44 62.21 57.28 60.54 52.07 33.78 20.79 38.77 32.45 44.20 28.73 37.70 Fast-MVSNet [37] 47.39 65.18 39.59 34.98 47.81 49.1646.20 53.27 42.91 - - - - - - - CVP-MVSNet [34] 54.03 76.50 47.74 36.34 55.12 57.28 54.28 57.43 47.54 - - - - - - - CasMVSNet [10] 56.84 76.37 58.45 46.26 55.81 56.1154.06 58.18 49.51 31.12 19.81 38.46 29.10 43.87 27.36 28.11 UCS-MVSNet [5] 54.83 76.09 53.16 43.03 54.00 55.60 51.49 57.38 47.89 - - - - - - - PatchmatchNet [28]53.15 66.99 52.64 43.24 54.87 52.87 49.54 54.21 50.81 32.31 23.69 37.73 30.04 41.80 28.31 32.290我们的方法（迭代次数：1 1 1）54.50 71.12 47.51 44.38 58.19 56.59 53.45 56.72 48.03 32.73 17.75 41.21 31.93 43.04 28.99 33.49 我们的方法（迭代次数：3 3 3）56.8872.21 51.02 51.78 58.63 58.71 56.21 57.07 49.38 34.39 20.22 42.39 33.73 45.08 29.81 35.090表3. 不同方法在Tanks & Temples基准数据集的中级集和高级集上的详细定量结果（数值越高越好）[13]0（a）参考图像（b）CVP-MVSNet（c）PatchmatchNet（d）我们的方法0图6.DTU数据集[1]中扫描9和扫描75的定性比较。对于每个扫描，我们在顶部行显示参考图像和点云结果，在底部行显示放大的局部区域。我们的方法提供了更准确的边界和更密集的重建结果。0对于点云的完整性来说，迭代次数是非常重要的。这并不令人惊讶，因为我们的动态代价体积能够聚合独特的上下文信息，这些信息可以被GRU进一步利用来填补空洞。类似的结论也可以在图4中得到证明，随着迭代次数的增加，空洞被填充。在这里，我们还想争论一下我们的方法是相当灵活的，即我们可以根据实际任务需求在测试阶段调整迭代次数，以平衡重建质量、速度和内存消耗。0迭代次数精度（毫米）完整性（毫米）总体（毫米）时间（秒）0表4. 在DTU[1]数据集上对优化迭代次数进行消融研究。'Iters'表示每个阶段的迭代次数。04.4.2 初始深度预测0在这个实验中，我们设计了一个基于GRU的优化模块，用4个迭代来替换最粗糙阶段的初始深度预测（IDP）模块。对于这个优化模块，我们将深度假设的数量设置为8，深度假设的间隔设置为16米，将逆深度范围的中值（dmin +dmax）/2作为初始输入深度图。0方法精度（mm）完整性（mm）总体（mm）0无IDP 0.314 0.374 0.344 我们的方法 0.321 0.3130.3170表5.在DTU的评估集[1]上对初始深度预测模块（IDP）进行的消融研究。0如表5所示，我们的方法在重建质量方面明显优于使用初始深度预测模块的方法。我们基于3DCNN的初始深度预测模块可以获得相当可靠的深度图，可以有效避免基于GRU的优化单元的局部优化问题。特别是在完整性方面，我们的方法表现得更好，进一步证明了所提出的初始深度预测模块的重要性。04.4.3 动态代价体积的组成部分DTUTanks & Temples24,40.3390.142.754.533.30.233.433,3,30.3170.193.156.934.40.283.643,3,2,20.3140.314.658.835.20.455.286620图7. Tanks & Temples数据集的点云重建结果。上排：中级集上的重建结果。下排：高级集上的重建结果。0这个实验中，我们在DTU的评估集[1]上评估了深度特征（DF）和上下文特征（CF）在动态代价体积构建过程中的有益效果。如表6所示，深度特征和上下文特征对重建结果的完整性有很大影响，可以将完整性误差从0.368降低到0.313。没有深度特征和上下文特征，动态代价体积只能提供从局部代价中提取的几何特征信息。0方法精度（mm）完整性（mm）总体（mm）0无DF和CF 0.326 0.368 0.347 无DF 0.323 0.357 0.340无CF 0.319 0.325 0.322 我们的方法 0.321 0.313 0.3170表6.关于深度特征（DF）和上下文特征（CF）在动态代价体积构建过程中的消融研究。0实验结果还证明，通过聚合额外的深度特征信息和上下文特征信息构建动态代价体积是我们的方法在DTU评估集上实现最先进性能的关键。04.4.4 阶段数0我们进一步在总阶段数为2和4的情况下进行评估，对应的最细阶段的分辨率为H04 和 H × W 分别。我们在DTU [1]和Tanks & Temples[13]上评估了所有模型的重建质量、运行时间和GPU内存消耗。值得注意的是，我们设置了不同的上采样模块比例，使得所有模型输出全分辨率的深度图。如表7所示，随着阶段数的增加，性能在DTU和Tanks &Temples基准上显著提高，但同时运行时间和GPU内存消耗也显著增加。0阶段迭代次数总体时间内存交互时间内存0表7. 我们的方法在DTU [1]和Tanks & Temples[13]基准上，不同阶段的运行时间（每个视图的秒数）和内存消耗（GB）的性能。'Iters'表示从粗到细的每个阶段的迭代次数。

下载后可阅读完整内容，剩余1页未读，立即下载