级联成本体积：高分辨率多视图立体和立体匹配的新方法

177 浏览量更新于2023-10-24 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于高分辨率多视图立体和立体匹配的级联成本体积顾晓东1范志文1朱思宇1戴佐卓1谭飞彤12谭平121阿里巴巴人工智能实验2西蒙弗雷泽大学图1：最先进的基于学习的多视图立体方法[4，52，53]和MVS- Net+Ours之间的比较。（a）-（d）：MVSNet[52]、R-MVSNet [53]、Point-MVSNet [4]和MVSNet+Ours的重建点云。(e)以及（f）：重构精度与GPU存储器或运行时间之间的关系。输入图像的分辨率为1152 ×864。摘要深度多视图立体（MVS）和立体匹配方法通常构造3D成本体积以调节和回归深度或视差。这些方法受限于高分辨率输出，因为存储器和时间成本随着体积分辨率的增加而成立方地增长。在本文中，我们提出了一个内存和时间效率的成本体积制定补充现有的多视角立体和立体匹配方法的基础上3D成本体积。首先，建议的成本量是建立在一个功能金字塔编码的几何形状和上下文在逐渐精细的尺度。然后，我们可以通过来自前一阶段的预测来缩小每个阶段的深度（或视差）范围。随着成本体积分辨率逐渐提高和深度（或视差）间隔的自适应调整，输出以从粗到细的方式恢复我们将级联成本量应用于代表性的MVS-Net，并获得35。6%的改进DTU基准（第一位），与50。6%，59。GPU内存和运行时间减少3%。它在所有深度模型的坦克和寺庙基准测试中也排名第一。对其他代表性立体CNN的精度、运行时间和GPU内存的统计也验证了我们提出的方法的有效性。我们的源代码可以在https：//github.com/alibaba/cascade-stereo网站。*同等缴款。[2]这项工作是在阿里巴巴人工智能公司实习期间完成的。Labs.1. 介绍卷积神经网络（CNN）已被广泛应用于三维重建和更广泛的计算机视觉任务中。最先进的多视图立体声[19，29，52，53]和立体匹配算法[3，15，22，33，46，56]根据一组假设的深度（或视差）和扭曲特征计算3D成本体积将3D卷积应用于该成本体积以正则化和回归最终场景深度（或视差）。与基于2D CNN的方法相比[30，55]，3D成本体积可以捕获更好的几何结构，在3D空间中执行光度匹配，并减轻由透视变换和遮挡引起的图像失真的影响[4]。然而，依赖于3D成本量的方法通常限于低分辨率输入图像（和结果），因为3D CNN通常消耗时间和GPU内存。通常，这些方法对特征图进行下采样，以较低的分辨率制定成本卷[3，4，15，19，22，29，33，46，52，53，56]，并采用上采样[3，15，22，33，42，46，49，56]或后细化[4，29]来输出最终的高分辨率结果。受先前基于粗到精学习的立体方法[8，9，11]的启发，我们提出了一种新的3D成本体积的级联公式。我们从特征金字塔开始提取多尺度特征，这些特征通常用于标准多视图立体[52]和立体匹配。24952496ing [3，15]网络。以从粗到细的方式，早期阶段的成本体积建立在具有稀疏采样深度假设的较大尺度语义2D特征上，这导致相对较低的体积分辨率。其次，后面的阶段使用来自前面的阶段的估计的深度（或视差）图来自适应地调整深度（或视差）假设的采样范围，并构造其中应用更精细的语义特征的新的成本量。这种自适应深度采样和特征分辨率的调整确保了计算和存储器资源花费在更有意义的区域上。这样，我们的级联结构可以显着减少计算时间和GPU内存消耗。我们的方法的有效性可以在图1中看到。我们验证了我们的方法在多视图立体和立体匹配的各种基准数据集。对于多视图立体，当与MVSNet [52]结合时，我们的级联结构在本文提交时在DTU数据集[1]它也是最先进的基于学习的坦克和TEM-PLE基准方法[24]。对于立体匹配，我们的方法将GwcNet [15]的端点误差（EPE）和GPU内存消耗分别降低了约15.2%和36.9%。2. 相关工作立体匹配根据Scharstein的调查等人[38]，典型的立体匹配算法包含四个步骤：匹配成本计算、匹配成本聚集、视差计算和视差细化。局部方法[31，50，57]聚合与相邻像素的匹配成本，并且通常利用赢家通吃策略来选择最佳视差。全局方法[17，23，43]构建能量函数并尝试将其最小化以找到最佳视差。更具体地说，[23，43]中的工作使用置信传播和半全局匹配[17]来近似动态规划的全局优化。在深度神经网络的背景下，基于CNN的立体匹配方法首先由Zbontar和LeCun [54]引入，其中引入了卷积神经网络来学习小补丁对的相似性度量。在GCNet [22]中首次提出了在立体声中引入广泛使用的3D成本体积，其中视差回归步骤使用软参数运算来计算出最佳匹配结果。PSMNet [3]进一步引入金字塔空间池和3D沙漏网络用于成本体积正则化，并产生更好的结果。GwcNet [15]修改了3D沙漏的结构，并引入了分组相关性来形成基于组的3D成本体积。HSM [48]为具有分层设计的高分辨率图像构建了光模型。EMCUA [33]介绍了一种多方面的方法，层次上下文超聚合。GANet [56]构建了几个半全局聚合层和局部引导聚合层，以进一步提高准确性。Deep-Pruner [5]是一种从粗到细的方法，它提出了一个基于PatchMatch的模块来预测每个像素的修剪搜索范围。虽然基于3D成本体积的方法显着提高了性能，但它们仅限于下采样成本体积，并且依赖于插值操作来生成高分辨率视差。我们的级联成本卷可以与这些方法相结合，以提高dispar- ity精度和GPU内存效率。多视图立体根据综合调查[12]，传统多视图立体中的工作可以大致分为体积方法[20，21，25，41]，其估计每个体素和表面之间的关系;基于点云的方法[13，26]，其直接处理3D点以迭代地使结果致密化;以及深度图重建方法[2，7，14，40，44，51]，其仅使用一个参考和几个源图像用于单个深度图估计。对于大规模的运动结构，[58，59]中的作品使用基于分布式运动平均和全局相机一致性的分布式方法。最近，基于学习的方法也表现出优越的性能上的多视图立体。多补丁相似性[16]引入了学习的成本度量。Sur- faceNet [20]和DeepMVS [18]将多视图图像预扭曲到3D空间，并使用深度网络进行规则化和聚合。最近，在[4、6、10、19、29、52、53]中已经提出了基于3D成本体积的多视图立体。基于来自多个视图的扭曲的2D图像特征来构建3D成本体积，并且3D CNN被应用于成本正则化和深度回归。由于3D CNN需要大的GPU内存，这些方法通常使用下采样成本卷。我们的级联成本卷可以很容易地集成到这些方法中，以实现高分辨率的成本卷，并进一步提高精度，计算速度和GPU内存效率。立体声和MVS中的高分辨率输出最近，一些基于学习的方法试图减少内存需求，以生成高分辨率输出。Point MVSNet [4]建议使用小成本体积来生成粗略深度，并使用基于点的迭代细化网络来输出全分辨率深度，而不是使用体素网格。相比之下，与我们的级联成本卷相结合的标准 MVS- Net 可以使用比 PointMVSNet更少的运行时间和GPU内存以更高的精度输出全分辨率深度[4]。作品在[35，45]中，划分高级空间以减少内存消耗并构造缺乏灵活性固定成本卷表示。在[29，42，49]中工作，通过2D CNN构建额外的细化模块并输出高分辨率2497图2：MVSNet上拟议级联成本卷的网络架构[52]，表示为MVSNet+Ours。预测.值得注意的是，这种细化模块可以与我们提出的级联成本量联合使用。假设平面和深度范围通常由稀疏重建确定。坐标映射由单应性确定：3. 方法本节描述Hi（d）=Ki·Ri·（I−（t1−ti）·n1Td不）·R1−·K1（一）提出了级联成本体积，这是补充现有的3D成本体积为基础的方法在多视图立体和立体匹配。在这里，我们使用代表性的MVSNet [52]和PSMNet [3]作为骨干网络，以分别展示级联成本量在多视图立体和立体匹配任务中的应用。图2显示了MVSNet+Ours的架构。3.1. 成本量编制基于学习的多视图立体[4，52，53]和立体匹配[3，15，22，54，56]构建3D成本体积以测量对应图像块之间的相似性并确定它们是否匹配。构建3D成本体积需要在多视图立体和立体匹配中的三个主要步骤。首先，确定离散假设深度（或视差）平面.然后，我们翘曲提取的每个视图的二维特征的假设平面和构造的特征体积，最后融合在一起，建立三维成本体积。像素级成本计算在固有不适定区域（诸如遮挡区域、重复图案、无纹理区域和反射表面）中通常是模糊的。为了解决这个问题，通常引入多个尺度的3DCNN来聚集上下文信息并规则化可能受噪声污染的成本量。多视图立体MVSNet [52]中的3D成本体积提出使用不同深度处的前平行平面作为其中Hi（d）是指特征第i视图的地图和深度处的参考特征地图D. 此外，Ki，Ri，ti分别表示第i个视图的摄像机本征、旋转和平移，n1表示基准摄像机的主轴。然后利用可微单应性将二维特征映射到参考摄像机的假设平面上形成特征体。为了将多个特征量聚合到一个成本量，提出了基于方差的成本度量以适应任意数量的输入特征量。立体匹配PSMNet [3]中的3D代价估计使用视差水平作为假设平面，并且根据特定场景设计视差范围由于左图像和右图像已经被校正，所以坐标映射由x轴方向上的偏移确定：Cr（d）=Xl−d（2）其中Cr（d）是指在视差d处的右视图的经变换的X轴坐标，且Xl是左视图的源X轴坐标。为了构建特征体积，我们使用沿X轴的平移将右视图的特征图扭曲到左视图。有多种方法可以构建最终成本量。GCNet [22]和PSM-Net [3]连接左特征体积和右特征体积，而不降低特征维度。工作[55]使用绝对差之和来计算匹配成本。DispNetC [30]计算关于左特征体积和右特征体积的完全解析12498Kk+1K2N−k2N−kk+1kk+1D+✓kk+1kk+1平面图平面间隔空间Res.效率负积极负精度积极负积极图3：左：标准成本量。D是假设平面的数量，W× H是空间分辨率，I是平面间隔。右：效率（运行时间和GPU内存）和精度的影响因素并且对于每个视差等级仅产生单通道相关图GwcNet[15]通过将特征分成组并计算每组中的相关性映射来提出分组相关性。3.2. 级联成本量图3显示了分辨率为W×H×D×F的标准成本体积，其中W×H表示空间分辨率，D是平面假设的数量，F是特征图的通道数量。如[4，52，53]中所述，增加平面假设D的数量、更大的空间分辨率W× H和更精细的平面间隔可能会提高重建精度。然而，GPU内存和运行时间的增长立方作为解决方案的成本量的增加。如R- MVSNet [53]所示，MVSNet[52] 能够在 16 GB Tesla P100 GPU 上处理H×W×D×F=1600×1184×256×32的最大成本量为了解决上述问题，我们提出了一个级联的成本量公式和预测的输出在一个粗略的精细的方式。假设范围如图4所示，深度（或图4：假设平面生成的图示RK和Ik分别为第k阶段的假设范围和假设平面数粉红线是假设平面。黄线表示来自阶段1的预测深度（或视差）图，其用于确定阶段2处的假设范围和假设平面间隔成本体积的分辨率是固定的，较大的Dk生成更多的假设平面和相应地更准确的结果，同时导致增加的GPU存储器和运行时间。基于级联公式，我们可以有效地减少假设平面的总数，因为假设范围显着减少，而仍然覆盖整个输出范围。空间分辨率遵循特征金字塔网络[28]的实践，我们在每个阶段将成本体积的空间分辨率加倍，同时将输入特征图的分辨率加倍。我们定义N为级联成本量的总级数，则第k级成本量的空间分辨率定义为：W ×H。我们在多视图立体任务中设置N= 3，在立体匹配任务中N= 2整经作业应用级联成本将单应性变形函数公式化为多视点立体，我们基于公式1日由R1表示的第一阶段的深度（或视差）范围覆盖输入场景的整个深度（或视差）范围。在接下来的阶段中，我们可以基于前一阶段的预测输出，缩小假设范围。反（k+ 1）阶段为：Hi（dm+m）=Ki·Ri·（I−（t1−ti）·n1TM mk k+1）·R1T·K1−1（三）我们有Rk+1 =Rk ·wk，其中Rk是一种其中，表示第m个像素在第k阶段的假设范围，wk1为约简<第k个阶段，以及m是第m个阶段假设范围因子。假设平面间隔我们还将第一阶段的深度（或视差）间隔表示为I1。与通常采用的单一成本量公式[3，52]相比日在第k+ 1阶段要学习的像素。类似地，在立体匹配中，我们重新公式化等式2根据我们的级联成本量。第m个像素坐标-日k+ 1阶段的nate映射表示为：初始假设平面间隔相对较大，以生成粗略的深度（或视差）估计。在Cr（dm+ m ）=Xl−（dm+m）（4）以下阶段，更精细的假设平面间隔是ap-其中dm表示第m个像素用于恢复更详细的输出。因此，我们有：在第k阶段，表示的残差视差Ik+1=Ik·pk，其中Ik是假设平面间隔，第k级，pk1为假设平面间距的缩减因子<假设平面的数量在第k阶段，给定假设范围Rk和假设平面间隔Ik，假设平面的相应数量Dk由以下等式确定：Dk=Rk/Ik。当所述空间在第k+ 1级学习第m个像素3.3. 特征金字塔为了获得高分辨率深度（或视差）图，先前的工作[29，33，46，56]通常使用标准成本体积生成相对低分辨率的深度（或视差）图，然后上采样和细化2499(a) MVSNet[52]（b）R-MVSNet [53]（c）点MVSNet [4]（d）MVSNet+Ours（e）地面实况图5：DTU数据集上扫描10的多视图立体定性结果[1]。顶行：不同方法生成的点云和地面实况点云。底行：缩放的局部区域。用2D CNN。使用包含高级语义特征但缺乏低级精细表示的顶级特征图来构造标准成本量。在这里，我们参考特征金字塔网络[28]，并采用其具有更高空间分辨率的特征图来构建更高分辨率的成本量。例如，当将级联成本量应用于MVSNet [52]时，我们从特征金字塔网络[28]的特征图{ P1，P2，P3}它们对应的空间分辨率是输入图像大小的{1/16，1/4，1}3.4. 损失函数具有N个阶段的级联成本体积产生N-1个中间输出和最终预测。我们对所有输出应用监督，总损失定义为：ΣN损失=λk·Lk（5）k=1式中Lk为第k阶段的损失，λk为相应的损失重量。在实验中，我们采用与基线网络相同的损失函数Lk4. 实验我们评估建议的级联成本体积上的多视图立体和立体匹配任务。4.1. 多视点立体数据集DTU [1]是一个大规模的MVS数据集，包括在7种不同照明条件下在49或64个位置扫描的124个不同场景坦克和寺庙数据集[24]包含具有小深度范围的逼真场景。更具体地说，它的中间集由8个场景组成，包括家庭，弗朗西斯，马，灯塔，M60，潘-瑟，游乐场和火车。[53]在工作中，方法Acc.（毫米）Comp.（毫米）总体（mm）GPU内存（MB）运行时间营地[2]0.8350.5540.695--免费WiFi [13]0.6130.9410.777--卡拉OK [44]0.3421.1900.766--吉普马[14]0.2830.8730.578--SurfaceNet [20]0.4501.0400.745--R-MVSNet [53]0.3830.4520.41775771.28P-MVSNet [29]0.4060.4340.420--POINT-MVSNet [4]0.3420.4110.37687313.35美国（D=192）0.4560.6460.551108231.210MVSNet+我们的0.3250.3850.35553450.492与MVSNet百分之二十八点七40.4%百分之三十五点六百分之五十点六百分之五十九点三表1：DTU数据集上不同方法的多视图立体定量结果[1]（越低越好）。我们根据PointMVSNet [4]使用两种分辨率设置进行此实验，其中MVSNet+Ours使用1152 ×864的分辨率。使用DTU训练集[1]对算法进行训练，并在DTU评估集上进行测试。为了验证我们的方法的泛化性，我们还使用在DTU dataest上训练的模型在中间的Tanks和Temples数据集[24]上进行了测试，而没有进行微调。实现我们将提出的级联成本卷应用于代表性的MVSNet[52]，并将网络表示为MVSNet+Ours。在训练过程中，我们将输入图像的数量设置为N=3，图像分辨率为640×512。在平衡准确性和效率之后，我们采用了三级级联成本卷。从第一阶段到第三阶段，深度假设的数量为48、32和8，相应的深度间隔分别设置为MVSNet[52]间隔的4、2和1倍。因此，特征图的空间分辨率逐渐增加，并且被设置为原始输入图像尺寸的1/16、1/4和1。我们在训练和评估中遵循与MVSNet [52]相同的输入视图选择和数据预处理策略。在训练过程中，我们使用β 1 = 0的Adam优化器。9和β2= 0。999训练完成了16个时期，初始学习率为0.001，在10，12和14个时期之后缩小了2倍我们2500秩是说家庭弗朗西斯马灯塔M60黑豹操场火车COLMAP [39，40]54.6242.1450.4122.2525.6356.4344.8346.9748.5342.04R-MVSNet [53]40.1248.4069.9646.6532.5942.9551.8848.8052.0042.38POINT-MVSNet[4]38.1248.2761.7941.1534.2050.7951.9750.8552.3843.06ACMH [47]15.0054.8269.9949.4545.1259.0452.6452.3758.3451.61P-MVSNet [29]12.2555.6270.0444.6440.2265.2055.0855.1760.3754.29MVSNet [52]52.0043.4855.9928.5525.0750.7953.9650.8647.9034.69MVSNet+我们的9.5056.4276.3658.4546.2055.5356.1154.0258.1746.56表2：最先进的多视图立体和我们的方法的坦克和寺庙数据集[24]的统计结果图6：MVSNet+Ours在中间集Tanks和Temples数据集上的点云结果[24]。阶段解决方案>2mm（%）>8mm（%）总体（mm）GPU 记忆（MB）运行时（s）11/4× 1/40.3100.1630.60223730.08121/2× 1/20.2080.0840.40140930.243310.1740.0770.35553450.492表3：梯级不同阶段费用量统计结果使用MVSNet+Ours在DTU评估集[1]上收集统计数据。运行时间是当前阶段和前一阶段的总和。本实验输入图像的分辨率基数为1152 ×864。(a) GT &Ref Img（b）阶段1（c）阶段2（d）阶段3图7：每个阶段的重建结果。顶行：地面实况深度图和中间重建。底行：中间重建的误差图。使用8个Nvidia GTX 1080Ti GPU训练我们的方法，每个GPU上有2个训练样本。为了对DTU数据集[1]进行定量评价，我们利用DTU数据集[1]提供的MATLAB代码计算了准确性和完整性。在MVSNet [52]之后实施百分比评估。F分数用作Tanks和Temple数据集的评估指标[24]，以衡量准确性和完整性重建的点云。我们使用fusibile [36]作为我们的后处理，包括三个步骤：光度滤波、几何一致性滤波和深度融合。DTU评价集[1]的基准性能定量结果见表1。我们可以看到，具有级联成本体积的MVSNet [52]在完整性和整体质量方面优于其他方法[4，29，52，53]，并在DTU数据集[1]上排名第一定性结果示于图5中。我们可以看到，MVS- Net+Ours生成的点云更完整，细节更精细.此外，我们通过在Tanks和Temples数据集上进行测试，证明了我们训练模型的泛化能力[24]。表2中报告了相应的定量结果，MVSNet+Ours在基于学习的多视图立体方法中实现了最图6 显示了中间组Tanks 和Temples基准[24]的定性点云结果。请注意，我们通过运行其提供的预训练模型和代码来获得上述方法的结果，R-MVSNet [ 53 ]除外，R-MVSNet [53]提供点云结果及其后处理方法。为了分析每个阶段的准确性，GPU内存和运行时间，我们在DTU数据集上评估了MVSNet+Ours方法[1]。我们在表3中提供了全面的统计数据，在图7中提供了可视化结果。通过由粗到细的方式，整体质量从0.602提高到2501图8：KITTI 2015测试集的定性结果[32]。顶行：输入图像，第二行：PSMNet的结果[3]。第三行：GwcNet的结果[15]。最下面一行：全球气候变化网络的结果与级联成本量（全球气候变化网络+我们的）。0.355. 因此，GPU内存从2,373 MB增加到4,093 MB和5,345 MB，运行时间从0.081 s增加到0.243 s和0.492s。4.2. 立体匹配场景流数据集[30]是一个大规模的数据集，包含35，454个训练和4，370个大小为960× 540的测试立体对。它包含准确的地面实况差异>1px>2px。>3pxEPE记忆PSMNet [3]PSMNet+我们的9.467.445.194.613.803.500.8870.72168714124GwcNet [15]GwcNet+Ours8.037.464.474.163.303.040.7650.64972774585GANet 11 [56]GANet11+我们的-11.0-5.97-4.280.950.9066315032表4：具有和不具有场景上的级联成本体积的地图我们使用场景流数据集的Finalpass [30]，因为它包含更多的运动模糊和散焦，流量数据集[30]。精度、GPU内存消耗和运行时被包括用于比较。就像真实世界的环境一样。[32]第32话一个人具有动态街景的世界数据集。它包含200个训练对和200个测试对。Middlebury [37]是公开可用的高分辨率立体匹配数据集，包含不完美校准、不同曝光和不同照明条件下的60对。在场景流数据集中，我们用我们提出的级联成本量扩展了PSM- Net[3]，GwcNet [15]和GANet 11 [56]，并将它们表示为 PSMNet+Ours ， GwcNet+Ours 和 GANet 11+Ours。为了平衡精度和效率之间的权衡，采用了两级级联成本体积，差异假设的数量相应的视差间隔分别被设置为4和1个像素。特征图的空间分辨率从原始输入图像大小的1/16增加到1/4最大视差设置为192。在KITTI 2015基准[32]中，我们主要比较GwcNet [15]和GwcNet+Ours。为了进行公平的比较，我们遵循原始网络的训练细节。场景流数据集[30]中的评估度量是端点误差（EPE），其是以像素为单位的平均绝对视差误差。对于KITTI 2015 [32]，视差离群值D1的百分比用于评估大于方法所有（%）Noc（%）表5：KITTI 2015基准上不同立体匹配方法的比较[32]。max（3px，0.05d），其中d表示地面实况视差。基准性能在场景流数据集[30]上的不同立体方法的定量结果如表4所示。通过应用级联3D成本体积，我们提高了所有度量的准确性，并且由于级联设计具有较少数量的不对称假设，因此需要较少的内存。我们的方法在PSMNet [ 3 ]上将端点误差降低了0.166，0.116和0.050（0.887 vs. 0.721），GwcNet [15]（0.765 vs. 0.649）和GANet11 [56]（0.950vs. 0.900）。在>1px上的明显改善表明，随着高分辨率成本卷的引入，小误差得到了抑制在KITTI 2015[32]中，D1-bgD1-fgD1-所有D1-bgD1-fgD1-所有DispNetC [30]4.324.414.344.113.724.05GC-Net [22]2.216.162.872.025.582.61CRL [34]2.483.592.672.323.122.45iResNet-i2e2 [27]2.143.452.361.943.202.15[49]第四十九话1.884.072.251.763.702.08PSMNet [3]1.864.622.321.714.312.14GwcNet [15]1.743.932.111.613.491.92GwcNet+Ours1.594.032.001.433.551.782502深度编号深度间隔Acc.Comp.整体MVSNet19210.45600.64600.5510MVSNet-Cas2九十六，九十六二、一0.43520.42750.4314MVSNet-Cas3九十六，四十八，四十八二二一0.44790.41410.4310MVSNet-Cas4九十六，四十八，二十四，二十四二一0.43540.43740.4364MVSNet-Cas3-share九十六，四十八，四十八二二一0.47410.42820.4512表6：MVSNet [52]和MVS- Net之间的比较，使用我们的级联成本体积，具有不同的深度假设数和深度间隔设置。在DTU数据集上收集统计数据[1]。方法级联？上采样？特征金字塔？Acc. （毫米）Comp. （毫米）总体（mm）MVSNet×××0.4560.6460.551MVSNet-Cas3C××0.4500.4550.453MVSNet-Cas3-UpsCC×0.4190.3380.379MVSNet+我们的C×C0.3250.3850.355表 7 ： MVSNet 与具有不同级联成本体积设置的MVSNet具体地，在DTU数据集上评估统计数据表5示出了针对背景、前景和所有像素评估的视差异常值D1与最初的GwcNet [15]相比，GwcNet+Ours的排名从第29位上升到第17位（日期：2019年11月5日）。KITTI 2015测试集[32]上的几个差异估计如图8所示。在Middlebury基准测试中，PSMNet+Ours在avgerr指标中排名第37位（日期：2020年2月7日）。4.3. 消融研究进行了广泛的消融研究，以验证我们的方法的准确性和效率的提高。除非另有说明，所有结果均由DTU验证集[1级联级数不同级数的定量结果总结在表6中。在我们的实现中，我们使用MVSNet [52]和192个深度假设作为基线模型，并将其成本体积替换为我们的级联设计，该级联设计也由192个深度假设组成请注意，不同阶段的空间分辨率与原始MVSNet的空间分辨率相同[52]。该扩展的MVSNet被表示为MVSNet-Casi，其中i表示总的级数。我们发现，随着阶段数的增加，整体质量首先显着增加，然后稳定。空间分辨率然后，我们研究了成本体积W×H的空间分辨率如何影响分辨率性能。在这里，我们比较MVSNet-Cas3，它包含3个阶段，所有阶段共享相同的空间分辨率和MVSNet-Cas3-Ups，其中空间分辨率从原始图像大小的1/16增加到1，并且双线性插值用于对特征图进行上采样。如表7所示，MVSNet+Ours的整体质量明显优于MVSNet-Cas3（0.453 vs. 0.355）。因此，更高的空间分辨率也会增加GPU内存（2373 vs. 5345MB）和运行时（0.322 vs. 0.492秒）。如表7所示，MVSNet+Ours从特征金字塔网络[28]构建的成本卷可以将整体质量从0.379略微提高到0.355。GPU内存（6227与5345 MB）和运行时（0.676与0.492秒）也减少了。与MVSNet-Cas3和MVSNet-Cas3-Ups相比，空间分辨率的提高对重建精度的提高更为关键。费用量正则化中的参数分担我们还分析了所有阶段中3D成本体积正则化如表6所示，由MVSNet-Cas3-share表示的共享参数级联成本体积实现了比MVSNet-Cas3更差的性能。结果表明，对不同阶段的级联成本量分别进行参数学习，进一步提高了精度。4.4. 运行时间和GPU内存表1显示了MVSNet [52]在有和没有级联成本卷的情况下GPU内存和运行时间的比较由于精确度的显著提高，GPU内存从10，823 MB减少到5，345 MB，运行时间从1.210秒下降到0.492秒。在表4中，我们比较了PSMNet [3] ， Gwc- Net [15] 和 GANet 11 [56] 之间的GPU内存，有和没有建议的级联成本体积。PSMNet[3]、GwcNet [15]和GANet11 [56]的GPU内存减少了39。百分之九十七三十六99%，24。分别为11%。5. 结论在本文中，我们提出了一个GPU的内存和计算效率的级联成本体积制定高分辨率多视角立体和立体匹配。首先，我们将单个成本量分解为多个阶段的级联公式。然后，我们可以通过利用来自前一阶段的深度（或视差）图来缩小每个阶段的深度（或视差）范围并减少假设平面的接下来，我们使用更高空间分辨率的成本量来生成具有更精细细节的输出。所提出的成本体积是对现有的基于3D成本体积的多视图立体和立体匹配方法的补充。2503引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据。IJCV，2016，120（2）：153-168，2016. 二五六八[2] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。ECCV，2008年，第766-779页。Springer，2008. 二、五[3] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018，第5410-5418页一二三四七八[4] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在ICCV，2019，2019。一、二、三、四、五、六[5] Duggal等人Deeppruner：通过可区分的patchmatch学习有效的立体在ICCV，2019，第4384- 4393页，2019年。2[6] Hou et al. Multi-view stereo by temporal nonparametricfusion.在ICCV 2019中，第2651-2660页，2019年。2[7] Romanoni等人Tapa-mvs：无纹理感知的拼接匹配多视图立体。在ICCV 2019中，第104132[8] Tonioni等人实时自适应深度立体声。在CVPR 2019，第195-204页，2019年。1[9] Wang等人，移动设备上的任意时间立体图像深度估计。在ICRA 2019中，第5893-5900页。IEEE，2019。1[10] Xue等人，Mvscrf：学习多视角立体与条件随机场。在ICCV 2019中，第43122[11] Yin等人，匹配密度估计的分层离散分布分解。在CVPR2019中，第6044- 6053页，2019年。1[12] 你知道吗？Furuk，CarlosHern a'ndez等人。多视图立体声：教程。CGV，9（1-2）：1-148，2015年。2[13] 古川康孝和让·庞塞。准确、密集、坚固的多视图立体视觉。TPAMI，32（8）：1362-1376，2009. 二、五[14] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在ICCV，2015年，第873-881页，2015年。二、五[15] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang ， and Hongsheng Li. 分组相关立体网络。在CVPR，2019，第3273-3282页，2019年。一二三四七八[16] 哈特曼，加利亚尼，哈弗莱纳，范古尔，辛德勒。学习多补丁相似性。在ICCV，2017年，第1586-1594页，2017年。2[17] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体见CVPR，2005年，第2卷，第807-814页。IEEE，2005年。2[18] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在CVPR，2018，第2821-2830页，2018年。2[19] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon.端到端深平面扫立体声。arXiv：1905.00538，2019年。一、二[20] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在ICCV，2017年，第2307二、五[21] AbhishekKa r，ChristianHaene，andJitendraMalik. 学习多视角立体机。在NeurIPS，2017年，第365- 376页，2017年。2[22] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在ICCV，2017年，第66-75页，2017年。一、二、三、七[23] 安德烈亚斯·克劳斯，马里奥·索尔曼，康拉德·卡纳。使用置信度传播和自适应相异性度量的基于段的立体匹配见ICPR，2006年，第3卷，第15-18页。IEEE，2006年。2[24] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun. 坦克和寺庙：大规模Ccene重建的基准TOG，36（4）：78，2017. 二、五、六[25] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论IJCV，38（3）：199-218，2000. 2[26] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。TPAMI，27（3）：418-433，2005. 2[27] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Wei Chen，Linbo Qiao，Li Zhou，and Jianfeng Zhang.通过特征恒定性学习视差估计在CVPR，2018，第2811-2820页7[28] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017，第2117- 2125页，2017年。四五八[29] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在ICCV，2019年，2019年10月。一二四五六[30] Nikolaus Mayer ， Eddy Ilg ， Philip Haus

下载后可阅读完整内容，剩余1页未读，立即下载