端到端深度学习：MVSNet多视点立体深度重建

120 浏览量更新于2024-06-20 收藏 2.47MB PDF 举报

MVSNet是一种端到端的深度学习架构，专为从多视图图像中推断深度图设计。该系统由以下几个关键组件构成： 1. **深度视觉特征提取**：MVSNet首先通过深度学习模型从输入的多视图图像中提取深度相关的特征，这些特征反映了每个视角对三维空间的理解。 2. **3D成本体积构建**：利用可微单应性变形技术，MVSNet将这些特征映射到一个参考相机的裁剪体（截头体）上，形成3D成本体积。成本体积是一种量化距离或不确定性的空间分布，用于表示不同视点之间深度信息的匹配度。 3. **3D卷积与正则化**：通过3D卷积层对成本体积进行处理，这种方法有助于减少噪声，同时通过正则化确保了深度图的合理性。这一步骤是深度学习在深度估计中的核心环节，它融合了多视图信息，生成初步的深度估计。 4. **细化和输出生成**：初步深度图经过参考图像的进一步细化，通过迭代优化和后处理，MVSNet能够生成最终的高质量深度图输出。这种方法不仅提高了精度，还显著加快了运行速度。 5. **适应性和多样性**：MVSNet设计灵活，能够适应不同数量（N-视图）的输入，并采用基于方差的成本度量，这使得它能处理各种复杂场景。 6. **性能验证**：MVSNet在大规模室内DTU数据集上表现出色，相较于先前的最先进的算法，它在重建完整性上有所提升，同时运行速度更快。此外，它还在户外坦克和寺庙等复杂场景的数据集上进行了评估，证明了其在实际环境中的鲁棒性和竞争力。 7. **挑战与优势**：尽管传统MVS方法在某些理想条件下表现良好，但面对低纹理、镜面反射等复杂场景，深度学习方法如MVSNet展示了更强的潜力。通过使用CNN，MVSNet能够自动学习和改进密集匹配，从而提高重建的完整性和准确性。 MVSNet是一个创新的深度学习解决方案，它利用多视点信息和深度学习技术，有效地解决了多视点立体深度估计的问题，特别在处理具有挑战性场景时展现出优势。它的高效性和鲁棒性使其成为当前及未来计算机视觉领域的一个重要研究方向。

Y. Yao，Z.Luo，S.Li，T.芳湖，澳-

地泉

特征提

取

可微单应性

成本量规范

化

深度图细

化

图1：MVSNet的网络设计。输入图像将通过2D特征提取网络和可微单应性变

形来生成成本体积。最终的深度图输出从正则化的概率体积回归，并利用参

考图像进行

通常，这些端到端学习算法[24，19，17]显著优于传统的立体声方

法。

学习MVS。对学习的MVS方法的尝试较少。Hart- mann

等人

提出了学

习的多块相似性[11]，以取代MVS重建的传统成本度量。用于MVS问

题的第一个基于学习的流水线是SurfaceNet [14]，其使用复杂的逐体素

视图选择来预先计算成本体积，并使用3D CNN来正则化和推断表面

体素。与我们最相关的方法是LSM [15]，其中相机参数在网络中编码

为投影操作以形成成本体积，并且3D CNN用于分类体素是否属于表

面。然而，由于体积表示的共同缺点它们要么应用分治策略[14]，要

么仅适用于具有低分辨率输入的合成数据[15]。相比之下，我们的网

络专注于每次为一个参考图像生成深度图，这使我们能够直接自适应

地重建大场景。

MVSNet

本节介绍所提议网络的详细架构。MVSNet的设计严格遵循相机几何

形状的规则，并借鉴了以前的MVS方法的见解在接下来的章节中，我

们将比较我们的网络的每一步与传统的MVS方法，并展示我们的基于

学习的MVS系统的优势。MVSNet的完整架构1.一、

共享权重

损失

共享权重

初始深度图

损失

方差度

量

软参

数

细化深度图

Conv + BN + ReLU ，步幅= 1

Conv + BN + ReLU ，步幅= 2

Conv，步幅= 1

级联加法

…

源图像

参考图像

剩余16页未读，继续阅读

cpongm

粉丝: 6

端到端深度学习：MVSNet多视点立体深度重建

Fast-MVSNet：高效多视点立体声深度估计与高斯牛顿优化

P-MVSNet: 各向异性深度估计的新型学习方法

非参数深度分布模型：多视点立体深度推断新方法

点MVSNet：一种基于点的多视图立体深度学习框架

EPP-MVSNet：基于核线拼接的高效多视点深度预测网络

CVP-MVSNet：基于代价体金字塔的高效立体深度推断

递归神经网络驱动的高效高分辨率多视点立体深度推断

IterMVS：高分辨率多视图立体深度估计的迭代方法

稀疏地面真实驱动的MVS网络：新方法实现多视图立体感

cole_02_0507.pdf

最新资源