高分辨率多视点立体视觉与立体匹配的级联代价体优化

需积分: 0 189 浏览量更新于2024-06-30 1 收藏 19.08MB PDF 举报

"高分辨率多视点立体视觉与立体匹配的级联代价体" 这篇外文科技文献翻译主要关注的是高分辨率多视点立体视觉（MVS）和立体匹配领域中的技术改进。立体视觉和立体匹配是计算机视觉的重要组成部分，它们通过分析不同视角的图像来估计场景的三维结构。在这些任务中，通常会构建3D代价体以帮助正则化和确定深度及视差，但这种方法在处理高分辨率图像时，由于体积的增大，内存和计算时间的需求也会呈立方增长。文章提出了一种新的级联代价体表示法，旨在提高效率并降低内存和时间成本。这个级联代价体通过编码几何信息和上下文细节，逐步细化特征金字塔来构建。在每个阶段，利用前一阶段的预测来限制深度或视差的搜索范围，从而减少计算量。随着代价体分辨率的提高，深度或视差的间隔也会自适应地调整，以实现更精细的恢复。将这一方法应用于MVS-Net（一个有代表性的多视点立体视觉网络）后，研究显示在DTU数据集上的性能提升了35.6%，同时减少了50.6%的GPU消耗和59.3%的运行时间。此外，该方法还在Tanks and Temples排行榜上所有深度模型中取得了第一的成绩，证明了其在多个标准上的优越性。论文还探讨了相关工作，包括现有的MVS和立体匹配算法，并详细介绍了级联代价体的构建、特征金字塔的作用以及损失函数的设计。实验部分展示了在多视点立体视觉和立体匹配任务上的效果，进一步验证了该方法的有效性。代码已开源在GitHub上，供其他研究者和开发者参考和使用。这表明该工作不仅提供了理论上的贡献，还促进了实际应用的发展。

外文科技文献译文

共 24 页第 5 页

┊

装

┊

订

┊

线

┊

图 4 假设平面生成的说明。

- +

分别是第

阶段的假设范围和假设平面数量。粉线代表假设平面，黄线代表

第一阶段的预测深度（或视差）图，用于决定第二阶段的假设范围和假设平面间隔。

B. 假设平面间隔

用

表示第一阶段的深度（或视差）间隔。相比于一般采用的单代价体

[3,52]

表达，初始假设平

面间隔相对较大，以产生粗深度（或视差）估计。在接下来的阶段，应用更精细的假设平面间隔

恢复更精细的输出。因此

' ("

，其中

是第

步假设平面间隔，

是假设平面间隔的

缩小因子。

C. 假设平面数量

在第

步，假设范围为

(

，假设平面间隔为

，假设平面数量

由公式

计算。当代

价体的空间分辨率固定后，更大的

生成更多的假设平面并能得到更精确的结果，但同时也导致

更高的 GPU 消耗和运行时间。根据级联构建，由于假设范围逐步显著缩小，但仍然覆盖整个输

出范围，我们可以高效地减少假设平面的总数。

D. 空间分辨率

根据特征金字塔网络

[28]

，我们将每一步骤的代价体空间分辨率进行翻倍，同时将原始特征图

的分辨率翻倍。我们定义

作为级联特征体的总阶段步骤，则第

阶段的代价体空间分辨率定义为

如下公式：

)$'

在多视点立体视觉任务中设定

F%@

，在立体匹配任务中设定

F%6

。

E. 投影操作

将级联代价体构建应用到多视点立体视觉中，我们在公式 1 中使用不同的单应变换，第

BG/

阶段公式如下：

' ("

)

' ("

其中

表示第

阶段中第

个像素估计出的深度，

' ("

是第

BG/

个阶段中第

个像素要学习

的剩余深度。

与立体匹配相似，我们使用级联代价体重新改写公式 2。第

BG/

个阶段中第

个像素的坐标

投影为：

' ("

$ "

其中

表示第

阶段中第

个像素估计出的视差，

' ("

是第

BG/

个阶段中第

个像素要学习

的剩余视差。

剩余41页未读，继续阅读

萱呀

粉丝: 30
资源: 354

高分辨率多视点立体视觉与立体匹配的级联代价体优化

CasMVSNet_pl:使用pytorch-lightning进行高分辨率多视图立体声和立体声匹配的级联成本量

【三】FPGA双目立体视觉之立体匹配

立体视觉立体匹配综述

准相位匹配级联二阶非线性全光波长转换研究

0372-极智开发-解读QueryDet-用于加速高分辨率小目标检测的级联稀疏查询

级联多电平

级联类别感知视觉搜索

关于音频级联的阻抗匹配

cascade-stereo:级联立体声

级联菜单 级联菜单级联菜单级联菜单

最新资源

级联菜单级联菜单级联菜单级联菜单