单图像3D场景层结构推断：利用视图合成技术

161 浏览量更新于2024-06-20 收藏 1.05MB PDF 举报

"基于视图合成的3D场景层结构的推断" 本文主要探讨了一种新的方法，旨在从单个输入图像中推断出场景的3D层结构。这一技术对于计算机视觉领域具有重要意义，因为它使得计算机能够像人类一样，不仅理解眼前可见的景象，还能推理出视线之外的场景细节。作者Shubham Tulsiani、Richard Tucker和Noah Snavely提出的方法克服了缺乏直接监督的难题，转而采用多视图监督信号作为指导。他们将视图合成作为一种代理任务，即强制模型的表示能够从新的角度呈现场景。通过设计一个区分度高的新颖视图渲染器，他们的学习框架能够在保持图像质量的同时，学习推断场景中隐藏的纹理和深度信息。文章中提到的“分层深度图像”（LDI）是关键的3D表示形式，它扩展了传统的2.5D深度图，每个像素不再只包含一个深度值，而是存储多个有序深度值，这样就能表示出遮挡关系和潜在的层次结构。这种表示方式使得模型能够推断出那些在输入图像中不可见的场景元素。在实验部分，作者对这种方法进行了定性和定量的验证，证明了在两种不同的设置下，该方法都能成功地学习到场景的隐藏方面。通过项目网站（https://shubhtuls.github.io/LSI/）提供的实例，读者可以进一步了解这种方法的实际效果。该研究工作对于机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景，因为这些领域都需要从不同视角预测和理解环境。通过学习从单个图像预测分层场景表示，这项技术有可能推动计算机视觉向更接近人类视觉理解能力的方向发展，从而解决更多复杂的视觉推理任务。

S. 图尔西亚尼河Tucker，N.斯

内弗利

一些方法提倡替代形式的监督，

例如

多视图前景掩模[19，32，25]或深度[25]。

虽然这些方法超越了2.5D预测并推断出完整的3D结构，但它们使用基于体积

占用的表示，这些表示不会自然地扩展到一般场景。相反，我们使用的分层表

示更接近于经常用于场景的基于深度的表示。类似地，这些方法通常依赖于来

自多个视图的前景遮罩等线索，这些线索更适用于孤立的对象而不是复杂的场

景。因此，在我们的场景中，我们仅依赖于多个RGB图像作为监督。

分层场景表示。基于层的场景表示由于简洁性、效率和描述能力的原因而在计

算机视觉和图形社区中流行。基于单视图的方法[14，15，20]或光流方法[29]通

常通过将可见内容分组到层中来推断场景或流的简约表示虽然这些方法不考虑

遮挡，但Adelson [1]提出使用基于平面层的表示来捕获隐藏表面，并证明这些

可以使用运动来推断[27]。类似地，Baker

等人。

[2]提出了一种将场景表示为平

面层的立体方法我们的工作最直接地受到Shade

等人的

启发。[22]，他们引入了

分层深度图像（LDI）表示来捕获一般3D场景的结构，以用于基于图像的渲

染。

我们的目标是类似的代表性。然而，与需要多个图像进行推理的经典方法相

反，我们使用机器学习在测试时从单个图像预测这种表示。此外，与以前的基

于单视图的方法不同，我们的预测表示还考虑了场景的遮挡方面

学习LDI预测

我们的目标是预测一个场景的3D表示，不仅包括我们所看到的几何形状，而且

还包括场景中不可直接看到的方面几何推断的标准方法是预测深度图，其针对每

个像素回答以下问题：“

在该像素处成像的点距离相机多远？

”. 在这项工作中，

我们提出预测分层深度图像（LDI）[22]表示，除了上面的问题之外，还回答

了：'

这个像素的可见内容背后隐藏着什么？

' .

由于我们无法访问具有相应LDI表示的图像配对示例的数据集，因此我们利

用

间接

形式的监督来学习LDI预测。我们注意到，由于场景的LDI表示捕获场景

的可见和非模态方面，因此它可以允许我们几何合成相同场景的新颖视图，包

括对输入视图隐藏的方面我们的见解是，我们可以利用

视图合成作为代理目标

任务

。我们首先正式描述我们的训练设置和表示，然后根据这一见解提出我们

的方法。我们还引入了一个微分机制，通过一个新的“软z缓冲”为基础的前向飞

溅层渲染的LDI表示

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

单图像3D场景层结构推断：利用视图合成技术

cpp-从稀疏输入图像中进行新颖视图合成的Tensorflow实现

理柏：使用多视图口译的独立于演讲者的语音合成

Multiple View Geometry in Computer Vision(计算机视觉中的多视图几何)

2D转3D算法

电信设备-3D图像转换设备和调整3D图像转换设备的深度信息的方法.zip

电脑3d精美模型图片

Visual 3D Modeling from Images

DIBR程序代码，基于左右图

狭窄基线图像序列基于CRF的重建

从真实二维图像的集合合成三维空间的虚拟二维图像.zip

最新资源