3DMV：融合2D-3D的3D语义场景分割新方法

41 浏览量更新于2024-06-20 收藏 1.89MB PDF 举报

"3DMV: 用于3D语义场景分割的联合2D-3D架构" 3DMV是一种创新的3D语义场景分割方法，由Angela Dai和Matthias Nießner提出，它结合了2D和3D数据的优势，尤其适用于室内环境的RGB-D扫描重建。该方法通过构建一个联合3D多视图预测网络，有效地利用了几何和颜色特征的协同效应，从而提高了3D语义分割的准确性。在传统的3D语义分割任务中，大多数方法要么依赖于几何数据（如深度信息），要么基于RGB图像进行处理。3DMV则突破了这一局限，将两者结合起来，形成一个端到端的网络架构。首先，从RGB图像中提取特征图，随后借助可区分的反投影层将这些特征映射到3D网络的体积特征网格中。考虑到实际场景可能包含多个RGB输入视图，3DMV采用了多视图池化技术来处理不同数量的视图，确保对复杂场景的适应性。 3DMV的核心在于其联合2D-3D架构，该架构能够处理来自RGB-D扫描的数据，其中3D几何信息和RGB颜色信息被同时考虑。这种方法的优势在于它能够在3D空间中保持更多的细节，避免了将颜色数据简单投影到体积网格中可能导致的信息损失。在ScanNet 3D分割基准测试中，3DMV相比于传统的体积架构，表现出了显著的提升，准确率从52.8%提高到了75%，证明了这种方法的有效性。这个结果对于依赖3D场景理解的机器人应用尤其重要，因为它们需要知道物体在3D空间中的位置信息。 3D语义场景分割的应用广泛，包括但不限于机器人导航、自动驾驶、虚拟现实和建筑建模等。3DMV的出现为这些领域提供了更高效、更精确的解决方案。通过结合深度学习和多视图处理，3DMV展示了在3D环境理解中的强大潜力，并为未来的研究和开发奠定了基础。项目代码已开源，可在GitHub（https://github.com/angeladai/3DMV）上获取，这为研究者和开发者提供了实现和改进3DMV算法的平台。通过这个工具，我们可以进一步探索如何优化3D语义分割，以及如何将这些技术应用于实际的自动化和智能化系统中。

A. Dai和M. 尼斯纳

最近开发的ScanNet [5]数据集引入了约3D语义分割任务。使用结构传

感器获得的1.5k RGB-D扫描和重建它提供了地面实况注释，用于直接

在3D重建上进行训练、验证和测试;它还包括大约。2.5使用渲染的3D

到2D投影导出其2D注释的mio个RGB-D帧Matterport 3D [1]是另一个最

近的数据集，包含大约90个建筑物规模的场景，与ScanNet具有相同的

精神;它包括更少的RGB-D帧（约194，400），但有更完整的重建。

概述

我们的方法的目标是基于商品RGB-D扫描的输入来预测3D语义分割。更

具体地说，我们想要推断3D重建的网格的每体素级别上的语义类标签。

为此，我们提出了一个联合2D-3D神经网络，它利用从3D扫描中获得的

RGB和几何信息。对于几何形状，我们考虑其体素编码三元状态（已知

占用、已知自由、未知）的规则体积网格。为了在不同大小的完整3D场

景上执行语义分割，我们的网络以每个块为基础进行操作;也就是说，在

测试时间通过

平面以滑动窗口方式预测场景的列。对于场景中给定的

位置，网络将周围区域的体积网格（31× 31× 62体素的块）作为输

入。然后，网络使用一系列3D卷积来提取几何特征，并预测当前

位置

处的中心列的每体素类别标签。除了几何视图之外，我们选择在当前

位置处与相关联的块重叠的附近RGB视图。对于所有这些2D视图，我们

通过2D神经网络运行相应的图像，提取其相应的特征。注意这些 2D网

络都具有相同的架构，并共享相同的权重。

为了结合的2D和3D功能，我们引入了一个微分反投影层，映射到

3D网格的2D功能。然后，这些投影特征通过网络的3D卷积部分与3D

几何信息合并。除了投影之外，我们还添加了体素池层，该体素池层

能够处理与3D块相关联的可变数量的RGB视图;在每体素的基础上执

行池化。为了对整个扫描运行3D语义分割，针对场景的每个

位置

运行该网络，将对应的局部块作为输入。

在下文中，我们将首先介绍我们的网络架构的细节（参见第 2

节）。4），然后展示我们如何训练和实现我们的方法（见第2节）。

（五）。

网络架构

我们的网络是由一个3D流和几个2D流，结合在一个联合的2D-3D网络

架构。3D部分将表示3D扫描的几何形状的体积网格作为输入，并且

2D流将相关联的RGB图像作为输入为此，我们假设3D

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

3DMV：融合2D-3D的3D语义场景分割新方法

[ECCV'18]3DMV：联合3D多视图预测3D语义场景分割_Python_下载.zip

RShiny_DMV:Projet RShiny

dmv:学习Python，备考CA驾照

DMV-Rush-Scheduler:用于查找最快可用 CA DMV 约会的工具

dmv-checker:DMV CA检查器脚本

DMV-Online-Highscores-JPN:我的DMV在线高分系统的日语翻译

ca-dmv-poller:尽早轮询您选择的DMV办公室

dmv-advisor:不要浪费时间排队

DMV-appointment-booking-script:加利福尼亚汽车部的预约预约脚本

dmv-blockchain

最新资源