ScanNet：大规模室内场景的RGB-D数据集与3D理解

86 浏览量更新于2024-06-20 收藏 1.4MB PDF 举报

"ScanNet是一个大规模的RGB-D数据集，专注于室内场景的理解，包含了丰富的注释，如3D相机姿势、表面重建以及语义分割。这个数据集由2.5M视图组成，覆盖了1513个不同场景，并且通过一个易于使用和可扩展的RGB-D捕获系统收集。该系统还支持自动表面重建和众包语义标注，旨在促进3D场景理解任务的发展，如3D对象分类、语义体素标记和CAD模型检索。ScanNet的创建是为了应对当前3D数据集规模小、注释困难的问题，通过实例级对象类别标签进行3D空间的注释，提供了比传统方法更精确的3D场景理解能力。" ScanNet数据集的创建是为了弥补监督式深度学习在RGB-D场景理解中面临的数据稀缺问题。传统的RGB-D数据集由于捕获难度大、效率低，往往只包含少量的场景和有限的注释。而ScanNet通过自动化的数据收集和处理流程，能够实现大规模的数据集构建，并且使用众包方式实现了大规模的语义标注，使得数据集的规模和注释的完整性得到了显著提升。在技术层面，ScanNet的数据集不仅包含了RGB-D图像，还提供了3D重建的表面模型和每个像素的语义标签，这对于训练深度学习模型进行3D对象识别、场景解析等任务至关重要。此外，通过实例级的对象类别标签，研究人员可以更准确地理解场景中的物体，这对于室内环境的理解和建模尤为有用。 ScanNet的贡献在于推动了3D深度学习的发展，尤其是在没有大量人工干预的情况下，实现了大规模的实境数据采集和注释。通过使用ScanNet数据集，研究者能够在多个3D场景理解任务上达到最先进的性能，验证了数据集的有效性和广泛适用性。因此，ScanNet对于推动室内场景理解、3D重建、以及相关领域的研究具有重大的价值。

5830

上传

人群

采购

语义标注检索

对齐

三维重建分割

RGB

扫描

图

概述我们的

RGB-D

重建和语义注释框架。左图：一位新手使用配备我们扫描界面的手持

RGB-D

设备扫描环境。中：

RGB-

D序列被上传到处理服务器，该处理服务器产生3D表面网格重建及其表面分割。右图：发布语义标注任务用于众包，以获得实

例级对象类别标注和重建的

3D CAD

模型对齐。

真正的流水线是基于昂贵的和不太便携的硬件。此

外，仅提供融合点云作为输出。由于缺乏原始的颜色

和深度数据，它的适用性的研究重建和场景理解从原

始的RGB-D输入是有限的。

与我们最相似的数据集是SceneNN [32]和PiGraphs

[71]，它们分别由100和26个密集重建和标记的场景组

成。注释直接在3D中完成[60，71]。然而，扫描和标

记都只能由专家用户（即作者），限制了系统的可伸

缩性和数据集的大小。相比之下，我们专门为未经培

训的用户设计了易于使用的RGB-D采集框架，并通过

众包进行了可扩展的处理。这使我们能够获得具有更

多注释的更大数据集（目前，1513个序列被重建和标

记）。

数据集采集框架

在本节中，我们将重点介绍用于获取ScanNet数据集

的框架的设计（图1）。2）的情况。我们讨论了在构

建框架时的设计权衡，并中继发现哪些方法最适合大

规模RGB-D数据收集和处理。

我们设计框架的主要目标是允许未经训练的用户使

用商品硬件捕获室内场景的语义标记因此，RGB-D扫

描系统必须易于使用，数据处理鲁棒且自动，语义注

释众包，并且通过跟踪服务器处理的系统的数据流

3.1.

RGB D扫描

硬件. RGB-D传感器硬件有多种选择。我们需要部署到

大量缺乏经验的用户，这需要一个便携式和低成本的

RGB-D传感器设置。我们使用Structure传感器[63]，这

是一种商品 RGB-D 传感器，设计类似于 Microsoft

Kinect v1 。我们将此传感器连接到手持设备，如

iPhone或iPad（见图1）。2左）-本文中的结果是使用

iPad Air 2设备收集的。的

iPad RGB摄像头数据通过硬件与深度传感器在时间上

同步，

和30Hz的彩色捕获。深度帧以 640×480的分辨率和

1296×968像素的我们默认启用自动白平衡和自动曝

光。

校准。我们对商品RGB-D传感器的使用需要深度数据

的解扭曲以及深度和颜色数据的对齐。先前的工作主

要集中在具有更精确的设备的受控实验室条件上，以

通知商品传感器的校准（例如，Wang等人[87]）。然

而，这对于新手用户来说并不实用。因此，用户只需

要打印出棋盘图案，将其放置在大的平坦表面上，并

捕获从近到远观察表面的RGB-D序列。该序列以及查

看棋盘的一组红外和彩色帧对然后，我们的系统运行

基于[84，14]的校准程序，以获得深度和颜色传感器

的内部参数我们发现，这种校准过程是很容易为用户

和改善数据的结果，从而增强重建质量。

用户界面. 为了让未经培训的用户能够轻松捕捉视频，

我们设计了一个iOS应用程序，其中包含一个简单的实

时RGB-D视频捕捉UI（见图10）。2左）。用户提供

当前扫描的名称和场景类型，并继续记录序列。在扫

描期间，对数尺度RGB特征检测器点度量被示出为该

功能对于为不熟悉3D重建算法的约束和限制的用户提

供直观性至关重要

存储. 我们将扫描作为压缩的RGB-D数据存储在设备闪

存上，以便在扫描期间不需要稳定的互联网连接。用

户可以在方便时通过按下“上传”按钮将扫描上传到处

理服务器。我们的传感器单元使用

128 GB

的iPad Air2

设备，允许录制数小时的RGB- D视频。实际上，瓶颈

是电池寿命，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

ScanNet：大规模室内场景的RGB-D数据集与3D理解

使用RGB-D图像解析室内场景

室内场景3d目标检测的多模态数据集有哪些，分别大约多大内存

scannet数据集下载

基于深度学习的RGBD图像语义分割研究现状

scannet数据集点云

非平面结构的训练数据集

scannet数据集peng

scannet和scannetv2

OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion用的数据集是什么

scannet 下载图片

最新资源