丰富的注释:ScanNet—室内场景的RGB-D数据集

43 浏览量更新于2023-10-16 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ScanNet：具有丰富注释的室内场景安吉拉戴1天使X.Chang2 Manolis Savva2 Maciej Halber2 Thomas Funkhouser2 Matthias Nießner1，31斯坦福大学2普林斯顿大学3慕尼黑工业大学www.scan-net.org摘要利用监督式深度学习方法的一个关键要求不幸的是，在RGB-D场景理解的上下文中，非常少的数据是可用的-当前数据集覆盖小范围的场景视图并且具有有限的语义注释。为了解决这个问题，我们介绍了ScanNet，一个RGB-D视频数据集，包含2.5M视图，在1513个场景中注释了3D相机姿势，表面重建和语义分割。为了收集这些数据，我们设计了一个易于使用和可扩展的RGB-D捕获系统，该系统包括自动表面重建和众包语义标注。我们表明，使用这些数据有助于在几个3D场景理解任务上实现最先进的性能，包括3D对象分类，语义体素标记和CAD模型检索。1. 介绍自从引入商品 RGB-D 传感器（例如 MicrosoftKinect）以来，3D几何捕获领域尽管在3D重建算法上已经有了显著的努力，但是使用RGB-D数据的一般3D场景理解只是最近才开始流行。现代机器学习方法（如神经模型）的快速发展也极大地促进了语义理解方面的研究成功应用这些方法的一个关键是大型标记数据集的可用性虽然已经在2D数据集上做出了很多努力[17，44，47]，其中图像可以从网络上下载并直接注释，但3D数据的情况更具挑战性。因此，许多当前的RGB-D数据集[74，92，77，32]的数量级小于其2D对应物。通常，3D深度学习方法使用合成数据来缓解现实世界数据的缺乏[91，6]。当前3D数据集很小的原因之一是因为它们的捕获需要更多的努力，而且效率很低。图1.通过我们的众包注释框架，在ScanNet中使用实例级对象类别标签注释的示例重建空间在3D中精确地提供（密集）注释是重要的。因此，3D数据集上的现有工作通常回到2.5D RGB-D图像上的多边形或边界框注释[74，92，77]，而不是直接在3D中注释。在后一种情况下，标签由专家用户手动添加（通常由论文作者添加）[32，71]，这限制了它们的整体大小和可扩展性。在本文中，我们介绍了ScanNet，这是一个包含真实世界环境的丰富注释的RGB-D扫描数据集，其中包含在707个不同空间中采集的1513次扫描中的2.5M RGB-D图像。该数据集的绝对量级大于任何其他数据集[58，81，92，75，3，71，32]。然而，使其对场景理解研究特别有价值的是其具有估计的校准参数，相机姿势，3D表面重建，纹理网格，密集对象级语义分割和对齐的CAD模型的注释（见图11）。2）的情况。语义分割比任何先前的RGB-D数据集大一个数量级以上在这个数据集的收集中，我们考虑了两个主要的研究问题：1）我们如何设计一个框架，允许许多人收集和注释大58285829数据集大小标签注释工具重建CAD模型[58]第五十八话464次扫描1449帧2D LabelMe风格[69]没有一一些[25]TUM [81]47次扫描没有一-对齐姿势（Vicon）没有[92]第二十二话415次扫描8次扫描2D多边形[92]第九十二话没有[75]第七十五话10k帧10k帧2D多边形+边界框[92]第九十二话没有BuildingParser [3]265间客房265间客房[24]第二十四话点云没有[71]第七十一话26次扫描26次扫描作者的稠密3D [71][62]第六十二话没有[32]第三十二话100次扫描100次扫描作者的密集3D [60]密集三维[9]没有ScanNet（我们的）1513次扫描1513次扫描密集的3D众包MTurk密集三维[12]是的250万帧标签也是proj。到2D帧表1.用于3D重建和语义场景理解的RGB-D数据集概述。请注意，除了ScanNet中的1513次扫描外，我们还提供了所有NYU v2序列的密集3D重建和注释。大量的 RGB-D 数据，以及 2 ）我们是否可以使用ScanNet中提供的丰富注释和数据量来学习更好的3D模型以进行场景理解？为了研究第一个问题，我们构建了一个捕获管道来帮助新手获取场景的语义标记的3D模型。一个人使用安装有深度相机的iPad上的应用程序来获取RGB-D视频，然后我们离线处理数据并返回场景的完整语义标记的3D重建。开发这样一个框架的挑战是多方面的，包括如何在可扩展的管道中稳健地执行3D表面重建以及如何众包语义标记。本文讨论了我们对这些问题的研究，并记录了我们在扩大RGB-D扫描收集（20人）和注释（500人）方面的经验为了研究第二个问题，我们用ScanNet提供的数据训练了3D深度网络，并测试了它们在几个场景理解任务上的性能，包括3D对象分类、语义体素标记和CAD模型检索。对于语义体素标记任务，我们引入了一种新的体积CNN架构。总体而言，本文的贡献是：• 一个大型3D数据集，包含超过707个独特室内环境的1513个RGB-D扫描，相机参数，表面重建，纹理网格，语义分割。我们还为扫描的子集提供CAD模型放置。• 一种适用于新手用户的高效3D数据捕获和注释设计。• 新的RGB-D基准测试和最先进的机器学习方法在3D ob对象分类、语义体素标记和CAD模型检索。• 用于密集RGB-D重建的完整开源采集和注释框架。2. 以前的工作大量的RGB-D数据集已被捕获并公开用于培训和基准测试[56，34，50，65，79，83，74，4，58，81，15，55，1，68，30，51，21，48、43、92、80、61、72、93、36、16、35、57、40、29、70、52、45、95、75、9、33、85、71、32、3、10、78、2]。1这些数据集已用于训练许多3D场景理解任务的模型，包括语义分割[67，58，26，86]，3D物体检测[73，46，27，76，77]，3D物体分类[91，53，66]和其他[94，22，23]。大多数RGB-D数据集包含单个对象的扫描。例如，Redwood数据集[10]包含超过10，000个用类别标签注释的对象扫描，其中1，781个使用KinectFusion [59]重建。由于对象是在没有场景上下文的情况下孤立扫描的，因此数据集用于RGB- D场景理解的最早和最流行的数据集之一是NYU v2 [74]。它由464个短RGB-D序列组成，其中1449个帧已经用表示语义分割的2D多边形注释，如LabelMe [69]中所述。SUN RGB-D [75]通过收集10，335个用2D多边形和3D边界框标注的RGB-D帧来跟进这项工作。这些数据集具有与我们的数据集相当的场景多样性，但仅包括有限范围的视点，并且不提供完整的3D表面重建、密集的3D语义分割或大量的CAD模型对齐。第一批RGB-D数据集之一专注于长RGB-室内环境中的三维序列是SUN3D。它包含一组415个Kinect v1序列，其中包含254个唯一空间。尽管一些对象用2D多边形手动注释，并且8次扫描具有基于用户输入的估计相机姿态，但是大部分数据集不包括相机姿态、3D重建或语义注释。最近，Armeni et al.[3，2]介绍了一个室内数据集，其中包含使用自定义Matterport相机捕获的265个房间的3D网格，并使用语义注释手动标记。数据集是高质量的，但上限-[20]在http://www0.cs.ucl.ac.uk/staff/M.Firman/RGBDdatasets/上提供了对公开访问的RGB-D数据集的全面和详细的概述，该数据集定期更新。5830上传人群-采购语义标注检索+对齐三维重建分割RGB扫描图2. 概述我们的RGB-D重建和语义注释框架。左图：一位新手使用配备我们扫描界面的手持RGB-D设备扫描环境。中：RGB-D序列被上传到处理服务器，该处理服务器产生3D表面网格重建及其表面分割。右图：发布语义标注任务用于众包，以获得实例级对象类别标注和重建的3D CAD模型对齐。真正的流水线是基于昂贵的和不太便携的硬件。此外，仅提供融合点云作为输出。由于缺乏原始的颜色和深度数据，它的适用性的研究重建和场景理解从原始的RGB-D输入是有限的。与我们最相似的数据集是SceneNN [32]和PiGraphs[71]，它们分别由100和26个密集重建和标记的场景组成。注释直接在3D中完成[60，71]。然而，扫描和标记都只能由专家用户（即作者），限制了系统的可伸缩性和数据集的大小。相比之下，我们专门为未经培训的用户设计了易于使用的RGB-D采集框架，并通过众包进行了可扩展的处理。这使我们能够获得具有更多注释的更大数据集（目前，1513个序列被重建和标记）。3. 数据集采集框架在本节中，我们将重点介绍用于获取ScanNet数据集的框架的设计（图1）。2）的情况。我们讨论了在构建框架时的设计权衡，并中继发现哪些方法最适合大规模RGB-D数据收集和处理。我们设计框架的主要目标是允许未经训练的用户使用商品硬件捕获室内场景的语义标记因此，RGB-D扫描系统必须易于使用，数据处理鲁棒且自动，语义注释众包，并且通过跟踪服务器处理的系统的数据流3.1. RGB D扫描硬件. RGB-D传感器硬件有多种选择。我们需要部署到大量缺乏经验的用户，这需要一个便携式和低成本的RGB-D传感器设置。我们使用Structure传感器[63]，这是一种商品 RGB-D 传感器，设计类似于 MicrosoftKinect v1 。我们将此传感器连接到手持设备，如iPhone或iPad（见图1）。2左）-本文中的结果是使用iPad Air 2设备收集的。的iPad RGB摄像头数据通过硬件与深度传感器在时间上同步，和30Hz的彩色捕获。深度帧以640×480的分辨率和1296×968像素的我们默认启用自动白平衡和自动曝光。校准。我们对商品RGB-D传感器的使用需要深度数据的解扭曲以及深度和颜色数据的对齐。先前的工作主要集中在具有更精确的设备的受控实验室条件上，以通知商品传感器的校准（例如，Wang等人[87]）。然而，这对于新手用户来说并不实用。因此，用户只需要打印出棋盘图案，将其放置在大的平坦表面上，并捕获从近到远观察表面的RGB-D序列。该序列以及查看棋盘的一组红外和彩色帧对然后，我们的系统运行基于[84，14]的校准程序，以获得深度和颜色传感器的内部参数我们发现，这种校准过程是很容易为用户和改善数据的结果，从而增强重建质量。用户界面. 为了让未经培训的用户能够轻松捕捉视频，我们设计了一个iOS应用程序，其中包含一个简单的实时RGB-D视频捕捉UI（见图10）。2左）。用户提供当前扫描的名称和场景类型，并继续记录序列。在扫描期间，对数尺度RGB特征检测器点度量被示出为该功能对于为不熟悉3D重建算法的约束和限制的用户提供直观性至关重要存储. 我们将扫描作为压缩的RGB-D数据存储在设备闪存上，以便在扫描期间不需要稳定的互联网连接。用户可以在方便时通过按下“上传”按钮将扫描上传到处理服务器。我们的传感器单元使用128 GB的iPad Air2设备，允许录制数小时的RGB- D视频。实际上，瓶颈是电池寿命，5831比存储空间。深度记录为16位无符号短值，并使用标准zLib压缩进行存储。RGB数据编码的H.264编解码器具有高比特率为15 Mbps，以防止编码文物。除了RGB-D帧，我们还记录了惯性测量单元（IMU）数据，包括来自Apple SDK的加速度和角记录IMU、彩色和深度图像的时间戳。3.2. 曲面重构一旦数据从iPad上传到我们的服务器，第一个处理步骤是为所有RGB-D帧估计密集重建的3D表面网格和6-DoF相机姿势为了符合自动化和可扩展框架的目标，我们选择了有利于鲁棒性和处理速度的方法，使得上传的记录可以在接近实时的速率下进行处理，并有少量的监督。密集重建。我们使用体积融合[11]来执行密集重建，因为这种方法广泛用于商品RGB-D数据的背景下。有大量针对该场景的算法[59，88，7，62，37，89，42，9，90，38，12]。我们选择BundleFusion系统[12]，因为它是为与我们类似的传感器设置而设计和评估的，并且提供实时速度，同时在给定手持RGB- D视频数据的情况下具有合理的鲁棒性。对于每个输入扫描，我们首先以1 cm3的体素分辨率运行BundleFusion [12]。BundleFusion产生准确的姿态对齐，然后我们使用该姿态对齐通过体素哈希[62]执行体积积分，并使用隐式TSDF（4 mm3体素）上的Marching Cubes al-tism提取然后通过一组过滤步骤自动清理网格，以合并闭合顶点，删除重复和孤立的网格部分，最后将网格下采样为高，中，以及低分辨率版本（每个级别将面的数量减少两倍）。导向提取表面网格后，我们自动将其与所有摄像机姿势对齐到一个公共坐标系，其中z轴作为向上矢量，xy平面与地板平面对齐。为了执行这种对齐，我们首先提取足够大小的所有平面区域，合并由同一平面定义的区域，并按法线对它们进行排序（我们使用25μ m的法线阈值和5 cm的平面偏移阈值）。然后，我们通过将所有帧的IMU重力向量投影到第一帧的坐标中来确定上向量的先验这允许我们基于扫描边界框和与IMU向上矢量方向最相似的法线来选择地板平面最后，我们在网格顶点上使用PCA来确定围绕z轴的旋转并平移扫描，使得其边界在坐标系的正八分圆内。图3. 我们基于Web的众包界面，用于使用实例级对象类别标签注释场景。右侧面板列出了已在场景中使用匹配的绘制颜色注释的对象实例该注释在≈35%处进行，灰色区域指示未注释的表面。验证。当扫描上传到处理服务器并在无人监督的情况下运行时，将自动触发此重建过程。为了建立一个干净的快照来构建本文中报告的ScanNet数据集，我们自动丢弃短的、具有高残余重建误差或具有低对齐帧百分比的扫描序列然后，我们手动检查并丢弃具有明显未对准的重建。3.3. 语义标注在处理服务器生成重建之后，在Amazon MechanicalTurk众包市场上发布注释HIT（人工智能任务）。我们众包的两个HIT是：i）重建中所有表面的实例级对象类别标记，以及ii）与重建的3DCAD模型对准。这些注释是使用基于Web的接口众包的，以再次保持框架的整体可伸缩性。实例级语义标注。我们的第一个注释步骤是直接在每个重建的3D表面网格上获得一组对象实例级标签这与在RGB或RGB-D图像上使用2D多边形注释或3D边界框注释的许多先前工作形成对比。我们开发了一个WebGL界面，该界面将给定重建的低分辨率表面网格作为输入，并使用基于法线的图形切割方法对网格进行保守的过度分割[19，39]。然后，群组工作人员选择片段，以使用实例级对象类别标签进行注释（参见图2）。（3）第三章。要求每个工人在重建中注释至少25%的表面，并鼓励在提交之前注释超过 50% 。每个扫描由多个工作人员注释（ScanNet中的扫描由2个工作人员注释。平均3人设计此接口的一个关键挑战是没有任务经验的工作人员进行有效的注释，或一般的3D界面我们的界面使用了一个简单的绘画比喻，点击和拖动-5832统计[32]第三十二话ScanNet扫描次数1001513RGB-D帧2,475,9052,492,518楼面面积（平均/总平方米）22.6 2，124人22.6 34 453人表面积（平均/平方米）75.3 7，078人51.6 78，595人标签对象（平均值/总和）15.8/148224.1 36 213人图4. 众包界面，用于将CAD模型与重建中的对象对齐。可以点击对象来启动CAD模型的辅助搜索（见中间的书架列表）。建议的模型被放置在点击对象的位置，然后用户细化位置和方向。桌子、椅子和床头柜已经放在这里了。在曲面上进行着色会使用给定的标签和相应的颜色绘制线段。这功能类似于2D绘画，并允许擦除和修改现有的区域。另一个设计要求是允许自由形式的文本标签，以减少预先选择的标签列表的固有偏差和可伸缩性问题。与此同时，最好指导用户基本对象类型的一致性和覆盖范围。为了实现这一点，该接口提供了自动完成功能，覆盖之前由其他工作者提供的所有标签，这些标签超过了频率阈值（>5个注释）。工作人员始终可以添加任意文本标签，以确保覆盖范围并允许扩展标签集。一些额外的设计细节对于确保新手的可用性很重要。首先，一个简单的距离检查连通性是用来禁止标签的不连接的表面具有相同的标签。没有这种约束的早期实验导致两个不期望的偏差：通过用几个标签绘制许多表面，以及用相同的标签标记多个对象实例来欺骗。其次，数据的3D性质对新手用户来说是一个挑战。因此，我们首先展示每个重建的完整转盘旋转，并指导工作人员使用旋转转盘隐喻来改变视图。如果没有转盘旋转动画，许多工人只从初始视图进行注释，尽管提供了说明，但从未使用相机控件CAD模型检索和对齐。在第二个标注任务中，给予群组工作人员已经用对象实例标注的重建，并要求放置适当的3D CAD模型来表示场景中的主要对象。该任务的挑战在于从大型数据库中选择紧密匹配的3D模型，以及将每个模型精确地对准重建中相应对象的3D位置。我们实现了一个辅助对象检索接口表2. 与最相似的现有数据集（SceneNN [32]）相比，ScanNet的汇总统计量。 ScanNet的扫描数量级更高，3D表面网格重建覆盖了地板和表面面积的十倍以上，并具有超过36，000个注释对象实例。其中，点击重建中先前标记的对象，立即在ShapeNetCore [ 6 ]数据集中搜索具有相同类别标签的CAD模型，并放置一个示例模型，使其与点击对象的定向边界框重叠（见图10）。4）.然后，工作人员使用基于键盘和鼠标的控制来调整模型的对齐，并且一旦放置了至少三个CAD模型，就允许提交任务。使用该接口，我们收集了与每个ScanNet重建对齐的CAD模型集。初步结果表明，尽管这项任务的挑战性，工人选择语义适当的CAD模型，以匹配重建中的对象该接口的主要尽管ShapeNet CAD 模型数据集（55K对象）的多样性，但仍然很难找到椅子、桌子和更罕见的对象类别的精确实例级匹配。缓解这种限制的一种有希望的方法是通过算法建议候选检索和对齐的CAD模型，以便工作人员可以执行更容易的验证和调整任务。4. ScanNet数据集在本节中，我们总结了使用我们的框架收集的数据，以建立ScanNet数据集。该数据集是20个用户在几个国家的地点大约一个月的数据采集它有超过500名群众工作者在Mechanical Turk平台上的注释由于所呈现的框架以无监督的方式运行，并且人们不断收集数据，因此该数据集将继续有机地增长。在这里，我们报告了1513次扫描的初始快照的一些统计数据，总结在表2中。图图5绘制了扫描场景在不同类型的真实世界空间上的分布ScanNet包含各种空间，如办公室、公寓和浴室。该数据集包含从小到大（例如，浴室、壁橱、杂物间）到大的（例如，公寓、教室和图书馆）。每个扫描都使用实例级语义类别标签进行了注释，通过5833扫描仪#训练#测试#训练#测试对象分类ScanNet纽约大学场景神经网络120545270312801293053260377260661366语义体素标签ScanNet120131280554 21300图5.扫描在ScanNet中的分布按类型组织我们的众包任务我们总共部署了3，391个注释任务来注释所有1513个扫描。crowd worker用于注释对象实例的文本标签都映射到 NYU v2 [58] ， ModelNet [91] ， ShapeNet [6] 和WordNet [18] synset的对象类别集预处理通过同义词和拼写错误检测来折叠初始文本标签，从而使这种映射更加健壮除了重建和注释1513 ScanNet扫描，我们还使用我们的框架处理了所有NYU v2 RGB-D序列。其结果是一组密集重建的纽约大学v2空间与实例级对象注释在3D中，是互补的性质，以现有的基于图像的注释。我们还部署了CAD模型对齐众包任务，以收集总共107个虚拟场景解释，这些虚拟场景解释由106名工作人员放置在52个ScanNet扫描子集上的对齐ShapeNet模型组成共有681个CAD模型实例（296个唯一模型）被检索并放置在重建上，每个注释扫描平均有6.4个CAD模型实例。有关第一个ScanNet数据集快照的更详细统计信息，请参阅补充材料。5. 任务和基准在本节中，我们将介绍我们开发的三个任务，作为展示ScanNet数据价值的基准训练/测试分离统计。表3显示了在对象分类和密集体素预测基准的上下文中ScanNet的测试和训练分割请注意，我们的数据明显大于任何现有的可比数据集。我们使用这些任务来证明Scan-Net能够使用深度学习方法进行有监督训练的3D场景理解任务，并将性能与使用其他现有数据集的数据进行5.1. 3D对象分类随着大规模合成3D数据集的可用性，如[91，6]和3D深度学习的最新进展，表3. 用于对象分类和密集体素预测任务的训练/测试分割。请注意，实例的数量不包括旋转扩增。因此，研究已经开发出仅使用具有体积深度网的几何数据对物体进行分类的方法[91，82，52，13，66]。所有这些方法都基于纯合成数据进行训练，并专注于孤立的对象。尽管它们显示了对真实世界数据的有限评价，但在很大程度上缺少对现实扫描数据的更大评价。当训练数据是合成的并且测试是在真实数据上执行时，测试性能也存在显著差异，因为数据特性（诸如噪声和遮挡模式）本质上是不同的。通过ScanNet，我们缩小了这一差距，因为我们已经捕获了足够大量的3D数据，可以将真实世界的RGB- D输入用于训练集和测试集。对于此任务，我们使用ScanNet中注释对象的边界框，并隔离所包含的几何体。因此，我们获得每个对象实例周围的局部体积，我们知道注释的类别。该任务的目标是对由给定边界框内的一组扫描点表示对于这个基准测试，我们使用了17个类别，9677个训练实例和2606个测试实例。网络和培训。对于对象分类，我们遵循[66]的 3D网络中网络的网络架构为了对部分数据进行分类，我们将第二个通道添加到303占用网格输入，根据相机扫描轨迹指示已知和未知区域（分别为1和0如Qi et al.[66]，我们使用学习率为0的SGD求解器。01和动量0。9.每20个epoch将学习率衰减一半，并训练模型200个epoch。我们用12个不同旋转（包括仰角和倾斜）的例子来增加训练样本，得到了111660个样本的总训练集基准性能。作为基线评估，我们运行Qi等人的3D CNN方法。[66]。表4显示了不同训练集和测试集的3D形状分类性能。前两列显示ShapeNet [6]合成测试数据的结果，包括完整和部分数据。当然，使用ShapeNet的相应合成对应物进行训练可以提供最佳性能，因为数据特征是共享的。然而，更有趣的情况是真实世界的测试数据（对-5834两列）;在这里，我们展示了SceneNN [ 32 ]和ScanNet测试集的结果。首先，我们看到在合成数据上的训练只允许有限的知识转移（前两行）。其次，虽然相对较小的Sce-neNN数据集能够在其自身的数据集内学习到合理的程度，但它不能推广到ScanNet中发现的更大范围的环境。另一方面，ScanNet上的训练可以很好地转化为SceneNN上的测试;结果表明，使用ScanNet的训练数据，SceneNN的测试结果得到了显著改善。有趣的是，当将ScanNet的训练数据与ShapeNet的部分扫描（最后一行）混合时，这些结果可以略有改善。表4. 3D对象分类基准性能。百分比给出了每个测试集中所有模型的分类准确率（平均实例准确率）。5.2. 语义体素标注RGB数据上的常见任务是语义分割（即，用语义类标记像素）[49]。有了我们的数据，我们可以将这项任务扩展到3D，目标是在每个体素的基础上预测语义对象标签。预测每个可见3D体素的语义类的任务已经由一些先前的工作解决，但是使用手工制作的特征来预测少量的类[41，86]，或者专注于室外环境[8，5]。数据生成。我们首先对场景进行体素化，得到一个2cm3体素的密集体素网格，其中每个体素存储其TSDF值和对象类注释（空白空间和未标记的表面点有各自的类）。我们现在提取场景体积的子体积，尺寸为2×31×31×62，空间范围为1 .一、5米× 1。5m×3 m;即，体素大小为104。8cm3;两个通道表示占用率和已知/未知根据摄像机的运动轨迹。这些样本体与xy-地平面对齐。对于地面实况数据生成，体素标签从场景体素化传播到这些样本体。样品是cho-表示占用了≥2%的体素（即，在表面上），并且≥70%的这些表面体素具有有效的注释;不满足这些标准的样品被丢弃。在ScanNet中，我们生成了93，721个子体积样本用于训练，每个样本增加了8次旋转（即，七四九，七六八训练样本），来自1201个训练场景。此外，我们提取了18，750个样本体积用于测试，每个样本体积也增加了8次旋转（即，150，000个测试样本）。我们有20个对象类标签加上1个自由空间类。网络和培训。对于语义体素标记任务，我们提出了一个网络，该网络根据体素邻域的占用特性来预测场景中一列体素的类标签。为了输入整个场景的标签，我们使用网络在测试时预测每个体素列的标签（即，在表面上具有体素的每个XY位置）。网络需要作为2×31×31×62卷的输入，并使用一系列完全卷积层来同时预测班级分数对于62个体素的中心列我们对网络中的所有层（除了最后一层）使用ReLU和批量归一化为了解释类标签上的不平衡训练数据，我们用训练数据直方图的逆对数来加权交叉熵损失我们使用学习率为0的SGD求解器。01和动量0。9.每20个epoch将学习率衰减一半，并训练模型100个epoch。定量结果。该任务的目标是预测给定3D场景中所有可见表面体素的语义标签;也就是说，可见表面上的每个体素接收20个对象类标签中的一个。我们使用NYU2标签，并在表7中列出ScanNet上的体素分类结果。我们实现了一个体素分类的准确性为73.0%的312个测试场景，这是纯粹基于几何输入（没有使用颜色）。在表5中，我们显示了我们在NYU2数据集上的语义体素标记结果[58]。我们能够胜过使用我们的体积分类网络在有限的真实数据集上训练的复杂方法例如，Hermans et al.[31]使用密集随机决策森林结合连续随机场对RGB-D帧进行分类。此外，SemanticFusion [54]使用在RGB-D帧上训练的深度网络，并在帧的3D重建上用CRF正则化预测;注意，我们将其分类结果与CRF正则化之前的结果进行比较。SceneNet在大型合成数据集上进行训练，并在NYU2 上进行微调注意，与Hermans et al.和SemanticFusion，我们和SceneNet都不使用RGB信息。请注意，当测试体积在xy平面上滑动时，我们不会明确地强制相邻体素列之间的预测一致性。这可以通过[86]中使用的体积CRF [64]来实现;然而，我们在该任务中的目标仅关注每体素分类准确度。合成测试集真实测试集训练集ShapeNet ShapeNet部分场景NN ScanNetShapeNet92.537.668.239.5ShapeNet部分88.592.172.745.7场景神经网络19.927.769.848.2纽约大学26.226.672.753.2ScanNet21.431.078.874.9ScanNet +ShapeNet Par.79.789.881.276.65835地板壁椅子表窗口床沙发电视目标炉细胞avg.Hermans等人[三十一]91.571.841.927.746.168.428.538.48.637.183.449.4[54]第五十四话92.686.058.434.060.561.747.333.959.163.743.458.2[第28话]96.285.361.043.830.072.562.819.450.060.474.159.6我们的（ScanNet +NYU）99.055.867.650.963.181.467.235.834.665.646.260.7表5.NYU 2上的密集像素分类精度[58]。请注意，SemanticFusion [54]和Hermans et.al. [31]使用几何和颜色，以及Hermans et al.使用CRF，不像我们的方法，这是几何只有只有一元预测。所报告的SemanticFusion分类是在13类任务上（13类平均准确率为58。9%）。从ShapeNet训练前1个NN前3个NN因此，我们可以学习真实数据和合成数据之间的嵌入，以便为RGB-D执行模型检索ShapeNetScanNet百分之十点四百分之十二点七百分之八点零百分之十一点七扫描为此，我们使用体积形状分类-阳离子网络Qi et al.[66]我们用同样的训练ShapeNet + ScanNet百分之七十七点五77.0%程序如SEC。第5.1条检索最近的邻居表6. 3D模型检索基准性能。从ShapeNet-Core检索ScanNet对象的最近邻模型检索到的模型的平均实例精度表示查询区域。类测试场景精度地板35.7%90.3%壁百分之三十八点八百分之七十点一椅子百分之三点八百分之六十九点三沙发百分之二点五百分之七十五点七表百分之三点三百分之六十八点四门二点二48.9%内阁百分之二点四百分之四十九点八床百分之二点零62.4%书桌百分之一点七百分之三十六点八厕所百分之零点二百分之六十九点九水槽百分之零点二百分之三十九点四窗口百分之零点四百分之二十点一图片百分之零点二百分之三点四书架百分之一点六64.6%窗帘百分之零点七7.0%浴帘百分之零点零四百分之四十六点八计数器百分之零点六32.1%冰箱百分之零点三66.4%浴缸百分之零点二74.3%公司简介二点九厘百分之十九点五总-73.0%表7.ScanNet测试场景上的语义体素标签预测精度5.3. 三维物体检索另一项重要任务是检索给定（可能部分）RGB-D扫描的类似CAD为此，人们想要学习形状嵌入，其中特征描述器定义形状之间的几何相似性。核心思想是在形状分类任务上训练网络，其中形状嵌入可以作为分类任务的副产品例如，Wu et al.[91] Qi et al.[66]使用此技术在ShapeNet数据库中执行形状检索通过ScanNet，我们在真实世界的对象和ShapeNet模型之间建立了类别级别的对应关系这允许我们在分类问题上进行训练，其中真实和合成数据在每个类别内混合使用共享类别标签内的真实和合成数据5836基于所提取的特征de-脚本，并根据CAD模型检索任务提供的地面实况进行测量。在表6中，我们显示了使用来自ScanNet的对象查询来自ShapeNetCore的最近邻模型的对象检索结果。请注意，在ShapeNet和ScanNet上单独进行训练会导致检索性能较差，因为两者都无法弥合合成数据和真实数据的不同特征之间的差距。在ShapeNet和ScanNet上一起训练能够找到两种数据模式之间形状相似性的嵌入，从而提高检索准确性。6. 结论本文介绍 ScanNet ： 1513 次扫描的大规模RGB-D数据集，包括表面重建、实例级对象类别注释和3D CAD模型放置。为了使收集这些数据成为可能，我们设计了一个可扩展的RGB-D采集和语义注释框架，我们为社区的利益提供了这个框架。我们证明了到目前为止在ScanNet中收集的注释丰富的扫描数据在实现几个3D场景理解任务的最先进性能方面是有用的;我们希望ScanNet将在许多其他任务上启发未来的工作。致谢该项目由Google Tango，Intel，NSF（IIS-1251217和VEC 1539014/1539099）和斯坦福大学研究生奖学金资助。我们还要感谢Occipital捐赠的结构传感器和Nvidia捐赠的硬件，以及Max-Planck视觉计算中心和斯坦福大学CURIS项目的支持。此外，我们感谢Toan Vuong、Joseph Chang和Helen Jiang在移动扫描应用程序和扫描过程中提供的帮助最后但并非最不重要的是，我们要感谢所有帮助扫描并让我们进入扫描空间的志愿者。5837引用[1] A. Alberta，F.通巴里湖Di Stefano和M.文斯三维物体识别的全局假设验证方法。欧洲计算机视觉会议，第511-524页。Springer，2012. 2[2] I. Armeni，S.Sax，A.R. Zamir和S.Savarese 用于室内场景理解的联合 2d-3d 语义数据 arXiv 预印本 arXiv ：1702.01105，2017。2[3] I. 阿尔梅尼岛 Sener，A. R. Zamir，H. 江岛，澳-地布里拉基斯M. Fischer和S. Savarese大规模室内空间的三维语义解析。CVPR，2016年。一、二[4] I. B. 巴博萨M.Cristani，A.德尔布埃湖巴扎尼，维·穆里诺使用RGB-D传感器重新识别。在欧洲计算机视觉会议上，第433Springer，2012. 2[5] M. 布拉哈角 Vogel ， A. 理查德， J. D 。 Wegner ， T.Pock，以及K.辛德勒大规模语义3D重建：用于多类别体积标记的自适应多分辨率模型。在IEEE计算机视觉和模式识别会议论文集，第3176-3184页7[6] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人ShapeNet：信息丰富的3D模型库。arXiv预印本arXiv：1512.03012，2015。一、五、六[7] J.Chen，D. Bautembach和S.伊扎迪可扩展的实时体积表面重建。ACM Transactions on Graphics（TOG），32（4）：113，2013。4[8] I. 谢拉比河、C. 你好，M. R. Os wald和M. Pollefeys. 使用体素块的多标记语义3d重建。在3D视觉（3DV），2016年第四届国际会议上，第601-610页。IEEE，2016.7[9] S. Choi，Q.- Y. Zhou和V.科尔顿。室内场景的鲁棒重建。在 2015 年 IEEE 计算机视觉和模式识别会议（CVPR）中，第5556IEEE，2015年。二、四[10] S. Choi，Q.-Y. Zhou，S.Miller和V.科尔顿。对象扫描的大型数据集arXiv：1602.02481，2016。2[11] B. Curless和M.勒沃从距离图像建立复杂模型的体积法在第23届计算机图形和交互技术年会的会议记录中，第303-312页。ACM，1996年。4[12] A. 戴，M. Nießne r，M. Zoll oüfer，S. Izadi和C. 希奥博尔特 BundleFusion ：实时全球一致的三维reproximation使用上的飞行表面重新整合。arXiv预印本arXiv：1604.01093，2016。二、四[13] A.戴角，澳-地R. Qi和M.尼斯纳使用三维编码器预测器cnn 和形状合成的形状完成。 arXiv 预印本 arXiv ：1612.00101，2016年。6[14] M.迪奇科湖Iocchi和G.格里塞蒂深度传感器的非参数机器人和自主系统，74：309-317，2015。3[15] F. Endres，J. Hess，N.恩格尔哈德，J。Sturm、D.克莱姆斯，还有W. Burgard RGB-D SLAM系统的评估在机器人和自动化（ ICRA）， 2012

下载后可阅读完整内容，剩余1页未读，立即下载