3D-SIS：RGB-D扫描的3D语义实例分割

200 浏览量更新于2023-10-17 收藏 1.71MB PDF 举报

文件标签

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

44213D-SIS：RGB-D扫描的3D语义实例分割德国慕尼黑工业大学图1：3D-SIS对RGB-D扫描数据执行3D实例分割，学习将2D RGB输入特征与3D扫描几何特征联合融合。结合全卷积方法，可以在测试时对全3D扫描进行推理，我们可以实现对对象边界框、类标签和实例掩码的准确推理。摘要我们介绍了3D-SIS，一种新的神经网络架构，用于商品RGB-D扫描中的3D语义实例分割。我们方法的核心思想是从几何和颜色信号中联合学习，从而实现准确的实例预测。我们观察到大多数计算机视觉应用程序都有多视图RGB-D输入，而不是仅在2D帧上操作，我们利用它来构建一种用于3D实例分割的方法我们的网络通过基于3D重建的姿态对齐将2D图像与体积网格相关联来利用高分辨率RGB输入。对于每幅图像，我们首先用一系列二维卷积提取每个像素的二维特征;然后，我们将得到的特征向量反投影到3D网格中的相关体素。这种2D和3D特征学习的组合允许比最先进的替代方案显著更高的准确性对象检测和实例我们展示了合成和真实世界公共基准的结果，在真实世界数据上实现了超过13的mAP改进。1. 介绍语义场景理解对于许多现实世界的计算机视觉应用至关重要。它是实现交互性的基础，这是室内和室外环境中机器人技术的核心，例如自动驾驶汽车，无人机和辅助机器人，以及即将到来的使用移动和AR/VR设备的场景。在所有这些应用中，我们不仅需要单个图像的语义推理，而且重要的是，还需要理解3D环境中对象的空间关系和布局随着最近深度学习的突破和卷积神经网络的日益突出，近年来计算机视觉社区在分析图像方面取得了巨大具体来说，我们看到语义分割[19，13，21]，对象检测[11，26]和语义实例分割[12]任务的快速进展。这些令人印象深刻的作品的主要焦点在于对来自单个图像的视觉输入的分析;然而在许多现实世界的计算机视觉场景中，我们很少发现自己处于这样的单一图像设置中。相反，我们通常记录RGB输入序列的视频流，或者像许多机器人和AR/VR应用一样，我们使用3D传感器，如LIDAR或RGB-D相机。4422特别地，在语义实例分割的上下文中，考虑到必须在RGB输入帧的序列上找到实例关联，独立于单个图像运行方法是非常不利的相反，我们的目标是推断对象的空间关系作为语义3D地图的一部分，从所有输入视图和传感器数据联合学习空间一致的语义标签和底层3D布局的这个目标也可以被视为类似于传统的传感器融合，但从多个输入进行深度学习。我们相信，来自SLAM和视觉odom的鲁棒对齐和跟踪的RGB帧，甚至深度数据在这里，我们可以利用输入帧之间的给定映射，从而从所有输入模态中联合学习特征。在这项工作中，我们特别关注预测RGB-D扫描中的3D语义实例，其中我们捕获一系列RGB-D输入帧（例如，从Kinect传感器），计算6DoF刚性姿势，并重建3D模型。我们的方法的核心是从投影到3D的颜色特征和来自3D扫描的带符号距离场的几何特征中学习3D域中的语义特征。这是通过一系列3D卷积和ResNet块来实现的。从这些语义特征，我们得到锚定包围盒的建议。我们使用新的3D区域提议网络（3D-RPN）和3D感兴趣区域池化层（3D-RoI）来处理这些提议，以推断对象边界框位置、类标签和每个体素实例掩码。为了从RGB帧中共同学习，我们利用它们相对于体积网格的姿态对齐。我们首先运行一系列2D卷积，然后将结果特征反向投影到3D网格中。在3D中，我们在端到端训练中加入2D和3D特征，这些特征受到边界框回归、对象分类和语义实例掩码丢失的约束我们的架构是完全卷积的，使我们能够在一个镜头中有效地推断大型3D环境的预测与对单个RGB图像进行操作的最先进方法（例如Mask R-CNN [12]）相比，由于联合特征学习，我们的方法实现了更高的准确性。总而言之，我们的贡献如下：• 我们提出了第一种方法，利用几何和RGB输入的联合2D- 3D端到端特征学习进行3D对象边界框检测，3D扫描的语义实例分割。• 我们利用全卷积3D架构，例如在场景部分上训练的分割，但在大型3D环境中进行单次推理。• 我们的表现远远优于最先进的技术，在真实世界的数据上将mAP提高了13.5。2. 相关工作2.1. 目标检测和实例分割随着卷积神经网络架构的成功，我们现在已经看到了2D图像中对象检测和语义实例分割的令人印象深刻的进展[11，27，18，26，16，12，17]。值得注意的是，Ren et al.[27]引入了一种锚机制来预测区域中的对象，并在联合分类对象类型时回归相关的2D边界框。Mask R-CNN [12]通过预测每像素对象实例掩码将这项工作扩展到语义实例分割检测的另一个方向是流行的Yolo工作[26]，它也定义了图像网格单元上的锚点。随着越来越多的视频和RGB-D数据变得可用，2D对象检测和实例分割方面的这一进展激发了3D领域中的对象检测和分割工作。Song等人提出了滑动预测，以通过手工特征设计从单个RGB-D帧输入预测3D对象边界框[30]，然后扩展该方法以操作学习的特征[31]。后一个方向利用RGB帧输入来提高检测对象的分类精度;与我们方法相反，在RGB和几何之间没有用于联合特征学习的显式空间映射。Frus- tum PointNet [22]采用了另一种方法，其中检测是在2D帧中执行的Wang等人。[35]将他们的SGPN方法基于来自Point- Net++变体的语义分割。他们通过引入类似于全景分割背后的想法的相似性矩阵预测，将实例分割公式化为语义分割点云上的聚类问题[15]。与这些方法相比，我们显式地将多视图RGB输入与3D几何形状映射，以便以端到端的方式联合推断3D2.2. 3D深度学习近年来，我们看到3D深度学习的发展取得了令人印象深刻的进展。类似于2D域，可以在体积网格上定义卷积算子，例如，将表面表示嵌入为隐式符号距离场[4]。随着3D形状数据库[36，3，32]和注释RGB-D数据集[29，1，5，2]的可用性，这些网络架构现在用于3D对象分类[36，20，24，28]，语义分割[5，34，6]以及对象或场景完成[8，32，9]。体积网格的另一种表示是流行的基于点的架构，如 PointNet [23] 或PointNet++ [25]，它们利用了3D表面的更有效（尽管结构化程度较低）表示。多视图方法还4423已经提出利用RGB或RGB-D视频信息。Su等人提出了通过2D预测上的视图池进行对象分类的第一个多视图架构之一[33]，Kalogerakis等人。最近提出了一种通过将预测的2D置信度图投影到3D形状上来进行形状分割的方法，然后通过CRF将其聚集[14]。我们的方法将这些想法结合在一起，利用整体3D表示的功能以及2D信息的功能，通过显式的空间映射将它们结合起来。3. 方法概述我们的方法推断3D对象边界框的位置，类标签，和语义实例掩码上的每体素的基础上，在一个端到端的方式。为此，我们提出了一种神经网络，它可以从几何和RGB输入中联合学习特征。在下文中，我们将边界框回归和对象分类称为对象检测，将每个对象的语义实例掩码分割称为掩码预测。节中4、首先介绍了我们的方法所使用的数据表示和训练数据。在这里，我们考虑来自SUCG [32]的合成地面实况数据，以及来自ScanNetV2 [5]的手动注释的真实世界数据节中5、提出了3D-SIS方法的神经网络结构。我们的架构由几个部分组成;一方面，我们有一系列在扫描的3D数据的体素网格空间中操作的3D卷积。另一方面，我们学习2D特征，我们将其反向投影到体素网格中，在那里我们加入这些特征，从而共同从几何和RGB数据中学习这些特征用于检测对象实例;也就是说，通过3D-RPN回归相关联的边界框，并且针对3D-ROI池化层之后的每个对象预测类别标签。对于每个检测到的对象，来自2D颜色和3D几何形状的特征都被转发到每体素实例掩码网络中。检测和每体素实例掩码预测以端到端的方式进行训练。节中6，我们描述了我们的方法的培训和实施细节，并在第6节。7、我们评估我们的方法。4. 训练数据数据表示我们使用截断符号距离场（TSDF）表示来编码3D扫描输入的重构TSDF存储在具有3个体素截断的规则体积网格中。除了这个3D几何形状，我们还输入空间相关的RGB图像。这是可行的，因为我们知道基于来自相应3D重建算法的6自由度（DoF）姿态的3D场景网格中的每个图像像素与体素之间的映射。对于训练数据，我们将每个3D扫描细分为4.5m ×4.5m × 2.25m的块，每个块使用96 × 96 × 48体素的分辨率（每个体素存储TSDF值）;也就是说，我们的有效体素大小是104。69立方厘米。在我们的实验中，为了训练，我们将5个RGB图像关联到一个每个块中的分辨率为328x256像素，训练图像基于区域内实例的平均体素到像素覆盖率来选择。我们的架构是全卷积的（见第二节）。5），这允许我们在整个场景中运行我们的方法，一枪就能推断出来这里，xy体素分辨率是从给定测试场景的空间范围导出的。体素网格的z（高度）固定为48个体素（近似于房间的高度），体素大小也固定为4.69cm-3。此外，在测试时，我们使用所有RGB图像可用于推断。为了评估我们的算法，我们使用来自合成和真实世界RGB-D扫描数据集的训练、验证、测试数据。合成数据对于合成训练和评估，我们使用SUNC [32]数据集。我们遵循公共的训练/验证/测试划分，使用5519个训练、40个验证和86个测试场景（选择测试场景以获得总容量<600m3）。从训练和验证场景中，我们提取了97，918 个训练块和 625 个验证块。每个块平均包含1004。3个对象实例。在测试时，我们采取了完整的扫描数据的86个测试场景。为了从这些合成场景中生成部分扫描数据轨迹是按照[9]的虚拟扫描方法生成的，但适于提供更密集的相机轨迹，以更好地模拟真实世界的扫描场景。基于这些轨迹，我们然后通过体积融合生成部分扫描作为TSDF [4]，并基于相机姿态定义训练数据RGB到体素网格图像关联。我们使用23个类别进行实例分割，由它们的NYU 40类别标签定义;这些类别是为最频繁出现的对象类型选择的，忽略了没有明确定义实例的墙和地板类别。真实世界数据为了在真实世界场景中训练和评估我们的算法，我们使用ScanNetV2 [5]数据集。该数据集包含1513个场景的RGB-D扫描，包括1250万个RGB-D帧。扫描结果显示使用BundleFusion [7]重建;均为6 DoF姿态对准和重构模型是可用的。此外，每次扫描都包含3D网格上手动注释的从这些数据中，我们得到了3D边界框，我们使用它作为我们3D区域建议的约束。我们遵循ScanNet最初提出的1045（列车）、156（验证）、312（测试）4424图2：3D-SIS网络架构。我们的架构是由一个3D检测和一个3D掩模流水线。3D几何和2D彩色图像都被作为输入，并用于联合学习对象检测和实例分割的语义特征从3D检测骨干，颜色和几何特征被用来通过3D-RPN和3D-RoI层提出对象边界框及其类标签。除了3D检测结果之外，掩码主干还使用颜色和几何特征来预测3D边界框内的每体素实例掩码。场景，分别。从训练场景中，我们提取了108241块，从验证场景中，我们提取了995块。请注意，由于ScanNet数据集中可用的火车扫描数量较少，我们将火车扫描增加到每个有4我们采用与Scan-Net基准测试相同的18类标签集进行实例分割请注意，只要语义RGB-D实例标签可用，我们的方法对相应的数据集是不可知的5. 网络架构我们的网络架构如图所示。二、它由两个主要部分组成，一个用于检测，另一个用于每体素实例掩码预测;这些流水线中的每一个都具有其自己的特征提取主干。这两个主干都由一系列3D卷积组成，将3D扫描几何结构以及反向投影的RGB颜色特征作为输入。我们在第二节中详细介绍了RGB特征学习。5.1和第二节中的功能骨干。五点二。然后将检测和掩码骨干的学习的3D特征分别馈送到分类和体素实例掩码预测头中。该网络的对象检测组件包括检测主干、用于预测边界框位置的3D区域建议网络（3D-RPN）以及3D感兴趣区域（3D-RoI）池化层，然后是分类头。检测主干输出输入到3D-RPN和3D-RoI的特征，以分别预测边界框位置和对象类标签。通过将预定义的锚点与地面实况对象注释相关联来训练3D-RPN;这里，每锚丢失定义了对于给定锚是否存在对象。如果是，则第二损失回归3D对象绑定框;如果没有，则不考虑任何额外损失。此外，我们还对每个3D边界的对象类进行了盒子对于每体素实例掩码预测网络（参见第5.4），我们使用输入颜色和几何形状以及预测的边界框位置和类标签。裁剪后的要素通道用于创建遮罩预处理。具有用于所述n个语义类标签的n个通道的词，并且从这些通道中选择最终掩码预测使用先前预测的类别标签。我们使用二进制交叉熵损失优化实例掩码预测。请注意，我们联合训练骨干，边界框回归，分类和每体素掩码预测端到端;参见第二节。6更多细节在下文中，我们描述了我们的架构设计的主要组件，以获得关于确切滤波器大小等的更多细节，我们参考补充材料。5.1. RGB特征的反投影层为了从RGB和几何特征联合学习，可以简单地将单个RGB值分配给每个体素。然而，在实践中，由于存储器约束，RGB图像分辨率显著高于可用的3D体素分辨率这种2D-3D分辨率失配将使得从每体素颜色的学习相当低效。受Dai et al.[6]，我们利用一系列2D卷积来总结图像空间中的RGB信号。然后，我们定义一个反投影层，并将这些特征映射到相关的体素网格之上，然后将其用于对象检测和实例分割。为此，我们首先基于ENet架构预训练2D语义分割网络[21]。2D架构采用单个256×328RGB图像作为输入，并使用NYUv2 40标签集在语义分类损失上进行训练。从这个预训练的网络中，我们从编码器中提取了一个具有128个通道的32×41使用相应的深度4425图像、相机本征和6DoF姿态，然后将这些特征中的每一个反向投影回到体素网格（仍然128个通道）;投影是从2D像素到3D体素。为了组合来自多个视图的特征，我们通过在所有可用的RGB图像上进行元素最大池化来执行视图池化。对于训练，体素体积固定为96×96×48体素，从而在3D中产生128×96×96×48的反向投影RGB特征网格;在这里，我们使用5个RGB图像进行训练。每个训练块（具有基于平均3D实例覆盖率的图像选择在测试时，体素网格分辨率是动态的，由环境的空间范围给出;在这里，我们使用所有可用RGB图像。投影特征的网格由一组3D卷积处理，随后与几何特征合并。在ScanNet [5]中，提供了摄像机姿态和内在函数;我们直接将它们用于我们的反向投影层。对于SUNC[32]，外函数和内函数由虚拟扫描路径给出。请注意，我们的方法对所使用的2D网络架构是不可知的。5.2. 3D功能骨干为了联合学习实例检测和分割的几何和RGB特征第一个主干生成用于检测的特征，并将3D几何形状和反向投影的2D特征作为输入（参见第2节）。5.1）。几何输入和RGB特征在通过连接将它们连接在一起之前，都使用3D ResNet块进行对称处理。然后，我们应用3D卷积层将空间维度减少因子 4 ，然后是 3D ResNet 块（例如，对于一个96×96×48 的训练块，我们得到了一个大小为24×24×12的特征。然后，我们应用另一个3D卷积层，保持相同的空间维度，以提供fea。用更大的感受野绘制地图。我们在这两个特征图上定义锚点，将锚点分为<这对于获得体素实例预测的高精度至关重要。使用掩模特征图预测作为输入来预测最终实例掩模分割。与单主干相比，我们发现这种双主干结构更容易收敛，并且显著提高了实例分割性能（参见第二节）。有关骨干培训计划的详情，请参阅第6页5.3. 用于检测的3D区域建议和3D RoI池化我们的3D区域建议网络（3D-RPN）从检测骨干中获取输入特征，以预测和回归3D对象边界框。从检测骨干中，我们获得了两个小锚和大锚的特征图，它们分别由3D-RPN处理为每个在特征图中，3D-RPN使用1×1×1卷积层将信道维度减少到2×N个锚点，其中N锚点=（3，11），分别用于小锚点和大锚点这些代表了客观的积极和消极的分数-每一个锚的位置我们根据这些区域的客观分数对它们进行非最大然后，3D-RPN使用另一个1×1×1卷积层预测6× N锚点的特征图，这些锚点代表了3D边界框位置为（x，y，z，w，h，l），定义在等式2中。1.一、为了在训练过程中确定每个锚点的真实客观性和相关的3D边界框位置，我们执行锚点关联。锚通过其IoU与地面实况边界框相关联：如果IoU>0。35，我们认为锚是积极的（它将回归到相关的盒子），如果IoU <0。15，我们认为锚是负的（它不会回归到任何盒子）。我们使用两类交叉熵损失来衡量客观性，对于边界框回归，我们使用Huber损失对预测（Rax，Rax）进行预测，并与地面真值框和锚点的对数比率进行（gt，gt，gt，gt，gt，gt），其中较大感受野的特征图。对于选择锚，vy zwh l我们对前10k个块中的地面实况3D边界框应用k均值算法（k=14）这两个级别的特征图然后用于对象去重的最后步骤。∆x=µ− µ锚 φ锚100-100φφ锚）（1）检测：3D边界框回归和分类。实例分割主干还将3D几何形状和反向投影的2DCNN特征作为输入。首先用两个3D卷积独立地处理几何和颜色特征，然后逐通道地合并并用另外两个3D卷积处理注意，对于掩码主干，我们在所有卷积中保持相同的空间分辨率，我们发现其中μ是盒子中心点，φ是盒子宽度。使用预测的边界框位置，我们可以从全局特征图中裁剪出相应的特征然后，我们使用我们的3D感兴趣区域（3D-RoI）池化层将这些裁剪的特征统一到相同的维度。此3D-RoI池化图层池化裁剪要素通过最大池化操作映射为4×4×4块然后，这些要素块被线性化以输入到对象分类，这是用MLP执行的4426驾驶室床椅子沙发tabl门风德国广播公司Cntr 书桌机架风扇Curt drsr Mirr 电视 nigh辛劳水槽灯浴奥斯特尔奥弗恩奥普洛普avgSeg-Cluster16.8 16.2 15.6 11.8 14.5 10.011.727.220.0 25.7 10.00.015.00.020.0 27.8 39.5 22.9 10.7 38.9 10.40.012.316.4Mask R-CNN [12] 14.9 19.0 19.5 13.5 12.2 11.714.235.015.7 18.3 13.70.024.4 23.1 26.0 28.8 51.2 28.1 14.7 32.2 11.410.719.519.9SGPN [35]18.6 39.2 28.5 46.5 26.7 21.815.90.024.9 23.9 16.3 20.8 15.1 10.70.017.7 35.1 37.0 22.934.2 17.731.513.922.5我们的（仅限地理位置）23.2 78.6 47.7 63.3 37.0 19.60.00.021.3 34.4 16.80.016.70.010.0 22.8 59.7 49.2 10.0 77.2 10.00.019.326.8我们的（geo+1view）22.2 70.8 48.5 66.6 44.4 10.00.063.925.8 32.2 17.80.025.30.00.014.7 37.0 55.5 20.5 58.2 18.020.017.929.1我们的（geo+3views）26.5 78.4 48.2 59.5 42.8 26.10.030.022.7 39.4 17.30.036.20.010.0 10.0 37.0 50.8 16.8 59.3 10.036.417.829.4我们的（geo+5views）20.5 69.4 56.264.5 43.8 17.80.030.032.3 33.5 21.00.034.20.010.0 20.0 56.7 56.2 17.6 56.2 10.035.517.830.6表1：SUNC合成扫描的3D实例分割[32]。我们评估的平均精度与IoU阈值为0.25超过23类。我们的联合颜色-几何特征学习使我们能够实现更准确的实例分割性能。5.4. 逐体素3D实例分割我们使用单独的掩码主干执行实例掩码分割，该掩码主干类似于检测主干，将3D几何形状和投影RGB特征作为输入然而，对于掩模预测，3D卷积保持相同的空间分辨率，以便保持与原始输入的空间对应，我们发现这显著提高了性能。然后，我们使用来自3D-RPN的预测边界框位置从掩码主干中裁剪出相关的掩码特征，利用3D卷积来计算最终掩码预测，以针对n个语义类标签将所述特征维度降低到n;最终的掩模预测是预测的对象类C的第C个通道。在训练过程中，由于检测管道的预测可能是错误的，我们只训练其预测边界框与地面实况边界框重叠至少0的预测。5个借据。掩模目标被定义为地面实况框和建议框的重叠区域中的地面实况掩模。6. 培训为了训练我们的模型，我们首先训练检测骨干和3D-RPN。在对这些部分进行预训练之后，我们添加了3D-RoI池化层和对象分类头，并对这些部分进行端到端的训练。然后，我们添加每体素实例掩码分割网络以及相关的主干。在所有的训练步骤中，我们总是保留以前的损失（所有损失之间的比例为1：1），并端到端地训练所有内容。我们发现，顺序训练过程导致更稳定的收敛和更高的精度。我们使用SGD优化器，学习率为0.001，动量为0.9，3D-RPN的批量大小为64，分类器为16。阳离子，16用于掩模预测。学习率每10万步除以10。我们使用非最大值抑制建议箱，训练阈值为0.7，测试阈值为0.3。我们的网络使用PyTorch实现，并在单个Nvidia GTX1080Ti GPU上运行。网络的对象检测组件是端到端训练的持续10个时期（24小时）。在加入面具后，我们额外训练5个纪元（16小时）.对于掩码训练，我们还使用地面实况边界框来增强学习过程。7. 结果我们在3D检测和实体分割预测方面评估了我们的方法，并与几种最先进的方法进行了比较，对SUNC [32]数据的合成扫描和来自ScanNetV2数据集的真实世界扫描进行了比较[5]。为了与以前在单个RGB或RGB-D帧上操作的方法（Mask R-CNN [12]，Deep Sliding CNN[31]，Frustum PointNet [22]）进行比较，我们首先获得每个单独帧上的预测，然后在场景的3D空间中将所有预测合并在一起，合并预测。如果预测的类标签匹配并且IoU > 0，则会出现问题。五、我们进一步与执行实例的SGPN [35]进行比较3D点云的分割对于检测和实例分割任务，我们将所有结果投影到4的体素空间中。69cm体素，并使用平均平均精度度量对其进行评估我们还展示了我们的方法的几个变体，用于从颜色和几何形状中学习尝试功能，改变训练过程中使用的颜色视图的数量我们一直发现，在更多颜色视图上进行训练可以提高检测和实例分割性能。驾驶室床椅子沙发tabl门风德国广播公司pic Cntr 书桌 Curt 弗里格展示辛劳水槽浴奥弗恩avgMask R-CNN [12]5.30.20.210.72.04.50.60.023.8 0.20.02.16.50.02.01.433.32.45.8SGPN [35]6.539.0 27.5 35.1 16.88.713.816.91.42.90.06.92.70.043.8 11.2 20.84.314.3MTML2.761.4 39.0 50.0 10.5 10.00.333.70.00.00.111.8 16.714.357.04.666.72.821.23D-BEVIS [10]3.556.6 39.4 60.4 18.19.917.17.62.52.79.83.59.837.585.4 12.6 66.73.024.8R-PointNet [37]34.8 40.5 58.9 39.6 27.5 28.3 24.531.12.85.4 12.66.821.921.482.1 33.1 50.029.030.63D-SIS（我们的）13.4 55.4 58.7 72.8 22.4 30.7 18.131.90.60.012.10.054.1 100.0 88.94.566.721.036.2表2：官方ScanNetV2 3D语义实例基准测试的实例分割结果（隐藏测试集）。我们的最终模型（geo+5views）在4427mAP@0.5中显著优于以前的（Mask R-CNN，SGPN）和并发（MTML，3D-BEVIS，R-PointNet）最先进的方法。ScanNetV2基准数据于2018年12月17日访问。4428图3：ScanNetV 2上3D对象检测和实例分割的定性比较[5]（上面的全扫描;下面的特写）。我们的联合颜色-几何特征学习与我们的全卷积方法相结合，可以立即对完整的测试扫描进行推理，从而实现更准确和语义连贯的预测。请注意，不同的颜色表示不同的实例，并且地面实况和预测中的相同实例不一定是相同的颜色。4429驾驶室床椅子沙发 tabl 门风德国广播公司picCntr 书桌 Curt 弗里格展示辛劳水槽浴奥弗恩avgSeg-Cluster11.8 13.5 18.9 14.6 13.8 11.1 11.511.70.013.7 12.2 12.4 11.218.019.5 18.9 16.412.213.4Mask R-CNN [12] 15.7 15.4 16.4 16.2 14.9 12.5 11.611.819.5 13.7 14.4 14.7 21.618.525.0 24.5 24.516.917.1SGPN [35]20.7 31.5 31.6 40.6 31.9 16.6 15.313.60.017.4 14.1 22.20.00.072.9 52.40.018.622.2我们的（仅限地理位置）22.1 48.2 64.4 52.2 16.0 13.40.017.20.020.7 17.4 13.9 23.633.045.2 47.7 61.314.628.3我们的（geo+1view）25.4 60.3 66.2 52.1 31.7 27.6 10.116.90.021.4 30.9 18.4 22.616.070.5 44.5 37.520.031.8我们的（geo+3views）28.3 52.3 65.0 66.5 31.4 27.9 10.117.90.020.3 36.3 20.1 28.131.068.64166.824.035.3我们的（geo+5views）32.0 66.3 65.3 56.4 29.4 26.7 10.116.90.022.1 35.1 22.6 28.637.274.9 39.6 57.621.135.7表3：ScanNetV2 [5]上的3D实例分割，18个类上的mAP@0.25。我们明确利用3D几何形状和通过2D CNN提取的颜色特征之间的空间映射，可以显着提高性能。7.1. 合成扫描我们使用23个类别评估了从合成SUNC数据集[32]中获取的虚拟扫描表4示出了与在单帧上操作的现有技术方法相比的每帧3D检测。表1显示了我们的方法的定量评估，用于点云实例分割的SGPN[35]，他们提出的Seg-Cluster基线和投影到3D的Mask R-CNN [12对于这两个任务，我们的联合颜色几何方法以及在测试时的3D场景的全局视图使我们能够实现显着改善的检测和分割结果。mAP@0.25 mAP@0.5[30]第三十话Mask R-CNN 2D-3D [9][22]第二十二话12.820.424.96.210.510.8我们的-27.821.9我们的-30.923.8我们的-31.324.2我们的-32.224.7表4：SUCG [32]中的3D检测，使用23个类别的mAP。我们的整体方法和颜色和几何特征的组合导致显着改善的检测结果比以前的方法，对个别输入帧进行操作。7.2. 真实世界扫描我们在ScanNet数据集[5]上进一步评估了我们的方法，该数据集包含1513个真实扫描。对于训练和评估，我们使用ScanNetV2注释的地面实况以及建议的18类实例基准。我们在图3中显示了定性结果。在表5中，我们定量评估了我们对深度滑动神经网络和截头体PointNet的对象检测，它们在RGB-D帧上操作，以及投影到3D的Mask R-CNN [12]。我们的全卷积方法能够在完整的测试场景上进行推理，表3显示了我们的3D实例分割与SGPN实例分割[35]的比较，他们提出的Seg-聚类基线和Mask R-CNN [12]投影到3D中。我们从颜色和几何特征中学习的公式比现有技术有了显着的改进。mAP@0.25 mAP@0.5[30]第三十话Mask R-CNN 2D-3D [9][22]第二十二话15.217.319.86.810.510.8我们的-27.616.0我们的-35.118.7我们的-36.619.0我们的-40.222.5表5：ScanNetV2 [5]上的3D检测，使用超过18类的mAP。与以前的方法在单个帧上操作相比，我们的方法实现了显着改进的性能。最后，我们在ScanNetV 2 3D实例分割基准上对隐藏测试集进行了评估 ; 参见表 2 。我们的最终模型（geo+5views）在mAP@0.5中显著优于先前（Mask R-CNN [12]，SGPN [35]）和当前（MTML，3D-BEVIS[10]，R-PointNet [37]）最先进的方法。ScanNetV2基准数据于2018年12月17日访问。8. 结论在这项工作中，我们引入了3D-SIS，这是一种用于RGB-D扫描的3D语义实例分割的新方法，它以端到端的方式进行训练，以检测对象实例并推断每体素3D语义实例分割。我们的方法的核心是使用商品RGB-D传感器记录的多视图RGB-D输入，从RGB和几何数据中联合学习特征。该网络是完全卷积的，因此可以在大型3D环境中有效地运行。与通常在单个RGB帧上操作的现有最先进的方法相比，我们实现了更好的3D检测和实例分割结果，对mAP的改进超过13。我们认为，这是一个重要的洞察，以广泛的计算机视觉应用，因为他们中的许多人现在捕捉多视图RGB和深度流;例如，在一个实施例中，自动驾驶汽车、AR/VR应用等。致谢这项工作得到了谷歌研究基金、英伟达教授合作伙伴关系、 TUM 基金会 Fell-l 奖学金、 TUM-IASRudolfMo ？ ßbauerFell 奖学金和 ERCStartingGrantScan 2CAD（804724）的支持。4430引用[1] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。2[2] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的RGB- D数据中学习2017年3D视觉国际会议。2[3] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。2[4] Brian Curless和Marc Levoy。从距离图像建立复杂模型第23届计算机图形和交互技术年会论文集，第303-312页ACM，1996年。二、三[5] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。二、三、五、六、七、八[6] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合 3d 多视图预测。 arXiv 预印本 arXiv ：1803.10409，2018。二、四[7] AngelaDai ， MatthiasNießner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics （ TOG ）， 36 （ 3 ）： 24 ，2017。3[8] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。正在进行 IEEE 会议计算机视觉和模式识别（CVPR），第3卷，2017年。2[9] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete ：用于3D扫描的大arXiv预印本arXiv：1712.10215，2018。二、三[10] Cathrin Elich ， Francis Engelmann ， Jonas Schult ，Theodora Kontogianni，and Bastian Leibe. 3D-BEVIS：鸟瞰图实例分割。CoRR，abs/1904.02199，2019。六、八[11] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。一、二[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。一、二、六、八[13] 福里斯特·扬多拉、马特·莫斯凯维奇、谢尔盖·卡拉耶夫、罗斯·吉尔希克、特雷弗·达雷尔和库尔特·科伊策。Densenet：实现高效的convnet描述符金字塔。arXiv预印本arXiv：1404.1869，2014年。1[14] Evangelos Kalogerakis ， Melinos Averkiou ， SubhransuMaji，and Siddhartha Chaudhuri.三维形状分割与pro-4431射卷积网络Proc. CVPR，IEEE，2，2017.3[15] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。全视节段arXiv预印本arXiv：1801.00868，2018。2[16] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，201

下载后可阅读完整内容，剩余1页未读，立即下载