语义LiDAR数据集及其在自动驾驶中的应用

120 浏览量更新于2023-10-13 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1语义：一种用于LiDAR序列语义场景理解的数据集Jens Behley*Martin Garbade*Andres Milioto Jan Quenzel SvenBehnke Cyrill Stachniss Juergen Gall德国波恩大学www.semantic-kitti.org图1：我们的数据集为来自KITTI Odometry Benchmark [19]的所有序列的每次扫描提供了密集注释。在这里，我们示出了使用由SLAM方法估计的姿态信息聚合的多个扫描。摘要语义场景理解对于各种应用都很重要。特别地，自动驾驶汽车需要对其附近的表面和物体的细粒度理解。光探测和测距（LiDAR）提供有关环境的精确几何信息，因此几乎是所有自动驾驶汽车传感器套件的一部分。尽管语义场景理解与此应用相关，但缺乏用于此任务的基于汽车LiDAR的大型数据集在本文中，我们引入了一个大的数据集，以推动研究基于激光的语义分割。我们注释了KITTI视觉里程计基准的所有序列，并为所采用的汽车LiDAR的完整360o视场提供了密集的逐点注释基于此数据集，我们提出了三个基准任务(i) 使用单个扫描的点云的语义分割，（ii）使用多个过去扫描的语义分割，以及（iii）语义场景完成，其需要在将来考虑语义场景。我们提供了基线实验，并表明需要更复杂的模型来有效地处理这些任务。我们的数据集为开发更先进的方法打开了大门，但也为研究新的研究方向提供了丰富的数据。*表示等额缴款1. 介绍语义场景理解对于许多应用至关重要，并且是自动驾驶汽车的组成部分。特别地，由语义分割提供的细粒度理解对于区分可驾驶和不可驾驶表面以及推理功能特性（如停车区和人行道）是必要的。目前，以所谓的高清晰度地图表示的这种然而，自动驾驶汽车也应该能够驾驶在未映射的区域中，并在环境发生变化时调整其行为。目前，大多数自动驾驶汽车使用多种不同的传感器来感知环境。互补传感器模态能够应对特定传感器的缺陷或故障除了相机之外，还经常使用光检测和测距（LiDAR）传感器，因为它们提供不受照明影响的精确距离测量。公开可用的数据集和基准对于研究的实证评估至关重要。他们主要是... 填充三个目的：（i）它们提供了测量进展的基础，因为它们允许提供可再现和可比较的结果，（ii）它们揭示了现有技术的缺点，因此为新方法和研究方向铺平了道路，以及（iii）它们使得开发方法而不需要首先费力地收集和标记数据成为可能。虽然多个92979298扫描次数1#点2#类3传感器注释顺序SemanticKITTI（我们的）23201/203514549二十五（二十八）Velodyne HDL-64E逐点✓奥克兰3d [36]171.6五（四十四）SICK LMS逐点✗弗莱堡[50，6]771.1第四章（十一）SICK LMS逐点✗沃赫特贝格[6]50.4第五条（5）款Velodyne HDL-64E逐点✗[23]第二十三话15/154009八（八）地面激光扫描仪逐点✗巴黎-里尔3D [47]3143九（五十）Velodyne HDL-32E逐点✗Zhang等人[第六十五章]140/11232十（十）Velodyne HDL-64E逐点✗KITTI [19]7481/751817993Velodyne HDL-64E边界框✗表1：具有语义注释的其他点云数据集的概述。我们的数据集是迄今为止最大的序列信息数据集。1训练集和测试集的扫描次数，2点数以百万为单位，3用于评估的类的数量和括号中注释的类的数量。虽然存在用于基于图像的语义分割的大型数据集[10，39]，但是具有三维点云的逐点注释的公开可用数据集仍然非常小，如表1所示。为了缩小这一差距，我们提出了SemanticKITTI，一个大型数据集，显示了前所未有的细节，在逐点注释与28个类，这是适合于各种任务。在本文中，我们主要集中在基于激光的语义分割，但也语义场景完成。该数据集与其他激光数据集不同，因为我们提供了准确的序列扫描注释总体而言，我们注释了KITTI VisionBenchmark[19]的里程计基准的所有22个序列，包括超过43000次扫描。此外，我们标记了旋转激光传感器的完整水平360°图1显示了所提供数据集中的示例场景。总之，我们的主要贡献是：• 我们提出了一个逐点注释的点云序列的数据集，具有前所未有的数量的类和看不见的详细程度，为每次扫描。• 此外，我们提供了一个国家的最先进的点云语义分割方法• 我们调查使用的序列信息的语义分割使用多次扫描。• 基于移动汽车序列的注释，我们还引入了一个真实世界的数据集，用于语义场景完成，并提供基线结果。• 与基准网站一起，点云标记工具也是公开可用的，使其他研究人员能够在未来生成其他标记的数据集这个大数据集将刺激新算法的发展，使研究新的研究方向成为可能，并将这些新算法的评估和比较放在一个更坚实的基础上。92992. 相关工作计算机视觉的进步一直是由基准和数据集[55]驱动的，但是特别是大规模数据集的可用性，例如ImageNet[13]，甚至是深度学习出现的关键先决条件。还提出了面向自动驾驶汽车的更多特定任务数据集。值得注意的是KITTI Vi- sion Benchmark[19]，因为它表明现成的解决方案并不总是适合自动驾驶。Cityscapes数据集[10]是第一个用于自动驾驶汽车应用的数据集，它提供了大量适合深度学习的像素级标记图像。与Cityscapes相比，Mapillary Vistas数据集[39]超过了标记数据的数量和多样性。同样在基于点云的解释中，语义分割，基于RGB-D的数据集实现了巨大的进步。ShapeNet[8]对于显示单个对象的点云特别值得注意，但此类数据不能直接转移到其他领域。具体地，LiDAR传感器通常不像RGB-D传感器那样密集地覆盖对象，这是由于其较低的角分辨率，特别是在垂直方向上。对于室内环境，有几个数据集[48，46，24，3，11，35，32，12]可用，这些数据集主要使用RGB-D相机记录或合成生成。然而，与室外环境相比，这样的数据显示出非常不同的特性，这也是由环境的大小引起的，因为由于扫描对象的范围，在室内捕获的点云往往要密集得多。此外，传感器具有关于稀疏性和准确性的不同性质。虽然激光传感器比RGB-D传感器更精确，但与后者相比，它们通常只能捕获稀疏的点云。对于户外环境，最近提出了使用地面激光扫描仪（TLS）记录的数据集，如Semantic 3d数据集[23]，或使用自动LiDAR，如Paris-Lille-3D数据集[47]。然而，Paris-Lille-3D仅提供聚合扫描，930050个类的逐点注释，从中选择9个用于评估。另一个最近使用的用于自动驾驶的大型数据集[57]，但类别较少，尚未公开。虚拟KITTI数据集[17]提供了具有深度信息和密集像素注释的合成生成的序列图像。深度信息还可以用于生成点云。然而，这些点云并不显示与真实旋转LiDAR相同的特性，包括反射和异常值等缺陷。与这些数据集相比，我们的数据集组合了大量的标记点、各种各样的类别以及由在自动驾驶中使用的常用传感器生成的顺序扫描，这与所有公开可用的数据集不同，也在表1中示出。3. SemanticKITTI数据集路人行道停车车极植被地形后备箱建筑我们的数据集基于KITTI Vision Benchmark [19]的里程数据集，显示了内城交通，其他结构他物这是一个美丽的城市，不仅是住宅区，而且是德国卡尔斯鲁厄周围的高速公路和乡村道路。原始的odome-try数据集由22个序列组成，00至10作为训练集，11至21作为测试集。为了…与原来的基准一样，我们采用相同的我们的训练和测试集。此外，我们不通过仅为训练数据提供标签来干扰原始里程计基准。总的来说，我们提供了23201个用于训练的全3D扫描和20351个用于测试的全3D扫描，这使得它成为公开可用的最大数据集。我们决定使用KITTI数据集作为标记工作的基础，因为它使我们能够利用汽车捕获的原始点云数据的最大可用集合之一我们还期望在我们的注释和现有基准之间也存在潜在的同步，这将使得能够对广告研究方向进行调查和评估，例如基于激光的里程估计的语义的使用。与其他数据集相比（参见表1）中，我们提供了用常用的汽车 LiDAR 生成的顺序点云的标签，即，Velodyne HDL- 64E其他公开数据集，如Paris-Lille-3D[47]或Wachtberg[6]也使用这样的传感器，但仅分别提供整个采集序列的聚集点云或整个序列的一些单独扫描。由于我们提供了整个序列的单独扫描，因此还可以研究聚合多个连续扫描如何影响语义分割的性能，并使用该信息来识别移动对象。我们注释了28个类，其中我们确保了与MapillaryVistas数据集[39]和Cityscapes数据集[10]的类的大量重叠，并在不必要的地方进行了修改图2：单次扫描（顶部）和带标签的多次叠加扫描（底部）。还示出了在图像的中心处的移动的汽车，从而导致点的轨迹。需要考虑稀疏性和垂直视场。更具体地，我们不区分乘坐车辆的人和车辆，而是将车辆和人标记为骑自行车或骑摩托车的人。我们进一步区分了移动和不移动的车辆和人，即，如图2的下部所示，如果车辆或人在观察它们的同时在某个扫描中移动，则它们得到相应的移动类别。图3中列出了所有带注释的类，在补充材料中可以找到总的来说，我们有28个类，其中6个类被指定为移动或不移动的属性，并且一个异常值类被包括用于由反射或其它效应引起的错误激光测量。该数据集可通过基准测试网站公开获取，我们仅提供具有地面真实标签的训练集，并在线执行测试集评估。此外，我们还将限制可能的测试集评估的数量，以防止过度拟合测试集[55]。3.1. 贴标过程为了使点云序列的标记实用，我们将多个扫描叠加在彼此之上，这相反地允许我们一致地标记多个扫描为此，我们首先使用现成的基于激光的SLAM系统[5]注册并循环关闭序列由于惯性导航系统（INS）提供的信息经常导致地图不一致，即，经过一段时间后重新访问的街道有所不同-9301109108107106105图3：标签分布。显示每个类的标记点数和类的根类别。对于可移动类，我们还显示了非移动（实心条）和移动对象（阴影条）上的点数身高。对于三个序列，我们必须手动添加循环闭合约束以获得正确的循环闭合轨迹，因为这对于获得用于注释的一致点云至关重要。循环闭合姿势允许我们加载特定位置的所有重叠点云，并将它们可视化在一起，如图2所示。我们将点云序列细分为100m ×100 m的瓦片。对于每个图块，我们仅加载与图块重叠的扫描。这使我们能够一致地标记所有扫描，即使当我们遇到时间上遥远的循环闭合时。为了确保与多个图块重叠的扫描的一致性，我们显示每个图块内的所有点以及与相邻图块重叠的小边界因此，可以从相邻图块继续标签。根据最佳实践，我们编写了一个标签说明，并提供了有关如何标记某些对象（如靠近墙壁的汽车和自行车）的教学视频。与基于图像的注释相比，使用点云的注释过程更加复杂，因为注释者经常需要改变视点。一个注释者平均需要4个。5小时每瓦，当标签住宅区所对应的最复杂的遇到的风景，并需要平均1。贴一张高速公路瓷砖要5个我们明确地没有为KITTI数据集使用边界框或其他可用的注释，因为我们希望确保标签是一致的，并且逐点标签应该只包含对象本身。我们定期向注释者提供反馈，以提高标签的质量和准确性。然而，A摩托车手只发生很少，但仍然超过10万点被注释。类的不平衡计数对于在自然环境中捕获的数据集是常见的，并且一些类将总是表示不足，因为它们不会出现-10。因此，不平衡的类分布是方法必须解决的问题的一部分。总的来说，类之间的分布和相对差异在其他数据集中非常相似，例如。城市景观[10]。4. 语义分割在本节中，我们提供了几个国家的最先进的方法进行语义分割的一次扫描的评价我们还提供了利用由多次扫描的序列提供的信息的实验。4.1. 单次扫描实验任务和指标。在点云的语义分割中，我们希望推断出每个三维点的标签因此，所有评估方法的输入都是三维点的坐标列表以及它们的重现，即，反射激光束的强度取决于被撞击表面的性质然后，每种方法都应该为扫描的每个点输出一个标签，即，旋转LiDAR传感器的一整圈。为了评估标记性能，我们依赖于所有类上常用的平均Jaccard指数或平均交集-并集（mIoU）度量[15]，由下式单个注释者还在第二遍中验证标签，即，纠正了不一致并添加了缺失的标签。总的来说，整个数据集包括518个切片及以上1摄氏度Cc=1TPc，（1）TPc+FPc+FNc投入了1400个小时的标签工作，加上每个瓷砖10−60分钟的验证和纠正，总共超过1700个小时。3.2.数据集统计数据图3显示了不同类的分布，其中我们还将根类别作为标签包含在x轴上。地面类、道路、人行道、建筑物、植被和地形是最常见的类。类其中TPc、FPc和FNc对应于类别c的真阳性、假阳性和假阴性预测的数量，并且C是类别的数量。由于类其他结构和其他对象要么只有几个点，否则太多样化，类内变化很大，我们决定不将这些类包括在评估中。因此，我们使用了25个类而不是28个类，忽略了异常值、其他结构和其他对象在训练和推理中。1例评价忽略地面结构车辆性质人类对象数量的点人行道路他地停车其他结构1建筑车卡车摩托车自行车其他车辆植被后备箱地形自行车人摩托车手围栏交通标志极其他对象1Outlier19302此外，我们不能期望通过单次扫描来区分移动物体和非移动物体，因为这种Velo- dyne LiDAR不能像利用多普勒效应的雷达那样测量速度。因此，我们将移动类与相应的非移动类相结合，总共有19个类用于训练和评估。最新技术水平。点云的语义分割或逐点分类是一个长期存在的话题[2]，传统上使用特征提取器（如SpinImages [29]）结合传统分类器（如支持向量机[1]或甚至语义散列[4]）来解决。许多方法使用条件随机场（CRF）来强制相邻点的标签一致性[56，37，36，38，62]。随着基于图像的分类中的深度学习方法的出现，特征提取和分类的整个流水线已经被端到端深度神经网络所取代基于体素的方法将点云转换为体素网格，然后将卷积神经网络（CNN）与3D卷积应用于对象分类[34]和语义分割[26]，这是最早研究的模型之一，因为它们允许利用图像已知的架构和见解。为了克服基于体素的表示的局限性，例如当体素网格的分辨率增加时爆炸性的存储器消耗，最近的方法要么使用CRF对体素预测进行上采样[53]，要么使用不同的表示，如更有效的空间细分[30，44，63，59，21]，渲染2D imm。年龄视图[7]，图表[31，54]，splats [51]，甚至直接[41，40，25，22，43，28，14]。基线方法。我们提供了六种最先进的体系结构的结果，用于我们数据集中的点云的语义分割：PointNet[40] ， PointNet++[41] ， Tangent Convolutions [52] ，SPLATNet [51] ， Superpoint Graph [31] 和 SqueezeSeg（V1和V2）[60，61]。此外，我们研究了SqueezeSeg的两个扩展：暗-Net 21 Seg和DarkNet 53 Seg。PointNet [40]和PointNet++ [41]使用原始无序点云数据作为输入。这些方法的核心是最大池化，以获得一个顺序不变的操作符，该操作符在形状的语义分割和其他几个基准测试中表现得非常好。然而，由于这种性质，PointNet无法捕获要素之间的空间关系。为了缓解这一问题，PointNet++[41]将单个PointNet应用于本地社区，并使用分层方法来组合其输出。这使它能够构建复杂的分层特征，捕获本地细粒度和全局上下文信息。Tangent Convolutions [52]还通过在表面上直接这是通过假设从光滑表面采样数据，并将切向卷积定义为应用于局部表面在切平面中的每个点处的投影的卷积。SPLATNet [51]采用类似于上述体素化方法的方法，并以高维稀疏网格表示点云。与基于体素的方法一样，这种方法在计算和存储器成本方面的扩展性都很差，因此它们通过使用双边卷积[27]来利用这种表示的稀疏性，双边卷积仅对占用的晶格部分进行操作。与PointNet类似，Superpoint Graph [31]通过将几何均匀的点组汇总为超级点来捕获局部关系，超级点随后被局部PointNet嵌入。结果是利用超点之间SqueezeSeg [60，61]还以一种方式离散化点云，使得可以利用旋转LiDAR的传感器几何形状将2D卷积应用于点云数据。在旋转LiDAR的情况下，可以通过使用球面投影将单圈的所有点投影到图像。应用完全卷积神经网络，然后最终用CRF过滤以平滑结果。由于SqueezeSeg和快速训练的有希望的结果为此，我们使用了基于暗网架构[42]的不同主干，分别具有21层和53层以及2500万和5000万个参数。我们还消除了架构中使用的垂直下采样。我们修改了可用的实现，以便可以在我们的大规模数据集上训练和评估这些方法。请注意，到目前为止，这些方法中的大多数仅在形状[8]或RGB-D室内数据集[48]上进行了评估然而，一些方法[40，41]只是可能的，由于内存限制，无法以相当大的下采样到50000点运行结果和讨论。表2显示了我们直接使用点云信息[40，41，51，52，31]或点云投影[60]的各种方法的基线实验结果表明，目前的点云语义分割技术水平与我们的数据集的大小和复杂性不符。我们认为这主要是由所使用的架构的有限容量引起的（参见表3），因为这些方法的参数数量远低于领先的基于图像的语义分割网络中使用的参数数量如上所述，我们添加了DarkNet21Seg和DarkNet53Seg来测试这一假设，结果表明，这种简单的修改将准确率从29.5%用于SqueezeSeg，四十七4%的DarkNet21Seg和49. 9%的DarkNet53Seg。9303方法Miou路人行道停车他地建筑车卡车自行车摩托车其他车辆植被后备箱地形人自行车摩托车手围栏极交通标志PointNet [40]14.661.635.715.81.441.446.30.11.30.30.831.04.617.60.20.20.012.92.43.7SPGraph [31]17.445.028.50.60.664.349.30.10.20.20.848.927.224.60.32.70.120.815.90.8SPLATNet [51]18.464.639.10.40.058.358.20.00.00.00.071.19.919.30.00.00.023.15.60.0[41]第四十一话20.172.041.818.75.662.353.70.91.90.20.246.513.830.00.91.00.016.96.08.9[60]第六十话29.585.454.326.94.557.468.83.316.04.13.660.024.353.712.913.10.929.017.524.5[61]第六十一话39.788.667.645.817.773.781.813.418.517.914.071.835.860.220.125.13.941.120.236.3[52]第五十二话40.983.963.933.415.483.490.815.22.716.512.179.549.358.123.028.48.149.035.828.5DarkNet21Seg47.491.474.057.026.481.985.418.626.226.515.677.648.463.631.833.64.052.336.050.0DarkNet53Seg49.991.874.664.827.984.186.425.524.532.722.678.350.164.036.233.64.755.038.952.2表2：序列11至21（测试集）上所有基线的单次扫描结果（19个类别）。除序列08用作验证集外，所有方法均在序列00至10上进行训练。进近次数参数（百万）. 列车时刻表GPU小时数时代我参考时间秒点云4030201010 15 20 25 30 35 40 45 50与传感器的距离[m]图4：IoU与距离传感器。另一个原因是Li- DAR生成的点云相对稀疏，特别是随着到传感器的距离增加。这在SqueezeSeg中得到了部分解决，它利用旋转扫描仪捕获数据的方式来生成密集范围图像，其中每个像素大致对应于扫描中的一个点。在图4中进一步分析了这些效应，其中mIoU相对于.到传感器的距离。结果表明，随着距离的增加，各种方法的结果都变差。这进一步证实了我们的假设，即稀疏性是大距离下结果较差的主要原因。然而，研究结果也表明，一些方法，如SP-图，受距离相关稀疏性的影响较小，这可能是未来研究的一个有前途的方向，以结合这两种范式的力量。特别是例子很少的类，如摩托车手和卡车，似乎对所有方法都更困难但是，在单个点云中只有少量点的类（如自行车和电线杆）也是困难类。最后，性能最好的方法（DarkNet53Seg）具有49.9%的mIoU仍然远远没有达到与基于图像的方法相当的结果，在Cityscapes基准上达到80%[10]。PointNet340. 516.第五届世界杯足球赛9SPGraph0. 2565 2切线转换0。四六三。0SPLATNet0. 881. 0SqueezeSeg10.500150.60022520. 0555030. 1表3：方法统计。4.2.多次扫描实验任务和指标。在这个任务中，我们允许方法从多个过去扫描的序列中提取信息，以改善当前扫描的分割。我们还需要区分运动类和非运动类的方法，必须预测所有25个类，因为该信息在多次过去扫描的时间信息中应该是可见的。该任务的评估度量仍然与单次扫描情况相同，即，我们评估当前扫描的平均IoU，而不管使用了多少过去的扫描来计算结果。基线。我们通过将5个扫描组合成单个大点云来利用顺序信息，即，在时间戳t的当前扫描和在时间戳t-1 ， . . . ， t−4 。我们评估了 DarkNet53Seg 和TangentConv，因为这些方法可以处理更大的在不对点云进行下采样的情况下，仍然可以在合理的时间内训练点的数量结果和讨论。表4显示了可移动类的每类结果和所有类的平均IoU（mIoU）对于每种方法，我们在该行的上部显示非移动对象的IoU（无阴影），并在该行的下部显示移动对象的IoU（阴影）。的PointNetPointNet++SPGraphSPLATNet切线转换挤压分段挤压SegV2DarkNet21SegDarkNet53Seg平均IoU [%]9304进近切线转换[52]DarkNet53Seg34.141.6记录它们的背面，由于自遮挡，这些背面在初始扫描中被隐藏。这正是语义场景完成所需的信息，因为它包含所有对象的完整3D几何形状，而它们的语义由我们的密集注释提供。数据集生成。通过在汽车前方的预定义区域中叠加详尽数量的未来激光扫描，我们可以生成对应于语义场景完成任务作为表4：使用多次过去扫描的序列的IoU结果(in%）的比例。阴影单元对应于移动类的IoU，而非阴影条目是非移动类。其余静态类的性能类似于单次扫描结果，我们参考包含所有类的表的补充投影方法比基于点的方法表现得更好的总体趋势仍然是明显的，这也可以归因于如在单次扫描情况下的更大量的参数。这两种方法在分离移动和非移动对象时都显示出困难，这可能是由于我们的设计决策将多个扫描聚合到单个大点云中造成的。结果表明，特别是骑自行车的人和骑摩托车的人从来没有得到正确分配的非移动类，这是最有可能的结果，从一般稀疏的对象点云。我们期望新的方法可以通过使用多个输入流到架构或甚至递归神经网络来明确地利用顺序信息来计算时间信息，这可能再次打开一条新的研究路线。5. 语义场景补全在利用一系列过去的扫描进行语义点云分割之后，我们现在展示一个利用未来扫描的场景。由于其连续性，我们的数据集提供了独特的机会，以扩展为3D语义场景完成的任务。请注意，这是该任务的第一个真实世界户外基准测试。现有的点云数据集不能用于解决这个任务，因为它们不允许聚合在空间和时间上都足够密集的标记的点云。在语义场景完成中，一个基本问题是获得真实世界数据集的地面真实标签。在NYUv 2 [48]的情况下，使用Kinect传感器捕获的RGB-D图像将CAD模型拟合到场景中[45]。新的方法经常诉诸于在更大的但合成的SUNC数据集上证明其有效性[49]。然而，结合合成数据集的规模和真实世界数据的使用的数据集仍然缺失。在我们提出的数据集的情况下，携带LiDAR的汽车移动经过场景中的3D对象，从而由Song等人提出。[49]，我们用于场景完成任务的数据集是3D场景的体素化表示。我们选择了51卷。车前2米25. 每边6米，每边6. 4米高，体素分辨率为0的情况。2m，这将产生256×256×32体素的体积预测。我们根据每个体素分配一个标签对体素内的所有标记点进行多数表决。不包含任何点的体素标记为空。为了计算哪些体素属于被遮挡的空间，我们通过跟踪射线来检查汽车的每个姿势哪些体素对传感器是可见的。一些体素，例如。那些在物体内或墙后的东西是永远不可见的，所以我们在训练和评估时忽略它们。总的来说，我们提取了19130对输入和目标体素网格用于训练，815用于验证，3992用于测试。对于测试集，我们只提供未标记的输入体素网格，而不提供目标体素网格。图5示出了输入和目标对的示例。任务和指标。在语义场景完成中，我们感兴趣的是从单个初始扫描预测特定体积内的完整场景。更具体地说，我们使用体素网格作为输入，其中每个体素被标记为空或占用，这取决于它是否包含激光测量。对于语义场景完成，需要预测体素是否被占用及其在完成的场景中的语义标签。对于评价，我们遵循Song等人的评价方案。[49]并计算用于场景完成任务的IoU，其仅将体素分类为被占用或空，即，忽略语义标签，以及在用于单扫描语义分割任务的相同19个类上的语义场景完成任务的mIoU（1）（参见第4节）。最新技术水平。早期的方法在没有预测语义[ 16 ]的情况下解决场景完成的任务，从而不提供对场景的整体理解，或者通过尝试将固定数量的网格模型拟合到场景几何结构[20]，这限制了方法的表达能力。Song等人[49]是第一个以端到端的方式解决语义场景完成任务的公司。他们的工作在该领域产生了很大的兴趣，产生了将颜色和深度信息结合起来的车卡车其他车辆人自行车摩托车手Miou84.921.118.51.60.00.040.342.230.16.41.11.984.120.020.77.50.00.061.537.828.915.214.10.29305图5：左：语义场景完成基准的不完整输入的可视化。请注意，我们显示标签只是为了更好的可视化，但真正的输入是一个没有任何标签的原始体素网格。右：对应的目标输出，表示已完成且完全标记的3D场景。[33，18]或解决稀疏3D fea的问题。通过引入子流形卷积[64]或通过部署多级粗到细训练方案[12]来提高输出分辨率。其他作品使用新的编码器-解码器CNN架构进行了实验，并通过添加对抗性损失分量来改进损失项[58]。基线方法。我们报告的结果，四个se-mantic场景完成的方法。在第一种方法中，我们应用没有翻转TSDF的SSCNet [49]作为输入特征。这对性能的影响最小，但由于更快的预处理而显著加快了训练时间[18]。然后，我们使用双流（TS3D）方法[18]，该方法利用来自与输入激光扫描对应的RGB图像的附加因此，RGB图像首先由2D语义分割网络处理，使用在Cityscapes上训练的方法DeepLab v2（ResNet-101）[9在早期融合中组合来自单激光扫描的深度信息和从RGB图像推断的标签。此外，我们分两步修改TS 3D方法：首先，直接使用最好的基于LiDAR的语义分割方法（DarkNet 53Seg）的标签，其次，通过SATNet交换3D-CNN主干[33]。结果和讨论。表5显示了每个基线的结果，而补充报告中报告了单个类别的结果。TS3D网络包含RGB图像的2D语义分割，其表现类似于仅使用深度信息的SSCNet。然而，直接在点云上工作的最佳语义分割的使用在语义场景完成（TS3D + DarkNet53Seg）上稍微优于SSCNet。请注意，前三种方法基于SSCNet的3D-CNN架构，该架构在前向传递中执行4倍下采样，从而使它们无法处理场景的细节。在我们的最终方法中，我们将TS3D + DarkNet53Seg的SSCNet骨干与SATNet[33]交换，SATNet能够处理所需的输出分辨率。由于完成（IoU）语义场景完成（mIoU）SSCNet [49]29.839.53TS3D [18]29.819.54[18]第十八话24.9910.19TS3D [18]+ DarkNet53Seg + SATNet50.6017.70表5：语义场景完成基线。由于内存限制，我们在训练过程中使用随机裁剪。在推理过程中，我们将每个体积分成六个相等的部分，分别对它们进行场景完成，然后将它们融合。这种方法比基于SSCNet的方法执行得更好。除了处理目标分辨率之外，当前模型的一个挑战是远场中激光输入信号的稀疏性，如图5所示。为了在远场中获得更高分辨率的输入信号，方法将必须更有效地利用来自与每次激光扫描一起提供的高分辨率RGB图像的信息。6. 结论与展望在这项工作中，我们已经提出了一个大规模的数据集，显示前所未有的规模点云序列的逐点注释。我们为三个任务提供了一系列不同的基线实验：（i）使用单次扫描的语义分割，（ii）使用多次扫描的语义分割，以及（iii）语义场景完成。在未来的工作中，我们计划在整个序列上提供实例级注释，即我们希望在扫描中区分不同的对象，而且还随着时间的推移识别相同的对象。这将使得能够调查序列上的时间实例分割。然而，我们也看到了其他新的任务的基础上，我们的标签的努力，如语义SLAM的评估潜力。致谢我们感谢所有帮助注释数据的学生。这项工作得到了德国研究基金会（DFG）的资助。根据 FOR 1505 Mapping on Demand ， BE 5996/1-1 ， GA1927/2-2，以及根据Germans Excellence Strategy，EXC- 20709306引用[1] AnuraagAgrawal，AtsushiNakazawa和HaruoTakemura 。三维距离数据的 MM 分类在 proc IEEEIntl.Conf. on Robotics& Automation（ICRA），2009. 5[2] Dragomir Anguelov，Ben Taskar，Vassil Chatalbashev，Daphne Koller ， Dinkar Gupta ， Geremy Heitz ， andAndrew Ng. 马尔可夫随机场的判别学习用于3D扫描数据的分割。在 IEEE Conf. 计算机视觉和模式识别（CVPR），第169-176页，2005年。5[3] 放大图片创作者：Alexander Sax. Zamir和Silvio Savarese用于室内场景理解的联合2D-3D语义数据。arXiv预印本，2017年。2[4] Jens Behley ， Kristian Kersting ， Dirk Schulz ， VolkerSteinhage，and Armin B.克莱姆斯学习散列逻辑回归以实现快速3D扫描点分类。在proc IEEE/RSJ Intl.智能机器人和系统（IROS），第5960-5965页，2010年。5[5] Jens Behley和Cyrill Stachniss。在城市环境中使用3D激光测距数据的高效基于Surfel的SLAM。在Proc. of Robotics中：科学与系统（RSS），2018年。3[6] Jens Behley，Volker Steinhage和Armin B.克莱姆斯城市环境中三维激光测距数据在proc IEEE Intl.Conf. 机器人&自动化（ICRA），2012年。二、三[7] Alexandre Boulch，Joris Guerry，Bertrand Le Saux，andNicolas Audebert. SnapNet：3D点云语义标记与2D深度分割网络。计算机图形，2017年。5[8] 天使 X 放大图片创作者： Michael J. Guibas 、 PatHanrahan、Qixing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学、普林斯顿大学和芝加哥丰田技术研究所，2015年。二、五[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， Kevin Murphy ， and Alan L. 尤尔。DeepLab ： Semantic Image Segmentation with DeepConvolutional Nets ， Atrous Convolution ， and FullyConnected CRFs. IEEE Transactions on Pattern Analysisand Machine Intelligence （ PAMI ）， 40 （ 4 ）： 834-848，2018。8[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的城市景观数据集。在IEEE Conf.计算机视觉和模式识别（CVPR），2016年。二三四六[11] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet：室内场景的丰富注释的3D重建。在IEEE Conf.计算机视觉和模式识别（CVPR），2009年。2[12] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.ScanComplete：面向3D的扫描在IEEE Conf.计算机视觉和模式识别（CVPR），2018。二、八[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在 IEEE Conf. 计算机视觉和模式识别（CVPR），2009年。2[14] Francis Engelmann ， Theodora Kontogianni ， JonasSchult，and Bastian Leibe.知道你的邻居在做什么：点云的三维语义分割。arXiv预印本，2018年。5[15] Mark Everingham ， S.M. Ali Eslami ， Luc van Gool ，Christo-pher K. I.Williams ， John Winn ， and AndrewZisserman.Pascal Visual Object

下载后可阅读完整内容，剩余1页未读，立即下载