没有合适的资源?快使用搜索试试~ 我知道了~
11108RandLA-Net:大规模点云胡庆勇1,杨波1,谢林海1,Ste fanoRosa1,顾玉兰2,3,王志华1,Niki Trigoni1,Andrew Markham11牛津大学、2中山大学、3国防科技firstname. cs.ox.ac.uk摘要我们研究了大规模三维点云的高效语义分割问题。由于依赖于昂贵的采样技术或计算量大的预/后处理步骤,大多数现有方法仅能够在小规模点云上进行训练和操作。在本文中,我们介绍了RandLA-Net,一个高效和轻量级的神经架构,直接推断每点语义的大规模点云。我们的方法的关键是使用随机点采样,而不是更复杂的点选择方法。尽管值得注意的是PointNet++(2.4s)我们的(0.04s)SPG(10.8秒)地面实况计算和存储效率高,随机采样可以偶然丢弃关键特征。为了克服这一点,我们引入了一种新的局部特征聚合模块,以逐步增加每个3D点的感受野,从而有效地保留几何细节。大量的实验表明,我们的RandLA-Net可以处理1 mil-狮子点在一个单一的通行证高达200倍的速度比以前的做法。 此外,我们的RandLA网络显然可以-在两个大型基准Semantic 3D和Se- manticKITTI上通过了最先进的语义分割方法。1. 介绍大规模3D点云的有效语义分割是自动驾驶和增强现实等实时智能系统的基本和必要能力。一个关键的挑战是深度传感器获取的原始点云通常是不规则采样的、非结构化的和无序的。尽管深度卷积网络在结构化2D计算机视觉任务中表现出出色的性能,但它们不能直接应用于这种类型的非结构化数据。最近,开创性的工作PointNet [43]已经成为直接处理3D点云的有前途的方法。它使用共享的*通讯作者图1.PointNet++的语义分割结果[44],SPG[26]和我们对SemanticKITTI的方法[3]。我们的RandLA-Net仅需0.04s即可直接处理3D空间中150×130×10米的105个点的大型点云,比SPG快200倍红色圆圈突出了我们的方法的优越分割精度。多层感知器(MLP)。这在计算上是有效的,但无法为每个点捕获更广泛的上下文信息。为了学习更丰富的局部结构,许多专用的神经模块随后被迅速引入。这些模块一般可分为:1)相邻特征池化[44,32,21,70,69],2)图消息传递[57,48,55,56,5,22,34],3)基于内核的卷积[49,20,60,29,23,24,54,38],和4)注意-基于聚合[61,68,66,42]。尽管这些方法在对象识别和语义分割方面取得了令人印象深刻的结果,但几乎所有这些方法都局限于极小的3D点云(例如,4k点或1×1米块)并且不能直接扩展到更大的点云(例如,数百万个点和高达200×200米)而无需预处理步骤,例如块划分。的这种限制的原因有三方面。1)这些网络常用的点采样方法要么计算昂贵,要么内存不足。例如,广泛使用的最远点采样[44]需要200秒以上的时间来采样100万个点的10%111092) 大多数现有的局部特征学习器通常依赖于计算上昂贵的核化或图构造,从而无法处理大量的点。3) 对于通常由数百个对象组成的大规模点云,现有的局部特征学习器要么无法捕获复杂的结构,要么由于其有限的接收场大小而效率低下。最近的一些工作已经开始解决直接处理大规模点云的任务。SPG [26]在应用神经网络学习每个超点语义之前,将大型点云预处理为超级图。FCPN [45]和PCT [7]都将体素化和点级网络相结合来处理大规模的点云。虽然它们实现了不错的分割精度,但预处理和体素化步骤计算量太大,无法在实时应用中部署。在本文中,我们的目标是设计一个记忆和计算效率高的神经架构,它能够直接处理大规模的三维点云在一个单一的,而不需要任何预/后处理步骤,例如体素化、块分割或图形分割。然而,这项任务极具挑战性,因为它要求:1)一种内存和计算效率高的采样方法,用于逐步对大规模点云进行下采样,以适应当前GPU的限制,以及2)一种有效的局部特征学习器,用于逐步增加接收场大小,以保留复杂的几何结构。为此,我们首先系统地证明了随机采样是深度神经网络有效处理大规模点云的关键因素。然而,随机采样可能会丢弃关键信息,特别是对于具有稀疏点的对象。为了应对随机采样的潜在不利影响,我们提出了一个新的和有效的局部特征聚合模块,以捕获复杂的局部结构逐渐变小的点集。在现有的采样方法中,最远点采样和逆密度采样最常用于小规模点云[44,60,33,70,15]。由于点采样是这些网络中的一个基本步骤,我们在第3.2节中研究了不同方法的相对优点,我们发现常用的采样方法限制了对大型点云的缩放,并成为实时处理的一个重要瓶颈。然而,我们认为随机采样是迄今为止最适合大规模点云处理的组件,因为它快速且有效地扩展。随机采样不是没有代价的,因为突出的点特征可能会被偶然丢弃,并且它不能在不引起性能损失的情况下直接用于前向网络。为了克服这个问题,我们在3.3节中设计了一个新的局部特征聚合模块,它能够通过逐步增加每个神经层中的感受野大小来在部分-通常,对于每个3D点,我们首先引入局部空间编码(LocSE)单元以显式地保留局部几何结构。其次,我们利用专注池来自动保留有用的本地功能。第三,我们将多个LocSE单元和关注池叠加为扩张的残差块,大大增加了每个点的有效接收场。请注意,所有这些神经组件都是作为共享的MLP实现的,因此具有显著的内存和计算效率。总体而言,基于简单随机采样和有效局部特征聚集器的原则,我们的高效神经架构RandLA-Net不仅比现有的大规模点云方法快200倍,而且还超过了最先进的语义。在Semantic 3D [17]和Se-manticKITTI [3]基准上的tic分割方法。图1显示了我们的方法的定性结果。我们的主要贡献是:• 我们分析和比较了现有的采样方法,确定随机采样是大规模点云有效学习的最合适的组成部分。• 我们提出了一个有效的局部特征聚合模块,通过逐步增加每个点的感受场来保留复杂的局部结构。• 我们展示了显著的内存和计算增益超过基线,并超越了最先进的自我,Mantic分割方法在多个大规模基准上的应用。2. 相关工作为了从3D点云中提取特征,传统方法通常依赖于手工制作的特征[11,47,25,18]。最近的基于学习的方法[16,43,37]主要包括基于投影、基于体素和基于点的方案,这里概述了这些方案。(1) 投影和体素网络。 为了利用2D CNN的成功,许多作品[30,8,63,27]将3D点云投影/粘贴到2D图像上以解决对象检测的任务。然而,几何细节可能会在投影过程中丢失。或者,点云可以被体素化为3D网格,然后在[14,28,10,39,9]中应用强大的3DCNN。虽然它们在语义分割和对象检测方面取得了领先的结果,但它们的主要限制是计算成本高,特别是在处理大规模点云时。(2) 基于点的网络。受Point-Net/PointNet++ [43,44]的启发,许多最近的作品引入了复杂的神经模块来学习每个点的局部特征。这些模块通常可以分类为1)相邻特征池[32,21,70,69],2)图形消息传递,ing [57,48,55,56,5,22,34,31],3)基于内核的convo-[2019- 04 -19 00:00:00][2019- 04 - 19 00:00:00][2019- 04- 19 00:00]11110基于聚合[61,68,66,42]。尽管这些网络在小的点云上显示出有希望的结果,但是由于它们的高计算和存储成本,它们中的大多数不能直接扩展到大的场景。与它们相比,我们提出的RandLA-Net在三个方面有所区别:1)它仅依赖于网络内的随机采样,从而需要少得多的存储器和计算; 2)所提出的局部特征聚合器通过显式地考虑局部空间关系和点特征,可以获得连续更大的接收域,从而对学习复杂的局部特征更加有效和鲁棒;3)整个网络仅由共享的MLP组成,而不依赖于任何昂贵的操作,如图构建和核化,因此对于大规模点云非常有效。(3) 学习大规模点云。SPG [26]将大型点云预处理为超点图以学习每个超点语义。最近的FCPN [45]和PCT[7]应用基于体素和基于点的网络来处理大量点云。然而,图分区和体素化两者都是计算上昂贵的。我们的RandLA-Net是端到端可训练的,无需额外的预/后处理步骤。3. RandLA-Net3.1. 概述如图2所示,给定一个具有数百万个点的大规模点云,跨度高达数百米,要用深度神经网络处理它,不可避免地需要在每个神经层中逐步有效地对这些点进行下采样,而不会丢失有用的点特征。在我们的RandLA-Net中,我们建议使用简单快速的随机采样方法来大大降低点密度,同时应用精心设计的局部特征聚合器来保留突出的特征。这使得整个网络能够在效率和有效性之间实现良好的平衡。因此,我们分析和比较它们的相对优点和复杂性如下。(1) 启发式抽样• 法拉第点采样(FPS):为了采样大规模点云P中的K个点,N点, FPS返回度量空间{p1···pk···pK},使得每个pk都是距离前k−1个点最远的FPS在[44,33,60]中被广泛用于小点的语义分割集.虽然它有一个很好的覆盖整个点集,其计算复杂度为O(N2)。对于一个大规模的点云(N=106),FPS在一个GPU上处理需要200秒.这表明FPS是不适合大规模的点云。• 反密度重要性抽样(IDIS):为了从N个点中采样K个点,IDIS根据每个点的密度对所有N个点进行重新排序,然后顶部选择K点[15]。它的计算复杂度近似为O(N)。根据经验,处理10个6点需要10秒。与FPS相比,IDIS更有效,但对离群值更敏感。然而,它对于在实时系统中使用仍然太慢。• 随机采样(RS):随机采样从原始N个点中均匀地选择K个点。它的计算复杂度是O(1),这与输入点的总数无关,即,它是恒时的,因此固有的可扩展性。与FPS和IDIS相比,随机采样具有最高的计算效率,无论输入点云的规模如何。处理106个点仅需0.004s。(2) 基于学习的抽样• 基于发生器的采样(GS):GS [12]学习生成一个小的点集来近似表示原始的大点集。然而,FPS通常用于以便在推理阶段将生成的子集与原始集合进行匹配,从而导致额外的计算。在我们的实验中,它需要长达1200秒的采样106点的10%。N 105N 102• 基于连续松弛的采样(CRS):CRS方法[1,66]使用重新参数化技巧来放松图2.在RandLA-Net的每一层中,大规模的点云都被显著地下采样,但能够保留精确分割所需的特征。3.2. 对有效取样的追求现有的点采样方法[44,33,15,12,1,60]可以大致分为启发式和学习式。将采样操作转换为连续域进行端到端训练。特别地,基于全点云上的加权和来学习每个采样点。它的结果在一个大的权重矩阵采样时,所有的新点同时与一个通过矩阵乘法,导致一个负担不起的内存成本。例如,估计需要超过300 GB的内存占用来对106个点的10%进行采样。基于方法。然而,目前还没有标准的sam-适用于大规模点云的填充策略。1除非另有说明,否则我们使用第3.4节中的相同硬件。局部特征聚合随机抽样局部特征聚合随机抽样11111106我我我局部空间编码(LocSE)g(f^k,W)注意力集中我S输入点要素(p、f)相对点位置编码{pk}(K,3){rk}我{fi}^K{si}K~f聚合特征我我我(K,d)K共享MLP我(1、3 +d){fk}(1,(K,2d)(K,2d)(K,2d)(N,(N,3 +d){pk,fk}我我我(K,3 +d)(K,d)输入点要素(N,3)共享LocSEMLP(N,dout/2)(N,dout)注意力集中(N,dout/2)(N,3)LocSE(N,dout)共享注 意 合并(N,d输出)扩张残余阻滞勒勒卢聚合特征共享MLP(N,2d输出)(N,din)(N,2d输出)MLP(N,2d输出)串联3D坐标点特征点积注意力分数注意力特征SSoftmax总聚合的特征K K近邻图3.提出了局部特征聚合模块。顶部面板示出了提取特征的位置空间编码块,以及基于局部上下文和几何形状对最重要的相邻特征进行加权的注意池化机制下图显示了这些成分中的两个如何链接在一起,以增加残留块内的感受野大小• 基于策略梯度的采样(PGS):PGS将采样操作公式化为马尔可夫决策过程,cess [62].它顺序地学习概率分布来采样点。然而,当点云很大时,由于极大的探索空间,学习概率具有高方差。比如对sam来说如果只取1 06点的10%,则其探索空间为C105,不可能学习到有效的抽样策略。我们根据经验发现,如果PGS用于大型点云,则网络很难收敛。总的来说,FPS、IDIS和GS在计算上过于复杂,所有相邻点,使得对应的点特征总是知道它们的相对空间位置。这允许LocSE单元明确地观察局部几何图案,从而最终使整个网络受益,以有效地学习复杂的局部结构。具体而言,该单元包括以下步骤:查找相邻点。对于第i个点,其相邻点首先通过简单的K-最近邻(KNN)算法来收集,以提高效率。KNN基于逐点欧氏距离。相对点位置编码。 对于每一个近-设中心点pi的K个点{p1···pk···pk},我我我适用于大规模点云。 CRS AP-将相对点位置显式编码如下:路径占用过多的内存,而PGS很难学。相比之下,随机抽样具有以下特点-rk=MLP.Σk k kpip(pi− p)||pi− p||(一)我它有两个优点:1)它具有显著的计算性我我我由于它对输入点的总数是不可知的2)它不需要额外的存储器用于计算。因此,我们可以得出结论,随机抽样是迄今为止最合适的方法来处理大规模的点云相比,所有现有的替代品。然而,随机采样可能导致许多有用的点特征被丢弃。为了克服这个问题,我们提出了一个强大的局部特征聚合模块,如下一节所示。其中p i和p k是点的x-y-z位置,k是级联运算,并且||·||计算相邻点和中心点之间的欧几里得距离。它似乎rk是从冗余点位置编码的。有趣的是,这往往有助于网络学习局部特征,并在实践中获得良好的性能。点特征增强。针对每个相邻点pk,编码的相对点位置rk是一致的。我我与其对应的点特征fk链接,获得-3.3. 局部特征聚合如图3所示,我们的局部特征聚合模块并行应用于每个3D点,它包括我对一个增广特征向量kk.最终,LocSE单元的输出是一组新的相邻特征Fi={f1· ··fk· ··fK},其中ex-我我我三个神经单元:1)局部空间编码(LocSE),暂时性合并; 3)扩张的残余阻滞。(1) 局部空间编码给定点云P连同每点特征(例如,原始RGB或中间学习特征),该局部空间编码单元明确地嵌入planetary对中心波因特皮岛我们注意到最近的工作[36]也使用点位置来改进语义分割。然而,在[36]中,位置用于学习点得分,而我们的LocSE显式地编码相对位置以增强相邻点特征。11112我我我(2) 注意力集中该神经单元用于聚集相邻点特征集Fi。现有的工作[44,33]通常使用最大/平均池化以硬集成相邻特征,导致大部分信息丢失。相比之下,我们转向强大的注意力机制来自动学习重要的局部特征。特别是,受[65]的启发,我们的专注池单元包括以下步骤。计 算 注 意 力 得 分 。给 定 局 部 特 征 集Fi={f1· ··fk· ··fK},我们设计了一个共享函数g()来学习每个特征的唯一注意力分数。巴-通常,函数g()由共享的MLP和softmax组成。其正式定义如下:sk=g(k,W)(2)图4.放大的残差块的图示显著增加了每个点的接收场(虚线圆圈),彩色点表示聚合特征。L:局部空间编码,A:注意力集中。总的来说,我们的局部特征聚合模块被设计为通过以下方式有效地保留复杂的局部结构我我明确考虑相邻的几何形状和符号,其中W是共享MLP的可学习权重。加权求和。 学习的注意力分数可以被视为自动选择重要特征的软掩模。形式上,这些特征加权求和如下:ΣK积极增加接受领域。此外,该模块仅由前馈MLP组成,因此计算效率高。3.4. 执行我们通过堆叠多个本地节点来实现RandLA-Netf=(我我我k=1总而言之,给定输入点云P,对于第i个点p i,我们的LocSE和Attentive Pooling单元学习聚合其K个最近点的几何模式和特征,并最终生成信息特征向量fi。(3) 扩张残余阻滞由于大的点云将被大幅下采样,因此期望显著增加每个点的接收场,使得输入点云的几何细节更有可能被保留,即使一些点被丢弃。如图3所示,受成功的ResNet[19]和有效的扩张网络[13]的启发,我们将具有跳过连接的多个LocSE和Attentive Pooling单元堆叠为扩张的残差块。为了进一步说明我们的扩张残差块的能力,图4显示红色3D点观察到 在第一次LocSE/Attentive Pooling操作之后,K个相邻点,然后能够从多达K2个相邻点接收信息,即它的两跳邻居在第二个之后。这是一种通过特征传播来扩大接收场和扩展有效邻域的廉价方法。从理论上讲,我们堆叠的单位越多,这个方块的威力就越大,因为它的范围越来越大。然而,更多的单位将不可避免地牺牲整体计算效率。此外,整个网络可能会过度拟合。在我们的RandLA-Net中,我们简单地将两组LocSE和Attentive Pooling堆叠为标准残差块,从而在效率和有效性之间实现令人满意的平衡。特征聚合模块和随机采样层。详细架构见附录。我们使用带有默认参数的Adam优化器。初始学习率被设置为0.01,并且在每个时期之后降低5%。最近点的数量K被设置为16。培养我们的RandLA-Net并行,我们从每个点云中采样固定数量的点(10105)作为输入。在测试过程中,整个原始点云被输入到我们的网络中,以推断每个点的语义,而无需进行预/后处理,如 几 何 分 区 或 块 分 区 。 所 有 实 验 都 在 NVIDIARTX2080Ti GPU上进行。4. 实验4.1. 随机抽样在本节中,我们对现有抽样方法的效率进行了实证评估,包括FPS、IDIS、RS、GS、CRS和PGS,这些方法已在第3.2节中讨论过。具体而言,我们进行了以下4组实验。• 1组给定一个小规模的点云(103个点),我们使用每种采样方法逐步向下-具体来说,点云通过五步进行下采样,在单个GPU上的每一步中仅保留25%的点,即四倍抽取率。这意味着最后只剩下<$(1/4)5×103个 这种下采样策略模拟了在PointNet++中使用的过程[44]。对于每种采样方法,我们总结了它的时间和内存消耗进行比较。L AL A11113总时间(秒)参数(百万)最大推理点(百万)[43]第43话我的世界1920.80.49[44]第四十四话98310.970.98[33]第三十三话8142110.05SPG [26]435840.25-KPConv [54]71714.90.54RandLA-Net(我们的)1851.241.03表1.在SemanticKITTI[3]数据集的Sequence08上进行语义分割的不同方法的计算时间、网络参数和最大输入点数。(a)(b)第(1)款图5.不同采样方法的时间和内存消耗。虚线表示由于有限的GPU存储器而估计的值。• 第2/3/4组。点的总数向大规模增加,即,大约104、105和106点分别我们使用与第1组相同的五个采样步骤。分析. 图5比较了处理不同比例点云的每种采样方法的总时间和内存消耗。由此可以看出:1)小规模点云(10003),所有采样方法往往具有相似的时间和内存消耗,不太可能导致沉重或有限的计算负担。2)对于大规模的点云( 1000×106 ) , FPS/IDIS/GS/CRS/PGS 要 么 非 常 耗时,要么内存开销很大。与之相比,随机抽样具有优越的时间和记忆效应。整体效率。这一结果清楚地表明,大多数现有网络[44,33,60,36,70,66]只能在小块点云上进行优化,主要是因为它们依赖于昂贵的采样方法。受此启发,我们在RandLA网络中使用了有效的随机抽样策略。4.2. RandLA-Net的效率在本节中,我们系统地评估了RandLA-Net在真实世界大规模点云上进行语义分割的整体效率。特别地,我们在SemanticKITTI [3]数据集上评估RandLA-Net,获得我们的网络在Sequence 08上的总时间消耗,其中共有4071个点云扫描。我们还在同一数据集上评估了最近的代表作品[43,44,33,26,54为了公平比较,我们馈送相同数量的点(即,81920)从每次扫描到每个神经网络中。此外,我们还评估了RandLA-Net的内存消耗和基线。特别是,我们不仅报告每个网络的参数总数,而且还测量每个网络可以在单次通过中作为输入以推断每个点语义 注意,所有实验都是在同一台机器配备AMD 3700X@3.6GHz CPU和NVIDIARTX 2080 Ti GPU。分析. 表1定量地示出了不同方法的总时间和存储器消耗。 可以看出,1)SPG [26]具有最少的网络参数,但由于昂贵的几何划分和超图构造步骤,需要最长的时间来处理点云; 2)PointNet++[44]和PointCNN [33]也是计算昂贵的,主要是因为FPS采样操作; 3)PointNet[43]和KPConv [54]无法获取超大规模的点云(例如,106点)在一个单一的通行证,由于他们的内存效率低下的操作。4)由于简单的随机抽样以及有效的基于MLP的本地特征聚合器,我们的RandLA-Net需要最短的时间(平均185秒,4071帧→大约22 FPS)来推断每个大规模点云(最多106个点)的语义标签。4.3. 基于基准的在本节中,我们评估了RandLA-Net在三个大规模公共 数 据 集 上 的 语 义 分 割 : 室 外 Semantic 3D [17] 和SemanticKITTI [3],室内S3 DIS [2]。(1) Semantic3D的评价Semantic3D数据集[17]由15个用于训练的点云和15个用于在线测试的点云组成。每个点云最多有108个点,在真实世界的3D空间中覆盖高达160×240×30米。原始3D点属于8类,包含3D坐标,RGB信息和强度。我们只使用3D坐标和颜色信息来训练和测试我们的RandLA网络。所有类别的平均交并比(mIoU)和总体精度(OA)用作标准度量。为了公平比较,我们仅包括最近发布的强基线[4,52,53,46,69,56,26]和当前最先进的方法KPConv [54]的结果。表2给出了不同方法的定量结果。RandLA-Net在mIoU和OA方面明显优于所有现有方法。值得注意的是,RandLA- Net还在八个中的六个上实现了卓越的性能11114mIoU(%)OA(%)人造的自然点高级蔬菜低素建筑硬花葶扫描艺术汽车SnapNet [4]59.188.682.077.379.722.991.118.437.364.4SEGCloud [52]61.388.183.966.086.040.591.130.927.564.3RF MSSF [53]62.790.387.680.381.836.492.224.142.656.6[46]第四十六话65.388.483.067.283.836.792.431.350.078.2ShellNet [69]69.393.296.390.483.941.094.234.743.970.2GACNet [56]70.891.986.477.788.560.694.237.343.577.8SPG [26]73.294.097.492.687.944.083.231.063.576.2KPConv [54]74.692.990.982.284.247.994.940.077.379.7RandLA-Net(我们的)77.494.895.691.486.651.595.751.569.876.8表2.Semantic3D上不同方法的定量结果(reduced-8)[17]。只有最近公布的方法进行比较。于二零二零年三月三十一日查阅。方法大小[43]第四十三话361.635.715.81.441.446.30.11.30.30.831.04.617.60.20.20.012.92.43.7西班牙足球甲级联赛[26]0.2545.028.50.60.664.349.30.10.20.20.848.927.224.60.32.70.120.815.90.8SPLATNet [49]5万例患者 十八点四0.864.639.10.40.058.358.20.00.00.00.071.19.919.30.00.00.023.15.60.0[44]第四十四话672.041.818.75.662.353.70.91.90.20.246.513.830.00.91.00.016.96.08.9[51]第51话0.483.963.933.415.483.490.815.22.716.512.179.549.358.123.028.48.149.035.828.5[58]第五十八话:185.454.326.94.557.468.83.316.04.13.660.024.353.712.913.10.929.017.524.5[59]第五十九话64*2048三 十 九 点七188.667.645.817.773.781.813.418.517.914.071.835.860.220.125.13.941.120.236.3DarkNet21Seg [3]像素47.42591.474.057.026.481.985.418.626.226.515.677.648.463.631.833.64.052.336.050.0[3]第三季第10集5091.874.664.827.984.186.425.524.532.722.678.350.164.036.233.64.755.038.952.2RangeNet53++[40] 52.25091.875.265.027.887.491.425.725.734.423.080.555.164.638.338.84.858.647.955.9RandLA-Net(我们的)5万例患者五十三点九1.2490.773.760.320.486.994.240.126.025.838.981.461.366.849.248.27.256.349.247.7表3.SemanticKITTI上不同方法的定量结果[3]。仅比较最近发表的方法,并且从在线单扫描评估轨道获得所有于二零二零年三月三十一日查阅。车路人行道建筑植被地形停车围栏其他车辆图6. RandLA-Net在SemanticKITTI验证集上的定性结果[3]。红色圆圈表示失败案例。类,除了低植被和扫描艺术。.(2) SemanticKITTI的评价SemanticKITTI [3]由属于21个序列的43552个密集注释的LIDAR扫描每次扫描都是一个大规模的点云在3D空间中具有105个点,跨度高达160×160×20米。序列00- 07和09 - 10(19130次扫描)用于训练,序列08(4071次扫描)用于验证,序列11 - 21(20351次扫描)用于在线测试。仅原始3D点没有颜色信息的3D坐标。超过19个类别的mIoU得分被用作标准度量。表3显示了我们的RandLA- Net与两个最近的方法家族的定量比较,即。1)基于点的方法[43,26,49,44,51]和2)基于投影的方法方法[58,59,3,40],图6显示了RandLA-Net在验证分割上的一些定性结果。可以看出,我们的RandLA网络大大超过了所有基于点的方法[43,26,49,44,51]。我们还-执行所有基于投影的方法[58,59,3,40],但并不显著,主要是因为RangeNet++ [40]在小对象类别上实现了更好的结果,如交通标志。然而,我们的RandLA网络有40倍少的净-PredmIoU(%)GT参数(M)路人行道停车他地建筑车卡车自行车摩托车其他车辆植被后备箱地形人自行车摩托车手围栏极交通标志11115工作参数比RangeNet++ [40],并且计算效率更高,因为它不需要昂贵的预/后投影步骤。(3) 对S3DIS的评价。 S3DIS数据集[2]包括属于6个大区域的271个房间。每个点云都是一个中等大小的单间(20×15×5米),里面有密集的3D点。 为了评估语义段-为了验证我们的RandLA-Net,我们在实验中使用标准的6 重 交叉 验证 。 比较 了总 共 13个 类别 的平 均 IoU(mIoU)、平均类别准确度(mAcc)和总体准确度(OA)如表4所示,我们的RandLA-Net实现了与最先进的方法同等或更好的性能。请注意,大多数这些基线[44,33,70,69,57,6]倾向于使用复杂但昂贵的操作或采样来优化小块上的网络(例如,1×1米)的点云,而相对较小的房间则在他们的喜好被分成小块。相比之下,RandLA-Net将整个房间作为输入,并且能够在单次传递中有效地推断每个点的语义。OA(%)mAcc(%)mIoU(%)PointNet [43]78.666.247.6[44]第四十四话81.067.154.5[57]第五十七话84.1-56.13P-RNN [67]86.9-56.3RSNet [21]-66.556.5SPG [26]85.573.062.1LSANet [6]86.8-62.2[33]第三十三话88.175.665.4PointWeb [70]87.376.266.7ShellNet [69]87.1-66.8HEPIN [22]88.2-67.8KPConv [54]-79.170.6RandLA-Net(我们的)88.082.070.0表4.S3DIS数据集上不同方法的定量结果[2](6倍交叉验证)。仅包括最近公布的方法。4.4. 消融研究由于在第4.1节中充分研究了随机采样的影响,因此我们对局部特征聚合模块进行了以下消融研究。所有消融的网络都在序列00- 07和09- 010上训练,并在SemanticKITTI数据集的序列08 [3]。(1)去除局部空间编码(LocSE)。该单元使每个3D点能够明确地观察其局部几何形状。在移除locSE之后,我们直接将局部点特征馈送到后续的关注池中。(2 4)用最大值/平均值/总和池代替注意池。注意池化单元学习自动地组合所有局部点特征。相比之下广泛使用的最大值/平均值/总和池倾向于硬选择或组合特征,因此它们的性能可能是次优的。(5)简化扩张后的剩余块。 扩张的残差块堆叠多个LocSE单元和attentive poolings,大大扩大了每个3D点的接收场。 通过简化该块,我们每层仅使用一个LocSE单元和注意池化,即我们不像在我们的原始RandLA-Net中那样链接多个块。表5比较了所有消融网络的mIoU评分。由此可见:1)最大的影响是由链式空间嵌入和注意池块的移除引起的。这在图4中突出显示,图4显示了如何使用两个链接块允许信息从更广泛的邻域传播也就是说,近似K2点,而不是仅仅K点。这对于随机采样尤其重要,随机采样不保证保留特定的点集。2)局部空间编码单元的去除显示出对性能的下一个最大影响,表明该模块对于有效地学习局部和相对几何上下文是必要的。3)移除注意力模块会降低性能,因为无法有效地保留有用的功能。从这项消融研究中,我们可以看到所提出的神经元单元如何相互补充,以达到我们最先进的性能。mIoU(%)(1)删除本地空间编码49.8(2)替换为最大池55.2(3)替换为均值池53.4(4)替换为汇总54.3(5)扩张性残余阻滞48.8(6)完整框架(RandLA-Net)57.1表5.基于我们的完整RandLA-Net的所有消融网络的平均IoU分数5. 结论在本文中,我们证明了通过使用轻量级网络架构可以有效地分割大规模点云。 与大多数依赖于昂贵的采样策略的当前方法相比,我们在框架中使用随机采样来显著减少内存占用和计算成本。还引入了一个局部特征聚合模块,以有效地保留有用的功能,从广泛的邻里。在多个基准上的大量实验证明了我们方法的高效率和最先进的性能。通过借鉴最近的工作[64]以及实时动态点云处理[35],将我们的框架扩展到大规模点云上的端到端3D实例分割将是有趣的。11116引用[1] Abubakar Abid , Muhammad Bohh Balin , and JamesZou.用于可微特征选择和重构的具体自动编码器。在ICML,2019。[2] Iro Armeni , Sasha Sax , Amir R Zamir , and SilvioSavarese.用于室内场景理解的联合2D-3D语义数据。在CVPR,2017年。[3] Jens Behley 、 Martin Garbade 、 Andres Milioto 、 JanQuenzel 、 Sven Behnke 、 Cyrill Stachniss 和 JuergenGall。Se- manticKITTI:用于激光雷达序列语义场景理解的数据集在ICCV,2019年。[4] AlexandreBoulch , BertrandLeSaux 和 NicolasAudebert。使用深度分割网络的非结构化点云语义标注在3DOR,2017年。[5] Chao Chen,Guanbin Li,Ruijia Xu,Tianshui Chen,Meng Wang,and Liang Lin.QuanterNet:深度层次聚类网络,具有严格的旋转不变表示,用于点云分析。在CVPR,2019年。[6] Lin-Zhuo Chen ,Xuan-Yi Li,Deng-Ping Fan ,Ming-Ming Cheng,Kai Wang,and Shao-Ping Lu. LSANet:通过局部空间注意力对点集进行特征学习。arXiv预印本arXiv:1905.05442,2019。[7] 陈思恒,牛素凤,田兰,刘宝安。PCT:通过图形接收网络进行大规模3D点云表示,在ICIP,2019年。[8] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia. 用 于 自动 驾 驶 的 多视 图 3D 物 体 检测 网 络 。 在CVPR,2017年。[9] Yilun Chen,Shu Liu,Xiaoyong Shen,and Jiaya Jia.快点R-CNN。在ICCV,2019年。[10] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在CVPR,2019年。[11] Chin Seng Chua和Ray Jarvis点签名:一种新的三维物体识别表示方法。IJCV,1997年。[12] Oren Dovrat,Itai Lang和Shai Avidan。学习采样。在CVPR,2019年。[13] Francis Engelmann,Theodora Kontogianni,and BastianLeibe.扩张点卷积:关于点卷积的接收域。在BMVC,2019。[14] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割在CVPR,2018年。[15] Fabian Groh,Patrick Wieschollek和Hendrik P.A. 伦施Flex-convolution(网格世界之外的百万级点云学习)。在ACCV,2018年。[16] Yulan Guo,Hanyun Wang,Qingyong Hu,Hao Liu,Li Liu,and Mohammed Bennamoun.3D点云的深度学习:调查。arXiv预印本arXiv:1912.12033,2019。[17] Timo Hackel、Nikolay Savinov、Lubor Ladicky、Jan DWegne
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功