基于金字塔结构的点云分割多尺度处理

119 浏览量更新于2023-10-25 收藏 622KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17284基于金字塔结构的点云分割多尺度处理聂东，Rui Lan，Ling Wang，Xiaofeng RenAMap，阿里巴巴{董.聂，lr 264907，王玲.lingwang，x.ren} @ alibaba-inc.com摘要点云数据的语义分割是自动驾驶和其他应用的关键任务。点云分割的最新进展主要是由新的局部聚集算子和点采样方法的设计推动的。与图像分割不同，很少有人努力去理解尺度的基本问题以及尺度如何相互作用和融合。在这项工作中，我们研究了如何有效地整合点云分割网络中不同尺度和不同阶段的特征。特别是，我们开放了常用的编码器-解码器架构，并设计了规模金字塔架构，允许信息更自由和系统地流动，横向和向上/向下的规模。此外，还设计了跨尺度注意力特征学习模块，以增强网络中无处不在的多尺度特征融合。这种多尺度处理和融合的设计在不增加太多额外计算的情况下在精度上获得了很大的改进。当构建在流行的KPConv网络之上时，我们看到了各种数据集的一致改进，包括在NPM3D和S3DIS上实现最先进的性能。此外，金字塔架构是通用的，可以应用于其他网络设计：我们示出了在RandLANet上的类似改进的示例。1. 介绍随着自动驾驶的兴起，点云数据的语义分割越来越受到研究者的关注。为点云（任意3D位置的无序点集）构建深度模型可以说与图像不同。早期的工作将3D点投影到规则结构，以便可以使用卷积算子[31，36，40]。后来，Point- Net的开创性工作[33，34]开发了一种有前途的方法，可以直接应用于代码可在https://github.com/ginobilinie/kp_pyramid上获得在稀疏3D点上进行深度学习，使用共享的多层感知器（MLP）来学习每个点的特征。PointNet的后续工作通常由三个关键部分组成，即：逐点变换、局部聚集和点采样。局部聚集算子对点的作用与卷积层对图像像素的作用类似[27];点采样的作用与池化层对像素的作用类似[34，52，60]。为了进一步利用相似性，现有技术的点云分割方法大多采用编码器-解码器U形架构[13，34，47]，这是图像分割中的经典设计（UNet [37]）。在编码器路径中，变换层学习越来越复杂的每点特征，局部聚合算子组合局部邻域中的信息，并且点子采样层进一步增加感受场。解码器路径由上采样和逐点变换层组成。最近关于点云分割的工作主要集中在局部聚合[14，19，20，27，30，34，45，47，53，58]或点采样策略[1，8，13，24，41，54，55]。例如，PointNet++ [34]在相对位置和点特征的连接上应用了几个MLP，以聚合局部邻域中的KPConv [47]设计用于获得伪网格特征并在这些内核点上应用卷积。RandLANet [13]比较了点抽样方法和选择随机抽样的效率。密度自适应采样[1]被提出来处理异质密度分布和类别不平衡。有趣的是，对于点云分割，很少有人致力于网络体系结构本身的研究。这与图像分割形成鲜明对比，在图像分割中，最近的努力远远超出了基本的编码器-解码器U结构，以设计更好，更有效的架构，特别是在多尺度处理和融合[18，32，35，48，57]和上下文聚合的主题上。gation [5，28，50，59].例如，HRNet [48]提出在整个横向阶段聚合多尺度特征从推理的角度来看，层次注意力[44点云数据与图像没有什么不同，17285∼本质上是可缩放的，并且需要多尺度处理，包括需要平衡大尺度上下文与精细细节，以及可能使用多个局部聚集阶段以便提取语义信息。在这项工作中，我们表明，确实有一个迫切的需要，和一个实质性的好处，超越U形结构的点云分割。受图像分割最新进展的启发[32，48]，我们开放了标准编码器-L0X32L5x1 32Cgt32解码器架构来设计用于点云分割的金字塔架构（参见图1）。提出并验证了多项设计改进：• 我们使用横向级来连接每个尺度的编码器和解码器路径中的对应物，其中在局部聚集和采样中重用相邻的部分;• 我们增加了向上/向下的链接，形成一个完整的• 我们确定了融合中的三个组件，设计了一种新的跨尺度注意力融合模块（CLAIM，它几乎是无参数的），以更好地服务于多尺度特征的聚合，并根据经验找到最佳选择。注意，这些中的每一个对于点云分割都是新颖的，并且它们一起提供了准确性的实质性提升，而无需对计算有更高的要求当建立在流行的KPConv网络作为基线时，我们的金字塔架构导致1。03 .第三章。在mIoU方面的改进为0% 在室外和室内场景的广泛基准测试中，包括NPM3D和S3DIS的SOTA结果（mIoU为83。0和73。分别为0）。此外，我们的金字塔架构是通用的，可用于增强任何编码器-解码器网络。例如，当使用更有效的RandLANet [13]作为基线时，也观察到类似的准确性大幅提高。2. 相关作品基于点的3D分割网络开创性工作PointNet [33]被提出来直接处理点云分析，该分析使用共享MLP学习每点特征，使用对称池化函数学习全局特征。受PointNet的启发，设计了一系列基于点的网络。这些方法一般可分为四类：（a）基于逐点MLP，(b)基于伪网格特征的方法，（c）基于递归神经网络的方法（基于RNN的方法）和（d）基于图形的方法。(a)基于逐点MLP的方法通常使用共享MLP作为其网络中的基本单元[33]。虽然是- ING相当有效，逐点特征提取的共享MLP不能捕捉局部几何点云。PointNet++[34]有一个邻域分组模块，可以为每个点捕获更广泛的上下文，并学习更丰富的本地图1.所提议的金字塔体系结构的图示。金字塔网络具有包含多达四个阶段的横向路径。每个阶段都涉及一个三向融合模块，以促进尺度之间的信息整合。侧流（蓝色）在保持分辨率的同时应用变换;自上而下的流程（绿色）为更高分辨率的路径提供上下文;而自底向上流（红色）对高分辨率特征进行下采样以帮助提取更高级别的语义。F是图1所示的设计的二、结构. Hu [13]提出了局部特征聚合模型来扩大感受野，使得随后的随机采样不会遗漏太多信息。基于注意力（加权和）的局部聚合方法也得到了大量研究[6，27，54]。（b）在基于伪网格特征的方法中，KPConv[47]是一个代表性的工作，其中，对预定义数量的均匀分布的球形网格点进行采样，并对伪网格点是基于距球体内的真实点的距离来计算的。由于伪点的数量在训练期间是固定的，因此可以容易地学习核权重。还有其他一些基于伪网格特征的方法[14，20，30，45，58]，关键区别在于伪点的定义。(c)基于RNN的方法的目标是从点云中捕获固有的上下文特征[9，15，56]，并具有递归模块的优点。(d)基于图形的方法旨在学习3D点云的基本形状和几何结构[21，22，49，61]。在上述基于点的3D分割网络中，主要采用的网络架构是U形编码器-解码器网络[13，27，34，47]，这证明了基于U形的网络用于分割的成功和普及。多尺度语义分割网络在U形编码器-解码器网络[37]中，编码器通常降低特征图的空间分辨率以学习更抽象的特征。相应地，解码器恢复来自编码器的输入图像的空间分辨率，以便生成密集预测图。skip connec-tion将浅层和深层特征与skip connec- tions相结合，以在密集预测中保留更多细节。在语义分割方面，人们已经做了很多工作来利用多尺度信息来实现鲁棒性和更高的准确性。PANet [26]建立了一个自底向上的连接，L4x216 CF（x2L3 x4F（x48CFL2x8女女4CF（x8L1X16女女女2CF（x16S1S2S3S4X32中、法17286在较低层和最高层之间进行切换，以增强编码器-解码器HRNet [42]引入多分辨率卷积，充分融合多尺度信息，高分辨率路径能够很好地保留定位信息。BPNet[32]提出了一种具有自顶向下和自底向上信息流的金字塔网络，以增强大规模上下文和小规模细节之间的信息交互在对象检测的相关工作中，EfficientDet [43]提出了一种加权双向特征金字塔网络（BiFPN），表明两个方向（粗到细和细到粗）的信息流而对于点云分割，目前只有少数的研究是朝着利用多尺度信息进行分割的方向发展. PointNet++ [34]以分层方式自适应地组合来自多个尺度的特征。[29]在多个尺度上融合了全局和局部特征，以赋予分割网络更多的区分特征。PointSIFT [17]考虑多尺度信息以形成鲁棒的特征提取器。3. 方法处理多尺度信息的金字塔结构的架构设计如图1所示，包括初步特征变换步骤，用于跨尺度信息处理和融合的金字塔网络，随后是特征变换层，以生成用于分割的最终密集预测。3.1. 三向金字塔结构如图除了编码器-解码器路径（黑色）之外，所提出的金字塔体系结构对于除底层（即，L0（为了避免大量的计算开销，我们没有在L0中引入横向链接）.金字塔中的每个阶段都涉及局部聚合操作，因此横向（水平）信息流可以具有越来越大的感受野，但也保持空间分辨率而不会丢失细节。此外，在每个阶段，我们在垂直方向上添加链接，以促进跨尺度的相互作用。金字塔中的信息（和处理）可以在三个方向上流动，用不同的颜色表示：一个阶段“向前”移动（横向，蓝色），保持空间分辨率，同时应用局部聚合运算符来整合信息;一个是在层中向下移动（绿色），将更大规模的背景添加到更精细的细节中;第三个在层中从较高的空间分辨率“向上”（红色）移动到较低的分辨率，为较大的上下文提供更丰富的信息。原始编码器-解码器路径在图中以黑色示出。从3.1.1横向信息流我们的金字塔结构的典型实例化由4或5层组成（3或4个子采样步骤）。如果输入分辨率为x32（x为任意整数），则最低层的特征分辨率为x32。在第二最低层（即，图中的第一层。1），特征分辨率为x16，经过3个横向阶段的局部聚集和变换，学习更好的特征，扩大有效感受野。因为空间分辨率（即，点数）保持相同，这样的横向链路因此可以学习高分辨率表示，特别是在低层中（例如，L1）。请注意，我们不使用本地聚合在横向链接从深层（例如，L3和L4），因为我们不能在那里用这样的操作获得更多的语义。当我们沿着“金字塔”向上移动时请注意，我们并不像跳过连接那样简单地添加直接的横向链接。对于每个横向链接，我们有不同数量的阶段。通常，在第一层处存在3或4个阶段的本地聚合。当我们向上移动层时，横向需要的处理步骤更少，因为传入的信息已经在二次采样过程中经过了许多局部聚合。通过增加不同阶段的横向连接，形成金字塔结构。它与具有单个编码器-解码器路径（或者，就此而言，用于对象检测的典型特征金字塔）的原始U形结构有很大不同。没有明确定义的编码器或解码器。这种结构允许我们进一步添加链接以实现跨尺度信息融合（见下文）。3.1.2跨尺度信息流自上而下的信息流。在此基础上，系统地描述了如何设计跨尺度的信息流. 一个组成部分是自上而下的信息流。如图1所示（绿色箭头），信息在每个处理步骤中沿着金字塔向下流动例如，L2处的特征（分辨率为x8，并且在一个具有二次采样的局部聚合步骤之后）被向下馈送到层级以与S1集成，S1是第一层处的一个局部聚合步骤（保持特征分辨率为x32）。类似地，L3处的特征（分辨率为x4）沿着层级向下馈送到下一层，以与来自L2的一个横向步骤的输出集成其他自上而下的流程在金字塔结构中的所有层和所有阶段都被类似地设计自下而上的信息流。我们的金字塔网络中自上而下的流程增强了较低层（更高分辨率）的处理，具有来自更高层的更多上下文和语义信息。然而，跨尺度信息-17287一 G1（跨尺度注意力（F不BG2信息流不必仅在一个方向上。我们还添加了自下而上的信息流，如图中的红色箭头所示。1.一、对于自下而上的流，较高分辨率的特征（在自上而下的融合之后）被向上馈送以与较高层处的较低分辨率的特征集成。此设计完成了我们的金字塔网络，用于多尺度处理：信息可以自由地横向、向上或向下流动，并且它们在处理的每一步都被融合。在消融研究中，我们将证明所有三种类型的流动（横向，自上而下和自下而上）是有用的，并提供了实质性的改善精度。经验上，层的数量（在分辨率中）和阶段的数量（在最低层处的处理步骤）趋于相同，这导致“完美”三角形。在我们使用的所有模型中，三角形都是“完美的”，它们产生了良好的结果。同时，层数和级数不必相同。我们已经试验了3.1.3多尺度特征融合策略金字塔网络中的三向信息流将不同尺度的特征与不同特征结合在一起。很自然，我们如何融合这些功能在设计中起着核心作用。在图像分割中，人们经常使用逐元素加法、逐元素乘法或级联，结合conv1x1和conv3x3来制定整个特征融合过程[48]。在最近的点云分割工作中，通常使用串联，然后使用一个或多个MLP 来进行特征变换[27]。我们进行了系统的设计和实证验证。通用制剂。多尺度融合模块由三个部件组成：融合前变换（包括比例匹配）、融合和融合后变换。通常，对于不同尺度的K个输入向量，s1，s2，...，s K时，我们选择一个基尺度s m，并将其他尺度上的特征向量融合到这个基尺度m上。采用上采样或下采样来匹配基本尺度并对齐空间维度。Transformations G (e.g., MLP或局部聚合器（LA）或身份映射（IM））可以应用于这些尺度中的每一个，然后利用融合算子F（典型地使用级联（CAT）、逐元素求和（SUM）、逐元素乘法（MUL）、逐元素加权求和（wSUM）、逐元素最大池化（MAX））来聚合所有变换的特征，并且最后可以在融合之后获得输出特征向量g。变换函数（T）（例如，MLP或LA或IM）。g=T（F（{Gi（si）|i=1，2，…（1）融合的三组分设计示于等式（1）中。1.一、我们还在图中示出了设计。2，其中，基标度为B。对于我们网络中的大多数融合模块，有来自三个尺度的三个输入，中间尺度是基础。跨尺度注意力融合模块（CLAIM）一BC图2.我们的跨尺度注意力的多尺度特征融合块的插图，包括融合前变换，跨尺度注意力特征学习，特征融合和融合后变换（见正文）。(a)表示2级及以上级别的3尺度融合。(b)表示级别1的2尺度融合。跨尺度注意力融合模块（CLAIM）。由于融合前变换和融合后变换通常是标准操作（例如，在我们的工作中，G1和G3是恒等映射，G2可以是LA，T可以是MLP），我们的重点是设计多尺度融合模块。本文设计了一个基于跨尺度注意力的特征学习模块，充分考虑了不同尺度特征的特点，以提高高分辨率语义特征的学习能力，作为增强融合模块的核心除了基本尺度B之外，A来自较高级别（低分辨率，表示上下文），B来自基本级别，C来自较低级别（高分辨率，表示细节）。与B相比，A具有更丰富的上下文信息，而C具有更多的细节.它们具有不同的特点，理想的融合是保留C语言的细节和A语言的语义。提出的基于跨尺度注意力的特征学习块通过与相邻尺度特征的交互来增强C中的细节特征和A中的语义特征注意，直接按元素求和B和C可以带来细节信息，但是由于B中的上下文信息具有低分辨率，因此将倾向于产生模糊的边界，并且直观地将A和B元素相乘允许A和B中的信息彼此加强，但是可以抑制A或B中的唯一信号相反，我们首先将所有三个尺度（A、B和C）中的特征的通道然后，我们对B和C进行⨀G1⨀一CG2 N跨尺度注意力F不G3⨁一⨀17288分别地）具有S形激活，如在Eq.2和Eq。3 .第三章。Msem=σ（z（A）·z（B））（2）Mres=σ（z（C）+z（B））（3）在上述步骤之后，我们将Msem应用于A并且将Mres应用于C，使得它们自身的特性被增强而不遭受缺点，如等式（1）所示。4和方程式六、如前所述，我们还在B上应用局部聚合（等式10）。5）实现更高的语义（图中的蓝色链接。1.一、A′=AMsem（4）B′=g（B）（5）C′=C M res（6）利用特征增强的多尺度特征，我们将它们堆叠（即， A′，B′和C′）一起（图中的F）。 2）聚合多尺度特征。然后，我们采用MLP（图中的T2）减少堆叠特征的沟道2尺度特征融合的设置与3尺度特征融合的设置类似。对于整个融合模块，我们称之为十字架-缩放注意力融合模块（CLAIM）。值得注意的是，我们设计了跨尺度注意，KPConv设置使用跨步KPConv（我们也可以使用最大池化）和最近点上采样。我们使用图中所示的设计索赔2完成金字塔内的多尺度特征融合对于其他设置，例如通道数量和刚性或可变形内核，我们直接遵循KPConv [47] 中的设置。为此，我们成功地将KPConv“升级”为KP- Pyramid。作为灵活性的一个例子，我们还将更有效的RandLANet [13]适应金字塔架构。我们采用局部特征聚合（LFA）模块学习上行链路中的邻域特征我们采用了一种简化的LFA算法进行横向特征变换，该算法去除了膨胀的残余块。MLP用于其他链接。随机采样用于下采样，最近邻插值用于点特征上采样。注意，层之间的下采样/上采样比率未设置为2，如图所示。1，但遵循RandLANet中的设置。通过这种方式，我们将Rand- LANet转换为RandLA-Pyramid。表1.使用标准mIoU指标比较金字塔架构（KP-Pyramid）与U形架构（原始KPConv）。如可以清楚地看到的，金字塔架构提供了准确性的实质性改进，在所有三个数据集上一致地，并且对于KPConv的刚性和可变形设置两者以（几乎）无参数的方式，而不是更复杂的，因为我们希望避免引入更多的参数（点云分割网络很容易过拟合）。在消融研究中证明了我们的策略是有效的。重新利用当地社区。我们的每个融合步骤涉及本地聚合操作。通常，局部邻域是使用基于距离的半径查询或KNN查询来计算的，这两者在计算上都是幸运的是，我们可以重新利用这样的社区：对于每个横向链路（和下采样），不管级数多少，只需要一个邻域查询。这使得我们的金字塔架构是高效的，并且与基线相比，不会导致计算量的大幅增加。我们将在消融研究中证明，CLAIM是经验上的最佳选择，且性能优于其他组合。此外，CLAIM不需要比其他融合块更多的参数。3.2. KP-金字塔和RandLA-金字塔的所提出的金字塔结构可以适用于任何基于编码解码器的分段网络。我们以KP-Conv为例来展示如何将KPConv“升级”为KP-Pyramid。示于图1，我们采用蓝色箭头中的'KPConv'运算符作为局部聚合运算符，红色箭头中的共享MLP（一元卷积）。对于下采样和上采样，我们遵循方法PL3DS3DIS语义3DKPConv刚性77.8 69.1 74.6KP-Pyramid刚性80.5 71.7 76.4最大值+2.7 +2.6 +1.8KPConv变形81.2 70.6 73.1KP-金字塔变形83.0 73.0 75.8最大值+1.8 +2.4 +2.74. 实验和结果4.1. 数据集和设置我们在三个常用的点云基准点上对我们的金字塔架构进行了实验验证，包括各种室内和室外场景：(1)Paris-Lille-3D（ PL 3D） [39]，NPM 3D的分割挑战，用于室外移动扫描;（2）S3 DIS [2]，用于室内大型空间;（3）Semantic 3D [11]，用于室外固定扫描。PL3D包含4个不同城市超过2公里的街道，是一个在线基准。该数据集的1.6亿个点被标注了10个语义类，并在三个城市收集了3000万个点作为测试集。S3DIS覆盖了3栋建筑的6个大型室内区域，总共2.73亿个点，标记为13个类别。对于S3 DIS，我们遵循[13，47]中的实验协议，并使用k-fold和Area-5作为测试场景来测量我们方法的泛化能力。Semantic3D是一个在线基准测试，具有几个不同的固定激光雷达扫描，17289表2.三向信息流研究。所有三种类型的信息流（链接）都能提高性能。结果是在相同的设置下计算的。4.3. 消融研究我们的金字塔建筑有很多新奇的地方，基线，包括横向信息流，方法融合策略Miou简体中文BaseNet-66.0-+横向-66.6+0.6+横向+向下权利要求67.6+1.6+横向+向上权利要求67.2+1.2+锥体权利要求68.2+2.2它有超过40亿个点，8个语义类别。我们再次遵循[13，47]中的实验方案，并选择降低的8挑战，因为它受靠近扫描仪的物体的影响较小。我们使用KPConv的官方开源代码作为基线，并在其基础上构建。KPConv是一种最先进的点云分割方法，已经得到了广泛的应用。对于训练设置，我们使用KPConv [47]中的超参数例如，我们设置K = 15，k =1。0，ρ= 5。所有实验均为0。卷积半径的设置也与所有三个数据集上的KPConv中的完全相同。此外，第一二次采样单元大小dl0由数据集确定，并且dlj+1=2×dlj。4.2. U形基线首先，我们展示了所有三个数据集上的实验结果，将我们的金字塔架构（KP-Pyramid，KPConv的金字塔版本）与U形编码器-解码器基线（标准KPConv）进行比较。在这个比较中，为了公平起见，我们使用了KPConv开源代码的结果，并提供了设置（需要时在在线服务器上进行评估）。请注意，开源代码的结果可能与论文或在线基准测试中的结果不同，有时更高，有时更低。实验结果示于表1中。在基线和金字塔增强网络之间，设置大多保持一致。在测试数据集上获得PL3D和Semantic3D评分。使用k倍交叉验证获得S3DIS分数。该算法采用金字塔结构对多尺度信息进行处理和融合，提高了算法在所有数据集上的性能。在NPM 3D上，金字塔结构提供了平均超过2.2 mIoU点的性能增益;在S3 DIS上，性能增益高达2.7分，在Semantic 3D上，平均增益超过2.0分。因此，我们表明，建议的金字塔架构，更好的多尺度处理和融合，显着提高了基线。跨尺度的上下信息流，以及融合策略的选择。他们帮了多少忙？它们与其他选择相比如何？我们进行消融研究来回答这些问题。实验在S3DIS上进行，使用区域5集合进行评价。4.3.1金字塔信息流为了研究金字塔架构中添加的链接（信息流）的影响，我们比较了以下网络：（ a ） BaseNet ，其与KPConv Deformable具有相同的架构;（b）如图所示，在基础网的中间层增加横向连接。 1表示“横向”或“前向”信息流（记为“+横向”）;（c）在金字塔网络中仅添加自上而下的流，其是向下的信息流（表示为“+横向+向下”）;（d）仅添加自下而上的流，其指示向上的信息流（表示为“+横向+向上”）;以及（e）添加自上而下和自下而上的流，其利用横向流（表示为“+横向”）完成金字塔形状。结果示于表2中。如表中所示，“+横向”提供了0.6 mIoU点的改进，通过为每个刻度添加具有更多“卷积”阶段的直接链接，显示出适度的增益。在具有横向链路的网络之上，向下和向上的信息流都可以进一步促进网络以实现更好的性能。与向上的信息流相比，向下的信息流更有利，这证实了为高分辨率处理提供上下文更重要。通过向下和向上链路，网络可以享受更大的性能增益，证明了在处理的每一步，在所有前向（横向），向上和向下方向上都有信息流4.3.2多尺度融合策略在Sec.3.1.3，我们将多尺度信息融合公式化为变换层和融合算子的组合，如等式3.1.3所示。1.一、为了验证我们设计的CLAIM的有效性，并探索哪些因素在多尺度特征融合中起重要作用，我们进行了全面的实验，以了解不同的多尺度融合策略的影响。特别地，我们使用所提出的双向金字塔架构作为基础，并比较不同的融合前变换选择（即，IM和MLP），融合和融合后转化（即，IM和MLP）。特别地，我们对融合策略采取以下选择，即直接融合，17290SiON（即，CAT、SUM、MAX和MUL）和基于注意力的融合，其在下面列出：• S3SE：堆栈A，B和C，然后应用SE模块（通道注意力）[12]来增强它们。• S2SES：堆叠A，B，应用SE增强A，并执行类似于C的操作。然后我们把它们都堆起来。• S3CBAM：堆栈A，B和C，然后应用CBAM（双通道和空间注意力）[51]来增强它们。结果如表 3 所示。这些结果验证了我们选择的“IM+CLAIM+MLP”提供了最高的分数。它们还提供了关于聚变的其他见解。对于融合前变换，还有趣的是，当随后进行合适的融合（例如， CAT 或CLAIM），这表明拥有更复杂的模块可能在这里没有帮助，因为存在过度拟合的风险。对于特征融合，我们提出的CLAIM是一个很好的选择，CAT是一个替代直接融合。值得注意的是，在图像识别中用于多尺度特征融合的广泛使用的注意块[7，12，51]不能直接在点云分割情况下很好地工作，因为它们更容易过拟合，这意味着CLAIM成功的一个关键点是其（几乎）无参数设计。CLAIM的优点还可以归因于尺度A包含丰富的语义信息，换句话说，对于大对象具有良好的表示，并且C包含更多的局部细节，这对于微小的对象和边界是有利的。对于融合后的变换，使用LA作为特征聚合后的变换似乎不是一个好的选择;信道式变换更有效。这与图像分割中的实践是一致的，其中在特征融合之后通常使用conv1x1。表3. 多尺度特征融合策略研究。‘Pre-Fusion-T’ representsfeature transformations for the incom- ing scales before fusion(note “Fusion” 是特征融合算子。 ‘Post-Fusion-T’ denotestransformation after融合前T融合后TmIoU简体中文4.3.3金字塔建筑的效率分析在本节中，我们评估了所提出的金字塔结构在真实世界数据集上进行语义分割的总体效率特别地，我们测量了NPM 3D和Semantic 3D测试集上的KP-Pyramid的运行时间和内存成本，其中NPM 3D测试集包含3个区域，每个区域具有1000万个点，Semantic 3D测试集包含4个区域，每个区域具有1000万到3000万个点。为了公平比较，我们在推理过程中为所有网络设置相同的num votes（设置为4）。对于每个数据集上的不同方法，我们保持测试配置相同（例如，conv半径、批次编号等）。推理在具有torch 1.5.1的Nvidia RTX 2080TI卡上进行。如表5所示，使用金字塔结构进行多尺度信息处理和融合，推断时间增加约11%。在推理时，记忆增加了大约15%实验结果验证了我们提出的金字塔结构的效率，即使我们增加了几个多尺度处理和融合操作的金字塔内。如所讨论的，效率的一个关键是邻域半径查询的重用。4.4. 与最新技术水平结果的之前，我们已经根据基线编码器-解码器U形架构评估了我们提出的金字塔架构，并进行了消融研究以验证其组件。为了更全面地了解我们的网络与最先进的网络相比如何，我们报告了与其他最近方法一起的详细结果。列出的结果来自已发表的论文或在线基准评估（如果可用）。我们遵循KPConv中的设置，而不更改Paris-Lille-3D，S3 DIS和Semantic 3D。结果示于表6中。我们的模型在NPM3D和S3DIS上的性能优于所有现有的方法特别是，我们实现了mIoU83。NPM3D为0，73。0在S3DIS上，两者都在流行的基准上创造了新的记录。我们还将Semantic3D上的KPConv提高到 76.4的mIoU。S3DIS结果的分类详细信息见表4。我们的结果往往没有“弱点”，即。不存在精度非常低的类。此外，我们在两个小物体上都做得很好（例如，书）和大物体（例如，而这，也是一种对外界环境的一种考验这证明了多尺度融合架构的优点。在小物体上的良好性能可以归因于图中第一层中的高分辨率特征表示1;对于大型物体的性能，我们的金字塔建筑设计-75.9在原始KPConv论文中报告。评估基准中KPConv的最新mIoU为82.0。但是，我们没有从github源代码中获得此结果的实验设置。MLP猫MLP64.7MLP总和MLP66.8MLPMaxMLP67.1MLP总和IM66.2MLPMaxIM66.7MLPMULIM63.8IM猫MLP67.9IM猫LA66.6IMS3SEMLP66.2IMS2SESMLP66.4IMS3CABMMLP65.2IM权利要求MLP68.217291表4. S3 DIS k-fold上的语义分割IoU得分。此外，我们给出了平均类召回率，以前的一些作品称之为平均类准确性的措施。方法MiouMREC细胞地板壁束上校风门椅子表书沙发板clut。Pointnet [33]47.666.288.088.769.342.423.147.551.642.054.138.29.629.435.2RSNet [16]56.566.592.592.878.632.834.451.668.160.159.750.216.444.952.0SPGraph [23]62.173.089.995.176.462.847.155.368.473.569.263.245.98.752.9[25]第二十五话65.475.694.897.375.863.351.758.457.271.669.139.161.252.258.6RandLANet [13]70.082.093.196.180.662.448.064.469.469.476.460.064.265.960.1SCFNet [10]71.682.093.396.480.964.947.464.570.171.481.667.264.467.560.9[47]第四十七话69.678.193.792.082.562.549.565.777.357.864.068.871.760.159.6KPConv变形[47]70.679.193.692.483.163.954.366.176.657.864.069.374.961.360.3KP-金字塔变形73.0 82.2 94.6 95.5 84.1 63.0 56.8 70.9 78.6 67.8 69.2 67.5 78.3 58.4 64.4表5.在PL3D（NPM3D）和Semantic3D数据集的测试集上进行推理的计算时间（秒）和内存成本（GB）。使用我们的金字塔架构的额外成本是最小的。方法NPM3D Semantic3D备忘录时间备忘录时间KPConv可变形3-4.2 193 5.5-7.5 274KP-Pyramid可变形3.4-4.7 216 5.9-8.2 290表6. 3D场景分割分数（mIoU）。PL 3D（NPM 3D）、Semantic 3D评分取自其各自的在线基准（减少-8挑战）。S3DIS评分通过k折交叉验证给出。方法PL3DS3dis语义3D[46]第四十六话56.349.862.7MSDVN [38]66.954.765.3SPGraph [23]-58.073.2ConvPoint [3]75.968.276.5SCFNet [10]-71.677.6KFAConv[4]82.768.474.6RandLANet [13]78.570.077.4[47]第四十七话72.369.674.6KPConv变形[47]75.9（82.0）70.673.1RandLA金字塔80.171.577.5KP-刚性金字塔80.571.776.4KP-金字塔变形83.073.075.8True允许更丰富的信息在各个阶段“向上”流动4.5. 基于RandLANet上面介绍的实验和结果表明我们对KPConv [47]的适应是成功的，也就是说，改进了编码器-解码器分割架构中的多尺度处理和融合。为了研究我们提出的多尺度处理和融合策略的通用化能力，我们对另一个典型的基于编码器-解码器的点云分割网络RandLANet进行了额外的探索 [13]。“升级到RandLA-金字塔”的过程在第3.2.我们在几个数据集上测试RandLA金字塔，结果见表6。在NPM 3D和S3 DIS上，RandLA- Pyramid在mIoU方面相对于基线实现了约1.5分的改进同时，推理时间和存储器成本不会增加太多（即，低于10%）。这表明，我们提出的金字塔结构是通用的，可以潜在地适用于任何编码器-解码器网络。5. 结论提出了一种基于三向金字塔结构的多尺度信息处理与融合方法。我们改进了常用的编解码器结构，增加了几个简单而有效的部件，横向以及自上而下和自下而上的信息流和规模金字塔架构，以增强大规模上下文和小规模细节之间的交互。我们还探讨了金字塔结构内跨尺度特征融合的特征融合策略，并设计了有效的（几乎）无参数的多尺度特征融合的CLAIM。在标准基准上获得了最先进的结果，并且所提出的组件显示出在准确性方面的实质性改进。在不需要预先训练的情况下，我们相信我们的模型有潜力用于许多点云相关的应用程序，并且仍然有进一步改进的空间6. 社会影响和限制我们提出的点云算法可以促进自动驾驶激光雷达数据处理的发展，使AI驾驶员更安全。更重要的是，所提出的方法有效地实现了更高的性能，这可以帮助减少碳足迹，因此是环境友好的。对于方法本身，尺度金字塔中的融合还有待进一步探索，我们认为可以去掉部分链接以节省更多的计算量。此外，我们刚刚在几个公共数据集上验证了所提出的网络，还没有在实际应用中的大型数据集上进行测试。17292引用[1] Hasan Asy 'ari Arief， Mansur Arief， Manoj Bhat， Ulf GeirIndahl，HaBauvardTveite，andDingZhao.自主车辆应用中用于异构点云对象分割的密度自适应ive采样在CVPR研讨会，第26-33页，2019年。1[2] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页，2016年。5[3] 亚历山大·布尔奇Convpoint：用于点云处理的连续卷积。计算机图形，88：24-34，2020。8[4] Alexandre Boulch Gilles Puy 和 Renaud Marlet FKA-Conv：点云卷积的特征核对齐。2020年第15届亚洲计算机视觉会议（ACCV 2020）8[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。1[6] Lin-Zhuo Chen ， Xuan-Yi Li ， Deng-Ping Fan ， KaiWang，Shao-Ping Lu，and Ming-Ming Cheng. Lsanet：通过局部空间感知层对点集进行特征学习。arXiv预印本arXiv：1905.05442，2019。2[7] Yimian Dai，Fabian Gieseke，Stefan Oehmcke，YiquanWu，and Kobus Barnard.注意特征融合在IEEE/CVF计算机视觉应用冬季会议上，第3560-3569页，2021年。7[8] Oren Dovrat，Itai Lang和Shai Avidan。学习取样。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR）中，第2760- 2769页，2019年。1[9] Francis Engelmann ， Theodora Kontogianni ， AlexanderHer- mans，and Bastian Leibe.点云三维语义分割的空间背景探索在I

下载后可阅读完整内容，剩余1页未读，立即下载