基于图注意力卷积的点云语义分割

199 浏览量更新于2023-10-18 收藏 13.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Lei Wang1, Yuchun Huang1∗, Yaolin Hou1, Shenman Zhang1, Jie Shan2∗{wlei, hycwhu, houyaolin, smzhang}@whu.edu.cn, jshan@purdue.edu45123645126102960基于图注意力卷积的点云语义分割01 武汉大学，中国 2 普渡大学，美国0摘要0标准卷积在点云的语义分割中存在固有的局限性，因为它对特征的各向同性。它忽略了对象的结构，导致分割结果中的对象轮廓不清晰和小的虚假区域。本文提出了一种新颖的图注意力卷积（GAC），其卷积核可以根据对象的结构动态地刻画成特定的形状。具体而言，通过为不同的邻居点分配适当的注意力权重，GAC被设计为根据动态学习到的特征有选择性地关注它们中最相关的部分。卷积核的形状由注意力权重的学习分布确定。尽管简单，GAC可以捕捉点云的结构特征，实现细粒度的分割，并避免对象之间的特征污染。从理论上讲，我们对GAC的表达能力进行了全面的分析，展示了它如何学习点云的特征。从实证上讲，我们在具有挑战性的室内和室外数据集上评估了提出的GAC，并在两种场景下取得了最先进的结果。01. 引言0点云的语义分割旨在为每个点分配一个类别标签，这是三维理解中的一个重要且具有挑战性的任务。最近的方法尝试将卷积神经网络（CNN）从网格域（如语音信号、图像和视频数据）推广到无组织的点云[34, 45, 33, 35, 44, 36, 26,14]。然而，由于它们的卷积核关于邻居点的特征属性具有各向同性，这些方法在语义点云分割中固有地受到限制。直观地说，位于两个对象边界上的点（如图1中的点1）学习到的特征实际上来自于两个对象而不是它们真正属于的对象，这导致了模糊的标签分配。0� 通讯作者。0桌子0椅子0桌子0桌子0桌子椅子0图1.标准卷积和GAC在点云子图上的示意图。左：标准卷积的权重由邻居的空间位置决定，点1处学习到的特征无法区分其所有邻居。右：在GAC中，“椅子”上的注意力权重被屏蔽，使得卷积核可以集中在“桌子”上的点上。0标准卷积由于其在特征响应中的规则感受野和卷积窗口内的固定位置权重，导致卷积核关于邻居点的特征属性具有各向同性。例如，在图1中，点1处学习到的特征无法区分其相邻的“桌子”和“椅子”。标准卷积的这种局限性忽略了属于同一对象的点之间的结构连接，导致分割结果中的对象轮廓不清晰和小的虚假区域。为了解决这个问题，本文的关键思想如下。基于标准卷积的位置决定权重，我们学习如何根据邻居的特征属性屏蔽或减弱部分卷积权重，使得我们的点云卷积核的实际感受野不再是一个规则的3D盒子，而是具有自己的形状以动态适应对象的结构。在本文中，我们通过提出一种新颖的GAC来实现这个思想，以有选择性地关注感受野中最相关的邻居。具体而言，受到注意力机制的启发[4, 13,47]，GAC通过将邻居点的空间位置和特征属性相结合，动态地分配适当的注意力权重。sitions and feature attributes. The shape of the convolutionkernel is then determined by the learned distribution of theattentional weights.Finally, like the standard convolution in grid domain, ourGAC can also be efﬁciently implemented on the graph rep-resentation of a point cloud. Referring to image segmenta-tion network, we train an end-to-end graph attention con-volution network (GACNet) with the proposed GAC for se-mantic point cloud segmentation.Notably, postprocessing of CNN’s outputs using condi-tional random ﬁeld (CRF) has practically become a de factostandard in semantic segmentation [45, 5, 9, 2]. However,by combining the spatial and feature constraints for atten-tional weights generation, GAC shares the same proper-ties as CRF, which encourages the label agreement betweensimilar points. Thus, CRF is no longer needed in the pro-posed GACNet.Our contributions are as follows:• We propose a novel graph attention convolution withlearnable kernel shapes to dynamically adapt to thestructure of the objects;• We provide thorough theoretical and empirical analy-ses on the capability and effectiveness of the proposedgraph attention convolution;• We train an end-to-end graph attention convolutionnetwork for point cloud semantic segmentation withthe proposed GAC and experimentally demonstrate itseffectiveness.2. Related WorksThis section will discuss the related prior works in threemain aspects: deep learning on point clouds, convolution ongraphs, and CRF in deep learning.Deep learning on point clouds. While deep learninghas been successfully used in 2D images, there are stillmany challenges to exploring its feature learning powerfor 3D point clouds with irregular data structures.Re-cent researches on this issue can be mainly summarizedas voxelization-based [25, 49], multi-view-based [43, 24],graph-based [7, 51, 42] and set-based methods [33, 35].The voxelization-based method [50, 30] aims to dis-cretize the point cloud space into regular volumetric oc-cupancy grids, so that the 3D convolution can be appliedsimilarly as the image. These full-voxel-based methods in-evitably lead to information loss, as well as memory andcomputational consumption as it increases cubically withrespect to the voxel’s resolution. To reduce the computa-tional cost of these full-voxel-based methods, OctNet [38]and Kd-Net [20] were designed to resolve them by skippingthe computations on empty voxels and focusing on infor-mative voxels. The multi-view-based method [43, 24, 18]represents the point cloud as a set of images rendered frommultiple views. However, it is still unclear how to deter-mine the number and distribution of the views to cover the3D objects while avoiding mutual occlusions.The graph-based method [7, 51] ﬁrst represents the pointcloud as a graph according to their spatial neighbors, andthen generalizes the standard CNN to adapt to the graph-structural data. Shen et al. [40] deﬁned a point-set kernel asa set of learnable 3D points that jointly respond to the neigh-boring points according to their geometric afﬁnities mea-sured by the kernel correlation. 3DGNN [36] applied graphneural network to RGBD data. However, due to the isotropyof its aggregation function, 3DGNN can hardly adapt to ob-jects with different structures. ECC [42] and SPG [23] pro-posed to generate the convolution ﬁlters according to theedge labels (weights), so that the information can propagatein a speciﬁc direction on the graph. Nevertheless, ECC andSPG can only capture some speciﬁc structures since theseedge labels (weights) are predeﬁned.Beneﬁting from the development of deep learning onsets [33, 52, 37], researchers recently constructed effectiveand simple architecture to directly learn on point sets by ﬁrstcomputing individual point features from per-point multi-layer perceptron (MLP) and then aggregating all the fea-tures as a global presentation of a point cloud [35, 12]. Theset-based method can be used directly on the point level andis robust to the rigid transformation. However, it neglectsthe spatial neighboring relation between points, which con-tains ﬁne-grained structural information for semantic seg-mentation.Convolution on Graphs. Related works about convolu-tion on graphs can be categorized as spectral approachesand non-spectral approaches.Spectral approaches workwith a spectral representation of graphs that relies on theeigen-decomposition of their Laplacian matrix [19, 10].The corresponding eigenvectors can be regarded as theFourier bases in the harmonic analysis of spectral graph the-ory. The spectral convolution can then be deﬁned as theelement-wise product of two signals’ Fourier transform onthe graph [8]. This spectral convolution does not guaran-tee the spatial localization of the ﬁlter and thus requires ex-pensive computations [41, 17]. In addition, as spectral ap-proaches are associated with their corresponding Laplacianmatrix, a spectral CNN model learned on one graph cannotbe transferred to another graph that has a different Laplacianmatrix.Non-spectral approaches aim to deﬁne convolution di-rectly on a graph with local neighbors in a spatial or man-ifold domain. The key to non-spectral approaches is to de-ﬁne a set of sharing weights applied to the neighbors of eachvertex [3, 48]. Duvenaud et al. [11] computed a weight ma-trix for each vertex and multiplied it to its neighbors fol-lowing a sum operation. Niepert et al. [32] proposed select-ing and ordering the neighbors of each vertex heuristically10297α(∆pij, ∆hij) = Mα([∆pij||∆hij])(2)102980图 2. 左：在点云的子图上展示 GAC。输出是点 1 的邻居的加权组合。右：GAC中使用的注意力机制，用于生成动态注意力权重。它接收邻居顶点的空间位置和特征作为输入，然后将它们映射到归一化的注意力权重。0因此可以使用一维卷积神经网络。Monti 等人 [31]提出了一个统一的框架，通过固定每个顶点周围的局部极坐标伪坐标来将 CNN 架构推广到图形中。Hamilton 等人[16]引入了一种归纳框架，通过对邻居应用特定的聚合器，如最大/平均运算符或循环神经网络（RNN）。然而，他们的卷积权重主要是根据预定义的局部坐标系生成的，而忽略了对象的结构对语义分割的影响。深度学习中的 CRF。CRF [22]具有细粒度的概率建模能力，而 CNN具有强大的特征学习能力。CRF 和 CNN的结合已经在许多图像分割工作中提出 [5, 9, 2,29]。最近，参考均场算法 [21]，CRF 推理的迭代被建模为CNN 层的堆叠 [53, 28]。对于 3D 点云，继 CRF-RNN[53] 之后，SegCloud [45] 在完全连接的 CNN 之后将 CRF的实现扩展到 3D 点云中。然而，由于 CRF 是作为 CNN之后的一个独立部分应用的，很难发挥它们组合的优势。03. 方法0我们提出了一种新颖的图注意力卷积（GAC）用于结构化的3D 点云特征学习，并展示了其理论优势（第 3.1节）。随后，我们使用提出的 GAC构建了一个端到端的点云分割框架（第 3.2节）。将点云转换为所需的图金字塔的详细信息在第 3.3节中提供。03.1. 图注意力卷积0考虑一个由给定点云 P = { p 1 , p 2 , ..., p N } ∈ R 3根据它们的空间邻居构建的图 G ( V, E )，其中 V = { 1 , 2 ,..., N }，E � | V | × | V | 表示顶点和边的集合，N是顶点（点）的数量。将 N ( i ) = { j : ( i, j ) ∈ E } ∪ { i}（包括自身）表示为顶点 i 的邻居集合。令 H = { h 1 , h 2, ..., h N } 为一个集合0输入顶点特征，每个特征 h i ∈ R F 与相应的图顶点 i ∈ V相关联，其中 F 是每个顶点的特征维度。我们的 GAC被设计为学习一个函数 g : R F → R K，将输入特征 H映射到一组新的顶点特征 H' = { h'1, h'2, ..., h'N }，其中 h'i∈ RK，同时保持这些输出特征之间的结构连接。与图像领域中相对固定的邻居关系不同，所提出的 GAC还应能够处理无序且大小可变的邻居，同时保持权重共享属性。为此，我们构建了一个共享注意力机制 α : R 3+ F → RK，以便关注邻居中与特征学习最相关的部分，使得 GAC的卷积核能够动态适应对象的结构。具体而言，每个邻居顶点的注意力权重计算如下：0˜ a ij = α (∆ p ij , ∆ h ij) ，j ∈ N ( i ) (1)0是应用在每个顶点上的特征映射函数，即 M g是一个多层感知器。α的第一项表示邻居顶点的空间关系，有助于将无序的邻居扩展到有意义的表面。第二项衡量顶点对之间的特征差异，引导我们将更多的注意力分配给相似的邻居。共享注意力机制α可以使用任何可微分的架构实现，我们在这项工作中使用了一个多层感知器（如图 2 所示），可以表示为：0其中 || 是连接操作， M α表示应用的多层感知机。此外，为了处理不同顶点和空间尺度上的大小变化的邻居，注意力权重在顶点 i的所有邻居之间进行归一化，如下所示： ! ! " " # $ $ ! "lows:aij,k =exp(˜aij,k)�l∈N (i) exp(˜ail,k)(3)h′i =�j∈N (i)aij ∗ Mg(hj) + bi(4)102990: 图注意力卷积0: 图池化0: 特征插值连接插值 1 × 1 卷积0跳跃连接0图 3. GACNet 架构。我们的 GACNet 是构建在点云的图金字塔上的。在图金字塔的每个尺度上，所提出的 GAC用于局部特征学习，然后进行图池化以减小每个特征通道的分辨率。之后，学习到的特征逐层插值回最细粒度的尺度，用于逐点标签分配。0其中 ˜ a ij,k 是顶点 j 对顶点 i 在第 k个特征通道上的注意力权重。因此，所提出的 GAC的最终输出可以表示如下：0其中 * 表示哈达玛积，它产生两个向量的逐元素乘积，而 b i ∈ R K0是一个可学习的偏置。与标准卷积的关系。标准卷积在网格域中的卷积权重是由邻居的局部空间位置决定的。在我们的GAC中，注意力权重不仅根据邻居的空间位置生成，还根据它们动态学习的特征生成。此外，由于 GAC是设计在点的空间邻居上的，它还保留了标准卷积在网格域中的关键属性：权重共享和局部性。与之前的工作的关系。所提出的 GAC 与几个之前的工作有关，主要包括 GAT [47]和 PointNet [33]。虽然我们受到了 GAT [47]的注意机制的启发，但我们的 GAC 是不同的：1）GAC不仅为不同的邻近点分配适当的注意力权重，还为不同的特征通道分配适当的注意力权重，因为不同通道的特征希望是独立的；2）与 GAT 相比，GAC还融入了邻近点之间的局部空间关系，这在 3D形状分析中起着重要作用；3）我们生成注意力权重0基于特征差异而不是两个邻居特征的连接，这更高效和明确地描述了特征之间的关系。0PointNet [33] 及其变体 [35]通过直接在点集上学习，已经在点云分析方面取得了有希望的结果。PointNet的关键是使用了一个最大池化操作符（包括一个MLP）。可以将其视为 GAC的极端情况，即“最大注意力”，它通过在每个特征通道上取最大值来聚合邻居特征。最大操作符倾向于捕捉最“特殊”的特征，这破坏了对象点之间的结构连接，并对噪声变得敏感。相比之下，所提出的 GAC通过分配适当的注意力权重来聚合邻居特征，保持了细粒度点云分割中对象的结构。0理论分析。在本节中，我们探索了我们的 GAC的表达能力，以进一步了解 GAC如何有效地学习点云的特征。具体而言，我们考虑 GAC是否能够学习准确地表示每个顶点的邻居特征。0假设输入的顶点特征 H 是有界的，即 H � [ a, b ] F，其中 a和 b 分别表示下界和上界。事实上，我们可以证明所提出的GAC 能够将图 G ( V, E )上任意顶点的整个邻居信息聚合到任意精度：0定理1. 设X = {S : S � [a, b]F且S是有限集}，f : X →R是关于Hausdorff距离d H (∙, ∙)连续的集合函数。将S i ={h j : j ∈ N (i) ∈X}表示为顶点i∈V的邻居点集，顺序任意。对于任意� >0，存在Z中的K和GAC的参数θ，使得where γ is a continuous function, and gθ(Si) ∈ RK is theoutput of GAC.The full proof is provided in the Appendix. Similar toPointNet, in the worst case, our GAC can learn to dividethe point cloud into a volumetric representation. In Point-Net, the representation capability is limited by the outputdimension K. However, as the attention mechanism in ourGAC actually acts as a feature encoder, GAC is capable ofapproximating the set function f even when K is not sufﬁ-ciently large.103000对于任意i∈V，0| f (S i ) − γ (g θ (S i )) | < � (5)03.2. 图注意力卷积网络0我们遵循常见的图像分割架构来组织我们的网络，用图注意力卷积网络（GACNet）进行点云语义分割，如图3所示。在图金字塔的每个尺度上，应用GAC进行局部特征学习。然后使用图池化操作来降低每个特征通道中点云的分辨率。然后，逐层地将学习到的特征插值回最细的尺度。受[27]的启发，相同尺度的特征进行跳跃连接。最后，考虑到多个图池化和特征插值层导致的特征保真度损失，对于特征的细化，最细的尺度上应用了额外的GAC层。图池化。图池化旨在输出粗化图的顶点上的聚合特征。将H ′l表示为图金字塔第l层的输出特征集，(l+1)层的输入特征集H l +1计算如下：0h v = pooling {h ′ j : j ∈ N l (v)} (6)0在第l+1层中，h v ∈ H l +1，并且N l(v)表示第l层中顶点v的邻居。池化函数可以是最大值或平均值函数，分别对应最大池化和平均池化[42]。特征插值。为了最终获得与原始输入具有相同点数的特征图，我们必须逐层地从最粗糙的尺度插值学习到原始尺度。设H ′l为图金字塔第l层的学习特征集，P l和P l −1分别是第l层和第(l-1)层的空间坐标集。为了获得第(l-1)层的特征，我们只需在P l中搜索P l −1的三个最近邻，并计算它们特征的加权和。组合权重根据邻居的归一化空间距离计算[35]。GACNet与CRF的对比。CRF已经成为CNN输出的后处理的事实上的标准0在语义分割任务中，CRF的关键思想是鼓励相似的点共享一致的标签。直观地，空间接近且外观相似的点被鼓励被分配相同的标签。事实上，我们的GAC具有与CRF模型相同的特点。具体而言，GAC根据邻居的空间位置和特征属性为其分配适当的注意权重。空间位置项鼓励空间接近的点共享相似的特征，而特征属性项旨在引导具有相似属性（即低级局部特征或高级语义标签）的点之间的信息传播。因此，在GACNet中不再需要CRF模型。值得注意的是，与将CRF模型形式化为循环网络[53]不同，所提出的GACNet具有几个优势。首先，与独立于CNN的CRF进行后处理不同，GACNet等效于将CRF的循环网络展开到网络的每一层，直接指导学习到的特征保持对象的结构进行语义分割。其次，与CRF中类概率空间中的简单消息传递和兼容性转换[21,53]相比，GAC还具有将输入信号映射到隐藏特征空间进行进一步特征提取的能力。我们在第4.3节中对这些观点进行了实验评估。03.3. 基于点云的图金字塔构建0本节描述了我们如何在点云上构建图金字塔。具体来说，我们搜索所有点的空间邻居并将它们连接成一个图。通过交替应用图构建和粗化技术，构建具有不同空间尺度的图金字塔。此外，在图构建过程中记录每个点在最细尺度上的邻居的协方差矩阵，并将其特征值用作局部几何特征（几何特征）。点的初始特征向量由高度、RGB和几何特征组成。在点云上构建图。对于给定的点云P，记录了点的空间坐标，我们构建一个有向图G（V，E）。这里，每个顶点与一个点相关联，边是在点和其KG个邻居之间添加的。在我们的实验中，KG个邻居是在半径ρ内随机采样的，这比搜索其KG个最近邻居的方法表现更好，因为它与点云的密度无关。图粗化。类似于图像领域中的金字塔构建，我们使用最远点采样算法[35]对输入点云P进行子采样。将子采样的点云表示为P ={P0，P1，...，PL}，其中L是子采样的尺度数，P0 =P。对于每个Pl（l =0，...，L），可以构建相应的图Gl（Vl，El），如下所示：103010方法 OA mIoU ceiling floor wall beam column window door chair table bookcase sofa board clutter0PointNet [33] - 41.09 88.80 97.33 69.80 0.05 3.92 46.26 10.76 52.61 58.93 40.28 5.85 26.38 33.22 SegCloud [45] -48.92 90.06 96.05 69.86 0.00 18.37 38.35 23.12 75.89 70.40 58.42 40.88 12.96 41.60 SPG [23] 86.38 58.04 89.3596.87 78.12 0.00 42.81 48.93 61.58 84.66 75.41 69.84 52.60 2.10 52.22 GACNet(我们的方法) 87.79 62.85 92.28 98.2781.90 0.00 20.35 59.07 40.85 78.54 85.80 61.70 70.75 74.66 52.820表1. 在S3DIS数据集上的结果（在Area 5上进行测试，其余五个区域进行训练）。0方法 OA mIoU 人造地形自然地形高植被低植被建筑物硬景观扫描伪影车辆0SnapNet [6] 88.6 59.1 82.0 77.3 79.7 22.9 91.1 18.4 37.3 64.4 SegCloud [45] 88.1 61.3 83.9 66.0 86.0 40.5 91.130.9 27.5 64.3 RF MSSF [46] 90.3 62.7 87.6 80.3 81.8 36.4 92.2 24.1 42.6 56.6 MSDeepVoxNet [39] 88.4 65.383.0 67.2 83.8 36.7 92.4 31.3 50.0 78.2 SPG [23] 94.0 73.2 97.4 92.6 87.9 44.0 93.2 31.0 63.5 76.2GACNet(我们的方法) 91.9 70.8 86.4 77.7 88.5 60.6 94.2 37.3 43.5 77.80表2. 在Semantic3D数据集（reduced-8挑战）上的结果。0如上所述。04. 实验0本节中，我们在各种3D点云分割基准数据集上评估了提出的GACNet，包括斯坦福大规模3D室内空间（S3DIS）[1]数据集和Semantic3D[15]数据集。使用三个指标对性能进行定量评估，包括每类交并比（IoU），每类的平均IoU（mIoU）和整体准确率（OA）。此外，还进一步分析了GAC的几个关键组成部分的性能。04.1. 在S3DIS数据集上的室内分割0S3DIS数据集包含来自三个不同建筑物的六个室内区域的3DRGB点云。每个点都用13个类别中的一个语义标签进行注释。为了进行有原则的评估，我们遵循[45, 33, 23]选择Area5作为我们的测试集，并在其余区域上训练我们的GACNet，以确保训练模型不会看到测试区域的任何部分。值得注意的是，Area 5与其他区域不在同一建筑物中，并且Area5中的对象与其他区域存在一些差异。这种跨建筑的实验设置更有利于衡量模型的泛化能力，同时也给分割任务带来了挑战。为了准备我们的训练数据，我们首先按房间划分数据集，然后将它们采样成1.2m×1.2m的块，每边有0.1m的缓冲区域。缓冲区域中的点被视为上下文信息，并且不与模型训练或类别预测的损失函数相关联。此外，为了方便训练，每个块中的点被采样为均匀数量的4,096个点。在测试阶段，块的大小可以根据计算设备的内存而变化。在0在这个实验中，我们将测试房间切分成3.6m×3.6m的块，每个块最多包含4096×9个点。每个块根据第3.3节的方法单独构建为图金字塔，用于训练或测试。实验结果的定量评估见表1。我们可以看到，与其他竞争方法相比，提出的GAC-Net在大多数类别中表现更好。特别是，在窗户、桌子、沙发和黑板方面取得了相当大的增益。在S3DIS数据集中，黑板和窗户被粘贴在墙上，几何上很难划分，但我们的GACNet仍然可以根据它们的颜色特征将它们分割出来。由于GAC的卷积权重不仅根据空间位置，还根据邻居点的特征属性进行分配，所以提出的GACNet能够捕捉到点云的判别特征，即使空间几何形状丢失或较弱。04.2. 在Semantic3D数据集上的室外分割0Semantic3D数据集目前是最大的可用LiDAR数据集，包含来自各种城市和农村场景的40亿多个点。每个点都有RGB和强度值，并且标有8个类别之一：人造地形、自然地形、高植被、低植被、建筑物、硬景观、扫描伪影和汽车。与S3DIS数据集不同，Semantic3D数据集包含相对较大的室外场景。为了适应对象的大小，Semantic3D数据集的采样块设置为4m×4m，同时保持最大点数为4096个。我们在表2中提供了在基准测试的reduced-8挑战中的评估结果。此外，我们列出了我们的GACNet与其他最先进方法相比的整体准确率和平均IoU。103020人造地形0自然地形0图4.易混淆区域的示意图（红色椭圆）靠近扫描站（黄色星星），与自然地形在颜色和几何形状上相似，但实际上是人造地形。请注意，这种区域在我们的训练集中并不存在，因此难以进行分割。0总体而言，我们的性能与其他竞争方法相当或更好，适用于许多类别。值得注意的是，在Semantic3D数据集中，大多数对象（如汽车、硬景观、建筑物和低/高植被）由于点之间的相互遮挡而呈碎片状和不完整。然而，我们的GACNet仍然可以学习捕捉它们的判别特征进行分割，这要归功于GAC强大的结构特征学习能力。同时，我们还注意到，在这个实验中，人造地形和自然地形相对难以区分，因为在一个易混淆的区域中有大量的点（如图4所示），这些点在训练集中并不存在。04.3. 消融研究和分析0为了更好地理解提出框架中各种设计选择的影响，我们进一步进行了几项消融研究，以展示GAC的有效性，探索GAC中的空间位置和特征属性的影响，将GAC与CRF-RNN[53]进行比较，并研究初始特征的影响。GAC的有效性。为了进一步了解提出的GAC的有效性，我们将其与PointNet[33]中的最大操作符（包括MLP）进行比较，PointNet通过直接学习点集已经取得了有希望的结果。具体来说，我们只是将GAC中的注意机制替换为最大操作符，而保持GACNet的其余部分不变。在S3DIS数据集上的测试结果见表3。我们可以看到，GAC的平均IoU比最大操作符高4.43％，这表明GAC在判别特征学习方面比最大操作符更具优势。实际上，PointNet[33]中的最大操作符充当着“最大注意力”机制的作用，倾向于在特征空间中表征点集的轮廓，同时破坏了对象点之间的结构连接。这使得最大操作符在对象分类任务上表现良好，但在需要精细划分对象边界的分割任务中表现较差。0消融研究 OA mIoU0最大操作符 85.47 58.42 仅空间位置87.44 60.41 仅特征属性 87.28 60.25CRF-RNN（1次迭代） 87.12 61.70CRF-RNN（3次迭代） 87.86 61.97CRF-RNN（5次迭代） 87.46 61.83无RGB 86.06 60.16 无地理特征 86.1760.37 仅高度 83.56 58.96 GACNet87.79 62.850表3. S3DIS测试集上的消融研究。0空间位置和特征属性。在GAC中，邻近点的空间位置和特征属性作为空间和特征的指导，动态生成它们的注意力权重。为了探索它们各自的作用，我们设计了GAC的另外两个变体，分别只使用空间位置和特征属性。它们在S3DIS数据集上的测试结果在表3中进行了报告，以便进行比较。实验结果表明，空间位置和特征属性在语义点云分割中都起到了重要作用。空间位置跨越无序的邻近点到有意义的物体表面，而特征属性进一步指导GAC适应物体的结构，

下载后可阅读完整内容，剩余1页未读，立即下载