SegGCN：基于模糊球核的高效三维点云分割

182 浏览量更新于2023-10-23 收藏 1.18MB PDF 举报

图卷积网络

效率提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SegGCN：基于模糊球核的高效三维点云分割计算机科学与软件工程西澳大利亚大学huan. research.uwa.edu.au，{naveed.akhtar，ajmal.mian}@ uwa.edu.au摘要模糊聚类在实际应用中表现良好。受此观察的启发，我们将模糊机制纳入3D点云的离散卷积核中，作为我们的第一个主要贡献。提出的模糊核定义在一个球形体积，使用离散箱。离散体积划分通常会使内核在学习过程中容易受到边界效应的影响，在推理过程中也容易受到点密度的影响。然而，由于模糊机制，所提出的核仍然对边界条件和点密度具有鲁棒性。我们的第二个主要贡献是提出了一个有效的图卷积网络SegGCN，用于分割点云。所提出的网络在编码器中利用ResNet类块，在解码器中利用1×1卷积。SegGCN利用所提出的模糊核的可分离卷积运算来提高效率。我们在具有挑战性的S3DIS和ScanNet真实世界数据集上建立了具有建议内核的SegGCN的有效性。我们的实验表明，该网络可以分割超过100万点每秒具有很强的竞争力的性能。1. 介绍直接从3D点云学习正获得越来越多的研究兴趣，因为它的应用一般是自动驾驶车辆和机器人。这里的主要挑战是由传感器捕获的3D点云（例如，LiDAR）是无组织的，不像图像。因此，使用传统的CNN架构是不可行的，因为它们需要有组织的网格状输入。目前，从点云进行特征学习的最有前途的解决方案之一是使用空间域图卷积网络（GCN）。GCN对从点云构造的图形表示执行空间卷积文献中大多数现有的GCN依赖于小型网络来实现图卷积[24，34，43，44]，这会导致显著的网络复杂性和计算开销。最近已经在3DSt我St我(a) 4×2+1硬核（b）4×1+1模糊核图1。硬球核与模糊球核（显示了3D球体的2D切片）。颜色梯度描绘了模糊。两核沿着方位角具有4个分区。对于硬核，沿着径向维度存在分裂，将不同的系数分配给不同的仓。因此，目标“i”的邻域点对于模糊核，这些邻居使用相似的参数来计算' i '的特征，欧氏空间[21，40]，非常适合直接图卷积，而不需要迷你网络。将这些内核应用到GCN架构中可以使其具有显著的轻量级和高效性。在这些离散核中，球形核[21]以紧凑的方式划分局部邻域，同时保留与标准CNN核[12，16，20，35，37]相似的不变性和不对称性的吸引人的特性，以及置换不变性。更重要的是，它不需要像其他内核那样对模板点进行任何在线/离线学习[33，40]。相反，内核沿着其方位角、仰角和径向方向系统地将球形区域划分为多个非重叠的仓。然而，由于3D空间中的点坐标（R3）是实数，考虑到许多点将不可避免地非常接近边界，因此将空间离散成为了解决这个问题，并受到模糊聚类在机器学习中的成功[4]的启发，我们将模糊机制引入球形核。我们注意到，标准CNN内核不会受到边界效应的影响在图1中，我们提供了一个简单的1161111612以2D中的无序点为例，展示模糊核如何在特征提取期间对边界效应具有鲁棒性。注意，球形核在2D中退化为圆形核。可以看出，目标点i的相邻点s、t非常靠近径向箱的边界。硬内核将使用不同的参数s，t来计算目标点i的特征。然而，在模糊核中，模糊系数导致s，t使用相似的参数来计算i的特征。本文提出了一种沿球面核的高度和径向的模糊系数，模糊球形核完全避免了沿径向方向的分裂。为了将我们的内核有效地应用于点云的语义分割，我们还提出了一个编码器-解码器图卷积网络SegGCN。编码器利用类似ResNet的块[12]进行分层特征学习，而解码器包括简单的1×1卷积来生成fi。点的最终表示在每个ResNet块中，我们应用我们的模糊球形内核与深度可分离卷积[6]来聚合上下文信息，这对网络效率有很大我们使用范围搜索[27]构建图形连接，并使用最远点采样[29]粗化点云。点特征使用最大池化进行下采样，并使用加权插值进行上采样。我们在两个具有挑战性的真实世界数据集S3 DIS和Scan-Net上展示了我们的SegGCN和模糊球形内核的性能我们还证明了模糊核对点密度的降低是鲁棒的我们的主要贡献概述如下：• 我们提出了一个模糊球核，将模糊机制的球核雷等。[21 ]第20段。新的内核通过分离Xception [6]的深度和点操作来应用球形卷积，并在实际应用中获得了• 我们提出了一个有效的图卷积网络架构SegGCN的3D语义分割。通过使用可分离模糊球面卷积，SegGCN能够以高精度每秒分割超过一百万个点。• 我们在Tensorflow [1]中提供了模糊球面卷积的CUDA实现。源代码可以在这个Github链接上找到。2. 相关工作3D-CNN：3D-CNN使用类似网格的内核从点云的体素网格表示中学习特征。计算和内存需求的立方增长限制了这类早期网络处理低分辨率输入（例如，30×30×30 [45]，32×32×32 [26]）。Engelcke等人 [10]建议减少计算量通过使输入和中间特征图稀疏来减少开销。然而，他们的解决方案无法解决内存问题。OctNet [30]通过使用基于八叉树的表示降低计算和内存成本，将输入分辨率提高到256×256×256。然而，它无法避免在空的空间中的冗余计算。最近，研究人员将点云转换为其他规则网格表示，如切线图像[38]和高维晶格[36]因此可以应用标准的CNN。MLP：PointNet [28]是第一个直接将点的xyz坐标作为输入特征并使用多层感知器（MLP）学习每个点的表示的深度网络之一。PointNet的局限性在于MLP无法在特征学习期间探索几何上下文PointNet++ [29]通过分层最大池化解决了这个问题。SO-Net [23]学习将点云重组为矩形地图，并利用mini-PointNet学习地图中的节点特征。KC-Net [33]在本地邻居和模板点之间使用基于距离的内核相关性，但它仅适用于具有纯xyz坐标的点云。随着网络的深入，它依赖于MLP来提取特征。这些模板点是预定义的，并且在网络训练期间是可优化的。kd网络[15]是一个基于点云的突出树结构网络。它还使用点坐标作为输入，并通过将MLP应用于其子节点的连接特征来计算父节点的特征尽管这些网络的多样性，但它们中没有一个有助于使用点云的卷积模块进行上下文学习GCN：我们将用于点云处理的网络分组为GCN类别，只要它们定义了用于从本地邻居进行上下文学习的逐点卷积。我们忽略了它们最初探索的架构，因为这些卷积运算很容易适应GCN。谱图卷积对于不同域之间的信号变换具有很高的计算它还需要不同点云的图形拉普拉斯的良好对齐Yi等人。 [47]解决了SpectTN合成模型的问题，SpectTN很难应用于真实数据。大多数其他网络都专注于空间图卷积。ECC [34]是利用空间图形卷积进行点云分析的开创性工作。受动态滤波器网络[8]的启发，它引入了由MLP 组成的迷你网络随后， Flex-Conv [11] ， Spi-derCNN [46]和DGCNN [41]使用更有效的参数化生成边缘滤波器代替以边缘方式惯例生成滤波器，还探索了使用迷你网络生成完整的卷积核[24，44]。Li等人[24]设计了X-Conv11613κ=0f=我}f=C我ICi=1点云模块然而，他们的方法对点的排列PointConv [44]计算3.1. 模糊核函数为了计算通道c中的输出特征，模糊核-卷积核作为局部权重函数的乘积，反密度函数。与PointCNN不同，它使用nel定义了一组可学习的参数KRCinKc={wκc∈迷你网络中的1×1卷积使内核具有置换不变性。Wang等人。 [41]通过在GCN中插入注意力机制，提出了一种图注意力卷积网络（GACNet）。它仍然将点特征定义为其邻域特征的加权和，但}κ=0以及将每个相邻点不同地关联到集合元素wκc的准则。假设目标卷积点xi的每个相邻点x∈ N（xi）都是asso，引用到系数向量k ={k κ}K。一般来说，模糊核计算点xi的特征fl+1为：不同之处在于，GACNet不仅基于相邻点和目标点之间的空间接近度，而且还基于它们的特征相似度来学习MLP的权重。类似于CRF [17]，这种注意机制l+1ic1N（xi）Σx∈N（ xi）. .ΣKκ=0ξκwκcΣ，flΣ.（二）鼓励邻居有一致的标签，在不失去一般性的情况下，我们可以将准确的语义分割。然而，对动态过滤器生成的依赖性使得这些网络要归一化的系数，即高斯混合模型[4]。Kκ=0 κ=1，相似计算成本高。离散核是避免动态网络计算开销的一个有吸引力的替代方案。 Lei等人。 [21]提出了一种用于从点云进行特征学习的球形卷积核，并证明了其在八叉树适应架构中的有效性后来，核也被证明适用于图[22]。KPConv内核[40]与球形核的区别主要在于在模糊核函数中，每个相邻点利用所有的核参数来执行卷积。实际上，硬核可以被认为是模糊核的一种特殊情况，其中系数向量k被简化为一个独热向量。因此，每个邻居x只使用一个特定的wκc来计算目标点的特征：fl+11l的体积箱。它执行与数据无关的训练得到多个模板点，并利用这些模板点划分三维度量空间。c=N（x）x∈N（xi）wκc，f3. 方法设P={xi∈R3}N 是一个点云，l l N其中κ=κ（x−xi）∈ Z。Eq中的卷积（1）-（3）遵循以下定义深度学习中的典型卷积，并通过进行深度和空间卷积来计算每个输出特征。映射是F={fi∈RCin}i=1。执行卷积，对于一个目标点xi，我们首先构造它的邻域集为N（xi）={x∈ P：≤ρ}。利用邻域集N（xi），一般卷积核计算通道c中x i的输出特征为：回旋同时受…的成功鼓舞可分离卷积[6，24]，我们建议在等式中分离深度和点操作（2）和（3），这使得预成型的回旋更有效。由于逐点卷积与邻居无关，我们fl+1=1ICN（x）Σ。ΣKc（x−xi），fl，（一）将离散核单独叠加到深度方向卷积在这种情况下，核Kc被简化为Kc={wκc∈ix∈N（ xi）RKκ=0. Eq.中的模糊核卷积（2）和其中Kc（x−xi）∈RCin是与通道c相关的核函数，fl是相邻点x的输入特征，并且Eq.中的硬核卷积（3）分别为：授权：表示两个向量的标量积。为了简洁起见，我们省略了方程中的偏置项，并在随后的方程中遵循相同的在这里，内核l+1ic1N（xi）Σx∈N（ xi）. ΣKκ=0ξκwκcΣfl.（四）函数K可以是连续函数[34，46]或l+11 lC在不同体积区域中定义的一组可学习参数[21，40]。我们使用范围搜索而不是com-fic=N（x）x∈N（xi）w κc fc.（五）主要使用KNN来构建邻居，因为（1）范围邻居在空间中提供一致的度量信息，并且对密度变化具有鲁棒性[29，40];以及(2)在暴力CUDA实现下，范围搜索比KNN更有效，特别是当期望邻居的数量很大时。11614通过对每个输入通道应用这种深度卷积λ次，我们获得点xi处的输出特征C out=λC in。在此之后，逐点卷积很容易通过1×1卷积实现。在本文中，我们在可分离卷积约定下应用所有内核，这对我们的网络效率有很大的帮助116152κ=0πn pqC3.2. 硬球内核Lei等人提出的球形核。[21]构造核的模糊系数。其中，α和γ定义为：通过沿方位角均匀地划分空间，将局部球形邻域划分为n×p×q个体积箱.α=p×（φ+π）π，（八）（θ）、仰角（φ）和径向（r）尺寸。它包括用于目标点的自卷积的附加bin这导致大小为n×p×q +1的球形卷积核，可以表示为Kc={w κc∈R}n×p×q。这里，w0c是自卷积的参数。对于硬核，对于每个相邻点x，[21]基于其在以xi为中心的局部球面坐标系中的坐标<$i=（θ，φ，r）计算单个索引κ。如果x=xi，则索引值κ为0，否则，它表示为κ=kr×n×p+kφ×n+kθ+1，（6）其中k θ∈ {0，. - 是的- 是的，n − 1}，k φ∈ {0，.- 是的- 是的，p − 1}，k r∈{0，. - 是的- 是的，q − 1}。一致分裂结果的约束在沿三维（θ、φ和r）的仓范围内，分别为2π、π和ρ。因此，kθ，kφ，kr可以确定为：。，，Σγ= 1 −x −xi。这里，γ控制每个邻域点对自卷积仓训练的贡献。点越接近目标点，它对自卷积的贡献就越大。然后，我们可以在等式中表示索引kφ。（7）α为：kφ= min （ p− 1 ， <$α<$ ）。（九）为此，参数β变为β=1−|α−kφ−0 。 5|.（十）β控制每个邻域点对其所在高程面元的训练的贡献。可以推导出，当该点位于高程面元中心时，β将为1，而当该点正好位于两个面元的边界上时，β减小到0.5。另一个可能导致高程维度中点x的边界效应的面柱是kφ，可以计算为.θ= minn-1，（θ+π）2π，θ∈[−π，π]，kφ=max（0，k φ− 1），如果（α− k φ）≤ 0。五、（十一）- 是的、π，π（φ+）ππmin（p − 1，k φ+1），如果（α − kφ）> 0。五、kφ=minp−1，p×2。、，φ∈[−2，2]，模糊系数向量最多包含三个非，Σ布雷尔Rak r=minq−1，q×ρ，r∈（0，ρ].（七）零值，即虽然高效，但硬内核存在模糊性，0=γ，箱边界处的急剧变化。例如，给定xy平面附近的两个点xs，xt∈ N（xi），<其中κ′=kφ×n+kθ+1，κ′=kφ×n+kθ+1。它可以xs−x0），其不同于xi用于自卷积的参数w0到fl+1=1icN（xi）（100w0cx∈N（ xi）+κ′wκ′c+κ′wκ′c）fl.针对这些问题，我们提出了一个模糊球面作为一个这项工作的主要贡献。我们表明，新的内核是更有效和高效的在实际应用中。3.3. 提出的模糊球核为了避免径向的边界效应，我们首先去除球体沿半径方向的分裂因此，模糊球形核的大小为n×p+1，并且等式中的索引κ的计算是不必要的。（6）则可简化为κ=kφ×n+kθ+1。我们引入了三个新的参数α，β，γ沿海拔和径向尺寸，以促进ρn×11616（十三）在所提出的模糊核中，所有相邻点都基于它们到目标点xi的距离来对自卷积参数w0的训练做出贡献。这与仅基于目标卷积点优化w0的原始球形内核[21]相反在仰角方向上，每个相邻点在卷积中使用的参数变成来自其两个最近的箱的参数的加权组合。这种加权组合消除了箱边界之间卷积参数的不合理急剧变化。总的来说，11617副本0102321432×ResNet块1×上采样块+1×1ConvELUBN图2.提出了编码器-解码器图卷积网络SegGCN。一个图G0被依次粗化为G1，G2，G3，G4，然后再回到G0。在编码过程中，在连续图之间使用具有模糊卷积的2×ResNet块。为了清晰起见，我们省略了self循环。在解码过程中，为了提高效率，使用了1×1卷积。跳过连接用于复制来自编码器的特征，这些特征与类似图阶段的解码器处的特征级联我们在ELU激活后使用批量归一化（BN）所提出的模糊球形核使得每个相邻点所使用的卷积参数能够以平滑和一致的方式改变。我们没有将模糊度纳入方位维，因为通常执行的任意水平旋转训练数据增强已经解决了这个维度的模糊度。因此，仅在径向和仰角方向上应用模糊机制使我们的内核更有效。这可以通过比较等式中的模糊卷积计算（4）在Eq中的（五）、从等式我们可以看到，所提出的模糊球形核在与每个相邻点的卷积中仅需要3次乘法和2次加法，这远远少于密集向量卷积所需的计算。我们的模糊系数向量的稀疏性使得球形核更有效，而不会显着影响其有效性。我们在补充材料中提供了卷积反向传播的复杂性分析。与KPConv比较：与提出的内核相比，KPConv [ 40 ]中使用的内核必须使用优化离线生成一组模板点。该网络的性能高度依赖于离线训练返回的核点，这是次优的。相比之下，模糊球形核以确定性和紧凑的方式划分邻居所占据的空间。在§4中，我们经验性地证明了在类似的设置下，所提出的模糊球形核优于KPConv。3.4. 网络架构我们提出了一种用于点云分割的编码器-解码器图卷积网络。该网络由编码器部分的ResNet块和解码器部分的1 × 1卷积组成。图2显示了我们网络的架构。为了从点云P={x1，. . .，xN}的特征映射F={f1，. . .，fN}，我们考虑一个图G=（V，E），其中V ={1，2，. - 是的- 是的，N}和E |V|× |V|分别表示图的顶点和边的集合。每个顶点i ∈ V都与一个点位置xi及其对应的特征图fi相关联。我们从点邻居导出边集E。图形连接和粗化：我们使用范围搜索来获得每个点在指定半径ρ内的空间邻居。我们有效地实现范围搜索使用CUDA编程，利用GPU并行计算。出于实际原因，我们将邻居连接的最大数量限制为M。如果范围搜索在邻域中返回多于M个点，则应用随机为了将图形分层粗化为不同的分辨率，我们利用了点云子采样方法，Faradian点采样（FPS）[29]。与体素网格采样[34，40]相比，FPS具有在不同样本中保持顶点/点数量固定的优点，这在应用标准批量归一化时很有帮助[13]。为了提高效率，我们避免了需要单独训练的子采样策略[9]。通过交替连接顶点和图粗化L次，构造了一个由L +1图G0→G1→···→ GL组成的金字塔，其分辨率从细到粗.合并和取消合并：在编码器中，我们使用max-插值级联MaxpoolELUELU1×1Conv1×1ConvELUBN8×4×1模糊控制1×1ConvBNBN1×1ConvELUBNSkipSkip11618池化以计算粗化图的顶点特征。该过程将图Gl+1中每个顶点的特征定义为图Gl中它们的邻居的最大池化特征。在解码器部分，我们计算顶点特征的图具有更高的分辨率与unpooling操作，这是使用加权插值执行。特别地，插值方法将图Gl中的顶点特征上采样为图Gl+ 1中的其邻域特征的加权和。我们的权重定义类似于PointNet++[29]。我们使用上述技术构建了一个分割网络SegGCN。SegGCN包括五个图形分辨率的金字塔为了学习每个级别的特征，我们在编码器中使用两个具有（可分离的）模糊球形卷积的池化操作用于在图结构改变时提取特征。SegGCN还通过从编码器复制特征并将其连接到图形层次结构中类似级别的解编码器特征来开发有效的跳过连接[3，5，31]解码器级的级联特征使用1×1卷积进行处理，这在§4中被经验证明比用于编码目的的ResNet块更高效和有效。我们提供了我们的SegGCN的说明，包括ResNet块的细节以及图中的上采样块。二、在本文中，我们还发布了模糊球形内核的CUDA实现和高效的SegGCN架构。该代码与Tensor-flow兼容[1]，可以在此Github链接中找到。4. 实验我们在具有挑战性的语义分割数据集S3DIS [2]和ScanNet [7]上评估了我们的SegGCN，这些数据集由大规模室内场景的点云组成。颜色信息在两个数据集上都提供有（r，g，b）值。我们用6维输入特征（x，y，z，r，g，b）训练网络。在使用原始颜色值之前，我们将它们重新缩放到范围[-1，1]中。我们的网络是在一个带有Adam Optimizer的GeForceRTX 2080 TiGPU上训练的[14]。对于训练，我们将初始学习率设置为0.001，动量为0.9。通过实验，我们采用核大小为8×4×1+ 1的模糊球卷积.我们的网络将点云大小为8192作为输入，而批量大小保持固定为16。这导致网络处理的点的总大小为131K，每批为131K。我们允许所有图中顶点的最大近邻连接数为M=64。这些超参数是基于交叉验证根据经验确定的。我们在实验中利用了相关文献中常见的数据增强，包括随机缩放、移位、噪声平移、随机方位角旋转（高达360°）和任意旋转扰动（高达10°）。我们在网络训练课程中即时不应用点云翻转和颜色增强。网络配置：我们对ScanNet和S3DIS使用相同的网络配置。具体地说，图G0，G1，G2，G3，G4的顶点数分别为8192，2048，768，384，128. 我们构造的图边G0，G1，G2，G3使用增加范围搜索半径0。1，0。2，0。四，零。8. ResNet块中三个卷积的输出特征大小可以表示为（D，D，4 ×D）[12]。我们将ResNet块G0，G1，G2，G3的超参数D设置为32，64，128，256。块中的模糊卷积使用常数乘数λ=1。在解码器中，我们只探索最近的三个点进行特征插值。上采样块中的1 × 1卷积的输出特征尺寸是其对应的编码器特征尺寸的一半。我们没有直接将原始的输入特征馈送到图形架构，而是在两者之间插入一个共享的MLP，以将点云特征大小从6增加到64。 SegGCN直接在解码器中对从G0获得的特征表示进行分类，而不使用进一步的全连接层。4.1. S3dis斯坦福大学大规模3D室内空间（S3DIS）数据集[2]是使用Matterport扫描仪从标准校园的三个不同建筑物中收集的它由6个室内区域的彩色3D点云组成。在这个数据集上定义的任务是关于标记13个语义元素，它们是天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、木板和杂物。任何不属于12个明确定义的类的元素都被视为杂乱。由于区域5与未被其他区域覆盖的建筑物相关[39]，因此我们使用区域5作为测试集进行实验，这也是以前工作的惯例[19，24，28，39，42]。所使用的评估指标包括总体准确度（OA）、所有13个类别的平均准确度（mAcc）、每个类别的交集（IoU）及其平均值（即mIoU）。mIoU被认为是其中最可靠的指标。由于每个室内场景中有数百万个点，我们首先使用网格大小为3cm的VoxelGrid算法[32]对场景云进行子采样。然后，我们将每个场景分割成大小为1的重叠块。5米×1。5米。类似于PointCNN [24]，我们将这种分裂应用于x，y维，但不应用于高度z维。目标是保持高度信息完整。我们在输入特征中的（x，y，z）坐标通过将它们对齐到其对应块的地平面中心来进行归一化。实验结果见表1。可以注意到，SegGCN的性能优于其他竞争性卷积网络，包括SSP+SPG [18]和GACNet[42]其性能主要受益于本地标签一致性。SegGCN的可学习参数大小为3.0M。其批量大小为16的推理时间11619表1.在S3DIS数据集的第五折（区域5）上的性能。SSP+SPG和GACNet使用局部标记一致性约束，而所提出的网络没有。方法OAMACCMiou 天花板地板墙壁梁柱窗户门桌子椅子沙发书柜木板杂物区域5PointNet [28]-49.041.188.897.3 69.80.13.946.310.8 58.9 52.65.940.326.433.2SEGCloud [39]-57.448.990.196.1 69.90.018.438.423.1 70.4 75.9 40.958.413.041.6[38]第三十八话82.562.252.8-------------SPG [19]86.466.558.089.496.9 78.10.042.848.961.6 75.4 84.7 52.669.82.152.2[24]第二十四话85.963.957.392.398.2 79.40.017.622.862.1 74.4 80.6 31.766.762.156.7SSP+SPG [18]87.968.261.7-------------GACNet [41]87.8-62.992.398.3 81.90.020.459.140.9 78.5 85.8 61.770.874.752.8SPH3D-GCN [22] 87.765.959.593.397.1 81.10.033.245.843.8 79.7 86.9 33.271.554.153.7KPConv [40]-70.965.492.697.3 81.40.016.554.569.5 90.1 80.2 74.666.463.758.1SegGCN（Prop.） 88.270.463.693.798.6 80.60.028.542.674.5 80.9 88.7 69.071.344.454.3表2.ScanNet上的3D语义标注：所有网络都使用空间坐标和颜色值作为输入特征。方法Miou 地板壁椅子沙发表门驾驶室床书桌辛劳水槽风pic德国广播公司Curt 显示 Cntr 弗里格浴其他ScanNet [7]30.678.6 43.7 52.4 34.8 30.0 18.9 31.1 36.6 34.2 46.0 31.8 18.2 10.2 50.10.215.2 21.1 24.5 20.3 14.5[29]第二十九话33.967.7 52.3 36.0 34.6 23.2 26.1 25.6 47.8 27.8 54.8 36.4 25.2 11.7 45.8 24.7 14.5 25.0 21.2 58.4 18.3[36]第三十六话39.392.7 69.9 65.6 51.0 38.3 19.7 31.1 51.1 32.8 59.3 27.1 26.70.060.6 40.5 24.9 24.50.147.2 22.7[38]第三十八话43.891.8 63.3 64.5 56.2 42.7 27.9 36.9 64.6 28.2 61.9 48.7 35.2 14.7 47.4 25.8 29.4 35.3 28.3 43.7 29.8[24]第二十四话45.894.4 70.9 71.5 54.5 45.6 31.9 32.1 61.1 32.8 75.5 48.4 47.5 16.4 35.6 37.6 22.9 29.9 21.6 57.7 28.5[44]第四十四话55.694.4 76.2 73.9 63.9 50.5 44.5 47.2 64.0 41.8 82.7 54.0 51.5 18.5 57.4 43.3 57.5 43.0 46.4 63.6 37.2SPH3D-GCN [22]61.093.5 77.3 79.2 70.5 54.9 50.7 53.2 77.2 57.0 85.9 60.2 53.44.648.9 64.3 70.2 40.4 51.0 85.8 41.4KPConv [40]†68.493.5 81.9 81.4 78.5 61.4 59.4 64.7 75.8 60.5 88.2 69.0 63.2 18.1 78.4 77.2 80.5 47.3 58.7 84.7 45.0SparseConvNet [25] 72.595.5 86.5 86.9 82.3 62.8 61.4 72.1 82.1 60.3 93.4 72.4 68.3 32.5 84.6 75.4 87.0 53.3 71.0 64.7 57.2SegGCN（Prop.）58.993.6 77.1 78.9 70.0 56.3 48.4 51.4 73.1 57.3 87.4 59.4 49.36.153.9 46.7 50.7 44.8 50.1 83.3 39.6†KPConv [40]使用相同的硬件在推理阶段分割90K个点需要9.3秒，比SegGCN慢100倍和32分别为150和250毫秒。在单个RTX 2080 Ti GPU上，SegGCN每秒可以处理超过一百万个点我们在图中显示了SegGCN生成的代表性分割的可视化3 .第三章。4.2. ScanNetScanNet [7]是从室内环境中收集的RGB-D视频数据集。它包含各种重建的房间/办公室，具有丰富的3D语义标记L注释。该数据集为40个常见类提供了标签，而其中只有20个用于性能评估，导致21个类被标记为网络。训练/验证/测试集包括1201、312、100个场景，而测试集的地面真值标签是不公开的。研究人员必须在线提交他们的测试结果进行标准评估。我们采用相同的VoxelGrid子采样和分裂策略到S3DIS以准备块数据。表1总结了我们用这些数据进行实验的结果。表中的所有技术都使用空间坐标和颜色值作为输入要素。SegGCN在20个类别中的16个类别上优于其他竞争性卷积方法，导致mIoU的整体显著改善。我们的训练/推理时间与批量大小16是340/160毫秒。4.3. 讨论4.3.1核比较在表3中，我们比较了所提出的模糊球形内核的性能，雷等人的硬球形内核。[21 ]第20段。并与模糊KPConvker-表3.不同内核在S3DIS上的性能。我们使用SPH作为球形核的缩写。比较了硬SPH核和模糊SPH核。我们还比较了原来的模糊KPConv内核，其硬对应在这项工作中实现。建议的SegGCN被用作网络。内核硬SPH模糊SPH硬KPConv模糊KPConvOA88.088.286.987.1MACC69.670.468.768.6Miou62.963.660.561.0nel [40]，它根据相邻点和模板核点之间的距离进行模糊分配。此外，我们还创建了一个硬KPConv内核，它将每个邻居点仅与其最近的模板点（系数为1）相关联。我们根据作者提供的github代码计算KPConv的模板核点1。我们在可分离卷积配置下应用所有内核。使用的网络是我们的，即SegGCN。所有实验的训练/测试数据以及网络的超参数设置唯一的区别是ResNet块中使用的离散内核。原始的KPConv使用基于网格的采样对点云进行子采样，并且由于点云大小因不同的样本而异，因此必须使用实现技巧进行批量归一化。硬球形内核和模糊球形内核的训练/推理时间分别为251/133 ms和314/153 ms，其中模糊内核的执行速度略慢于硬球形内核。然而，它导致在可接受的计算复杂度的显着的性能增益。1https://github.com/HuguesTHOMAS/KPConv11620走廊mIoU = 95.1%Ground truth建议水厕mIoU = 95.7%办公室mIoU = 94.8%地面实况提出的Ground Truth提出图3.在S3DIS数据集上通过建议的SegGCN对代表性分割进行可视化。(Top)13米走廊的分割结果（下）两个独立房间的结果左边是一个普通的厕所。右边是办公室。对于各种场景（从简单到复杂），SegGCN能够有效地分割点云语义。表4.建议的1×1卷积与解码器中基于编码器的2×ResNet块的常见做法所决定的选择之间的性能比较。尽管简单，但建议的1 ×1卷积更有效。解码器卷积#参数MACC Miou时间（ms）火车推断单1×1转换3.0M70.463.63141532×ResNet区块5.6M69.862.9385179图4.模糊核函数与硬内核丢失数据。使用模糊SPH内核和硬SPH内核[21]在8，129个所提出的模糊SPH核在相当大的缺失数据范围内表现出明显的相对稳定性对于我们测试的六种不同的输入大小，模糊核的mIoU/mAcc度量的标准偏差为0.37/0.49，比硬核的1.66/1.65好3倍以上。我们在下面的部分中详细说明模糊机制的进一步优点4.3.2对点密度（缺失数据）的鲁棒性虽然模糊核在mIoU上的性能优于硬核，但其真正的好处在于处理缺失数据或较低的点密度。为了证明这一点，我们让两个SegGCN网络使用模糊和硬球形内核，在8192点上训练他们。我们通过在输入中引入稀疏性来测试这些网络的鲁棒性。我们改变输入大小为8192，7168，6144，5120，4096，3072，相应的，响应于数据丢弃率0，0。125，0。25，0。375，0。五、0的情况。625，分别。我们使用mIoU和mAcc指标显示了图2中这些情况下两个内核的性能。4.第一章结果最终证明了稳定性我们的模糊核在面对丢失的数据，这是一个主要的优势模糊核硬内核。我们注意到，在我们的技术中，除了在密集云上具有高度竞争力的性能之外，还具有高效处理大型点云的能力。4.3.3解码器模块选择为了证明我们在SegGCN的解码器部分中选择1×1卷积的合理性，与复制类似编码器组件的更流行的选择相比，我们进行了一个 ad-reversible 实验。我们将SegGCN中的所有单个1×1卷积替换为类似于编码器的2×表4比较了两个网络的结果。亲-所提出的SegGCN显然比基于解码器的更常见选择的其对应物更有效和高效。5. 结论我们在球面卷积核中引入了一种模糊机制来处理三维点云。我们还提出了一个高效的图卷积网络SegGCN，用于语义分割任务。建议的模糊核，nel证明了对不利的边界条件的鲁棒性，通过删除传统的离散球形核的权重分配。它也被证明是自然的鲁棒性对缺失数据。我们的网络在编码器中利用了类似ResNet的块，在解码器中利用了1×1卷积S3DIS和ScanNet数据集的实验表明，我们的网络每秒可以处理超过100万个点，实现了极具竞争力的性能。本研究得到 ARC Discovery Grant DP190102443 的支持。我们感谢NVIDIA公司捐赠GPU。11621引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会（{OSDI}16）中，第265-283页，2016年。二、六[2] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的3D语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页，2016年。6[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。6[4] 克里斯托弗·M·毕晓普。模式识别和机器学习。SpringerScience+ Business Media，2006. 第1、3条[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。2018年欧洲计算机视觉会议。6[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE conference on computervision and pattern recognition ，第 1251-1258 页， 2017年。二、三[7] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，201

下载后可阅读完整内容，剩余1页未读，立即下载