FPConv：表面风格三维点云分析的新卷积算子

54 浏览量更新于2023-10-25 收藏 1019KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4293FPConv：学习点卷积林益群1，2，严子正1，2，黄海滨4，杜东2，3，刘立刚3，崔曙光1，2，韩晓光1，21香港中文大学深圳分校2深圳大数据3中国科学技术大学4快手科技摘要我们介绍了FPConv，一种新的表面风格的卷积算子设计的三维点云分析。不像以前的方法，FPConv不需要转换到中间表示，如3D网格或图形，直接工作在点云的表面几何。更具体地说，对于每个点，FPConv通过自动学习权重图来执行局部平坦化，以将周围的点柔和地投影到2D网格上。因此，规则的2D卷积可以应用于有效的特征学习。FPConv可以很容易地集成到各种网络架构中，用于3D对象分类和3D场景分割等任务，并实现与现有体积型卷积相当的性能。更重要的是，我们的实验还表明，FPConv可以作为体积卷积的补充，联合训练它们可以进一步将整体性能提升到最先进的结果。代码可在https://github.com/lyqun/FPConv上获得1. 介绍随着三维扫描设备的快速发展，以点云的形式生成和访问三维数据变得越来越容易。这也带来了强大而高效的3D点云分析的挑战，这是许多现实世界应用中的重要组成部分，如机器人导航，自动驾驶，增强现实应用等[35，52，3，38]。尽管3D分析技术已经发展了几十年，但由于点云的稀疏和无序结构，执行基于点云的语义分析仍然具有相当大的挑战性。早期的方法[7，8，11，28]利用具有复杂规则的手工制作的特征来解决这个问题。通讯作者：hanxiaoguang@cuhk.edu.cn图1：展平投影卷积：将局部面片展平到网格平面上，然后应用2D卷积。莱姆这种经验性的人类设计的特征在一般场景中会受到有限的性能最近，随着机器学习和深度学习技术的爆炸式增长，基于深度神经网络（CNN）的方法已被引入到这项任务中[36，37]，并显示出有希望的改进。然而，PointNet [36]和PointNet++[37]都2D CNN的直接扩展是将3D空间视为体积网格，并使用3D卷积进行分析[49，39]。尽管这些方法在目标分类和室内语义分割等任务中取得了成功[30，9]，但它们仍然存在诸如内存需求的立方增长率和高计算成本等限制，导致大规模场景的分析不足和预测精度低最近，[48，44]提出了用基于点的卷积运算来近似这种体积卷积，这大大提高了效率并保持了输出精度。然而，这些方法仍然很难捕捉表面上的精细细节相对平坦和薄的结构。实际上，3D传感器和LiDAR捕获的数据4294通常是稀疏的，点落在场景表面附近，几乎没有点在内部。因此，表面是更自然和紧凑的三维数据表示。为此，像[10，51]这样的作品建立了点之间的连接，并在相应的谱域中应用图卷积，或者专注于由图[40]表示的表面，这通常是不切实际的，并且对局部拓扑结构敏感最近，[43，33，18]提出在指定的2D平面上学习卷积受这些开创性工作的启发它直接作用于几何体的局部表面，不需要任何中间网格或图形表示.类似于[43]，它以投影插值的方式工作，但更一般和隐含。我们的关键观察是，投影和插值可以简化为一个单一的权重映射学习过程。FPConv学习如何沿局部表面扩散每个点的卷积权重，而不是将卷积投影到切平面[43]上，这对各种输入数据更具鲁棒性，并大大提高了表面风格卷积的性能。作为一个局部特征学习模块，FPConv可以进一步与经典神经网络结构中的其他操作集成，并可用于各种分析任务。我们演示了FPConv对3D对象分类以及3D场景语义分割。使用FPConv的网络优于以前的表面风格方法[43][18][33]，并与当前最先进的方法取得了相当的结果。此外，我们的实验还表明，FP-Conv在相对平坦的区域表现更好，因此可以作为体积类型作品的补充，联合训练有助于将整体性能提升到最先进的结果。概括起来，这项工作的主要贡献如下：• FPConv，一种用于高效3D点云分析的新型曲面风格卷积• 与之前基于卷积的表面风格方法相比有显著改进，性能与最先进的体积风格方法在分类和分割任务中。• 深入分析和比较了曲面式卷积和体卷积，论证了它们的互补性和联合性训练使表演达到最先进的水平。2. 相关工作基于深度学习的3D数据分析是近年来的一个研究热点在本节中，我们主要重点放在点云分析和简要回顾以前的工作，根据他们的底层方法。体积式点卷积由于点云在3D空间中无序分布，没有任何规则的结构，因此先锋将样本点放入网格中进行传统的3D卷积应用，但受到高计算负载和低表示效率的限制[30，49，39，41]。PointNet [36]在每个点上单独提出了一个共享MLP，然后是全局最大池化，以提取输入点云的全局特征。[37]用点集的嵌套分区扩展它，以分层学习更多的局部特征，许多作品遵循MLP近似点卷积[24，25，16，46]。然而，采用这样的表示法不能很好地反映当地的特点.最近的工作定义了显式卷积核的点，其权重直接学习像图像卷积[17，50，12，2，44]。其中，KPConv [44]提出了一种具有任意数量核点的空间可变形点卷积，该点卷积既简化了变化的密度又降低了计算成本，在点分析任务上优于所有相关方法。然而，这些容积式方法可能无法很好地捕获均匀区域。当点之间的关系已经建立，一个图形风格的卷积可以应用于探索和研究点云更有效地比体积风格。图上的卷积可以定义为在其谱域中的卷积。[6、15、10]。ChebNet [10]采用Chebyshev多项式基来表示光谱滤波器，以减轻显式计算图形傅立叶变换的成本。Fur-2010，[20]使用谱图卷积的局部一阶近似对图结构数据进行半监督然而，这些方法都依赖于特定的图结构.然后 [51] 介绍了扩张卷积核的频谱参数化和频谱Transformer网络，在相关但不同的形状结构之间共享信息。与此同时，[29，5，40，32]专注于流形表面表示的图形学习以避免谱域操作，而[45，47]则在边缘关系而不是点相对位置上学习滤波器。虽然图卷积结合了局部表面补丁上的特征，并且可以对欧氏空间中的变形保持不变。然而，不同点之间的合理关系并不容易建立。由于3D传感器捕获的数据通常表示表面，因此另一种主流方法试图直接在表面几何上操作。大多数工程项目的形状表面包括点的中间网格结构，例如。多视图RGB-D图像，随后进行常规卷积4295.F3.1. 学习局部展平记法：设p是点云P中的一个点，F（p）是定义在点上的标量函数。这里，F（p）可以对来自中间网络层的诸如颜色、几何形状或特征的信号进行编码。We表示N（p）为，以p为中心的点云面片，其中N（p）=qi=.q i−p。 ||qi-p||2<ρ，qi、其中ρ∈R是图2：展平模块与传统方法的比较：我们设计了一个模块来直接学习局部展平，而不是分别学习投影和插值。[13、26、31、4、22]。这些方法往往遭受的冗余表示的多视图和amubiguity所造成的不同的观点。[43]提出了将每个点的局部邻域投影到其局部切平面并使用2D卷积处理它们，这对于分析大规模和室外环境的密集点云然而，该方法严重依赖于点切线估计，并且该线性投影对于复杂区域并不总是最佳的[33]采用平行切向坐标系优化计算，[18]采用4-旋转对称场定义曲面上的卷积域，既提高了稳健性，又充分利用了细节信息。然而，前表面式学习算法在S3DIS [1]和ScanNet等挑战数据集上不能很好地执行选择半径局部表面卷积：为了使F围绕曲面卷积，我们首先将其扩展为连续曲面上的连续函数。我们引入具有连续信号S（u）的虚拟2D平面S以及映射π（·），它将N（p）映射到S上，S（π（qi））=F（qi）（1）p处的卷积定义为：∫X（p）= c（u）S（u）du（2）S其中c（u）是卷积核。我们现在描述如何将上述卷积公式化为权重学习问题。通过学习投影权重进行局部平坦化：如Eq. 3，其中hπ（·），N（p）将被映射为S中的散点，因此我们需要一种插值方法来估计全信号函数S（u），如等式3所示。3 .第三章。Σ。Σ。Σ[9]，因为它们丢失了一维信息，并且它们不能准确地估计表面。S（u）=w u，π（qi）S我π（qi）（三）我们的方法的灵感来自表面风格的点卷积。该网络为每个局部块学习非线性投影，例如将局部邻域点平坦化为2D网格平面。然后可以应用如果我们把S离散成一个网格平面。e的大小为Mw×Mh。对于每个网格S（v，j），其中j在1，2，.， M w×Mh 我们可以从EQ 1和等式第三章：Σ用于特征提取。虽然在表面上学习会丢失一维信息，但FPConv仍然实现了com-S（vj）=.wjiF（qi）（4）我Σ比喻性能与现有的体积式卷积。此外，我们的FPConv可以集成到体积风格的卷积中，并实现最先进的结果。其中w ji= w v j，π（q i）。此外，我们可以重写当量2的近似离散化形式为：∫X（p）=c（u）S（u）duΣSΣ3. FPConv=cjJI.wjiF（qi）Σ（五）在本节中，我们正式介绍FPConv。首先，我们重新定义沿点云曲面的卷积，=McWT×F（p）4296面，然后表明它可以简化为离散设置下的权重学习问题。所有推导都以点云的形式提供。其中.cj是离散化的卷积核权重，并且1，2，.，Mw×M h。. 设L_∞=Mw×Mh，W_f∈RN× L，W_f（i，j）=w_v_j，π（q_i），F（p）=4297i·2图3：在以点p为中心的局部区域上执行FPConv的过程。输入坐标和特征来自在半径范围p内随机选取的N个相邻点。输出为Foutatp。二进制稀疏连续稀疏图4：左：二进制稀疏性，每个位置的强度应该是0或1。右：连续稀疏，强度可以在0到1的范围内。局部区域内的点接收到的信号是变化的，这会破坏神经网络的稳定性，使训练难以收敛。为了平衡网格平面的特征强度，我们进一步介绍了两种学习投影权重的归一化稠密网格平面：设投影权矩阵为W∈R（N×L）.获得密集网格平面的一种可能的方式是在第一维度处通过除以W来归一化W。它们的总和以确保在每个像素处接收的强度的总和等于1。这类似于双线性插值法.在我们的实现中，我们使用softmax来避免被零除，这在等式中示出。六、.ΣTF（q1），.，F（qN）∈RN× C。现在我们可以看到eWij投影和插值可以组合成单个权重矩阵Wf，其中它仅取决于点位置。Wij=Nk=1（六）eWkj关于中心点。3.2. 执行根据等式5，我们可以设计一个模块来直接学习二、我们还希望此模块具有两个属性：首先，由于局部点云是无序的，因此它应该对输入的排列具有不变性; 2其次，它应该对输入的几何形状具有自适应性，因此投影应该结合局部块的局部坐标和全局信息。因此，我们首先使用pointnet [36]来提取局部区域的全局特征，即分布特征，它对排列是不变的。然后，我们将分布特征连接到每个输入点，如图所示。3 .第三章。之后，采用共享MLP来预测最终投影权重。在投影之后，在所获得的网格特征平面上应用2D卷积。为了提取局部特征向量，可以在2D卷积网络的最后一层上应用全局卷积或池化。然而，当特征强度的总和被计算时，网格平面中的像素的特征强度可能不平衡。稀疏网格平面：由于点云的自然稀疏性，归一化投影权重以获得密集网格平面可能不是最佳的。在这种情况下，我们设计了一个两步归一化，它可以保持投影权重矩阵的稀疏性，然后是网格平面。此外，我们对我们提出的两种归一化技术进行了消融研究。第一步是在第二维进行归一化，以平衡局部相邻点给出的强度。在这里，我们加上一个正的整数，以避免被零除。如等式1所示。在图7中，Wi表示W的第i行。W=Wij（7）IJ||W||+第二步是在第一维度归一化以平衡在每个像素位置处接收的强度。它可以实现类似于第一步除以每列的总和然而，我们选择了另一种方法，如等式所示。其中W·j表示W的第j列。连续稀疏性和二进制稀疏性的例子如图所示。4.第一章4298.I2图5：大型场景分割的网络架构：我们的分割体系结构由4个下采样层组成，用于多尺度分析，并应用跳跃连接来组合来自编码器和解码器的特征。图6：残差FPConv块：捷径连接处的操作是可选的，只有当D out不等于D in时才需要共享MLP，这与投影捷径类似[14]。FPS（法拉第点采样[37]）和池化是下采样所必需的。Wij图7：并行残差块：结合不同类型的卷积核（曲面卷积或体积卷积）进行融合。对任意yi∈Pm..ΣW ij=.Σ（8）Fout（yi）=合并F（Pneb）（九）4. 架构Max||二、一||2,1具有 FPS 的 FPConv ：类似于池化操作，该块将FPConv应用于下采样点云的每个点，并在整个点云上搜索邻居，如图所示4.1. 残差FPConv块为了构建一个用于分割和分类的深度网络，我们开发了一个校验设计残差FPConv由方程式10个。.Fout（yi）=FPConvΣF（ Pneb）（十）如图所示，受[14]启发的块。六、此块将点云作为输入，应用共享MLP、FP- Conv和共享MLP的堆栈，其中共享MLP负责用于减少然后增加（或恢复）维度，类似于残差卷积块中的1×1卷积[14]。4.2. 多尺度分析如图6和图5、我们为多尺度分析设计了其他远距离点采样：我们使用迭代最远点采样来对点云进行下采样。正如PointNet++ [37]中所提到的，与随机抽样相比，FPS在给定相同数量的质心的情况下对整个点集具有更好的Pooling：我们使用max-pooling来对局部特征进行分组。给定一个输入点云Pn和一个下采样点云Pm及其相应的特征Fn和Fm，我们将Pm中每个点的邻居分组，半径为r并在feat上应用池化运算符。分组点集a，s上采样：我们使用K近邻插值通过欧氏距离对点云进行上采样。给定一个具有特征Fm的点云Pm和一个目标点云Pn，我们通过插值在Pm上搜索到的K个相邻点来计算Pn中每个点的特征。在上采样阶段，跳过连接并共享MLP用于融合来自编码器和解码器的特征K最近邻上采样和共享MLP可以通过去卷积来代替，但它不会导致[44]中提到的显著改善，因此我们在实验中不采用它。架构如图所示。5是专为大型场景分割，包括四层下采样和上采样多尺度分析。对于分类任务，我们在下采样的最后一层上应用全局池化来获得表示全点云的全局特征，然后使用全连接网络进行分类。4.3. 融合两个卷积作为我们的主要贡献之一，我们还试图回答一个问题如Eq.9，其中PNeb=x. ||x−y||

下载后可阅读完整内容，剩余1页未读，立即下载