回收最大池化模块:解决3D点云特征丢失的问题，提高点云分析模型性能

160 浏览量更新于2023-10-25 收藏 13.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{jchen152, bkakilli, hren11, svelipas}@syr.edu*N PointsPoint Feature Aggregation and LearningLayer 1Layer 2Layer kN Point Feature Matrix NxMUtilized N1 Points FeatureIgnored N2 Points FeatureMax PoolingPermutation InvariantFeatureSegmentationClassificationDiscardedMUtilized FeatureMissed Feature5590为什么要丢弃，如果可以回收？：一种用于3D点云分析的回收最大池化模块0Jiajing Chen, Burak Kakillioglu, Huantao Ren, Senem Velipasalar雪城大学，电气工程与计算机科学系，纽约州，美国0摘要0近年来，大多数3D点云分析模型都集中在开发新的网络架构或更高效的模块，用于从局部邻域聚合点特征。无论是网络架构还是用于改进特征学习的方法，这些模型都有一个共同点，即在最后使用最大池化来获得排列不变特征。我们首先展示了这种传统方法只有一小部分3D点贡献到排列不变特征中，而丢弃了其余的点。为了解决这个问题并提高基线3D点分类或分割模型的性能，我们提出了一个新的模块，称为RecyclingMax-Pooling（RMP）模块，用于回收和利用一些被丢弃点的特征。我们引入了一个细化损失，使用回收的特征来细化传统最大池化得到的预测损失。据我们所知，这是第一个探索通过最大池化传统丢弃的仍然有用的点的回收的工作。我们通过将其纳入几个里程碑基线和最先进的点云分类和室内语义分割网络中来证明所提出的RMP模块的有效性。我们展示了RPM在相同的基础网络实现和超参数下，不需要任何花哨的东西，始终提高了所有测试网络的性能。代码在补充材料中提供。01. 引言0近年来，3D点云数据分析在自动驾驶、机器人等领域有广泛的应用。0*此处提供的信息、数据或工作部分资助来自国家科学基金会的1816732号资助和高级研究计划署能源（ARPA-E）的DE-AR0000940号奖励。作者在此表达的观点和意见不一定代表或反映美国政府或其任何机构的观点和意见。0图1.动机。在大多数基于点的模型中，经过几层邻居特征聚合和学习后，得到一个N×M的特征矩阵，其中N是点的数量，M是每个点的维度。最后进行最大池化以获得排列不变特征。最大池化只保留部分点的特征（红色框），而完全丢弃一些点的特征（所有紫色行）.0同时定位和建图（SLAM）。随着3D传感器的日益普及，基于深度学习的3D点云处理在过去几年取得了重大进展。然而，与2D结构化图像数据不同，3D点云数据是一组无序点，并且具有不同的基数。因此，传统的卷积神经网络（CNN）不能直接应用于3D点云数据。PointNet[12]是一项开创性的3D点云分析工作，使用端到端的深度学习。它使用最大池化操作作为对称函数，从3D点云中获取排列不变特征。每个点都由共享的多层感知器（MLP）独立处理，不考虑相邻点的局部关系。为了解决这个问题，后来的工作提出了其他网络结构或改进的点特征聚合方法[13, 14,22, 24,27]，但仍然使用相同的最大池化操作。然而，随着点特征聚合模块变得更加复杂，整个网络的计算成本也增加了。5600因为它需要经过多个邻居特征聚合层来学习良好的特征表示。大多数现有方法的一个共同主题是它们使用传统的最大池化。图1说明了最大池化操作，红色和紫色框分别是保留和丢弃的特征。对于每个M个特征，N个点中具有最高值的特征被保留。因此，一些点（全部紫色行）在这个过程中没有贡献，因为它们的特征都没有包含在最终的排列不变特征向量中。此外，对于大多数点云分类或分割网络，主要的计算负载是由于邻居特征聚合或点特征学习模块。最后，如果只有一小组点对最终预测向量有贡献，而其余的点特征被丢弃，那么这也是对计算资源的低效利用。因此，如果可以回收，为什么要丢弃？为了回收这些宝贵的被丢弃特征集，这些特征通常是通过一些复杂的特征聚合和学习模块或复杂的网络结构获得的，我们提出了一种新颖的循环最大池化（RMP）模块。所提出的RMP模块在前一个最大池化步骤中被丢弃的点之间执行重复的最大池化操作，以获得相应的排列不变特征进行训练。所提出的RMP模块使用从被丢弃的点获得的新的排列不变特征集来改进通过第一个最大池化操作获得的原始特征集，并提高原始网络的性能。本文的主要贡献包括以下几点：0•我们首先展示了许多基线方法在使用传统的最大池化后丢弃了大部分点，这影响了模型的性能。0•我们还表明，被丢弃的特征确实提供了可比较的性能，与基线模型保留的特征相比，当它们单独使用时。因此，不仅出于计算原因，而且出于性能原因，丢弃它们是浪费的。0•我们提出了一种新颖的循环最大池化模块（RPM），以回收这些仍然具有信息量的特征，以提高性能。据我们所知，这是第一个探索回收被丢弃点特征并研究如何利用更大部分点云的工作。0•我们的方法允许在训练过程中仅对原始的排列不变特征进行细化，以提高基线网络的性能。0•我们在多个数据集上提供了广泛的实验结果和与多个里程碑和最先进（SOTA）方法的比较，包括ModelNet40[23]，ScanObjectNN [21]和S3DIS [1]。结果显示0当将提出的RPM模块应用于这些网络时，它在点云分类和室内点云语义分割任务上始终提高了性能。02. 相关工作0CNNs已经被证明在涉及2D图像的任务上表现良好，例如图像分类[7, 18]，目标检测[15, 16]和语义分割[10,17]。然而，与2D图像不同，3D点云数据是无结构的，使得CNNs不容易应用于涉及3D点云的任务。为了解决这个问题，PointNet[12]表明可以通过对称函数从3D点云中获得排列不变特征，并使用最大池化操作来实现这一目的。基于这个想法，提出了许多后续方法[12, 22, 24,25]，所有这些方法在模型的末尾都使用了最大池化。与[26]中的调查类似，我们将点云分析方法分为3类：(i)基于多视图的模型；(ii)体积模型；(iii)基于点的方法。i.基于多视图的模型通常通过投影将3D点云数据转换为2D图像，然后应用现有的2D图像处理模型进行预测。[19]提出了一种多视图CNN（MVCNN），通过首先从不同的视角将3D点云投影到2D图像中，然后使用CNN模型从这些2D图像中提取特征来执行3D点云分类和分割。为了解决由于3D到2D投影而导致的信息丢失问题，SnapNet[2]通过对点云进行快照，生成RGB和深度图像对，并在深度图像的帮助下执行点云语义分割。最近的一个基于多视图的方法SimpleView[6]表明，训练策略的选择，如学习率衰减，优化器选择等，对网络的性能有显著影响。它首先将点云投影到六个正交平面上创建稀疏深度图像，然后使用ResNet[7]进行分类，达到了SOTA的准确性。ii.体积模型首先将无结构的3D点云数据转换为体素网格，然后使用3D CNN进行分类和分割。VoxNet[11]是一个早期的基于体素的模型，将3DCNN应用于体素化的点云数据。然而，大内存需求和长训练时间是这种方法的主要缺点。SEGCloud[20]首先将点云转换为粗糙的体素，3D全卷积网络在这些体素上进行预测，然后将预测结果通过三线性插值传递回原始的3D点。PointGrid[8]是一种基于3D卷积的方法，它将空间划分为多个网格单元。从每个网格单元中选择固定数量的点，允许网络学习更高阶的局部逼近函数。与大多数点云分类或分割网络一样，现有方法的一个共同特点是它们使用传统的最大池化。图1说明了最大池化操作，红色和紫色框分别是保留和丢弃的特征。对于每个M个特征，N个点中具有最高值的特征被保留。因此，一些点（全部紫色行）在这个过程中没有贡献，因为它们的特征都没有包含在最终的排列不变特征向量中。此外，对于大多数点云分类或分割网络，主要的计算负载是由于邻居特征聚合或点特征学习模块。最后，如果只有一小组点对最终预测向量有贡献，而其余的点特征被丢弃，那么这也是对计算资源的低效利用。因此，如果可以回收，为什么要丢弃？为了回收这些宝贵的被丢弃特征集，这些特征通常是通过一些复杂的特征聚合和学习模块或复杂的网络结构获得的，我们提出了一种新颖的循环最大池化（RMP）模块。所提出的RMP模块在前一个最大池化步骤中被丢弃的点之间执行重复的最大池化操作，以获得相应的排列不变特征进行训练。所提出的RMP模块使用从被丢弃的点获得的新的排列不变特征集来改进通过第一个最大池化操作获得的原始特征集，并提高原始网络的性能。本文的主要贡献包括以下几点：5610将点划分为笛卡尔体素，Cylinder3D[28]将点划分为圆柱体素。这种方法更适用于大规模和稀疏分布的点云。0iii.基于点的模型直接以原始3D点作为输入。通过执行最大池化操作，获得了排列不变特征。PointNet[8]是该类别中的开创性工作。然而，对所有点执行最大池化操作会导致丢失一些局部信息。为了解决这个问题，PointNet++[13]使用了分层结构。首先进行最远点采样（FPS），将点云分组为每个层次的局部邻域。然后在每个组上运行共享的PointNet，并将所有邻域聚合在一起进行最终的分类和/或分割。DGCNN[22]提出了一种动态边卷积，其中每个点的特征是基于其自身不同层次上不断变化的K最近邻邻域计算的。DPFA[3]采用了DGCNN的结构，但使用了注意机制来聚合相邻点的特征。GDANet[25]引入了几何解缠模块，将点云动态解缠为3D对象的轮廓和平面部分。在每个层次中，轮廓部分和平面部分的特征用于改进所有点的特征以进行最终预测。CurveNet[24]提出了一种新颖的点特征聚合方法，并在ModelNet40[23]数据集上提供了SOTA性能。在每个层次中，点学习如何组成曲线，并学习曲线的特征以进行最终预测。03. 循环最大池化（RMP）模块0我们的循环最大池化（RMP）模块旨在改善在3D点云处理过程中使用最大池化操作的网络的性能。RMP模块不仅仅执行一次最大池化操作，还在前一次最大池化阶段丢弃的点之间重复执行最大池化操作。这样，多个级别收集到的排列不变特征被回收利用，以改进原始模型的性能，原始模型仅使用第一次最大池化操作后保留的特征。RMP模块的动机在第3.1节中提供。03.1. 动机0我们首先对使用传统的最大池化方法丢弃或利用的点的百分比进行分析。我们的研究得出两个关键发现：(i)传统的最大池化丢弃的点在单独使用时可以提供可比较的性能，(ii) 模型的预测准确性与点的利用率相关。0图2.一次最大池化后保留点数的分布。不同模型的分布具有不同的均值。较浅和较深的阴影分别表示训练开始和结束时的值。03.1.1 点利用分析0现有的基于点的模型专注于开发不同的点特征学习和邻居特征聚合模块（通常随着复杂性的增加），但最终仍然使用相同的最大池化操作来实现排列不变性。如图1所示，最大池化操作完全丢弃了某些点的特征。为了分析被丢弃的点的百分比及其对模型性能的影响，我们对PointNet、PointNet++和DGCNN进行了实验。选择这三个基线模型是因为大多数基于点的方法都是基于这三个网络开发的。训练后，我们在ModelNet40分类数据集上测试PointNet、PointNet++和DGCNN，并记录传统最大池化后保留的点数。表1显示了最大池化后保留点数的均值和标准差（stdev），还显示了三个不同模型的准确性。对于所有模型（除了PointNet++），最大池化前的点数为1024。对于PointNet++，每层采样固定数量的点，因此最大池化前有256个点。不同模型具有不同的均值，但都具有较小的标准差值。还可以看出，预测准确性与点利用率呈正相关，表明明智地回收一些被丢弃的点有可能提高预测准确性。图2显示了不同模型最大池化后保留点数的分布，较浅和较深的阴影分别表示训练开始（模型具有随机权重时）和结束时的值。训练结束时的分布是训练前分布向右移动的版本，表明训练过程中找到了具有有用特征的各种点，并增加了最大池化后保留的点数。这提供了回收一些被丢弃点的动机。更多动机请参见第3.1.2节。MaxPoolingMaxPoolingMaxPoolingMaxPoolingN Input PointsPoint Feature Aggregation and LearningLayer 1Layer 2Layer k5620模型最大池化前点的数量平均保留点的数量的平均值保留点的数量的标准差保留点的百分比准确率0PointNet 1024 335.8 39.6 32.80% 90.12%0PointNet++ 256 184.2 15.2 72.00% 93.07%0DGCNN 1024 456.5 30.5 44.60% 92.51%0表1. 使用传统最大池化的不同模型的点利用率分析。stdev 是标准差。不利用大多数点的模型准确率较低。0我们还分析了每个类别在最大池化后保留的点的数量。在记录了每个类别每个样本的利用点数后，我们对数据进行了正态分布测试[4,5]。对于这三个模型，大多数（32到33）40个类别中的点选择后的数量符合正态分布（附录材料中提供了一张表）。我们可以观察到，最大池化后保留的点的数量与样本形状的复杂性有关，即对于更复杂的形状，保留更多的点来表示形状信息，反之亦然。在这些发现之后，在下一节中，我们分析这些被丢弃的点及其特征是否对任务有用。03.1.2 被丢弃点的潜力分析0为了分析被丢弃点的潜力，我们通过仅使用它们的置换不变特征（通过重复应用最大池化获得）进行了在 ModelNet40上的分类任务实验。如图1所示，使用基于点的方法，在几个特征聚合层之后，得到一个点特征矩阵 Pf1 ∈ RN1×M0在第一个最大池化之前，获得了 N1 个点的数量，M是特征维度。在第一个最大池化之后，获得了一个置换不变的特征向量 F1 ∈ RM，以及被丢弃点的特征矩阵 Pf2 ∈RN2×M，其中 N2是第一个最大池化之后被丢弃的点的数量。然后，我们对Pf2 进行最大池化，得到 F2 ∈RM。这个回收过程可以重复 n 次，得到第 n级的置换不变特征向量 F n ∈RM。为了探索不同级别的置换不变特征的潜力，我们分别为 PointNet、PointNet++ 和 DGCNN 获得了 F1、F2 和F3，并将它们单独用于 ModelNet40分类任务的测试。在表2中提供了使用 F1、F2 和 F3获得的准确率值。对于这三个模型，F2 和 F3本身提供的性能与 F1非常相似和可比较，然而所有现有的模型，据我们所知，只在最终预测时使用F1，而这些被丢弃的点确实具有有用的特征应该被回收。0模型使用 F1 使用 F2 使用 F30PointNet 90.12% 89.64% 89.56%0PointNet++ 93.06% 92.76% 92.92%0DGCNN 92.51% 92.22% 92.01%0表2. 当仅使用置换不变特征 F1、F2 和 F3 时获得的分类准确率。03.2. 回收最大池化模块0受第3.1节中的发现的启发，我们提出了回收最大池化（RMP）模块，通过回收传统最大池化丢弃的点来增加利用点的百分比，用于训练。使用第3.1.2节中引入的符号，通过简单地连接或相加来组合 F1、F2、...、Fn并不是最理想的方法，这也得到了我们的实验支持（请参见附录材料）。相反，我们提出的RMP模块首先通过回收被丢弃的点获得F1、F2、...、Fn，然后通过设计一个分层损失函数来改进F1，如图3所示。该损失函数包括分类损失和改进损失，具体描述如下：0循环最大池化模块0分类损失0细化损失0图3.提出的RMP模块。在点特征聚合和学习之后，通过不同级别的排列不变特征获得分类损失和细化损失。03.2.1 分类损失分类损失Lc1，Lc2，...，Lcn是基于排列不变特征F1，F2，...，Fn的各自预测计算的。Lci是ˆyi和yi之间的交叉熵损失，其中yi是独热编码的真实值，ˆyi是基于Fi得到的软最大预测，i∈{1，...，n}。然后，分类损失定义为：0Lc =0i=1Lci. (1)0由于在每个循环最大池化级别上采样了不同的点特征集，并且分类器是在这些不同的点批次上进行训练的，这使得分类器能够学习和更好地推广。̸ChairBedToilet5630由于在每个循环最大池化级别上采样了不同的点特征集，并且分类器是在这些不同的点批次上进行训练的，这使得分类器能够学习和更好地推广。03.2.2 细化损失0在[9]中，使用增强网络来转换输入点云。然后，通过将增强数据馈送到目标推进网络来获得增强损失，用于改进原始损失。受此启发，我们设计了我们的细化损失函数，通过F2，F3，...，Fn来细化F1。与[9]不同，我们不使用另一个网络来改进目标网络。相反，我们只进行几层最大池化，并使用在每个循环层获得的排列不变特征Fi（i≠1）来细化F1。根据第3.1.2节和表2中的分析，仅使用Fi（i∈{2，..，n}）获得的准确性低于使用F1获得的准确性，这意味着Lci >Lc1。因此，我们将循环级别i的细化损失定义如下：0Lri = 1 - e(Lci - ρiLc1) (2)0ρi = αi ∙ e(�km=1ym∙ˆym), (3)0其中αi >1，k是类别数，ym和ˆym分别是基于F1的真实值和预测值。在训练过程中，通过最小化Lc1，Lc2，...，Lcn来减小分类损失。通过结合ρi，方程（2）促进Lc1 =0。在训练的早期阶段，特征还不太可靠，这可能使得细化损失的效果不那么明显。因此，我们根据方程（3）动态调整ρi。当预测结果不好时，即�km=1ym∙ˆym≈0，那么ρi =αi。这将更多地关注基于F1，F2，...，Fn的预测结果。当每个级别的预测性能稳定时，ρi增加，F1开始通过F2，...，Fn进行细化。整体细化损失定义为Lr =�ni=2Lri。将分类损失（Lc）和细化损失（Lr）结合起来，最终损失函数定义为：0L = (1 - λ) ∙ Lc + λ ∙ Lr, (4)0其中λ确定了细化损失的权重。04. 实验0为了证明所提出的RMP模块具有普适性，并且可以提高各种网络的性能，我们将RMP模块应用于几个重要的工作和最新的SOTA方法，用于点云分类和室内语义分割。在所有实验中（除了消融研究），我们进行两次最大池化（n =2），即只使用一个额外的循环层。因此，与训练原始网络相比，RMP模块不会引起显著的开销。正如[6]中所述，训练设置对网络的性能有很大影响。为了进行公平和可比较的比较，所有模型都在同一台机器上以相同的配置进行训练。分类实验的准确性在没有任何投票的情况下进行评估，即准确性= T0T +F，其中T和F分别表示真实分类和错误分类。这样做是为了仅展示我们提出的RMP模块所提供的性能改进。因此，此处报告的原始模型准确度可能与相应论文中报告的略有不同。在训练过程中，当模型的性能接近收敛时，准确度值往往会波动。因此，从所有训练时期记录的最高准确度值并不能总是反映出网络的学习能力。因此，我们还报告了平滑准确度，其通过以下公式计算：0SA n = β ∙ SA n − 1 + (1 − β) ∙ A n，(5)0其中SA n和An分别表示第n个时期的平滑和最高准确度值。β ∈ [0,1]，此处设置为0.99。04.1. ScanObjectNN上的点云分类0在这个实验中，我们评估了几个里程碑基线和SOTA方法，包括CurveNet [24]，DPFA [3]，GDANet [25]，DGCNN[22]，PointNet++ [13]和PointNet[12]，以及有无我们提出的RMP模块。我们在ScanObjectNN数据集[21]上进行点云分类，不包括背景。该数据集包含来自15个类别的15,000个对象。图4显示了该数据集中的一些示例对象。可以看出，缺失的对象部分和点的非均匀分布使得该数据集更具挑战性。表3显示了不同SOTA网络在使用和不使用我们提出的RMP模块时的准确度值。0图4. 来自ScanObjectNN数据集的示例对象。AirplaneVaseTentPointNet90.12%88.73%PointNet++93.06%90.69%DGCNN92.51%91.30%GDANet92.30%90.59%DPFA93.10%91.38%CurveNet92.82%92.55%PointNet (+RMP)90.60% (↑0.48%)88.74% (↑0.01%)PointNet++ (+RMP)93.27% (↑0.21%)92.26% ( ↑1.57%)DGCNN (+RMP)93.15% (↑0.64%)91.69% (↑0.39%)GDANet (+RMP)93.27% (↑0.97%)91.70% (↑1.2%)DPFA (+RMP)93.67% (↑0.57%)91.84% (↑0.46%)CurveNet (+RMP)93.42% (↑0.6%)92.98% (↑0.43%)5640模型名称最高准确度平滑准确度0PointNet 79.39% 76.82%0PointNet++ 88.17% 84.75%0DGCNN 83.10% 79.95%0GDANet 84.23% 81.29%0DPFA 84.24% 80.73%0CurveNet 83.84% 81.52%0PointNet（+RMP）80.57%（↑1.18%）77.43%（↑0.61%）0PointNet++（+RMP）89.02%（↑0.85%）85.38%（↑0.63%）0DGCNN（+RMP）87.0%（↑3.97%）82.42%（↑2.47%）0GDANet（+RMP）86.27%（↑2.04%）82.75%（↑1.46%）0DPFA（+RMP）85.93%（↑1.69%）81.94%（↑1.21%）0CurveNet（+RMP）85.54%（↑1.7%）81.93%（↑0.41%）0表3.在ScanObjectNN数据集上的分类结果。提出的RMP模块在最高和平滑准确度值上都提供了一致的改进。黑体字和蓝色字分别表示最佳性能和最高增加。0表格显示了不同SOTA网络在使用和不使用我们提出的RMP模块时的准确度值。可以看出，对于所有六个模型，提出的RMP模块在最高（高达3.97%）和平滑准确度值上都提供了一致的改进。另一个观察结果是，与其他五个模型相比，RMP对PointNet++的改进最小。这是预期的，因为PointNet++在第一个最大池化操作之前进行了几次采样。如表1所示，PointNet++在第一个最大池化操作之前只有256个点，之后256个点中的72%已经用于预测。因此，剩下的点的数量较少，减少了可用于回收的有用特征的数量。04.2. Modelnet40上的点云分类0在这个实验中，我们在Modelnet40[23]数据集上评估了与上述实验相同的基线模型，有无我们提出的RMP模块进行分类。该数据集包含12,311个涵盖40个人造物体类别的CAD模型，分为包含9,843个对象的训练集和包含2,468个对象的测试集。图5显示了该数据集的一些示例。表4显示了不同SOTA网络在使用和不使用我们提出的RMP模块时的准确度值。可以看出，对于所有六个模型，提出的RMP模块在最高和平滑准确度值上都提供了一致的改进。0图5. ModelNet40数据集的示例对象0模型名称最高准确率平滑准确率0表4.ModelNet40数据集上的分类结果。提出的RMP模块在最高和平滑准确率值上都提供了一致的改进。黑体和蓝色字体分别表示最佳性能和最大增加。0通过比较表3和表4，可以看出在ScanObjectNN数据集上，提出的RMP模块相对于原始网络提供了更高的准确率改进。这可以解释为ScanObjectNN数据集中的点分布更加不规则，对象存在缺失部分。因此，仅保留一个最大池化后的点特征可能不足以完整地表示对象的形状信息。通过学习在不同层次获得的置换不变特征，可以获得更完整的形状信息。04.3. S3DIS上的语义分割0在ScanObjectNN和Modelnet40数据集上进行分类任务的六个模型中，PointNet、DGCNN和DPFA在其论文中提供了基于最大池化的语义分割网络结构。因此，我们还将我们的RMP模块集成到这三个模型上，以在不同的语义分割任务上进行评估。PointNet++也具有语义分割结构，但其分割模型基于插值和上采样，而不是最大池化。因此，PointNet++不包括在语义分割实验中。S3DIS数据集[1]是一个大型室内点云数据集。它包含6个区域，覆盖271个房间。每个点属于13个类别之一：{杂乱, 天花板, 地板, 墙壁, 梁, 柱子, 门,窗户, 桌子, 椅子, 沙发, 书架,白板}。按照PointNet[12]的方法，将每个房间划分为1m×1m×z的块，其中z是房间的高度（以米为单位）。从每个块中随机选择4096个点作为网络的输入。对于这6个区域，使用我们的RMP模块和不使用我们的RMP模块进行6折交叉验证。在每个折叠中，将一个区域保留用于测试，其余区域用于训练模型。结果总结在表5中。对于所有6个区域，三个模型的整体准确率（OA）和mIoU都有所提高。还报告了所有6个折叠的平均值。Area1PointNet77.31%51.60%DGCNN82.10%62.94%DPFA90.32%70.29%PointNet(+RMP)82.84% (↑5.53%)59.22% ( ↑7.62%)DGCNN(+RMP)85.62% (↑3.52%)63.78% (↑0.84%)DPFA(+RMP)90.63% (↑0.31%)71.75% (↑1.46%)Area2PointNet72.33%34.96%DGCNN78.24%36.95%DPFA87.71%53.95%PointNet(+RMP)78.62% (↑6.29%)39.7% (↑4.74%)DGCNN(+RMP)79.88% (↑1.64%)43.02% ( ↑6.07%)DGCNN (+RMP)0.583.95%(↑0.85%)81.32%(↑1.37%)DGCNN (+RMP)0.685.14%(2.04%)81.79%(↑1.84%)DGCNN (+RMP)0.785.03%((↑1.93%))81.82%(↑1.87%)DGCNN (+RMP)0.887.07%(↑3.97%)82.42%(↑2.47%)DGCNN (+RMP)0.984.69%(↑1.59%)81.54%(↑1.59%)DGCNN (+RMP)123.44%(↓59.66%)25.48%(↓54.47%)5650所有三个模型的OA和mIoU都有所提高。图6展示了定性比较的示例输出。0测试区域模型 OA MIoU0DPFA(+RMP) 90.63% (↑2.92%) 54.93% (↑0.98%)0Area30PointNet 83.47% 47.46%0DGCNN 88.74% 62.03%0DPFA 90.45% 66.04%0PointNet(+RMP) 84.91% (↑1.44%) 57.57% (↑10.11%)0DGCNN(+RMP) 89.7% (↑0.96%) 70.23% (↑8.2%)0DPFA(+RMP) 90.58% (↑0.13%) 66.14% (↑0.1%)0Area40PointNet 73.05% 35.71%0DGCNN 80.62% 42.65%0DPFA 85.94% 51.08%0PointNet(+RMP) 76.93% (↑3.88%) 41.25% (↑5.54%)0DGCNN(+RMP) 82.51% (↑1.89%) 45.72% (↑3.07%)0DPFA(+RMP) 87.81% (↑1.87%) 53.87% (↑2.79%)0Area50PointNet 78.76% 42.00%0DGCNN 82.60% 46.97%0DPFA 87.47% 52.96%0PointNet(+RMP) 79.05% (↑0.29%) 43.23% (↑1.23%)0DGCNN(+RMP) 84.25% (↑1.65%) 48.54% (↑1.57%)0DPFA(+RMP) 88.17% (↑0.7%) 54.58% (↑1.62%)0Area60PointNet 83.81% 57.86%0DGCNN 84.53% 64.57%0DPFA 92.20% 75.23%0PointNet(+RMP) 85.72% (↑1.91%) 63.9% (↑6.04%)0DGCNN(+RMP) 87.94% (↑3.41%) 71.89% (↑7.32%)0DPFA(+RMP) 92.34% (↑0.14%) 77.33% (↑2.1%)06折交叉验证平均0PointNet 78.12% 44.94%0DGCNN 83.16% 52.68%0DPFA 89.02% 61.59%0PointNet(+RMP) 81.35% (↑3.23%) 50.81% (↑5.87%)0DGCNN(+RMP) 84.39% (↑1.23%) 57.2% (↑4.52%)0DPFA(+RMP) 89.75% (↑0.73%) 63.17% (↑1.58%)0表5.S3DIS数据集上的分割结果，使用6折交叉验证。总体上，提出的RMP模块提高了所有模型的整体准确度（OA）和平均交并比（mIoU）。05.消融研究0由于最近的GDANet和DPFA都采用了DGCNN中提出的特征级邻居搜索策略，我们使用DGCNN作为基准网络进行消融研究。由于RMP在不规则和/或不完整的点集上的优势更为明显（如第4.1节所讨论的），所以在消融研究中使用了ScanObjectNN数据集。05.1. Max-Pooling次数n的分析0我们研究了最大池化操作重复次数的影响。对于这个实验，α=1.7，w=0.5。当n=1时，它变为原始网络。图7（b）显示了平滑和最高值的绘图结果。0准确度值与n的关系。当n=2时，获得了最佳平滑和最高的准确度值；当n=3时，获得了最高的准确度值。当n进一步增加时，性能下降。这是有道理的，因为前2或3个最大池化层捕捉到了大部分具有有用特征的点，捕捉到了物体的形状等信息，而剩余的点可能包含更多的噪声而不是有用信息。图7（a）显示了DGCNN在不同最大池化操作次数下，结合RMP模块的平滑准确度曲线随训练轮数的变化。n=2和n=3的曲线几乎完全重叠，并且提供了最高的准确度。05.2. 权重值λ的分析0在公式（4）中，λ是细化损失的权重，决定其对整体损失函数的贡献。我们分析了λ在n=2和α=2.1时对性能的影响。结果如表6所示。可以看出，随着λ的值从0.5增加到0.8，准确度值总体上也增加。准确度的提升范围在0.85%到3.97%之间，当λ=0.8时获得最高的性能提升。当λ>0.8时，性能不再增加。这是有道理的，因为当λ=1时，整体损失等于细化损失，即不使用分类损失。这不是正确的方法，因为如果每个Fi都没有预测能力（表中的结果也支持这一点），就没有意义使用细化损失。0模型 λ 最高准确度平滑准确度0DGCNN 无 83.10% 79.95%0表6. 不同λ值对准确度的影响分析05.3. 超参数α分析0在公式（2）中，αi是一个常数，用于计算Lri的细化损失，该损失用于将Fi细化为F1。对于这个消融研究，我们只进行一次回收，即最大池化总共执行2次（n=2）。因此，我们只有α2，这里简称为α。λ的值设为0.5。我们分析了不同α值对准确度的影响，结果如表7所示。当α为1.2、1.5或1.8时，相对于DGCNN，提供的改进范围在1.02%到1.7%之间。α=1.5提供了最高的性能提升，无论是最高准确度（1.7%）还是平滑准确度（1.87%）。当α为2.1时，相对于其他α值，提供的改进较小（0.85%）。(a)(b)DGCNN(+RMP)1.284.12%(↑1.02%)81.09%(↑1.14%)DGCNN(+RMP)1.584.80%(↑1.70%)81.82%(↑1.87%)DGCNN(+RMP)1.884.46%(↑1.36%)81.75%(↑1.80%)DGCNN(+RMP)2.183.95%(↑0.85%)81.32%(↑1.37%)DGCNN51281.97%78.96%DGCNN102483.10%79.95%DGCNN204884.18%81.19%DGCNN(+RMP)51284.01%(↑2.04%)80.86%(↑1.9%)DGCNN(+RMP)102484.79%(↑1.69%)81.74%(↑1.79%)DGCNN(+RMP)204886.73%(↑2.55%)83.15%(↑1.96%)5660图6.定性比较的示例分割结果。PointNet、DGCNN和DPFA的输出，分别为不使用和使用我们提出的RMP模块。一些区域用黑色椭圆标记以显示RMP提供的改进。0图7. 最大池化层级（n）数量分析 (a)不同n值下的平滑准确度曲线，(b)平滑准确度和最高准确度随n的变化曲线。0模型 α 最高准确度平滑准确度0DGCNN 无 83.10% 79.95%0表7. 不同α值对准确度的影响分析05.4. 输入点数分析0为了分析输入点稀疏性变化对性能的影响，我们分别使用512、1024和2048个点作为输入，评估了带有和不带有提出的RMP模块的DGCNN。结果如表8所示。使用RMP模块时，512个点（输入数据稀疏时）的准确度几乎与使用1024个点的准确度相同（差异为0.78%），因为RMP模块通过回收允许使用更多的点。即使只使用512个输入点，RMP模块也将DGCNN的性能提高了2.04%。在不同的输入点数上，RMP模块提供了稳定的性能提升。0模型输入点数最高准确度平滑准确度0表8. 不同输入点数对性能的影响分析05.5. 训练时间分析0在ScanObjectNN数据集上，不同模型使用和不使用提出的RMP模块的训练时间0在表9中列出了原始的GDANet和CurveNet相对于DGCNN在平滑准确度上提供了非常小的增加（分别为1.3%和1.57%），但由于它们复杂的特征聚合层，训练时间要长得多（增加了5.5到6.5倍）。相比之下，我们提出的RMP模块将DGCNN的最高准确度提高了3.97%，仅对训练时间产生了很小的额外开销（每个epoch增加了10.97秒或1.46倍）。由于回收只在训练期间进行，我们的方法不会影响推理时间。0模型训练时间（秒）最高准确率平滑准确率0DGCNN 23.53 83.10% 79.95%0DGCNN（+RMP） 34.50 87.07%（↑3.97%） 82.42（↑2.47%）0GDANet 129.41 84.23% 81.29%0GDANet（+RMP） 137.98 86.27%（↑2.04%） 82.75%（↑1.46%）0CurveNet 152.77 83.84% 81.52%0CurveNet（+RMP） 158.09 85.54%（↑1.7%） 81.93%（↑0.41%）0表9. 不同模型在ScanObjectNN数据集上的每轮训练时间和准确率06. 讨论和结论0最大池化是一种常用的方法，用于获取点云处理任务的排列不变特征。在本文中，我们首先展示了使用传统最大池化方法会丢弃大部分点，并且这些被丢弃

下载后可阅读完整内容，剩余1页未读，立即下载