点云数据中的鲁棒深度学习方法及其应用

40 浏览量更新于2023-12-10 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

×=智能系统与应用17（2023）200162通过数据模式实现Ayman Mukhaimar*，a，Ruwan Tennakoon b，Reza Hoseinnezhad a，Chow Yin Lai c，Alireza Bab-哈迪沙尔河工程学院，RMIT，124 La Trobe St，Melbourne，3000，VIC，澳大利亚b科学学院，RMIT，124 La Trobe St，Melbourne，3000，VIC，澳大利亚cUCL，Gower Street，伦敦，英国A R T I C L EI N FO保留字：稳健分类点云鲁棒分割鲁棒噪声估计A B S T R A C T由于点云数据中经常会出现噪声和离群点，因此从点云数据中进行学习的任务一直是具有挑战性的。这种数据不准确会显著影响最先进的深度学习网络的性能及其对对象进行分类或分割的能力。虽然有一些强大的深度学习方法，但对于实时应用程序来说，它们在计算上过于昂贵。本文提出了一种深度学习解决方案，其中包括新的鲁棒池化层，大大增强了网络的鲁棒性，并且比最先进的方法执行得更快。提出的池化层用PointNet和DGCNN等全局池化操作取代了网络中的传统池化层。所提出的池化层使用两种方法RANSAC和直方图来寻找数据模式/聚类，因为聚类是模型的指示。我们在分类、部分分割和点法向量估计等几个任务上测试了所提出的池化层。结果表明，与鲁棒的最先进的方法相比，具有更少的计算要求的高水平的数据损坏具有良好的鲁棒性。我们的代码可以在https://github.com/AymanMukh/ModePooling找到。1. 介绍深度学习用于若干3D任务，例如点云分类（Esteves et al.，2018;Klokov 和 Lempitsky ， 2017; Qi 等人， 2017 a; Ramasinghe等人，2019; Su等人，2015; Wu等人， 2015a）、检索（Ramasinghe等人，2019年; Wu等人，2015 a）和分割（Qi等人，2017 a; 2017 b;Wang等人，2019年），近年来取得了巨大的成功。然而，成功主要局限于基于3D CAD的基准测试，例如ModelNet（Wu等人，2015a）、McGill（Siddiqi等人，2008）和Shapenet（Chang等人，2015年，数据非常清晰。处理真实场景的3D点云仍然是一个挑战，其中数据不准确并且可能被离群值破坏，并且自然和人造物体的真实3D训练数据仍然很少。在受离群值和噪声干扰的3DCAD模型上测试最近的深度网络表明，数据扰动对分类性能有巨大影响（Mukhaimar等人，2019年a）。解决这个问题的一种方法然而，根据定义，噪声和离群值是不可预测的，并且很难针对所有可能的场景训练网络。另一种方法是建立一个强大的框架，可以减少离群值的影响与传统的深度网络相比（Gould等人，2019年）。这种方法近年来受到了极大的关注（Gould等人，2019; Mukhaimar等人，2019年b;2022年）。为了证明数据扰动对深度神经网络性能的影响，我们展示了PointNet上存在离群值的影响（Qi et al.，2017a）在图1中。PointNet由多层感知器（MLP）、最大池化层、全连接层（FC）和分类层组成。我们在图1C中显示了其中一个特征向量的分布（维度为1N，其中N2048）在池化操作之前，当网络试图分类：（1）椅子的点云，以及（2）被50%的离群值破坏的同一椅子。当使用最大池化时，在干净椅子的情况下池化层的输出是2.98，而存在离群值时的池化层为6.46。这种巨大的差异影响了分类精度，如图1D所示。有趣的是，该图还表明，使用数据的平均值或中位数并没有减少离群值的影响。因此，需要更好的池化操作来减少数据不准确对3D数据处理的影响在深度声明网络中使用M估计器（Gould et al.，2019年度）执行表明有希望的结果扰动的数据。* 通讯作者。电子邮件地址：ruwan. rmit.edu.au（R.Tennakoon）。https://doi.org/10.1016/j.iswa.2022.200162接收日期：2022年7月27日;接收日期：2022年11月2日;接受日期：2022年2022年12月1日上线2667-3053/© 2022由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsA. Mukhaimar等人智能系统与应用17（2023）2001622++++Fig. 1. （A）PointNet vanilla分类架构。我们展示了两种对象分类的场景：（1）椅子点云的分类，(2) 同一把椅子的点云被50%的离群值破坏的分类。(B)池化操作之前其中一个特征向量的直方图。橙色直方图显示了干净椅子的数据分布，而蓝色直方图显示了点云损坏的椅子的分布。(C)PointNet中池化层的输出（显示为蓝色三角形），如果我们有平均池化、中值池化、最大池化和模式池化。（D）所选池化层的分类准确度截断二次（TQ）或WELSCH（W）在用于池化操作时对离群值实现了显著更好的鲁棒性。M估计量寻找对离群值具有鲁棒性的数据模式，如图 1 C &D。然而，M-估计量有几个缺点，如比使用M估计器更快。然而，RANSAC计算需求仍然昂贵，并且随着数据的大小呈指数增长。另一方面，我们提出的基于直方图的池化层被证明比上述方法快得多直方图池化层将特征数据划分为均匀的区域，并选择具有最大密度的区域。在理论上，直方图类似于RANSAC和M-估计量，其中bin大小在某种程度上等同于RANSAC的内点/离群点阈值或M-估计量的调整参数。但与这两种方法不同的是，使用直方图模式要便宜得多，并且使网络能够用于实时应用。测试时间被发现比RANSAC或M估计器快约150倍，并且计算复杂度被发现与传统的池化方法（例如最大池化）相似。与现有的仅限于对象分类的鲁棒方法不同，例如Mukhaimar等人（2019 b），Riegler等人（2017），Mukhaimar等人（2022），所提出的框架还能够执行鲁棒的分类，分割和点正常估计。我们进行了大量的实验，清洁和扰动数据的对象分类，分割和点法线估计，表明所提出的方法具有较高的分类精度和竞争的鲁棒性与国家的最先进的方法。我们总结本文的贡献如下：• 提出了两种新的池化层，用于点云分类、分割和法线估计。池化层包括对点云噪声扰动和其他类型的数据损坏（例如离群值）具有鲁棒性。与其他鲁棒方法相比，所提出的池化层在计算上显著便宜，并且使得基于神经网络的方法能够用于实时应用。所提出的池化层也可以用于具有全局池化层的神经网络，诸如PointNet和DGCNN（Wang等人，2019年）。本文的其余部分结构如下：我们首先讨论最新的深度学习分类网络。然后，我们解释了使用数据模式而不是最大或平均池化背后的直觉，以及所提出的RANSAC和基于直方图的池化框架的内部工作。其次是在第4节中分析不同数据损坏情况下所提出的池化层的性能。第5节介绍了网络参数的敏感性分析，第7结束了本文。2. 相关工作用于3D点云分类的最近深度学习框架可以被分类为多视图CNN（MV-CNN）（Shi等人，2015; Su等人，2015）、基于Vo XEL的CNN（Wu等人，2015 b; Xiang等人，2019;Zhou和Tuzel，2018）和基于点的CNN（Chen等人，2019年; Qi等人，2017 a; 2017 b; Zhang等人，2019年b）。一系列的鲁棒性来自不同类别的这些网络被广泛地检查（Mukhaimar等人，20 1 9 年a）。该研究比较了PointNet、PointNet++高计算要求，并且解是非凸的、非光滑的或不是非常鲁棒的。因此，受M-估计量的启发，我们研究了其他也寻找数据模式并实现鲁棒池的替代方案。在本文中，我们提出了两个强大的池层。第一种方法使用RANSAC（Fischler和Bolles，1981）框架来寻找模式的位置，而另一种方法使用基于直方图的池化方法。RANSAC和直方图方法都寻找高聚类区域，并应给出类似的结果M-估计，同时计算成本更低。此外，与许多M估计不同，RANSAC和直方图都提供了唯一的解决方案，尽管RANSAC是一个迭代解决方案，我们的结果表明，它仍然可以（Qi等人，2017 b），Kd-Net（Klokov和Lempitsky，2017），Oct-Net（Riegler等人，2017）和MV-CNN（Su等人，2015）用于具有异常值、噪声和缺失点的数据。研究表明，MV-CNN和PointNet的分类性能严重影响了上面的数据扰动和腐败形式。由于MV-CNN使用3D模型的几个2D图像（即从不同位置捕获的70个图像），离群值将出现在大多数图像中，并且离群值的总数被成像过程放大（70倍）。 PointNet对噪声和缺失点表现出良好的性能，但受到离群值的严重影响。PointNet和PointNet都使用最大池作为其网络的一部分，这导致网络在池操作期间选择离群值作为最大值。Kd-Net受到异常值的严重影响，因为异常值的存在改变了··A. Mukhaimar等人智能系统与应用17（2023）2001623++++∑∑其中，x ，i=1，=[客户端]执行分类的Kd树图的结构。Oct-Net对噪声和离群值表现出良好的鲁棒性，但会受到缺失点的影响。我们使用相同的测试框架，并测试了其他基于PointNet和PointNet的方法，如PVCNN和RS-CNN，我们的结果显示，对于损坏的数据，与原始PointNet和PointNet方法的性能相似。就文献中存在的稳健方法而言，Pl-Net 3D（Mukhaimar等人，2019b）是一种基于特征的方法，将原始拟合技术与PointNet相结合，以实现稳健的分类。该方法采用RANSAC在3D点云中找到几何图元的实例。然后使用这些基元的特征对对象进行分类。R-SCNN（Mukhaimar等人，2022）是一种基于体素的方法，使用基于球谐函数的CNN。该方法能够实现最先进的鲁棒性，但仅限于对象分类。深度声明网络（Gould etal.，2019）提出了一个优化方法的框架，作为深度学习网络的一部分。所提出的框架允许稳健的统计方法，例如 M- 估计器（ Leroy 和Lesseeuw，1987年），在深度学习中实现Pl-Net3D和M-estiE[p]-p（x）log（p（x））dx。（一）给定样本，我们将密度近似为以样本为中心并由其点pdf值加权的Np（x）p（xi）δ（x-xi）（ 2）i=1将上述近似值代入Eq. (1)返回以下熵的近似值：NE[p]-p（xi）log（p（xi））（ 3）i=1在求和中包括的所有项中，最大的项与特征的最大后验（MAP）估计相xMAP=argmaxp（x）（ 4）mators涉及大量的计算和高处理时间，限制了它们的实时使用能力。在本文中，我们提出了一个强大的分类框架，竞争与国家的最先进的方法在准确性，鲁棒性和计算负荷。所提出的方法是基于PointNet的，因此对象分类，分割，和其他基于点的操作，如点法向估计，是可能的。所提出的方法也可以适用于任何基于PointNet的方法，例如DGCNN（Wang等人， 2019）或LDGCNN（Zhang等人，2019年a）。3. 方法给定一个包含离群值的对象的点云，我们的目标是构建一个强大的分类深度学习网络。为了实现鲁棒性，我们建议在我们的网络中使用鲁棒的池化操作我们向PointNet引入了鲁棒池化（Qi et al.，2017a）和DGCNN（Wang et al.，2019）架构，因为这两种方法都使用全局池化操作。PointNet架构如图1A所示。在大多数点云深度学习网络中，通常使用多层感知器（MLP）和池化操作该架构表示所有点上的对称操作，这使得网络能够处理未排序的输入。DGCNN使用类似的架构，只是网络考虑了相邻点。池化操作是这种体系结构无法对对象进行分类的主要原因，如图所示。 1，因此实现鲁棒池化提高了整体鲁棒性。3.1. 问题陈述对于图1A所示的给定框图，特征映射块（以橙色示出）在R1024空间中提供N个特征向量。在用于基准测试亲性能的数据集中，因此，我们选择MAP估计作为所有N个特征中信息量最大的集合（图1A中的池化操作的输出）。主要问题是如何估计MAP。在实践中，我们在D=1024的空间维度中具有大约N=2048个特征。就网格网格而言，这相当于在1024-D直方图中每维具有m= 101logDN=2个箱，这对于目的是找到接头密度的峰值。我们解决这个问题的方法是通过形成边缘密度来找到一个合适的非常高维联合密度峰值（它们的D个实例，每个维度一个），并分别定位每个边缘密度的峰值，然后将这些峰值点的坐标放在一起以形成联合密度的峰值在D维特征空间中的近似位置。换句话说，我们找到一个估计，称为边际MAP（MMAP）估计，由下式给出：xMMAP =（x1MAP，x2， x3xDMAP），第i个维度。在我们的应用中，假设图1A中的MLP和特征映射网络被训练，我们期望MMAP和MAP估计以这样的方式合理地彼此接近，即MMAP估计仍然可以被声明为聚合特征，该聚合特征保持封装在由图1A中的特征映射块产生的N个特征样本中的大量信息。凌晨1为了解释上述陈述背后的直觉，首先请注意，输入聚合（全局）特征的全连接网络实际上是从1024-D空间到40个不同类别对象的映射。因此，全连接网络的输出是预期的到非常接近之一的坐标单位向量ej=[0][1]1其中0k表示零的k维向量。因此，在本发明中，在我们的论文中提出的解决方案，通常有大约N=2048点-i在云中，被映射（通过MLP）成N1024个特征。图1A中所示的图中嵌入的主要任务是池化任务（以青色示出），其中它聚合N个向量并获得单个向量作为这些向量。让我们将第i个特征向量表示为xi=.xi，1，xi， 2，其中D=1024，i=1， 2，然后，N个特征被视为联合特征密度p：RD→R的样本。然后，点云的信息内容由密度的熵表示，密度的熵由下式给出：我们直观地预期，在网络训练之后，输入到全连接网络的全局特征最终会出现在1024-D空间中40个不同区域中的一个，这些区域非常不同。事实上，这是对N个特征样本的预期;它们最终一起位于这40个区域中的一个内。因此，在没有离群样本的情况下，我们期望看到特征的单峰分布（类似于多变量高斯分布），对于这样的分布，峰值位置（MAP估计）和MMAP估计非常接近，如果不相同的话。一个例子如图所示。 2、以2D演示为目的进行可视化。图2（a）呈现了由均匀分布的80%离群值样本和均匀分布的内点根据联合高斯。我们观察到峰值在0.0μ m处，而图2（b）所示的两个边缘密度的峰值都位于零。A. Mukhaimar等人智能系统与应用17（2023）20016244[客户端]̂̂̂∑̂0。51[客户端]570。55如果离群值不是均匀分布的，只要它们本身不在密度中形成更尖锐的峰值，我们仍然期望MMAP估计接近峰值位置。这在图3所示的示例中可视化，其中25%的数据是以与前一种情况类似的方式分布的内点，其余数据（离群值）均匀地分散在四个点周围。图3（b）表明，由于异常值，边缘密度峰值略微偏离组合密度的峰值。3.2. 直方图和RANSAC池化鲁棒拟合技术旨在找到代表给定模型实例的数据聚类。为了应用RANSAC，检查m个假设的集合以找到所有这些m个假设的阈值范围内的内点。然后选择具有最大内点数量的假设作为最佳模型估计。这意味着寻找：图三. (a)二维高斯混合密度，由四个分量N（μi，μ i）组成，i = 1，...，4，具有相等的权重0.25。第一部件与图2（a）中所示的相同其他组件的参数为：μ2=5，μ3=[-3]，μ3=[-4]，μ 2= μ 3= μ 4=[5 0. 5]（b）边缘密度N2016-05-2500 ： 00： 00|xi-xm|≤100 ）（5）i=0其中m对应于具有最大内点数量（相当于xMAP）的点和前向步骤中池化层的输出。对于一维数据，直方图可以被视为密度估计器，其中数据被划分为间隔（箱），并且通过对箱中的数据数量进行计数来估计它们的密度。我们使用一个直方图作为我们提出的池化操作的一部分，其中L是Mx1和x2表示该图（ a）部分所示的接头密度。40个类别的样本。每个样本由在单位立方体内归一化的2048个点组成。除了随机旋转之外，我们不会对训练数据进行任何增强，但会将数据扰动和损坏（如噪声，随机点丢失和离群值）引入测试样本。这些扰动和破坏的实例见图4。如果使用一个点法线，我们通过使用它的20个相邻点来计算法线。我们使用ScanObjectNN数据集（Uy等人， 2019年），以测试我们的性能提出池化操作对实景数据 ScanObjectNN模式库索引 =arg max m p（L i），其中L <$R是一组箱子数据集包含2902个场景的对象分为15类。m个bin的索引。与用于位置估计的RANSAC相比，箱大小相当于阈值λ，并且直方图模式相当于具有最大数量内点的模型4. 实验在本节中，我们将对不同类型的数据扰动和损坏的拟议池化操作的性能进行比较分析。我们在不同的任务上进行实验，包括分类，部分分割和点法向量估计。我们还概述了数据集的组成以及网络架构。4.1. 数据集对于分类，我们使用ModelNet40（Qi等人，2017 a; Wu等人，2015a）、ShapeNet（Chang等人，2015 a）和ScanObjectNN（Uy等人，2019）数据集。ModelNet40包含9，843个训练和2468个测试图二、（a）2D高斯密度N（μ 1; μ1，μ 1）的密度图，其中μ1= 0，1=10。5 与分布均匀的80%离群值样本混合，形式为[ -5 5] × [ - 5 5]。（b）本图（a）部分所示节理密度的边缘密度x1和x2如图4所示，除了背景元素或附近对象的部分的点云之外，每个场景还携带对象的点云。在训练过程中，我们只使用物体的点云，而在测试时，我们将背景和附近物体的部分点云作为真实场景的离群点。对于部件分割，我们使用ShapeNet部件数据集（Yi等人，2016年），由16个类别的16，881个形状组成，共50个部分。所有图像都使用其零件标签进行注释。为了检查鲁棒性，我们用随机离群值破坏了测试集，并且在测试时，我们只使用内点来计算平均mIoU。对于点正态估计，我们使用ModelNet40数据集。每个对象由2048个点组成，每个点都标有其法向量。我们在没有任何数据增强的情况下训练方法，同时我们用不同程度的噪声干扰测试数据集见图4。(a)从ModelNet40数据集获取的椅子的点云，（b）同一把椅子被随机点丢失破坏，（c）同一把椅子被高斯噪声干扰，（d）同一把椅子被分散的离群值破坏，以及（e）从ScanObjectNN数据集获取的椅子的点云，包括背景数据（用作伪离群值）。A. Mukhaimar等人智能系统与应用17（2023）2001625++++×××××4.2. 选定的架构为了分析所提出的池化操作的性能，我们使用了PointNet架构，因为它的多层感知器和全局池化被许多最近的深度学习框架所共享。对于PointNet分类，使用三层MLP，分别具有64、128、1024个过滤器。直方图合并的箱数设置为70，其中心均匀分布在-10至10之间。RANSAC的等效阈值为0.143，假设数量m的范围为点总数的30%至50%。学习率设置为0.0001，epoch的数量设置为100。对于Scan- nObjectNN，分别使用128和4048个过滤器的两层MLP，直方图池化的箱数设置为200. 我们还在敏感性分析部分研究了DGCNN（参见部分详细信息）。对于部分分割和法线估计，我们使用原始的PointNet分割架构与建议的直方图池。对于-5到5之间的间隔，直方图中的箱数被设置为1200。初始学习率设置为0.0001，epoch数设置为100。4.3. ModelNet40、ShapeNet和ScanObjectNN数据集在本节中，我们介绍了我们提出的框架对ModelNet40，ShapeNet和ScanObjectNN数据集的分类准确性。我们计算了PointNet模型的分类精度，包括max，RANSAC（RN），直方图（HS）和截断二次（TQ）。这些实验的结果以及现有技术方法如PointCNN（Li et al.，2018），CurveNet （Xiang et al. ，2021）， Vo X Net （Maturana 和 Scherer ，2015），PointNet（Qi等人， 2017 b）和PL-Net 3D（Mukhaimar等人，2019年b），见表1。在ModelNet40上使用“PointNet（vanilla）”和最大池时的分类准确率达到87%，而使用TQ、HS和RN池操作时的分类准确率分别达到83.7%、83.7%和81.6%。当使用正态点时，这些池化操作的分类准确度提高了2- 3%。在ScanObjectNN上对max、TQ、HS和RN的分类准确率分别达到82%、74%、79%和76%。而使用正态点则使TQ、HS和RN的分类准确率分别提高到83%、82%和81.2%。当使用ShapeNet数据集和正常点时，max，TQ，HS和RN的分类准确率分别达到82%，80.3%，79%和76%。从表1中可以看出，所提出的表1ModelNet40、ScanObjectNN和ShapeNet数据集上的分类精度。方法输入公司简介SCSHPNTPL-Net3D86.67078VoX Net8680.980PointNet89.28282.3DGCNN92.28182.3CurveNet 93.88583.9PointNet+积分91.88583.9PointCNN 928883PointNet*+Max 878281.5PointNet*+TQ 83.77478.0PointNet*+ HS（我们的）83.77977.7PointNet*+ RN（我们的）81.67677.9PointNet*+最大积分88.68283.7PointNet*+ TQ 87.78382.3PointNet*+ HS（我们的）法线85.28280.3PointNet*+ RN（我们的）84.8 81.2 81.2* PointNet vanilla，+表示使用的池化操作。池化操作可与诸如PointCNN、CurveNet和PointNet的现有技术方法相媲美。干净数据集上稍低的准确度通过对不同数据破坏和扰动的鲁棒性来补偿，如下面将显示的。表2显示了在ModelNet40上进行训练和在ScanObjectNN（OBJ）测试集上进行测试时的分类准确度。第一组结果来自 Uy 等人（2019），而最后四行显示了PointNet vanilla在不同池化操作下的分类准确性。结果表明，模式池（TQ，RN和HS）具有更高的分类精度比最大池。结果还表明，当在CAD模型上进行训练和在真实世界数据上进行测试时，模式池比其他比较网络更好地推广表3显示了测试和训练时间，以及PointNet使用不同池化操作（包括max、RANSAC、histogram和Truncated Quadratic（TQ））所使用的GPU内存。为了比较，特征图（图中的橙色块所示）。 1 A）尺寸对于所有合并操作，设置为512、512'分别用于批量的大小、点数和特征数。对于RANSAC，假设的数量m被设置为点的总数的0.2。有了这么多的假设， 512 512'张量，4Gb的GPU内存用于训练网络。一个纪元的训练时间不到一分钟，而测试时间只有7秒。TQ只需要0.7Gb的GPU内存和更长的训练时间。对于一个大小为'10 1024 2048'，在12GB GPU上使用RANSAC需要循环，这影响了训练和测试时间。直方图训练一个epoch只需要9秒，测试只需要3秒，比TQ快了近100倍。测试和训练速度与使用max pooling一样快。这些结果表明，直方图池化明显快于其他鲁棒的方法，可以在不牺牲速度的情况下取代最大池化。4.4. 对离群值在本节中，我们测试了所提出的池操作对离群值的鲁棒性。视觉数据通常包含离群值，因为扫描方法或处理管道（如3D模型的多视图重建）存在缺陷。这些异常值的一个示例是ScanObjectNN数据集中的背景元素。我们研究了离群值对不同技术分类准确性的影响，特别是在应用不同池化操作后它们的剩余影响。我们考虑了两种离群值场景，均匀分布的离群值和结构化离群值（伪）。在第一种情况下，通过将单位立方体中均匀分布的点添加到ModelNet40测试数据集来模拟离群值，比率从对象点总数的0到50%不等。我们在图5中展示了添加离群值的实验结果。测试的模型是Oct-net，Pl-Net 3D和PoinNet（vanilla），具有几个池化操作，包括histo-gram，RANSAC和截断二次型。我们在表2在ModelNet40上训练和在ScanObjectNN上测试时的分类准确率。方法OBJ3DmFV 30.9PointNet 42.3SpiderCNN 44.2PointNet+43.6DGCNN 49.6PointCNN 32.2协调制度（我们的）50.2最大值47.1RN（我们的）48.6TQ50.5A. Mukhaimar等人智能系统与应用17（2023）2001626++++表3两种张量大小的池化操作与GPU使用、测试和训练时间。池化GPU使用量张量大小测试时间训练时间（一个epoch）RN 4Gb 7 s 38 sTQ 0.7Gb 10× 1 m 7 mHS 0.5Gb 512× 5121 s 5 s最大0.5Gb1 s8 sRN 12 Gb 2 m 9 mTQ 1.5Gb 10× 2 m 15 m高速2Gb 1024× 20483秒9秒最大2Gb3秒9秒RN：RANSAC，TQ：截断二次，HS：直方图。图五、分类精度与离群值比率。附录十图5显示，随着离群值比率的增加，具有最大池化的PointNet的分类准确性显著下降。最大池化选择离群点而不是原始对象点，如图1所示，因为离群点是距离对象中心（最大半径）最远的点，这会导致PointNet分类错误。然而，所提出的池化操作寻找表示对象点的数据集群/密集区域，因此，所提出的框架不受离群值的影响。这一点在图中突出显示。 1杯TQ合并在50%离群值比率下的分类准确度为40%，而直方图合并在相同离群值比率下的分类准确度为70%，取得了显著更好的结果直方图池化在对离群值的鲁棒性方面的Pl-Net 3D的推理时间为2.7s，而我们的方法为0.001s（大约快2000使用Oct-Net和RANSAC池在50%离群值下的分类准确率下降到60%左右其他方法如PointNet、KPConv和CurveNet表现出与PointNet类似的行为，其中在50%的离群值下，分类准确率下降我们在附录中展示了PointNet、KPConv和CurveNet的分类精度。在第二个离群值场景中，我们测试了我们提出的池化操作对伪（结构）离群值的鲁棒性。在这个实验中，我们使用ScanObjectNN数据集。ScanObjectNN数据集包含除了背景元素或附近对象的部分的点云之外还具有对象的点云的场景在训练时，我们只使用对象的点云在测试时，我们使用对象的点云和背景的点云以及附近对象的部分作为离群值（图4e）。结果示于表4中。数据集中报告的离群点总数表4ScanObjectNN（OBJ）对具有伪离群值（BG）的对象的分类精度。HS67MAX 61RN 62TQ 59在某些情况下，可以达到原始对象点的80%以上我们还增加了所有点的小抖动。结果表明，使用max，HS，TQ和RN池操作的分类准确率分别达到61%，67%，59%和62%，而KPCONV，PointCNN或Curvenet等最先进方法的分类准确率结果表明，RN和HS池操作实现了更好的性能比比较的方法。附录中的图E.1显示了使用HS和最大池化操作的PointNet混淆矩阵。比较这些数字表明，使用所有离群值时的整体分类准确度主要由于椅子和桌子这两个对象的低分类准确度而下降。这两个对象具有大量的离群值比率（范围在50%到70%之间），这可能是导致误分类的原因，另一个原因是一些对象之间的高相似性当存在离群值时（即桌子和桌子）。4.5. 分类对噪声在本节中，我们测试了所提出的池操作对噪声点云的鲁棒性。我们将高斯噪声引入ModelNet40测试集，并在图6中报告了不同噪声水平下的分类精度。如图所示，增加的噪声标准偏差范围为2%至10%。TQ和直方图合并方法优于所有其他方法。所有TQ、Octnet、HS和PL-Net 3D在高达0.06的噪声水平下表现出相似的鲁棒性，RN鲁棒性略差。然而，TQ，其次是HS和RN，在较晚的噪声水平下表现出更好的鲁棒性。TQ在0.06和0.1噪声水平下的分类准确率分别为81%和76%，而直方图合并在0.06和0.1噪声水平下的分类准确率分别为80%和70%。0.06和0.1噪声水平。Pl-Net 3D在0.1噪声水平下的分类准确率为62%，其次是Oct-Net，为59%。RANSAC见图6。分类精度与噪声。方法OBJ+ BGPL-Net3D48PointCNN43CurveNet49DGCNN46PointNet+49A. Mukhaimar等人智能系统与应用17（2023）2001627++++抗噪声性能也优于Pl-Net 3D和Oct-Net，在0.1噪声水平下的分类准确率为66%。其他方法，如PointNet、KPConv和CurveNet，对噪声表现出恶化的性能，其中在10%的噪声下，分类精度下降到小于10%。4.6. 分类对随机点丢失在本节中，我们报告了所提出的池化操作对随机点丢失的鲁棒性。我们对ModelNet40测试集进行了随机点丢弃，值范围从50%到90%。不同方法的分类性能如图7所示。具有最大池化的PointNet在高达70%的随机点丢失率下显示出最高的鲁棒性，然而使用TQ池化在较高百分比下显示出最高的鲁棒性，其次是RANSAC和直方图池化。TQ和直方图方法在50%点丢失时仅下降11.5%OctNet性能在50%的退出率后迅速恶化PointNet、KPConv和CurveNet的分类准确率在90%缺失点时低于40%。4.7. 对离群值在本节中，我们报告了针对分割任务的离群值提出的池化操作的鲁棒性。我们用不同的离群值比率破坏了ShapeNet数据集的测试部分，以测试PointNet在不同池化操作下的性能。表5显示了PoinNet和一些最先进方法的平均IoU（mIoU）和每个类别得分的结果（请注意，mIoU仅针对内点计算）。当没有离群值时，直方图池化达到78%的mIoU，最大池化得分为83%，PointCNN、DGCNN和KPCONV得分为85%，CurveNet得分为86%，最后，RANSAC和TQ得分为82%。然而，当添加离群值时，大多数方法的mIoU显着下降。相比之下，HS、RN和TQ mIoU对于不同的离群值比率几乎保持恒定。比较TQ、HS和RN的结果表明，RN在50%的异常值下仅下降2%，而TQ在相同的异常值水平下下降12%。HS在高离群值水平下实现了比TQ更好的鲁棒性，并且在50%离群值下仅下降4%。而TQ显示出良好的鲁棒性高达30%的离群值相比，HS。对于低于30%的离群值水平，RN显示出与TQ相似的稳健性，但在较高离群值水平下，RN在TQ时克服了HS。上述结果表明生成的直方图汇集携带关于对象形状的鲁棒信息。与最大池、直方图、RANSAC和TQ池图第七章分类准确度与缺失点。操作使得网络的解码器部分能够正确地对对象进行分段。图8示出了具有异常值的分割对象的实例。可以看出，具有直方图池化的段几乎类似于原始对象段，而具有最大池化的段，许多段被错误分类。表6显示了不同合并操作的检测时间。比较表5和表6表明，HS和RN都比TQ快得多，并且能够在高离群值水平下实现更高的稳健性，同时在较低离群值水平下具有与TQ相似的稳健性4.8. 正态估计在本节中，我们报告了针对点正态估计任务提出的池化操作对噪声的鲁棒性。我们训练了一些最先进方法的分割网络来预测点的法向量（最后一层被修改为预测每个点的法向量）。我们使用余弦距离的绝对值作为损失，并使用ModelNet40数据集来评估这些方法。我们用不同的噪声水平扰动点云，我们在表7中报告了平均余弦距离误差。噪声对任何正常的估计过程都有很大的影响，因此必须验证任何方法对这种类型的数据扰动的鲁棒性。表7显示了DGCNN、CurveNet和PoinNet在Max 、TQ、RN和HS池化操作下的鲁棒性。一般来说，PointNet比其他比较方法显示出更好的鲁棒性，TQ，RN和HS的使用有助于实现更好的结果。HS在高噪声水平下显示出更好的鲁棒性，而RN，其次是TQ，在低噪声水平下显示出更好的鲁棒性。5. 敏感性分析在本节中，我们将评估作为PointNet和DGCNN方法一部分的池化层的性能。研究还包括直方图面元大小对分类精度的敏感性分析。在这些实验中，数据被10%的加性噪声和50%的离群值破坏。不同网络结构中直方图池化层的性能如表8所示。第一行显示了PointNet使用两个用于估计旋转和平移的变换网络（称为PointNet（1））时的分类精度。最后两行显示了使用直方图池化层时PointNetvanilla（不带转换网络的PointNet）的分类准确性-参考PointNet（2）。令人惊讶的是，PointNet的分类精度会因使用转换网络而降低。转换网络似乎对数据扰动和损坏过于敏感。最后一行显示，在PointNet(2)对于干净的数据实现了更高的分类精度，而其对离群值和噪声的鲁棒性低于使用点坐标的情况。第二行显示了原始DGCNN架构的分类准确性，而第三行显示了使用直方图池化层时的分类准确性-称为DGCNN（1）。与原始DGCNN相比，该方法对离群值具有更高的鲁棒性。在第四行中，我们修改了DGCNN（1）的卷积层，使其仅包含特定半径内的相邻点（第一个卷积层为0.25，其余卷积层为2）。这被称为DGCNN（2），它对数据扰动和破坏的鲁棒性得到了增强，特别是对噪声。在第五行中，我们修改了DGCNN，使其只包含两个卷积层，称为DGCNN（3）。结果表明，仅使用两个卷积层实现了最高的鲁棒性离群腐败和噪声扰动。图图9示出了直方图池化的分类准确性在几个内点阈值下（图中所示的阈值是bin大小的一半）。从图中可以看出，设置阈值表5ShapeNet零件数据集上的分割结果我们比较了PointNet vanilla与max，RANSAC，TQ和直方图池。结果表明，使用强大的池超过最大的重要性outl %方法是说Airo袋帽车椅子耳朵电话吉他刀灯笔记本摩托车马克杯手枪火箭滑冰板表格 *PointCNN0.850.830.830.860.810.900.750.910.880.840.960.740.950.830.620.790.820 DGCNN0.850.830.850.760.900.910.750.910.870.820.960.640.950.810.590.750.82KPCONV0.850.830.850.850.800.900.770.910.880.790.960.750.960.860.620.800.83CurveNet0.860.840

下载后可阅读完整内容，剩余1页未读，立即下载