基于自适应采样的非局部神经网络点云处理

54 浏览量更新于2023-10-25 收藏 2.41MB PDF 举报

点云处理

自适应采样

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5589PointASNL：基于自适应采样的非局部神经网络点云处理徐燕1、2郑超大2、3李振1、2王晓生4崔曙光1、21香港中文大学（深圳），2深圳大数据3华南理工大学、4腾讯AI实验室{xuyan1@link.，lizhen@，shuguangcui@} cuhk.edu.cn摘要原始点云数据不可避免地包含来自3D传感器或重建算法的采集的离群值或噪声。本文提出了一种新的用于点云处理的端到端网络PointASNL，它可以有效地处理带有噪声的点云数据在我们的方法的关键组成部分是自适应采样（AS）模块。该算法首先对最远点采样（FPS）得到的初始采样点周围的相邻点重新加权，然后对整个点云之外的采样点进行自适应调整。我们的AS模块不仅有利于点云的特征学习，而且还可以减轻离群值的偏差影响。为了进一步捕捉采样点的邻域依赖和长程依赖，我们提出了一个受非局部操作启发的局部-非局部（L-NL）模型。这种L-NL模块使得学习过程对噪声不敏感。大量的实验验证了我们的方法在点云处理任务中的鲁棒性和优越性，具体而言，PointASNL在所有数据集上实现了最先进的分类和分割任务的鲁棒性能，并且在具有考虑噪声的真实户外SemanticKITTI数据集上显著优于以前的方法我们的代码通过https发布：//github.com/yanx27/PointASNL网站。1. 介绍随着3D传感器的普及，我们可以相对容易地获得更多的RGB-D数据、LiDAR数据和MEMS数据[44]。考虑到点云作为3D数据的基本代表，点云的理解已经引起了各种应用的广泛关注，例如，自动驾驶[29]，机器人[37]，以及位置识别[23]。这里，点云有两个组成部分：点P∈RN×3和特征F ∈ RN×D。* 通讯作者：甄丽。本地聚合输入点云自适应采样聚合特征：离群值：从FPS：自适应换档非局部聚集图1. PointASNL用于强大的点云处理。自适应采样模块自适应调整采样点从点云噪声。此外，局部-非局部模型不仅结合了欧氏空间中的局部特征，而且考虑了特征空间中的长程相关性。与2D图像不同，稀疏性和无序性使得鲁棒性点云处理成为一项具有挑战性的任务。此外，从那些3D传感器或重建算法获得的原始数据不可避免地包含现实世界情况下的离群值或噪声。在这项工作中，我们提出了一种新的端到端网络的鲁棒点云处理，命名为PointASNL，它可以有效地处理点云噪声或离群点。我们提出的PointASNL主要由两个通用模块组成：自适应采样（AS）模块和局部-非局部（L-NL）模块。AS模块用于调整采样点的坐标和特征，而L-NL模块用于捕获采样点的近邻和长程依赖性。与2D图像中的情况不同，传统的卷积运算不能直接作用于非结构化点云数据。因此，大多数现有的方法通常使用采样方法从原始点云中选择点进行局部特征学习。在这些采样算法中，最远点采样（FPS）[25]、泊松盘采样（PDS）[11]和Gumbel子集采样（GSS）[48]在以前的作品中提出。然而，FPS作为最具代表性的一种，它是基于欧氏距离的，具有任务依赖性，离群点表示为：5590sitive。PDS是一种预定义的均匀采样方法，也不能以数据驱动的方式解决上述问题。GSS只从高维嵌入空间进行采样，忽略了点的空间分布此外，这些方法中的共同关键问题是采样点限于原始点云的子集。因此，如图1的左部分所示。1、假设采样到一个异常点，它将不可避免地影响到下游过程.为了克服上述问题，我们提出了一种可微分自适应采样（AS）模块，以调整初始采样点的坐标（例如，从FPS）通过数据驱动的方式。这样的坐标调整有利于拟合固有几何子流形，并进一步偏移以校正原始点云以外的点，而不受离群值的影响。因此，AS模块不仅有利于点特征学习，而且还提高了模型对噪声的鲁棒性。为了进一步提高性能以及使学习过程对噪声不敏感，我们提出了一个局部-非局部（L-NL）模块，用于捕获采样点的邻居和长程依赖性。根本原因是，目前，最有吸引力的特征学习方法是查询每个采样点周围的局部组，然后它们构建基于图的学习[30，42，50，14]或定义卷积类opera。tions [12，47，8，3，44，34]（我们将它们表示为点本地单元）。然而，这种点局部单元仅考虑相邻区域中的局部信息交互，然后通过分层结构获取全局上下文，这通常导致自底向上的受Nonlocal网络[41]成功的启发，我们创新性地设计了这个L-NL模块，其中的关键部件是点Nonlocal单元。特别地，点非局部单元允许将采样点的响应计算为整个点云的影响的加权和，而不是仅在有限的邻居范围内利用学习到的长相关性，L-NL模块可以为鲁棒点云处理提供更精确的信息。如右图所示。1，尽管较低引擎内的采样点被噪声覆盖，但我们的L-NL模块仍然可以从具有不同噪声分布的其他引擎学习特征。我们的主要贡献可以概括如下：1）提出了一个鲁棒的点云处理模型PointASNL，它可以有效地减少离群点和噪声的影响; 2）通过提出的自适应采样（AS）模块，PointASNL可以自适应地调整初始采样点的坐标，使其更适合于具有内在几何结构的特征学习，并且对噪声离群点具有更强的鲁棒性; 3）在提出的局部-非局部（L-NL）模型中进一步设计了一个点非局部单元模块，增强了点局部单元的特征学习。分类和分割任务的大量实验验证了我们的方法的鲁棒性。2. 相关工作基于体积和基于投影的方法。Con- sidering the sparsityof point clouds and memory con- sumption, it is not veryeffective to directly voxelized point clouds and then use3D convolution for feature learning.已经提出了各种后续的改进方法，高效的时空卷积MinkowskiNet [5]，计算有效的子流形稀疏卷积[7]，以及基于Oc树的神经网络O-CNN [39]和OctNet [27]。这种方法大大提高了计算效率，从而导致整个点云作为输入，而无需采样和优越的能力。还存在使用卷积运算的其他基于网格的方法，例如，将3D数据投影到多视图2D图像[32]和晶格空间[31]。然而，这些方法的卷积运算缺乏捕获非局部几何特征的能力。基于点的学习方法。PointNet [24]是直接在稀疏和非结构化点上进行的pi- oneering工作云，它通过使用逐点多层感知（MLP）以及最大池化操作来总结全局信息。 PointNet++ [25]进一步应用一个分层结构，k-NN分组，然后是最大池，以捕获区域信息。由于它只是将局部特征聚集到最大激活，因此区域信息尚未得到充分利用。最近，已经作出了很多努力，有效的局部特征聚合。PointCNN [20]将相邻点转换为正则顺序，这使得传统卷积能够发挥正常作用。Point2Sequence [21]使用注意力机制来聚合不同局部区域的信息方法[47，44，11，22，30，40]直接使用邻域和局部中心之间的关系来学习卷积的动态权重，其中ECC [30]和RS-CNN [22]使用ad-hoc定义的6-D和10-D向量作为边缘关系，PCCN [40]和PointConv [44]投影相对位置。将两个点的位置转换为卷积权重。A-CNN [16]使用环卷积来编码与局部中心点距离不同的特征，PointWeb [50]进一步连接局部区域中的每个点对以获得更具代表性的区域特征。尽管如此，这些方法只关注局部特征聚合和通过分层结构从局部特征另一方面，存在用于从局部特征学习全局上下文的各种工作。 A-SCN [46]用途全局注意机制聚合全局特征，但缺乏局部信息的支持，效果不佳DGCNN [42]提出了EdgeConv模块来生成边缘特征并搜索相邻点。5591N×DslP F∈采样点邻居更新的功能高层关系使用Softmax的自适应换档加权和3D坐标特征按元素之和N×（3+Dl）Ns×点非本地单元Ns×（3+D中间）重点（3+D中）Ns×（3+Dl+1）Conv聚合点乐点本地单元Ns×（3+D中间）Ns×K×（3+Dl）k-NN查询点Ns×（3+Dl）局部-非局部模(a) 自适应采样（AS）模块（b）局部-非局部模块图2.（a）部分介绍了自适应采样（AS）模块，该模块首先通过推理组关系更新分组点的特征（b）给出了局部-非局部（L-NL）模的构造，它由点局部胞腔和点非局部胞腔组成。NS代表采样点数量，N代表整个点云的点数量，D1、Dmid和D1+ 1代表通道数量。特色空间LPD-Net [23]进一步扩展了DGCNN的空间邻居和特征邻居聚合。然而，特征空间中的邻居不能代表全局特征，网络的空间感受野逐渐变得混乱，没有一个有序的结构。离群值去除和抽样策略。原始点云数据中通常存在离群点和噪声。以前用于离群值去除的鲁棒统计方法[1]受到非平凡参数调整的影响，或者需要额外的信息。[43]. 提出了各种数据驱动的方法[9，26]用于离群值去除，其首先丢弃一些离群值，然后将噪声点投影到干净的表面。然而，这样的方法不能固有地以联合学习方式将鲁棒点云特征学习与离群点去除另一方面，基于深度学习的点云处理方法通常对点进行采样以减少计算消耗。然而，大多数采样方法受到噪声敏感性的限制，并且不受数据驱动[25，11]，或者不考虑空间分布[48]。SO-Net [19]使用无监督神经网络，例如自组织映射（SOM），以利用点云的空间分布。然后，它使用PointNet++ [25]来多个较小的采样然而，SO-Net不属于在线自适应采样。在局部标签一致性的假设下，一些工作使用体素网格的几何中心来均匀地表示采样点[34，30]，这忽略了点分布影响的差异然而，这些方法对噪声极其敏感，并且不能同时学习采样点的空间分布3. 我们的方法在本文中，我们提出了两个模块PointASNL，即自适应采样（AS）模块在Sec。3.1节中的本地-非本地（L-NL）模块3.2. 节中3.3我们将AS和L-NL模块以分层的方式组合，形成我们提出的PointASNL模型。3.1. 自适应采样（AS）模块远距离点采样（FPS）由于能够生成相对均匀的采样点，在许多点云框架中得到了广泛的应用。因此，它们的邻居可以尽可能多地覆盖所有输入点云。然而，FPS中存在两个主要问题：（1）非常敏感这使得它在处理真实世界的点云数据时非常不稳定。(2)从FPS采样点必须是原始点云的子集，这使得如果在采集期间发生遮挡和缺失错误，则推断原始几何信息具有挑战性。为了克服上述问题，我们首先使用FPS获得相对均匀的点作为原始采样点。然后，我们提出的AS模块自适应地学习每个采样点的移位。与网格生成中广泛使用的类似过程[38]相比，下采样操作必须同时考虑在空间和特征空间中，当点的数量减少时。对于AS模块，设Ps∈ RNs×3为某层N个输入点的采样Ns点，xi和fi分别为 s 和sR的采样点及其特征。我们首先搜索采样点通过k-NN查询作为组，然后使用通用自注意机制[35]进行组特征更新。如图2（a），我们通过在所有组成员中使用注意力来更新组特征对于xi，1，.， xi，K∈ N（xi）和它们对应的特征fi，1，.，其中N（xi）是采样点xi的K个最近邻居，组成员xi，k的特征更新可以写为fi，k=A（R（xi，k，xi，j）γ（xi，j），∈xi，j∈N（xi）），（一）其中成对函数R计算群成员xi，k，xi，j∈ N（xi）之间的高级关系。的5592一R›→k=1我K×1L∈∈KKNP我Fi，kk=1nn我 nLi pi，k k=1一元函数γ将每个组特征fi，j从维度D1改变到另一个隐藏维度D′，并且是聚合函数。为了减少计算量，我们将γ考虑为点特征的线性变换γ（xi，j）=Wγfi，j的形式，关系函数为两点的点积相似度，如下所示，R（xi，k，xi，j）=Softmax（φ（fi，k）Tθ（fi，j）/θD′），（二）其中φ和θ是独立的两个线性变换，可以很容易地通过独立的一维卷积实现其中D和D′分别是输入和输出通道。之后，逐点MLP，即，利用K个群成员上的具有软极大激活函数的σp和σf来获得群中每个点的对应强度，其可以表示为每个点的归一化权重。图3. 点非局部（PNL）细胞的内部结构。为符号Ns、N、Dl、Dmid请参见图11的说明。二、D′是中间通道数。坐标轴和特征通道。Fp={σp（fi，k）}K ，Wp=Softmax（Fp），（三）fl=A（L（fn），n∈N（xi）），（5）其中fl是局部中心xi的更新特征，Ff={σf （fi，kKk=1，Wf=Softmax（Ff），我由局部特征变换函数L和ag更新。其中F，F，W，W∈R是逐点分离函数A.对于PointNet++[25]，L是多层的pfpf感知（MLP）和A是最大池。近日，更多softmax函数后的MLP和归一化权重。 Fi-最后， K 个邻居的坐标RK×3 及其 F 的特征RK×D′是通过加权和运算实现的。我们得到了采样点x的新坐标及其特征f而更多的工作是直接在局部区域上设计卷积算子，主要是通过邻域关系得到一个可学习的加权乘法考虑到在以下方面的行动的效率和效力：我通过以下操作，x=WTX，X={x}，作为折衷，我们通过以下方式实现卷积运算：自适应地将两个点的相对位置投影到卷积权重[40，44]，并聚合局部特征，（四）f∈ F= W TF，F ={f }.L（f）：=g（x-x）f，（6）3.2. 本地非本地（L NL）模块在我们的L-NL模块中，有两个单元：点局部（PL）单元和点非局部（PNL）单元。具体地，PL单元可以是任何吸引人的算法（例如， PointNet++[25] ，PointConv [44]），PNL单元创新地考虑了采样点与多尺度中整个点云之间的相关性因此，通过组合局部和全局信息来增强点云的上下文学习（参见图1B）。第2段（b）分段）。3.2.1点本地单元点云的局部特征挖掘通常采用局部到全局策略[25]，该策略聚合每个组中的局部特征，并通过分层架构逐渐增加感受野。我们采用这种方法在点局域（PL）细胞。类似于先前对局部采样点xi、对应特征fi和邻域（xi）的定义，PL中使用的广义局部聚合函数可以公式化为其中g被选为MLP：R3<$→RDl×Dmid，它将三维相对位置转换为Dl×Dmid变换矩阵。Dl表示输入要素Dmid是PL单元更新特征的通道。3.2.2点非局部像元受2D图像中非局部神经网络[41]的启发，我们设计了一个用于全局上下文聚合的特定点非局部（PNL）单元（图1）。（3）第三章。我们的点非局部单元和[41]中提出的分量(1)我们使用我们的采样点作为查询点来计算与某些层中的整个点（例如，关键点k）的相似性。此外，我们的查询点不限于输入点云的子集内，因为每个采样点通过AS模块自适应地更新其坐标和特征（第二节）。第3.1节）。(2)我们的输出通道随着每层中的下采样操作而查询要点关键点Ns× DlN×DlN×Dl1x1 1x1 1x1转换转换转换φθγNs× D'D'× NN× D'SoftmaxNs×D'1x1Ns× NConvNs× D中）}5593P∈N DNFPS自适应局部-非局部采样模块局部-非局部模上采样集合抽象特征传播跳过链接PN L我- -−这避免了下采样编码器中的信息丢失。具体而言，与Eq. 1，给定查询点xi和来自k的关键点，非局部操作定义为：NL（xi，Pk）：=A（R（fi，fj）γ（fj），<$xj∈Pk），（7）其中 kRN×3代表某个层中的全部N个关键点。最后，单个非线性卷积层σ融合全局上下文，并将每个点的通道调整到与PL Dl+1的输出相同的维度输入点云设置抽象级别特征传播级别每点预测（等式。（五）。因此，对于采样点xi，其更新特征由PNL计算，其中函数fnl= σ（NL（xi，Pk））.（八）3.2.3局域-非局域融合通过结合PL和PNL，我们构造了一个局部-非局部模块来同时编码局部和全局特征。如图图2（b）中，它使用查询点和关键点作为输入，并利用k-NN分组用于每个查询点的邻域搜索。然后，通过PL发送每个局部区域的组坐标和特征以进行局部上下文编码。对于PNL，它使用整个关键点，通过一个注意机制整合每个查询点的全局信息。最后，对于每个更新的点，使用具有非线性卷积σ的逐通道求和来融合局部和全局信息。3.3. PointASNL通过结合两个组成部分，提出了在第二节。3.1节和3.2节中的每一层，我们可以为分类和分割任务实现分层架构。对于分类，我们设计了一个三层网络和下采样输入点在两个层次。特别地，前两个层采样点512和124。第三层连接前两层的全局特征与最大池化，其中新的特征分别由全连接层，dropout，和softmax层处理。在每个层中使用批归一化层和ReLU函数。此外，在前两层中使用跳过连接[10对于分割（见图1）。4），每个编码器层与分类中的设置相似，但网络具有更深的结构（1024-256-64-16）。在解码器部分，我们使用3-最近插值[25]来获得上采样特征，并使用L-NL块进行更好的特征学习。此外，跳过连接用于在编码器和解码器的中间层之间传递特征。4. 实验我们在各种任务上评估我们的PointASNL，包括合成数据集，大规模室内和室外场景分割，图4.用于点云语义分割的PointASNL的架构L-NL模块用于编码器和解码器两者中。mentation数据集。在所有实验中，我们在一个GTX1080Ti GPU上使用Tensorflow实现模型。4.1. 分类我们在合成数据集ModelNet10和ModelNet40[45]上评估我们的模型进行分类，其中ModelNet40由40个类中的 9843 个训练模型和 2468 个测试模型组成，ModelNet10是ModelNet40的子集，由10个类组成，其中3991个训练对象和908个测试对象。形状分类。分类中的训练和测试数据由[24]提供。对于训练，我们选择1024个点作为输入。增强策略包括以下组件：在范围[ 0. 八，一。25]，在范围[ 0. 1，0。1]，随机脱落20%。对于测试，类似于[24，25]，我们使用随机缩放应用投票测试，然后对预测进行平均。在选项卡中。1，我们的方法在1024个输入点中的表现优于几乎所有最先进的方法，除了RS-CNN。请注意， RS-CNN [22] 可以从 92.9% 的均匀采样中实现93.6%的巧妙投票策略（300次重复测试中最好的），这与正常的随机采样和一次投票设置不同。带噪声的形状分类大多数方法可以在合成数据集上实现不错的性能，因为它们具有稳定的分布并且不包含任何噪声。然而，这种良好的性能往往导致缺乏模型的鲁棒性。为了进一步验证我们模型的鲁棒性，我们做了像KC-Net [28]这样的实验，用随机噪声范围[ 1]替换一定数量的随机选取的点。0，1。[0]测试期间。与PointNet [24]、PointConv [44]和KC-Net [28]的比较如图所示5（b）。如图所示，我们的模型对噪声非常鲁棒，特别是在添加AS模块之后。从（c）和（d）可以看出，自适应采样保证了采样点云的适当形状，使得模型更加鲁棒。5594××表1.ModelNet10（M10）和ModelNet40（M40）数据集的整体精度“pnt” stands for coordinates of point and “nor” stands fornormal方法输入点数M10M40O-CNN [39]彭特河--90.6SO-Net [19]彭特河2k94.190.9Kd-Net [15]PNT32k94.091.8[25]第二十五话彭特河5k-91.9SpiderCNN [47]彭特河5k-92.4KPConv [34]PNT7k-92.9SO-Net [19]彭特河5k95.793.4[12]第十二话PNT1k-86.1[第30话]图1k90.887.4PointNet [24]PNT1k-89.2[48]第四十八话彭特河1k-91.7GCN规格[36]PNT1k-91.8[18]第十八话PNT1k-92.0[20]第二十话PNT1k-92.2DGCNN [42]PNT1k-92.2PCNN [3]PNT1k94.992.3[44]第四十四话彭特河1k-92.5美国有线电视新闻网[16]彭特河1k95.592.6[21]第二十一话PNT1k95.392.6RS-CNN [22]PNT1k-93.6PointASNLPNT1k95.792.9PointASNL彭特河1k95.993.24.2. 分割室内场景分割1与合成数据集上的分类不同[45，49]，室内3D场景分割是一项更困难的任务，因为它是真实世界的点云，包含大量的离群值和噪声。我们使用斯坦福3D大规模室内空间（S3DIS）[2]和ScanNet v2（ScanNet）[6]数据集来评估我们的模型。S3DIS数据集从3个不同的建筑物中采样，其中包括6个大型室内区域，271个房间。这个数据集中的每个点都有一个属于13个类别之一我们比较了所有6个区域和区域5 的6 重交叉验证的平均每类IoU（mIoU ）ScanNet数据集包含1513个用于训练的扫描室内点云和100个测试扫描，所有语义标签均不可用。每个点都标有21个类别中的一个。我们将结果提交给官方评估服务器，与基准测试中的其他最先进的方法进行比较。在训练过程中，我们通过随机抽样1生成训练数据。5m1。5米3米立方体与8192点从室内房间。0的情况。使用采样立方体的1m填充来增加立方体边缘预测的稳定性，这在损失计算中没有考虑。在这两个数据集上，我们使用点位置和RGB信息1补充资料显示，随着更多的采样点和更深的结构，我们的PointASNL仍然可以在ScanNet基准上进一步提高到66.6%。表2.室内S3DIS和ScanNet数据集的分割结果，以平均每类IoU（mIoU，%）表示。方法S3disScanNet方法使用不特定的点数作为输入[33]52.840.9SPGraph [17]62.1-KPConv [34]70.668.4方法使用固定数量的点作为输入[25]第二十五话53.433.9DGCNN [42]56.1-RSNet [13]56.5-[48]第四十八话64.3-[20]第二十话65.445.8[第50话]66.7-[44]第四十四话-55.6HPEIN [14]67.861.8PointASNL68.763.0作为特征。我们没有使用Point- Net [24]中的相对位置作为在S3 DIS中训练模型的特征，因为我们的模型已经很好地学习了相对位置信息在评估过程中，我们使用一个滑动窗口在整个房间0。5米步幅，以补充5投票测试。在选项卡中。2，我们在相同的训练和测试策略下（随机切割具有固定点数的立方体）将我们的PointASNL与其他最先进的方法进行比较，例如，PointNet++ [25] 、 PointCNN [20] 、 Point-Conv [44] 、PointWeb [50]和HPEIN [14]。我们还列出了另一种方法的结果（使用不固定数量的点或整个场景作为输入），例如，[33](a)（b）第（1）款（c）第（1）款（d）其他事项图5.（a）点云，其中一些点被随机噪声替换(b)不同模型的分类结果与噪声点，其中PL，PNL，AS分别表示点局部细胞，点非局部细胞和自适应采样。(c)噪声数据上的Faradian点采样。(d)对噪声数据进行自适应采样，保持点云的分布。5595××(a) S3DIS（b）ScanNet图6. S3DIS和ScanNet数据集上的室内语义分割示例。表3.SemanticKITTI上的语义分割结果，其中方法输入mIoU（%）PointNet [24]5万英镑14.6SPGraph [17]-17.4SPLATNet [31]5万英镑18.4[25]第二十五话4.5万英镑20.1[33]12万英镑40.9PointASNL8k pnt46.8和KPconv [34]。所有的方法都只使用点云作为输入，而不进行体素化.如Tab.所示2、PointASNL在S3DIS和ScanNet中的训练策略相同的情况下都优于所有方法。特别是，我们的结果比具有相同实验设置的ScanNet上先前最先进的PointConv [44]高8%，其中卷积设计与我们的PL单元相似。然而，如果没有适当的采样和全局信息支持，它无法在相同的网络架构下实现这样的结果。另一方面，使用更多点作为输入的训练可以获得更多信息。KP-Conv [34]不是从随机选择的具有固定数量的立方体中学习，而是基于局部标签一致性的假设执行网格采样，以便可以包括点云的较大形状作为输入。定性结果在图1中可视化。六、我们的方法可以正确分割对象，即使在复杂的场景。室外场景分割。与室内点云相比，室外点云覆盖更广的区域，并且具有相对稀疏的点分布和噪声。出于这个原因，从户外场景进行推断更具挑战性我们在SemanticKITTI [4]上评估了我们的模型，这是一个大规模的户外场景数据集，包括在野外捕获的43，552次扫描。该数据集由22个序列（00到10作为训练集，11到21作为测试集），其中的每一个都包含一系列顺序的激光扫描。每个单独的扫描都是由常用的汽车LiDAR生成的点云可以通过聚合多个连续扫描来生成整个序列在我们的实验中，我们只评估了我们的模型下的单扫描语义分割。在单次扫描实验[4]中，没有考虑相同序列中扫描之间的顺序关系。共有19个班级用于培训和评估。具体地，从扫描生成的输入数据是三维点的坐标以及它们的坐标的列表。在训练和测试过程中，我们使用了类似于室内分割的基于滑动由于室外场景中的点云比较稀疏，我们将立方体的大小设置为10m10m6米和1米填充。在选项卡中。3、将PointASNL与其他方法进行了比较。我们的方法比其他方法的效果大得多。补充材料表明，我们的方法在19个类别中的13个类别中取得了最好的结果。更进一步，Fig。7说明了我们对两个样本的定性可视化，即使场景被大量噪声覆盖图7. 室外SemanticKITTI数据集的示例。预测GT输入预测GT5596表4.ModelNet40和ScanNet v2确认集的消融研究PL、PNL和AS是指点局部单元、点非局部单元和自适应采样。（一）（c）第（1）款由于无人采集引起的，我们的模型仍然可以很好地预测。4.3. 消融研究为了进一步说明所提出的AS和L-NL模块的有效性，我们设计了一个消融研究的形状分类和语义分割。消融研究的结果总结见表1。4.第一章我们设定了两个基线：A和B模型A仅通过PNL对全局特征进行编码，模型B仅对局部特征进行编码。基线模型A在分割上获得90.1%和45.7%的低准确度IoU，并且模型B分别获得92.0%和56.1%。当我们结合局部和全局信息（模型C）时，分类和分割都有显着的改善。最后，当我们添加AS模块时，模型在分割任务中将有显著的改进（模型D中为93.2%和63.5%）。此外，我们提出的组件L-NL模块和AS模块可以直接提高其他体系结构的性能。当我们在PL单元（模型F）中使用PointNet++ [25]时，它将分类和分割任务的错误分别减少23.1%和12.6%，与其原始模型（模型E）相比。值得注意的是，AS模块并没有提高分类任务的准确性，甚至在PointNet++（模型F）上添加时降低了分类的准确性。这是因为合成数据集不具有像场景分割的大量噪声max pool），这可能会使它们在使用AS后无法适应不均匀的点云分布。此外，我们还使用DGCNN [42]作为我们的局部聚合基线（模型H），融合架构（模型I和J）可以大大提高两个数据集的性能。4.4. 稀疏点云的鲁棒性为了进一步验证PointASNL模型的鲁棒性，我们取较稀疏的点（即，1024、512、256、128和图8.（a）输入点云的样本（b）随机选择64个点后的输入点云样本（c）稀疏点测试结果。64）作为输入到各种模型训练1024点。然后我们将我们的方法与PointNet [24]，Point-Net ++[25]，SO-Net[19]和最近最先进的RS-CNN [22]进行比较。我们遵循这些方法在训练期间应用随机从图中可以看出。8（c），PNL可以大大提高模型对不同密度输入的鲁棒性特别是，当输入仅包含64个点时，PNL甚至可以帮助提高我们模型的准确性，从73.9%提高到85.2%，这在很大程度上超过了当前最先进的RS-CNN [22]（约75%）。实验结果充分表明，局部和全局学习方法的使用可以大大提高模型的鲁棒性。如图1所示。8（a）和（b），当输入点减少到64个时，即使是人类也很难识别出飞机，但我们的模型可以正确分类这种优越的鲁棒性使得我们提出的PointASNL模型适用于采样点有限的原始噪声点云，特别是对于大规模的户外场景。5. 结论我们提出了自适应采样（AS）和局部-非局部（L-NL）模块构建的结构PointASNL强大的三维点云处理。通过结合本地邻居和全球上下文交互，我们大大提高了传统的方法在几个基准。此外，自适应采样是一种可重构的采样策略，可以对采样点的空间分布进行微调，大大提高了网络的鲁棒性。在竞争数据集上的实验和进一步的分析表明了我们的PointASNL的有效性和合理性。谢谢。这项工作得到了资助没有。2018YFB1800800，NSFC-61902335，No.2019E0012号ZDSYS201707251409055号2017 ZT 07 X152号2018 B 030338001，以及CCF-腾讯开放基金。模型消融ModelNet40 ScanNet一仅PNL90.145.7B仅PL92.056.1CPL+PNL93.260.8DPL+PNL+AS93.263.5E[24]第二十四话90.948.9FPointNet2+PNL93.054.6GPointNet2+PNL+AS92.855.4HDGCNN [42]92.252.7我DGCNN+PNL92.956.7JDGCNN+PNL+AS93.158.3（5597引用[1] Charu C Aggarwal。离群值分析。数据挖掘，第237施普林格，2015年。3[2] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，IoannisBrilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析在IEEE计算机视觉和模式识别会议论文集，第1534-1543页6[3] Matan Atzmon，Haggai Maron，and Yaron Lipman.点卷积神经网络的扩张算子。arXiv预印本arXiv：1803.10091，2018。二、六[4] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克角Stach-niss和J.胆语义：用于LiDAR序列语义场景理解的数据集。在IEEE/CVF国际会议上，计算机视觉（ICCV），2019年。7[5] Christopher Choy，JunYoung Gwak，Silvio Savarese. 4D时空转换：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第3075-3084页，2019年。2[6] Angela Dai，Angel X Chang，Manolis Savva，Maciej Halber，Thomas Funkhouser，and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition ，第 5828- 5839 页，2017年。6[7] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在IEEE计算机视觉和模式识别会议论文集，第9224-9232页，2018年。2[8] Fabian Groh，Patrick Wieschollek，and Hendrik PA Lensch.弯曲卷积。在亚洲计算机视觉会议上，第105122. Springer，2018. 2[9] Paul Guerrero 、 Yanir Kleiman 、 Maks Ovsjanikov 和 Niloy JMitra。从原始点云学习局部形状属性。计算机图形论坛，第37卷，第75-85页。Wiley Online Library，2018. 3[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770- 778页，2016年。5[11] PedroHermosilla、TobiasRitschel、Pere-PauVa'zquez、A`lvarVinacua和Timo Ropinski。用于非均匀采样点云学习的蒙特卡罗卷积。SIGGRAPH Asia 2018技术论文，第235页。ACM，2018。一、二、三[12] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别集，第984二、六[13] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的递归在IEEE计算机视觉和模式识别会议论文集，第2626-2635页，2018年。6[14] Li Jiang，Hengshuang Zhao，Shu Liu，Xiaoyong Shen，Chi-Wing Fu，and Jiaya Jia.分层点边交互网络用于点云语义分割。2019. 二、六[15] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉中，第863-872页，2017年。6[16] Artem Komarichev，Zichun Zhong，Jing Hua. A-cnn：点云上的环形卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第7421-7430页，2019年。二、六[17] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在IEEE计算机视觉和模式识别会议论文集，第4558-4567页，2018年。六、七[18] 特吕克·勒和叶端。点网格：一个深度网络的三维形状理解.在IEEE计算机视觉和模式识别会议论文集，第9204-9214页6[19] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397三六八[20] 李阳燕，芮布，孙明超，吴伟，狄新汉，陈宝泉. Pointcnn：x变换点上的卷积。神经信息处理系统的进展，第820-830页，2018年。二、六[21] Xinhai Liu，Zhizhong Han，Yu-Shen Liu，and Matthias Zwicker.点2序列：以注意力为基础的序列到序列网路学习三维点云的形状表示。在AAAI人工智能会议论文集，第33卷，第8778-8785页，2019年。二、六[22] Yongcheng Liu，Bin Fan，Shiming Xiang，and Chunhong Pan.用于点云分析的S形卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第8895-8904页，2019年。二五六八[23] Zhe Liu ， Shunbo Zhou ， Chuanzhe Suo ，

下载后可阅读完整内容，剩余1页未读，立即下载