基于关系-形状卷积神经网络的点云分析

177 浏览量更新于2023-10-19 收藏 2.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8895基于关系-形状卷积神经网络的点云分析刘永成<$范斌<$向世明<$<$潘春红<$†中国科学院自动化研究所模式识别国家重点实验室‡中国科学院大学人工智能学院邮箱：{yongcheng.liu，bfan，smxiang，chpan} @ nlpr.ia.ac.cn摘要点云分析非常具有挑战性，因为不规则点中隐含的形状很难捕获。本文提出了RS-CNN，即R-S型卷积神经网络，它将规则网格CNN扩展到不规则结构，用于点云分析。RS-CNN的关键是从关系中学习，即点之间的几何拓扑约束。具体地，局部点集的卷积权重被迫从预定义的几何先验学习来自该点集的采样点与其他采样点之间的高级关系表达式。通过这种方式，可以获得具有关于点的空间布局的显式推理的归纳局部表示，这导致更大的形状感知和鲁棒性。利用这种卷积作为基本运算符RS-CNN，可以开发一种分层架构，以实现点云分析的上下文形状感知学习。在三个任务中对具有挑战性的基准进行了广泛的实验，验证了RS-CNN达到了最先进的水平。1. 介绍近年来，三维点云的分析引起了人们的广泛关注，因为它有许多应用，如自动驾驶和机器人操作。然而，这项任务是非常具有挑战性的，因为很难推断出由这些不规则点形成的潜在形状（见图1）。1详细信息）。对于这个问题，很多努力都集中在复制卷积神经网络（CNN）在规则网格数据上的显着成功（例如，图像）分析[17，32]，到不规则点云处理[26，15，45，29，27，34，38]。一些作品将点云转换为规则体素[42，22，3]或多视图图像[35，2，5]，以便于应用经典网格CNN。然而，这些变换通常会导致三维点云中固有的几何信息的大量丢失，以及高的复杂性。为了直接处理点云，PointNet [24]独立地学习每个点并收集最终特征* 通讯作者：范斌图1.左部分：点云。右部分：由该点云形成的基础形状。一个全球代表。虽然令人印象深刻，但这种设计忽略了局部结构，这些结构已被证明对于在图像CNN中抽象高级视觉概念很重要[49]。为了解决这个问题，有人通过采样[26]或超点[18]将点云划分为几个子集。然后建立一个层次结构来学习从局部到全局的上下文表示。然而，这非常依赖于局部子集的有效归纳学习，这是相当难以实现的。一般来说，从点集P∈R3学习主要有三个挑战：（1）P是无序的，因此要求学习的表示是置换不变的;(2) P分布在3D几何空间中，因此要求所学习的表示对刚性变换（例如，旋转和平移）;（3）P形成了一个基础形状，因此，学习到的表征应该具有辨别性的形状意识。问题（1）已经很好地解决了对称函数[24，27，48]，而（2）和(3) 仍然需要进行充分的探索。这项工作的目标是将规则网格CNN扩展到不规则配置，以便一起处理这些问题。为此，我们提出了一个关系形状卷积神经网络（别名为RS-CNN）。RS-CNN的关键是从关系中学习，即点之间的几何拓扑约束可以在三维点云中编码有意义的形状信息。具体地，每个局部卷积邻域通过将采样点X作为质心来构造，并且8896将周围的点作为它的邻居N（x）。然后，卷积权重被迫从预定义的几何先验学习高级关系表达式，即，x和N（x）之间的直观低级关系。通过在这样，一个有明确理由的归纳表示可以获得关于点的空间布局的信息。它有区别地反映了不规则点形成的潜在形状，因此是形状感知的。此外，它可以从几何先验中受益，包括对点排列的不变性和对刚性变换（例如，平移和旋转）。以该卷积作为基本算子，可以实现分层的类CNN架构，即：，RS-CNN，可以被开发以实现用于点云分析的上下文形状感知学习。主要贡献如下：• 提出了一种新的从关系学习卷积算子-关系形状卷积它可以对点的几何关系进行显式编码，从而提高形状感知能力和鲁棒性;• 一个深层次配备了关系形状卷积，即。提出了一种基于RS-CNN的神经网络模型。它可以延伸规则网格CNN到不规则配置，用于实现点云的上下文形状感知学习;• 在三个任务中对具有挑战性的基准进行了广泛的实验，理论分析，论证RS-CNN达到了最先进的水平。2. 相关工作基于视图和体积的方法。基于视图的方法将3D形状表示为来自不同角度的一组2D视图。最近，已经提出了许多作品[35，2，5，43，6，25]来用深度神经网络识别这些视图图像。他们经常微调预训练的基于图像的架构以实现准确识别。然而，由于自遮挡，2D投影可能会导致形状信息的丢失，并且它通常需要大量的视图才能获得良好的性能。体积方法将输入的3D形状转换为一个规则的3D网格，在其上可以使用经典的CNN [42，22，3]。主要的限制是由于3D网格强制的低分辨率导致的形状的量化损失。最近的空间划分方法，如K-d树[16]或八叉树[39，36，28]，解决了一些分辨率问题，但仍然依赖于包围体的细分而不是局部几何形状。与这些方法相比，我们的工作旨在直接处理三维点云。点云上的深度学习。PointNet [24]通过在每个点上独立学习并使用最大池化收集最终特征来然而，这种设计忽略了局部结构，这已被证明是CNN成功的重要因素。为了解决这个问题，PointNet++建议将PointNet分层应用于点云的多个子集PointNet的局部结构开发也在[4，30]中进行了研究。此外，提出了Superpoint [18]将点云划分为几何元素。图卷积网络应用于由相邻点创建的局部图[38，37，20]。然而，这些方法不显式地对点的局部空间布局进行建模，从而获得较少的形状感知。相比之下，我们的工作捕捉点的空间布局，通过学习点之间的高层次的关系表达式。一些作品将点云映射到高维空间，以方便经典CNN的应用。SPLAT-Net [34]将输入点映射到稀疏网格上，然后使用双边卷积[14]进行处理。PCNN [1]将点云上的函数扩展为周围空间上的连续体积函数。这些方法可能会导致几何信息的丢失，而我们的方法直接操作点云，而不会引入这种损失。另一个关键问题是点的不规则性。一些工作集中在分析与点集学习等变的对称函数[24，27，48，19]。一些其他的工作[24，21]开发了对准网络，用于3D空间中刚性变换的鲁棒性。然而，对准学习是针对该问题的次优解决方案。一些传统的描述符，如快速点特征直方图，可以是平移和旋转不变的，但他们往往是不太有效的高层次的形状理解。我们的方法学习点之间的几何关系，对刚性变换具有很强的鲁棒性，由于深度网络的强大，它非常有效关系学习。在图像和视频分析领域中，已经探索了从关系中学习数据依赖的权重。空间Transformer [13]学习转换矩阵来对齐2D图像。非本地网络[40]学习跨视频帧的长期关系。关系网络[9]学习跨对象的位置关系。也有一些工作集中在三维点云的关系DGCNN [41]通过在高维特征空间中学习点关系来捕获相似的局部形状，但这种关系在某些情况下可能不可靠。Wang等人提出了一种基于点之间的可计算关系的参数连续卷积，但他们没有像经典CNN那样显式地从局部到全局学习。相比之下，我们的方法学习一个高级的关系表达式，从几何先验在3D空间，并执行上下文局部到全局形状学习。3. 形状感知表示学习点云分析的核心是以稳健的方式区分表示底层形状。在这里，我们学习上下文形状感知表示，这一目标，通过扩展规则网格CNN到不规则配置与一种新的关系形状卷积（RS-Conv）。8897j）、，d图2.关系-形状卷积（RS-Conv）关键是从关系中学习。具体来说，卷积权重xj被转换为wij，w h。它学习一个映射M的解析表示σA（{wij·fxj，fxj}）（等式。（2））在预定义的几何关系向量hij上。以这种方式，电感con-（Eq.（3）能对点的空间布局进行有意义的推理，塑造意识。与图像CNN [32]一样，为了更强大的形状感知表示，进行了进一步的通道提升映射3.1. 关系形状卷积局部到全局学习在图像CNN [17，32]中取得了显著成功，是上下文形状表示的一种有前途的解决方案。然而，它非常依赖于从不规则点子集的形状感知归纳学习，这仍然是一个相当棘手的问题。建模为了克服这个问题，我们将局部点子集PsubR3建模为球形邻域，其中采样点xi作为质心，周围的点作为其邻居xj∈ N（xi）。图的最左侧部分2说明了该模型。然后，我们的目标是学习归纳法，对fPsub.这个问题可以通过一些技术来部分缓解，例如执行各种数据增强或使用大量卷积滤波器，但它们是次优的。转化：从关系中学习。我们认为，上述限制可以通过从关系中学习来减轻在3D空间的邻域中，xi与其所有邻域N（xi）之间的几何关系是显式的。关于点的空间布局的表达式，其进一步有区别地反映了潜在的形状。为了捕捉这种关系，我们将经典CNN中的w j替换为wij，它学习关系向量hij的映射M，即、xi和xj之间的预定义几何先验。我们称该邻域的表示fPsub，其应当区分地编码底层形状信息。到国际新闻报低级别的关系。这一过程可以描述为为此，我们将一般卷积运算公式化为T（fxj）=wij·fxj=M（hij）·f xj。（二）fPsub.=σA（{T（fxj），x}1ijr<∈ N（xi），（一）映射M的目的是抽象高层关系两个点之间的表达式，它可以编码它们的spa-其中X是3D点，并且f是特征向量。dij是xi和xj之间的欧几里得距离，r是球面半径这里fPsub是通过首先用函数T变换N（xi）中所有点的特征，然后用函数A聚集它们，然后用非线性激活器σ来获得的。在该公式中，两个函数A和T是fPsub的关键。也就是说，只有当A是对称的（例如，、tial布局。在这里，我们实现M与共享的多层感知器（MLP）由于其强大的映射能力。这个过程在图的中间部分示出。二、通过这种方式，wj被巧妙地转换为wij，其梯度（由hij确定）与x i和x j都相关。与此同时，M是在N（xi）中的所有点上共享的，使得它在-取决于点的不规则性。它也可以是健壮的到刚性转换，这将在第3.2节中阐明。求和），并且T在N（xi）中的每个点上共享。因此，fP子由方程式（1）成为经典CNN的局限性在经典的CNN中，T是IM-可实现为T（fx）=wj·fx，其中wj是可学习的.f Psub =σA（{M（hij）·fxjΣ，{x，j}）。（三）J J权重，并且“·“表示逐元素乘法。那里主要是两个限制，这种卷积时，在点云上叠加：1）wj不在N（xi）中的每个点上共享，导致点置换的方差和处理不规则Psub的能力（例如，，不同的数字）;2)反向传播中的梯度wj仅与孤立点xj相关，导致隐式学习策略，其不能带来太多的形状意识和ro。共享MLP共享MLP...学习关系8898这种卷积表示将xi和N（xi）之间的所有关系聚合在一起，可以实现关于点的空间布局的显式推理，从而产生有区别的形状感知。对于几何先验，可以使用3D欧几里得距离作为几何先验的直观描述。低级关系hij。此外，也可以灵活地定义hij，因为M可以将其映射到用于信道对准的高维关系向量，其中f xj用于容易的乘法。[1]在本文中，为了清楚起见，省略了偏置项。第我们将在实验部分详细讨论hij。z关系-形状卷积z河道上升映射形状感知表示...XXRy等通道y共享MLP共享MLP8899PPN通道提升映射。由方程式（3），fPsub的通道数与输入特征fxj相同。这与经典图像CNN不一致，经典图像CNN增加了通道数，同时降低了图像分辨率，以获得更高的分辨率。输出：左上角：正上方：右上角代表权。例如，网格关系卷积核特征图64-128-256-512在VGG网络中设置[32]。因此，我们在fP_sub上添加共享MLP以用于进一步的信道提升映射。它在图1的中间部分示出。二、3.2. 性能方程式中的RS-转化率（3）能保持四个体面的性质：图3.具有3×3核的2D网格卷积的图示。RS-CNN全连接层标签......这是什么？（一）排列不变性在内部映射函数M（h），低层关系h和共享MLPRS-CNN逐点预测要素传播图层......这是什么？M对点的输入顺序是不变的。因此，我们认为，当外聚合函数A是对称的时，可以满足置换不变性。对刚性变换的鲁棒性。该属性在高级关系编码M（h）中被很好地保持。它可以对刚性变换鲁棒，例如，平移和旋转，当合适的H（例如，3D Euclidean距离）。点交互。点不是孤立的，并且附近的点在几何空间中形成有意义的形状因此远程连接（b）第（1）款图4. RS-CNN的体系结构应用于点云的分类（a）和分割（b）。N是点数，C是通道号。像经典CNN的学习架构，即RS-CNN，可以被开发用于点云分析它们固有的相互作用对于辨别形状意识是至关重要的我们的关系学习的解决方案明确地-F PN =RS-CONV（F−1N−1）、（4）编码点之间的几何关系，自然地捕捉-点的相互作用其中Fℓ，采样点集PN的层中的特征体重分担。这是允许在不同的不规则点子集上应用相同的学习函数以获得鲁棒性以及低复杂度的关键属性。由方程式（3）、对称A、共享MLPM和预定义MLP M。几何先验h都独立于点因此，也满足该性质。3.3. 再论2D网格卷积建议RS-Conv是一个通用的2D网格卷积关系推理的制定。我们用二维网格特征图上的3 × 3邻域（卷积核）来澄清这一点，如图1所示。3.第三章。具体地说，总和-通过在前一层<$-1中的特征上应用RS-Conv来获得。我们的RS-CNN应用于分类和分割-点云的位置如图所示。4.第一章在这两个任务中，RS-CNN用于学习一组分层形状感知表示。最后的全局表示，其次是三个完全连接（FC）层被配置为分类。对于分割，通过特征传播[26]对学习的多级表示进行连续上采样，以生成逐点预测。两者都可以以端到端的方式进行训练。3.5.实现细节方程式中的RS-转化率（三）、对称函数max pooling是信息函数是聚合函数A. 更进一步地，注意，w_j_ays意味着规则网格中的xi与其相邻xj之间的固定位置关系。例如，w1总是意味着与xi的左上关系，w2意味着与xi的右上关系。Xi. 换句话说，wj实际上被限制为编码一个学习过程中的规则网格关系。因此，我们的RS-Conv与关系学习是更普遍的，可以应用于模型的2D网格空间关系。3.4.用于点云分析的使用RS-Conv（图2）作为基本算子，采用均匀采样策略，提出了一种分层形状感知应用为聚合函数A。ReLU [23]被用作非线性激励器σ。对于映射函数M，部署了三层共享MLP，因为理论上它可以适合任意连续映射[8]。低级关系hij被定义为具有10个通道的紧凑向量，即，（3D欧氏距离，xi−xj，xi，xj）.信道提升映射由单层共享MLP实现在每个MLP中应用批量归一化[12]RS-CNN用于点分析。从点云数据中选取最远点进行局部采样，形成RS-Conv。在每个邻域中，随机抽取固定数量的邻域进行批量处理，...8900它们被归一化以将质心作为原点。为了捕捉更充分的几何关系，我们迫使RS-CNN学习以共享权重的采样点为中心的三尺度邻域。这与使用多组权重学习多尺度特征的多尺度分组（MSG）[26]不同。采用3层和4层的RS-CNN分别用于分类和分割。请注意，仅3D坐标xyz用作RS-CNN的输入特征。我们的RS-CNN使用Pytorch2实现。亚当采用优化算法进行训练，最小批量为32。国阵的动力始于0的情况。9，并以0的速率衰减。每20个时期5个。学习率从0开始。001，并以0的情况。每20个时期7个。RS-CNN的权重使用He等人介绍的技术进行初始化。[7]的文件。4. 实验在本节中，我们安排了全面的实验来验证所提出的RS-CNN。首先，我们在三个任务上评估RS-CNN的点云分析（第4.1节）。然后，我们提供详细的实验来仔细研究RS-CNN（第4.2节）。最后，我们可视化RS-CNN捕获的形状特征并分析其复杂性（第4.3节）。4.1. 点云分析形状分类。我们在Model-Net 40分类基准上评估RS-CNN [42]。它由40类9843个列车模型和2468个试验模型组成。通过[24]从这些模型中采样点云数据。我们均匀地采样1024个点，并将它们归一化为一个单位球面。在训练期间，我们在[-0.66，1.5]范围内使用随机各向异性缩放和[-0.2，0.2]范围内使用平移来增强输入数据，如[16]所示。同时，在FC层中应用了50%比率的脱落技术[33]在测试过程中，类似于[24，26]，我们使用随机缩放进行了十次测试，并对预测进行了平均。与最先进的基于点的方法的定量比较总结在表1中，其中RS-CNN优于所有xyz输入方法。具体而言，RS-CNN将PointNet++[26]的错误率降低了31.2%，并超过了其使用额外正常数据以及非常密集点（5 k）的高级版本。此外，即使仅使用xyz作为输入，RS-CNN也可以实现优于最佳附加输入方法SO-Net [19]（93.4%）的结果（93.6%）。这验证了RS-CNN的有效性。我们通过使用1024、512、256、128和64的稀疏点作为用1024个点训练的模型的输入来如[26]所示，随机输入压差技术用于公平比较。图5示出了测试结果，其中2https://github.com/Yochengliu/Relation-Shape-CNN1024 512 25612864图5.左半部分：随机点丢失的点云。右部分：使用稀疏点作为1024点训练模型的输入的测试结果。表1. ModelNet 40基准上的形状分类结果（%）（或：正常，“-"：未知）。方法输入点数acc.美国有线电视新闻网[10]xyz1k86.1[48]第四十八话xyz1k87.1[31]第三十一话xyz1k87.4PointNet [24]xyz1k89.2SCN [44]xyz1k90.0Kd-Net（深度=10）[16]xyz1k90.6[26]第二十六话xyz1k90.7KCNet [30]xyz1k91.0MRTNet [3]xyz1k91.2GCN规格[38]xyz1k91.5[21]第二十一话xyz1k91.7[41]第四十一话xyz1k92.2PCNN [1]xyz1k92.3我们xyz1k93.6SO-Net [19]xyz2k90.9Kd-Net（深度=15）[16]xyz32k91.8O-CNN [39]克孜勒河-90.6GCN规格[38]克孜勒河1k91.8[26]第二十六话克孜勒河5k91.9SpiderCNN [45]克孜勒河5k92.4SO-Net [19]克孜勒河5k93.4比较的方法有PointNet [24]、PointNet++ [26]、PCNN[1]和DGCNN [41]。可以看出，当点变得稀疏时，形状识别更加即便如此，RS-CNN仍然相当稳健。它实现了与PointNet++几乎一致的鲁棒性，同时在每个密度上显示出卓越的性能。形状部分分割。零件分割是细粒度形状分析的一项挑战性任务。我们在ShapeNet部件基准测试[46]上评估了RS-CNN，并遵循[24]中的数据分割。此数据集包含16个类别的16881个形状，总共被标记为50个部分如在[24]中，我们随机选取2048个点作为输入，并将对象标签的独热编码连接到最后一个特征层。在测试过程中，我们还应用了十个随机缩放的投票测试。除了每个类别上的标准IoU（Inter-over-Union）之外，我们还报告了两种类型的平均IoU（mIoU），分别在所有类和所有实例中进行平均。8901表2.ShapeNet部件基准上的形状部件分割结果（%）（nor：正常，方法输入类Miou例如Miou气囊帽汽车椅耳吉他刀灯笔记本电脑马达杯手枪火箭滑板台飞机电话自行车板Kd-Net [16]4k77.482.380.174.6 74.3 70.3 88.6 73.5 90.2 87.2 81.0 94.9 57.4 86.7 78.1 51.8 69.9 80.3PointNet [24]2k80.483.783.478.7 82.5 74.9 89.6 73.0 91.5 85.9 80.8 95.3 65.2 93.0 81.2 57.9 72.8 80.6RS-Net [11]-81.484.982.786.484.1 78.2 90.4 69.3 91.4 87.0 83.5 95.4 66.0 92.6 81.8 56.1 75.8 82.2SCN [44]1k81.884.683.880.8 83.5 79.3 90.5 69.891.7 86.5 82.9 96.0 69.2 93.8 82.562.9 74.4 80.8PCNN [1]2k81.885.182.480.1 85.5 79.5 90.8 73.2 91.3 86.0 85.0 95.7 73.2 94.8 83.3 51.0 75.0 81.8SPLATNet [34]-82.084.681.983.9 88.6 79.5 90.1 73.5 91.3 84.7 84.596.3 69.795.0 81.7 59.2 70.4 81.3KCNet [30]2k82.284.782.881.5 86.4 77.6 90.3 76.8 91.0 87.2 84.5 95.5 69.2 94.4 81.6 60.1 75.2 81.3[41]第四十一话2k82.385.184.283.7 84.4 77.1 90.9 78.5 91.5 87.3 82.9 96.0 67.8 93.3 82.6 59.7 75.5 82.0我们2k84.086.283.584.888.8 79.6 91.2 81.1 91.688.4 86.0 96.073.7 94.183.4 60.577.7 83.6[26]第二十六话2k，或81.985.182.479.0 87.7 77.3 90.8 71.8 91.0 85.9 83.7 95.3 71.6 94.1 81.3 58.7 76.4 82.6[47]第四十七话网格82.084.781.681.7 81.9 75.2 90.2 74.9 93.0 86.1 84.7 95.6 66.7 92.7 81.6 60.6 82.9 82.1SO-Net [19]1k，或80.884.681.983.5 84.8 78.1 90.8 72.2 90.1 83.6 82.3 95.2 69.3 94.2 80.0 51.6 72.1 82.6SpiderCNN [45]2k，或82.485.383.581.0 87.2 77.5 90.7 76.8 91.1 87.3 83.3 95.8 70.2 93.5 82.7 59.7 75.8 82.8表3.ModelNet40数据集的正态估计误差数据集方法点数误差ModelNet40PointNet [1]1k0.47PointNet++[1]1k0.29PCNN [1]1k0.19我们1k0.15图6. ShapeNet零件基准上的分割示例。表2总结了与现有技术方法的定量比较，其中RS-CNN实现了最佳性能，类mIoU为84.0%，实例mIoU为86.2%。这大大超过了第二个最好的基于XYZ的方法，即，，DGCNN [41]在mIoU类中的占比为82.3%（1.7↑），PCNN [1]在mIoU实例中的占比为85.1%（1.1↑）。值得注意的是，RS-CNN在基于xyz的方法中设置了这些改进证明了RS-CNN到不同形状的结构。图6示出了一些分割示例。可以看出，虽然不规则点中隐含的零件形状是多种多样的，并且它们可能很难识别，但RS-CNN也可以以相当准确的精度将它们分割出来。正常估计。点云的法线估计是曲面重建和绘制等应用的关键步骤。这项任务非常复杂，因为它需要更高层次的推理，这超出了基本的形状识别。我们把正态估计作为一个有监督的回归任务，并使用分割网络来实现它归一化输出和地面真值正常之间的余弦损失ModelNet40数据集用于评估，以均匀采样的1024个点作为输入。定量结果总结于表3中。RS-CNN在这项任务上优于其他先进的方法，地面实况我们的pointnet pointnet++地面实况<30°正常>90°正常图7. ModelNet40数据集的正态估计。为了清楚起见，我们只在蓝色中显示角度小于30°的预测，在红色中显示角度大于90°的预测。误差为0.15。这将PointNet++的误差（0.29）显著降低了48.3%。图7显示了一些正常的估计示例，其中我们的具有几何关系学习的RS-CNN可以获得更好的预测。然而，RS-CNN对于一些难以处理的形状也可能不太有效，例如螺旋楼梯和复杂的植物。人楼梯飞机书8902表4. RS-CNN的消融研究（%）。“DP” indicates the dropouttechnique in FC layers of the classification模型点数关系BNDP规模投票acc.一1k187.2B1kC189.9C1kCC191.9D1kCCC192.2E1kCCC292.5F1kCCC392.9G1kCCC3C93.6H2kCCC3C93.6我1kCC3C90.14.2. RS CNN设计分析在本节中，我们首先对RS-CNN进行详细的消融然后，我们讨论了聚合函数A，映射函数M和低层关系h的选择在Eq。（三）、最后，我们验证了RS-CNN对点排列和刚性变换的鲁棒性。所有经验-在ModelNet40分类数据集上进行了分析。消融研究。结果总结于表4中。基线（模型A）被设置为在没有几何关系编码的情况下进行学习，但是具有共享的三层MLP作为Eq.（一）.基线的准确率仅为87.2%。然而，通过几何关系学习，其显著提高到89.9%（模型B）。这令人信服地验证了我们的RS-CNN的有效性。而在使用BN（modelC）算法后，网络性能得到了2%的提高，这可能是因为BN算法大大简化了网络训练。此外，辍学技术-表5. 聚合函数A和映射函数M（等式2）上的不同设计的结果（%）（3））（M（k）：k层MLP）。表6. 五个直观低级关系h（Ed：欧几里德距离，cosd：余弦距离，xnor：x的法线，x′：x的2D投影）。模型A仅应用3D欧几里德距离作为h;模型B将坐标差添加到模型A;模型C将两点的坐标添加到模型B;模型D利用两点的法线及其余弦距离作为h;模型E将3D点投影到XY、XZ和YZ的2D平面上。模型低级关系h渠道acc.一BCDE（3D版）192.5（3D版，xi−xj）493.0（3D版，xi−xj，xi，xj）1093.6（3D-cosd，xnor，xnor）I j792.8（二维，x′−x′，x′，x′）i j i j1092.2精度这可能是因为最大池可以选择最大的特征响应，从而保持最具表达性的表示并去除冗余信息。映射函数M。用不同层部署的M的结果总结在表5的前三行中。可以看出，93.6%的最佳准确率是由共享的三层MLP获得，并且它减少了nique使结果提高了0.3%（模型D）。作为男人-如3.5节所述，RS-CNN应该能够受益于足够的几何关系。这通过分别执行两尺度和三尺度关系学习的模型E（92.5%）和模型F（92.9%）得到验证。最后，通过十次投票测试，仅使用xyz特征就可以获得令人印象深刻的93.6%的准确性（模型G）。调查输入点数量的影响在RS-CNN上，我们也用2048个点训练网络，但没有发现任何改进（模型H）。此外，为了更公平地与基线（模型A）进行比较，我们设置了一个新的基线（模型I），它适用于除关系学习之外的所有技术。它的准确率为90.1%，RS-CNN也可以超过3.5%。我们推测，具有几何关系推理的RS-CNN可以获得更多的辨别性形状意识，并且这种意识可以通过多尺度关系学习来大大聚合函数A. 三个对称函数：最大池化（max）、平均池化（avg.）和求和（sum）来研究A对RS-CNN的影响。表5总结了结果。可以看出，在M使用三层的情况下，最大池化实现了最佳性能。mance，而平均池化和求和得到相同的结果0.9%，当增加层数时。这可能是由于具有四层的M给网络训练带来了一定的困难。值得注意的是，RS-CNN也可以获得92.4%的精度，M只使用两层。这验证了关系学习对于底层学习的强大性。从点云捕捉形状。低级关系h。RS-CNN的关键是从关系中学习，如何定义h是一个值得探索的问题。实际上，h可以灵活地定义，只要它能区分地反映潜在的形状。为了验证这一主张并促进理解，我们以五个直观的关系定义作为示例进行实验，其结果总结在表6中。可以看出，仅使用3D欧几里德距离作为h，准确度也可以达到92.5%（模型A）。这证明了我们的RS-CNN对于高级几何关系学习的有效性。此外，通过附加关系，包括坐标差（模型B）和坐标本身（模型C），性能逐渐提高。我们还利用两点的法向量和它们的余弦距离作为h，得到了92.8%的结果。这表明RS-CNN也能够从法线关系中提取形状信息。一男（2）男（3）男（4）acc.MaxC92.4MaxC93.6MaxC92.7avg.C91.6总C91.68903表7.对点排列和刚性变换的鲁棒性在测试过程中，我们执行随机排列（perm.）的点，添加±0.2的小平移，并围绕Y轴逆时针旋转输入点云90度和180度方法acc.perm.+0.2-0.290◦180◦PointNet [24]88.788.770.870.642.538.6[26]第二十六话88.2†88.288.288.247.939.7我们90.3†90.390.390.390.390.3†准确率下降很多，主要是因为每个局部点子集的强制归一化会给形状识别带来困难。直观地，点云的2D视图中的点之间的关系也可以反映底层形状。因此，为了验证我们的RS-CNN在2D关系上的形状抽象，我们强制将3D坐标中的一维值设置为零，即。将三维点投影到XY、XZ和YZ的二维平面上。结果都在92.2%左右（模型E），这是相当令人印象深刻的。这进一步验证了所提出的关系学习方法的有效性。对点置换和刚性变换的鲁棒性。我们比较了RS-CNN与PointNet [24]和PointNet++[26]的鲁棒性。请注意，所有模型都是在没有相关数据增强的情况下训练的，例如：平移或旋转，以避免该测试中的混淆。此外，尽管RS-CNN中的关系学习对旋转具有鲁棒性，但3D坐标的初始输入特征受到影响。我们通过将每个采样点子集归一化到相应的局部坐标系来解决这个问题，该局部坐标系由每个采样点及其法线确定。为了进行公平的比较，我们还对Point- Net++进行了这种归一化，因为它也在局部子集上学习。对于该测试，3DEu-clidean距离被应用为RS-CNN中的几何关系h。表7总结了测试结果。可以看出，所有方法对置换都是不变的。然而，PointNet对平移和旋转都很脆弱，而PointNet++对旋转很敏感。相比之下，我们的具有几何关系学习的RS-CNN对这些扰动是不变的，这使得它对于鲁棒的形状识别是强大的。4.3. 可视化与复杂性分析可视化。图8可视化了由ModelNet 40数据集上的RS-CNN的前两层学习的形状特征。如图所示，第一层学习到的特征主要对边缘、拐角和弧线做出响应，而第二层中的特征则捕捉到更多的语义形状部分，如机翼和头部。这验证了RS-CNN可以学习渐进的形状感知表示用于点云分析。复杂性分析。表8总结了RS-CNN在分类中的空间（参数数量）和时间（浮点运算/样本）复杂度，其中1024个点作为输入。与PointNet [24]相比，RS-CNN减少了59.7%的参数和32.9%的FLOP，这表明其在实时应用中具有巨大的潜力，例如。自动驾驶中的场景解析。图8.在ModelNet 40数据集上通过RS-CNN的前两层学习的形状特征的可视化。第一层学习的特征主要响应于边缘、拐角和弧，而第二层中的特征捕获更多语义形状的部件，如翼型和头部。表8.RS-CNN在点云分类中的复杂性方法#参数FLOPs/样本数量PointNet [24]3.50M440M[21]第二十一话1.48M小行星1684[21]第二十一话8.20M294M我们1.41M295M5. 结论在这项工作中，RS-CNN，即，形卷积神经网络，它扩展了规则网格CNN不规则配置的点云分析，已被提出。RS-CNN的核心是一种新的卷积运算器，它从关系中学习，即。点之间的几何拓扑约束通过这种方式，可以对点的空间布局进行外显推理，以获得区分性的形状意识。此外，还可以获得几何关系的良好性质，如对刚性变换的鲁棒性。因此，配备该算子的RS-CNN可以实现上下文形状感知学习，使其非常有效。在三项任务中对挑战性基准进行了广泛的实验，以及彻底的实证和理论分析，表明RS-CNN达到了最先进的技术水平。确认作者非常感谢匿名审稿人的宝贵意见，极大地改进了本文。这项工作得到了国家自然科学基金61573352、91646207和61773377的资助，中国科协青年科学家资助项目2018QNRC001和北京市自然科学基金L172053的资助。8904引用[1] M. Atzmon，H. Maron和Y.利普曼基于扩展算子的点卷积神经网络。在SIGGRAPH，第1-14页，2018年。二、五、六[2] Y. 冯， Z. Zhang ， X. Zhao 河，巴西 - 地 Ji 和 Y. 高 .GVCNN：用于3D形状识别的组视图卷积神经网络。在CVPR中，第264-272页，2018年。一、二[3] M. 加代利亚河Wang和S.玛吉三维点云处理的多分辨率树在ECCV中，第105- 122页，2018年。一、二、五[4] P. Guerrero，Y. Kleiman，M. Ovsjanikov和N. J. MitraPCPNet：从原始点云学习局部形状属性。Comput.Graph. Forum，37（2）：75-85，2018. 2[5] H. Guo，J. Wang，Y. Gao，J. Li，and H.陆基于深度嵌入网络的多视点三维物体检索。IEEE Trans.图像处理，25（12）：5526-5537，2016年。一、二[6] Z.汉，M。尚，智-地Liu，C. Vong，Y. Liu，M. 兹威克J.Han和C. L.陈平。SeqViews2SeqLabels：通过带注意力的RNN聚合顺序视图学习3D全局特征。IEEE Trans.Image Processing，28（2）：658- 672，2019。2[7] K.他，X。Zhang，S. Ren和J. Sun.深入研究rec- tifiers：在ImageNet分类上超越人类水平的性能。在ICCV，第1026-1034页，2015中。5[8] K.霍尼克多层前馈网络的逼近能力。Neural Networks，4（2）：251-257，1991. 4[9] H. 胡，J.古，Z.张，J.Dai和Y.伟. 用于对象检测的关系在CVPR中，第3588-3597页，2018年。2[10] B.- S.华，M.- K. Tran和S.- K.杨逐点卷积神经网络。在CVPR中，第974-993页，2018年。5[11] Q.黄，W. Wang和U.诺伊曼递归切片网络用于点云的三维分割。在CVPR中，第2626-2635页，2018年。6[12] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页，2015中。4[13]M. Jaderberg，K. Simonyan、A. 泽瑟曼，K. Kavukcuoglu空间Transformer网络。在NeurIPS，第2017-2025页，2015年。2[14] 诉Jampani，M.Kiefel和P.诉盖勒学习稀疏高维滤波器：图像滤波，密集CRF和双边神经网络。在CVPR中，第4452-4461页，2016年。2[15] M. Jiang，Y.Wu和C.陆PointSIFT：一个类似SIFT的网络模块，用于3D点云语义分割。arXiv预印本arXiv：1807.00652，2

下载后可阅读完整内容，剩余1页未读，立即下载