基于点云分析的三维图卷积网络变形核学习算法

108 浏览量更新于2023-10-25 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1云中的卷积：基于点云分析的三维图卷积网络变形核学习算法林志豪1黄胜宇1王玉强1，21台湾国立台湾大学通信工程研究所2华硕智能云服务，台湾{r08942062，r08942095，ycwang}@ ntu.edu.tw摘要点云是3D视觉应用中流行的几何表示方法之一。然而，如果没有像2D图像这样的规则结构，处理和汇总这些无序数据点上的信息是非常具有挑战性的。虽然以前的一些工作试图分析点云并取得有希望的性能，但当数据变化（如移位和尺度变化）时，它们的性能会显着下降。在本文中，我们提出了3D图卷积网络（3D-GCN），它的目的是从跨尺度的点云提取局部3D特征，同时引入移位和尺度不变性属性。我们的3D-GCN的新颖之处在于使用图最大池机制定义可学习的内核。我们表明，3D-GCN可以应用于3D分类和分割任务，消融研究和可视化验证3D-GCN的设计。我们的代码可在https://github.com/j1a0m0e4sNTU/3dgcn 上公开获取。1. 介绍3D视觉一直是一个活跃的研究课题，与增强现实、无人机和自动驾驶汽车等应用密切相关[20，15]。现有的3D数据表示包括使用体素、网格或点云特征。体素[3，33]将3D对象描述为体素网格，但通常存在分辨率不足和内存成本高的问题。网格在动画中很常见，而这种表示并不直接与3D传感器输出相关[16，19]。最后，三维点云集中描述了三维物体的形状信息，可以很容易地被三维传感器获取，但由此产生的无序三维点集可能会限制后续的分析任务。随着最近深度学习技术的显着进步，特别是卷积神经网络（CNN），在各种计算机视觉任务中观察到了有希望的性能[6，11]。然而，形象(a)（b）第（1）款图1：（a）2D图像和（b）3D图形中的卷积。请注意，标准2D CNN无法轻松应用于处理3D点云数据，因为3D图形卷积网络中的内核需要因非结构化输入而表现出额外的形状变形。数据通常按照网格结构（例如，像素或尺度上的单元），这使得卷积操作可行。对于像3D点云这样的不规则和非结构化数据，不可能在这些数据上学习和部署具有固定大小或模式的内核。为了处理这种非结构化/无序的点集，Point-Net [21]应用多个完全连接的层来编码3D点云，然后进行全局最大池化操作，并显示出令人印象深刻的3D数据识别和分割结果。由于部署了全局池化操作，因此可能无法正确观察3D点云的局部结构化信息。此外，它并不是被设计成对于像移位或缩放这样的全局变换是不变的，正如我们稍后讨论和验证的那样。为了更好地描述3D数据的局部信息，一些研究工作利用网格数据及其对应的图形结构（即，顶点和相关联的边），用于提取期望的信息。例如，[27，4]选择传播和聚合相邻顶点的特征以导出最终表示，而其他[16，2]则使用固定模式定义内核以观察局部信息。18001801受上述工作的启发，[26，14，1，30，32]试图为3D点云构建图形结构。由于这些方法在表示其图形时考虑全局坐标，因此移位和缩放效应会降低其模型的性能。在本文中，我们提出了一种新的深度学习模型3D图卷积网络（3D-GCN），用于处理和学习3D点云的结构信息。受2D CNN的启发，我们的目标是导出可变形的3D内核，其形状和权重在训练阶段是可学习的。此外，与标准CNN中的最大池化操作类似，我们在3D-GCN中执行独特的图形最大池化操作，以总结不同尺度上的处理特征。因此，我们的3D-GCN能够观察和提取具有任意形状和大小的无序3D点云的结构信息。如稍后详细说明和确认的，我们的3D-GCN对于3D点云移位和缩放变化是不变的，这是现实世界3D视觉应用的关键属性。现将我们的主要贡献总结如下：• 我们提出了一种用于处理三维点云数据的三维图卷积网络（3D-GCN），该网络具有平移和尺度不变的特性，具有良好的分类/分割性能。• 在我们的3D-GCN中，每个核的形状和权重在训练期间是可学习的，这显示了描述来自无序3D点云的局部结构信息的• 在3D-GCN中还引入了一种新的图最大池，允许提取和总结不同尺度的点云特征，以提高性能。2. 相关工作多视图和体素化方法。由于标准卷积神经网络不能直接应用于处理非结构化数据，如3D点云，现有的工作通常选择将点云转换为适当的表示，以供进一步处理。例如，[33，3，18，17，25]将点特征配准到体素网格中或直接使用体素化的3D形状作为模型输入，以便可以对此类输入数据执行标准3D CNN尽管已经提出了像[24，31]这样的基于八叉树的方法来改进预测输出的分辨率，但是通常已知基于体素的方法遭受3D体素表示的分辨率不足和巨大的存储器消耗或者，许多作品[28，9，22，29，1]选择将3D形状投影到多个视图中的2D平面上，然后使用2D CNN进行特征提取。虽然报告了令人印象深刻的结果，但它不能容易地扩展到3D数据分割或重建[11，6]。基于点云的方法。为了处理3D点云数据，PointNet [21]有多个共享的全连接层来处理无序的3D点输入，然后通过通道最大池化来提取全局特征以表示3D点云数据。虽然PointNet能够处理3D点云数据而不受其无序属性的限制，但它本质上是学习输入对象的关键点表示以获得最终特征。局部几何信息不是直接编码的，并且该模型将对输入平移和缩放变化敏感，正如我们稍后验证的那样。为了缓解上述问题，研究人员提出将3D点排序到有序列表中，其中相邻点在3D空间中具有较小的欧几里得距离。例如，[8]沿着不同的维度对所有点进行排序，然后使用递归神经网络（RNN）从结果序列中提取特征。[10，5]根据坐标通过kd树将3D点转换为1D列表，然后通过1D CNN提取相应的特征。然而，将3D点集分类到1D列表中并不是微不足道的;此外，局部几何信息可能不容易保存在这种有序列表中。基于几何的方法。与将整个3D数据作为输入的上述工作不同，另一个方法分支选择从3D点的子集学习局部几何信息[23，32，26，14，7，13，34，30]。通过将3D点划分成较小的组，这种类型的方法从每个局部组提取特征例如，PointNet++ [23]将3D点云划分为几个球区域，并应用[21]对每个球进行局部特征提取。DGCNN [32]通过识别特征空间中3D点的最近邻居来构建局部图Shen等人[26]扩展上述思想，并在特征聚合期间额外学习几何信息。RS-CNN [14]应用相邻点特征的加权和，其中每个权重根据两点之间的几何关系使用MLP学习。这些作品试图提取几何信息的局部区域内的三维点云。然而，现有的方法通常使用点的精确坐标或距离矢量作为输入特征，因此模型性能会受到移位和缩放效应的影响，这对于场景分割和多目标检测等现实世界的应用不是优选的。在本文中，我们提出了一种新的3D-GCN与可学习的3D图形内核和图形最大池机制，从而在不同尺度的有效几何特征，同时表现出规模和移位不变性。1802nnnn图2：感受野RM和内核KS的图示。我们有RM表示第n个点pn的M个相邻点，核KS由中心在kC=（0，0，0）的S个支撑组成。注意，方向向量dm、n和ks用于测量（4）中的相似性3. 3D图卷积网络3.1. 符号提出了一种新的三维图卷积网络（3D-GCN），用于点云数据的特征提取，并将其应用于视觉分类和语义分割。为了完整起见，我们定义本文中使用的符号如下。点云实例被视为一个集合，该集合总共包含N个点P={pn|n=1、2、. - 是的- 是的.，N}，其位于感兴趣对象的表面上。注意，pn表示该实例的第n个点，并且其属性可以描述坐标（xn，yn，zn）、法向量（νx，νy，νz）或RGB颜色信息（rn，gn，bn）。图3：3D图形卷积。如在（4）中，sim（pm，ks）基于d m，n和k s之间的余弦相似性来计算f（pm）和w（ks）之间的内积。对于每个支撑ks，得到所有相邻支撑pm中的最大sim输出.用Wref（pn）求和， w （ kC ）产生最终的卷积输出（即，（5））。具有大小M的点pn的域为：R M={pn，pm| <$pn∈ N（pn，M）}，（1）其中，N（pn，M）表示pn的M个最近邻，基于距离，我们计算了相应的方向向量dm，n=pm-pn，以用于后面的卷积我们注意到，给定3D点，nnn在这项工作中，点云仅描述对象表面上每个点的坐标换句话说，我们有pn=（xn，yn，zn），因此3D点云对象由大小为N×3的矩阵表示。对于分类任务，我们的3D-GCN采用点云输入，并为每个感兴趣的类别生成预测的输出分数c。对于语义分割，我们需要预测3D对象中每个点的部分/场景标签。因此，输出的大小为N×c，这也表明3D-GCN在语义分割任务中执行逐点分类3.2. 三维图卷积的可变形核3D-GCN中的感受野具有N个点的3D点云对象表示为P={pn | n =1、2、. - 是的- 是的，N}，pn ∈ R3. 为了描述在3D-GCN中的每个点处导出的特征，我们使f（p）∈R_D表示相关联的D维特征向量。为了捕获每个点pn的局部几何信息，我们通过一组M个相邻点来确定pn的3D感受野如图2所示，我们将RM表示为接受者云对象，我们只需要确定感受野每一个点一次。如果池化操作在后期执行（如第2.1节中所讨论），3.3），需要构建该尺度的汇集点云的感受野。在3D-GCN中，具有尺寸M的pn的感受野内的特征被表示为{f（pn），f（pm）|<$pn ∈ N（pn，M）}.这些特征将在卷积操作期间被计算和更新，如稍后所讨论的。值得注意的是，最近的3D点云模型[23，30]通过预定义的半径r为每个点选择相邻点。虽然参数r可以被调整以适当地描述3D点云的局部结构，但是它们的模型不能处理尺度变化，如我们稍后在第11节中讨论和验证的。4.第一章在标准的2D CNN模型中，内核由网格中的权重参数组成，在图像块中共享相同的模式（如图1a所示）。然而，对于3D点云数据，数据点被视为无序集合，并且不能观察到特定的空间3D图案。1803nnnnnn nC图4：最大池化图。该池化过程从每个p n ∈ P in的感受野中的特征执行通道式最大池化，随后以采样率r从P in随机采样子集。为了在3D点云结构中执行卷积，我们提出了3D图形卷积核KS，其中S表示该核中的支持数更准确地说，我们有由S+1个核点kj∈R3组成的KS，即，图 5 ：缺乏不变性属性的说明。最近的模型，如PointNet [21]，需要零均值归一化等技术来表示3D点云，这可能对有噪声的3D输入点敏感（如第21节中所验证的）。4）.PN的域（即，f（pn），f（pm），φpm∈ N（pn，M）（如（1）中所定义）和以k C为中心的具有S个支撑的核KS的权向量（即， w（kC），w（ks），ks = 1，2，. - 是的- 是的，S），我们考虑（pm，ks）之间的所有可能对。因此，3D-GCN中的Conv（RM，KS）被定义为：Conv（R M，K S）=. f（p），w（k）<$+g（A），（3）KS={kC，k1，k2，. . . ，kS}。（二）其中，n·n表示内积运算，并且A={sim（pm，ks）|<$m∈（1，M），<$s∈（1，S）}.注意到注意，kC=（0，0，0）是核的中心，并且k1到kS表示相关联的支撑。（3）中的sim函数定义为：..ΣΣdm，n，ks在2D CNN中，内核中的每个元素都是学习的。sim（pm，ks）=f（pm），w（ks）dm，n、（四）斯福尔扎城堡描述感兴趣的空间模式的权重在我们的3D-GCN，我们为每个核点k定义权重向量w（k）∈RD。因此，使用对应权重的特征f（p）的加权和将实现卷积运算。由于支持的数量和方向可能与3D 点的感受野不同，我们需要定义方向向量ks−kC=ks，s=1，2，.。. .，S用于描述模式其基于它们的余弦相似性计算f（pn）和w（kC）函数g在（3）中，对该核中的每个支持ks的最大相似性sim（pm，ks）利用上述定义，我们的3D-GCN中的3D图形卷积运算被计算为：.ΣConv（RM，KS）=f（pn），w（kC）学习的核心。如图2所示，kC=（0，0，0），3D-GCN中的内核现在被定义为{w（kC），（ks，w（ks））|s=1，2，. . .，S}，其中每个ele-ΣS+s=1Maxm∈（1，M）、、、sim（pm，ks）.（五）它是通过训练来学习的。回想一下，邻居M和支持S是超参数（类似于2D CNN中的内核大小注意3D图形卷积在2D CNN中，卷积运算-（5）利用RM内的方向向量dm，n在-可以认为，计算相似度是-补间2D内核和关联的图像补丁。较大的输出值指示较高的视觉相似性。利用上述针对3D点云数据的感受野和核定义，我们通过cal-col定义3D图形卷积。而不是全局坐标，这引入了平移不变属性到我们的3D-GCN模型。此外，（4）中的相似性函数简单地计算dm、n和ks之间的余弦相似性，而不管它们的长度。因此，标度不变性质可以由我们的计算RMConv（RM，KS）之间的相似性。和KS，表示为3D-GCN。图3示出了我们的3D-GCN中的3D图形卷积操作。1804然而，与内核和im都是2D CNN不同的是，由于年龄片具有相同的网格结构，因此在3D图形结构中执行卷积并不是微不足道的因此，为了测量接收器内的特征之间的相似性，3.3. 3D GCN3D图形卷积层3D图形卷积层由预定数量L的1805我我nnnRRn(a) 分类（b）零件分割图6：用于（a）分类和（b）部分分割的3D-GCN的架构。请注意，灰色和黄色块分别表示点和特征输入。绿色箭头表示3D图形卷积层，而绿色三角形表示图形最大池层。我们分别用棕色和蓝色表示MLP和输出。每个核具有恒定的支持数，其可以表示为{KS|i=1，2，. . .，L}。取3D点云输入P ∈RN×3和相应的D维特征Fin∈RN×D，我们的3D图卷积层分别对每个核应用（5），产生输出特征Fout∈RN×L。因此，每个输出层i = 1，2，. - 是的- 是的，L可以表示为：ConvLayer（（P，Fin），KS）=（P，Fout），（6）与池化机制一起，我们的3D-GCN表现出有前途的移位和尺度不变性。虽然像[14，21，23，26，30]这样的示例报告了有希望的性能，但它们通常考虑全局坐标或要求点云归一化以减轻此类数据变化，这将限制其不变性（参见图5中的示例）。在第4节）中，我们将比较全面的实验，以确认我们的3D-GCN的鲁棒性，i i提出了上述变式其中F_out∈R_N是F_out的第i个通道。为我-在卷积和学习过程中，我们简单地在第一输入层设置f（p）=1，p∈ P和w（k）=1，k换句话说，我们只考虑方向信息来初始化3D-GCN操作。3D Graph Max-PoolingPooling操作在标准2D CNN中起着重要的作用，它总结了每个尺度内的主要响应，以用于稍后的高级处理目的，从而导致从粗到细的特征提取。在3D-GCN中，我们还提出了一个池操作，3D图形最大池，用于在3D点云中执行类似的我们的3D Graph Max-Pooling层采用每个点R M的感受野，并将通道最大池应用于聚合特征f（p），p ∈ R M，然后以采样率r对P的子集进行采样。因此，这池化过程可以表述为：PoolLayer（Pin，Fin）=（Pout，Fout），（7）3.4. 三维点云分析分类为了训练3D-GCN将3D点云数据识别为特定类别，我们应用并组合了多个3D图卷积和最大池化层，然后添加多层感知器（MLP）来预测期望的输出。可以计算标准的软最大损耗和反向传播，以学习这种3D-GCN模型（参见图6a的示例架构）。语义分割还可以应用3D-GCN来执行3D点云语义分割。为了实现这一目标，我们聚合多尺度特征，并提出了一个共享的MLP逐点分类。我们注意到，当在不同尺度j和j之间聚合特征时，j+1，由于池化机制，3D点的数量不匹配。因此，例如，为了连接r特征在pj在尺度j中，使用来自j+1的，我们执行其中P∈RN×3，Pout ∈RN×3，且F在∈RN×D，Fout∈ RN×D. 如图4所示，该池-下面的操作来识别对应点在规模j+1中感兴趣的是：ing层使我们能够学习多尺度的3D点云特征，并使学习和计算更有效，这是3D深度学习模型的关键因素。j+1n= argminp、p − pj |p∈ P、j+1 .（八）不变性通过学习方向信息-T. 胡斯f（pj），f（pj+1）将连接的功能的架构的3D-GCNnn通过3D图形内核在局部感受野内进行语义分割，在图6b中示出了语义分割。p1806(a)（b）（c）图7：在ModelNet40上评估不变性属性。 (a)移动：物体在一定距离内随机移动，所有方向（未移位的版本表示为0），（b）缩放：对象缩放到不同大小（原始大小表示为1），（c）旋转：沿向上方向旋转的对象（在此图中以度数表示）。请注意，[32]中的DGCNN是在具有尺度变量的对象上预先训练的（即，[0.5，1.5]内的缩放），但它不能处理（b）中所示的不可见缩放变量。4. 实验4.1. 3D模型分类数据集。我们在ModelNet 40 [33]数据集上评估了3D-GCN的3D形状分类，该数据集由40个类别的12311个CAD模型组成，分为9843个3D对象用于训练，2468个用于测试。为了生成用于训练和测试的点云，我们从每个对象的表面均匀地采样1024个点，在训练和测试期间没有任何网络配置。我们用于分类的3D-GCN模型结构如图6a所示。特征提取部分由5个3D图卷积层组成，从低到高依次为核数（32，64，128，256，1024）我们为我们的内核设置支持数S=1，为感受野设置邻居数M=25。模型结构中有3个3D Graph最大池化层，所有层都具有固定的采样率r=4。继PointNet [21]之后，我们的3D-GCN中最后一个3D图形卷积层的输出特征被应用于全局最大池化，从而产生1024维的最终特征表示。对于分类，MLP为2层，其中在MLP的第一层之后应用具有0.3的丢弃率的Batchnorm和Dropout。我们用批量大小为8，学习率为0来训练我们的网络。0001，使用ADAM优化器，每10个epoch衰减一半。结果我们的3D-GCN的分类结果列于表1中，其中我们还将我们的结果与最近的一些方法进行了比较，包括PointNet [21] ， PointNet++ [23] ， DGCNN [32] 和KPConv [30]。从该表中，我们可以看出，我们的3D-GCN通常与几种最先进的模型相当或表现良好，表1：ModelNet40上的形状分类结果。注意，“法线”表示对象表面的法线向量。我们看到，我们的方法在输入大小仅为1k个点的情况下获得了可比或改进的结果。当测试数据不存在任何偏移或尺度变化时。为了进一步评估我们模型的不变性，我们使用1024个点的3D点云数据与上述模型进行比较，这些点云数据归一化为零均值的单位球体，没有数据增强。我们测试他们在三种不同的情况下：坐标移位，形状缩放，和形状旋转。结果分别示于图7a、7b和7c中。从这些图中显示的结果中，我们可以看到PointNet和DGCNN的性能随着坐标偏移而显著下降，这是由从全局坐标中提取特征引起的。当提出尺度变量时，只有我们的模型能够以令人满意的性能进行识别。对于形状旋转，我们的3D-GCN表现出更好的不变性能力。因此，上述实验证实了我们的3D-GCN的有效性和鲁棒性方法输入点数Acc.（%）[第27话]xyz1k87.4PointNet [21]xyz1k89.2Kd-Net（深度=10）[10]xyz1k90.6[23]第二十三话xyz1k90.7KCNet [26]xyz1k91.0MRTNet [5]xyz1k91.2[32]第三十二话xyz1k92.9SO-Net [12]xyz2k90.9KPConv刚性[30]xyz6.8k92.9[23]第二十三话xyz，正常5k91.9SO-Net [12]xyz，正常5k93.41807方法类Miou例如Miou空气平面袋帽车椅子耳朵电话吉他刀灯笔记本电机自行车马克杯手枪火箭滑冰板表Kd-Net [10]77.482.380.174.674.370.388.673.590.287.281.084.987.486.778.151.869.980.3MRTNet [5]79.383.081.076.787.073.889.167.690.685.480.695.164.491.879.787.069.180.6PointNet [21]80.483.783.478.782.574.989.673.091.585.980.895.365.293.081.257.972.880.6KCNet [26]82.284.782.881.586.477.690.376.891.087.284.595.569.294.481.660.175.281.3RS-Net [8]81.484.982.786.484.178.290.469.391.487.083.595.466.092.681.856.175.882.2SO-Net [12]81.084.982.877.888.077.390.673.590.783.982.894.869.194.280.953.172.983.0[23]第二十三话81.985.182.479.087.777.390.871.891.085.983.795.371.694.181.358.776.482.6[32]第三十二话82.385.284.083.486.777.890.674.791.287.582.895.766.394.981.163.574.582.6KPConv变形[30]85.186.484.686.387.281.191.177.892.688.482.796.278.195.885.469.082.083.6我们82.185.183.184.086.677.590.374.190.986.483.895.666.894.881.359.675.782.8表2：在ShapeNetPart上的部件分割结果。请注意，虽然我们的方法实现了与最先进的模型相当的结果，但我们的模型复杂性明显低于第二节中讨论的其他模型。4.4图8：在ShapeNetPart上显示部件分割。我们将我们的分割输出与KPConv [30]和PointNet++ [23]产生的分割输出进行比较。此外，移位（100）和规模（10倍）的变化，以评估每个模型的不变性能力注意，GT表示地面实况部分标签。4.2. 3D模型零件分割数据集。为了评估3D-GCN在部件分割中的使用，我们考虑了ShapeNetPart数据集[35]，该数据集由来自16种对象类型的16881个CAD模型组成，对象中的每个点对应于一个部件标签。共有50个类别，每个对象类型有2到6个零件类别可用在我们的工作中，我们从每个3D模型中抽取1024个点进行训练和测试。网络配置。模型架构如图6b所示。特征提取部分由5层组成，在相关层处具有核数（128，128，256，256，512），并且部署了具有固定样本比r=4的两个3DGraph Max-pooling层。在3D-GCN中，我们为每个核设置支持数S=1，为感受野设置邻居数M=50用于分割的特征是从不同尺度的层输出中串联起来的，如第3.4节所述。继PointNet [21]之后，我们还具有指示连接到上述特征的对象类型的独热向量，随后是3个共享的MLP层，以对每个点的片段标签进行分类。我们以学习率0训练3D-GCN。001和每10个历元衰减一半，使用ADAM优化器。结果我们根据平均交集超过并集（mIoU）来评估分割性能，mIoU是该对象类别中每个部分类型的平均IoU。请注意，每个类别的mIoU是通过对所有形状实例的mIoU求平均值来计算的。更具体地说，类mIoU是所有16个类别的mIoU的平均值，而实例mIoU是所有实例的mIoU的平均值。部件分割结果见表2。请注意，在不使用全局坐标的情况下，我们的3D-GCN取得了与最近的方法相当或更好的结果。此外，我们通过可视化对象的不同变换下的分割结果来证明3D-GCN的鲁棒性，如图8所示。我们将每个对象的中心/坐标移动100，并将对象大小放大10倍，图8将我们的分割性能与其他人进行了比较。我们发现KPConv [30]和PointNet++[23]在这两种情况下都未能正确分割另一方面，我们的3D-GCN表现出非常有前途的不变性能力，无论移位和规模的变化。1808相邻比（%）51030准确度（%）63.386.885.1表3：不同相邻比率对ModelNet40上形状分类的影响。请注意，不足够数量的邻居预计不能正确表示感受野，而由于我们的可学习内核，性能对更大的数字不太敏感方向向量一BC准确度（%）89.592.293.9表4：使用可学习方向向量或不使用方向向量对ModelNet10上形状分类的影响。A：没有方向信息，B：分配三个单位向量（沿3个轴）作为k s，C：我们可学习的方向向量。4.3. 消融研究感受野中的邻数M。我们现在通过在3D-GCN中构建感受野时改变相邻数目比来在3D-GCN上进行实验（例如，比率5%表示我们将感受野大小设置为M=100×0。05=5）。结果如表3所示。从该表中可以看出，邻域数目不足或过多都会影响3D-GCN描述三维点云局部结构信息的性能，因此，适当的邻域数目可以获得更好的性能。学习每个核的方向向量k s。为了证明3D-GCN中可学习/可变形内核的能力，我们考虑内核KS中方向向量KS的三种可能用途（我们将支持数S固定为3）。我们首先考虑感受野和内核之间的内积，作为简单的相关特征之间的相关性，而不管它们的几何形状/余弦相似性如何。.伊拉里特岛也就是说，可以简单地用sim（pm，ks）=f（pm），w（ks）. 所得到的精度如表4中的第一列。我们接下来考虑并分配3个单元沿每个轴的矢量（例如，（1，0，0）沿x轴）作为3个方向向量ks。由于这些向量是不可学习的，并且表4的第二列中所示的结果也不令人满意。最后，如表的最后一列所示，我们验证了使用可学习的ks是可取的。注意，方向信息对于提取几何信息是重要的，并且可学习的ks使得内核可变形并适合感兴趣的对象，这就是为什么可以实现改进的识别性能。4.4. 可视化和复杂性分析在图9中，我们可视化了在3D-GCN的每一层具有大响应值的对象的点。从低层到高层，我们可以看到，图9：不同层中的示例内核响应（在ShapeNetPart上进行分段）。请注意，响应较大的点用较深的红色表示。正如预期的那样，在3D-GCN中，主导响应从点（低）转移到方法#参数Acc.（%）PointNet [21]3.5M89.2[23]第二十三话1.48M91.9[32]第三十二话1.81M92.9KPConv [30]14.3M92.9我们0.89M92.1表5：不同模型中的参数数量（在ModelNet40上分类）。从点转移到部分水平，这证实了我们处理和总结跨尺度3D信息的能力，这相当于使用2D CNN描述图像数据。另一方面，我们比较了最近3D点云模型的参数数量，并在表5中列出了计算器输出。从这个表中，我们可以看到，我们的模型实现了与最先进的模型相当的识别性能，而我们的模型需要的参数最少这证实了我们提出的3D-GCN的有效性和效率。5. 结论在这项工作中，我们介绍了3D-GCN，它可以跨尺度学习3D点云的几何信息，从而表现出平移和尺度不变性。我们的3D-GCN的技术贡献在于设计和学习3D图中的可学习内核，以及提出的从3D点云进行图最大池化的虽然我们的模型实现了与最近最先进的模型相当或改进的分类和分割性能，但我们证实了我们的模型对移位和尺度变化是不变的，并且计算效率更高。鸣谢本工作得到台湾科技部MOST 108-2634-F-002-018的部分支持。1809引用[1] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩张算子的点卷积神经网络。arXiv预印本arXiv：1803.10091，2018。2[2] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应。神经信息处理系统进展，2016。1[3] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3D-R2 N2：单视图和多视图3D对象重建的统一方法。在2016年欧洲计算机视觉会议（ECCV）上一、二[4] 冯雨桐、冯一凡、游浩轩、赵喜斌、高岳。MeshNet：用于3D形状表示的网格神经网络。在AAAI人工智能会议（AAAI）的会议记录中，2019年。1[5] Matheus Gadelha，Rui Wang，and Subhransu Maji.三维点云处理的多分辨率树网络。欧洲计算机视觉会议（ECCV），2018年。二六七[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。一、二[7] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别会议，2018年。2[8] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的递归切片网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、七[9] Asako Kanezaki ，Yasuyuki Matsushita，and YoshifumiNishida. RotationNet：基于无监督多视点的联合目标分类和姿态估计. 在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[10] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于识别3D 点云模型的深度 Kd 网络。 IEEE InternationalConference on Computer Vision（ICCV），2017年。二六七[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展（NIPS），2012年。一、二[12] Jiaxin Li，Ben M Chen，and Gim Hee Lee. SO-Net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。六、七[13] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen. PointCNN：X变换点上的卷积。在神经信息处理系统的进展，2018年。2[14] Yongcheng Liu ， Bin Fan ， Shiming Xiang ， andChunhong Pan.关系型卷积神经网络点云分析。在IEEE计算机视觉和模式识别会议论文集（CVPR），2019年。二、五[15] Wenjie Luo，BinYang，and Raquel Urtasun.快速而富有激情：使用单个卷积网络进行实时端到端3D检测、跟踪和运动预测。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。1[16] Jonathan Masci、Davide Boscaini、Michael Bronstein和Pierre Vandergheynst。测地线卷积神经网络-工作在黎曼流形上。 IEEE International Conference on ComputerVision（ICCV），2015年。1[17] Daniel Maturana和Sebastian Scherer。VoxNet：用于实时对象识别的3D在IEEE/RSJ智能机器人和系统国际会议（IROS）上。IEEE，2015年。2[18] Hsien-Yu Meng ， Lin Gao ， YuKun Lai ， and DineshManocha.VV-Net：用于点云分割的具有组卷积的体素VAE网络arXiv预印本arXiv：1811.04337，2018。2[19] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.使用混合模型CNN对图和流形进行几何深度学习。在IEEE计算机视觉和模式识别会议论文集（CVPR），2017年。1[20] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.用于从RGB-D数据中检测3D物体的截头点网。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。1[21] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：点集深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议（CVPR），2017年。一、二、四、五、六、七、八[22] Charles R Qi，Hao Su，Matthias Nießner，Angela Dai，Mengyuan Yan，and Leonidas J Guibas.用于3D数据对象分类的体积和多视图CNN。IEEE计算机视觉和模式识别会议论文集（CVPR），2016。2[23] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集上的深度层次特征学习。在神经信息处理系统（NIPS）的进展，2017年。二、三、五、六、七、八[24] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger 。OctNet：以高分辨率学习深度3D表示。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。2[25] Xa vierRo ynar d ， Jea n-EmmanuelDeschaud ， andFrancoisGoulette.基于多尺度体素深度网络的点云场景分类。arXiv预印本arXiv：1804.03583，2018。2[26] 沈亦儒、陈锋、杨耀青、田栋。基于核相关和核函数1810图形池。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二五六七[27] Martin Simonovsky和Nikos Komodakis。图上卷积神经网络中的动态边缘条件滤波器。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。1、6[28] Hang Su，Subhransu Maji，Evangelos Kalogerakis，andErik Learned-Miller.用于三维形状识别的多视图卷积神经在2015年IEEE国际计算机视觉会议（ICCV）的会议记录中。2[29] Maxim Tatarchenko，Jaesik Park，Vladlen Koltun，andQian-Yi Zhou.用于3D稠密预测的切线卷积。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[30] 作者：Charles R. Qi，Jean-Emmanuel Deschaud，BeatrizMarcotegui，Francois Goulette，and Leonidas J. GuibasKPConv：点云的灵活和可变形卷积。在IEEE国际计算机视觉会议（ICCV）

下载后可阅读完整内容，剩余1页未读，立即下载