动态点聚集：一种基于图卷积网络的分层点集学习算法

116 浏览量更新于2023-10-12 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7546基于动态点聚集的分层点集学习算法作者单位：刘锦贤1，2倪冰冰1，2李彩媛1，2杨建成1，2田琦31上海交通大学，上海2002402上海交通大学人工智能研究所人工智能教育MoE重点实验室3华为诺亚{刘锦贤，倪冰冰，1161313414，jekyll 4168}@ sjtu.edu.cnhuawei.com摘要许多以前的工作点集学习取得了优异的性能与层次结构。然而，它们的点聚集策略只是在原始欧氏空间中以固定的方式进行点的采样和分组。这些启发式和任务无关的策略严重限制了他们适应更多变化场景的能力。为此，我们开发了一种新的分层点集学习体系结构，动态点聚集。利用语义空间中的点之间的关系，设计了一个基于图卷积网络的软点聚类学习模块我们构建了一个分层的体系结构，通过堆叠这个可学习的轻量级模块来逐渐聚集点。与固定点聚集策略相比，我们的方法可以鲁棒有效地处理更多样化的情况此外，我们提出了一个参数共享计划，以减少内存使用和计算负担所引起的凝聚模块。在几个点云分析任务上的广泛实验结果，包括分类和分割，很好地证明了我们的动态分层学习框架比当前最先进的方法的优越性能。1. 介绍由于三维数据包含比二维图像/视频更丰富的空间信息，三维视觉分析受到了广泛关注三维点云是最简单的三维数据格式，由不规则、无序的点云组成随着卷积神经网络（CNN）在2D图像/视频处理中的复兴，有许多作品试图将深度学习框架用于点云分析[41，24，7，16]。最近，一些作品[26，28，22，10，32]关注di-* 通讯作者：倪冰冰固定采样固定采样动态点聚集图1.我们提出的框架的动机。给定一个平面，我们想把这些点凝聚成两个代表点。如果初始采样点来自机翼，现有的方法很可能采用FPS算法从飞机的两翼采样两个点，然后用KNN算法对周围的点进行因此，机身的信息丢失。我们提出的动态聚集策略是将语义空间中的点进行样本、分组和池化，从而将来自不同局部语义场的点进行聚集。直接消耗点云，而不是将其转换为多视图图像或体素。该领域的一个著名的先驱工作是PointNet [26]，其中逐点多层感知器（MLP）用于提取逐点特征，最大池化层用于聚合所有点的特征。然而，每个点被单独处理，并且不考虑局部依赖结构。为了克服这个问题，PointNet++ [28]提出了一种用于多级特征聚合的层次结构。聚集点（来自各个部分）聚集点（来自相似部件）7547如[28]所示，分层学习是一种有效的设计原则，有利于网络逐渐扩大每个点的感受野，捕获多个空间层次的特征。PointNet++通过提出采样层、分组层和池化层实现分层表示在采样层中，采用迭代法进行点采样（FPS），每次迭代选取距离采样点集最远的点作为采样点集的代表点。然后，对于每个采样点，分组层在其半径内找到K个最近的相邻点（即，分组）。最后，池化层（即，PointNet）聚集属于与局部表示相同的组的K个点的特征。通过重复上述步骤来执行自下而上的分层学习。简而言之，我们可以将PointNet++视为一个分层结构，其中各个点逐层聚集。PointNet++的局限性是显而易见的：1）采样和分组策略是启发式的、与任务无关的并且非常耗时，2）池化方案仍然没有考虑点之间的关系。应当注意，PointNet++中设计的采样和分组操作基于这样的假设，即输入3D空间中相距较远的点是最具代表性的（即，应当被采样），而输入3D空间中邻近的点是语义相似的（即，应分组并合并）。这种启发式策略对于在许多场景中学习3D表示是不可行的例如，如图1所示，给定一个平面，我们希望对两个点进行采样并生成组。PointNet++采用的策略可能是分别从飞机的两翼采样两个点，生成的组可能不包含机身上的点。飞机最重要的部分不见了。因此，以固定的方式在输入欧氏空间中对点进行采样和分组不能适应各种场景。然而，据我们所知，大多数现有的分层框架都采用了类似的分层学习策略。PointSIFT [13]设计了一个类似SIFT的模块，用于编码不同方向的信息，但其分层学习策略与PointNet++相同。[22]和[37]开发了新的方法来汇集点的特征，但是，它们采用了与PointNet++相同的采样和分组策略。因此，需要开发一种方法，可以在语义空间中执行点聚集，具有自适应和可学习的方案。为了解决这个问题，我们设计了一个三维点云学习框架，其中表示处理的层次结构可以学习而不是固定。也就是说，对于网络层次结构的每一层，将根据训练点的底层分布对点进行采样、分组和合并，并且用自适应权重聚合点特征的动机我们的方法如图1所示。具体地说，我们赋予骨干网几个动态点聚集模块。该模块基于图神经网络（GCN）[17]，以点相似度图为输入，在点之间进行消息传递，学习凝聚矩阵。点聚集的过程（采样、分组和汇集）仅通过一个步骤实现，即，将凝聚矩阵与点特征矩阵相乘。此外，它是一个轻量级和灵活的模块，可以整齐地插入到大多数ex-technology架构。同时，我们提出了一个点多样性的目标函数，以鼓励采样点更多样化和代表性。为了进一步减少计算和内存使用，我们提出了一个参数共享方案：将整个三维模型分成若干部分，并分别送入动态点聚集模块，各部分具有共享参数。通过这些设计，我们的方法在标准分类和分割基准（即，ModelNet 10/40 [41]、ShapeNet [48]、S3 DIS [2]等）推理速度快。对于分类任务，我们将三点聚集模块插入到一个主干中，并将多层次特征组合起来以提高表示能力。对于分割任务，我们构建了一个U-网架构，其中包含一个编码器和一个解码器。编码器类似于为分类设计的架构解码器利用在编码器中学习的采样矩阵的转置矩阵作为对应的上采样矩阵。2. 相关工作3D数据的手工制作特征许多手工制作的3D描述符被精心设计以捕获固定模式（即，几何和形状信息）。这些描述符可以分为两类，包括外在和内在的描述符。诸如自旋图像[14]、3D形状上下文[8]、MeshHOG描述符[49]等外部描述符在刚性欧氏变换下不变，但在变形下不变为了解决这个问题，提出了基于测地线距离和谱几何的内在描述符，包括核签名[34]，波核签名[4]，内在形状上下文[19]等。3D数据卷积神经网络（CNN）的深度学习彻底改变了2D图像/视频专业领域，切辛受此启发，许多作品都试图将深度学习应用于点云分析。一方面，一些工作探索通过转换点云的数据格式来直接应用为2D图像/视频分析设计的深度学习框架有两种变换方法，包括基于多视图的[33，3，9，7]和基于体素的[24，27，18，51，50]。基于多视图的方法投影3D模型7548转换成2D图像的集合，并使用标准CNN进行进一步处理。基于多视图的方法的一个很大的局限性是在转换过程中会丢失空间和结构信息。基于体素的方法将不规则的三维点云转换为规则的三维网格，称为体素，然后可以应用三维卷积来处理它。然而，基于体素的方法浪费了大量的内存和计算使用。另一方面，许多作品[21，10，32，45]专注于通过设计适用的架构来直接消费点云。PointNet [26]是一项开创性的工作，在这个领域中，逐点多层感知器（ MLP ）和最大池化层用于学习全局表示。PointNet++ [28]开发了一种分层学习架构，其中捕获了多尺度局部特征。然而，PointNet++中的采样和分组层设计采用固定的方式，耗时PointCNN [22]提出了一种典型CNN的泛化，以从点云中学习特征。X变换首先对点集进行操作，将其转换为潜在的规范顺序，然后对点集执行典型的卷积。了然而，任务无关抽样方法（即，FPS）用于生成子集。在我们的工作中，一个可学习的采样和分组操作的目的是克服这些限制。此外，基于这些精心设计的架构，有许多工作[12，46，25，1，6]被提出应用于各种应用（例如，场景分割、匹配、生成等）。图卷积神经网络与在规则网格数据上执行的CNN不同（例如，图像、视频），图卷积网络（GCN）[5]是为非欧几里德结构化数据设计的一类框架。许多作品[15，23，36，39，44]将GCN应用于图像/视频处理、生物医学成像处理、3D网格处理等。虽然点云中没有显式的图结构，但可以构造点的相似性图以促进表示学习。很少有研究[20，30，38，37]探索利用点云中存在的隐式图。在[40]中，几何深度学习被引入到点云处理中，其中构建了一个图来执行点之间的消息传递。然而，点集的规模保持不变，这是违背层次原则的。本文设计了一个基于GCN的动态点凝聚模块，用于分层学习.3. 方法3.1. 动机和概述在这项工作中，我们提出了一种新的分层学习架构的三维点云分析，包括分类和分割。设计了一个动态点聚集模块，实现了点的灵活采样，图2.积分集聚的过程。DPAM以点相似图和点特征矩阵为输入，学习凝聚矩阵.附聚过程（即，采样、分组和合并）被集成为简单的矩阵乘法运算（等式3）。最好用彩色观看。分组和池化。为了清楚起见，我们将此模块命名为DPAM。与大多数现有体系结构采用的固定聚集策略（FPS采样和KNN分组）相比，DPAM是一种动态聚集语义空间中的点DPAM以图卷积网络为基础，以点的相似性矩阵和特征矩阵为输入，实现点之间的信息传递。通过这种方法，学习到一个用于点采样、分组和合并的聚集矩阵。此外，在我们的工作中提出了一个参数共享计划，以减少内存和计算的使用。3.2. PointNet和GCN再访我们架构的主干类似于 PointNet ，插入主干的DPAM基于GCN类网络原型。因此，我们在本节中重新讨论这两种方法。无序点云可以表示为{Pi|i=1，2，…n}，其中Pi∈Rd，其中d是输入点的通道，可以用坐标、颜色、法线等PointNet学习一个将一组点映射到特征向量的函数，即，在将所有点的特征聚集到全局向量的最大池化层之前，将几个逐点多层叠加（MLP）单独地应用于每个点证明了PointNet可以任意逼近任意连续集函数，且具有序不变性. 在这项工作中，一个分层的学习架构，构建了通过插入DPAM到骨干的基础上PointNet。除了建议的参数共享方案，我们的方法捕获多层次的表示在一个有效的方式。3D点云凝聚矩阵MLPDPAM75490SS图3.我们提出的方法的架构分类时，在主干中插入三个DPAM进行点聚集，并将多个层次的特征连接起来进行分类。对于分割，构造了一个u-网结构，其中编码器与分类器的架构相同，解码器与编码器对称。注意，编码器和解码器的DPAM是共享的，虚线表示跳过连接。DPAM的细节也在图中示出。我们提出的架构中的聚集模块基于图卷积网络（GCN）。与在规则网格上操作的标准卷积不同（例如，图像、视频），图卷积是一种在图上操作的卷积它通过聚集由图关系定义的其邻居的信息来计算图中每个节点的响应（例如，adja-分矩阵、相似性矩阵等）。我们采用了[17]中提出的GCN，它以邻接矩阵A∈RN×N和节点特征矩阵X0∈RN×c0作为输入，在图中进行消息传递。注意，相邻矩阵A∈RN×N表示图中存在的N个节点的关系。形式上，一层图卷积可以表示为：Xh=AXh−1Wh，（1）其中h表示GCN的第h层，W h∈Rc（h−1）×c（h）是层h的权重矩阵，c表示特色频道由H图卷积层组成的GCN表示为：XH=GCN（A，X）∈RN×cH（2）3.3. 动态积分聚合模块在这一节中，我们详细介绍了动态点聚集模块（DPAM），它是为动态聚集点而设计的通过将该模块插入到主干中，我们构建了一个新的分层结构的点云分类和分割。DPAM可以插入到大多数现有的体系结构中。为了简单起见，我们使用一个简单的主干，类似于PointNet在这项工作中。给定一组点P∈RN×d，我们得到一个位于主干第l层的特征矩阵F（l ）∈RN×c （l ）DPAM学习一个凝聚矩阵S（l）∈RN×M（MN），用它来表示点的过程，合并、分组和特征聚合被集成到一个简单的步骤中。其表示为：F（1）=S（1）TF（1），（3）其中F（l）∈RM×c是点聚集。该点的附聚过程如图2所示。请注意，聚集的M点是不对应于原始输入中的点，并且基于点的基本分布对它们进行动态采样。同时，我们的方法用软权重聚集点，并通过这种聚集方案（即，每个采样点的表示与聚集之前的所有点相关）。其关键是凝聚矩阵的生成。我们设计一个模块（即，DPAM）来学习这个矩阵与GCN。在点云中不存在显式图，因此基于每个点的嵌入来构造相似性图A（l）=softmax（F（l）F（l）T）∈RN×N，（4）其也可以被认为是软相邻矩阵。A（l）的元素（i，j）表示语义空间中第i点和第j点之间的距离我们的DPAM是通过堆叠多层图卷积构建的。以软邻接矩阵A（l）和特征矩阵F（l）作为输入，F“FTSoftmaxNXNMLP（128）MLP（256）MLP（512）MLP(128，NXMMax-poolingMLP(64、128）MLP（128）MLP（256）MLP（1024）全局特征FC(512，DPAM DPAM DPAM输出得分分类分割MLP(128、k）MLP（128）MLP（128）MLP（256）MLP（512）注意事项：表示矩阵乘法公司简介公司简介公司简介公司简介NXC输出得分XKDPAMNXC输入点X3128×X128x256X128×X128x256X128XX128256×x256x512Xx512x256凝聚矩阵x10247550夹n0的42N&4纳元2纳元N3N&DDPAM学习聚集矩阵S（1）：S（l）=softmax（GCN（A（l），F（l）∈RN×M，（5）其中softmax以逐行方式执行。DPAM利用点之间的相似关系和点与点之间的消息传递，学习点的显式聚类权值。即，矩阵S（1）的每一行表示聚集前的每个点分配给M个采样点的权重，并且每一列表示每个采样点由聚集前的点聚集的权重利用该学习的聚集矩阵，可以经由上述简单步骤执行点聚集DPAM的架构如图3所示。3.4. 参数共享方案参数共享是卷积神经网络（CNN）中的一个巧妙设计，尤其适用于图像/视频处理。在CNN中，一个小的卷积核在整个特征图中共享。每个内核都被用作过滤器来检测特定类型的模式。受此启发，我们设计了一个共享方案，以减少参数使用和计算负担，如图4所示。3D点云样本通常包含数千到数万个点。因此，DPAM中的相似度矩阵、特征矩阵和参数矩阵将是非常庞大的，这使得聚集过程占用大量的内存和计算。此外，庞大的聚集矩阵很难学习和优化。为了克服这一挑战，我们提出将点云模型沿一个轴（即，x轴、y轴、z轴。）然后将它们送入共享DPAM中，分别对各部分的代表点进行具体来说，我们将3D点云中的所有输入点沿着一个轴进行排序，并在将其发送到共享DPAM之前将其均匀地划分为几个部分。如上所述，点的关系与所提出的DPAM相结合。然而，在我们设计的参数共享方案中，每个分割部分中的每个点仅与同一部分中的点相关，而不与其他部分中的点通信。换句话说，每一个点的感受野的大小将保持小而不变.总的来说，我们希望接收场从小到大，这是大家在CNN设计中遵循的设计理念在我们的工作中，几个DPAM将被插入到骨干。因此，我们建议通过逐渐合并部分来增加接收域的大小（即，逐渐减少分割部分的数量虽然我们逐渐合并部分，但这种设计保持了相似性矩阵和权重矩阵较小，因为每个部分中的点的数量在每个DPAM之后减少。n0的图4.我们的参数共享方案的插图。该方法将有序点云均匀划分为若干部分，分别送入共享DPAM进行点云聚合。每次DPAM 后，各部分逐渐合并，以增大各点的接收域。不，...，N3表示点的数目，并且N0>N1>N2> N3.3.5. 采样点多样性虽然我们通过上述参数共享方案降低了优化DPAM的难度，但该模块仍然容易在训练早期收敛到局部极小值因此，使用学习的聚集矩阵采样的点不能有效地捕获语义空间中的代表点，并且聚集的点可能非常接近。为了使采样点的多样性和代表性，我们提出了一个约束条件的凝聚矩阵优化问题。注意，聚集矩阵S（1）的每列表示每个采样点的组合权重。因此，使采样点多样就等于使每个采样点的组合权值尽可能地多样，即，使S（l）的列向量相互正交。因此，我们最小化：L（l）= ||I − S（l）TS（l）||F，（6）其中S（l）的每一列被归一化为单位向量。该多样性损失被添加到权重为0.001的softmax分类损失中以进行优化。3.6. 多级要素聚合随着接受域的逐渐扩大，网络学习的特征层次也在不断提高。我们建议结合多层次的功能，以实现更好的表示能力。我们使用最大池，以获得一个全球性的功能之前，每一个DPAM，然后连接这些多层次的全球性的功能，为最终的分类。这种设计也类似于DenseNet [11]中提出的算子，已被证明有利于优化。3.7. 网络架构用于分类的架构。在我们的工作中，我们插入三个DPAM到骨干网和分裂共享DAGM共享DAGMDAGM7551部分减少为8-4-1。特征通道的数量和整体分类架构如图3所示用于分段的架构。我们构建了一个U-网结构的分割，其中包含一个编码器和一个解码器。编码器与分类的架构相同。我们尝试在解码器中插入三个新的DPAM进行上采样，但是，我们发现它不仅耗时而且难以优化。因此，本文提出了一种简单而有效的点上采样方法.我们直接利用在编码器中学习的聚集矩阵的转置矩阵作为上采样矩阵。此外，跳跃连接被用来构建U-网结构。整个建筑师-图3中显示了分割的真实性。4. 实验在本节中，我们将评估我们的分类和分割任务方法。在ModelNet10和ModelNet40两个目标分类基准上进行了实验，在三维目标分割数据集ShapeNet和真实场景分割数据集S3DIS上进行了实验。我们的方法在这些基准测试中达到了最先进或相当的性能。同时，对算法的时间复杂度和空间复杂度进行了分析，并进行了重要的分析实验。4.1. 数据集和数据预处理ModelNet 10和ModelNet 40是从Model-Net [41]收集的两个标准3D对象分类基准，Model-Net [41]为每个对象提供CAD模型点云从CAD模型中采样，我们在实验中使用[28]生成的ModelNet10和ModelNet40数据集进行公平比较。ModelNet10包含10个类别，分为3，991个训练样本和909个测试样本。ModelNet 40包含40个类别，其中9,843个对象属于训练集，2,468个样本用于测试。每个对象中的每个点都用3D坐标表示。ShapeNetPart是3D对象部分分割基准，并且它是ShapeNet的子集[48]。此数据集包含16个类别的16681个样本，共50个部分（每个类别包含2-6个部分）。请注意，对象类别将在训练和测试每个对象时给出。评估指标是平均IoU（mIoU），其中IoU是为每个对象计算的，然后在对象所属的类别内取平均值。大规模三维室内空间（S3DIS）是一个真实场景点云语义分割基准。该数据集包含来自6个室内区域的271个房间的3D RDB点云。每个点都有13个语义类别之一的血（例如，天花板、地板、椅子）。我们使用平均每类IoU（mIoU，%）和总体准确度（OA）作为评估指标。数据预处理如第3.4节所述，我们将点云模型分成几个部分以共享参数，因此，输入点沿轴（在我们所有的实验中使用x轴）排序，以便在发送到DPAM之前容易划分。对于对象分类和分割，我们将输入点云归一化为单位球体内对训练对象进行随机抖动、旋转、移位在我们的实验中，[26]中使用的T-Net也被应用于输入对象对于场景分割，利用围绕z轴的旋转来增强数据。4.2. 点云分类在3D对象数据集Model-Net 10和ModelNet 40上的实验结果如表1所示，其中显示了类和实例上的准确度。可以看出，我们的方法实现了最先进的性能，除了在ModelNet40 上的实例准确度（仅比 PointCNN 低0.3%），所有已发布的方法都基于点云。请注意，我们只使用1024个点的3D坐标作为每个对象的输入。我们对点进行3次下采样，每次点的数量都会下降一倍（即，1024-512-256-128）。在ModelNet 10/40上进行的实验中，我们使用Adam优化器，初始学习率为0.001，动量为0.9，批量大小为16. 学习率每20个时期除以2在分类器中的最后两层之后，脱落率被设置为0.7方法ModelNet10ModelNet40类例如类例如[41]第四十一话83.5-77.384.7[24]第二十四话92.0-83.085.9[29]第二十九话90.1 90.983.886.5[31]第三十一话90.0 90.883.287.4[27]第二十七话- -86.089.2Pointnet [26]- -86.289.2[第12话]- --90.7SO-Net [21]93.9 94.187.390.9KCNet [30]-94.4-91.0SpecGCN [37]- --91.5Kd-Net [18]93.5 94.088.591.8[22]第二十二话- -88.192.2我们94.394.689.991.9表1. ModelNet 10/40上的分类结果。与基于点云的方法相比，我们的方法在ModelNet 10和Model-Net 40上实现了最先进的性能4.3. 基于ShapeNetPart的三维点云的分割被公式化为逐点分类任务。每个类别的IoU和整体IoU如表2所示，从中我们可以看出，我们的方法实现了最先进的性能。此外，该方法具有计算量小、推理能力强等优点。7552是说Aero袋帽车椅子耳朵电话吉他刀灯笔记本电机马克杯手枪火箭滑冰板表KD-Net [18]82.380.174.674.370.388.673.590.287.281.094.957.486.7 78.151.869.980.3Pointnet [26]83.783.478.782.574.989.673.091.585.980.895.365.293.0 81.257.972.880.6A-SCN [42]84.683.880.883.579.390.569.891.786.582.996.069.293.8 82.562.974.480.8KCNet [30]84.782.881.586.477.690.376.891.087.284.595.569.294.4 81.660.175.281.3RSNet [12]84.982.786.484.178.290.469.391.487.083.595.466.092.6 81.856.175.882.2[第28话]85.182.479.087.777.390.871.891.085.983.795.371.694.1 81.358.776.482.6DGCNN [40]85.184.283.784.477.190.978.591.587.382.996.067.893.3 82.659.775.582.0SpiderCNN [43]85.383.581.087.277.590.776.891.187.383.395.870.293.5 82.759.775.882.8SGPN [38]85.880.478.678.871.588.678.090.983.078.895.877.893.8 87.460.192.389.4[22]第二十二话86.184.186.586.080.890.679.792.388.485.396.177.295.3 84.264.280.083.0我们86.184.381.689.179.590.977.591.887.084.596.268.794.5 81.464.276.284.3表2. ShapeNetPart数据集上的分割结果（部分IoU）。我们的方法实现了最先进的性能。速度。图5中显示了一些分割结果。我们的方法分割细粒度的细节很好。图5. ShapeNetPart数据集上的分割结果。第1列和第3列：分段结果。第2列和第4列：地面真相最好用彩色观看。零件分割的体系结构如图3所示，它是一个U形网结构。如第3.7节所述，解码器中的上采样矩阵是编码器中学习的下采样矩阵的转置。每个对象的2048个点用作输入。重复执行3次下采样和上采样，并且每次点的数量在编码器中减少而在解码器中增加一倍（即，2048-1024- 512-256-512-1024-2048.）。亚当优化器用于优化每个点的交叉熵损失，在这个实验中，初始学习率为0.006，动量为0.9，批量大小为32。学习率每20个时期除以2在分类器中的最后一层之后，丢弃率被设置为0.5。4.4. S3DIS室内场景分割我们遵循与PointNet [26]相同的设置，其中每个房间被划分为面积为 1m×1m 的块。每个输入点由XYZ、RGB和关于房间的归一化位置的9维矢量表示。4096点随机在训练时对每个块进行采样，并且所有点都用于测试。在通用评估设置之后，在6个区域上进行6重交叉验证，每次5个区域用于训练，剩下1个区域用于验证。由于区域5以外的区域之间存在重叠，因此单独报告了区域5的测试结果该数据集的所有结果见表3。对于6倍交叉验证，我们的方法比除PointCNN [22]之外的所有方法都具有更好的性能。在区域5上，我们的方法在mIoU方面优于所有方法。方法6倍CV区域5mIoU OAmIoU OAPointNet [26]47.6 78.541.1-SegCloud [35]- -48.9-RSNet [12]56.5-- -3P-RNN [47]56.3 86.953.4 85.7SPGraph [20]62.1 85.558.086.4[22]第二十二话65.4 88.157.3 85.9我们64.5 87.660.086.1表3. S3DIS上的分割结果。平均每类IoU（mIoU，%）和总体准确度（OA，%）见表。我们的方法实现了相当的性能。场景分割的架构如图3所示这些点使用4096-1024-256-32-256-1024-4096进行下采样和上采样。我们用亚当·奥蒂-mizer优化每点交叉熵损失，初始学习率为0.003，动量为0.9，批量大小为12。学习率每20个时期除以2在分类器中的最后一层之后，丢弃4.5. 时空复杂度分析在本节中，我们在表4中显示了我们的方法的时间和空间复杂度，以证明我们提出的方法确实实现了最先进的性能，并具有更高的推理速度。该实验在具有1080X GPU的ModelNet40上执行。为了公平比较，批次请注意，由于设备限制，我们在本节中没有与PointCNN [22]进行比较。我们的方法取得了很好的性能，推理速度明显快于7553除了PointNet之外的其他方法为了进一步减少模型大小和推理时间，我们放弃了模型中使用的T网（即，在表4中用香草表示）。更小的模型尺寸和更快的推理时间，实现了只有0.5%的准确率下降。虽然我们的方法的模型大小大于PointNet++[28]和SO-Net [21]，但我们可以通过调整采样点的数量和DPAM的参数来在精度和模型大小之间进行权衡。方法尺寸/Mb推断/ms累积（%）[26]第二十六话9.411.687.2PointNet [26]4025.389.2[28]第二十八话12163.290.7SO-Net [21]11.559.690.9我们的（香草）21.318.491.4我们29.536.691.9表4. ModelNet40的时间和空间复杂度分析我们的方法取得了优异的性能与高推理速度。Vanilla表示模型在没有T-Net的情况下进行训练。表中报告了实例的模型大小（Mb）、推断时间（ms）和准确度（%）4.6. 消融研究在这一节中，我们研究了我们的方法对随机噪声的鲁棒性，并分析了一些重要的超参数，包括每个DPAM中的分割部分的数量和部分沿着的轴。本节中的所有实验均在ModelNet40上进行。对随机噪声的鲁棒性。我们在测试期间用高斯噪声随机替换输入点，其中平均值μ设置为0，标准差σ设置为0的情况。1和0。05分别。标准差表示噪声强度。与Pointnet++相比，我们的方法对噪声更具鲁棒性，如图6所示。横轴显示替换的噪声点的数量，纵轴显示Modelnet40上的精度。95857565554535251550 100 200 300 400 500图6.噪音分析。与Pointnet++相比，我们的方法具有更好的鲁棒性。我们提出的参数共享方案的有效性。我们在第3.4节中提到，我们建议将输入点云划分为多个部分以共享参数，并逐渐合并划分的部分以增加每个点的感受野在这一部分中，我们分析了该方案的有效性，以及对不同分割数组合的鲁棒性。我们在ModelNet40上进行了5种组合的分类实验（即，1-1-1，8-8-8，4-2- 1，16 -4-1，8-4-1）。请注意，组合1-1-1表示我们在没有我们提出的参数共享方案的情况下训练模型。结果如表5所示将组合1-1-1与其他组合的结果进行比较，我们可以得出结论，将输入对象划分为几个部分确实带来了显着的性能改善。通过组合8-8-8与其它递减组合的比较，也证明了逐步归并的有效性组合1-1-18-8-84-2-116-4-18-4-1准确度（%）90.991.291.791.791.9表5.我们提出的参数共享方案的有效性表中报告了实例的准确度（%）对点云沿其划分的不同轴的鲁棒性。表6示出了我们提出的参数共享方案对输入点云沿其划分的轴不敏感。当我们分别沿x轴、y轴、z轴划分输入时，我们的方法实现了类似的性能然而，当我们随机划分输入时，性能下降了一随机x轴y轴z轴累积（%）90.991.991.691.8表6.对点云沿其划分的不同轴的鲁棒性。表中报告了实例的准确度（%）5. 结论在这项工作中，提出了一个动态点凝聚模块，以构建一个高效的分层点集学习架构。该模块用于学习一个包含点间关系和特征的点凝聚矩阵。相对于以固定方式对点进行采样和分组的固定聚集策略此外，提出了一种参数共享方案，以减少内存和计算的使用。我们的动态聚集架构取得了更好的性能在几个基准测试与高推理速度相比，固定点聚集策略。致谢本论文得到国家自然科学基金U1611461和国家本文由CCF-腾讯开放基金赞助。这项工作也得到了SJTU-Minivision联合研究基金的联合支持。O？3（3？g？p=0.1）O c 3（3 g p=0.05）Po ′s q ′s ++（3gp=0.（1）Po ′s Q ′s ++（3gp=0. 05）7554引用[1] Mikaela Angelina Uy和Gim Hee Lee。Pointnetvlad：基于深度点云的检索，用于大规模地点识别。在CVPR，2018年6月。[2] 放大图片创作者：Iro Armeni，Ozan Sener，Amir R.Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析在CVPR，2016年6月[3] 作者：刘晓波，黄海斌，吴嘉俊，陈晓波. Kulkarni和Joshua B.特南鲍姆利用深度生成网络通过建模多视图深度图和轮廓来合成3d在CVPR，2017年7月。[4] Mathieu Aubry，Ulrich Schlickewei，and Daniel Cremers.波核签名：形状分析的量子力学在ICCV研讨会，第1626-1633页，2011年。[5] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。CoRR，abs/1312.6203，2013。[6] Haowen Deng，Tolga Birdal，and Slobodan Ilic. Ppfnet：全局上下文感知局部特征，用于鲁棒的3d点匹配。在CVPR，2018年6月。[7] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao.Gvcnn：用于3D形状识别的组视图卷积神经在CVPR，2018年6月。[8] AndreaFrome ，DanielHuber，Ra viKolluri，ThomasBu？low和Jitendra Malik。使用区域点描述符识别距离数据中的对象。ECCV，第224-237页，2004年[9] 何新伟、周扬、周志超、宋白、向白。多视角三维物体检索的三重中心丢失。在CVPR，2018年6月。[10] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在CVPR，2018年6月。[11] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR，2017年7月。[12] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的递归切片网络。在CVPR，2018年6月。[13] Mingyang Jiang，Yiran Wu，and Cewu Lu. PointSift：一个用于三维点云语义分割的类似Sift的网络模块。CoRR，abs/1807.00652，2018。[14] 安德鲁·伊迪·约翰逊和马夏尔·赫伯特在杂乱的3d场景中使用自旋IEEE传输模式分析马赫内特尔，21（5）：433[15] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年6月。[16] Asako Kanezaki ，Yasuyuki Matsushita，and YoshifumiNishida.旋转网：使用来自无监督视点的多视图的联合对象分类和姿态估计。在CVPR，2018年6月。[17] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。[18] Roman Klokov和Victor S. Lempitsky逃离细胞：用于识别3D点云模型的深度kd网络在ICCV，第863-872页[19] Iasonas Kokkinos，Michael M Bronstein，Roee Litman，and Alex M Bronstein.用于可变形形状的固有形状上下文描述符。在CVPR，第159-166页[20] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR，2018年6月。[21] 李佳欣，Ben M. Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在CVPR，2018年6月。[22] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积在NeurIPS，第828-838页[23] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在CVPR，2018年6月。[24] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络在IROS中，第922-928页[25] Charles R. Qi，Wei Liu，Chenxia Wu ，Hao Su，andLeonidas J. Guibas从rgb-d数据中检测三维物体的截头体点网。在CVPR，2018年6月。[26] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年7月。[27]

下载后可阅读完整内容，剩余1页未读，立即下载