高效点云卷积网络：ShellNet和ShellConv的应用和效果分析

54 浏览量更新于2023-10-12 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1607ShellNet：使用同心壳统计的高效点云卷积神经网络张志远1华炳森2杨世杰31新加坡科技设计大学2东京大学3香港科技大学摘要自卷积神经网络引入以来，3D数据的深度学习已经取得了显著进展，卷积神经网络可以处理点云数据中的点顺序模糊性以往的方法虽然能够在各种场景理解任务中达到很好的精度在本文中，我们通过提出一种用于点云深度学习的高效端到端置换不变卷积来解决这些问题。我们简单而有效的卷积运算器ShellConv使用同心球壳的统计数据来定义代表性特征并解决点序模糊性，允许传统卷积对这些特征执行。在ShellConv的基础上，我们进一步构建了一个高效的神经网络ShellNet，直接消耗具有较大感受野的点云，同时保持较少的层数。我们展示了ShellNet的功效，通过产生最先进的对象分类，对象部分分割和语义场景分割的结果，同时保持网络非常快的训练。我们的代码在我们的项目页面1中公开。1. 介绍卷积神经网络（CNN）在图像和模式识别、视频分析和自然语言处理方面取得将这一成功从2D领域扩展到3D领域已经受到了极大的关注。前景的结果已经证明了长期存在的问题，场景理解。以前，3D场景通常使用结构化表示来表示，例如体积[26，21]，多个图像[32，26]，层次数据结构[28，14，35]。然而，这样的表示通常面临来自存储器消耗、不精确表示或缺乏用于诸如分类和分割的任务的可扩展性的巨大挑战。1https://hkust-vgd.github.io/shellnet/图1.不同方法的点云分类精度随时间和历元的变化。虽然是准确的，但有些方法的训练成本相当高。我们通过Shell-Conv来解决这个问题，Shell-Conv是一个基于同心壳统计的简单而有效的卷积算子.在等时间和等时期的比较parisons，我们的方法表现最好。它可以在两分钟内达到80%以上的准确率，并且在测试数据集上仅经过15分钟的训练就达到90%。最近，使用神经网络直接消耗点云已经显示出了很大的前景[25，27，42，20]。Point- Net [25]通过使用对称函数进行学习来开拓这一方向，许多后续工作通过设计卷积来更好地捕捉点云的局部特征来扩展这一方向。虽然这些努力导致改进的场景理解性能，但通常在网络复杂性、训练速度和准确性之间存在权衡。例如，后续工作PointNet++[27]将点云分割成更小的集群，并以分层方式在本地应用PointNet在取得较好效果的同时，网络也更加复杂，速度降低.逐点卷积[12]实现起来简单，但不准确。Spi- derCNN [42]通过参数化卷积滤波器家族，将2D图像上的传统卷积虽然实现了高精度，但需要更多的时间用于训练。PointCNN [20]通过学习局部卷积阶数实现了最先进的精度，但其训练收敛缓慢。一般来说，设计一个卷积点云，可以达到很好的平衡，这些性能因素是一个具有挑战性的问题。1608基于这些观察结果，我们提出了一种新的方法，在一个非常简单的神经网络中直接消耗点云，该神经网络能够以非常快的训练速度实现最先进的精度，如图1所示我们的想法是分裂一个局部点邻域，这样点邻域和卷积点可以有效地执行。为了实现这一点，在每一点上，我们查询点邻域，并用一组同心球对其进行分区，从而得到同心球壳。在每个壳中，可以基于内部点的统计来提取代表性特征。通过使用ShellConv作为核心卷积算子，可以构造称为ShellNet的高效神经网络来解决诸如对象分类、对象部分分割和语义场景分割等3D场景理解任务。总的来说，这项工作的主要贡献是：• ShellConv，一个简单而有效的无序点云卷积算子。卷积被定义在一个域上，该域可以被同心球面壳，同时允许有效的相邻点查询和通过定义从内壳到外壳的卷积顺序来解决点顺序模糊性;• ShellNet，一种基于ShellConv的高效神经网络架构，用于直接使用3D点云进行学习，而没有任何点顺序模糊性;• ShellNet在对象分类、对象部分分割和语义场景分割上的应用，达到了最先进的精度。2. 相关作品计算机视觉的最新进展见证了3D场景数据集的日益可用性[2，39，44]，导致深度学习技术来解决场景理解的长期问题，特别是对象分类，对象部分和场景分割。在本节中，我们将回顾使用3D数据进行深度学习的最新研究，然后重点介绍在点云上进行特征学习以执行场景理解任务的技术使用3D数据的早期深度学习使用常规表示，如体积[40，23，26，21]和多视图图像[32，26]进行特征学习，以解决对象分类和语义分割。不幸的是，体积表示是非常有限的，由于大的内存足迹。多视点图像表示没有这个问题，但它隐含地存储深度信息，这使得学习与视点无关的特征具有挑战性。最近，3D中的深度学习专注于点云，与体积相比，点云更加紧凑和直观。由于点云在数学上是一个集合，因此将点云与深度神经网络一起使用需要对核心运算符进行根本更改：卷积定义ef-点云的有效卷积是一个挑战，但也是一项重要的任务。从卷学习的启发，Hua等。[12]基于最近点查询在点云的每个点执行动态体素化。Le等[17]建议在规则网格上应用卷积Tatarchenko等人[33]在局部切平面上执行卷积。Xie等人[41]将形状上下文推广到点云的卷积。Liu等人[22]使用序列模型来总结具有多尺度的局部特征。这样的技术可以直接实现点云的卷积神经网络。然而，显式数据表示需要额外的计算，使得学习效率低下。可以使神经网络直接在点云上操作，而不是体素化。Qi等人[25]提出PointNet，这是一种开创性的网络，通过优化对称函数以实现点序不变性来学习全局每点特征。PointNet的缺点是每个点特征都是全局学习的，即，不考虑来自局部区域的特征。点云学习中的最新方法集中于设计可以捕获这种局部特征的卷积在这种趋势下，PointNet++ [27]通过PointNet的层次结构支持本地特征，并依赖于启发式点分组来构建层次结构。Li等人。[20]提出学习一个变换矩阵，将点云转换为潜在的规范表示，这可以用标准卷积进一步处理。Xu等人[42]提出用阶跃函数和泰勒多项式参数化卷积核Wang等人[38]通过优化点及其邻居之间的权重并将其用于卷积，提出了一种与PointNet类似的Shen等人 [30]还通过内核相关性和图形池化改进了类似PointNet的网络。Huang等人[13]通过应用来自递归神经网络的传统学习算法来学习局部结构，特别是用于语义分割Ben-Shabat等人[4]使用具有Fisher向量的球面高斯网格来描述点。如此巨大的努力导致网络具有非常高的准确性，但学习的效率往往被忽视（见图1）。这促使我们在这项工作中关注本地特征学习的效率。除了在非结构化点云上学习之外，还有一些值得注意的扩展工作，例如使用分层结构学习[28，14，35，36]，使用自组织网络学习[19]，学习将3D点云映射到2D网格[43，8]，解决大规模点云分割[15]，处理非均匀点云[11]，以及使用光谱分析[45]。这些想法与我们的方法是正交的，并且将它们添加到我们提出的卷积之上可能是一个有趣的未来研究。1609p(a)（b）（c）（d）图2. ShellConv操作符。(a)对于具有/不具有相关联特征的输入点云，随机采样代表点（红点）。然后选择最近的邻居以形成以代表点为中心的点集。点集分布在一系列同心球形壳（b）上，并且每个壳的统计数据通过壳中所有点上的最大池化来总结，其特征通过mlp提升到更高的维度。最大池化特征被指示为具有不同颜色的正方形（c）。按照从内到外的顺序，可以执行标准的1D卷积以产生输出特征（d）。较厚的点意味着较少的点，但每个点具有较高的维度特征。3. ShellConv操作符为了实现高效的点云神经网络，第一个任务是定义能够直接消耗点云的卷积我们的问题陈述给定一组点作为输入，定义一个卷积，可以有效地输出一个特征向量来描述输入点集。在定义这种卷积时有两个主要问题。首先，必须定义输入点集。它可以是整个点云，也可以是点云的子集。前一种情况寻求描述整个点云的全局特征向量;后者为每个点集寻找局部特征向量，该局部特征向量可以在需要时进一步组合。其次，必须无缝地照顾集合中的点顺序模糊性和点云中的点的密度。PointNet [25]选择学习全局特征，但最近的作品[27，20，38，42]表明，局部特征可以导致更具代表性的特征，从而获得更好的性能。我们受到这些作品的激励，算法1 ShellConv算子。输入：1：p，p，{Fprev（q）：q∈p}* 代表点、点集、点集的前一层特征。输出：Fp*p 的卷积特征。2：{q}<${q−p：<$q∈<$p}* 相邻点q以p为中心局部化。3：{Flocal（q）} ← {mlp（q）} * 单独提升每个点q到更高维度的空间。4：{F（q）} ← {[F prev（q），F local（q）}* 连接本地和前一层特征。5：{S}←{S：q∈S}* 确定哪个shellq根据q到中心p的距离属于。6：{F（S）}←{maxpool（{F（q）：q∈S}）：S}*通过在shell中的所有点上的maxpool来获得每个shell的固定大小特征。7：Fp←conv（{F（S）}） * 使用从内到外的所有壳特征执行1D卷积。第八章：返回Fp定义卷积以获得局部点集的特征。为了保持卷积简单而有效，我们提出了一个直观的方法来解决下面的挑战卷积我们在图2中展示了卷积的主要思想。传统CNN架构中的常见策略是降低输入的空间分辨率，并在更深层输出更多的特征通道。我们还通过将点采样结合到卷积中来支持卷积中的这种策略，在更深层输出更稀疏的点集。与以往的多层叠加增加感受野的方法不同，本文的方法在不增加层的数目的情况下，可以获得更大的感受野。随机采样具有代表性的点（图2（a）中的红点每个代表点及其相邻点定义卷积点集（图2（b））。现在，让我们关注单个代表点p及其邻居q∈P，其中P是由最近邻居查询确定的邻居集合。根据定义，p处的卷积为ΣF（p）（n）=w（q）（n）F（q）（n−1）（1）q∈N（n）层。特别地，从输入点集，一组表示，其中F表示对于一个部分的点集的输入特征，1610Sp图3. ShellNet架构。对于分类，我们在完全连接分类器之前应用三层ShellConv。对于语义分割，我们遵循U-net [29]架构。编码器为绿色，解码器为黄色。点下采样和上采样也包含在我们的卷积中，具体取决于它的用途。N0> N1> N2表示输入中以及在每个卷积中采样之后的点的数量，并且C< C0< C1< C2表示每个点处的输出特征通道。 S0> S1> S2表示每个ShellConv运算符中的壳的数量，其类似于卷积核大小。给定固定的壳大小，当点云被下采样时，壳的数量也减少。1 ×S0×C0表示使用内核（1，S0）和输出C0特征通道卷积输入特征的卷积。ticular channel，w是卷积的权重。我们使用上标（n）来表示层n的数据或参数。注意，F（p）和F（q）表示点p的特征，Q.它们不考虑点云中p和q的顺序，因为我们简单地将点云视为数学集合。这个卷积的唯一问题是如何定义权重函数。重量必须适合于训练，即，w必须被离散化为可训练参数的固定大小的向量。为每个点定义w是不切实际的，因为这些点没有排序。为了解决这个问题，我们在这里的观察是，我们可以利用将邻域划分成区域，使得w被良好地定义并且可以有效地计算输出特别是，为了方便邻居查询，我们使用一组多尺度同心球来定义区域（图2（c））。两个球体之间的区域形成球壳。同心球壳的并集产生域Ωp。因此，我们可以将卷积定义为壳和卷积是定义良好的，每个壳的权重为wS。仍然不明确的是壳中点的顺序。为了解决这个问题，我们提出了一种统计方法来聚合每个壳的点的功能，使其产生一个顺序不变的输出。特别地，我们选择仅通过每个特征通道中的最大值来表示特征：F（S）= maxpool（{F（q）：q∈S}）（3）其中ΩS表示壳S。理论上，最大值是对底层分布的粗略近似，但由于每个点通常具有数十或数百个特征通道，因此仍然可以表示来自壳中许多点的信息。算法1给出了壳层转换的详细步骤.球壳结构。我们使用一个简单的几何学方法来建立球壳如下。ΣF（p）（n）=S∈N（n）n（n）F（S）（n−1）（2）我们首先计算相邻点到中心代表点之间的距离。然后，我们对距离进行排序，并根据它们的距离将点分配给贝壳。请注意，由于壳是自然排序的（从最内层到最外层），从内到外，向中心倾斜。我们为每个壳分配固定数量的点，即，我们的每个shell中有n个点1611实施.特别地，我们首先从中心生长一个球体，直到n个点落在球体内部。这是最里面的外壳。之后，球体继续增长以收集形成第二个壳的另外n个点，依此类推。我们发现，这种方法的壳体建设提供了一个良好的分层的点分布在壳体。它还易于实现并且具有低开销。4. ShellNet我们现在继续设计一个卷积神经网络用于点云特征学习。我们从典型的2D卷积神经网络中汲取灵感，并构建了一个名为 ShellNet 的架构，该架构使用ShellConv代替传统的2D卷积（见图3）。此架构可用于多个场景理解任务。特别地，分类和分段网络都共享编码器部分，并且仅在编码器部分之后的部分中不同。由于ShellConv对于输入点是置换不变的，因此ShellNet能够直接使用点集。我们的点云深度学习网络有三层。在分类阶段，我们通过三个ShellConv操作符传递所有输入点。这些点被逐渐地二次采样为代表性较低的点，分别表示为N0>N1>N2，而输出特征通道逐层增加，分别表示为C0C1C2。<<在图3中，Ni表示为具有较厚形状的蓝色点，其指示较高维度。这种设计类似于典型的2D卷积神经网络：代表点的数量减少，而输出通道的数量增加。经过三层外壳-Conv，我们得到一个大小为N2×C2的矩阵，其中N2是从图像中提取的代表点的最终数量。把点云与每一个包含一个高维特征向量的大小为C2。该矩阵被馈送到大小为（256，128）的mlp模块中，以产生用于对象分类的概率图。最后，我们得到了一个128×k的cls矩阵，其中k表示类的个数.具体参数设置在第5.1分段网络遵循U-net [29]，这是一种具有跳过连接的编码器-解码器架构。反卷积部分从编码器的N2个反卷积层逐渐输出更多的点，但更少的功能通道。跳过连接保留来自较早层的特征，并将它们连接到去卷积层的输出特征。这种策略被证明对于图像上的密集语义分割非常有效[29]，我们在这里采用点云。注意我们使用ShellConv用于卷积和反卷积。输出N×C也被馈送到mlp 中以产生用于分割的概率图，其中我们获得64×kseg矩阵，其中kseg指示片段标签的数量。5. 实验结果在本节中，我们使用三个典型的点云学习任务进行实验：对象分类，部分分割和语义分割。我们在不同的设置下评估我们的方法，以证明结果。在一般情况下，我们的方法实现了国家的最先进的性能，在所有的实验中的准确性和速度。5.1. 参数设置ShellNet有三个编码层，每个编码层都包含一个ShellConv。参数为Ni、Si和Ci，分别表示每层中代表点的数量、壳的数量和输出通道。从第一层到第三层，对于i= 0、1、2，N i被设置为512、128、32，Si被设置为4、2、1，并且Ci被设置为128、256和512。C在最后一次卷积时被设置为64，用于分段。我们将每个壳中包含的点的数量定义为壳大小，对于分类，将其设置为16，用于分割。因此，每个代表点的邻居数为 Si×16和Si×8，对于三个分类层分别等于在训练过程中，我们使用32的批量进行分类，使用16的批量进行分割。优化是用亚当优化器与ini-初始学习率设置为0.001。我们的网络在TensorFlow [1]中实现，并在NVIDIA GTX 1080 GPU上运行所有实验。5.2. 对象分类该分类在 ModelNet40 [40] 上进行了测试，ModelNet40由40个对象类组成，有9，843个模型用于训练，2，468个模型用于测试。我们使用Qi等人提供的ModelNet40的点云数据。[25]如输入，其中从每个网格大致均匀地采样1024个点。在实验中仅使用采样点的几何坐标（x，y，z）。我们遵循方法核心运营商输入OA[21]第二十一话1D转换P87.5[26]第二十六话3D转换V89.9O-CNN [35]稀疏3D转换O90.6点态[12]点转换P86.1PointNet [25]点MLPP89.2[27]第二十七话多尺度点MLPP+N90.7[20]第二十话X-ConvP92.2ShellNet（ss=8）壳转换P91.0ShellNet（ss=16）壳转换P93.1ShellNet（ss=32）壳转换P93.1ShellNet（ss=64）壳转换P92.8表1.分类准确度（总体准确度）%），输入类型表示为O（八叉树），V（体素），P（点）和N（法线）。ShellNet的性能是用不同的外壳尺寸（ss）进行1612从PointNet分离的train-test [25]。通过随机扰动点的位置来增加数据。比较结果如表1所示。我们可以看到，我们的成果已经达到了最先进的水平。虽然壳大小（ss）为16的ShellNet是分类的默认设置，但也测试了其他ss。当ss减到8时，感受野变小，重叠减少，准确度也略有下降，但仍在91左右。0%。当ss增大时，感受野增大，从而捕捉到更多的空间背景信息. ShellNet达到93. 1%的准确率为32。然而，这并不意味着越大越好，因为太大的接收场也会洗掉特征的高频精细我们可以看到当ss被设置时到64，准确度下降到92。百分之八为了平衡速度和准确性，我们将ss设置为16用于对象分类。图1提供了等时间和等历元设置下的精度图。可以看出，我们的方法优于所有测试的方法，是最快和最准确的收敛。与PointCNN[20]相比，这是本实验中最快的方法之一，我们使用了一种更简单的网络架构。为了将点云转换为潜在的规范表示，他们的X-Conv算子需要学习变换矩阵，而我们的方法只需要统计计算来聚合特征。这使得我们的卷积更直观，更容易实现，但能够实现高性能。我们还在补充文件中提供了每类的准确性。5.3. 分割分割的目的是预测每个点的标签，这也可以被看作是一个密集的逐点分类问题。在该小节中，执行对象部分分割和语义场景分割。我们使用ShapeNet数据集[44]进行部分分割，其中包含16个类别中的16，880个模型（14，006个用于训练的模型和2，874个用于测试的模型），每个模型注释有2到6个部分，总共有50个不同的部分。对于语义分割，我们使用ScanNet [7]和S3DIS数据集[2]用于室内场景，Semantic3D [9]用于室外场景。ScanNet由1513个RGB-D重建的室内场景组成，注释为20个类别。S3DIS包含Matterport扫描仪在6个室内区域（包括271个房间）的3D扫描，每个点都使用来自 13 个类别的语义标签之一进行注释。Semantic3D是一个在线的大型户外LIDAR基准数据集，包括 8 个类别的 40 多亿个注释点。我们遵循PointCNN [20]来准备数据集。对象部分分割。我们的结果报告在表2中。每个类别的准确度可以在文档中找到。可以看出，我们的方法优于大多数最先进的技术。定性比较我们的预测和地面真理之间的isons显示方法ShapeNetmpIoUScanNetOAS3disMiou语义3DMiou[45]第四十五话82.0---[42]第四十二话81.7---[31]第三十一话83.7---SO-Net [19]81.0---SGPN [37]82.8-50.4-PCNN [3]81.8---KCNet [30]82.2---KdNet [14]77.4---3DmFV-Net [4]81.0---DGCNN [38]82.3-56.1-RSNet [13]81.4-56.5-PointNet [25]80.473.947.6-[27]第二十七话81.984.5--[20]第二十话84.685.165.4-TMLC-MSR [9]---54.2[16]第十六话---58.5SnapNet [5]---59.1SegCloud [34]---61.3SPG [15]--62.173.2我们的82.885.266.869.4表2.分割任务的比较。在ShapeNet数据集[6]上执行对象部分分割，并分别在ScanNet [7]、S3DIS数据集[2]和Semantic3D[9]上执行语义分割。图4.使用ShapeNet数据集进行对象部分分割示例对象是椅子、灯、滑板、飞机和汽车。总的来说，我们的方法产生了准确的预测。在图4中。可以看出，ShellNet方法可以在许多对象上健壮地运行注意到我们的方法只训练了20个小时就达到了这样的精度。室内语义场景分割。室内基准ScanNet [7]和S3DIS [2]的mIoU精度如表2所示ShellNet在ScanNet上排名第一，在S3DIS上排名第一。对于后者，我们还在补充文档中列出了每类分数（mIoU）。定性结果见图5。我们可以看到墙、箱板和窗之间存在一些错误分类，因为这些类别在纯几何中非常相似，需要其他特征（如颜色或法向量）来改进。户外语义场景细分的Seman--tic3D [9]更具挑战性，因为它是真实世界的数据集预测地面实况1613图5. S3DIS数据集中室内场景的语义分割[2]。图6. Semantic3D数据集中室外场景的语义分割[9]。左：彩色点云（仅用于可视化）。右：我们的分割。请注意，测试集的真实数据不是公开可用的。强烈变化的点密度。为了公平比较，我们排除了未发表的结果。ShellNet在该数据集上表现良好，准确度排名第二（表2）。每类准确度见补充文件。定性结果如图6所示。请注意，我们的方法仅将3D坐标作为输入，而之前的方法（如[15]）也使用颜色或CRF的后处理。5.4. 网络效率我们通过可训练参数的数量、浮点运算（FLOPs）和运行时间来衡量网络的复杂性，在批次大小为16、来自ModelNet40数据集的点云大小为1024的情况下对于所有三个指标，ShellNet都优于现有的方法。虽然在时间和空间上的复杂度要低得多，但ShellNet仍然可以非常有效地收敛到最先进的精度，如图1所示。我们工作的速度和内存的改进来自于我们网络中mlp特别是，在拟议的系统之上基于同心壳的点分组自动方法，自然地处理多尺度特征，我们只需要一个单一的mlp来学习壳中的点特征，以及一个1D卷积来关联壳之间的特征（图2）。这种简单性大大减少了可训练参数和计算的数量。在ShellNet中，感受野直接由外壳大小控制。因此，我们可以进一步分析具有不同外壳大小的ShellNet的性能（图7）。在等时间比较中，壳大小为16的ShellNet表现最好，在很短的时间内达到了很高的精度当壳尺寸为64时，其性能稍差。在等时程设置中，使用外壳尺寸8不如其他外壳好，因为其感受野较小。拥有一个在大小和速度之间取得平衡的感受野，会产生最好的收敛。5.5. 邻点采样让图3中的网络作为基线（设置A），我们进行了一系列实验来验证我们的网络架构的有效性，并证明如何对相邻点进行采样。1614ShellNet0.48M15.8B/2.8B0.066秒/0.023秒小RF0.48M9.51B/1.5B0.025秒/0.011秒表3.可训练参数、FLOP和运行时间比较。与以前的方法相比，ShellNet是轻量级和快速的，同时是准确的。通过设置较小的外壳大小来减小感受野（小RF）可以使计算更快，因为邻居查询变得更便宜。图7.点云分类的精度随时间和历元与不同的壳大小。这里我们比较四种设置。特别地，设置A是我们分类实验的默认配置，其中使用随机采样来获得相邻点，并且每个同心壳包含固定数量的点。设置B，C，D是通过改变邻居采样策略获得的。在设置B中，我们将相邻采样更改为最远点采样。在设置C中，我们将局部区域划分为等距壳，导致壳包含动态数量的点。在设置D中，我们在特征空间而不是3D坐标空间中搜索最近邻。结果示于表4中。它表明，不同变体的准确率相似，并且设置A对于分类任务是最有效的。对于分割，我们也进行了相同的实验，发现在这种情况下，设置B效果最好。原因是设置B中的最远点采样导致可以覆盖更多几何细节的更均匀的点分布，从而导致更准确的分割。我们的方法没有限制。特别是，我们发现，虽然我们的方法可以处理稀疏和部分数据，但需要对其鲁棒性进行更多的研究。在这里，我们提供了一个对象部分分割的例子，以证明图8中ShellConv的鲁棒性。原始分割、稀疏分割和部分分割的mpIoU准确率分别为82.4%、80.2%和72.6%。对于部分数据，边界点不太精确。表4.使用邻点采样的实验。设置（A）是默认策略。设置（B）、（C）、（D）由(A)基于点采样类型、外壳大小和相邻查询特征。可以看出，设置（B）(C) – equidistant shells, (D) – latent features for neighborhoodconstruction,图8.稀疏和部分点云上的零件分割对于部分数据，边界上的点似乎不太准确。6. 结论我们介绍了一种基于局部点集构造的同心球壳的3D点云深度学习新方法。我们设计了一个新的卷积算子ShellConv，它基于壳及其统计特性有效地支持点集的卷积。这种结构不仅自然地解决了卷积或阶问题，而且在不增加网络层数的情况下，允许更大和更重叠的感受野基于ShellConv，我们构建了简单而有效的神经网络，该网络可以在纯点云输入的对象分类和分割任务上实现最先进的结果。结合点云数据深度学习的最新进展，我们的工作将导致未来几项潜在的研究。随着本地特征学习的快速能力，这将是有趣的，看看对象检测和语义实例分割可以从我们的工作中受益。将这项工作扩展到使用网格进行学习也很有趣。最后，将我们的方法应用于构建用于点云生成的自动编码器将非常有趣。鸣谢。作者感谢新加坡国家研究基金会资助的SUTD数字制造和设计中心的支持，以及香港科技大学的内部资助（R9429）。方法参数FLOPs（训练/推断）时间（训练/推断）（一）（B）（C）（D）1. 采样随机最远随机随机2.髋臼杯尺寸固定固定动态固定3. KNN型xyzxyzxyz特征PointNet [25]3.5M44.0B /14.7B0.068秒/0.015秒[27]第二十七话12.4M67.9B/26.9B0.091秒/0.027秒3DmFV [4]45.77M48.6B/16.9B0.101秒/0.039秒准确度（%）93.193.192.792.4列车时刻0.066s0.078s0.118s0.081s推断。时间0.023s0.024s0.033s0.029s1615引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会（{OSDI}16）中，第265-283页，2016年。5[2] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析在计算机视觉和模式识别，第1534-1543页二六七[3] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络。ACM Transactions onGraphics，37（4），2018。6[4] Yizhak Ben-Shabat 、 Michael Lindenbaum 和 AnathFischer。3dmfv：使用卷积神经网络实时进行三维点云分类。IEEE Robotics and Automation Letters，3：3145-3152，2018。二、六、八[5] AlexandreBoulch ， BertrandLeSaux 和 NicolasAudebert。使用深度分割网络的非结构化点云语义标注。在Eurographics 3D对象检索研讨会上，第2卷，第7页，2017年。6[6] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。6[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber、Thomas Funkhouser和Matthias Niessner。Scan-net：室内场景的丰富注释3D重建。在计算机视觉和模式识别，第5828- 5839页，2017年。6[8] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 一个学习3D表面生成的简单方法在计算机视觉和模式识别，第216-224页2[9] Timo Hackel、Nikolay Savinov、Lubor Ladicky、Jan DWegner 、 KonradSchindler 和 MarcPollefeys 。Semantic3d.net ：一个新的大规模点云分类基准。ISPRSAnnals of the Photogrammetry ， Remote Sensingand Spatial Information Sciences，第91-98页，2017年。六、七[10] Timo Hackel，Jan D Wegner，and Konrad Schindler.密度变化较大的三维点云快速语义分割。ISPRS Annals ofthePhotogrammetry ， remotesensingandspatialinformation sciences，3（3）：177- 184，2016. 6[11] PedroHermosilla、TobiasRitschel、Pere-PauVa'zquez、A`lvarVinacua和Timo Ropinski。用于非均匀采样点云学习的蒙特卡罗卷积。 ACM Transactions on Graphics ，2018。2[12] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在计算机视觉和模式识别，第984-993页，2018年。一、二、五[13] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的回流切片网络。1616在计算机视觉和模式识别，第2626- 2635页，2018年。二、六[14] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在国际计算机视觉会议上，第863-872页，2017年。一、二、六[15] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在计算机视觉和模式识别，第4558- 4567页，2018年。二六七[16] Feli xJ¨remoLa win ， MartinDanelljan ， PatrikTosteberg，Goutam Bhat，Fahad Shahbaz Khan，and MichaelFelsberg.深度投影三维语义分割。在图像和图案的计算机分析国际会议上，第95-107页，2017年。6[17] 特吕克·勒和叶端。Pointgrid：用于3D形状理解的深度网络。在计算机视觉和模式识别中，第9204-9214页2[18] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习Nature，521（7553）：436，2015. 1[19] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在计算机视觉和模式识别，第9397-9406页，2018年。二、六[20] Yangyan Li ， Rui Bu ， Mingchao Sun ， Wei Wu ，Xinhan Di，and Baoquan Chen.Pointcnn：x变换点上的卷积神经信息处理系统进展，第820-830页，2018年。一二三五六八[21] Yangyan Li，Soeren Pirk，Hao Su，Charles R Qi，andLeonidas J Guibas. Fpnn：用于3d数据的现场探测神经网络。神经信息处理系统进展，第307-315页，2016年。一、二、五[22] Xinhai Liu ， Zhizhong Han ， Yu-Shen Liu ， andMatthias Zwicker.点2序列：使用基于注意力的序列到序列网络学习3d点云的形状表示。在人工智能促进协会，2019年。2[23] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络在智能机器人和系统国际会议上，第922-928页，2015年。2[24] 巴特利特·W Mel和Stephen M. Omohundro感受场参数如何影响神经学习。In R.李普曼，J. E.穆迪和D. S.Touretzky，编辑，神经信息处理系统进展，第757摩根-考夫曼1991年。6[25] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在计算机视觉和模式识别中，第652-660页一二三五六八[26] Charles R Qi ， Hao Su ， Matthias Nießner ， AngelaDai，Mengyuan Yan，and Leonidas J Guibas.用于三维数据对象分类的体积和多视图cnn在计算机视觉和模式识别中，第5648-5656页一、二、五[27] Charles Ruizhongtai Qi，Li Yi，Hao Su，and LeonidasJ Guibas. Pointnet++：深度分层特征学习1617度量空间中的点集。神经信息处理系统，第5105-5114页，2017年。一二三五六、八[28] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet：以高分辨率学习深度3D表示在计算机视觉和模式识别，第3577- 3586页，2017年。一、二[29] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。四、五[30] 沈亦儒、陈锋、杨耀青、田栋。基于核相关和图池的点云局部结构挖掘。在计算机视觉和模式识别，第4548-4557页二、六[31] Hang Su ， Varun Jampani ， Deq

下载后可阅读完整内容，剩余1页未读，立即下载