三维点云的环形卷积:A-CNN的应用和可拓展性

161 浏览量更新于2023-10-18 收藏 2.87MB PDF 举报

对象分类

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17421A-CNN：点云韦恩州立大学计算机科学系{artem.komarichev，zichunzhong，jinghua}@ wayne.edu摘要由于三维点云几何结构采样的不规则性和稀疏性，本文提出了一种新的方法来定义和计算卷积直接在三维点云提出的环形卷积。这种新的卷积算子通过在计算中指定（规则的和扩张的）环形结构和方向，可以更好地捕捉每个点的局部邻域几何。它能适应信号处理层次上的几何可变性和可缩放性。我们将其应用到发达的分层神经网络的对象分类，部分分割，语义分割在大规模的场景。大量的实验和比较表明，我们的方法在各种标准基准数据集（例如，ModelNet10、ModelNet40、ShapeNet-part、S3DIS和ScanNet）。1. 介绍如今，理解和分析3D数据的能力在计算机视觉和计算机图形领域变得越来越重要在过去的几年中，研究人员应用深度学习方法来分析3D对象，这些技术在2D图像和1D文本中的成功受到启发。传统的低级手工形状描述符遭受不能够从3D形状学习区分性和足够的特征[1]。最近，深度学习技术已被应用于从低级描述符捕获的3D形状特征中提取分层和有效的信息[20，6]。3D深度学习方法广泛应用于形状分类、分割和识别等。但是这些方法都受到形状描述子的表征能力的限制。将深度学习方法直接应用于3D数据的主要挑战之一是3D对象可以以不同的格式表示，即，规则/结构化表示输入输出飞机？A-CNN图1：在点云上提出的环形卷积神经网络（A-CNN）模型，用于执行分类，零件分割和语义分割任务。(e.g.、多视图图像和体积），以及不规则/非结构化表示（例如，点云和网格）。存在基于规则/结构化表示的广泛方法，例如多视图卷积神经网络（CNN）[32，26，10]和3D体积/网格CNN方法及其变体[38，26，28，35，36，16，9]。这些方法可以方便地在三维数据结构中开发和实现，但它们容易遭受计算量大和存储开销大的问题。因此，最好直接基于3D形状定义深度学习计算，即，不规则/非结构化表示，例如基于点云的方法[25，27，13，30，3，18，19，33，17，42、34、8、40]。然而，在3D对象的不规则/非结构化表示上定义卷积不是一件容易的任务。很少有方法在点云上定义了每个点上的有效和高效卷积。同时，已经提出了几种方法来开发2D流形上的卷积网络[21，4，23，39]。它们的表示（例如，3D表面网格）具有点位置以及连通性，这使得在其上定义卷积算子相对更容易。在这项工作中，我们提出了一种新的方法来定义和计算卷积直接在三维点云有效和高效的建议环形卷积。这种新的卷积算子通过在计算中指定（规则的和扩张的）环形结构和方向，可以更好地捕获每个点的局部邻域几何。它可以适应几何变量-语义部分分割细分分类17422在信号处理水平的灵活性和可扩展性。然后，我们将其与开发的分层神经网络一起应用于大规模场景中的对象分类，部分分割和语义分割，如图所示1.一、我们工作的主要贡献如下：• 我们提出了一种新的方法来定义点云上的卷积所提出的环形回旋可以在每个局部环形区域上定义任意核大小，并帮助捕获3D形状的更好几何表示;• 我们提出了一种新的基于扩张环的多层次方法，这导致更好的捕获。提取形状的几何细节。新的点云扩张策略有利于我们提出的闭环卷积和池化;• 我们提出的网络模型提出了新的国家的最先进的性能对象分类，部分分段，分割和语义分割的大规模场景使用各种标准的基准数据集。2. 相关工作由于我们的工作范围，我们只关注最近相关的深度学习方法，这些方法是在不同的3D形状表示上提出的。容量法分析3D形状的一种传统方法是将其转换为规则的体积occu-网格，然后应用3D CNN [38，26]。主要这些方法的局限性在于3D卷积在计算中比2D情况更昂贵。为了使计算负担得起，体积网格大小通常是在一个低分辨率。然而，较低的分辨率意味着丢失一些形状几何信息，特别是在分析大规模3D形状/场景时。为了克服这些问题，已经提出了基于八叉树的方法[28，35，36]，以允许在更高的分辨率/自适应分辨率网格。PointGrid [16]是一个3D CNN，它在每个网格单元内包含恒定数量的点，并允许它更好地学习局部几何细节。类似地，Hua et al.[9]提出了一种基于均匀网格核的3D卷积算子，用于点云上的语义分割和对象识别。基于点云的方法。PointNet [25]是将深度学习直接应用于点云的首次尝试。PointNet模型对点的顺序是不变的，但它独立地考虑每个点而不包括局部区域信息。PointNet++ [27]是PointNet模型的分层扩展，并在不同尺度下学习点云的局部结构。但[27]仍然独立地考虑其局部区域中的每一点。在我们的工作中，我们通过定义卷积算子来解决上述问题，该卷积算子学习局部区域中相邻点之间的关系，这有助于更好地捕获3D对象的局部几何特性。Klokov等人[13]提出了一种新的深度学习架构，称为Kd-networks，它使用kd-tree结构在点云上构建计算图。KC-Net [30]通过考虑局部邻域信息改进了PointNet模型。它定义了一组可学习的点集核，并提出了一种基于最近邻图的池化方法。PCNN [3]是另一种将卷积神经网络应用于点云的方法，通过定义扩展和限制算子，并将点云函数映射到体积函数。SO-Net [17]是一种置换不变网络，它通过构建自组织映射来利用点云的空间分布。点云上也有一些光谱卷积方法，如SyncSpecCNN [42]和光谱图卷积[34]。Point2Sequence[19]通过使用注意力机制来学习局部区域中不同区域的相关性PointCNN [18]是一种不同的方法，它提出将相邻点转换为规范顺序，然后应用卷积。最近，有几种方法被提出来处理和分析来自室内和室外环境的大规模点云。Engelmann等人[8]扩展的点网模型，以利用大规模的空间上下文。Ye等人。[40]提出了一种逐点金字塔池来聚合局部邻域的特征，以及双向分层递归神经网络（RNN）来学习空间上下文。然而，这些方法没有定义大规模点云上的卷积来学习局部邻域中的几何特征。TangentConv [33]是一种通过将相邻点投影到切平面上并在其上应用2D卷积来定义点云卷积的其他方法切线图像的方向根据局部点/形状曲率来估计，但是如我们所知，点云的局部区域上的曲率计算是不稳定的并且不鲁棒的（参见第2节中的讨论）3.4），这使得它依赖于方向。相反，我们的方法提出了一个环形的卷积，这是不变的局部补丁的方向此外，我们的不需要额外的输入特征，而他们的需要这样的特征（例如，深度、高度等）。基于网格的方法。除了基于点云的方法之外，还提出了几种方法来在3D网格上开发卷积网络以进行形状分析。测地线CNN [21]是欧几里德CNN到非欧几里德域的扩展，并且基于一个低维的CNN。calgeodesic系统的极坐标提取局部补丁。各向异性CNN [4]是欧几里德CNN到非欧几里德域的另一种推广，其中经典卷积被一组定向各向异性扩散内核上的投影所取代。混合模型网络（MoNet）[23]通过com将深度学习方法推广到非欧几里德域（图和流形）17423合并先前的方法，例如，经典欧几里得CNN、测地线CNN和各向异性CNN。MoNet提出了一种新的参数化构造核。方向卷积网络（DCN）[39]通过结合局部和全局特征，在3D形状的三角形网格上应用卷积运算来解决零件分割问题。最后，Surface Networks [14]建议升级到图神经网络，以利用3D表面的外部差异几何特性来提高其建模能力。3. 方法在这项工作中，我们提出了一种新的端到端框架，称为环形卷积神经网络（A-CNN），它利用邻域信息更好地捕获3D点云的局部几何特征。在本节中，我们将介绍点云上A-CNN模型的主要技术组件，包括：规则和扩张环，基于约束的k-最近邻（k-NN）搜索，排序邻居，环形卷积和环上的池。3.1. 点云上的正则环和扩张环为了提取3D形状的局部空间背景，Point-Net ++ [27]提出了多尺度架构。这种方法的主要限制是多个缩放区域可能具有重叠（即，相同的相邻点可能被重复地包括在不同的缩放区域中），这降低了计算体系结构的性能。不同尺度上的重叠点导致局部区域的冗余信息，这限制了网络学习更多的区分特征。为了解决上述问题，我们提出的框架旨在更明智地利用不同尺度的邻域我们提出了两个基于环的方案，即，正则环和扩张环。与多尺度策略相比，基于环的结构在查询点的邻域处不具有重叠（没有重复的相邻点），使得每个环包含其自己的1、补充材料。规则环和扩张环的区别在于扩张环之间有空的空间。提出的扩张环的想法受到图像处理上的扩张卷积的启发尽管每个环可以定义相同数量的计算/操作参数（例如，相邻点的数量），每个环的覆盖区域是不同的（即，扩张的环将具有比规则环更大的覆盖范围），如图所示二、正则环可以被认为是扩张因子等于0的扩张环。提出的正则环和扩张环将有助于邻近点搜索，卷积和池-R内R外R内部R外(a)正则环（b）扩张环图2：规则和扩张的环形结构（例如具有两个环）的比较。我们可以看到，比较两个扇区（例如，黑色实心点），通过使用与规则环中此外，每个环包含与另一环相比唯一的相邻点。在后续过程中。首先，对于k-NN算法，我们将搜索区域限制在局部环形邻域内，以确保没有重叠。第二，定义在环上的卷积覆盖具有相同核大小的更大区域，而不增加卷积参数的数量。第三，在局部区域的每个环处应用最大池化之后，规则/扩张环架构将有助于聚合更多区分性特征。我们将在下面的小节中更详细地讨论它们。为了证明上述声明，我们将在消融研究中将多尺度方法与我们提出的多环方案结合起来进行对象分类任务（第12节）。5.4）。结果表明，基于环的结构比以往的多尺度方法更好地捕捉局部几何特征，因为它实现了更高的精度。3.2. 基于约束的K近邻搜索在原始PointNet++模型中，球查询算法返回在由半径R和查询点qi指定的搜索球内找到的前K个邻居，因此不能保证总是找到最近点。然而，我们提出的k-NN搜索算法通过使用欧几里得度量来保证返回搜索区域内的最近点。每个环由两个参数定义：内半径R内和外半径R外（图1）。2）;因此，基于约束的k-NN搜索确保将在每个环中找到最近和唯一的点。3.3. 排序邻居为了学习局部区域中相邻点之间的关系，我们首先需要以顺时针/逆时针方式对点进行排序，然后应用环形卷积。我们提出的排序算子包括两个主要步骤：投影和排序。排序前投影的重要性在于点积在排序点上有其限制通过将点投影到17424JIpjp jpjPJ在查询点Q1处的切平面，通过同时使用叉积和点积，我们有效地在顺时针/逆时针方向正态估计、正交投影和排序的详细解释将在下面的小节中给出3.3.1点云数据的正态估计法线是3D形状的重要几何属性。我们使用它作为一个工具，用于投影和排序在本地域的最简单的正态估计方法通过计算给定点q i处的局部切平面Ti的法线来近似给定点q i处的法线n i，这成为最小二乘平面拟合估计问题[29]。为了计算正常ni，需要计算协方差矩阵C的特征值和特征向量，如下：1ΣK步长为1......（c）环形卷积图3：在环上提出的环形卷积的图示。（ a）投影：qi是查询点。先在脸上涂抹一层C= Kj=1（xj−qi）·（xj−qi）T，（一）基于约束的k-NN搜索，相邻点X ={xj |j = 1，…K}是在环上提取的。给定查询时的正常niC·vγ=λγ·vγ，γ∈{0，1，2}，其中K是查询点qi周围的相邻点xj的数量（例如，K=10），λγ和vγ分别是协方差矩阵C的第γ个协方差矩阵C是对称的和半正定的。特征向量vγ形成关于局部切线的正交标架，点qi，我们将搜索到的点投影到切平面Ti上。(b)逆时针排序：投影后，我们随机选择一个起始点作为我们的参考方向c，并按逆时针方向排列点。值得一提的是，我们将原始点[x1，x2，...，xj，.，[1]根据他们的预测。(c) 环形卷积：根据内核大小，我们从开始位置复制几个原始点，并将它们连接到有序点的末尾。最后，我们使用给定的内核进行环形卷积。平面Ti.对应于小-λ的特征向量v0est特征值λ0是估计的法线ni。3.3.2正交投影在提取邻居xj，j ∈ {1，...，K}用于查询点qi，我们计算这些点在a上的投影pjs[0360]我们必须决定哪一种方法是正确的。点pj属于如下：signpj=（c×（pj−qi））·ni，（4）其中sign≥0是θ∈[0<$，180<$]，并且sign0是由单位法线ni描述的切平面Ti（估计θpj ∈（180<$，360<$）。节中3.3.1）为：然后，我们可以重新计算角度的余弦值为：.pj= xj−（（ xj-qi）·ni）·ni，j∈{1，.， K}。（二）=−cos（θpj）−2signpj0cos（θpj）signpj≥0.（五）图3（a）示出了环上相邻点的正交投影。3.3.3逆时针排序首先，我们使用点积的几何定义来计算两个向量c之间的角度（即，从查询点Qi开始并与随机起始点连接，例如P1）和Pj-Qi（即，从查询点qi并与其他相邻点pj连接）：现在角度的值位于（−3，1]中，它映射[0◦，360◦）之间的角度。最后，我们通过降序排序相邻点xj，以获得逆时针顺序R。图3(b)说明了在本地邻居中排序的过程兜帽相邻点可以按时钟方式排序，如果我们通过递增Δpj的值对相邻点xj进行排序。我们的实验显示在Sec.5.4订购点是我们框架中的重要一步cos（θpjc·（pj−qi））=的||C||||p −q||.（三）我们的模型实现了更好的分类精度与有序点比没有排序。X1x2niXKX3p1p2PKQIp3XJPJ点p1C秩序p2PKQIp3PJ(b)逆时针排序(a)投影concat......X 1x2 x3xj-1 xjxj+1X Kx1 x217425我们知道cos（θpj）位于[−1，1]中，它对应于[0<$，180<$]之间的角度。为了分类查询点周围的相邻点，3.4. 环上的环卷积通过前面的计算，我们将有序邻居表示为数组[x1，x2，...， xK]。在手术室-17426为了开发环形卷积，我们需要相对于核的大小循环邻居的阵列（例如，1×3、1×5、...）在每个戒指上。例如如果卷积核的大小是1 ×3，我们需要取第一个两个邻居，并将它们与结尾的ele连接起来。在原始数组中添加元素以构造新的圆形数组[x1，x2，.，xK，x1，x2]。然后，我们可以对这个数组执行标准卷积，如图所示。3（c）款。所提出的环形卷积有一些很好的性质，如下所示：（1）环形卷积对于局部贴片的取向是不变的。也就是说，通过将相邻点序列的开始与结束连接起来，在每个环中的闭环中对相邻点进行组织和排序。因此，我们可以基于任何随机开始位置对邻居进行排序，这不会对卷积结果产生负面影响。与以前定义在3D形状上的一些卷积[4，39，33]相比，它们都需要计算真实的主曲率方向作为参考方向来定义局部补丁算子，这不是鲁棒的和繁琐的。特别地，3D形状具有大面积的平坦和球形区域，其中曲率方向是任意的。(2)我们知道，在现实生活中，点云数据，特别是大规模场景数据集普遍存在法线方向翻转问题。在环形卷积策略下，无论相邻点按顺时针或逆时针排序，结果都是相同的。(3)环形卷积的另一个优点是，我们可以定义任意的内核大小，而不仅仅是1×1kernels [25，27]. 因此，环形卷积可以提供学习每个环内有序点之间关系的能力，如图所示。3（c）款。环形卷积可以应用于规则环和扩张环。通过在不同的环上应用具有相同核大小的环形卷积，我们可以通过使用扩张结构来覆盖和卷积更大的区域，这有助于我们在局部区域中学习更大的空间上下文信息。瓣环回旋的重要性见第2节的消融研究。5.43.5. 环上的池在顺序地应用一组环形卷积之后，所得到的卷积特征对关于其在每个环中的最近邻居的信息以及与查询点的空间距离进行然后，我们分别聚合每个环上所有邻居的卷积特征。我们在我们的框架中应用最大池化策略。我们提出的基于环的方案使我们能够聚合更多的区分特征。提取的最大池化特征包含关于邻居的编码信息以及局部区域中邻居之间的关系，这与PointNet++[27]中的池化方案不同，其中每个邻居都独立于其邻居考虑。在我们的池化过程中，非重叠区域（环）将聚合每个环中的不同类型的特征，其可以唯一地描述查询点周围的每个局部区域（环）。PointNet++中的多尺度方法不能保证这一点，并且可能会在不同尺度上聚合相同的要素，这对于网络来说是冗余信息。（规则的和扩张的）基于环的方案有助于避免提取重复信息，而是促进从不同区域（环）提取多级信息。这提供了一个具有更多不同特征的网络以供学习。在不同的环上聚合特征之后，我们将它们连接并馈送到另一个抽象层以进一步学习分层特征。4. A-CNN架构我们提出的A-CNN模型遵循分层结构由一组抽象层组成的设计每个抽象层由顺序执行的几个操作组成首先，我们使用Faradian Point Sampling（FPS）算法[22]对点进行子采样，以提取随机分布在每个对象表面上的质心。其次，我们的基于约束的k-NN提取每个局部区域的质心的邻域（即，正则/扩张环），然后我们使用投影以逆时针方式对邻居进行排序。最后，我们顺序地应用一组环形卷积的有序点和最大池功能的邻居，以产生新的特征向量，它唯一地描述每个局部区域。给定3D形状的点云，我们提出的端到端网络能够对对象进行分类和分割。在下文中，我们将讨论3D点云上的分类和分割网络架构。4.1. 分类网络分类网络在图1的顶部示出。4.它由两个主要部分组成：编码器和分类。编码器在每个层内独立地从每个环提取特征，并在最后将它们所提出的结构包括正则环和扩张环。我们最终每层使用两个环，因为它给了我们很好的实验结果，如第二节所示。5.如果需要，它可以很容易地扩展到每层两个以上的环我们在第一层中使用规则环，在编码器的第二层中使用扩张环在前两层中应用内核大小为1×3和步幅为1的环形卷积，然后是批量归一化[12]（BN）和整流线性单元[24]（ReLU）。相同的不同戒指查询点被并行处理。然后，来自每个环的聚合特征连接在一起以传播到下一层。编码器中的最后一层执行内核大小为1×1的卷积，然后是BN和ReLU层，其中只有采样点17427d（x，xj）法线图4：A-CNN的架构分类和分割网络共享用于特征提取的编码器部分法线仅用于确定局部区域中相邻点的顺序（虚线箭头表示在训练期间没有反向传播），并且不用作附加特征，除非在实验中明确提及。N，N1，N2（其中N > N1> N2）分别是在第一层和第二层之后作为输入的点的数量。K和K′分别是局部环内的无序点和有序点。c是分类类别的数量。m是分段类的数量。“FPS”代表最远点采样算法。“MLP”代表多层感知器。conv1×3（F1，F2，.，Fn）表示具有核的环形卷积，尺寸1 × 3与相应的特征图尺寸Fi，i ∈ 1，.， n.考虑了之后，聚合的高级特征被馈送到具有集成dropout [31]和ReLU层的全连接层集合，以计算每个类的概率。分类网络的输出大小等于数据集中的类的数量。4.2. 分割网络分段网络与分类网络共享编码器部分，如图4所示为了预测每个点的分割标签，我们需要在编码器中将采样点上采样回原始点云大小。正如[44]所指出的，[27]提出的连续特征传播不是最有效的方法。受[44]的启发，我们将来自编码器的不同级别的特征直接传播到原始点云大小，并通过允许网络从不同级别学习最重要的特征以及学习它们之间的关系来连接它们。由于分层特征提取，每个级别的输出具有不同的大小，因此我们必须通过使用插值方法将每个级别的几何特征恢复回原始点大小[27]。插值方法基于三个最近邻的平方欧几里德距离加权平均值的倒数，如下所示：距离权重然后，我们将来自不同级别的上采样特征连接起来，并通过1×1卷积来减少特征空间并学习不同级别特征之间的关系。最后，计算每个点的分割类距离。5. 实验我们在各种任务上评估我们的A-CNN模型，例如点云分类，部分分割和大规模场景分割。在下面的小节中，我们将演示每个任务的更多细节。应注意，对于比较实验，表中的最佳结果以粗体显示。本文中的所有模型都在具有12 GB GDDR5X的单个NVIDIA Titan Xp GPU上进行训练。该模型的训练时间比PointNet++模型的训练时间要快。有关我们实验中的网络配置、训练设置和时间安排的更多详细信息，请参见第2节。2、Tab。2补充材料。该框架的源代码将在稍后提供。5.1. 点云分类我们在两个数据集上评估我们的分类模型Σ3f（l+1）（x）=f（l）（xj）wj（x）、（6）ModelNet10和ModelNet40 [38]。ModelNet是一个大型的-缩放3D CAD模型数据集。ModelNet10是j=13j=1 wj（x）ModelNet数据集由10个不同的类组成，其中wj（x）=12 是欧几里得3991个培训对象和908个测试对象。ModelNet40包括编码器FPS环形卷积FPS环形卷积劳动党（256，512，1024）mlp（512，256，c）池化1x3（64，64，128）（128，128，256）约束-基于k-NN投影排序niX1X2插值conv1x3（F1，F2，.，Fn）Max-poolingmlp（256，128，m）QIXKX3环形卷积conv1x3（F1，F2，.，Fn）Ni x 3N x mC点法线N × 3Ni x FN × 3N1 x 3N1 x 3Ni x K x FN1 x 128N2 x 128N2 x 3Ni x K' x FNi x K' x FnNi x FnN2 x 256N x2561024分割输出分类输出17428表1：ModelNet10和ModelNet40的分类结果数据集。AAC是平均精度等级，OA是总体精度。ModelNet10ModelNet40AACOAAACOA具有额外输入或更多点的不同方法美国有线电视新闻网[36]---90.5O-CNN [35]---90.6[27]第二十七话---91.9SO-Net [17]95.595.790.893.4[26]第二十六话--91.493.8VRN Ensemble [5]-97.1-95.5基于1024点40个不同的类，9843个对象用于训练，2468个对象用于测试。具有10，000个点和法线的点云从网格中采样，归一化为单位球体，并由[27]提供。对于ModelNet10和ModelNet40上的实验，我们使用法线对1024个点进行采样，其中法线仅用于对局部区域中的点进行排序。对于数据扩充，我们随机缩放对象大小，移动对象位置和扰动点位置。为了更好的推广，我们应用点洗牌，以产生不同的质心为同一对象在不同的时期。在选项卡中。1，我们将我们的方法与几种最先进的方法在ModelNet10和ModelNet40数据集上的形状分类结果进行了比较。我们的模型在基于点云的方法（具有1024个点）中实现了更好的准确性，例如PointNet [25]，PointNet++ [27]（5 K点+法线），Kd-Net （深度 15 ） [13]，逐点CNN [9]， KCNet [30]，PointGrid [16]，PCNN [3]和PointCNN [18]。我们的模型比ModelNet10上的Point2Sequence [19]稍好，并且在ModelNet40上显示出相当的性能。同时，我们的模型比其他体积度量方法（如O-CNN[35]和AO-CNN [36]）表现更好;而我们比SO-Net [17]稍差，后者使用更密集的输入点，即， 5000点，法线作为输入（我们的A-CNN中为1024点）; MVCNN-MultiRes [26]，使用多视图3D体积来表示对象(i.e.、30×30×30体积的20个视图）;VRN Ensem- ble[5]，其中包括六个模型的集合。我们还在Sec中提供了一些特征可视化结果。3份补充材料，包括全球特征（例如，t-SNE聚类）可视化和局部特征（例如，每个点的梯度的大小）可视化。(a) 火箭（b）表（c）滑板（d）袋图5：ShapeNet部件数据集的定性结果。我们将结果与PointNet++ [27]和地面实况进行了比较。5.2. 点云分割我们在ShapeNet部分[41]数据集上评估我们的分割模型。该数据集包含来自16个不同类别的16，881个形状，共有50个标签部件。这个数据集的主要挑战是所有类别都是高度不平衡的。数据集中的每个形状有2048个采样点，其中大多数形状包含的部分少于六个。我们遵循[25，41]中提供的相同的训练和测试分割。对于数据增强，我们用点重排来扰动点位置以获得更好的泛化。我们用两个不同的输入来评估我们的分割模型。其中一个模型在没有饲料的情况下训练-使用法线作为附加特征，另一个模型使用法线作为附加特征进行训练。定量结果见表 1 。 2 ，其中报告了平均 IoU（Intersection-over-Union）。定性结果如图所示五、我们的方法仅将点位置作为输入优于PointNet [25]，Kd-Net [13]，KCNet [30]和PCNN [3];与PointGrid [16]（体积方法）和PointCNN [18]相比，显示出略差的性能。同时，与PointNet++[27]，SyncSpecCNN [42]，SO-Net [17]，SGPN [37]，O-CNN [35]，RSNet [11]和[19]第十九话更详细的定量结果（例如，每个类别的IoU），更多的可视化结果在第二节中提供。五是补充材料。5.3. 场景语义分割我们还在两个大型室内数据集Stanford 3D Large-Scale Indoor Spaces（S3 DIS）[2]和ScanNet[7]上评估了我们的分割模型。S3DIS包含6个大型室内区域，其中271个房间来自3个不同的建筑物，每个点都有属于13个类别之一的语义ScanNet包括1513个扫描的室内点云，其中每个体素都标有21个类别之一。我们采用相同的培训和测试策略，地面实况PointNet++我们PointNet [25]--86.289.2Kd-Net（深度15）[13]93.594.088.591.8美国有线电视新闻网[9]--81.486.1KCNet [30]-94.4-91.0PointGrid [16]--88.992.0PCNN [3]-94.9-92.3[18]第十八话--88.192.2[19]第十九话95.195.390.492.6A-CNN（我们的）95.395.590.392.617429天花板地板墙束柱窗门桌椅沙发书柜板杂(a) 输入（b）PointNet [25]（c）Our（d）Ground Truth图6：S3DIS数据集上的定性结果我们将我们的结果与PointNet [25]和地面实况进行比较。礼堂是一种具有挑战性的房间类型，仅出现在区域2中。我们的模型产生了更好的分割结果，与PointNet的结果相比。PointNet [25]在S3DIS上，我们在所有六个区域使用6重交叉验证。评价结果见表1。2，定性结果在图中可视化。6.我们的模型与PointNet [25]、MS+CU（2）[8]、G+RCU [8]、3 P-RNN [40]，SPGraph [15]和TangentConv [33]。然而，我们的模型表现略差于PointCNN [18]，因为它们的非重叠块采样策略与我们不使用的填充。同时，与PointNet [25]，PointNet++ [27]，TangentConv [33]和[18]根据Tab。二、有关两个数据集的更多定性可视化结果和数据验证详细信息，请参见第4、第5，分别补充材料和视频。表 2 ： ShapeNet-part、 S3 DIS 和 Scan-Net 上的分割结果。“mean” is mean IoU (%), OA is overallShapeNet-partS3disScanNet无法线的法线OAOA是说是说PointNet [25]83.7-78.573.9[27]第二十七话-85.1-84.5[42]第四十二话-84.7--O-CNN [35]-85.9--Kd-Net [13]82.3---KCNet [30]84.7---SO-Net [17]-84.9--SGPN [37]-85.8--MS+CU（2）[8]--79.2-G+RCU [8]--81.1-RSNet [11]-84.9--3P-RNN [40]--86.9-SPGraph [15]--85.5-[33]--*80.9PCNN [3]85.1---[19]第十九话-85.2--PointGrid [16]86.4---[18]第十八话86.1-88.185.1A-CNN（我们的）85.986.187.385.4注：*TangentConv [33]S3DIS区域5上的OA为82.5%（如他们的论文中所报告的），与我们的OA85.5%相比更差。5.4. 消融研究我们的消融研究的目的是显示所提出的技术组件的重要性（第二节）。3）在我们的A-CNN模型中。我们评估三个拟议的组件，如环没有重叠（第二节。3.1），ordering（第3.1节）3.3），以及环状卷积（Sec. 3.4)在ModelNet40数据集的分类任务上，如Tab. 3.在第一个实验中，我们用[27]中的球查询替换了我们在环形区域上提出的基于约束的k-NN，但保持排序和环形卷积。在第二个和第三个实验中，我们分别关闭环形卷积或排序;并保持其余两个组件。实验结果表明，环形方案对模型的贡献最大。这是因为多级环积极影响环形回旋。最后，具有所有三个分量的A-CNN模型（即，没有重叠、排序和环形回旋的环）实现最佳结果。我们还发现，减少重叠/冗余的多尺度计划可以改善现有的方法。我们评估了原始PointNet++ [27]，如第二节所示。1、补充材料。表3：ModelNet40数据集上的消融实验。AAC是平均精度等级，OA是总体精度。AACOAA-CNN（无环/有重叠）89.291.7A-CNN（无环形卷积）89.291.8A-CNN（无排序）89.692.0A-CNN（包含所有组件）90.392.66. 结论在这项工作中，我们提出了一个新的点云A-CNN框架，它可以更好地捕捉3D形状的通过在多个基准数据集上的大量实验由于我们的工作不仅仅关注大规模场景数据集，我们将探索一些新的深度学习架构来改善当前的结果。我们还将在未来的工作中研究将所提出的框架应用于大规模户外数据集。谢谢。我们感谢评论者提出的宝贵意见。这项工作得到了 NSFIIS-1816511 、 CNS-1647200 、 OAC-1657364、OAC-1845962、Wayne State University Sub.CNS-1821962、NIH 1 R56 AG 060822 - 01 A1和ZJNSFLZ 16 F020002的授予4207299 A。17430引用[1] E. 艾哈迈德，A.Saint，A.沙巴耶克湾切连科瓦河达斯G. Gusev，D. Aouada和B.奥特斯滕深度学习在不同3D数据表示上的进步：一项调查。arXiv预印本arXiv：1808.01462，2018。[2] I.阿尔梅尼岛Sener，A. Zamir，H.江岛，澳-地布里拉基斯湾Fis-cher和S. Savarese大规模室内空间的3D语义解析。In Proceedings of the IEEE Conference计算机视觉和模式识别，第1534- 1543页，2016年。[3] M. Atzmon，H. Maron和Y.利普曼基于扩展算子的点卷积神经网络。 ACM Transactions on Graphics ， 37（4）：71：1[4] D. Boscaini，J. Masci、E. Rodol a`和M. 布朗斯坦用各向异性卷积神经网络学习形状对应。神经信息处理系统的进展，第3189-3197页，2016年[5] A. Brock，T. Lim，J. Ritchie，and N.韦斯顿使用卷积神经网络的生成和判别体素建模arXiv预印本arXiv：1608.04236，2016。[6] S. Bu，P.汉，Z.刘，J.Han和H.是林书3D形状的局部深度计算机图形，46：117[7] A. Dai ， A. X. 张， M 。 Savva ， M. Halber ， T.Funkhouser和M.尼斯纳ScanNet：室内场景的丰富注释的 3D 再现。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第5828-5839页[8] F. Engelmann，T. Kontogianni，A. Hermans和B. Leibe探索点云三维语义分割的空间上下文。在IEEE计算机视觉和模式识别会议论文集，第716-724页，2017年。[9] B.- S.华，M.- K. Tran和S.- K.杨逐点卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第984-993页[10] H. Huang，E. Kalogerakis，S. Chaudhuri，D. Ceylan，V.G. Kim和E.好极了利用多视图卷积网络从部分对应关系中ACM Transactions on Graphics，37（1）：6，2018。[11] Q.黄，W. Wang和U.诺伊曼递归切片网络用于点云的三维分割。在IEEE计算机视觉和模式识别会议论文集，第2626-2635页，2018年[12] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。[13] R. Klokov和V. Lempitsky逃离细胞：用于识别3D点云模型的深度Kd网络。在IEEE计算机视觉国际会议论文集，第863-872页[14] I. Kostrikov，Z. Jiang，中国粘蝇D. Panozzo，D. Zorin和J.布鲁娜地面网络。在IEEE计算机视觉和模式识别会议论文集，第2540- 2548页[15] L. Landrieu和M.西蒙诺夫斯基基于超点图的大规模点云语义分割。在IEEE计算机视觉和模式识别会议论文集，第4558-4567页，2018年[16] T. Le和Y.段。PointGrid：用于3D形状理解的深度网络。在IEEE计算机视觉和模式识别会议论文集，第9204- 9214页[17] J. Li，B. M. Chen和G. H.李你SO-Net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397-9406页[18] Y. 利河，巴西-地布，M。太阳，W。Wu，X.Di和B.尘PointCNN：X变换点上的神经信息处理系统的进展，第828-838页，2018年[19] X. Liu，Z.汉，Y.-S. Liu和M.兹维克点2序列：使用基于注意力的序列到序列网络学习3D点云的形状表示。在人工智能促进协会，2019年。[20] Z. Liu，S. Chen，S. Bu和K.李基于深度信念网络的三维形状高级语义特征。在IEEE多时间数据和博览会国际会议的开幕式上，第1-6页[21] J. Masci，D. Boscaini，M. Bronstein和P.范德海恩斯黎曼流形上的测地线卷积神经网络。在Proceedings of theIEEEInternationalConferenceonComputerVisionWorkshops，第37[22] C. Mo

下载后可阅读完整内容，剩余1页未读，立即下载