没有合适的资源?快使用搜索试试~ 我知道了~
基于球面核的八叉树引导CNN用于3D点云处理
1基于球面核的八叉树引导CNN用于3D点云Huan Lei Naveed Akhtar Ajmal Mian计算机科学与软件工程西澳大学huan. research.uwa.edu.au,{naveed.akhtar,ajmal.mian}@ uwa.edu.au摘要我们提出了一种八叉树引导的神经网络架构和球形卷积核,用于从任意3D点云进行机器学习。网络架构利用了不规则点云的稀疏性,并通过空间分区分层粗化数据同时,所提出的球形核系统地识别点邻域以识别数据中的局部几何结构,同时保持不变性和不对称性。我们指定球形内核的网络神经元的帮助下,反过来与空间的位置。我们利用这种关联来避免网络训练期间的动态内核生成,从而实现高分辨率点云的有效学习。所提出的技术的有效性建立在3D对象分类和分割的基准任务上,在ShapeNet和RueMonge2014数据集上实现了竞争性性能。1. 介绍卷积神经网络(CNN)[17]已知可以从数据中学习高效的特征。然而,标准CNN仅适用于在规则网格上定义的数据,例如,像素阵列这限制了它们处理固有不规则的3D点云的点云处理最近获得了显著的研究兴趣,并且这种数据模式的大型存储库已经开始出现[1,4,12,39,40]。最近的文献也看到了许多尝试,通过自适应来利用标准卷积网络对点云的表示能力[23,39]。然而,这些尝试通常导致过大的内存占用,限制了允许的输入数据分辨率[29,33]。一个更有吸引力的选择是将卷积运算的能力与不规则数据的图形表示相结合。由此产生的图卷积网络(GCN)在频谱域[3,7,15]或空间域[33]中提供卷积在GCN中,谱域方法需要对齐图拉普拉斯算子,这并不直接用于实现点云。另一方面,空间域中唯一突出的方法是用于图的CNN中的边缘条件滤波器(ECC)[33],与标准CNN相比,它必须动态生成卷积核,从而产生显著的计算开销。此外,ECC依赖于范围搜索来实现图形的扩展和粗化,这对于大型点云来说可能会变得过于昂贵将卷积网络应用于不规则3D数据的一个主要挑战是在3D度量空间中指定几何上有意义的卷积核自然地,这样的内核也需要表现出不变性,以识别数据中类似的局部此外,它们应该不对称地应用于点对,以实现紧凑的表示。由于这种复杂的要求,很少有现有技术能够避免在计算图中使用卷积核来处理非结构化数据[16,27,28]。虽然仍然有吸引力,但这些方法并不有助于挖掘卷积神经网络用于点云的潜力。在这项工作中,我们引入了球形卷积核的概念,该概念系统地将球形3D区域划分为多个体积箱,参见图11。1.一、内核的每个bin指定可学习参数的矩阵,该矩阵对落入该bin内的点进行加权以进行卷积。我们将这些内核应用于我们建议通过利用3D空间的八叉树划分[24]构建的神经网络(E-CNN)的层稀疏引导的八叉树结构确定在网络的每一层中执行卷积的位置。网络架构本身由八叉树的层次结构指导,具有与树深度相同的隐藏层数量通过利用空间划分,网络避免了K-NN/范围搜索,并有效地消耗高分辨率点云。它还通过将它们与其神经元相关联来避免动态生成所提出的内核。同时,内核能够在数据中相似的局部结构之间共享权重。我们从理论上建立了球形内核不对称地应用于我们网络中的点,就像标准CNN96319632×O图1.提出的八叉树引导的CNN,即。CNN使用八叉树分割信息直接处理原始点云。通过应用球形卷积核,在每个网络层(描绘了三层)对表示进行分层粗化。球形核系统地将点xi周围的空间分割成多个体积箱。对于第j个相邻点xj,核首先确定其相关的bin,并使用为该bin定义的权重矩阵Wκ来计算激活值。所提出的球形核保留了标准2D卷积核在3D点云域中的不变性和不对称性。被不对称地应用于图像像素。这确保了所提出的网络在点云域中的紧凑表示学习我们证明了我们的方法的有效性,三维物体分类,部分分割和大规模的语义分割。这项工作的主要贡献总结如下:提出了一种新的不对称卷积核的概念,并分析了不规则点云的逐点特征学习与之前八叉树到点云的体素化应用[29]相比,八叉树引导神经网络利用所得到的卷积核,分层粗化数据并使用空间分区构建点邻域,以避免耗时的K-NN/范围搜索。所提出的技术的有效性是通过使用ModelNets [39]进行3D对象分类,ShapeNet [40]进行部分分割和RueMonge2014 [30]进行语义分割的实验来建立的,在后两个方面实现了竞争性性能。2. 相关工作PointNet [27]是利用神经网络来表示点云的第一个实例之一。它直接使用点的x、y、z坐标作为输入特征。该网络使用共享的MLP学习逐点特征,并使用最大池提取全局特征。PointNet的一个主要限制是它在逐点 特 征学 习 中 没 有探 索 几 何 上下 文 。这 后 来由PointNet++ [28]通过将最大池分层应用于局部区域来解决。增强使用K-NN搜索以及范围搜索来构建局部区域。然而,两个PointNet [27,28]都使用最大池化聚合关于使用树结构通过深度学习处理点云kd网络[16]是其中的先驱突出贡献。kd网络也使用点坐标作为其输入,并通过连接平衡树中其子节点的特征来计算父节点的特征然而,它的性能在很大程度上取决于树结构的随机化。这与我们使用点之间的确定性几何关系的方法形成鲜明对比。另一种技术,SO-Net [18]将不规则点云重新组织成m m2D矩形地图,并使用PointNet架构来学习地图的节点特征。类似地,KCNet [32]也构建在PointNet上,并引入了点集模板来学习点云中局部点的几何相关性PointCNN [19]通过使用可学习的χ变换对局部点进行规范重新排序来提取置换不变特征所有这些方法都与我们的工作有关,直接接受点的空间坐标作为输入。然而,它们并不有助于使用卷积网络来处理3D点云。推进这一研究方向的方法可分为两大类,讨论如下。A. 图卷积网络图卷积网络可以分为频谱网络[3,7,15]和空间网络[33]。频谱网络依赖于图拉普拉斯和邻接矩阵在频谱域中执行卷积,而空间网络在空间域中执行卷积。谱网络的一个主要局限性是它要求图结构是固定的,这使得它的应用变得复杂。点云)具有挑战性。 Yi等人。 [41]试图用频谱Transformer网络(SpecTN)解决这个问题,类似于空间域中的网络[14]。然而,从空间域到谱域的信号变换以及从谱域到空间域的信号变换导致计算复杂度(n2)。ECC [33]是在空间域中使用图形卷积进行点云分析···9633× ×i=1× ×××N∈∈−××× ×∈NT →T∈{}∈{}Jκ·P{∈}−受动态滤波器网络[6]的启发,它采用MLP在连接的顶点之间动态生成卷积滤波器。过滤器的动态生成伴随着计算开销。此外,ECC中的邻域构造和图粗化必须依赖于范围搜索,效率不我们实现粗化和邻域建设直接从oc-树划分,从而避免昂贵的范围搜索。此外,我们的球形卷积内核有效地探索了每个点的几何背景,而不需要动态滤波器生成。B. 3D卷积神经网络3D-CNN被应用于3D数据。 在这方面的早期尝试中,只能处理低输入分辨率,例如,30 30 30 [39],32 32 32 [23].这一问题超越了后来的也是一样的[13,31,42,43]。低输入分辨率的限制是与体积输入数据相关联的存储器和计算需求的后来的方法[8,20]主要是为了解决这些问题。最近,Riegler et al. [29]提出了OctNet,它用浅网格八叉树(深度=3)的混合来表示点云。与其密集的同行相比 , OctNet 在 很 大 程 度 上 降 低 了 计 算 和 内 存 虽 然OctNet也利用八叉树,但OctNet和我们的方法之间存在重大差异。首先,由于其3D-CNN内核,OctNet必须将点云作为常规3D体积进行处理。没有这样的约束是适用于我们的技术,由于建议的球形内核。其次,我们能够学习点云表示与一个单一的深八叉树,而不是使用混合的浅树。3. 球面卷积核我们的网络的主要优势来自球形卷积核。因此,在深入研究网络细节之前,必须首先理解所提出的内核。本节介绍我们用于3D点云处理的卷积内核。进行卷积的基本几何形状。给定任意点云=XiR3m,其中m是点的数量;我们借助半径为ρ的球面定义卷积核R+。对于目标点xi,我们认为它的邻域(xi)包括以xi为中心的球体内的点,即,N(xi)={x:d(x,xi)≤p},其中d(.,. )是一个距离度量-在这项工作中的102距离 我们把球面分成n个 pq'箱'(见图1)通过分区沿方位角(θ)和仰角(φ)维度均匀地占据空间。我们允许沿径向尺寸的分区是不均匀的,因为大半径值的立方体积增长可能变得不期望。我们对球形区域的量子化主要受到3DSC的启发[9]。我们还定义了一个额外的bin对应于-ING的球体的原点,以允许点的自卷积的情况下。对于每个bin,我们定义权重矩阵Wκ∈{0,1,.,n×p×q}Rs×t的可学习参数,其中s-t是输出-输入通道的数量,W0与自卷积有关。一起,n p q+1个权重矩阵指定单个球形卷积核。为了计算目标点xi的激活值,我们必须为每个相邻点xj(xi)识别核的相关权重矩阵。对于自卷积,直接将xi与W0相关联。对于非平凡的情况,我们首先用它们的球坐标表示相邻点,这些球坐标使用xi作为原点。也就是说,对于每个xj,我们计算(xji)xji,其中 (。)定义了从笛卡尔坐标到球面坐标的变换,并且假设量化球体的仓分别沿方位角、仰角和径向维度被kθ、kφ和kr索引,则与球形内核仓相关联的权重矩阵可以被索引为κ=k θ+(k φ−1)×n+(k r−1)×n×p,其中k θ1、. . .,n,kφ1、. . .,p,k r1,. . .,q.使用这种索引,我们将每个xj分配给它的rele,因此xj也是如此。vant权重矩阵在第l个网络层中,第i个点的激活可以计算为:对于图像,手工制作的功能传统上是zl=1|N(xi)|Wlal−1+bl,(1)在更原始的成分上计算,即,补丁. 在效果,同样的原则超越了自动功能我|N(xi)|κjj=1使用计算特征的标准CNN进行提取al=f(zl),(2)我我使用定义明确的矩形重新激活的地图gions。矩形区域是处理2D数据的常见选择,而球形区域更适合处理点云等非结构化3D数据球形区域本质上适合于计算此类数据的几何意义特征[9,34,35]。受这种自然亲缘关系的启发,我们引入了其中al-1是来自层l1的相邻点的激活值,Wl是权重矩阵,bl是偏置向量,并且f()是非线性激活函数- [25]在我们的实验中。为了详细说明所提出的球形卷积核的特征,让我们表示核的边缘使用3D球体作为表面(即, 360度图像)而不是周围的3D空间。我们的概念1请注意,球面CNN [5]中的术语球面用于球面球形核与[5]有很大的不同,并且它在不同的上下文中使用9634× ×p∀/·≥·≥←2πP2244 2φφz√√××|−|分别沿着θ、φ和r维的nel bin为:Θ=[Θ1,. . . ,θn+1],ΘkΘk+1,Θk∈[−π,π],半径ρ=0.3,使用以下边作为面元:Θ=[−π,−π,0,π,π];Φ=[Φ,. . . ,Φ100Σπ ππ2 21p+1],ΦkΦk+1,Φk∈−, ],Φ=[−π π π,−,0,,];R=[R1,. . . ,Rq+1],RkRk<+1,Rk∈(0,ρ].由于沿方位角均匀分裂的约束并且,我们可以写为Θk+1−Θk=2π和Φk+1−R=[π,1,π2,ρ],π→0+。(三)这种划分导致内核大小(即,总数Φk=π。n个仓)4 4 3+1=49,这是粗多尺度Lemma 2.1允许的量子化。引理2.1:如果ΘkΘk+10,ΦkΦk+10且n>2,则对于球面卷积核内的任何两个点xa=xb,不对称地应用权重矩阵Wκ,κ >0。证明:令ab=xa−xb=[δ x,δ y,δ z],则ba=[−δ x,−δy,−δ z]。 在笛卡尔坐标到球面坐标的变换下,我们有T(λab)=λab=[θ ab,φ ab,r],且T(θba)= θba =[θ ba,φ ba,r]。 我们认为,Rbab和Rbba落在同一个以κ(k θ,k φ,kr)为索引的bin中,即. Wκ对称地应用于点xa和xb。 在这种情况下,在逆变换T-1(. ),我们有δ z= r sin φ ab和(−δ z)= r sin φ ba。 条件Φk·Φk+1≥ 0使得−δ2=δ z·(−δ z)=(rsinφab)·(rsinφba)=r2(sinφabsinφba)≥0=δz=0的情况。类似地,Θkθ·Θkθ+1≥0= θδy=0。由于xa/=xb,对于δ x/= 0,我们有cos θ ab= − cos θ ba=|θ ab− θ ba|为π。 然而,如果θab,θba落在同一个bin中,我们有θ abθ ba=n< π,其中δ x=0。 因此,断言不能成立,Wκ不能应用于任何两点对称,除非两点相同。球形核的非对称性是sig-sigma。因为它限制了相同权重这有助于学习具有更精细几何细节的更有效特征。引理2.1还提供了将卷积核划分为仓的准则,使得总是保留不对称性。为了进一步阐述这方面的问题,我们在本文的补充材料中提供了一些违反不对称性的核划分的例子。请注意,在标准CNN内核中,内核权重对像素的非对称应用是自然的。然而,所提出的内核是能够确保在点云域相同的属性与3D-CNN的关系:在这里,我们简要地将球形内核的概念与现有的将CNN用于3D数据的技术联系起来。开拓者在这个方向上将原始数据光栅化为均匀的体素网格,然后使用3D-CNN从所得的体积表示中提取特征[23,39]。在3D-CNN中,大小为3的卷积核3优选地使用3 = 27,其将空间分割为半径r = 0的1个单元/体素(自对流);半径r = 1的6个单元;半径r= 1的1个2个单元。半径r=3时为8个单元。 一个类似的球形锥-注意,如果我们从中心径向移动到球形核的周边,我们在由R定义的每个边缘之后遇到相同数量的箱(在这种情况下为16个),其中细粒度箱位于靠近原点的位置,其可以对点的详细局部几何信息进行编码。这与3D内核形成鲜明对比,3D内核必须保持所有细胞的大小恒定,并依赖于数据的增加的输入分辨率来捕获更精细的细节-通常需要内存问题。球形核的多尺度粒度使其成为原始点云的自然选择。4. 神经网络大多数使用神经网络处理点云的现有尝试[18,19,28,32,33]依赖于K-NN 或范围搜索,以定义点的局部邻域,其随后用于执行像卷积或汇集的操作。然而,为了处理大的点云,这些搜索策略在计算上变得令人望而却步。 对于非结构化数据,定义点邻域的有效机制是树结构,例如。Kd树[2]。树结构的分层性质也为可用于处理点云的神经网络架构提供了指导。更重要的是,树结构数据还具有神经网络所期望的排列和平移不变性A. 核心架构我们利用点云的八叉树结构[24],基于生成的树设计神经网络。我们选择使用八叉树是因为它对神经网络的适应性作为基本数据结构[29],并且与例如Kd树相比,它能够在点邻域中考虑更多的数据我们举例说明了八叉树下的三维空间划分,生成的树,以及使用图中所2以玩具为例对于输入点云,我们构造一个深度为L的八叉树(图中L=3)。在构造中,除了最后一层叶节点之外,节点的分裂是固定的,以使用一个点的最大容量。计算父节点中的点作为其子节点中的点的期望值。在最后一层节点中的多个点的分配直接来自于空间的允许的最精细划分为同一区域的卷积核可以用3D空间中未密集填充的子体积29635我||−||我Q我i=11i=1我NQ图2.使用玩具示例说明八叉树引导的网络架构:3D空间中的点云在深度为3的八叉树下进行分区。相应的树表示基于空间划分将点分配给最大深度处的节点,并计算每个父节点的位置作为其子节点的预期位置。复制浅分支上的叶节点以匹配最大深度。相应的神经网络具有与树深度相同的隐藏层数量,并且它学习球形卷积核以进行特征提取。我们的分裂策略可以在树到达其最大深度之前产生叶节点在这种情况下,为了便于将树映射到神经网络,我们将叶节点复制到树的最大深度。在实现网络时,我们可以安全地忽略空节点,从而带来计算和内存方面的好处。基于层次树结构,我们的神经网络也有L个隐藏层。请注意,在图中。2我们使用l = 1作为对应于深度的第一个隐藏层三是树。 我们将在文本跟随。 对于树中的每个非空节点,是我们神经网络中的一个对应神经元。回想一下,一个球形卷积核是用一个目标点来指定的,因此,为了便于卷积,我们将单个3D点与每个神经元相关联,除了树的最大深度处的叶节点。对于叶节点,关联点是分配给该节点的数据点的平均值。神经元使用其相关联的点/位置来选择适当的球形内核,并且随后应用非线性激活(图1B中未示出)。2)的情况。在我们的网络中,最后一层之前的所有卷积层后面都是批量归一化和ReLU激活。我们将网络第l层中与第i个神经元相关的位置表示为xl。 从l=1到l=L,我们可以将与所有神经元相关联的位置表示为Q1={x<$1}m1,. . . ,QL={x<$L}mL.表示ra w输入点为Q0={x<$0}m0,x<$l,在将我们网络中考虑的点邻域的球形性质与八叉树对空间的立方划分相 假设xmin=[xmin,ymin,zmin]n ,且xmax=[xmax,ymax,zmax]n=0。在给定的立方体中挖掘点坐标的范围这是由于我们的空间划分。与第l层神经元相关的球形邻域定义为半径ρ= 2l−L−1xmaxxmin2。由于形状的不相似性,该邻域可能并不严格地限定在该水平处的相应立方体积的所有点。 虽然在实践中这样的点的数量是微不足道的,但我们仍然考虑到这些点,根据它们的方位角和仰角值将它们分配到我们的内核的最外面的仓。我们的神经网络执行层间卷积,而不是层内卷积。与基于图形的网络相比,这大大减少了处理大型点云所需的操作[3,7,15,33,41]。我们注意到,对于具有单个子节点的所有节点,在网络中仅执行自卷积。请注意,由于其非常规性质,球形卷积核不容易使用现有的深度学习库来实现,例如。matconvnet [36].因此,我们自己用CUDA C++和mex接口2实现它。对于其他模块,如ReLU,批量标准化等,我们使用matconvnet。参见第E的补充材料,以了解球的内核在一个传统的方式。与OctNet比较[29]:OctNet [29]也使用我们的网络:i i=1Σ我xl−1J八叉树结构然而,OctNet将点云处理为常规的3D体积-3D-CNN。相反,我们处理x<$l−1∈N(x<$l)xl=我J I|N(x¯l)|、(四)点云遵循其非结构化性质。 我们的网-work学习从0到L哪里(xl)包含八叉树中相关子节点的位置值得注意的是,用于指定网络层的策略还需要:|>>|Q L|.|. 从第一层到最后一层,,这与OctNet相反,OctNet必须考虑到被占用和未被占用的体素,从而导致复杂性。我们利用八叉树结构同时构建所有点的邻域,并逐层粗化原始点云,而OctNet则使用此结构进行体素化我们的网络学习到的特征从低到高类似于标准CNN的抽象级别。2.执行情况将公布于众。9636× ×6−图3.使用图1的核心网络进行分类和分割。二、对于分类,根节点(顶层)处的特征与剩余层处的最大池化(虚线)特征连接,然后是FC层。对于分割,点的表示使用沿着到根节点的路径的所有祖先的层级特征,例如,点“1”的红色路径点“m”的路径逐点分类(分割)使用级联的原始点特征(xyz/xyz-rgb)、MLP特征和所有提取的层级特征来执行为了说明,示出了简单配置MLP(32)-八叉树(64-128-256)将点云转换成不同的分辨率。B. 分类和分割分类和分段网络是图2所示的相同核心架构的基本变体。然而,我们另外插入一个MLP层之前的八叉树结构,以获得更多的表现逐点特征。这个概念的灵感来自Kd-Net [16]。图3显示了用于分类和分段的完整架构为了充分利用在不同八叉树级别学习的分层特征,我们使用来自所有八叉树层的特征对于分类,我们从中间层最大池的功能,包括原始功能,并连接它们与根节点的功能,形成一个完整的点云的全局对于分割,我们需要逐点特征。每个点的特征是原始特征、MLP特征和逐层特征的串联,而没有任何池化。使用三个完全连接的层执行最终分类或分割。5. 实验我们在干净的CAD模型和有噪声的点云上进行实验,以评估我们的方法在3D对象分类、零件分割和语义分割方面的性能。在整个实验中,我们保持卷积核的大小固定到8 2 3+ 1,其中径向尺寸被均匀地分割。我们使用三个完全连接的层(512-256-C),然后使用softmax作为分类器,用于分类和分割任务。这里,C表示类/部分。我们的网络的训练是使用具有12 GB内存的Titan Xp GPU进行的。我们使用带有动量的随机梯度下降来训练网络。在我们所有的实验中,批量大小保持固定为16。这些超参数使用交叉验证进行经验优化。我们只使用点云提供的点的(x,y,z)坐标来训练我们的网络,当提供颜色信息时,使用(r,g,b)值几文献中的现有方法也利用了范数并将其用作输入特征。然而,法线不直接由3D传感器感测,并且必须使用点坐标来计算这也带来了额外的计算负担。因此,我们避免使用法线作为输入特征。在我们的实验中,我们遵循利用数据增强的标准实践。为此,我们使用原始点云的随机子采样,执行随机方位角旋转(高达πrad),并应用噪声平移(std.dev = 0.02)来增加训练样本的数量。这些操作在网络的每个训练时期中进行。A. 分类我们使用基准数据集ModelNet 10和Model-Net40 [39]来评估我们的分类任务技术。这些数据集使用干净的CAD模型创建。ModelNet10包含10类对象网格,样本分为3,991个训练实例和908个测试实例。ModelNet 40包含40个类别的对象网格,训练/测试划分为9,843/2,468。与现有工程相比(例如,[27,28,32,33]),在我们的网络中执行的卷积允许所提出的方法消耗大量的输入点云。因此,我们使用一万个输入点来训练我们的网络。对于分类任务,我们采用了具有6层八叉树的网络,而特征通道的数量保持为MLP(32)-八叉树(64-64-64-128-128-128)。该网络包括两个组成部分,八叉树为基础的架构的特征提取和分类阶段。我们以端到端的方式训练整个网络。我们通过标准化3D点云来标准化输入模型,以适应具有零均值的[1,1]3的立方体表1对对象分类性能进行了基准测试。我们的方法,简称为cn-cnn3。我们的方法使用xyz坐标的点作为原始特征,以实现这些结果。可以看出,CNN一直3选择希腊字母作为前缀,以避免与其他OCNN和SCNN重复,例如[21、26、37]。9637∼表1.ModelNets上的分类性能[39]。方法ModelNet10ModelNet40类例如类例如[29]第二十九话90.190.983.886.5[33]第三十三话90.090.883.287.4PointNet [27]––86.289.2[28]第二十八话–––90.7Kd-Net [16]92.893.386.390.6SO-Net [18]93.994.187.390.9KCNet [32]–94.4–91.0美国有线电视新闻网(CNN)94.494.688.792.0在ModelNets上实现最佳性能我们注意到,像我们的方法Kd-Net [16]和OctNet [29]一样,也是基于树结构的网络。然而,它们需要两倍于我们的方法所需的参数层数量来实现报告的性能。这是一个直接的后果,quence的几何信息的有效探索所提出的内核。我们还提供了一个烧蚀研究,以支持这一补充材料的文件。B. 部分分割ShapeNet零件分割数据集[40]包含来自16个类别的16,881个CAD模型。每类模型有2 ~ 5个标注部分,共计50个标注部分.点云是从3D网格中均匀采样创建的。该数据集提供点的xyz坐标作为原始特征,并定义了14007/2874训练/测试分割。我们使用6级八叉树作为分割网络,配置为MLP(64)- Octree(128-128-256-256-512-512)。分类器的输出类别编号C由每个类别中的部件数量确定。我们使用[27]中提出的部分平均IoU(mIoU)来报告表2中的性能。与分类任务类似,我们还通过将输入点云标准化来标准化ShapeNet的输入模型,[-1,1]3立方,均值为零在表2中,我们将我们的结果与也将不规则点云作为输入的流行方法进行了比较。然而,为了实现它们的结果,这些方法中的一些利用除了xyz坐标之外的范数作为输入特征,例如。要点-Net、PointNet++、SO-Net。 It can seen that Ψ-CNN notonly achieves the highest mIoU 86. 8%,但在16个类别中的11个类别上也优于其他方法。据我们所知,EST-CNN在这部分分割数据集上记录了最先进的性能,比专业分割网络高出1%,[11][12][13][14][15]在图4中,我们显示了几个代表性的分割结果。对于高质量的结果,通过ECO-CNN实现了高mIoU,而对于另一种情况,mIoU值较低。检查低质量的结果,我们发现大多数情况下是由两种情况之一引起的。(1)令人困惑的地面真相标签:例如,滑板在大多数地面实况样本中被标记为单独的段,但在少数其他样本中被标记为轮子的一部分。因此,网络学习更占主导地位的分割。椅子的腿也是如此。(2)没有明确边界的小部件:例如,袋子的把手被认为是地面实况中的单独片段。我们还在补充材料中提供了更多的例子。从这些结果中,我们可以很容易地得出结论,c-CNN的部分分割任务的成功率。C. 语义分割我们还使用RueMonge2014数据集[30]测试了我们的模型用于真实世界数据的语义分割。该数据集包含沿街道的700米立面,并使用逐点标签进行注释。这些类别包括窗户、墙壁、阳台、门、屋顶、天空和商店。点云具有颜色特征。为了训练我们的网络,将训练和测试数据都分成1m3块。我们将所有块的立面平面对齐到同一平面,并将重力轴调整为直立。我们只强制x和y维度具有零均值,但不强制z轴。采用这种处理策略是为了避免丢失高度信息。我们使用xyz+rgb作为输入原始特征来训练我们的网络。使用的网络配置是MLP(64)-八叉树(64-64-128-128-256-256)。表3根据[ 10 ]的评估方案,将我们的方法的结果与该数据集上的最新方法的结果进行了比较。通过7个参数层,我们实现了比OctNet更好的性能,OctNet使用20个参数层来学习每个点的最终表示。这些结果证明了B-CNN在实际应用中的前景。分割结果的可视化在补充材料中提供。D. 讨论对于几何意义的卷积,知识的局部邻域的点是必要的。一种相关的方法,ECC [33]利用范围搜索来实现这一目的。另一个明显的选择是K-NN聚类。然而,对于树结构,例如,八叉树;点邻域信息已经很容易获得,这增加了计算量,C-CNN的效率。在图5中,我们报告了在不同选择下计算邻域的时间,并将其与八叉树构造进行了比较。可以看出,对于更大数量的输入点,八叉树结构更容易与K-NN和范围搜索相比,这是有效的。此外,它的效率也优于大输入大小的Kd树,因为在Kd树的二进制分裂迫使它比八叉树更深。在从ModelNets中随机选择的1K个样本上运行我们的分类网络,我们计算了我们的网络对大小为10K的点云的测试时间,并在表4中报告了时间。样本的测试时间包括构建八叉树和执行前向9638图4.高质量和低质量分割结果的代表性示例。在每种情况下也给出了计算的mIoU。低质量分割通常是由以下原因造成的:(1)混淆地面实况标签,例如滑板的轴在大多数地面实况标签中被认为是单独的段,(2)没有清晰边界的小对象部分,例如,袋子的把手。颜色编码在类别内(最佳屏幕显示)。表2.ShapeNet零件分割数据集上的结果方法Miou号飞机袋帽车椅子耳机吉他刀灯笔记本摩托车马克杯手枪火箭滑板表3D-CNN [27]79.4075.172.8 73.3 70.087.263.588.479.674.493.958.791.876.451.265.377.1Kd-net [16]82.3080.174.6 74.3 70.388.673.590.287.281.094.957.486.778.151.869.980.3PointNet [27]83.7083.478.7 82.5 74.989.673.091.585.980.895.365.293.081.257.972.880.6[41]第四十一话84.7281.681.7 81.9 75.290.274.993.086.184.795.666.792.781.660.682.982.1KCNet [32]84.7182.881.5 86.4 77.690.376.891.087.284.595.569.294.481.660.175.281.3SO-Net [18]84.9182.877.8 88.0 77.390.673.590.783.982.894.869.194.280.953.172.983.0[28]第二十八话85.1082.479.0 87.7 77.390.871.891.085.983.795.371.694.181.358.776.482.6美国有线电视新闻网(CNN)86.81184.282.1 83.8 80.591.078.391.686.784.795.674.894.583.461.375.985.9表3.RueMonge2014数据集上的语义分割图5.比较八叉树结构与K-NN,范围搜索和Kd树的邻域计算。输入大小八叉树构造向前传球总正常计算10K3.530.634.127.4表4. 10K输入的每个样本测试时间(ms)。法线的计算时间仅供参考-用红色表示。过去的表中还列出了正常计算的时间,以供参考。我们的方法不计算norm- mals来实现上一节中报告的结果。为了更好地理解这些时间,PointNet++ [28]在同一台机器上向前传递1024个点的输入大约需要115 ms图最后给出了一个点云粗化的实例l= 1l = 2l = 3l = 4l=5图6.八叉树结构下的点云粗化实例。‘在八叉树结构下。我们的网络通过在每个级别应用球形卷积核来逐渐稀疏点云。6. 结论我们介绍了点云处理的球形卷积核的概念该网络在其神经元的邻域中连续执行卷积,其位置由底层八叉树的节点控制。为了执行卷积,我们的球形内核将其占用的空间划分为多个bin,并将权重矩阵与每个bin相关联。这些矩阵是通过网络训练学习的。我们已经证明,所得到的网络可以有效地处理大型3D点云,有效地实现了对合成和真实数据的3D分类和分割任务的优异性能。致 谢 本 研 究 得 到 支 持ARC Discovery GrantDP160101458 和 部 分 DP190102443 。 我 们 还 要 感 谢NVIDIA公司为我们的实验提供Titan XP GPU。高质量分割低质量分割GT我们GT我们GT我们GT我们灯百分之九十一点四袋百分之九十八点一灯35.5%袋百分之四十六点八滑板百分之九十二点二椅子96.0%滑板55.8%椅子41.6%方法平均整体IOURiemenschneider等人[30个]––42.3Martinovic等人[22日]––52.2Gadde等人[10个国家]68.578.654.4[29]第二十九话73.681.559.2美国有线电视新闻网(CNN)74.783.563.69639引用[1] I. 阿尔梅尼岛 Sener,A. R. Zamir,H. 江岛,澳-地布里拉基斯M. Fischer和S. Savarese大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集,第1534-1543页,2016年。1[2] J. L. 本 特 利 用 于 关 联 搜 索 的 多 维 二 叉 搜 索 树 。Communications of the ACM,18(9):509-517,1975.4[3] J. Bruna,W. Zaremba、A. Szlam和Y.乐存。图上的谱网络和局部连通网络。在2014年国际学习代表会议上。一、二、五[4] A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. Su等人ShapeNet:信息丰富的3D模型库。arXiv预印本arXiv:1512.03012,2015。1[5] T. S. 科恩,M 。 Geige r,J. Kohle r和M. 威林。球形cnns。在2018年学习代表国际会议上。3[6] B. De Brabandere,X.贾氏T. Tuytelaars和L.范古尔动态过滤网络。神经信息处理系统进展,2016。3[7] M. Defferrard,X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展,第3844-3852页,2016年一、二、五[8] M. Engelcke,D.拉奥,D. Zeng Wang,C.喜堂,以及I. 波斯纳Vote3Deep:使用高效卷积神经网络在3D点云中快速对象检测。在IEEE机器人与自动化国际会议上2017年6月。3[9] A. Frome,D. 胡贝河 Kolluri,T. Bu?low和J. 马利克使用区域点描述器识别范围数据中的对象。欧洲计算机视觉会议,第224-237页,2004年。3[10] R. 加德河谷汉帕尼河Marlet和P.诉盖勒使用自动上下文的高效2D和3D立面分割。IEEE Transactions on PatternAnalysis and Machine Intelligence , 40 ( 5 ) : 1273-1280,2018。七、八[11] B. Graham,M. Engelcke和L.范德马滕。使用子流形稀疏卷积网络进行3D语义分割。Proceedings of the IEEEComputer Vision and Pattern Recognition,第18-22页,2018年。7[12] T. 哈克尔 N. 萨维诺夫, L. 拉迪基, J. D. 韦格纳K. Schindler和M.波勒菲斯Semantic3D.net:一个新的大规 模 点 云 分 类 基 准 。 ISPRSAnnalsofthePhotogrammetry,Remote Sensing and Spatial InformationSciences,第91-98页,2017年。1[13] J. Huang 和 S. 你 使 用 3D 卷 积 神 经 网 络 标 记 点 云 。InICPR,pages 2670-2675,2016. 3[14] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统进展,2017-2025页,2015年。2[15] T. N. Kipf和M。威林基于图卷积网络的半监督分类。在2017年国际学习表征会议一、二、五[16] R. Klokov和V. Lempitsky逃离细胞:用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集,第863-872页。IEEE,2017年。一二六七八[17] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,1998. 1[18] J. Li,B. M. Chen和G. H.李你So-net:用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集,第9397-9406页二、四、七、八[19] Y.利河,巴西-地布,M。Sun和B.尘Pointcnn. 神经信息处理系统进展,2018年。二、四[20]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- USkin皮肤DLL调用模块
- gulp-peaches:用于 gulp 的桃子插件
- java_dashboard
- ASP采购管理信息系统(源代码).rar
- MastodonMirror:自动将您的Twitter帖子复制到Mastodon
- 绿色商务精英网站模板
- Library-Management-System:一个简单而基本的库管理系统,该系统使用Python创建并将数据存储在一个非常基本的日志文件中
- ZYtrans6.4.3.3.rar
- 苹果微宇宙
- code_quiz
- Icnspack-Builder:该工具是为创建OpenCore主题而设计的。访问BLOG
- V5-420_RTX实验_独立看门狗检测任务执行状态.7z
- 客户服务器用户登录例子
- 滤波器设计原理及代码之第2部分
- glamodon:用户脚本,可在Mastodon网站上添加图像滤镜,贴纸和图像调整工具
- 第14课
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功