基于层次点边交互网络的点云语义分割

165 浏览量更新于2023-10-12 收藏 7.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10433边缘分支点分部基于层次点边交互网络的点云语义分割李江1赵恒双1刘舒2沈晓勇2付志荣1贾佳雅1，21香港中文大学2腾讯优图实验室{李江，赵旭，周福，李佳}@ cse.cuhk.edu.hk{shawnshuliu，dylanshen}@ tencent.com摘要我们实现了3D语义场景标注，通过边缘探索每个点和它的上下文邻居之间的语义关系。除了用于预测点标签的编码器-解码器分支之外，我们还构造边缘第0层第1层第L层点预测边缘预测分支以分层方式集成点特征并生成边特征。为了在边缘分支中加入点特征，我们建立了一个分层图框架，其中图从粗层初始化，并沿着点解码过程逐渐丰富。对于最终图中的每条边，我们预测一个标签来指示两个连接点的语义一致性，以增强点预测。在不同的层，边缘特征也被馈送到相应的点模块，以集成上下文信息，用于局部区域中的消息传递增强。这两个分支相互作用，在分割中相互合作。在多个3D语义标注数据集上的实验结果表明了该方法的有效性。1. 介绍随着3D传感硬件的能力不断提高，现在在许多场景中可以轻松捕获3D数据。与2D图像相比，3D数据提供了关于环境的更丰富的信息。3D数据通常与视图无关，并捕获3D结构，从而可以在场景理解任务中包含几何信息。基于学习的方法[28，3，10，12，25，30，15]被提出来解决各种3D视觉问题，例如，形状分类、场景语义/实例分割和3D对象检测。与2D图像不同，在2D图像中，像素网格是规则的，具有对象颜色信息，3D对象数据分散，大部分空间实际上没有被占用。因此，直接体素化3D场景并将深度神经网络操作从2D扩展到3D是低效的。几种基于体素的方法，如子流形稀疏卷积[3]和O-CNN [23]，提高了3D卷积效率。然而，由于体素化是accom-图1.简单说明我们的框架。点分支和边分支一起工作以预测语义标签。自连接边和边方向被省略.在信息丢失的情况下，需要高分辨率的三维模型来保证数据的精度，尽管这需要消耗大量的内存和计算资源。从另一个角度来看，PointNet [10]直接处理网络中的3D点，只考虑3D点覆盖的区域。PointNet++ [12]进一步采用分层编码器-解码器结构来考虑局部区域，该结构首先在层中对点云进行下采样，然后逐渐将其插值到原始分辨率。由于点特征是由多层感知器（MLP）独立提取的，因此该框架只利用了每个点与其局部上下文之间的弱连接在分割任务中，众所周知，局部上下文对于标记语义类别至关重要。这促使我们进一步探索点与其局部上下文邻居之间的语义关系，以提取更多的用于3D语义场景标记的区分特征。我们的贡献为了探索局部区域中的点之间的语义关系并利用上下文信息，我们显式地构建点及其上下文邻居之间的边，并建立具有辅助边损失的分层边分支，如图1所示。具体来说，除了编码器 - 解码器点分支在PointNet++，我们的新的边缘分支接受来自不同层的点特征，并逐步产生边缘特征，然后馈送到点分支融合信息的局部图。对于每个点，相应的边缘特征提供了局部内在的几何和区域语义信息，以增强点的表示。而不是为每个区域中的点构建孤立的图形10434层，我们设计了一个层次化的图构造过程，将不同层的点特征逐步带入边分支。相邻层的边缘特征通过名为“边缘上采样”的算子连接。因此，全分辨率点云上的边缘对多层特征进行编码，为最终预测提供全面的数据。考虑到两个连接点的语义一致性，我们对最终的边缘特征进行正则化，这有助于提高类别间和类别内特征对之间的区分能力，隐含地将具有相同语义标签的点在特征空间中拉得更近。在大规模的场景标注数据集上，与现有的基于点的神经网络相比，我们的方法表现出了良好的StanfordLarge Scale 3D Indoor Space（S3DIS）[1]和ScanNet [2]的实验结果表明了该框架的有效性。2. 相关工作2.1. 3D表示为了处理3D数据，一种典型的方法是将数据存储在体积网格中并采用3D卷积[28，8，11]。由于大多数体素未被占用，因此子流形稀疏卷积网络[3]定义了一种稀疏卷积运算来处理空间稀疏的3D数据。另一方面，OctNet [13]使用非平衡八叉树表示数据类似地，O-CNN [23]使用八叉树在高分辨率3D数据上启用3DCNN。另一种方法是使用多视图2D图像，可以直接应用2D卷积[18，11]。然而，这些方法忽略了对象和场景中的几何结构，特别是视图遮挡的3D结构。其他方法[19，9]考虑3D对象表面并对其应用卷积以进行语义分析。2.2. 基于点的深度神经网络PointNet [10]是第一个直接处理3D点坐标的深度神经网络，使用MLP和最大池提取特征。由于最大池化是对所有点的全局操作，PointNet缺乏对局部区域的理解。PointNet++ [12]进一步应用了分层结构，并使用k-NN和最大池来捕获区域信息。由于它简单地通过最大池来聚合局部特征，因此区域信息尚未被充分利用。最近，已经作出了很多努力，有效的局部特征聚合。SPLATNet [17]将点映射到一个高维稀疏网格中，并对其执行卷积。RSNet [4]投影无序点的特征的特征向量的有序序列，并应用递归神经网络层来建模局部依赖dancy PointCNN [7]探索了点云上的卷积，并通过使用X-Conv操作器对输入点和特征进行排列和加权来解决点排序问题。此外，[16，22，27，26，24]的方法基于图探索局部上下文。基于图的方法ECC [16]将点云组织为图形，并使用图形卷积来动态学习权重以组合局部特征。DGCNN[26]提出了EdgeConv模块来生成边缘特征，这些特征描述了点与其最近邻之间的连接PointWeb [29]进一步连接局部区域中的每个点对，以获得更具代表性的区域特征。KCNet [14]创建k-最近邻图并应用核相关来学习点邻域上的局部结构PCCN [24]和PointConv [27]将每个点与其k-最近邻连接起来，并通过自适应地将两个点的相对位置投影到卷积权重，将卷积操作从规则网格扩展到不规则点云。与PCCN相比，PointConv还考虑了点分布密度。谱图卷积[22]在图形傅立叶变换后执行图形卷积Superpoint Graph（SPG）[6]将点云分割成几何上均匀的分区，并构建一个超级点图，然后使用图神经网络来生成语义标签。在我们的工作中，我们还提出了一个点云处理的图我们的方法与其他基于图形的框架的关键区别在于，不是固定图形和点分辨率（例如，PCCN [24]和KCNet[14] ）或在每个尺度上构建独立的图（例如，PointConv [27]，PointWeb [29]和ECC [16]），我们的图是分层构造的。我们构建了一个边缘分支，在该分支中，我们融合多尺度点特征并在多个尺度上传播边缘特征，以使消息在边缘上分层传递的距离更长，而不会产生较大的内存开销。此外，我们提出了边缘损失，旨在编码的边缘与准确的语义一致性信息，并增加与不同类别的点特征之间的区分能力。有意义的边缘特征，我们进一步饲料边缘特征到每个规模的点分支提供上下文信息。为了通过边缘传递消息，PointConv [27]和PCCN [24]自适应地从边缘学习权重以融合点特征，而KCNet [14]定义了点集内核和内核相关性以沿着边缘聚合局部特征。与这些方法不同的是，我们的方法将每个点特征与最大池对应的边缘特征联系起来。我们的方法需要更少的参数来学习，并保留了单个点特征的独特性（第4.4节提供了更多讨论）。10435|E L| ×* L（）索引78，9点模块跳过连接N ×C$NL ×C$NL1）×C$：串联N×C$编码级解码阶段））的方式点要素N% ×C%N% ×3点要素NL（）×CL（）NL（）×3L点要素NL×CLNL×3L1）⋯点要素N×CN×3N×Cl/00(a) 点分部(b) 边缘分支边缘模块|×K %| ×K % ⋯边缘特征边缘模块|×K L（）|× KL ()边缘特征边缘模块|×K L| ×K L ⋯边缘特征边缘模块|+| ×K边缘特征|+|图2.整体架构。N表示原始点云中的点数。N的下标是层索引。较大的索引指示具有更多点的层。C表示点特征通道的数量。K表示边缘特征通道的数量。E表示边集。边缘特征从最粗糙的层0开始编码，并且利用来自后面层的点特征逐渐细化。不同层中的边缘特征也参与相应的点模块以提供上下文信息。3. 我们的方法我们设计了一个层次化的边缘分支，与点预测分支协作，用于点云语义分割，如图所示二、我们逐步放大图形，对边缘特征进行上采样，并接受不同层中的点特征以细化边缘特征。然后，不同层中的边缘特征最终的边缘特征通过其两端点的语义一致性进行正则化，作为点特征的辅助监督。在本节中，我们首先介绍新的边分支，特别是在3.1节中的点和边分支之间的相互作用。然后，在第3.2节中描述了分层图构造框架，其使得能够集成第3.3节描述了每个点的类别预测和每个边的语义一致性预测的损失正则化。3.1. 边缘分支点功能：56L(a) 边缘模块：串联4L（1L，EL）点功能：56LNL ×$L上采样边缘特征L8E、9E给定具有N个点的点云，P ={pi，p2，… p N}，我们构造有向图G=（V，E），其中V=P并且E包括将每个点连接到其上下文点的边。这里，G是分层构造的，从粗到细的方式。我们将层L中的图记为GL。较大的L指示具有更多点的层，并且层0是具有最少点的最粗糙层。详细的图形构建过程将在后面的3.2节中描述。在这里，我们首先介绍了边分支的构成以及它与点分支的相互作用。如图对于点分支，我们遵循PointNet++ [12]来创建分层编码器-解码器结构，其中点编码器中的先前特征通过跳过连接连接到对应的点解码器层，从而传递详细的低级信息。对点云进行下采样，然后在中进行上采样(b) 用于单个边缘的图3.（a）边缘模块的架构。（b）（a）中的边缘编码器块。 KL和CL分别表示层L中的边缘和点特征中的通道编号。为了简单起见，我们仅在（b）中示出了针对单个边缘的边缘编码过程EL中所有边的边特征构成HEL。流程。同时，我们构建了一个边缘分支与连续的边缘模块，从相应的点模块和前一个边缘模块的功能。该过程是从粗线中提取边缘特征est层，以获取具有最大感受野的高级信息，并与点解码阶段并行地将点特征从更精细的层逐渐融合到边缘中。编码器层中的点特征也用于此过程中，以及与相应层的跳过连接NL×$LNL ×34L（）4L4L（1L（），EL（））（1L，EL）（1L，EL）边缘功能：萨伊湖/|×* L（）|×* L()|E L| ×* L（）边缘功能：L.S.L|E L| ×* L边缘编码器边缘上采样图构造=>d@>：ℝ×ℝ→ℝC C DL LEL=（H>FG=（）>FG边缘编码器78，9：L8⋮：L9边缘功能：L.S.L|E L| ×* L;L（）→8,9;L8,9池MaxMLPMLP点模块点模块;10436我我Ji、jLii，ji i李i j j i响应解码器层。虽然从较粗层的抽象全局特征和从较细层的详细信息都很重要，但用于边缘预测的最基本数据来自具有最精细点特征的最后一层。在此基础上，对边缘特征进行由粗到细的编码，最终融合最细层中的点特征。分层边缘特征也被馈送：串联边功能：E（跳过链接点要素以提供附加的上下文信息。3.1.1边缘模块在解码阶段，对于层L，我们将图表示为GL=（VL，EL）并且将点的数量表示为NL。edge模块接受L层点特征FVL和（L−1）层边缘特征HEL−1作为参数，并返回L层中的边缘特征。如图3（a）边缘模块表示为HEL=Mencoder（FVL，Mupsample（HEL−1）），其中，M编码器表示边缘编码器，并且M上采样是边上采样模块，它将图G L−1中的边特征映射到图G L。图构造和边缘上采样过程将在第3.2节中描述。对于每个边ei，j=（pi，pj）∈EL，其在层L处的边特征被写为图4. 点模块的体系结构。K_L表示L层边缘特征的通道号，而C_L表示L层点特征的通道号。3.1.2点预测中的边合并对于层L，图GL中的每一点都与其它的上下文点相连.因此，相应的边被期望将上下文信息传递回点。为此，相对于点pi的边缘特征通过最大池化作为区域引导来操作。设EL（pi）表示包含从pi开始的所有边的集合，对应的边特征集合为H E（p）={H L|（pi，pj）∈ E L（pi）}.（五）点特征FL然后通过以下方式更新：（F L）new=[F L，MaxPool（HE（p））]。（六）H L=M编码器（ FL，FL，HL-1→L），（2）图4给出了该过程的图示。通过在点特征中加入边缘信息，i、ji ji，j扩大消息传递范围。局部区域特征其中FLFL是pi和pj的点特征，允许点特征提取器分别 H L−1→L是从层L − 1到层L上采样的边缘特征。如示于图在图3（b）中，用于单个边缘的M编码器可以扩展为HL=f（1）（[f（2）（fedge（F L，F L）），HL−1→L]），（3）在每一层看得更远。附加的上下文信息，包括内在的几何形状和语义关系在局部区域中被并入到区域特征中，以有利于分割。我们尝试了其他的消息传递方案。第4.4节给出了更多的讨论。通过帮助另一个分支中的特征提取，i、jextexti ji，j并且边缘特征在最终预测中变得更强大其中[·，·]表示连接。特征提取器fext：Rn→Rm可以是任何可微函数。在我们的实现中，我们应用MLP作为fext。边缘函数fedge将其连接的两个点特征作为输入，并输出该边缘的特征我们将f_edge公式化为fedge（F L，F L）=[（pj−pi），F L，F L]，（4）其中[·，·，·]连接三个元素，并且这里表示3D点坐标。两个点特征被连接以完全保留两个点的信息此外，我们提供（pj−pi）来表示两点之间的相对位置。其他实施在实验部分讨论了f边缘的位置）L×*L）长×3点功能：1995年，）L23×（*L）L23×*L23）L23×3点功能：中国（67|E L| ×KL）L23×*423LMaxPool（E（（/0））点要素插值）L×（*L+KL）MLP104373.2. 层次图构造我们不是在每一层单独构建图，而是分层构建图，如图所示。5.通过设计3.2.1图形初始化如图5中，在最粗层（层0）中初始化图。初始图G0由下式构造：10438+L 1图构造+L图构造+图构造interpnenei′，neLL−1Lnei，jneL解码级最终Graph⋯ ⋯图5.分层图构造。该图在粗层中初始化，并通过考虑当前层中的点坐标和前一层中的图来逐步放大。将每个点与其最近的k连接起来点马特=在数学上，G0=（V0，E0）表示为：.V0=P 0，E={（p，p）|p∈ P，p ∈N（七）（p）}，0ij i0jk0我其中，P0是层0中的点集，其在编码层中利用最远点采样（FPS）从原始点集下采样。Nk0（pi）是点pi的k个最近邻的集合，包括它自己。3.2.2分层体系结构随着点特征的解码过程，我们逐渐扩大图，并丰富更多的细节的边缘特征。该过程如图所示。五、L层的图构造考虑两个相邻的��L层L−1从层L中层L中的边i，j层L−1和L，顶点为V和V 作为点集，��）的方式图层L−1中用于插值要素的在这些层中。图GL由下式构造：首先为V_L中的每个点找到k_L个最近邻居。标识 i，j的NN在层L−1（λ=3）：AFL��（a）（i）（j）��i、j设G（0）=（VL，E（0））表示这样的初始L层图.L L对于每个边ei，j=（pi，pj）∈E（0），我们认为由层L−1中的可能相邻边组成的集合为图6. 边缘上采样的演示。层L−1(blue也存在于层L中。自连接边将被省略。对于层L中的边缘ei，j，我们在层L中传播边缘特征。EL−1（e）={（p′，p′）|p′∈N L−1（p），p′∈N L−1（p）}，通过在EL-1中找到它的相邻边并插值内我，j我jikijkj这些边缘的特征。红色箭头表示GL−1中的边其中NL−1（pi）<$VL−1是pi∈的k-最近邻插值，表示EL−1的交点（蓝色箭头）K层L−1中的V。p包含在NL−1（p）中，如果p∈V。和EL−1（e i、j）（黄色箭头）。L iki i L−1然后我们检查E L−1（e i，j）中的边是否存在于EL−1中-G L −1的边集。如果边ei，j连接两个遥远的点，即使在较粗的层L-1中，在PointNet++ [12]中，层L中pi的点特征通过在层L-1中对其k个最近邻居的特征值进行插值来从层L-1传播，如下所示：两个对应区域之间没有联系，我们FL−1→L=fp（{F L−1|p（1）N（p）{\displaystylen（p）}。（八）在层L中不考虑边缘。因此，如果我InterpjjkiE L−1（e i，j）<$E L−1=<$，从E（0）中丢弃边e i，j。类似地，我们将层L-1中的边缘特征传播到层根据这一原理，最终的图GL=（VL，EL）有一个边缘集，L作为L−1→L eL−1L−1EL= [pi∈VLEL（pi），Hi，j=finte rp（{Hi′，j′|（pi′，pj′）∈Ene（ei，j）<$EL−1}）。图中给出了演示。六、插值权重基于逆分布，其中，EL（pi）（从pi开始的边）表示为两对端点的距离。对于HL−1，重量EL（pi）={（pi，pj）|pj∈NkL（pi），EL−1（ei，j）<$EL−1Ø}。被配制为1第0N0 ×3层（−11×3层（NL×3100 ×3点模块点模块点模块+0图形初始��AFL��10439注意，在一些极端情况下，至少ei，i在EL（pi）中被保留例wi′，j′=（pi−pi′t+）·（pj−pj′t+）、（9）10440我i、ji、ji、ji、jep其中 p i′，pj′∈VL−1 ， p i ， pj∈VL 表示点坐标，n=1e−8，t设为2。然后将权重归一化为nwi′，j′4.1.实现细节点分支包含具有四个下采样层的编码器和具有四个上采样层的解码器图中的点数N、N、N、N、N=Nwi′，j′=Σ.（十）0 1 2 3 4（p′′，p ′′）∈EL−1（e）wi′′，j′′解码器分别为16、64、256、1，024和4，096。I j3.3.损失函数内我，jL−1边缘分支具有五个块，其中k（最近邻的数量）从层0到4被设置为4、6、10、14、16k是我们将点和边分支与两个分支上的组合损耗一起优化为L=λ1L点+λ2L边缘，（11）其中λ1和λ2调整两个损耗的比率分失利最后一个点要素之后是MLP产生逐点语义预测。我们毛皮-然后使用最终的边缘预测作为权重来聚合点分数并得到细化的点预测。交叉熵损失用于约束点预测。边损失最终图G中的边特征由边标签正则化，边标签表示边的两端点是否在同一类别中。边ei ， j=（pi，pj）∈E的标签设置为：. 1、如果lp=lp对于点和边缘特征插值，选择3。整个网络使用SGD优化器以端到端的方式进行训练，批量大小为16，基本学习率为0.05。对于S3DIS，我们训练网络100个epoch，每25个epoch将速率衰减0.1。对于ScanNet，我们训练网络120个epoch，每30个epoch衰减0.1动量和重量衰减分别设置为0.9和0.0001。4.2. 数据集S3DIS数据集[1]有6个区域，总共271个房间。每个房间都提供与RGB信息点。每个点都有一个来自地板、窗户、门等13个类别的语义标签。在每次训练迭代中，我们在训练区域中随机采样块，每个块随机选择4，096个点。我们将块大小设置为0。8m×0. 8米，0。1米填充。我们代表每一个i，j=我0，如果LpJ.（十二）J作为具有XY Z、RGB和规格化的9D矢量的点房间里的位置测试区域中的所有点都用于其中，lp和lp是pi的点语义标签，评价采用两种设置[20，6，7]：（i）分裂I jpj.采用MLP来产生每边缘预测。二进制交叉熵损失被选择用于边缘损失，区域5作为测试集，并使用其他区域进行训练;及（ii）采用6折交叉验证，6个区域中的每一个L边缘=−1|E|Σei，j∈Eei，jlog（prede）+α（1−le）log（1−prede））的情况下，作为测试集一次。ScanNet v2的数据集具有1,613扫描与其中prede（十三）是ei、j和α平衡的边缘预测训练/验证/测试 1201/312/100的分割不包括“未注释”点，扫描中的这两种边缘，因为考虑到局部邻域，类内边缘比类间边缘多。每个边缘的最终边缘特征可以被认为是作为两个区域特征的函数，两个端点。考虑了来自不同层的信息。最后通过编码保留了更多的细节信息。因此，边缘损失引导边缘编码器寻找类内和类间特征对之间的差异，并且隐式地用作点特征的辅助监督。它增加了不同类别中的点特征之间的区分能力。此外，与边缘监督，更准确的上下文信息被传递到点通过边缘，以增强点的功能。4. 实验我们在两个具有代表性和挑战性的大规模场景标记数据集上进行了实验，即S3DIS [1]和ScanNet v2 [2]，在ScanNet v2值集和S3DIS区域5上显示消融分析。LL（l）10441墙面、浴帘等20大类标签为了准备输入数据，我们遵循之前的工作[12]，在房间中随机采样块，每个块采样4，096个点。我们再次使用0。8m×0. 8m块大小，0的情况。1米填充。此处，每个输入点要素都是一个6D矢量（XY ZRGB）。我们对验证集和测试集进行了评估。由于测试集的语义注释不公开，我们将预测提交给官方服务器以获得评估结果。它包括类间交大于并的平均值（mIoU）、类间准确度平均值（ mAcc ）和点间总体准确度（OA）。4.3. 主要结果表1列出了S3DIS区域5上不同方法的定量结果。与以前的方法相比，我们在所有三个指标方面都获得了最高的分数。具体而言，我们的模型产生mIoU 61.85%，超过前者最好的3.58%。表2显示了比较结果10442Ijj ji方法OAMACCMiou天花板地板壁束柱窗口门表椅子沙发书柜板杂波PointNet [10]-48.98 41.0988.80 97.33 69.80 0.053.9246.2610.76 58.93 52.61 5.8540.2826.38 33.22[20]第二十话 -57.35 48.9290.06 96.05 69.86 0.0018.3738.3523.12 70.40 75.89 40.8858.4212.96 41.60美国有线电视新闻网[7]85.91 63.86 57.2692.31 98.24 79.41 0.0017.6022.7762.09 74.39 80.59 31.6766.6762.05 56.74SPGraph [6]86.38 66.50 58.0489.35 96.87 78.12 0.0042.8148.9361.58 84.66 75.41 69.8452.602.1052.22PCCN [24]-67.01 58.2792.26 96.20 75.89 0.275.9869.4963.45 66.87 65.63 47.2868.9159.10 46.22我们的方法87.18 68.30 61.8591.47 98.16 81.38 0.0023.3465.3040.02 75.46 87.70 58.4567.7865.61 49.36表1.在S3DIS Area 5上评估的语义分割结果大多数方法在“梁”类别上表现不佳图7.S3DIS数据集上语义分割结果的可视化PointNet [10]78.566.247.6RSNet [4]-66.4556.47SPGraph [6]85.573.062.1美国有线电视新闻网[7]88.1475.6165.39我们的方法88.2076.2667.83表2.S3DIS数据集上的语义分割结果，具有6重交叉验证。在不同的架构之间进行6重交叉验证。我们的也达到了所有三个项目的第一名。表 3 列出了我们的框架和其他基于点的方法在ScanNet v2测试集上的结果。所有方法都只使用RGB颜色的点云作为输入，而不进行体素化。我们的方法远远优于其他方法：6.2%表3.ScanNet v2测试集上的语义分割结果在区域1-4 6上进行培训，并在区域5上进行评估。边缘函数我们探讨了不同的方式incorpo- rating点的信息到边缘，包括减法，求和，阿达玛产品，这里绝对mIoU更高，相对更好11.2%视觉结果示于图1A和1B中。7和8我们的方法分割对象，即使在复杂的场景。值得注意的是，f_edge（F_L，F_L）=[（pj−p i），F L，（F L− F L）].（十四）详细的结构被分类并从周围分割出来，显示了我们的方法的有效性。4.4. 消融研究对于ScanNet v2，模型在训练集上进行训练，并在验证集上进行评估。对于S3DIS，模型为表4显示了结果的比较。总的来说，concate-由于保存了大多数点信息，所以国家产生最佳结果。求和、减法和阿达玛积都在点要素层次上造成信息损失。 ‘ConcatSub’ achieves similar performance withConcatenation, since the two-point features can be方法OA mAcc Miou输入方法mIoUPointNet++[12]33.9[17]第十七话美国有线电视新闻网[7][27]第二十七话我们地面实况10443图8.ScanNet v2数据集上语义分割结果的可视化方法MiouMACCOA减法58.31 /58.8567.95 /65.6684.02 /86.44求和57.86 /58.9667.25 /65.8783.69 /86.48Hadamard积59.07 /58.7968.02 /65.2785.31 /86.16ConcatSub63.09 /59.3771.82 /66.1986.12 /86.53级联63.36/61.8572.61/68.3086.13/87.18表4.ScanNet v2和S3DIS上边缘函数fedge的消融研究结果结果以ScanNet v2 /S3 DIS格式显示。两个数据集上的消融具有相似的观察结果。AdaAggre（w. softmax）AdaAggre（w.o.softmax）56.4455.0166.1764.1283.0682.67MaxPool + Concat63.3672.6186.13表5.信息通过边传递的消融结果除了第3.1.2节中描述的方法之外，我们还试验了另一种受图卷积[5，21]启发的方案，其中边缘特征被进一步编码以形成链接点的权重。然后，将点特征更新为相邻点特征的加权和。我们将此方案表示为自适应聚合（ AdaAggre ），并测试两种设置，有和没有softmax，用于权重。表5列出了ScanNet v2验证集的实验结果。图卷积风格方法的性能增益低于最大池化后的关联。这可能是因为在点解码期间对于在每个局部邻域中混合点特征不是很有帮助。相反，组合的上下文特征揭示了点与其邻域的关系。它可以更好地保持点层次图的构造和边的上采样我们通过边的上采样建立相邻层的边特征之间的连接。我们还在ScanNet数据集上进行了实验，去除了分层图的构建，并在没有边缘上采样的情况下单独构建了每一层的图。mIoU/mAcc/OA（%）结果分别为57.01/66.52/83.57 ，远低于我们的完整框架63.36/72.61/86.13。连接的边缘分支最佳地结合了不同层中的点特征，使得能够有效地学习边缘特征。5. 结论我们设计了一个层次化的点-边交互网络，其中提出了一个边分支与编码器-解码器点分支一起工作，提出的层次图框架使边分支能够逐步集成不同层的点特征.此外，生成的边缘特征被合并到点分支中以提供上下文信息。最终的边缘特征由相关点的语义一致性来监督，以隐式地调整点特征。所有这些步骤使得语义关系与本地上下文很好地利用边缘。由于高质量的点预测结果和适用于不同数据集的框架的通用性，我们相信所提出的方法将广泛有益于社区中的3D理解。在未来，我们将探索多范围边缘构建，以收集近距离和远距离的上下文信息。鸣谢本研究项目获香港特别行政区研究资助局（CUHK 14203416 14201918）部分资助。方法mIoU mAcc OA我们输入地面实况10444引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的3D语义解析。在CVPR，2016年。[2] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber，ThomasFunkhouser，andMatthiasNießner.ScanNet：室内场景的丰富注释3D重建。在CVPR，2017年。[3] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。CVPR，2018年。[4] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云3D分割的递归切片网络。在CVPR，2018年。[5] Thomas N Kipf和Max Welling基于图卷积网络的半监督分类。在ICLR，2017。[6] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR，2018年。[7] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen. PointCNN：X变换点上的卷积。在NIPS，2018年。[8] Daniel Maturana和Sebastian Scherer。VoxNet：用于实时对象识别的3D卷积神经网络。InIROS，2015.[9] 潘昊，刘士林，刘阳，童欣。使用平行框架的3D表面上的卷积神经网络。arXiv：1808.04952，2018。[10] Charles Ruzhongtai Qi ， Hao Su ， Kaichun Mo ， andLeonidas J. Guibas PointNet：用于3D分类和分割的点集深度学习。在CVPR，2017年。[11] Charles Ruizhongtai Qi ， Hao Su ， Matthias Nießner ，Angela Dai，Mengyuan Yan，and Leonidas Guibas.用于3D数据对象分类的体积和多视图CNN。在CVPR，2016年。[12] Charles Ruzhongtai Qi，Li Yi，Hao Su，and Leonidas J.Guibas PointNet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。[13] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。OctNet：以高分辨率学习深度3D表示。在CVPR，2017年。[14] 沈亦儒、陈锋、杨耀青、田栋。基于核相关和图池的点云局部结构挖掘在CVPR，2018年。[15] Shaoshuai Shi ， Xiaogang Wang ， and Hongsheng Li.PointRCNN ：从点云生成和检测 3D 对象提案。在CVPR，2019年。[16] Martin Simonovsky和Nikos Komodakis。图上卷积神经网络中的动态边缘条件滤波器。在CVPR，2017年。[17] Hang Su ， Varun Jampani ， Deqing Sun ， SubhransuMaji，Evangelos Kalogerakis，Ming-Hsuan Yang，andJan Kautz. SPLATNet：用于点云处理的稀疏网格网络。在CVPR，2018年。[18] Hang Su，Subhransu Maji，Evangelos Kalogerakis，andErik G.学习米勒。用于3D形状识别的多视图卷积神经网络。在ICCV，2015年。[19] Maxim Tatarchenko，Jaesik Park，Vladlen Koltun，andQian-Yi Zhou. 用于 3D 中密集预测的切线卷积。在CVPR，2018年。[20] 放大图片作者：Lyne P. Choy，Iro Armeni，JunYoungGwak，and Silvio Savarese.SEGCloud：3D点云的语义分割。在3DV，2017年。[21] PetarVelicˇko vic´ ， GuillemCucurull ， ArantxaCasanova ，Adriana Romero，Pietro Lio，and Yoshua Bengio.图注意力网络。在ICLR，2018年。[22] Chu Wang，Babak Samari，and Kaleem Siddiqi.用于点集特征学习的局部谱图卷积。在ECCV，2018。[23] Peng-Shuai Wang，Yang Liu，Yu-Xiao Guo，Chun-YuSun，and Xin Tong. O-CNN：用于3D形状分析的基于八叉树的卷积神经网络。ACM TOG（SIGGRAPH），36（4）：72：1[24] Shenlong Wang ， Simon Suo ， Wei-Chiu Ma ， AndreiPokrovsky，and Raquel Urtasun.深度参数连续卷积神经网络。在CVPR，2018年。[25] Weiyue Wang，Ronald Yu，Qiangui Huang，and UlrichNeumann. SGPN：用于3D点云实例分割的相似性组建议网络在CVPR，2018年。[26] Yue Wang，Yongbin Sun，Ziwei Liu，Sanjay E Sarma，Michael M Bronstein，and Justin M Solomon.用于点云学习的动态图CNN。ACM TOG，2019年。出现[27] 吴文轩，齐忠昂，李福新。PointConv：3D点云上的深度卷积网络。在CVPR，2019年。[28] Zhirong Wu ，Shuran Song， Aditya Khosla ，LinguangZhang ， XiaoouTang ， andJianxiongXiao.3DShapeNet：体积形状建模的深度表示。CVPR，2015。[29] Hengshuang Zhao，Li Jiang，Chi-Wing Fu，and Jiaya Jia.PointWeb：增强点云处理的局部邻域特征。在CVPR，2019年。[30] 尹周和昂塞尔·图泽尔。VoxelNet：基于点云的3D对象检测的端到端学习。在CVPR，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载