基于上下文融合的三维递归神经网络点云语义分割

73 浏览量更新于2023-10-13 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于上下文融合的三维递归神经网络点云语义分割叶小青1、2[0000−0003−3268−880X]、李家茂1[0000−0002−7478−4544]、何晓黄3，杜亮1， 2，张晓林11中国科学院上海微系统与信息技术研究所2中国科学院大学，中国北京{qingye，jmli} @ mail.sim.ac.cn3上海开放大学科技学院，中国抽象。三维非结构化点云的语义分割是一个开放的研究课题。最近的工作预测语义标签的三维点凭借神经网络，但考虑到有限的上下文知识。在本文中，提出了一种新的端到端的非结构化点云语义分割方法，命名为首先，研究了有效的逐点金字塔池化模块，通过考虑多尺度邻域来捕获不同密度下的局部结构然后，双向分层递归神经网络（RNNs）被用来探索长程空间依赖性。每个回流层将从展开的单元导出的局部特征作为输入，并且沿着两个方向连续地扫描3D空间以集成结构知识。在具有挑战性的室内和室外3D数据集，所提出的框架表现出强大的性能优于国家的最先进的。关键词：3D语义分割·非结构化点云·回流神经网络·逐点金字塔池1介绍由于场景理解在自动驾驶、机器人导航、增强现实和三维重建等领域的重要作用，场景理解已经得到了广泛的研究。尽管在深度学习策略的帮助下，语义分割领域取得了巨大进展，但大多数方法都能处理2D图像[1-3]，而非结构化点云的3D语义分割仍然存在。由于其点数据规模大、形状不规则、密度不均匀等特点，使得点云计算成为一个具有挑战性的问题。以前的基于学习的尝试主要集中在正则化输入点云形状，以便借鉴2D语义分割网络的经验。例如，首先通过体积占用网格表示对点进行体素化，并且采用3D卷积神经网络（CNN）来2X. Ye et al.学习体素级语义。由于点云的稀疏性，体素化是低效的，并且为了避免高计算成本而错过了精细细节此外，由于同一体素内的所有点都被分配有相同的语义标签，因此准确性受到限制为了利用2D框架，还学习了在3D空间的多视图处拍摄的2D图像的快照，然而，重新投影回到3D空间也是一个不平凡的问题。第一个直接在3D点云上操作的先锋作品PointNet最近提出[4]。在没有体素变换的情况下，该架构保留了原始点内的固有信息以预测点级语义。PointNet利用多层感知器（MLP）来学习每个点的高维局部特征。然后通过对称最大池化方法对局部特征进行聚合，得到对点的排列不变性的全局特征。然而，该架构有两个限制，限制其性能更大，更复杂的点云。一方面，只有逐点特征与池化的全局特征一起被集成，未能捕获由相邻点表示的局部结构。另一方面，首先将点云细分为小的体积块，并且每个块独立地预测而没有任何连接。因此，PointNet的整体精度在复杂场景中受到限制为了解决第一个问题，我们采用一步金字塔池来聚集多尺度邻近知识，因为它的非参数特性和扩大感受野的效率。而不是像PointNet那样复制所有点的全局池化特征，我们执行逐点池化，每个点由特定的金字塔局部特征表示。注意，鉴于保留细粒度的细节，我们采用单步长多窗口池化而不是多步长固定窗口池化单元关于第二个问题，我们通过两步分层RNN模型进一步整合了长距离上下文。具体地，首先将点云分别沿着两个水平方向（即，X和y）细分成部分重叠的块。第一组RNN被应用于沿x方向的块，其根据长依赖性相邻块更新状态和输出。接下来，从第一RNN集合导出的特征被进一步沿着y方向馈送这是因为相邻的对象或大对象表示一些固有的上下文连接，这有助于解决歧义。例如，椅子通常靠近桌子，窗户通常在墙内。在具有挑战性的点云数据集上的实验结果表明我们的策略大大提高了3D语义分割的准确性。综上所述，我们工作的主要贡献如下：- 我们提出了一种新的端到端的框架，非结构化点云语义分割，结合本地空间结构以及长期依赖的上下文。逐点金字塔池化（3P）模块以可忽略的额外开销提高了整体准确性。- 我们引入了一个双向分层RNN模型来学习长距离空间上下文和尖云语义段的内在联系三维递归神经网络在点云语义分割中的应用3第据我们所知，这是第一次研究双向策略RNN模型来执行3D语义分割任务。- 我们的框架在室内和室外3D语义数据集上呈现了新的最先进的性能。2相关工作传统的点云语义分割算法在很大程度上依赖于手工制作的特征和精心设计的优化方法，有时需要预处理和后处理策略来实现更好的性能。在这项工作中，我们主要关注与我们的工作更相关的深度学习策略。受室内数据集NYU V2 [5]，S3DIS [6]，ScanNet [7]和室外数据集Semantic.3D [8]，KITTI [9]，vKITTI [10]等大量3D场景数据集的启发，近年来点云处理取得了很大进展然而，由于3D几何数据的不规则性和不一致的点密度，经典的CNN无法直接处理点云数据输入。因此，针对这一问题制定了一些替代方案基于体素的3D CNN：为了表示3D几何形状，首先将点云转换为规则的体积占用网格，然后通过3D CNN进行训练，以产生体素级预测[7，11，12]。然而，由于3D数据的稀疏性，均匀的3D布置是低效的。此外，由于3D卷积的计算比2D卷积昂贵，体素大小被约束到相对小的大小，因此，将这种架构扩展到大规模点云是具有挑战性的。利用不平衡八叉树来解决稀疏性问题，这允许以更高的分辨率训练3D CNN[13]。SEGCloud将大云子采样为体素，并通过三线性插值和条件随机场进行后处理[14]。然而，所有基于体素的方法都无法实现点级精度。多视图CNN：另一种方法是将3D点云投影到多个视图的2D图像渲染中，并应用精心设计的2D CNN [2，15-17]来联合分类它们。多视图CNN（MVCNN）[18]是在基于图像的分类网络之上设计的，它通过视图池集成了围绕3D网格对象拍摄的视图。引入了3D空间中的多分辨率滤波，以进一步提高多视图CNN的性能[19]。S-napNet [20]以RGB和深度图像对的形式在3D场景周围生成快照，并应用2D神经网络来单独处理它们。ly. SnapNet-R [21]通过直接处理大量视图中的RGB-D快照来改进SnapNet的基线工作，以实现密集的3D点标记。然而，2D快照打破了3D数据内的固有关系，因此无法显示3D数据。充分利用3D空间背景的力量。此外，它不够直接，需要额外的2D到3D重新映射。无序点集上的深度学习：PointNet [4]是第一个直接在原始点集上工作以生成每个点类的体系结构。逐点特征和聚合的全局特征被连接以使得4X. Ye et al.要点-局部特征特征yC…C…共享输入点云逐点金字塔池化特征融合X双向RNN输出标签评分MLPMLPC：连接MLP…MLPFig. 1. 拟议方法概述。该体系结构将非结构化点云作为输入，并输出逐点语义标签。点特征和局部单元特征被级联并沿着x和y通过双向RNN模块。第一个RNN的输出（黑色箭头）被重新组织并馈送到下一个RNN（红色）。有关逐点金字塔池化的详细信息，请参见图。二、逐点预测然而，缺乏相邻上下文结构限制了复杂场景的分割性能为了克服这一缺点，分层方法PointNet++[22]被设计成更好地捕获局部结构并推广到可变密度。同样受到最近PointNet工作的启发，利用多尺度窗口或相邻单元位置由于提取点特征的效率，PointNet框架被进一步扩展以学习局部形状属性[24]以及从RGB-D数据预测3D对象检测[25]。图神经网络（GNN）被用来在3D点上传播然而，k最近邻图中的每个节点需要额外的2D外观特征用于初始化。最近的GNN工作通过超点图捕获了点云的结构，该超点图将各种对象划分为简单的形状，并将分割标签分配给作为整体的每个部分[27]。GNN通过在相邻节点上的消息传播迭代地更新在实现方面，动态模型可以实现为递归神经网络。3基于上下文融合的所提出的框架从PointNet [4]中获得灵感，在下面的部分中对其进行简要回顾。基线扩展了两个独特的改进，以学习本地和长期依赖的空间上下文，以获得更好的性能。一方面，提出了逐点金字塔池化模块来学习多尺度相邻上下文。虽然简单，但由于非参数池化单元，它比[22，23]中的多尺度输入上下文聚合更有效。另一方面，双向RNN模型利用了长距离上下文，这使得网络能够在大规模点云中学习空间上下文。我们的方法的概述如图所示1.一、三维递归神经网络在点云语义分割中的应用53.1关于PointNet在普通PointNet工作中，给定一组非结构化3D点{p1，p2，…p N}，其中pi∈Rd，它们首先被划分成小的重叠的3D块，并且每个块被独立地处理。利用多层感知器（MLP）来学习每个点的高维空间编码，即，逐点特征。块特征是通过在同一块内通过单个最大池化来聚合逐点特征而获得的，即，全球特征。然后，针对N个图块复制全局特征，并将其与对应的逐点特征连接以产生最终预测分数。PointNet的操作可以表示为F（p1，p2，…p（N）=MLPi =1，…N.C{maxpool{MLPi =1，…N （pi）}，MLPi=1，…NΣ（pi）}（一）当C表示不存在并行操作时，从1到N的点的索引在MLP之下表示MLP操作是逐点的。然而，语义分割性能受到缺乏相邻结构和长范围上下文的限制3.2逐点金字塔池化在这项工作中，我们提出了一个简单而有效的策略来捕获本地neighboring上下文鲁棒密度。由于PointNet中残酷的全局最大池化，它很容易丢失细节并导致歧义。在[22]中，利用到某个点的半径内的点的多尺度分组和多分辨率分组来学习结构信息。或者，在[23]中采用多尺度和多网格输入上下文来计算这两种策略捕获多尺度局部结构的间接和复杂的融合策略，以及额外的计算为代价。与采用各种步幅的经典2D池化单元不同，我们采用了受[28]启发的具有多大小池化窗口的逐点金字塔池化（3P）模块。这是因为步长大于1的池化模块可能会导致分辨率损失并妨碍密集预测的准确性。具体来说，给定一组无序点，我们首先将整个三维空间沿地平面划分为1.5m×1.5m的块。每个块都被延伸以覆盖整个房间的高度。金字塔池是在具有不同数量点的邻域中完成的。而不是搜索每个点的k-最近邻居，相反，我们采用了一种近似但更有效的方式，利用长方体的多个尺度。换句话说，我们进一步将每个块细分为不同尺度的更小的长方体。在每个尺度下，采用具有对应的池化窗口大小的单步长最大池化模块。例如，如果窗口大小为N，则我们随机选择相应长方体内的N个3P池化可以表示为P（p1，p2，…p N）=ΣΣmaxpool（f，k1），...， maxpool（f，k m）（二）p = p1，.，pNp= p1，…，pN6X. Ye et al.：不同大小：相当于：一步输出：F1F2F3NF1NF2NF3输入：N图二. 逐点金字塔池化。给定N×D个输入特征，每个池化输出具有相同数量的输入点（一步）的特征，然后进行连接。其中k，i表示一步池化窗口大小。f表示由MLP学习的高级与Eq相比1，我们移动点集范围{p = p1，p2，...， p N}从最大池化操作内部到外部，因为Eq. 1达到一个单一的输出为所有点内的块，而我们在方程。2产生与输入向量相同大小的输出特征，即逐点。在我们的架构中，采用的窗口大小分别为N，N/8和N/64然后，将获得的粗到细池化特征通过单个卷积层集成，用于后续的RNN阶段。我们的一步3P模块的示意图如图所示. 2.由于它的非参数特性和效率，它能够实现优化的准确性和成本之间的权衡。3.3用于上下文集成的递归神经网络受RNN模型在2D语义分割中的成功应用的推动[29-32]，我们引入了我们的双向分层RNN模型用于3D点云标记，以利用长距离空间依赖性。w孔3D空间在地平面上沿着X和y方向被分成均匀间隔的块，即，Lx×Ly。由于其在垂直方向上的高度稀疏性和相干性，沿垂直轴的空间保持未分割。详细的流水线如图所示。3.第三章。原始输入点特征和金字塔池化模块的输出首先被级联以被视为RNN模型的输入本质上，如果我们在先前的逐点金字塔池化模块中添加窗口大小等于1在图1中，为了清楚地描述，我们仍然呈现级联操作。管道包括两个阶段。在第一阶段（图中的黑色3），我们只考虑通过将同一y索引内的Lx个小块作为一个整体耦合来沿x方向的空间连接注意，每个循环组的操作是独立的，并且可以并行实现。将展开从与每个块内的池化要素连接的点要素中派生的要素三维递归神经网络在点云语义分割中的应用7输入输出XN- 方向RNLyyyy方向RNN的输出Ly…LyLy重组输入XLx重新组装…LxXLxMLPRNN单元图3.第三章。我们的双向分层RNN模块的流水线。输出第一对于第二y方向RNN的输入，重新组装x方向以形成相应RNN单元的序列。在每个时间步长（对应于沿着相同y索引的每个小块），每个RNN将级联块特征作为输入，并且基于来自其先前相邻块的先前状态来如下更新新状态：O i，j，S i，j= f（x i，j，S i−1，j），其中i = 1，...，L x（3）其中，xi，j，Si-1，j表示某个块的当前输入和先前状态，Oi，j，Si，j分别表示输出和更新状态。由于递归层以多对多模式操作，因此指示仅在整个输入序列已经通过递归层之后才返回完整的输出，该递归层能够沿着X方向学习长程依赖性具体来说，每个一维递归层可以简单地实现为多个LSTM [33]或GRU [34]，在我们的工作中采用了多个LSTM在所有的点被扫过x维之后，针对每个小块获得的全新特征被用作下一阶段的输入。在第二阶段中，我们重新组合的功能，以考虑沿y方向的空间相关性。具体地，对于沿着y维度的每个递归层，相同X索引的块特征被展开并组成以形成新序列。换句话说，在第二阶段中存在LXRNN层，每个RNN层由Ly个类似地，在每个时间步，我们继续读取一个元素并异步更新状态，如下所示：Oi，j，Si，j=f（x~i，j，Si，j-1）Ly（4）其中，x~i是从第一个存储中提取的已更新数据。在其他情况下，将从X方向RNN得到的特征作为y方向操作的输入。在沿着地平面的两个方向都被处理之后，我们获得了来自于整合本地和远程空间上下文知识的更新特征。特别是，我们不打破每个块内的固有连接。相反，我们的模型学习共享远程知识，通过propa-gating沿两个方向分层相邻的功能。注意一个8X. Ye et al.也可以堆叠更多的递归层来处理额外的方向，考虑到内存和速度，我们然后，基于RNN的模型的输出特征与原始输入特征（包括逐点特征和局部池化特征）相连接，以预测每个点的最终标签。4实验结果4.1数据集和评价标准在本节中，主要对以下具有挑战性的数据集进行评价：斯坦福大学大规模3D室内空间（S3DIS）[6]，ScanNet [7]，以及户外vKITTI [10]，KITTIRaw [9]和3DRMS挑战赛[35]。S3DIS数据集是一个室内三维点云数据集，包括源自三个不同建筑物的六个大规模室内区域，总覆盖面积超过6，000平方米，涉及十三个语义类。ScanNet数据集包含超过1500个扫描的3D室内场景和21个se-mantic类。从[7]借用实验设置，将数据集分为4：1分别用于训练和测试。vKITTI数据集是模仿真实世界KITTI数据集的合成大规模户外数据集，在城市场景中具有13个语义类。通过将2D语义标签投影到3D空间来获得带注释的点云。KITTI Raw数据集包含不含颜色信息的稀疏Velodyne LiDAR点云。由于缺乏语义基础事实标签，它不能用于监督训练。然而，密度与vKITTI相当，我们利用它进行泛化验证。为了进行评估，我们报告了室内和室外数据集的定量和定性结果。在我们的实验中使用的评估度量是：所有类上的平均交集超过并集（mIoU）、每类IoU、平均每类准确度（mAcc）和总体准确度（OA）。具体地，IoU可以被计算为TPIOU= （T+P−TP）（五）其中TP是真阳性的数量，T是真实阳性样本的数量，P是属于该类别的预测阳性的数量。4.2实现细节对于S3DIS数据集，与PointNet采用9维表示不同，我们模型中的每个点仅用6维向量表示，以减少计算成本，即归一化XYZ和RGB。后续的实验结果也验证了我们模型中的6维输入已经比PointNet中的原始9维向量表现得更好。在训练过程中，每个房间沿水平方向被分成大小为1.5m×1.5m的重叠块，没有高度限制，每个块包含6400个点。期间不执行重叠三维递归神经网络在点云语义分割中的应用9表1. S3 DIS数据集与XYZ-RGB输入的比较结果。参考文献的IoU数据来自[23]和[27]。上部结果在6倍上取平均，下部结果在两个建筑物上训练并在区域5倍上测试给出了每个类的并上交方法OAmAcc mIoUA5 PointNet [4]-49.041.188.897.369.80.053.9249.310.7658.952.65.840.326.333.22A5 SEGCloud[14]-57.448.990.196.069.9018.438.323.170.475.940.958.413.041.6A5 SPG [27]85.161.754.791.597.975.9014.251.352.377.486.440.465.57.2350.7A5我们的85.7 71.353.495.298.677.40.809.8352.727.978.376.827.458.639.151.0PointNet[4]78.566.247.688.088.769.342.423.147.551.654.142.09.638.229.435.2MS+CU [23]79.259.747.888.695.867.336.924.948.652.351.945.110.636.824.737.5G+RCU[23]81.166.449.790.392.167.944.724.252.351.258.147.46.939.030.041.9SPG [27]82.964.454.192.295.071.933.515.046.560.969.465.038.256.86.8651.3我们86.9 73.656.392.993.873.142.525.947.659.260.466.724.857.036.751.6test.所提出的逐点金字塔池化模块的参数设置如下：4个池化层，具有对应的窗口内核大小1、N/64、N/8、N.对于双向分层RNN模型，我们将每个方向的时间步长设置为6。每个RNN单元的隐藏单元大小为128。对于ScanNet [7]，我们通过去除RGB特征仅利用几何信息进行实验。此外，利用加权交叉熵损失来解决不同类别之间样本不平衡的挑战。为了与PointNet++[22]保持公平比较，我们还在ScanNet实验中对所有方法执行对于vKITTI数据集[10]，使用XYZ-RGB和仅使用XYZ输入进行实验。对于所有实验，模型由Adam优化器[36]优化，初始学习率为0.001，批量大小为24。4.3室内数据集S3DIS：类似于[4，27，23]采用6重交叉验证策略进行训练和测试，我们分别训练了六个模型，每个模型使用五个区域进行训练，剩余一个用于测试。请注意，SEGCloud [14]在三座建筑物中的两座上训练了他们的模型，并在另一座建筑物上进行了测试为了公平比较，我们还在前两个建筑物上重新训练我们的模型，并在其他褶皱中不存在的建筑物上进行测试，即区域5（A5）。比较结果见表1。如表1所示，我们的架构平均性能优于其他方法。所提出的方法在总体准确度方面优于基线工作PointNet 8.7%mIoU、7.4%mAcc和8.4%，并且甚至显示出比分别利用多尺度上下文合并和超点图的[23]和[27]更高的准确度。此外，我们的架构是能够解决小的语义类，如梁，列和板。关于5区的可推广性评估，模型在两个建筑物上训练并测试10X. Ye et al.天花板地板墙梁柱窗门桌子椅子沙发书柜板杂波[23]第十三届中国国际纺织品展览会图4.第一章室内S3DIS数据集的定性结果。我们的研究结果表明，优越的性能比国家的最先进的方法，更准确的预测。在另一个不同的建筑物上也表现良好，在整体准确性和mAcc方面领先，并产生与[27]相当的IoU。接下来，我们提出了我们的架构在图中的语义分割的定性结果。4.第一章根据图4，由于金字塔池化模块以及双向分层RNN模型，我们的架构能够纠正[4，23]中错误标记的类，并实现更准确的分割结果。此外，所提出的框架在很大程度上检索细粒度的细节，错过了其他方法。例如，椅子腿在很大程度上被保留（用红色着色），并且与其余方法相比，在语义分割中观察到少得多的噪声。在先前的实验（S3DIS）中，几何形状以及颜色信息被用来预测每个房间的语义标签，因为颜色在特征表示中起着至关重要我们想知道当颜色不可用时，所提出的架构是否有效。因此，在丢弃颜色信息的大型扫描室内数据集ScanNet [7]上进行进一步的实验。S-canNet提出了一种利用3D全卷积网络的基于体素的粗预测框架相反，我们生成每个点的标签并进行比较三维递归神经网络在点云语义分割中的应用11表2. ScanNet [7]上的每点精度，只有XYZ信息，没有RGB。方法PointNet [4]G+RCU [23][22]第二十二话我们总体精度0.5260.6340.7430.765表3. 户外vKITTI数据集的结果：有和没有RGB。方法OAXYZRGBMiouMACCOA仅限XYZ的mIoUMACCPointNet [4]0.7970.3440.4700.7170.2390.381G+RCU [23]0.8060.3620.4970.7390.2980.467[22]第二十二话---0.7700.2990.400我们0.8780.4160.5410.7960.3450.492[4]和Pointnet++ [22]。表2中报告了性能，其证明了当仅几何信息可用时我们的框架的效率请注意，结果与[22]中的结果略有不同，因为我们实验中的准确度是按每个点而不是按每个体素评估的。4.4户外数据集我们还评估了该模型在室外数据集上的性能。为了公平比较，我们选择vKITTI数据集[10]作为[23]，并将五个不同的城市视频序列分成六个不重叠的折叠。在训练和测试过程中，采用PointNet建议的六重交叉验证策略S.此外，我们针对不同的输入特征进行两个单独的实验，即，XYZ-RGB和仅XYZ。如表3所示，无论采用哪种输入特征策略，我们的框架都成功地预测了户外场景的语义标签利用颜色信息，我们的体系结构可以在很大程度上提高语义分割的性能即使没有颜色线索，我们的算法是能够实现的改进相比，其他国家的最先进的方法。值得注意的是，我们使用相同的数据集获得了[23]中报告的[4，23]的略高的平均性能，这可能是由于我们的数据归一化。此外，我们还展示了vKITTI的定性结果相比，其他最近提出的国家的最先进的算法图。5.如图所示。5，我们的框架检索场景更一致，错误标签更少。为了进一步验证我们模型的有效性和泛化能力通过LiDAR扫描获得的KITTI原始点云只包含XYZ信息而没有地面真实语义标签，因此我们将vKITTI的几何模型应用于它。关于具有颜色信息的后一3DRMS激光数据，采用vKITTI的几何-颜色模型，尽管这两个数据集具有不同的类别标签定性结果见图。六、没有任何训练12X. Ye et al.地形树植被建筑路护栏简体中文交通灯极Misc卡车车Van[23]第十三届中国国际纺织品展览会图五、室外vKITTI数据集上的语义分割结果。从左到右：PointNet [4]，G+RCU[23]，我们的结果，地面真相。对于所有算法，输入要素都是我们的模型在两个数据集中仍然产生合理的语义结果。请注意，只有一些常见或类似的类才有意义，例如道路、树、地形、汽车和建筑。4.5消融研究对于烧蚀研究，进行了进一步的实验，以探索在我们的方法中的两个关键组件的贡献。对于这里的所有实验，我们比较了不同设置的性能，其中几何和颜色特征作为S3DIS数据集的输入如表4所示，虽然简单，但金字塔池化模块对整体准确性的提高做出了重大贡献，我们的双向 RNN模型进一步减少了小类中的错误，从而提高了 mIoU和mAcc。虽然1D RNN的结果不如逐点金字塔池化的结果，但分层RNN的结果比逐点金字塔池化的结果更好。表4. 不同变体的比较。最佳结果以粗体显示方法OAMACCMiouBaseline PointNet [4]78.566.247.6使用逐点金字塔池添加82.868.350.8添加单向RNN80.667.949.9添加双向RNN82.370.051.4我们的完整方法86.973.656.3三维递归神经网络在点云语义分割中的应用3树木植被修建道路交通标志杂项树草玫瑰绿篱障碍场地树木植被建筑地形交通标志其他树草障碍物未知地面预测地面实况预测地面实况车(a) KITTI原始预测，不含真实数据（仅限XYZ）(b) 3DRMS挑战预测与不同的标记地面实况图六、未经训练的KITTI Raw [9]（上行）和3DRMS [35]（下行）的定性预测结果。我们在vKITTI上训练的仅XYZ模型被应用于真实的KITTI激光扫描。只有一些共享类，如汽车、建筑和道路才有意义。在vKITTI上训练的XYZ-RGB模型用于3DRMS扫描。虽然一些类别与注释的标签不同，但仍然观察到合理的结果表5.S3DIS数据集上不同时间步长的结果（6倍交叉验证）。时间步长OAMACCMiou180.769.851.3283.872.753.7485.373.256.4686.973.456.2886.973.355.61086.572.154.0双向RNN架构揭示了改进的性能。最后，这两个组件的组合实现了压倒性的结果，通过整合邻近的本地上下文与长距离的空间信息。此外，由于最佳时间步长对于不同的数据集是变化的，并且取决于时间和速度之间的时间差，因此我们不需要对最佳时间步长进行调整或微调。然而，我们进行了关于不同时间步长的实验表5中所示的结果表明，小的时间步长会降低性能，而太大的时间步长也会阻碍IoU，通常，4到8之间的时间步长是可行的。地形树植被建筑罗阿德简体中文Misc14X. Ye et al.5结论我们提出了一个端到端的方法，通过集成卷积神经网络与递归神经网络的有效的3D语义分割。该框架由两个不可或缺的组件组成，逐点金字塔池化模块，没有步幅来集成多尺度局部上下文和双向分层RNN来学习远程空间依赖性。我们的架构成功地提高了室内和室外数据集的三维语义分割的准确性对于一些语义相似的类，我们的模型也有有限的能力来区分它们，如门和墙。对于未来的工作，我们计划调查的问题，并将我们的方法扩展到更多的应用程序上的非结构化点云。引用1. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割在：CVPR中。（2017）12. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：CVPR中。（2015）34313. Garcia-Garcia，A.， Orts-Escolano，S.，操作， S.， V.，V.，Rodr'ıguez，J.G.：深度学习技术在语义分割中的应用综述。CoRRabs/1704.06857（2017）4. Qi，C.R.，Su，H.，Mo K Guibas，L.J.： Pointnet：点集的深度学习3D分类和分割。在：CVPR中。（2017）6525. Silberman，N.Hoiem，D.，Kohli，P.，Fergus，R.：室内分割和支持从rgbd图像推断。In：ECCV.（2012年）7466. 阿尔梅尼岛Sener，O.，Zamir，A.R.，江，H.，布里拉基斯岛Fischer，M.，Savarese，S.：大规模室内空间的三维语义解析在：CVPR中。（2016）15347. Dai ， A. ， Chang ， A.X. ， Savva ， M. ， Halber ， M. ， Funkhouser ， T. ，Nießner，M.：Scannet：室内场景的丰富注释3D重建。在：CVPR中。（2017年）8. Hackel，T.，Savinov，N.拉迪基湖Wegner，J.D.，辛德勒，K.，Pollefeys，M.：SEMANTIC3D.NET：一个新的大规模点云分类基准。In：ISPRS.第IV-1-W1卷。（2017）919. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志32（11）（2013）123110. Gaidon，A.王建奎，Cabon，Y.Vig，E.：虚拟世界作为多对象的代理跟踪分析在：CVPR中。（2016）434011. 黄，J.，Suya，Y.：使用3d卷积神经网络标记点云In：ICPR. （2016年）12. Maturana，D.，Scherer，S.：Voxnet：用于实时对象识别的3D卷积神经网络在：IROS.（2015）92213. Riegler，G.Ulusoy，A.O.，Geiger，A.：Octnet：以高分辨率学习深度3D表示在：CVPR中。（2016）357714. Tchapmi，L.P.，Choy，C.B.，阿尔梅尼岛Gwak，J.，Savarese，S.：Segcloud：3D点云的语义分割。CoRRabs/1710.07563（2017）15. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。Corrabs/1612.01105（2016）三维递归神经网络在点云语义分割中的应用516. Li，Z.，甘，Y.，梁湘，Yu，Y.，郑洪，Lin，L.：Lstm-cf：使用lstms统一上下文建模和融合，用于rgb-d场景标记。In：ECCV.（2016）54117. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲KYuille，A.L.：基于深度卷积网和全连接crfs的语义图像分割在：学习表征国际会议。（2015年）18. Su，H.，Maji，S.，Kalogerakis，E.，Learnedmiller，E.G.：用于三维形状识别的多视图卷积神经网络。国际计算机视觉会议（ International Conference onComputer Vision）（2015）94519. Qi，C.R.，Su，H.，Niebner，M.，Dai，A.，Yan，M.，Guibas，L.J.：用于三维数据对象分类的体积和多视图cnn在：CVPR中。（2016）564820. Boulch，A.，Saux，B.L.，Audebert，N.：基于深度分割网络的非结构化点云语义在：Eurographics 3D对象检索研讨会。（2017年）21. Guerry，J.，Boulch，A.，Le Saux，B. Moras，J.，Plyer，A.，Filliat，D.：Snapnet-r：机器人一致的3d多视图语义标记。In：ICCV. （2017年）22. Qi，C.R.，Yi，L.，Su，H.，Guibas，L.J.：Pointnet++：度量空间中点集的深度层次特征学习。在：NIPS。（2017）509923. Engelmann，F.，Kontogianni，T.，Hermans，A.莱贝B：探索空间情境以进行点云的三维语意分割。In：ICCV. （2017年）24. Guerrero，P. Kleiman，Y.，Ovsjanikov，M.，新泽西州米特拉：PCPNET：从原始点云学习局部形状属性。CoRRabs/1710.04954（2017）25. Qi，C.R.，刘伟，吴，C.，Su，H.，Guibas，L.J.：用于3D对象的从RGB-D数据检测。 CoRR abs/1711.08488（2017）26. Qi，X.，廖河，巴西-地贾，J.，Fidler，S.，乌尔塔松河：三维图神经网络在RGBD语义切分In：ICCV.（2017年）27. 兰德里欧湖 Simonovsky ， M. ：基于超点图的大规模点云语义分割。CoRRabs/1711.09869（2017）28. 帕克，H.Lee，K.M.：用卷积神经网络更广泛地匹配图像块网络. IEEE Signal Processing Letters（2016）29. Byeon，W.，Breuel，T. M.，Raue，F.，Liwicki，M.：基于lstm递归神经网络的场景标注In：CVPR）。（2015）354730. Stollenga，M.F.，Byeon，W.，Liwicki，M.，Schmidhuber，J.：并行多维lstm及其在快速生物医学体图像分割中的应用在：NIPS。（2015）299831. 皮涅罗公共卫生部Collobert，R.：用于场景标记的递归卷积神经网络在：ICML。（2014）8232. 维辛，F.，Romero，A.周，K.，Matteucci，M.，Ciccone，M.，Kastner，K.，Bengio，Y.，Courville，A.C.：Reseg：一个基于递归神经网络的语义分割模型在：CVPR中。（2016）42633. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算第9（8）（1997）号来文34. 周，K.，Van Merrienboer，B.，Gulcehre角Bahdanau，D.，Bougares，F.，施温克H、Bengio，Y.：使用rnn编码器-解码器学习短语表示用于统计机器翻译。自然语言处理中的经验方法（2014）1724-173435. Torsten，S.，Thomas，B.Marc，P.，Robert，F.Radim，T.：三维重建面临语义重建的挑战。 http://trimbot2020.webhosting.rug.nl/events/3drms/challenge/（2017）ICCV研讨会。36. 金玛，D.P.，Ba，J.L.： Adam：随机最佳化的方法。In：ICLR.（2015年）

下载后可阅读完整内容，剩余1页未读，立即下载