基于多任务逐点网络和多值条件随机场的3D点云联合语义-实例分割

98 浏览量更新于2023-10-19 收藏 13.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

88270JSIS3D：基于多任务逐点网络和多值条件随机场的3D点云联合语义-实例分割0Quang-Hieu Pham† Duc Thanh Nguyen‡ Binh-Son Hua� Gemma Roig† Sai-Kit Yeung�0†新加坡科技与设计大学‡迪肯大学�东京大学�香港科技大学0摘要0深度学习技术已经成为大多数2D图像相关任务的首选模型。然而，在3D空间中的一些任务上，例如3D场景理解，它们的能力尚未得到充分发挥。在这项工作中，我们共同解决了3D点云的语义和实例分割问题。具体而言，我们开发了一个多任务逐点网络，同时执行两个任务：预测3D点的语义类别，并将点嵌入到高维向量中，使得同一对象实例的点由相似的嵌入表示。然后，我们提出了一个多值条件随机场模型，将语义和实例标签结合起来，将语义和实例分割问题形式化为在场模型中联合优化标签。我们对所提出的方法进行了全面评估，并与现有方法在不同的室内场景数据集（包括S3DIS和SceneNN）上进行了比较。实验结果表明，所提出的联合语义-实例分割方案相对于其单独的组成部分具有鲁棒性。我们的方法在语义分割方面也取得了最先进的性能。01. 引言0低成本的3D传感器（例如Kinect）和光场相机的日益普及，开启了许多基于3D的应用，如自动驾驶、机器人技术、基于移动设备的导航、虚拟现实和3D游戏。这一发展也使得自动理解3D数据成为可能。在2D领域，常见的场景理解任务，包括图像分类、语义分割或实例分割，已经取得了显著的成果[13,3]。然而，3D场景理解问题面临着更大的挑战，例如大规模和嘈杂的数据处理。文献表明，一个3D场景的数据可以0可以通过一组捕捉不同视角下场景的图像[14, 46,42]、在规则的体素网格中[47, 26, 28]或仅仅是3D点云[33,16, 45, 17,24]来表示。我们的工作受到基于点的表示的启发，原因有几个。首先，与多视图和体素表示相比，点云提供了一种更紧凑和直观的3D数据表示。其次，最近直接建立在点云上的神经网络[33, 16, 24, 45, 17, 18, 22, 23,48]在目标识别和语义分割等多个任务上展示了有希望的结果。在本文中，我们解决了3D场景理解中的两个基本问题：语义分割和实例分割。语义分割旨在为场景中的每个3D点识别一个类别标签或对象类别（例如椅子、桌子），而实例分割将场景聚类为对象实例。这两个问题通常被分开处理，其中实例分割/检测是语义分割的后处理任务[31,30]。然而，我们观察到对象类别和对象实例是相互依赖的。例如，提取在一个实例上的形状和外观特征有助于识别该实例的对象类别。另一方面，如果两个3D点被分配给不同的对象类别，它们不太可能属于同一个对象实例。因此，将语义和实例分割耦合成一个单一任务是可取的。为了实现上述目标，我们在这项工作中做出了以下贡献。0•一种网络架构，即多任务点网络（MT-PNet），可以同时执行两个任务：预测点云中三维点的物体类别，并将这些三维点嵌入到允许将点聚类到物体实例中的高维特征向量中。0•一种多值条件随机场（MV-CRF）模型，将类别标签和物体实例的联合优化形式化为统一的框架。88280MT-PNet0MV-CRF0语义类别概率0嵌入0语义标签0实例标签0变分推断0窗口0输入：点云输出：语义类别标签+实例标签0图1.我们提出的方法的流程图。给定一个输入的三维点云，我们通过重叠窗口扫描点云。然后从窗口中提取三维顶点，并通过我们的多任务神经网络传递，以获得语义标签和实例嵌入。然后，我们优化一个多值条件随机场模型来产生最终结果。场景数据来自[15]。0可以使用变分均值场技术高效求解。据我们所知，我们是第一个在统一框架中探索语义和实例的联合优化的研究。0•在不同的基准数据集上进行广泛实验，以验证所提出的方法及其主要组成部分。实验结果表明，联合语义分割和实例分割的性能优于每个单独任务，并且所提出的方法在语义分割方面达到了最先进的性能。0本文的其余部分组织如下。第2节简要回顾相关工作。第3节描述了所提出的方法。第4节介绍了实验和结果。最后在第5节进行了总结。02. 相关工作0本节回顾了最近在三维空间中应用的语义和实例分割技术。由于其被证明的鲁棒性以及在该领域的开创性，我们特别关注应用于三维点云的基于深度学习的技术。为了简洁起见，我们将传统的基于类别的语义分割称为“语义分割”，将基于实例的语义分割称为“实例分割”。02.1. 语义分割0室内场景数据集的最新可用性[37, 15, 5,1]引发了对三维场景理解的研究兴趣，特别是语义分割。我们根据其输入数据类型将这些最新工作分为三个主要类别，即多视图图像、体积表示和点云。0多视图法。该方法通常使用在二维领域上预训练的模型，并将其应用于三维空间。0通过将颜色或RGB-D图像上的二维预测反投影和融合到三维空间中，可以获得每个顶点的标签。可以通过分类器（例如随机森林[14, 36, 46, 42]）或深度神经网络[27, 49,30]在二维上进行预测。这些技术可以与三维场景重建同时实现，创建实时的语义重建系统。然而，这种方法在二维预测之间存在不一致性，并且其性能可能依赖于视角的选择。0体积法。深度神经网络在解决图像上的多个场景理解任务方面的鲁棒性，启发了将深度神经网络直接应用于三维空间以解决三维场景理解问题。事实上，对于规则网格（例如图像结构），卷积可以很容易地扩展到三维空间，从而导致具有体积表示的深度学习[47, 26,28]。为了支持高分辨率分割并减少内存占用，提出了一种分层数据结构，如八叉树，以仅在自由空间体素上进行卷积操作[35]。已经表明，通过与场景补全问题联合解决，可以改善语义分割的性能[39, 6]。0点云方法。与体积相比，点云是一种紧凑而直观的表示，通过顶点的坐标和法线直接存储3D场景的几何属性。点云可以通过多视图立体、深度和激光雷达传感器等商用设备自然生成。点云还可以转换为其他表示形式，如体积[40]或网格[41]。虽然卷积在体积上可以方便地进行[40]，但在点云上不能直接应用。这个问题首先在Qi等人的工作[32]中得到解决，随后由其他几个人进一步探索，例如[33, 16, 45, 17, 24, 23,48]。语义分割可以进一步扩展为图卷积，以处理大规模点云[22]，并使用kd树来处理非均匀点分布[18, 12]。nx3TNet (3x3) mlp (64, 64) nx64TNet (64x64) nx64nx1024mlp (64, 128,1024) max pool1024global featurenx1088mlp (512, 256) nx128nx32mlp (64, 32) mlp (64, 32) nx13 categorial probabilitiesinstance embeddingsnx388290图2. 我们提出的基于PointNet[32]的MT-PNet架构。点云首先通过前馈神经网络计算每个点的128维特征向量。然后它分为两个分支：一个用于实例嵌入，另一个用于语义分割。0条件随机场（CRFs）CRFs经常用于3D场景的语义分割，例如[41, 14, 20, 46, 42, 27,34]。一般来说，CRFs利用捕捉单个3D点[46]或网格[41]以及它们的共现性的一元和二元势能。为了增强CRFs的先验知识，引入了高阶势能[21, 11, 50, 2, 49, 10,30]。高阶势能，例如物体检测[21, 2,30]，作为额外的线索，有助于在CRFs中推断语义类别标签。02.2. 实例分割0一般来说，有两种常见的策略来解决实例分割问题。第一种策略是使用目标检测技术定位物体边界框，然后在每个框内找到将前景和背景分开的掩码。这种方法在图像上已经被证明可以稳健地工作[7,13]，但在3D领域被认为是具有挑战性的。这可能是因为现有的3D物体检测器通常不是从头开始训练，而是利用图像特征[9, 31,25]。扩展这样的方法使用掩码是可能的，但可能导致次优和更复杂的流程。相反，鉴于在3D数据上语义分割的有希望的结果[32, 1,16]，第二种策略是通过添加一个提出物体实例的过程来扩展语义分割框架。在早期的尝试中，Wang等人提出了基于PointNet[32]的点特征的语义地图和相似性矩阵的学习。然后，作者提出了一种启发式和非极大值抑制步骤，将相似的点合并成实例。03. 提出的方法0在本节中，我们描述了用于3D点云的语义和实例分割的提出方法。给定一个3D点云，我们首先通过重叠的3D窗口扫描整个点云。每个窗口（及其关联的0将3D点云（由3D顶点组成）传递给神经网络，以预测窗口内顶点的语义类别标签并将顶点嵌入到高维向量中。为了实现这样的任务，我们开发了一个多任务逐点网络（MT-PNet），旨在为场景中的每个3D点预测一个物体类别，并同时将3D点与其类别标签信息嵌入到向量中。该网络鼓励属于同一物体实例的3D点相互靠近，同时尽可能将不同物体实例的点推开。然后，这些类别标签和嵌入被融合到多值条件随机场（MV-CRF）模型中。最后，使用变分推理联合执行语义和实例分割。我们在图1中说明了我们方法的流程，并在以下子部分中描述了其主要组成部分。03.1. 多任务逐点网络（MT-PNet）0我们的MT-PNet基于Qi等人在[32]中提出的PointNet的前馈架构（见图2）。具体而言，对于大小为N的输入点云，首先计算大小为N×D的特征图，其中D是每个点的特征维度。然后，MT-PNet分为两个不同的分支，执行两个任务：预测3D点的语义标签和创建它们的逐点实例嵌入。我们的MT-PNet的损失是其两个分支损失的总和，0L = Lprediction + Lembedding (1)0预测损失Lprediction通常由交叉熵定义。受[8]中的工作启发，我们使用一个判别函数来表示嵌入损失Lembedding。具体而言，假设有K个实例，Nk，k ∈ {1, ...,K}是第k个实例中的元素数量，ej ∈Rd是点vj的嵌入，μk是第k个实例中嵌入的均值。�∥µk − ej∥2 − δv�2+(3)̸(4)ϕ(lSj ) +�(j,k),j2δv，则每个嵌入将比其他质心更接近自己的质心。03.2. 多值条件随机场（MV-CRF）0令V = {v1, ..,vN}为经过3D重建后得到的3D场景的点云。点云中的每个3D顶点vj由其3D位置lj = [xj, yj, zj]、法线nj = [nj,x, nj,y,nj,z]和颜色cj = [cj,R, cj,G,cj,B]表示。通过使用提出的MT-PNet，我们还为每个点vj获得了一个嵌入ej ∈ Rd。令LS = {lS1, ...,lSN}为需要分配给点云V的语义标签集合，其中lSj表示vj的语义类别，例如椅子、桌子等。类似地，令LI = {lI1, ...,lIN}为V的实例标签集合，即同一对象实例的所有顶点将具有相同的实例标签lIj。标签lSj和lIj是随机变量，取值分别在S和I中，其中S是预定义的，而I是未知的，需要通过实例分割确定。我们现在将V中的每个顶点vj视为图中的一个节点，任意两个节点vj、vk由一条无向边连接，并且每个顶点vj与其由随机变量lSj和lIj表示的语义和实例标签相关联。我们在V、LS和LI上定义的图称为多值条件随机场（MV-CRF）；这是因为每个节点vj与两个标签(lSj, lIj)相关联，取值为0S × I 中的值。因此，点云 V的联合语义-实例分割可以通过最小化以下能量函数来进行建模，0E ( L S , L I | V ) = �0我们注意到，我们的 MV-CRF 与现有的高阶 CRF有很大的不同，例如 [ 21 , 11 , 2 , 30]。具体来说，在现有的高阶 CRF中，高阶，例如对象检测，被用作先验知识，有助于改善分割。相反，我们的 MV-CRF将实例标签和语义标签视为未知，并同时优化它们。能量函数 E ( L S , L I | V ) 在 ( 6 )中涉及许多潜力，其中包括物理约束（例如，表面平滑性，几何接近性）和语义约束（例如，对象类别和实例之间的形状一致性）在语义和实例标签中。具体来说，一元势能 ϕ ( lS j ) 定义在语义标签 l S j 上，并直接从 MT-PNet的分类得分计算得到，0ϕ ( l S j = s ) ∝ - log p ( v j | l S j = s ) (7)0其中 s 是 S 中的一个可能的类标签，p ( v j | l S j = s )是我们的网络将 v j 分类为语义类别 s的概率（例如，softmax值）。我们发现，同一对象类的顶点通常共享相同的分类分数分布，即 p ( v j | l S j ) 。因此，我们通过 v j 和 v k的分类分数来建模配对势能 ϕ ( l S j , l S k )。具体来说，我们定义，0ϕ ( l S j , l S k ) = ω j,k exp � - [ p ( v j | l S j ) - p ( v k | l S k )] 20其中 ω j,k 是从 Pott 兼容性获得的，0� - 1 ，如果 l S/I j = l S/I k 1，否则。 (9)0一元势能 ψ ( l I j )强制使属于同一实例的嵌入尽可能接近它们的平均嵌入。直观地说，同一实例的嵌入应该转换为嵌入空间中的模态。同时，不同实例的嵌入应该相互分离。具体来说，假设实例标签集合 I = { i 1 , ..., i K } 包含 K 个实例。假设当前配置为�πΣi1(lIk = i)�(10)ψ(lIj, lIk) =�(11)�̸(16)88310L I 将 V 中的所有顶点分配到这些 K个实例中。对于每个实例标签 i ∈ I ，我们定义，0ψ ( l I j = i ) = - exp � - 102 ( e j - µ i ) � Σ - 1 i ( e j -µ i ) �0- log � �0其中 µ i 和 Σ i 分别表示分配给标签 i的嵌入的均值和协方差矩阵，1( ∙ ) 是一个指示符。术语 �0k 1( l I k = i ) in ( 10 ) 代表实例 i的区域，并用于偏好大实例。我们发现这个项可以帮助去除点云中由噪声引起的微小实例。实例标签 ψ ( l I j , l I k )捕捉了物体实例中表面的几何特性，并定义为顶点 v j 和 v k的位置、法线和颜色的高斯混合。特别地，0ω j,k exp � - || l j - l k 02 λ 2 1 - || n j - n k 02 λ 2 2 2 - || c j - c k || 2 20其中 ω j,k 在 ( 9 ) 中给出。式子 ( 6 ) 中的 φ ( s, i )将基于语义的潜力与基于实例的潜力相关联，并鼓励语义标签和实例标签之间的一致性。例如，如果两个顶点被分配给相同的对象实例，则它们应该被分配给相同的对象类别。从技术上讲，如果我们计算对象实例 i 的所有顶点的语义标签s 的频率直方图 h i ，我们可以根据 s 和 i之间的互信息来定义 φ ( s, i ) ，如下所示，0对于每个语义标签 s ，我们定义 φ ( s, i ) = − h i ( s ) log h i ( s ) (12)0其中 h i ( s ) 是语义标签 s 在实例标签为 i的顶点中出现的频率。如式 ( 12 ) 所示，给定一个实例标签i ，在所有语义标签 s ∈ S 上 φ ( s, i ) 的总和是标签 s相对于对象实例 i 的信息熵，即，�0s ∈ S h i ( s ) log h i ( s )。因此，一个好的标签应该最小化这种熵，从而减小同一对象实例中语义标签的变化。由于能量函数 E ( L S , L I | V )在 ( 6 ) 中对所有语义标签 s 和实例标签 i求和，它会倾向于高度一致的标签。03.3. 变分推断0在 ( 6 ) 中最小化 E ( L S , L I | V )等价于最大化后验条件概率 p ( L S , L I | V )0这个问题无法通过简单的实现来解决。在本文中，我们采用均值场变分方法来解决这个优化问题[43]。一般来说，均值场变分推断的思想是通过一个变分分布 Q ( L S , L I )来近似概率分布 p ( L S , L I | V )，该变分分布可以完全分解为 ( L S , L I )中所有随机变量的乘积，即 Q ( L S , L I ) = �0j Q j ( l S j , l I j ) 。然而，对 ( L S , L I ) 中的所有配对进行Q ( L S , L I ) 的因式分解会导致每个顶点的计算复杂度为 |S | × | I | 。此外，由于我们提出的 MV-CRF模型是全连接的，传统的均值场近似实现中使用的消息传递步骤对于随机变量的数量具有二次复杂度 ( 即 2 N)。幸运的是，由于我们在 ( 8 ) 和 ( 11 )中定义的成对潜力是高斯分布的，可以通过在 Q的下采样版本上应用带有高斯滤波器的卷积操作，然后进行上采样来高效地执行消息传递步骤[19]。截断高斯分布也可以用来近似这些高斯滤波器，以进一步加速消息传递过程 [29]。我们首先假设 L S 和 L I在联合变分分布 Q ( L S , L I ) 中是独立的，因此 Q ( L S , LI ) 可以分解为，0我们定义 Q ( L L I ) = � N �0对于每个顶点，我们定义 j Q S j ( l S j ) �0对于每个顶点 v j，我们定义 j =1 Q I j ( l Ij ) � (13)0式 ( 13 ) 中的假设使我们能够推导出语义和实例变分分布 QS 和 Q L 的均值场更新方程。由于项 �0在 ( 6 ) 中的项 � i ∈ I φ ( s, i ) 与索引 j无关，为了方便计算均值场更新，对于每个顶点 v j，我们定义一个新的项 m j ，如下所示，0我们定义 mj =0对于每个语义标签 s ，我们定义 s∈ 0对于每个顶点 v k ，如果 l I k = l I j，则 v k ∈ V 1( l I k = l I j ) (14)0通过使用 m j ，式 ( 6 ) 中的项 � s ∈ S � i ∈ I φ ( s, i )可以重写为，�0对于每个实例 i，我们定义 i ∈( s, i ) = �0对于每个顶点 v j ，我们定义v j ∈ V m j (15)0然后我们得到均值场更新,0QSj(lSj=s)←10Zjexp[−ϕ(lSj=s)]0−∑0s′∈S0k≠j QSk(lSk=s′)ϕ(lSj,lSk)−mj0，̸(17)88320和0QIj(lIj=i)←10Zjexp[−ψ(lIj=i)]0−∑0i′∈I0k≠j QIk(lIk=i′)ψ(lIj,lIk)−mj0∑0其中Zj是使Q（LS，LI）在优化过程中成为概率质量函数的分区函数。04. 实验04.1. 实验设置0我们的MT-PNet是用PyTorch实现的。我们使用SGD优化器训练我们的网络。学习率设置为0.01，每50个epoch后衰减率设置为0.5。训练在一张NVIDIA TITANX显卡上花费了10小时。对于语义和实例标签的联合优化，我们初始化了3D顶点的语义和实例标签。语义标签与相关的分类分数直接从MT-PNet中获取。还提取了所有3D顶点的嵌入。然后，通过在嵌入上应用均值漂移算法[4]来确定初始实例标签。均值漂移的带宽设置为推力力量δd在（4）中的边界。我们设置δd=1.5，并发现这个设置达到了最佳性能。此外，当将带宽设置为较低值时，由于过分割，我们的性能会下降。我们注意到，均值漂移算法生成的聚类数可能比真实的实例数要多得多，因为我们允许过分割。在联合优化步骤之后，我们只保留至少包含一个顶点的实例。我们的MT-PNet的输入是一个包含4096个点的点云。为了处理大规模场景，将输入点云划分为重叠的窗口，每个窗口大约包含4096个点。每个窗口被输入到我们的MT-PNet中提取实例嵌入。所有窗口的嵌入使用SGPN[44]中的BlockMerging过程进行合并。然后在整个场景上应用联合优化。最后，我们使用非最大抑制来得到最终的语义-实例预测。04.2. 数据集0我们在两个数据集上进行了所有实验：S3DIS[1]和SceneNN[15]。S3DIS是一个包含室内空间的大规模扫描的3D场景数据集。在这个数据集上，我们在提供的不相交空间上进行实验，这些空间通常被解析为大约10-80个物体实例。这些物体被注释为13个类别。我们遵循[1]中的原始训练/测试划分。0由于S3DIS不包含3D顶点的法线，我们只使用位置和颜色简化了（11）。SceneNN[15]是一个室内场景网格数据集，其中包含了杂乱的物体。他们的语义分割遵循NYU-D v2[37]的类别集，其中包含40个语义类别。在这个数据集上，我们按照Hua等人的训练/测试划分[16]进行了实验。与S3DIS类似，语义和实例分割是在重叠的窗口上进行的。04.3. 评估和比较0在本节中，我们对我们的方法及其变体进行了全面评估，并与现有方法在语义和实例分割任务中进行了比较。我们的方法的几个结果如图3所示。0消融研究。我们研究了联合语义-实例分割与其各自任务的有效性。通过研究我们在（6）中定义的MV-CRF的能量势的作用来进行这项研究。具体来说，对于语义分割，我们仅研究了（7）中的一元势的使用以及将（7）和（8）结合的传统CRF。同样，对于实例分割，我们比较了仅使用（10）和（11）的情况。我们还测量了联合任务的性能，即MV-CRF的整个能量。表1比较了MV-CRF及其变体在S3DIS上的语义和实例分割中的性能。指标包括微平均准确率（mAcc）10[38]用于语义分割和实例分割的mAP@0.5。0语义分割0方法mAcc0（7）86.7（7）+（8）86.9 MV-CRF87.40实例分割0方法mAP@0.50（10）24.9（10）+（11）27.4 MV-CRF36.30表1. 我们的MV-CRF及其变体的比较。0语义分割。表2和表4展示了我们提出的方法在S3DIS和SceneNN数据集上的语义分割性能。在这个任务中，我们评估了MT-PNet的独立性能，标记为“我们的（MT-PNet）”，以及运行完整流程时的MV-CRF，标记为“我们的（MV-CRF）”。我们还将我们的方法与其他最先进的深度神经网络进行了比较，包括PointNet [32]，PointwiseCNN[16]和SEGCloud[40]。评估指标是每类准确率和微平均准确率。01微平均在计算平均准确率时考虑了类别的大小，因此常用于不平衡数据。在我们的上下文中，微平均准确率等同于常用的整体准确率，常用于语义分割。88330方法mAcc天花板地板墙窗户门桌子椅子沙发书柜板杂物0PointNet [32] 78.6 88.8 97.3 69.8 46.3 10.8 52.6 58.9 40.3 5.9 26.4 33.2 Pointwise [16] 81.5 97.9 99.3 92.7 49.6 50.6 74.158.2 0 39.3 0 61.1 SEGCloud [40] 80.8 90.1 96.1 69.9 38.4 23.1 75.9 70.4 58.4 40.9 13 41.6 我们的（MT-PNet）86.7 97.499.6 92.7 60.1 26.4 80.8 83.7 23.7 61.1 55.2 70.6 我们的（MV-CRF）87.4 98.4 99.6 94.4 59.7 24.9 80.6 84.9 30 63.0 52.570.50表2. S3DIS上的语义分割结果。这里我们还展示了MT-PNet的独立性能，以及运行完整流程时的MV-CRF。0方法mAP天花板地板墙窗户门桌子椅子沙发书柜板杂物0Armeni等人[1] - 71.6 88.7 72.9 25.9 54.1 46 16.2 6.8 54.7 3.9 - SGPN [44] 54.4 79.4 66.3 88.8 66.6 56.8 46.9 40.8 6.447.6 11.1 - 我们的（MT-PNet）24.9 71.5 78.4 28.3 24.4 3.5 12.1 36.2 10 12.6 34.5 12.8 我们的（MV-CRF）36.3 76.983.6 32.2 51.4 7.2 16.3 23.6 16.7 21.8 52.1 13.40表3.S3DIS上的实例分割结果。这里我们还展示了MT-PNet的独立性能，以及运行完整流程时的MV-CRF。请注意，Armeni等人的结果是基于3D边界框而不是点云。0S3DIS0SceneNN0图3.语义分割和实例分割结果。从左到右：输入点云，语义分割的真值，我们的语义分割结果，实例分割的真值，我们的实例分割结果。对于语义分割，不同颜色代表不同类别。对于实例分割，不同颜色代表不同实例。0实验结果表明，我们提出的MT-PNet明显优于其原始架构（即PointNet[32]），改进来自多任务架构。为了确认这一点，我们进行了一个实验，其中我们训练了禁用实例嵌入分支的MT-PNet。禁用嵌入分支网络获得了与原始架构相同的性能。0在语义分割任务上的PointNet。0如表2和表4所示，我们的MV-CRF也显著改善了MT-PNet的基础结果，并在语义分割上实现了最先进的性能。这证明了多任务学习和联合优化的益处。图4显示了一个近距离示例，以说明我们的MV-CRF在语义分割中的潜力。fj = 1|Vj| log� �vk∈Vj�QSk (lSk = sj)QIk(lIk = j)��(18)88340方法墙地柜床椅子沙发桌子书桌电视道具0Pointwise [ 16 ] 93.8 88.6 1.5 11.6 58.6 5.5 23.5 29.5 7.7 5.8 我们的方法（MT-PNet）94.2 91.59.2 58.4 81.4 10.9 37.3 54.0 33.3 13.2 我们的方法（MLS-CRF）96.0 92.4 10.0 74.6 83.0 11.044.5 61.7 24.4 11.10表4. SceneNN上的语义分割结果。这里我们只展示了NYUv2的一部分代表性类别，因为SceneNN中没有呈现所有类别。0方法墙地板橱柜床椅子沙发桌子书桌电视道具0我们的方法（MT-PNet）13.1 27.3 0.0 15.0 21.2 0.0 0.7 0.0 6.0 2.0我们的方法（MLS-CRF）13.9 44.5 0.0 32.9 12.9 0.0 5.7 10.8 0.0 0.80表5. SceneNN上的实例分割结果。这里我们只展示了NYUv2的一部分代表性类别，因为SceneNN中没有呈现所有类别。0图4.我们方法的近距离示例。左：输入，中：语义分割，右：实例分割。0实例分割。我们将实例分割视为目标检测，因此使用IoU阈值为0.5的平均精度（AP）评估该任务。为了生成对象假设，每个实例j被赋予一个置信度得分fj，计算如下：0其中Vj是具有实例标签j的点集，Q S j和Q Lj在（16）和（17）中定义。表3和表5报告了我们方法在S3DIS和SceneNN数据集上的实例分割性能。我们将直接在MT-PNet的嵌入上应用均值漂移算法得到的结果称为“我们的方法（MT-PNet）”，将使用MV-CRF的完整流程的结果称为“我们的方法（MV-CRF）”。与语义分割类似，实验结果表明，我们的MV-CRF相对于MT-PNet显著提升了分割性能。图4显示了我们的MV-CRF和其他方法在实例分割中的定性比较。我们还将我们的方法与其他现有方法进行了比较，包括SGPN [44]，这是一种用于实例分割的最新方法。0点云的分割，以及Armeni等人的附加结果[1]。与最先进方法相比，我们的方法在某些类别上显示出明显的改进，例如地板、沙发、板和杂物。然而，它在其他类别（如门）上产生了低精度的分割结果。我们发现这主要是由于这些类别中的低语义分割准确性所致。05. 结论0点云的语义和实例分割是3D场景理解中至关重要且基础的步骤。本文提出了一种语义-实例分割方法，通过一种新颖的多任务逐点网络和多值条件随机场模型同时执行这两个任务。多任务逐点网络同时学习3D点的类别标签和它们的嵌入表示，从而将3D点聚类成对象实例。多值条件随机场模型整合了3D和高维嵌入特征，共同执行语义和实例分割。我们在不同具有挑战性的室内数据集上评估了所提出的方法，并将其与现有方法进行了比较。实验结果有利地显示了我们的方法相对于最先进方法的优势，并且联合语义-实例分割方法优于其各个组件。0致谢。本研究项目部分得到香港科技大学的内部资助（R9429）和教育部新加坡科技与设计大学SRG项目的资助（SRGISTD 2017 131）。0参考文献0[1] Iro Armeni, Ozan Sener, Amir R Zamir, Helen Jiang, IoannisBrilakis, Martin Fischer, and Silvio Savarese. 3D semantic parsingof large-scale indoor spaces. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR), pages 1534–1543, 2016. 2, 3, 6, 7, 888350[2] Anurag Arnab, Sadeep Jayasumana, Shuai Zheng, andPhilip H. S. Torr. 深度神经网络中的高阶条件随机场.在欧洲计算机视觉会议（ECCV）论文集中，页码524-540，2016年。3，40[3] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能（PAMI）杂志，40（4）：834-848，2018年。10[4] Dorin Comaniciu and Peter Meer.均值漂移：一种鲁棒的特征空间分析方法.IEEE模式分析与机器智能（PAMI）杂志，（5）：603-619，2002年。60[5] Angela Dai, Angel X Chang, Manolis Savva, Maciej Hal-ber, Thomas Funkhouser, and Matthias Nießner. Scannet:室内场景的丰富注释的三维重建.在计算机视觉和模式识别（CVPR）会议论文集中，页码5828-5839，2017年。20[6] Angela Dai, Daniel Ritchie, Martin Bokeloh, Scott Reed,J¨urgen Sturm, and Matthias Nießner. Scancomplete:大规模场景补全和三维扫描的语义分割.在计算机视觉和模式识别（CVPR）会议论文集中，页码4578-4587，2018年。20[7] Jifeng Dai, Kaiming He, and Jian Sun.利用多任务网络级联进行实例感知的语义分割.在计算机视觉和模式识别（CVPR）会议论文集中，页码3150-3158，2016年。30[8] Bert De Brabandere, Davy Neven, and Luc Van Gool.利用判别损失函数进行语义实例分割.arXiv预印本arXiv:1708.02551，2017年。3，40[9] Zhuo Deng and Longin Jan Latecki.从RGB-深度图像中推断2D边界框的3D物体的全模态检测.在计算机视觉和模式识别（CVPR）会议论文集中，页码5762-5770，2017年。30[10] Tian Feng, Quang-Trung Truong, Duc Thanh Nguyen,Jing Yu Koh, Lap-Fai Yu, Alexander Binder, and Sai-Kit Yeung.利用多视角图像数据上的高阶马尔可夫随机场进行城市分区.在欧洲计算机视觉会议（ECCV）论文集中，页码614-630，2018年。30[11] S Fidler, Jian Yao, and Raquel Urtasun.描述整个场景：联合目标检测、场景分类和语义分割.在2012年IEEE计算机视觉和模式识别（CVPR）会议论文集中，页码702-709，2012年。3，40[12] F. Groh*, P. Wieschollek*, and H. P. A. Lensch.Flex-卷积（超过网格世界的百万级点云学习）.在2018年亚洲计算机视觉会议（ACCV）论文集中，2018年。*平等贡献。20[13] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn.在IEEE国际计算机视觉会议（ICCV）论文集中，页码2961-2969，2017年。1，30[14] Alexander Hermans, Georgios Floros, and Bastian Leibe.室内场景的密集三维语义建图.在2014年IEEE国际机器人与自动化会议（ICRA）论文集中，页码2631-2638，2014年。1，2，30[15] Binh-Son Hua, Quang-Hieu Pham, Duc Thanh Nguyen,Minh-Khoi Tran, Lap-Fai Yu, and Sai-Kit Yeung. Scenenn:具有注释的场景网格数据集.在2016年第四届三维视觉国际会议（3DV）论文集中，页码92-101，2016年。2，60[16] Binh-Son Hua, Minh-Khoi Tran, and Sai-Kit Yeung.点卷积神经网络.在计算机视觉和模式识别（CVPR）会议论文集中，页码984-993，2018年。1，2，3，6，7，80[17] Qiangui Huang, Weiyue Wang, and Ulrich Neumann.递归切片网络用于点云的三维分割.在计算机视觉和模式识别（CVPR）会议论文集中，页码2626-2635，2018年。1，20[18] Roman Klokov

下载后可阅读完整内容，剩余1页未读，立即下载