面向3D语义实例分割的多建议聚合网络

8 浏览量更新于2023-10-25 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

90313D-MPA：面向3D语义实例分割的多方案聚合Francis Engelmann1，2†Martin Bokeloh2Alireza Fathi2Bastian Leibe1MatthiasNießner31 RWTH Aachen University2 Google3 Technical University Munich输入：3D点云对象中心投票汇总建议输出：3D语义分析图1：给定一个输入的3D点云，我们的多建议聚合网络（3D-MPA）预测点精确的3D语义实例。我们提出了一种以对象为中心的方法，该方法生成实例建议，然后通过图形卷积网络实现相邻建议之间的更高级别的交互与以前的方法不同，最终的对象实例是通过聚合多个建议而不是使用非最大值抑制修剪建议来获得的摘要我们提出了3D-MPA，一种方法，例如分割的三维点云。给定一个输入点云，我们提出了一个以对象为中心的方法，每个点投票的对象中心。我们从预测的对象中心采样对象建议。然后，我们从投票支持同一对象中心的分组点特征中学习提案特征。图卷积网络引入了建议间关系，除了较低级别的点特征之外，还提供了更高级别的特征学习。每个建议包括一个语义标签，一组相关联的点，我们定义了一个前景-背景掩模，对象性得分和聚合功能。以前的工作通常执行非最大值抑制（NMS）在pro-bandwidth获得最终的对象检测或语义instances。然而，NMS可以丢弃潜在正确的预测。相反，我们的方法保留了所有建议，并根据学习到的聚合特征将它们分组在一起我们表明，分组建议改善了NMS，并优于以前的国家的最先进的方法上的ScanNetV2基准和S3DIS数据集上的3D对象检测和语义实例分割†在Google实习期间完成的工作1. 介绍随着Kinect或Intel RealSense等商品RGB-D传感器的可用性，计算机视觉和图形社区在3D重建方法上取得了令人印象深刻的成果[27，28]，现在甚至可以实现实时全局姿态跟踪[8，47]。除了几何结构的重建之外，语义场景理解对于许多现实世界的计算机视觉应用至关重要，包括机器人技术、移动设备上即将到来的应用或AR/VR耳机。为了理解重建的3D环境，研究人员已经在体积网格上操作的3D深度学习方法方面取得了重大进展[6，32，37，38，48]，点云[11，31，33]，网格[16，36]或多视图混合[7，39]。虽然早期的3D学习方法主要集中在语义分割上，但我们最近看到了许多关于3D语义实例分割[18，19，49]和3D对象检测[29，51]的工作，我们认为这两者对于现实世界的3D感知至关重要。3D对象检测中的基本挑战之一在于如何预测和处理对象提议：一方面，自上而下的方法首先预测大量粗略的对象边界框提议（例如，更快的R-CNN中的锚机制[35]），然后是第二阶段细化步骤。在这里，结果可以在单个9032向前传递，但对错误检测到的框锚的离群值容忍度很小。另一方面，自底向上方法利用度量学习方法，目标是学习每点特征嵌入空间，该空间被子聚类到对象实例中[10，19，24]。这种策略可以有效地处理离群值，但它严重依赖于手动调整聚类参数，并且由于O（N2）的成对关系，在推理时计算成本很高。在这项工作中，我们提出了3D-MPA，它遵循一种混合方法，利用自上而下和自下而上技术的优点：从表示3D扫描的输入点云，我们从每个点生成对象中心的投票，并将这些投票分组到对象proximity中;然后，不是使用非最大值抑制来拒绝建议，而是针对每个建议学习更高级别的特征，我们使用这些特征来将建议聚类到最终的对象检测中。该策略背后的关键思想是所生成的提议的数量是小于3D扫描中的原始输入点的数量的量级，这使得分组在计算上非常有效。同时，每个对象可以接收多个建议，这简化了建议生成，因为所有大小的对象都以相同的方式处理，并且我们可以轻松地容忍管道中的离群建议。为此，我们的方法首先生成以对象为中心的建议，使用每点投票计划从稀疏的体积特征骨干。然后，我们将提案解释为提案图的节点，我们将其馈送到图卷积神经网络中除了建议损失之外，网络还使用类似于度量学习中的亲和度分数的建议之间的代理损失进行训练;然而，由于建议的数量相对较少，我们可以有效地训练网络和聚类建议。最后，每个节点预测一个语义类、一个对象前景掩码、一个对象性得分以及用于将节点分组在一起的其他特征。总之，我们的贡献如下：• 一种基于密集对象中心预测的3D实例分割新方法，该方法利用从稀疏体积骨干中学习的语义特征。• 为了从对象建议中获得最终的对象检测和语义实例，我们用多建议聚合代替了基于共同学习的建议功能和报告的策略显著提高了NMS的分数。• 我们采用了一个图卷积网络，该网络显式地对邻近的建议功能之间的高阶交互以及较低级别的点特征2. 相关工作对象检测和实例分割。在2D域中，对象检测和实例分割最明显地受到Ren 等人的Faster R-CNN的影响。[35]，其引入了锚机制来预测具有相关对象性得分和感兴趣区域的提议，这些感这种方法在Mask-RCNN[17]中得到了扩展，以预测每像素对象实例掩码。Hou等人[18]通过密集的3D卷积网络将2D提案的想法应用到3D领域。作为替代方案，在[4，14，19]中提出了依赖于度量学习的无命题方法。在2D域中，Fathiet al.[14]估计像素属于同一对象的可能性。De Brabandere等人[4]定义了一种区分损失，它将同一对象的特征点移向它们的均值，同时将不同对象的均值推开。Lahoud等人采用了这种判别损失。[19]以在3D空间中执行实例分割。最终的实例是通过聚类的学习特征空间。Yang等[49]从学习的全局特征向量直接预测对象边界框最近的VoteNet [29]突出了在稀疏3D数据中直接预测边界框中心的挑战，因为大多数表面点远离对象中心。相反，他们通过基于对对象中心的投票对来自同一对象的点进行分组来预测边界框。我们采用以对象为中心的方法，扩展它与一个分支，例如掩码预测和取代NMS与联合学习的建议功能的分组机制。3D深度学习PointNets [31]率先使用深度学习方法进行点云处理。从那时起，我们在许多不同的领域看到了令人印象深刻的进展，包括3D语义分割[15，12，21，31，33，40，46]，3D实例分割[15，12，21，31，33，40，46动作[10，18，19，45，49，50]，物体检测[18，29，51]以及重定位[42]、流量估计[3，25，43]、场景图重建[1]和场景过分割[20]。基于点的架构，如PointNet [29]和Point-Net ++ [34]直接对非结构化的点集进行操作，而基于体素的方法，如3DMV [7]或Spar-seConvNets[5，15]将连续的3D空间转换为离散网格表示，并在体积网格上定义卷积运算符，类似于2D域中的图像卷积。基于图的方法[22，41，46]定义了图结构数据上的卷积算子，例如3D网格[16，36]，引用网络[41]或分子[9]。在这里，我们利用Graham等人的基于体素的方法。[15]作为点特征骨干，并使用Wang等的图神经网络。[46]使提案之间能够进行更高级别的互动。9033我我i=1i=1建议生成建议合并对象生成输入点云点要素建议书特点完善的提案功能输出对象图2：3D-MPA网络架构。从输入点云，我们的网络通过聚合对象提案掩码来预测对象实例掩码。完整模型由三部分组成：提案生成（左）遵循以对象为中心的策略：每一个点投票给它所属的对象的中心。然后从预测的对象中心采样建议位置。通过对提案位置附近的投票进行分组和聚合，我们学习提案特征。在提案合并期间（中），使用图卷积网络进一步细化提案特征，从而在提案级别上实现更高阶的交互。最后，我们建议通过聚类共同学习的聚合特征来聚合多个建议，而不是常用的非最大值抑制（右）。3. 方法3D-MPA的整体架构如图所示二、该模型由三部分组成：第一种方法将3D点云作为输入，并从为同一对象中心投票的采样和分组的点特征中学习对象建议（第2节）。第3.1节）。下一部分使用图卷积网络巩固了pro-proposal功能，使提案之间能够进行更高级别的交互，从而产生细化的提案功能（第二节）。3.2）。最后，对象生成器-我们可以区分来自前景（物体）和背景（墙壁、地板等）的点。在训练和测试期间。这导致精确的中心预测，因为来自背景点的噪声预测被忽略。在特别地，这被实现为回归损失，其预测点位置xi∈R3与其对应的地面实况边界框中心c∈R3之间的每点相对3D偏移。我们将每点中心回归损失定义为：ator使用对象建议并生成最终的目标检测，即，语义实例我们将一个对象参数化为一组与该对象相关的点，Lcent.pt.1=||XiM+xi-c||H·1（xi）， ⑴语义类（第二节）3.3）。3.1. 提案生成给定一个大小为N×I的点云，由N个点和I维输入特征（例如，位置、颜色和法线），网络的第一部分生成固定数目K的对象提议。一个建议是一个元组（yi，gi，si），它由位置yi∈R3、建议特征向量gi∈RD和一组与提案相关的点si为了生成提案，我们需要强大的点特征，对语义上下文和潜在场景的几何结构进行编码我们实现了一个稀疏的体积网络[5，15]作为特征主干来生成每点特征哪里||·||H是Hube r-损失（或平滑L1-损失）和1（·）是一个二元函数，指示点xi是否属于一个物体。M是归一化因子，等于对象上的点总而言之，功能主干有两个头（图1）。2，Q□）：语义头（其执行点的语义分类）和中心头（其为每个点回归对象中心他们是共同的，使用组合损失L点进行检查，其中λ是设置为0.1的L点=λ·L表面点+Lcent.pt. .（二）建议的位置和特点。在每个点（属于一个abject）投票给一个中心后，我们得到一个{fi∈RF}N（图 2，Q□）。对语义文本xt进行编码分布在对象中心（图。3，第3栏）。从这个通过监督特征骨干分布，我们随机挑选K个样本作为建议位置。使用标准的交叉熵损失，解{yi=xi+<$xi∈R3}K（图3，第4栏）。我们发现对于每点语义分类Lsem.pt。. 后Qi等人提出的以对象为中心的方法。[29]，分投票给他们所属物体的中心。然而，与[29]不同的是，只有来自对象的点才能预测中心。这是可能的，因为我们共同预测语义类，即。随机抽样比Faraday Point Sam更有效在[29]中使用了FPS，因为FPS有利于远离真实对象中心的离群值接下来，我们将相关联的点的集合si定义为对采样提议位置yi的半径r内的中心进行投票的那些点。该提案对象中心投票K求婚面具稀疏体积骨干图ConvNetni×2K× D输出语义类N× IN× FN×CN×3采样&分组K×（3 +D）K×（3+D′）聚集K9034i=1i=1i=1++特征{gi∈RD}K使用PointNet学习[31]真理中心，或者如果他们同样远离两个地面，应用于相关联的点Si的点特征。这对应于[29]中描述的分组和归一化技术在这个阶段，我们有K个建议，包括位于物体中心附近的3D位置yi，描述局部几何形状的建议特征gi∈RD和最近的对象的语义（图。2，Q□），沿其中一组点Si与每个提议相关联3.2. 提案合并到目前为止，建议功能编码的本地信息，其相关的对象。在提案合并期间，提案通过显式地对相邻提案之间的高阶交互进行建模来了解其全局邻域。为此，我们定义了一个图卷积网络（GCN）的建议。虽然最初的点要素主干在点级别上运行，但GCN在建议级别上运行特别地，图的节点由具有相关联的建议特征gi的建议位置yi定义。如果两个3D建议位置y{i，j}之间的欧几里德距离d低于2 m，则存在两个节点之间的边。我们采用DGCNN [46]中的卷积算子来定义两个相邻提议之间的边缘特征eij：真理中心，因为正确的地面真理对象是模棱两可这是当d1> 0时的情况。其中di是到第i个最近的地面实况中心的距离积极的建议被进一步监督以预测语义类、聚合特征和二进制掩码。消极的被忽略。我们使用交叉熵损失Lsem。来预测最接近的地面实况对象的语义标签聚合功能。以前的方法，如VoteNet [29]或3D-BoNet[49]依赖于非最大抑制（NMS）来获得最终对象。NMS迭代地选择具有最高客观性分数的建议，并删除与特定IoU重叠的所有其他建议然而，这对客观性分数的质量很敏感，并且可能会丢弃正确的预测。而不是拒绝潜在的有用信息，我们结合多个propos- als。为此，我们学习每个专业的聚合功能，然后使用DBScan[13]进行聚类。其聚合特征在同一集群中结束的所有建议被聚合在一起，产生最终的对象检测。最后一个对象的点是在组合提案的前景掩模上。由于建议的数量相对于完整点云（N=106）而言相对较少（K=500），因此此步骤非常快eij= hΘ.Σ[yi，gi]，[yj，gj]−[yi，gi]、（3）（1.8ms）。这是一个显著的优势，点云[10，19]，这可能是令人望而却步的缓慢。我们研究两种类型的聚合特征：其中hΘ是具有可学习参数θ和[·，·]表示级联。图卷积网络由l个堆叠的图卷积层组成虽然我们的方法在没有GCN细化的情况下也可以工作（即，l=0），我们使用l=10观察到最佳结果（第二节）。4）.1几何特征{ki∈RE=4}K由精细的3D对象中心预测ki和1D对象组成半径估计损失定义为：拉。为||y i+ y i− c||H+ ||r i− r||H（4）我我总而言之，在提案整合过程中，GCN了解到其中，c是最近的地面实况对象中心，r是改进的提案功能{h∈RD′}Kgiv en初始ii我建议特征{gi∈RD}Ki=1（图 2，Q□）。最近的地面实况对象边界球体的半径。i=12嵌入特征{由一个3.3. 物体生成在这个阶段，我们有K个提议{（yi，hi，si）}K与判别损失函数[4]。这一损失已经被...完全适用于3D实例分割[10，19]。它i=1位置yi、细化特征hi和点集si。的由三项组成：L啊。=Lvar. +L区+γ·Lreg.目标是从这些建议中获得最终的语义实例（或对象检测）。为此，我们为每个建议预测一个语义类，一个聚合特征向量，一个对象得分和一个二进制前景-L变种为1个C 1Cc=1NCCCNCi=1[||µ C− i||− δ v] 2（五）在与提议相关联的点si上的背景掩模。具体而言，建议的特点hi是-L区为1℃C（C−1）[2δd−||µCA -µCB||]2（六）输出到输出大小为（128，128，Dout）的MLP，其中A=1B=1D出局=S+E+ 2，具有S个语义类，E维A/=B聚合功能和2D（正，负）客观分数（图）。 2，Q□）。客观性得分[29，35]将提案分为1Lreg.=CΣCC=1||（七）||(7)正面或负面的例子。它通过交叉熵损失Lobj来监督。.地面实况中心附近的建议（<0。3m）被归类为阳性。它们被分类为负，如果它们远离（> 0。6米）从任何地面9035在我们的实验中，我们设置γ = 0。001和δ v= δ d=0。1.一、C是地面实况对象的总数，NC是属于一个对象的建议的数量 L变种将属于同一实例的要素拉向其均值Ldist。9036将具有不同实例标签的集群推开，并且Lreg。是将均值拉向原点的正则化项。更多的细节和直觉可在origi-DeBrabandere等人的最终工作。[4]的文件。节中4，我们将证明几何特征优于嵌入特征。掩模预测。每个肯定的建议在与该建议相关联的点si上预测一个与类别无关的二进制分割掩码，其中每个建议i的点数为|SI|=ni（图 2，Q□）。现有方法获得通过分割2D感兴趣区域（RoI）（掩模-RCNN [17]）或3D边界框（3D-BoNet [49]）。由于我们采用以对象为中心的方法，因此可以直接在与提案相关联的点s i上执行掩模分割。特别是，对于每个提案，我们选择投票支持cen的点的每点特征fi，3D对象检测ScanNetV2 mAP@25% mAP@50%安全局[37]MRCNN 2D-3D [17] 17.3 10.5F-PointNet [30] 19.8 10.8GSPN [50] 30.6 17.73D-SIS [18] 40.2 22.5VoteNet [29] 58.6 33.53D-MPA（我们的）64.2 49.2表1：ScanNetV2[6]验证集上的3D对象检测分数。我们报告了每类平均精度（mAP），IoU为25%和50%。IoU是在边界框上计算的。所有其他评分如[29]中所报告。ter在提议位置yi的距离r内。为了-通常，所选每点要素的集合被定义为Mf={fi|<$（xi+<$xi）−yi<$2

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

面向3D语义实例分割的多建议聚合网络

3D-MPA:[CVPR 2020]用于3D语义实例细分的多提案聚合

实例分割和语义分割的区别

实例分割和语义分割有什么区别

语义分割与实例分割的区别

语义分割和实例分割的区别是什么

语义分割和实例分割的优点与缺点

语义分割和实例分割的

实例分割 语义分割目标识别

图像实例分割和图像语义分割有什么区别

两个语义分割实现实例分割

语义分割与实例分割和全景分割的区别？

语义分割和实例分割_【图像分割模型】实例分割模型—DeepMask

实例分割比语义分割的优势

实例分割算法与语义分割算法

标准语义分割和实例语义分割

深度学习中，实例分割和语义分割有什么区别

基于SpringBoot仿天猫购物系统.zip(毕设&课设&实训&大作业&竞赛&项目)

Python网络爬虫与推荐算法新闻推荐平台(毕设&课设&实训&大作业&竞赛&项目)

THUCNews数据集

Q音：Vue3+Pinia+Vue Router4+Vant4的移动端仿抖音短视频项目.zip(毕设&课设&实训&大作业&竞赛&

最新资源

实例分割语义分割目标识别