基于几何先验的弱监督点云实例分割方法的研究

82 浏览量更新于2023-10-16 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4271基于几何先验的杜鹤鸣1、2、3、于欣2、Farookh Hussain2、Mohammad Ali Armin3、Lars Petersson3、李伟豪31澳大利亚国立大学、2悉尼科技大学、3Data61、CSIRO摘要本文研究如何利用更容易获得的注释，即，3D边界框而不是密集的逐点标签，例如分割。我们提出了一个带有几何先验的弱监督点云实例分割框架（WISGP），该框架允许使用实例的3D绑定框来训练分割模型。考虑到场景中边界框之间的相交会导致模糊的标记，我们首先将点分组为两个集合，即，单义集和不确定集，分别指示3D点对实例的确定性。具体地，具有清晰标签的3D为了给可疑集中的点分配可靠的标签，我们设计了一个几何引导的标签传播（GLP）方案，该方案基于几何结构将标签逐步传播到链接的点，例如，多边形网格和超级点。然后，我们用GLP标记的唯一点和可疑点训练一个实例分割模型，然后用它为剩余的未标记点分配伪标签。最后，我们使用所有标记点重新训练模型，以实现更好的实例分割性能。在大规模数据集ScanNet-v2和S3 DIS上的实验表明，WISGP算法优于弱监督算法，甚至可以与一些全监督算法相媲美。1. 介绍点云实例分割的目的是将3D点分类为多个感兴趣的对象。目前的方法[9，4，25，16，2]通常需要点级别的实例标签进行训练，其中语义和实例标签被手动分配给每个点。在每个场景中标记数百万个点通常是费时费力的[21]。相比之下，使用3D实例边界框注释实例所需的工作量要少得多。虽然已经广泛研究了使用点级注释的学习，但是缺乏利用例如3D边界框的解决方案细分虽然社区已经看到了完全监督点云实例分割的有效解决方案[27，20，4，9]，但缺乏弱监督问题的解决方案。一方面，直接应用现有的全监督方法来适应3D边界框将导致显著的准确性降低，因为在多个边界框中展示的点将给网络训练引入严重的模糊性。另一方面，尽管几个现有的作品[10，28，29]已经研究了利用涂鸦，图像标签和边界框进行2D实例分割，但由于2D像素和3D点的独特性质，使它们适应点云并不简单。鉴于上述考虑，我们提出了一个弱监督的点云实例分割框架3D点通常属于以下情况之一：（i）点不在任何边界框内，因此被视为背景，或者(ii)一个点位于一个或多个包围盒中，这是我们研究的重点。基于标签的可靠性，我们将标签清晰的点分组到一个单义集合中.一般来说，这些点只存在于一个绑定框中，因此它们的标签是可信的。与逐点实例遮罩不同，3D边界框可能相交，甚至包含彼此。因此，估计相交区域内的点的标签是具有挑战性的。我们把这些点归为一个等价集.由于模棱两可的点没有明确的标签，我们建议探索可靠的标签分配的单义和模棱两可的点具体地说，我们采用两种通用的和基本的点云结构表示，即，多边形网格和超级点，以捕捉场景的局部几何形状。在这里，多边形网格意味着不同点之间的几何连接然后，我们介绍-1请注意，在注释过程中已删除错误的3D点4272提出了一种基于几何先验知识的几何引导标签传播（GLP）算法，将单义点的标签逐步传播到不义点。通过这种方式，我们可以为不确定集中的点生成鲁棒标签。在GLP之后，由于3D点之间的几何连接不完整或缺失，一些可疑点仍然受伪标记[14]的启发，我们通过探索标签与标记点的高级语义相似性来将标签传播到未标记点因此，我们训练一个实例分割网络与univocular集和由几何诱导pri- ors标记的可疑点。一旦网络被训练好，我们就用它来为未标记的可疑点分配伪标签。在获得可疑点的伪标签后，我们将重新训练实例分割网络以追求更好的性能。在两个常用的室内三维数据集ScanNet-V2 [3]和S3 DIS [1]上的实验证明了该方法的有效性特别是，我们的方法显著优于基线，并实现了与完全监督方法PointGroup [9]相当的性能。此外，我们的方法是骨干不可知的，并且可以方便地并入现有的3D点云实例分割网络，即，要点-[16][17][19][19][19]2. 相关作品全监督点云实例分割。点云实例分割方法[27，27，7]将3D点分组为不同的对象并预测其类别。它们可分为两类：自上而下和自下而上自上而下的方法采用检测后分割的范例。例如，3D-BoNet [27]直接回归所有实例的边界框，然后预测实例掩码。Hou等人[7]通过融合几何和颜色线索来预测边界框和估计实例掩码Liu等[20]提出一个高斯实例中心网络来预测实例中心热图。自底向上方法首先获得逐点的语义标签，然后将点分组为实例。Liu等[19]利用稀疏卷积来处理点云，然后预测点亲和性。Wang等人[25]建议同时分割实例和语义。Jiang等[9]估计点到对象中心的偏移以聚类3D实例。Engelmann等人[4]引入图形卷积网络来细化提案特征。此外，Lianget al. [16]和Chenet al. [2]通过采用分层聚合方案来改进分段性能上述方法在训练中需要点级别的标签，并且当只有弱注释可用时，它们将遭受显著的性能下降。弱监督2D实例分割。实例分割预测语义标签和实例。每个像素的站数。由于获得像素级注释非常耗时，因此弱监督学习是绕过昂贵注释的另一种方法。以往的工作主要是通过先生成伪掩模，然后再对分割模型进行再训练来完成这一任务。Khoreva等人[10]提出了弱监督语义标记，以从2D边界框生成实例级伪标签。Zhou等[29]利用类激活映射[28]来获得实例级表示。Li等[15]引入变分平滑以产生高质量伪掩模。然而，由于二维像素和三维点的不同性质，这些方法不适合解决点云实例分割。半/弱监督3D语义分割。半监督式3D语义分割方法仅利用标注的3D点的一小部分作为监督来学习语义分割。Xu等[26]未标记点与标记点的近似梯度Hou等人[8]标记0.1%的点，并通过对比学习编码空间信息来训练3D语义分割网络此外，Liuet al. [21]引入自训练语义分割方法，从每个对象的一个点生成语义伪标签请注意，Liuet al.的方法侧重于语义分割，而不是实例分割。与这些方法相比，我们的工作侧重于实例分割而不是语义分割。此外，与上述稀疏点监督不同，三维包围盒标注不可避免地会给网络训练引入噪声监督Liao等人[17]提出了一种以部分包围盒作为监督的半监督点云目标检测与实例分割框架（SPIB）。与SPIB专门设计的架构不同，我们的方法被设计成一个通用的模型无关的框架，具有较弱的监督。3. 该方法在这项工作中，我们设计了一个弱监督的点云实例分割框架与几何先验（WISGP）分割实例从三维包围盒的符号。我们首先将可以从3D边界框获得显式标签的点分组到一个单义集合Pu中。然后，我们将其余的点分组到一个不确定的集合Pe中，并提出几何引导的标签传播（GLP）来为这些点提供高置信度的标签。特别是，我们引入几何先验，即，多边形网格和超点，以在3D点之间建立局部几何连接，然后迭代地将可靠标签传播到可疑点。GLP后，未标记的点可能仍然存在。为了完成最后一块拼图，我们预测高度自信的伪标签，然后将它们分配给剩余的4273图1：WISGP的管道。点云分为两个互补的集合：单义集和歧义集。我们分配标签的univocular点和传播标签的模棱两可的点与几何先验的帮助然后，我们训练一个实例分割模型与标签的univocular点和几何诱导标签生成伪标签。最后，我们用获得的标签重新训练点云实例分割模型。未标记的点。最后，我们用高质量的点级标签训练了一个实例分割模型，如图1所示。3.1. 单义集和二义集我们观察到，点之间的空间关系和它们所占据的边界框可以粗略地确定一个3D点属于一个实例的确定性。基于点的确定性，我们将点分成两个完备集：一个单义集和一个歧义集。然后，我们建议以高置信度传播标签（即，单义点）到不确定点（即，模棱两可的观点）。通过这种方式，我们可以获得更高置信度的点标签，用于实例分割。单音集。我们将可以从3D边界框获得置信标签的点分类到一个单义集合P u中。仅由单个边界框包围的点被分配给边界框的标签，并且被视为唯一点。同时，我们发现，一些错误的点可能会导致不准确的3D配准对象的边界框。对于这些点，我们通过边界框手动标记它们，然后在不增加标记工作的情况下删除它们，如图2a所示。此外，对于在所有边界框之外并且不属于任何感兴趣对象的模棱两可的集合。对于位于边界框相交区域的点，直接基于标注的3D边界框为其分配标签是具有挑战性的由于一个点只来自一个特定的对象，为一个点分配多个标签将引入ambi-错误，从而在训练期间误导实例分割网络。例如，如图2b所示，灰点位于两个3D边界框的交点将它们误用为椅子点或忽略它们将使网络误解椅子和其他对象的3D结构，即，桌子在这种情况下。因此，在实例分割中区分位于多个3D边界框的相交区域中的点以推断正确的对象结构是重要的。为此，我们将位于多个3D包围盒相交区域的点分组为一个模糊集合Pe，然后探索点云的局部几何先验和高层次语义相似性，为模糊点提供可靠的标签，这是我们的关键贡献之一。3.2. 单义点标签指定我们首先通过将第i个3D边界框Bi的语义类Ci和实例身份idi分配给驻留在边界框Bi中的单义点来确定单义集中的点的标签Lu。此外，我们注意到，一些不属于任何感兴趣的类或属于背景的点偶尔会包含在边界框中对于它们，我们没有手动删除它们，因为它们是物理点，但不属于任何类别。事实上，我们希望网络能够在训练中学习对象的统计结构，从而忽略将这些点合并到单义集合中的副作用最后，所有3D边界框之外的点被视为背景点。三维边界框单义集标记单义集WISGP标签3D实例分割模型点云可疑集伪标签集预测伪标签3D实例分割模型几何引导的标签传播网格超点基于几何的标签实例分割预测几何先验伪标签4274(1)三维边界框||三维边界框注释（一）单一（红色）不明确（灰色）（b）第（1）款(2) GLP标记点(3) 伪标记（c）第（1）款图2：解决不同类型问题的不同策略。(a)类别外和错误点的说明。微波不属于ScanNet-v2中的注释类别，（a）右上角的红点属于微波。在（a）的右下角，红点是由3D配准或重建过程不准确引起的错误点(b)演示两个3D边界框的相交区域。红色和灰色的边界框表示椅子和桌子的边界框。红色点属于单义集，而位于交叉点的不明确点以灰色突出显示。(c)伪标记未标记的可疑点。在（c）的左下角，GLP分别用红点和蓝点然而，由于点之间缺少几何连接，在GLP之后，灰色可疑点仍然未标记在（c）的右侧，我们通过伪标记来传播这些未标记的可疑点的标签3.3. 不明确的点标签分配为了在实例分割中充分利用边界框注释，我们的目标是进一步挖掘模棱两可集合中的信息。我们的动机是传播标签的univocular点Lu的模棱两可的点是几何连接到univocular点。具体地说，由于模糊点位于相交体中，我们首先测量三维包围盒之间的相对空间关系，以确定是否需要标记分割。然后，引入几何先验知识，包括多边形网格和超点，推导出点与点之间的关系.几何先验为我们提供了强有力的线索，以高置信度传播标签3.3.1包围盒空间关系推理重叠的3D边界框之间的空间关系通常分为两种情况：（i）包含关系：一个边界框位于另一个边界框中，或者（ii）重叠关系：边界框与其他边界框相交。为了推导边界框的空间关系，我们计算交集得分S i|j= |Pi∩Pj|在这一点上重叠集，并且我们将第i个和第j个3D边界框之间的关系标记为重叠关系。3.3.2通过几何先验的点标签传播。根据三维包围盒之间的不同空间关系，我们提出了一个几何引导的标签传播（GLP）计划，以估计在不同的场景中的歧义点的语义标签如下。包容关系。如果相交分数S i|j表示两个边界框之间存在包含关系，我们假设相交区域中的所有点主要表示被包含的边界框包围的对象。换句话说，令Bi表示包括在另一边界框Bj中的3D边界框，并且位于相交区域中的不确定点属于由Bi指示的实例。因此，我们将封闭的边界框Bi的语义标签ci作为这些模棱两可的点。请注意，如果一个边界框已被另一个边界框包围，但仍与其他边界框有部分重叠，则边界框中的重叠点不应由边界框的标签标记一级PiPi表示位于相反，我们将切换到重叠场景来标记第i个边界框。在我们的实验中，我们将相交分数阈值设置为0.9。如果Si超过阈值，则点集Pi是Pj的子集换句话说，第i个3D边界框被认为包含在第j个3D边界框中。否则，P i和P j被视为边界框的不确定点。重叠关系。当多个边界框重叠时，我们的目标是为每个模糊点指定一个特定的语义类别。为了实现这一目标，我们根据as-类别外点错误点4275--（一）（b）第（1）款（c）第（1）款图3：几何引导标签传播的图示。(a)基于网格的标签传播。(b)基于超点的标签传播。未标记的可疑点以灰色突出显示，而红色和绿色点分别表示属于两个不同实例的点。给定超点，我们不仅将标签传播到未标记的点，而且平滑每个超点中的噪声标签。(c)随着迭代的进行，几何引导的标签传播。标记的点以蓝色亮显。中间迭代结果的可视化将在补充材料中提供。周围点的带符号标签。具体地说，我们选择最常见的语义类从n个邻居作为签署的语义标签C = c1，. . . ，c n，其从单义点开始，如图3a所示。考虑到点云数据的稀疏性和不规则性，用欧氏距离进行邻域点检索可能不合适，且会忽略对象的几何结构和场景布局。为了解决这个问题，我们引入多边形网格来建立点之间的几何关系，然后测量两个点之间的关系。具体而言，被相同多边形网格包围的点被视为邻居，并且网格通过March- ing Cubes算法[22]从3D点云构建此外，我们引入了超点[16]来平滑局部区域中的语义标签，如图3b所示。在我们的实验中，超级点是手工制作的基于图形的分割方法的结果给定点坐标和颜色，基于图的分割方法根据它们的外观和空间位置相似性将网格连接的顶点分组为一个超点。尽管基于图的分割器的结果仍然是粗糙的，但是超点可以向多边形网格提供互补的多亏了超点，我们可以更可靠地传播语义标签。为了在很大程度上扩展标签，我们迭代地运行GLP，如图3c所示（中间迭代的当没有更多的点被合并时，我们的GLP终止。实例标签传播。实例标签对于3D实例分割模型训练也是必不可少的。在为模棱两可的点分配语义标签之后，我们还需要确定这些点的实例标签由于对象拥有唯一的语义和实例标签，因此对象实例中的点应该共享相同的语义标签。在此之后，我们利用语义的la-在将实例标签分配给不确定点时，将bels作为约束。具体来说，对于每个歧义点，我们首先从与歧义点具有相同语义标签的相邻点在这里，我们只考虑相邻点与作为签署的实例标签的标签传播.类似于语义标签估计，我们使用多边形网格而不是欧氏距离来搜索可疑点的邻居。此外，我们还通过迭代重复相同的过程将实例标签传播到更大的区域，如图3c所示（实例标签传播的中间结果将在后续材料中显示未标记的可疑点上的伪标记。在GLP之后，由于3D点之间的几何连接不完整或缺失，一些不确定的点仍然未标记。如图2c所示，未标记的等效点通常位于孤立区域中，而不与标记点几何连接。受[14]的启发，我们的目标是预测未标记的等价点的伪标签，表示为伪标签集Ppl。伪标号集是模糊集Pe的子集。通过这种方式，我们能够为最终的实例分割学习获得更多的标记点。在这里，我们通过神经网络学习的高级语义相似性和实例接近度来传播标签信息。考虑到GLP标记的单义集和歧义集的标签是可靠的，我们只通过实例分割网络生成Ppl具体来说，我们首先用单义点和GLP标记的歧义点的标签训练实例分割模型。然后，我们将训练模型预测的伪标签分配给未标记的可疑点。因此，我们从3D边界框获得点级标签然后，我们可以用生成的点级标签训练一个实例分割网络请注意，我们的标签生成过程是通用的，4276∗∗方法[9]第九届全国政协委员基线<$WISGP[16]第十六话基线WISGP地图AP@50 mPrec mRec-0.578 0.619 0.6420.232 0.352 0.4070.335 0.486 0.5002009年12月31日2017年12月31日0.372 0.510 0.443 0.567表1：在ScanNet-v2上使用PointGroup [9]和SSTNet [16]训练的不同监督的比较。上半部分显示了PointGroup的结果，下半部分显示了SSTNet的结果。具体而言，每个部分的顶行分别显示了PointGroup和SSTNet在完全监督下的结果底部显示了弱监督的实例分割模型的结果。代表了全面监督的模式。†表示使用PointGroup作为分割模型，而RST表示在训练中采用SSTNet。方法地图浴缸其他的。床图片booksh。冰箱。内阁澡椅子水槽计数器沙发窗帘表书桌厕所门窗口[9]第九届全国政协委员0.348零点五九七0.3390.3760.2080.2670.246零点二五三0.416零点七一二0.2980.069个单位0.4340.2660.385零点一四0.7580.2290.275基线†0.251零点三一三0.2480.2430.219零点二三二0.2350.197个单位0.2610.5720.1210.055个单位0.3340.2650.209零点零五0.631零点一三一0.197WISGP †0.3130.4020.3090.3470.2620.2620.3070.2720.3310.6910.2380.0590.339零点一九0.3910.0870.7370.1820.224[16]第十六话0.4940.7770.520零点五六0.4030.2580.438零点四零六0.4890.8180.5490.2250.526零点三八四0.5570.2810.9290.4290.343基线‡0.293零点二九0.3120.3510.3390.2480.3220.1860.2530.6610.171零点零九二0.427零点二零八0.343零点零三0.6650.233个单位0.257WISGP0.3520.4550.3300.3280.2840.2380.3140.3040.3210.7530.3290.088个单位0.4270.2390.3940.1760.8340.2780.259表2：S3DIS上的结果。、†、表示完全监督模型、PointGroup主干和SSTNet主干。nostic对不同的点云实例分割网络。4. 实验为了验证所提出的WISGP的有效性，我们在具有挑战性的真实世界场景上进行了广泛的实验，ScanNet-V2 [3]数据集和S3 DIS [1]。此外，为了证明我们提出的方法的优越性时，只有边界框注释是可用的，我们比较了两个国家的最先进的实例分割架构，即，[16]第16话，PointGroup [9]采用具有子流形稀疏卷积（SSC）和稀疏卷积（SC）[6]的U-Net架构，并预测每个点的语义得分和偏移PointGroup根据语义和亲和力预测，使用原始坐标和移动坐标将点两次聚类到实例中。SSTNet [16]采用基于稀疏卷积的U-Net同时表3：ScanNet-v2验证集与SPIB [17]的比较†、分别表示PointGroup主干和SSTNet主干请注意，SPIB使用所有的训练注释。方法mAP AP@50 AP@25SPIB [17]--0.614WISGP †0.3130.5020.649WISGP0.3520.5690.702预测语义和亲和力。此外，SSTNet还提出了一个语义超点树网络来聚类点，并提出了一个语义超点树网络来修剪实例分组过程中的错误。为了澄清，当我们比较不同的方法时，我们采用与竞争方法相同的网络架构。4.1. 数据集和评价ScanNet-v2[3]有1，613个室内场景和18个实例类。数据集分为训练、验证和测试，分别包含1，201、312和100个场景。我们通过遵循VoteNet [24]中的程序获取3D边界框由于边界框注释不标记地板和墙壁类别，因此我们将这两个类别视为ScanNet-V2中的背景类。S3DIS[1] ，被称为斯坦福 3D 室内场景数据集（S3DIS）数据集，包含6个大型室内区域，271个房间。场景点云中的每个点都由13个语义类别之一进行注释。按照标准的训练和测试划分[1，9]，我们训练方法，4277表4：不同点集的影响。表5：伪标签的影响。伪标签单义集和二义集mAP AP@50 AP@250.282 0.513 0.674不确定的单独设置2009年12月31日区域1，2，3，4，6，然后在区域5上评估它们。此外，我们采用了Stanford 2D-3D-Semantics（2D-3D-S）数据集[1]中提供的3D边界框我们在训练数据集上训练我们的模型，并在ScanNet-V2的验证集和S3 DIS的测试集上进行评估。为了确保公平性，我们报告了使用与比较方法相同的训练时期训练的模型的性能。对于消融研究，我们使用PointGroup作为实例分割网络来证明我们提出的组件的贡献根据工作[3]，我们使用广泛采用的评估指标：重叠0.25（mAP@25）、重叠0.5（mAP@50）和重叠范围[0. 五比零05：0。95]（mAP）。同时，与方法[9，16]类似，我们采用平均精度（mPrec）和平均召回率（mRec），IoU阈值为0.5，以评估S3DIS数据集上的方法。4.2. 实现细节我们使用Adam优化器[11]在ScanNet-v2数据集上训练Point- Group [9]，批量大小为12，学习率为10−3。我们在4台Nvidia P100上训练了384个epoch的模型50小时。此外，遵循ScanNet-v2上公开发布的SST-Net [16]训练配置，我们使用AdamW优化器[23]训练SSTNet512个对于S3 DIS的训练，我们采用与ScanNet-v2类似的配置。此外，ScanNet-v2和S3 DIS中提供了表面网格。具体而言，使用隐式TSDF上的Marching Cubes算法[22]获取表面网格。ScanNet-v2的超点是通过应用3D自适应的基于图形的分割算法获得的[5，3]。对于S3DIS的超级点，我们采用监督超级点（SSP）[12]和超级点图（SPG）[13]来生成点云上的超级点，遵循SSTNet [16]中的程序。请注意，我们的几何先验，即.在数据预处理过程中产生了曲面网格和叠加点。因此，在训练中，没有额外的时间消耗在表面网格和超点生成上。我们将发布我们的代码和数据，以促进可重复性和未来的工作。4.3. 主要结果我们在表1和表2中展示了WISGP实例分割模型在ScanNet-v2验证集和S3 DIS测试集上的性能。为了证明我们的方法的改进，我们将在单义集上训练的模型作为我们的基线。如表1所示，WISGP在ScanNet-v2上的性能远远优于相应的基线。与基线相比，我们的结果在PointGroup上高出24%，在SSTNet上高出20.1%。同时，我们的弱监督方法分别实现了全监督PointGroup和SSTNet的89.9%和71.2%使用PointGroup，WISGP在除窗帘外的所有类别上都实现了比基线更高的性能。使用SST-Net，WISGP在18个类中的13个类上实现了比基线更高的性能我们注意到，包含在其他3D边界框（如图片和冰箱）中的对象边界上的点因此，使用我们的框架训练的模型显著优于基线。此外，由于Liaoet al.[17]没有发布代码和相关数据，例如细分，很难提供其他评估指标的可比结果。因此，我们在 mAP@25 上比较SPIB ，并且 WISGP 在 mAP@25 上的表现比 SPIB 好8.8%，如表3所示。一般来说，具有点级别标记的完全监督方法可以被认为是具有边界框注释的弱监督方法的上界令人惊讶的是，我们观察到WISGP在4个类（例如，cabinet和picture）。此外，WISGP还在S3DIS的所有评估指标上实现了PointGroup和SSTNet基线的显着改进我们的方法比PointGroup的基线高44.4%，在mAP上比SSTNet的基线高31.9%。与此同时，WISGP实现了PointGroup或SSTNet 主干的完全监督版本的近 82% 性能。与ScanNet-v2相比，S3 DIS中房间的网格相当粗糙，这意味着在同一网格面上会有多个点。因此，我们进一步建立联系单义集模棱两可设置地图 AP@50 AP@25GLP GLP GLP伪含内含物，含补片，含超点标记✓✓✓✓0.2510.2710.4820.4760.6430.634✓✓✓0.262 0.4820.662✓✓✓✓0.289 0.5150.676✓✓✓✓✓0.313 0.5290.6934278在相邻网格面之间的点之间。正如预期的那样，我们的WISGP模型在S3DIS上的基线上获得了显着的改进。总而言之，WISGP在ScanNet-v2和S3 DIS上的优异性能意味着WISGP由于具有通用的局部几何先验而具有很好的泛化能力。由于页数限制，我们的方法在两个数据集上的视觉结果在补充材料中提供。4.4. 消融研究不同点集的影响。为了分析使用不同集合的模型训练的影响，我们展示了采用（i）单义集合（Uni- vocalSet），（ii）单义和标记的不确定集合（Univocal +full GLP）以及（iii）3D场景中的所有点（WISGP）的比较与仅在单义集上训练的模型相比，GLP通过根据几何先验将标签传播到等位置点来提高该比较表明，GLP组件提供了一些具有可靠标签的不明确点。有了这些可靠的标签，分割模型提高了实例分割的准确性。此外，在未标记的可疑点上采用预测伪标签后，我们观察到进一步的性能改善。这意味着我们的伪标签的有效性。基于不同几何原理的标签传播。为了分析几何先验的影响，我们提出了在标签传播中使用不同几何先验的不确定点的消融，如表4所示。我们分别从GLP中删除多边形网格和超点，并注意到这两个几何先验提高了分割模型的性能。此外，与没有超级点的GLP相比，我们观察到基于超级点的局部区域中的平滑标签导致ScanNet-v2的显着改进。伪标签的影响表5示出了在（i）单义和标记的歧义集合、（ii）标记的歧义集合和（iii）未标记的集合上生成伪标记的比较。如表5所示，将伪标签分配给单义集或标记的歧义集都会降低实例分割的性能。这意味着从3D边界框和几何先验获得的单义点和可疑点的标签都更可靠。另一方面，在采用GLP之后，不确定集中的一些点此外，在伪标记未标记的歧义点后，我们观察到性能的改善。这表明这种使用伪标记的方式更合适，因此我们的方法可以更好地利用三维点的信息。图4：在不规则形状的对象上演示WISGP标签。5. 讨论与局限性与点级别的注释不同，边界框可能无法有效地注释高度不规则的对象。这将影响最终实例分割性能。然而，高度不规则的物体很少出现在我们的实验中。在图4中，我们的方法可以在具有不规则形状的对象上产生可靠的标签，即，半环形沙发，通过引入几何先验。这表明我们的WISGP实现了良好的泛化能力。另外，在标记边界盒时，某些感兴趣类别之外的物点可能出现在一个单义集合中。这些点可能会降低最终分割性能，因为网络可能会将它们识别为感兴趣的类别之一。为了改善这个问题，我们实际上可以要求注释者在标记过程中删除那些与错误点相似的对象，而不需要增加太多的手动工作。6. 结论本文提出了一种充分利用点云局部几何先验知识的弱监督点云实例分割框架WISGP。受益于引入由多边形网格和超级点表示的局部几何先验，我们的框架有效地将可靠的点级标签传播到多个边界框内的相邻点。我们进一步利用伪标记来将标记传播到与标记的点共享高级语义相似性的未标记的点。通过充分探索三维场景的几何更重要的是，我们的框架是模型不可知的。使用我们的WISGP，完全监督的方法可以很容易地与3D边界框和符号相适应，用于实例分割。4279引用[1] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2月2017年。[2] Shaoyu Chen，Jiemin Fang，Qian Zhang，Wenyu Liu，and Xinggang Wang.用于三维实例分割的层次聚合。在IEEE/CVF国际计算机视觉会议（ICCV）的会议记录中，第15467-15476页[3] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页[4] Francis Engelmann ， Martin Bokeloh ， Alireza Fathi ，Bastian Leibe，and Matthias Nießner. 3d-mpa：用于3d语义实例分割的多提议聚集。在IEEE/CVF计算机视觉和模式识别会议上，第9031-9040页[5] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59（2）：167[6] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv：1706.01307，2017。[7] Ji Hou ， Angela Dai ， and Matthias Nießner.3D-SIS ：RGB-D扫描的3D在IEEE/CVF计算机视觉和模式识别会议论文集，第4421-4430页[8] Ji Hou ， Benjamin Graham ， Matthias Nießner ， andSaining Xie.利用对比场景环境探索数据有效的3d场景理解。在IEEE/CVF计算机视觉和模式识别会议论文集，第15587-15597页[9] 李江，赵恒双，史少帅，刘舒，傅志荣，贾佳雅.Pointgroup：用于3D实例分割的双设置点分组。IEEE计算机视觉和模式识别会议（CVPR），2020年。[10] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议论文集，第876-885页[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[12] Loic Landrieu和Mohamed Boussaha。点云过度分割与图形结构的深度度量学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第7440-7449页[13] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割在IEEE计算机视觉和模式识别会议上，第4558-4567页[14] Dong-Hyun Lee等人伪标签：提出了一种简单有效的深度神经网络半监督学习方法，工程.在表征学习挑战研讨会上，ICML，第3卷，第896页，2013年。[15] Yi Li，Zhanghui Kuang，Liyang Liu，Yimin Chen，andWayne Zhang.伪掩码在弱监督语义分割中很重要。在IEEE/CVF国际计算机视觉会议，第6964[16] Zhihao Liang，Zhihao Li，Songcen Xu，Mingkui Tan，and Kui Jia.基于语义超点树网络的三维场景实例分割。在IEEE/CVF计算机视觉国际会议论文集，第2783- 2792页[17] 廖永斌，朱宏远，张杨刚，叶闯关，陈涛，范家源.基于半监督边界盒挖掘的点云实例分割。 IEEETransactionsonPatternAnalysisandMachineInteligence，2021。[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[19] 陈柳和古川康孝。Masc：用于3d实例分割的稀疏卷积多尺度arXiv预印本arXiv：1902.04478，2019。[20] Shih-Hung Liu，Shang-Yi Yu，Shao-Chi Wu，Hwann-Tzong Chen，and Tyng-Luh Liu.学习高斯实例分割点云。arXiv预印本arXiv：2007.09860，2020。[21] Zhengzhe Liu，Xiaojuan Qi，and Chi-Wing Fu.一件事一个点击：一种自训练的弱监督三维语义分割方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第1726-1736页[22] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。ACM siggraph计算机图形学，21（4）：163[23] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。[24] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。在IEEE国际计算机视觉会议论文集，2019。[25] Xinlong Wang ， Shu Liu ， Xiaoyong Shen ， ChunhuaShen，and Jiaya Jia.关联分割点云中的实例和语义。在IEEE/CVF计算机视觉和模式识别会议论文集，第4096-4105页[26] Xun Xu和Gim Hee Lee。弱监督语义点云分割：标签减少10倍。在IEEE/CVF计算机视觉和模式识别会议上，第13706-13715页，2020年[27] Bo Yang，Jianan Wang，Ronald Clark，Qingyong Hu，Sen Wang，Andrew Markham，and Niki Trigoni.学习物体边界框用于点云上的3d实例分割。arXiv预印本arXiv：1906.01140，2019。4280[28] Bolei Zhou ， Aditya Khosla ， Agata Lapedriza ， AudeOliva，and Antonio Torralba.学习深度特征以用于区分性定位。在IEEE计算机视觉和模式识别会议论文集，第2921-2929页，2016年。[29] 周延照，朱毅，叶启祥，邱强，焦建斌.使用类峰值响应的弱监督实例分割。在IEEE计算机视觉和模式识别会议论文集，第3791- 3800页

下载后可阅读完整内容，剩余1页未读，立即下载