SoftGroup：一种用于点云上的3D实例分割的方法，通过自下而上的软分组和自上而下的优化，允许每个点与多个类别相关联，减轻语义预测错误带来的问题，抑制假阳性实例，并在不同数据集上表现出有效性和快速速度

80 浏览量更新于2023-10-25 收藏 18.3MB PDF 举报

问题解决

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

27080SoftGroup用于点云上的3D实例分割0Thang Vu Kookhoi Kim Tung M. Luu Thanh Nguyen Chang D. Yoo韩国科学技术院（KAIST）0{thangvubk, rlarnrghlapz, tungluu2203, thanhnguyen, cdyoo}@kaist.ac.kr0摘要0现有的最先进的3D实例分割方法在进行语义分割后进行分组。在进行语义分割时，硬预测会使每个点与一个类别相关联。然而，硬决策产生的错误会传播到分组中，导致（1）预测实例与真实值之间的重叠度低，（2）大量的假阳性。为了解决上述问题，本文提出了一种称为SoftGroup的3D实例分割方法，通过进行自下而上的软分组，然后进行自上而下的优化。SoftGroup允许每个点与多个类别相关联，以减轻语义预测错误带来的问题，并通过学习将它们分类为背景来抑制假阳性实例。在不同数据集和多个评估指标上的实验结果证明了SoftGroup的有效性。其性能超过了最强的先前方法，在ScanNet v2隐藏测试集上的AP50方面提高了6.2％，在S3DIS Area5上提高了6.8％。SoftGroup还具有快速的速度，在ScanNetv2数据集上每个扫描运行时间为345毫秒，使用单个TitanX。这两个数据集的源代码和训练模型可在https://github.com/thangvubk/SoftGroup.git上获得。01. 引言0对于3D数据的场景理解已经引起了越来越多的关注，这是由于3D传感器的快速发展和大规模3D数据集的可用性。点云上的实例分割是一项3D感知任务，为自动驾驶、虚拟现实和机器人导航等各种应用提供了基础。实例分割处理点云以输出每个检测到的对象的类别和实例掩码。最先进的方法[4,15,20]将3D实例分割视为自下而上的流程。它们学习点级语义标签和中心偏移向量，然后将相同标签的点进行分组。0语义真实值0语义预测0不使用SoftGroup的实例预测0使用SoftGroup的实例预测0柜子其他家具0语义颜色映射0图1.使用相同语义预测结果的SoftGroup和非SoftGroup的实例分割。最后一行仅显示语义预测的调色板。实例预测用不同的随机颜色表示不同的对象。在语义预测结果中，某些区域的柜子被错误地预测为其他家具。没有SoftGroup，这些错误会传播到实例预测中。SoftGroup解决了这个问题，并产生了更准确的实例掩码。0将远距离的点云转换为实例。这些分组算法是在硬语义预测上执行的，其中一个点与一个类别相关联。在许多情况下，对象在局部上是模糊的，输出的语义预测对于不同部分显示不同的类别，因此使用硬语义预测进行实例分组会导致两个问题：（1）预测实例与真实值之间的重叠度低，（2）来自错误语义区域的额外假阳性实例。图1显示了一个可视化示例。在这里，语义预测结果中，某些部分的柜子被错误地预测为其他家具。当使用硬语义预测进行分组时，语义预测错误会传播到实例预测中。结果是，预测的柜子实例与真实值之间的重叠度低，而其他家具实例是一个错误的阳性。本文提出了SoftGroup来解决这些问题。27090通过考虑软语义分数而不是硬的one-hot语义预测来解决问题。SoftGroup的直觉在图2中说明。我们的发现是，具有错误语义预测的对象部分仍然具有真实语义类别的合理分数。SoftGroup依赖于一个分数阈值来确定对象属于哪个类别，而不是使用最大值。在软语义分数上进行分组可以产生真实语义类别上更准确的实例。具有错误语义预测的实例将通过学习将其归类为背景而被抑制。为此，我们将实例提案视为正样本或负样本，具体取决于与地面真值的最大交并比（IoU），然后构建一个自上而下的细化阶段来细化正样本并抑制负样本。如图1所示，SoftGroup能够从不完美的语义预测中产生准确的实例掩码。SoftGroup的概念简单易懂，易于实现。在ScanNet v2 [6]和S3DIS[1]基准数据集上的实验证明了我们方法的有效性。值得注意的是，SoftGroup在ScanNet隐藏测试集上的AP50指标上比之前最先进的方法提高了6.2％，在S3DIS Area5上提高了6.8％。SoftGroup速度快，处理一个ScanNet场景只需要345毫秒。总之，我们的贡献有三个方面。0•我们提出了SoftGroup，它在软语义分数上执行分组，以避免从硬语义预测到实例分割的错误传播。0•我们提出了一个自上而下的细化阶段，用于纠正、细化正样本并抑制由错误语义预测引入的假阳性。0•我们在多个数据集上进行了广泛的实验，使用不同的评估指标，显示出与现有最先进方法相比的显著改进。02. 相关工作0基于3D点云的深度学习。点云表示是3D场景理解的常见数据格式。为了处理点云，早期的方法[2, 3, 36,37]基于点的统计属性提取手工设计的特征。最近的深度学习方法学习从点中提取特征。基于PointNet的方法[32,33]提出通过共享的多层感知器（MLP）处理点，然后从对称函数（如最大池化）中聚合区域和全局特征。卷积方法被广泛应用于点云处理。连续卷积方法[23, 40, 44,45]学习与局部点的空间分布相关的卷积核。离散卷积方法[5, 8, 13, 19, 25,34]学习与点量化得到的规则网格相关的卷积核。还提出了Transformer[18, 50]和基于图的方法[38, 39,43]来解决点云的数据不规则性。0软0分组0背景分类0分类柜0图2.图1中的柜子被提取出来以说明我们方法的高级流程。基于软语义分数的软分组模块输出更准确的实例（上图）。分类器处理每个实例并抑制错误语义预测的实例（下图）。0基于提案的实例分割。基于提案的方法采用自上而下的策略，生成区域提案，然后在每个提案中分割对象。现有的基于提案的3D点云方法受到了2D图像的Mask-RCNN的成功的很大影响。为了处理点云的数据不规则性，Li等人提出了GSPN，采用分析合成策略生成高目标性的3D提案，然后通过基于区域的PointNet进行细化。Hou等人提出了3DSIS，将多视角RGB输入与3D几何结合起来，预测边界框和实例掩码。Yang等人提出了3D-BoNet，直接输出一组边界框，而不是生成锚点和非极大值抑制，然后通过逐点的二分类器对对象进行分割。Liu等人提出了GICN，将每个对象的实例中心近似为高斯分布，对其进行采样以获得对象候选，然后生成相应的边界框和实例掩码。0基于分组的实例分割。基于分组的方法依赖于自下而上的流水线，该流水线产生每个点的预测（例如语义地图和几何偏移或潜在特征），然后将点分组成实例。Wang等人[41]提出了SGPN，用于构建所有点的特征相似性矩阵，然后将具有相似特征的点分组成实例。Pham等人[29]提出了JSIS3D，通过多值条件随机场模型将语义和实例标签结合起来，并联合优化标签以获得对象实例。Lahoud等人[17]提出了MTML，学习特征和方向嵌入，然后在特征嵌入上执行均值漂移聚类，生成根据其方向特征一致性进行评分的对象片段。Han等人[9]引入了OccuSeg，执行基于图的27100掩码评分0分类语义分支0输入点云0U-Net Tiny U-Net0自下而上的分组自上而下的改进0最终0实例0图3.所提出方法的架构包括自下而上的分组和自上而下的改进阶段。从输入点云中，U-Net主干提取点特征。然后，语义和偏移分支预测语义分数和偏移向量，然后通过软分组模块生成实例提案。特征提取器层从实例提案中提取主干特征。将每个提案的特征输入到一个小型U-Net，然后通过分类、分割和掩码评分分支获得最终的实例。0聚类引导的对象占用信号用于更准确的分割输出。Zhang等人[48]考虑了一种概率方法，将每个点表示为三元正态分布，然后进行聚类以获得对象实例。Jiang等人[15]提出了Point-Group，用于在原始和偏移的点集上分割对象，依赖于一种简单而有效的算法，该算法将相邻的相同标签的点进行分组并逐步扩展该组。Chen等人[4]扩展了PointGroup并提出了HAIS，该方法进一步吸收周围的实例片段，然后根据内部实例预测对实例进行了改进。Liang等人[20]提出了SSTNet，从预计算的超点构建树网络，然后遍历树并分割节点以获得对象实例。常见的基于提案和基于分组的方法各有优势和缺点。基于提案的方法独立处理每个对象提案，不受其他实例干扰。基于分组的方法处理整个场景而无需生成提案，从而实现快速推理。然而，基于提案的方法在生成高质量提案方面存在困难，因为点仅存在于对象表面上。基于分组的方法高度依赖于语义分割，因此语义预测中的错误会传播到实例预测中。所提出的方法充分利用了这两种方法的优势，并解决了它们的局限性。我们的方法构建为两阶段流水线，其中自下而上的阶段通过对软语义分数进行分组来生成高质量的对象提案，然后自上而下的阶段处理每个提案以改进正样本并抑制负样本。03. 方法0SoftGroup的整体架构如图3所示，分为两个阶段。在自下而上的分组阶段中，点预测网络（第2节）进行逐点预测。03.1）以点云作为输入，生成逐点的语义标签和偏移向量。软分组模块（第3.2节）处理这些输出，生成初步的实例提案。在自上而下的改进阶段中，根据提案，从主干中提取相应的特征，并用于预测类别、实例掩码和掩码评分作为最终结果。03.1. 点级预测网络0点级预测网络的输入是一组N个点，每个点由其坐标和颜色表示。将点集体素化，将无序点转换为有序的体素网格，然后将其输入到U-Net风格的主干网络[35]中，以获取点特征。在3D点云中，采用次流形稀疏卷积[8]实现U-Net。从点特征中，构建两个分支来输出点级语义得分和偏移向量。0语义分支。语义分支由两层MLP构成，学习输出N个点上的语义得分S = {s1, ..., sN} ∈ RN×Nclass，其中N为点的数量，Nclass为类别的数量。与现有方法[4,15]不同，我们直接在语义得分上进行分组，而不是将语义得分转换为one-hot语义预测。0偏移分支。与语义分支并行，我们应用两层MLP来学习偏移向量O = {o1, ..., oN} ∈RN×3，表示每个点到其所属实例的几何中心的向量。基于学习到的偏移向量，我们将点移动到相应实例的中心，以更有效地进行分组。分别使用交叉熵损失和ℓ1回归损失来训练语义分支和偏移分支。N�i=1CE(si, s∗i ),(1)N1{pi}∥oi − o∗i ∥1,(2)N�i=1(sij > τ) ∧ (s∗i = j)s∗i = j,N�i=1(sij > τ) ∧ (s∗i = j)sij > τ.(3)0.00.10.20.30.40.57880828486889092Recall0.00.10.20.30.40.530405060Precison27110L 语义 = 10L 偏移 = 1 � N i =1 1 { p i }0其中s�是语义标签，o�是偏移标签，表示点到其所属实例的几何中心的向量（类似于[4, 15,20]），1{pi}是指示函数，指示点pi是否属于任何实例。03.2. 软分组0软分组模块接收语义得分和偏移向量作为输入，并生成实例提议。首先，使用偏移向量将点移动到相应实例的中心。为了使用语义得分进行分组，我们定义一个得分阈值τ来确定点属于哪个语义类别，允许点与多个类别关联。给定语义得分S ∈ RN×N class，我们遍历Nclass个类别，在每个类别索引处，切片整个场景的得分（相对于类别索引）高于阈值τ的点子集。我们遵循[4,15]的方法，在每个点子集上进行分组。由于每个子集中的所有点属于同一类别，我们简单地遍历子集中的所有点，并在几何距离小于分组带宽b的点之间创建链接，以获取实例提议。对于每次迭代，分组是在整个扫描的点子集上进行的，确保快速推理。整体的实例提议是所有子集提议的并集。我们注意到，现有的基于提议的方法[12, 22,46]通常将边界框视为对象提议，然后在每个提议内进行分割。直观地，与实例高度重叠的边界框应该具有接近物体中心的中心点。然而，在3D点云中生成高质量的边界框提议具有挑战性，因为点仅存在于物体表面。相反，SoftGroup依赖于更准确的点级提议，这些提议更符合点云的离散特性。由于分组得到的实例提议的质量高度依赖于语义分割的质量，我们定量分析了τ对语义预测的召回率和精确率的影响。类别j的召回率和精确率定义如下。0召回率 j =0精确度 j =0图4. 使用不同分数阈值 τ进行语义预测时的召回率和精确度。虚线表示使用硬语义预测的召回率和精确度。0图4显示了使用不同分数阈值 τ进行语义预测时的召回率和精确度（按类别平均）。与硬语义预测相比，使用分数阈值时，召回率随着分数阈值的降低而增加。然而，较小的分数阈值也会导致较低的精确度。我们提出了一个自顶向下的细化阶段来缓解低精确度问题。精确度可以解释为对象实例的前景点和背景点之间的关系。我们将阈值设置为0.2，使得精确度接近50%，以确保前景点和背景点之间的比例在一个平衡的阶段。03.3. 自顶向下的细化0自顶向下的细化阶段对来自自底向上分组阶段的实例提议进行分类和细化。特征提取器层处理每个提议，提取其对应的骨干特征。提取的特征被送入一个小型U-Net网络（具有少量层的U-Net风格网络），然后在随后的分支中预测分类评分、实例掩码和掩码评分。0分类分支。分类分支首先使用全局平均池化层聚合实例中所有点的特征，然后使用多层感知机（MLP）预测分类评分 C= { c 1 , ..., c K } ∈ R K × ( N class +1) ，其中 K是实例的数量。我们直接从分类分支的输出中得到目标类别和分类置信度评分。我们注意到，现有的基于分组的方法通常从语义预测中得到目标类别。然而，实例可能来自具有噪声语义预测的对象。所提出的方法直接使用分类分支的输出作为实例类别。分类分支聚合实例的所有点特征，并使用单个标签对实例进行分类，从而得到更可靠的预测。27120分割分支。如第3.2节所示，实例提议包含前景点和背景点，我们构建了一个分割分支来预测每个提议内的实例掩码。分割分支是一个由两层组成的逐点多层感知机（MLP），为每个实例 k 输出一个实例掩码 m k 。0掩码评分分支。掩码评分分支与分类分支具有相同的结构。该分支输出掩码评分 E = { e 1 , ..., e K } ∈ R K × N class，用于估计预测掩码与真实掩码之间的IoU。通过将掩码评分与分类评分相乘，得到最终的置信度评分。0学习目标。训练自顶向下的细化分支需要每个分支的目标标签。为此，我们遵循现有的2D目标检测和分割方法的逻辑。我们将所有与地面实例的IoU大于50%的实例提议视为正样本，其余的视为负样本。每个正样本被分配给具有最高IoU的地面实例。正样本的分类目标是相应地面实例的类别。总类别数为 N class + 1（N class前景类别和一个背景类别）。分割和掩码评分分支仅在正样本上进行训练。正样本的掩码目标是分配的地面实例的掩码。掩码评分目标是预测掩码与地面实例之间的IoU。这些分支的训练损失是交叉熵、二元交叉熵和 ℓ 2回归损失的组合，参考[10, 14]。0L class = 10K个0k=1 CE(ck, c�k), (4)0L mask = 1/K k=1 1{mk}0k=1 1{mk} BCE(mk, m�k), (5)0L mask score = 1/K k=1 1{ek}0k=1 1{ek} ∥ek − e�k∥2. (6)0这里，c�、m�、e�分别是分类、分割和掩码得分的目标。K是提议的总数，1{.}表示提议是否为正样本。03.4. 多任务学习0整个网络可以使用多任务损失进行端到端训练。0L = L semantic + L offset + L class + L mask + L mask score, (7)0其中，L semantic和Loffset是在第3.1节中定义的语义和偏移损失，而L class、Lmask和L maskscore是在第3.3节中定义的分类、分割和掩码得分损失。04. 实验04.1. 实验设置0数据集。实验在标准基准的ScanNet v2 [6]和S3DIS[1]数据集上进行。ScanNet数据集包含1613个扫描，分为训练、验证和测试集，分别包含1201、312、100个扫描。实例分割在18个物体类别上进行评估。按照现有方法，基准结果报告在隐藏的测试集上。消融研究在验证集上进行。S3DIS数据集总共包含271个场景的6个区域的3D扫描。该数据集包含13个类别，用于实例分割评估。按照现有方法，使用两种设置来评估实例分割结果：在区域5上进行测试和6折交叉验证。0评估指标。评估指标是标准的平均精度。这里，AP 50和AP25分别表示IoU阈值为50%和25%的得分。同样，AP表示IoU阈值从50%到95%的平均得分，步长为5%。此外，还使用平均覆盖率（mCov）、平均加权覆盖率（mWCov）、平均精度（mPrec）和平均召回率（mRec）对S3DIS进行评估。0实现细节。实现细节遵循现有方法[4,15]的方法。模型使用PyTorch深度学习框架[28]实现，并使用Adam优化器[16]进行训练，训练120k次迭代。批量大小设置为4。学习率初始化为0.001，并通过余弦退火[24]进行调度。体素大小和分组带宽b分别设置为0.02m和0.04m。用于软分组的得分阈值τ设置为0.2。在训练时，场景被随机裁剪，最大点数为250k。在推理时，整个场景被输入网络而不进行裁剪。对于点密度较高的S3DIS数据集，在裁剪之前，场景被随机下采样比例为1/4。在推理时，场景被分成四个部分输入模型，然后在U-Net骨干网后立即合并这些部分的特征。随后的组件处理合并后的特征，就像在ScanNet数据集上一样。我们注意到，现有高性能方法的源代码和训练模型仅在ScanNetv2上公开可用。在这项工作中，将发布在ScanNetv2和S3DIS上的源代码和训练模型，以支持结果的可重现性。27130方法AP 500浴缸0床0书架0橱柜0椅子0柜台0窗帘0桌子0门0其他0图片0冰箱0淋浴帘0水槽0沙发0桌子0厕所0窗户0SGPN [ 41 ] 14.3 20.8 39.0 16.9 6.5 27.5 2.9 6.9 0.0 8.7 4.3 1.4 2.7 0.0 11.2 35.1 16.8 43.8 13.8 GSPN [ 47 ] 30.6 50.0 40.5 31.1 34.858.9 5.4 6.8 12.6 28.3 29.0 2.8 21.9 21.4 33.1 39.6 27.5 82.1 24.5 3D-SIS [ 12 ] 38.2 100.0 43.2 24.5 19.0 57.7 1.3 26.3 3.3 32.0 24.07.5 42.2 85.7 11.7 69.9 27.1 88.3 23.5 MASC [ 21 ] 44.7 52.8 55.5 38.1 38.2 63.3 0.2 50.9 26.0 36.1 43.2 32.7 45.1 57.1 36.7 63.9 38.698.0 27.6 PanopticFusion [ 27 ] 47.8 66.7 71.2 59.5 25.9 55.0 0.0 61.3 17.5 25.0 43.4 43.7 41.1 85.7 48.5 59.1 26.7 94.4 35.93D-Bonet [ 46 ] 48.8 100.0 67.2 59.0 30.1 48.4 9.8 62.0 30.6 34.1 25.9 12.5 43.4 79.6 40.2 49.9 51.3 90.9 43.9 MTML [ 17 ] 54.9100.0 80.7 58.8 32.7 64.7 0.4 81.5 18.0 41.8 36.4 18.2 44.5 100.0 44.2 68.8 57.1 100.0 39.6 3D-MPA [ 7 ] 61.1 100.0 83.3 76.552.6 75.6 13.6 58.8 47.0 43.8 43.2 35.8 65.0 85.7 42.9 76.5 55.7 100.0 43.0 Dyco3D [ 11 ] 64.1 100.0 84.1 89.3 53.1 80.2 11.5 58.844.8 43.8 53.7 43.0 55.0 85.7 53.4 76.4 65.7 98.7 56.8 PE [ 49 ] 64.5 100.0 77.3 79.8 53.8 78.6 8.8 79.9 35.0 43.5 54.7 54.5 64.6 93.356.2 76.1 55.6 99.7 50.1 PointGroup [ 15 ] 63.6 100.0 76.5 62.4 50.5 79.7 11.6 69.6 38.4 44.1 55.9 47.6 59.6 100.0 66.6 75.6 55.699.7 51.3 GICN [ 22 ] 63.8 100.0 89.5 80.0 48.0 67.6 14.4 73.7 35.4 44.7 40.0 36.5 70.0 100.0 56.9 83.6 59.9 100.0 47.3 OccuSeg [9 ] 67.2 100.0 75.8 68.2 57.6 84.2 47.7 50.4 52.4 56.7 58.5 45.1 55.7 100.0 75.1 79.7 56.3 100.0 46.7 SSTNet [ 20 ] 69.8 100.069.7 88.8 55.6 80.3 38.7 62.6 41.7 55.6 58.5 70.2 60.0 100.0 82.4 72.0 69.2 100.0 50.9 HAIS [ 4 ] 69.9 100.0 84.9 82.0 67.5 80.827.9 75.7 46.5 51.7 59.6 55.9 60.0 100.0 65.4 76.7 67.6 99.4 56.0 SoftGroup (我们的方法) 76.1 100.0 80.8 84.5 71.6 86.2 24.382.4 65.5 62.0 73.4 69.9 79.1 98.1 71.6 84.4 76.9 100.0 59.40表1.在ScanNet v2隐藏测试集上的3D实例分割结果，以AP 50得分为指标。提出的SoftGroup在平均AP50方面达到了最高水平，显著超过之前最强方法。报告的结果来自于2021年11月13日的ScanNet基准测试。0语义GT0语义预测0没有使用SoftGroup的实例预测0使用SoftGroup的实例预测0实例GT0图5.在ScanNetv2验证集上的定性结果。没有使用SoftGroup的实例预测在错误语义预测的区域（用虚线框标出）输出了低质量的实例掩码。SoftGroup在这些区域产生了更准确的实例掩码。04.2.基准测试结果0ScanNetv2。表1显示了SoftGroup和最新的最先进方法在ScanNetv2基准测试的隐藏测试集上的结果。我们提交了我们的模型并从服务器上报告了结果。提出的SoftGroup在平均AP50方面达到了最高的76.1%，超过了之前最强方法6.2%的显著差距。在类别得分方面，我们的方法在18个类别中有12个类别的性能最好。0S3DIS。表2总结了在S3DIS数据集的Area5和6折交叉验证上的结果。在Area5和交叉验证评估中，提出的SoftGroup相比现有方法具有更高的整体性能。值得注意的是，在Area5评估中，SoftGroup达到了0AP/AP 50为51.6/66.1%，相比第二名提高了8.9/6.8%。在ScanNetv2和S3DIS数据集上，我们的方法展现出了最先进的性能，显示出了我们方法的泛化优势。0分割和检测结果。我们进一步报告了在ScanNetv2验证集上的实例分割和物体检测结果。为了获得物体检测结果，我们遵循[7]中的方法，从预测的点掩码中提取一个紧密的轴对齐边界框。表3报告了实例分割和物体检测结果。我们的方法在AP 50、AP 25、box AP 50和box AP25方面相比第二名分别提高了3.2、3.3、6.3和7.3%。F-PointNet [31]--10.819.8GSPN [47]37.853.417.730.63D-SIS [12]18.735.722.540.2VoteNet [30]--33.558.63D-MPA [7]51.972.449.264.2PointGroup [15]51.771.348.961.5SSTNet [20]64.374.052.762.5HAIS [4]64.475.653.164.3SoftGroup67.678.959.471.627140方法 AP AP 50 mCov mWCov mPrec 50 mRec 500SGPN † [ 41 ] - - 32.7 35.5 36.0 28.7 ASIS † [ 42 ] - - 44.6 47.855.3 42.4 PointGroup † [ 15 ] - 57.8 - - 61.9 62.1 SSTNet † [ 20] 42.7 59.3 - - 65.5 64.2 HAIS † [ 4 ] - - 64.3 66.0 71.1 65.0SoftGroup † 51.6 66.1 66.1 68.0 73.6 66.60SGPN ‡ [ 41 ] - - 37.9 40.8 38.2 31.2 PartNet ‡ [ 26 ] - - - - 56.443.4 ASIS ‡ [ 42 ] - - 51.2 55.1 63.6 47.5 3D-BoNet ‡ [ 46 ] - - -- 65.6 47.7 OccuSeg ‡ [ 9 ] - - - - 72.8 60.3 GICN ‡ [ 22 ] - - - -68.5 50.8 PointGroup ‡ [ 15 ] - 64.0 - - 69.6 69.2 SSTNet ‡ [ 20] 54.1 67.8 - - 73.5 73.4 HAIS ‡ [ 4 ] - - 67.0 70.4 73.2 69.4SoftGroup ‡ 54.4 68.9 69.3 71.7 75.3 69.80表2. 在S3DIS数据集上的3D实例分割结果。带 † 的方法在Area5上进行评估，带 ‡ 的方法进行6折交叉验证评估。0方法 AP 50 AP 25 Box AP 50 Box AP 250表3. 在ScanNetv2验证集上的实例分割和目标检测结果。我们的方法在mask和boxAP上都取得了更好的结果。0运行时间分析。表4报告了不同方法在ScanNetv2验证集上每个扫描的运行时间。为了公平比较，报告的运行时间是在相同的Titan XGPU模型上测量的。我们的方法每个扫描的推理时间为345毫秒，比最快的模型多6毫秒。关于我们的组件时间，点级预测网络、软聚类算法和自顶向下的细化延迟分别为152毫秒、132毫秒和70毫秒。结果表明，我们的方法在保持计算效率的同时实现了高准确性。04.3. 定性分析0图5显示了来自ScanNetv2数据集的可视化示例。没有SoftGroup，语义预测错误会传播到实例分割预测中。0方法组件时间（毫秒）总时间（毫秒）0Backbone（GPU）：2080 SGPN [ 41 ] Groupmerging（CPU）：149000 158439 Blockmerging（CPU）：71190Backbone（GPU）：2083 ASIS [ 42 ] Meanshift（CPU）：172711 181913 Blockmerging（CPU）：71190Backbone（GPU）：1612 GSPN [ 47 ] Pointsampling（GPU）：9559 12702 Neighboursearch（CPU）：15000Backbone（GPU）：2083 3D-BoNet [ 46 ]SCN（GPU）：667 9202 Block merging（CPU）：71190Backbone（GPU）：1497 GICN [ 22 ] SCN（GPU）：6678615 Block merging（CPU）：71190Backbone（GPU）：189 OccuSeg [ 9 ]Supervoxel（CPU）：1202 1904Clustering（GPU+CPU）：5130Backbone（GPU）：128 PointGroup [ 15 ]Clustering（GPU+CPU）：221 452ScoreNet（GPU）：1030Backbone（GPU）125 SSTNet [ 20 ] Treenetwork（GPU+CPU）：229 428 ScoreNet（GPU）：740Pointwise prediction（GPU）：154 HAIS [ 4 ] Hier.aggr.（GPU+CPU）：118 339 Intra-inst.prediction（GPU）：670SoftGroup（我们的方法）0Pointwise prediction（GPU）：152 Softgrouping（GPU+CPU）：123 345Top-down re�nement（GPU）：700表4. 不同方法在ScanNetv2验证集上的每个扫描推理时间。为了公平比较，运行时间是在相同的Titan X GPU模型上测量的。0（用虚线框标出）。相反，SoftGroup有效地纠正了语义预测错误，从而生成更准确的实例掩码。04.4. 消融实验0组件分析。我们提供了SoftGroup在不同组件被省略时的实验结果。考虑的基准是一个具有硬聚类和通过ScoreNet分支[ 15 , 20]对输出实例的置信度进行排序的模型。表5显示了消融结果。基准模型在AP／AP 50／AP25方面的性能分别为39.5／61.1／75.5％。通过应用软聚类或自顶向下的细化，获得了显著的改进。将这两个组件结合起来，获得了最佳的整体性能AP／AP 50／AP25为46.0／67.6／78.9％，✓39.5 61.175.5✓41.6 63.879.2✓44.3 65.478.1✓✓46.0 67.678.9τAPAP50AP25None44.365.478.10.0140.158.569.20.145.366.578.50.246.067.678.90.345.266.878.50.444.746.178.30.543.964.877.7✓41.164.679.7✓✓45.768.479.5✓✓✓46.067.678.9N45.065.676.2Y46.067.678.927150基线软分组自上而下细化 AP AP 50 AP 250总体改进 +6.5 +6.5 +3.40表5. 在ScanNetv2验证集上的组件分析。我们的模型相对于基线实现了显著的改进。0表6.对软分组的得分阈值τ进行消融实验。“None”表示未使用阈值，而是使用硬语义预测进行分组。0显著高于基线6.5/6.5/3.4％。0软分组的得分阈值。表6显示了在软分组的得分阈值变化下的实验结果。基线是τ为“None”，表示阈值未激活，使用硬预测标签进行分组。基线在AP/AP 50 /AP25方面的性能为44.3/65.4/78.1％。当τ过高或过低时，性能甚至比基线更差。最佳性能在τ为0.2时获得，这证实了我们在第3.2节中的分析，即正负样本的数量平衡。0自上而下细化。我们进一步提供了关于自上而下细化的消融结果，见表7。仅使用分类分支，我们的方法在AP/AP 50/AP25方面的性能为41.1/64.6/79.7％。当依次应用掩码分支和掩码得分分支时，性能倾向于在更高的IoU阈值区域上提高。将所有分支组合起来，性能为AP/AP 50 /AP25的46.0/67.6/78.9％。0来自分类分支的实例类别。表80报告了获取对象类别的不同方案的结果。结果表明，从语义预测中推导出对象类别的AP/AP 50 /AP25为45.0/65.6/76.2％。所提出的方法直接使用了分类分支的结果作为实例类别。0类别掩码掩码得分 AP AP 50 AP 250表7. 自上而下细化在ScanNet v2验证集上的影响。0从类别分支获取实例类别？AP AP 50 AP 250表8.关于实例类别的消融研究。“N”表示实例类别取自语义预测的多数投票。“Y”表示实例类别取自分类分支。0将分类分支的输出作为实例类别。分类分支聚合实例的所有点特征，并使用单个标签对实例进行分类，从而提供更可靠的预测。结果表明，直接使用分类输出作为对象类别将AP/AP 50 /AP 25提高到46.0/67.6/78.9％。05. 结论0我们提出了SoftGroup，一种在3D点云上进行实例分割的简单而有效的方法。SoftGroup通过对软语义分数进行分组来解决在局部模糊对象上进行硬分组的问题。从分组阶段获得的实例提议被分配给正样本或负样本。然后构建一个自上而下的细化阶段来细化正样本并抑制负样本。在不同数据集上进行的大量实验证明，我们的方法在隐藏的ScanNetv2测试集上的AP50方面的表现比现有的最先进方法提高了6.2％，在S3DISArea 5上提高了6.8％。0致谢0这项工作部分得到了韩国政府（MSIT）资助的韩国信息通信技术规划评估研究所（IITP）资助（2021-0-01381，通过视频理解开发因果AI），部分得到了韩国政府（MSIT）资助的韩国信息与通信技术规划与评估研究所（IITP）资助（No.2019-0-01371，开发具有类人智能的脑启发式AI）。27160参考文献0[1] Iro Armeni，Ozan Sener，Amir R Zamir，HelenJiang，Ioannis Brilakis，Martin Fischer，SilvioSavarese。大规模室内空间的3D语义解析。在CVPR，2016年。2，50[2] Mathieu Aubry，Ulrich Schlickewei，DanielCremers。波动核签名：一种量子力学方法用于形状分析。在ICCV研讨会，2011年。20[3] Michael M Bronstein，IasonasKokkinos。尺度不变热核签名用于非刚性形状识别。在CVPR，2010年。20[4]陈少宇，方杰民，张倩，刘文宇，王兴刚。用于3D实例分割的分层聚合。在ICCV，2021年。1，3，4，5，6，70[5] Christopher Choy，JunYoung Gwak，SilvioSavarese。4D时空卷积网络：Minkowski卷积神经网络。在CVPR，2019年。20[6] Angela Dai，Angel X Chang，Manolis Savva，MaciejHalber，Thomas Funkhouser，Matthias Nießner。Scannet:室内场景的丰富注释的3D重建。在CVPR，2017年。2，50[7] Francis Engelmann，Martin Bokeloh，AlirezaFathi，Bastian Leibe，Matthias Nießner。3D-MPA:用于3D语义实例分割的多提议聚合。在CVPR，2020年。6，70[8] Benjamin Graham，Martin Engelcke，Laurens Van DerMaaten。3D语义分割与亚流形稀疏卷积网络。在CVPR，2018年。2，30[9] 韩磊，郑天，徐岚，方璐。Occuseg:考虑占用情况的3D实例分割。在CVPR，2020年。2，6，70[10]

下载后可阅读完整内容，剩余1页未读，立即下载