无检测的端到端3D点云实例分割

102 浏览量更新于2023-10-24 收藏 13.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

127960无检测的端到端3D点云实例分割0Haiyong Jiang 1,2，Feilong Yan 4，Jianfei Cai 2,3，Jianmin Zheng 2，Jun Xiao 1�01中国科学院大学，2南洋理工大学，3莫纳什大学，4虎牙直播0摘要03D实例分割在机器人技术和增强现实环境感知中起着重要的作用。最近提出了许多基于深度学习的方法来解决这个问题。这些方法要么依赖于一个检测分支来提出对象，要么依赖于一个分组步骤来组装相同实例的点。然而，基于检测的方法不能确保每个点具有一致的实例标签，而分组步骤则需要参数调整且计算成本高。在本文中，我们引入了一种称为AS-Net的分配和抑制网络，以实现无检测和分组步骤的端到端实例分割。核心思想是将实例分割框架构建为候选分配问题。首先，对一组实例候选进行采样。然后，我们提出了一个用于候选分配的分配模块和一个用于消除冗余候选的抑制模块。进一步寻找实例标签和实例候选之间的映射，为网络训练构建实例分组损失。实验结果表明，我们的方法比以前的无检测方法更有效和高效。01. 引言03D实例分割在自主系统的3D感知和增强现实、虚拟现实的3D重建等领域具有广泛的应用。例如，对于室内机器人来说，识别场景中的障碍物和目标是至关重要的，以便它可以与特定对象进行交互并在场景中移动。实现这个目标需要区分不同的语义标签以及相同语义标签的不同实例。因此，研究3D实例分割问题非常重要。从点云中进行3D实例分割是一项非常具有挑战性的任务。除了散乱数据和额外的维度带来的困难外，它还共享了与2D实例分割相同的问题。0�表示对应作者。邮箱：haiyong.jiang1990@gmail.com。该工作在南洋理工大学进行。0输入实例感知特征实例输入实例0预测分组预测0输入0检测和掩模实例和错误0预测合并0(b) (c)0(a)0图1. 3D实例分割的不同框架示意图。(a)基于检测的框架，(b)无检测的框架，(c)我们的框架。请注意，当合并基于检测的结果时，会出现不一致或缺失的标签，如(a)中红色和黄色所示。0与其2D对应物存在相同的问题。首先，实例标签是随机排序的，这与语义标签非常不同，使得直接优化实例标签变得困难。其次，在推理过程中，实例的数量是未知的，这对实例分割提出了额外的挑战。在2D/3D实例分割方面取得了巨大的进展[4, 7, 11, 12, 18, 22, 28, 29,31]。一般来说，现有的方法可以分为两类：基于检测和无检测。基于检测的方法[11, 12,31]可以通过使用检测分支来遮罩不同的对象，很好地处理随机实例标签和不规则数量的实例。然而，它们无法确保每个点的一致标签。例如，一个点可能会获得多个实例标签或没有标签，这取决于包含它的分割区域的数量，如图1(a)所示。另一方面，无检测的方法[18, 22, 28,29]利用额外的分组步骤来避免排序和不规则数量的实例，例如使用均值漂移算法[22,29]，如图1(b)所示。额外的分组步骤通常依赖于超参数设置，如聚类带宽[21]以获得良好的性能。此外，这些方法通常优化代理目标而不是实例分割，例如分别最小化或最大化相同实例或两个点之间的嵌入特征距离。127970点云0点云骨干0分配模块0实例0精炼特征候选特征0抑制模块0掩码0分配特征精炼0点特征0掩码0掩码分配0Argmax0� ��，� �，� �，� ��0� ��0� �0图2.我们方法的流程。我们的方法接收一个包含N个点的点云，并使用点云特征提取骨干学习点特征。点特征通过精炼模块进一步改进。然后，我们采样一组代表不同实例的实例候选者。实例分组则变成了使用分配模块对候选者进行分配，并使用抑制模块屏蔽冗余的候选者。在第3.5节详细介绍了在不同位置施加的损失函数（Lsem，Le，Lc，Lcd，Lg，Lsim）。K表示实例候选者的数量。X和X中着色的框分别表示具有可学习参数和没有可学习参数的模块。0不同的实例[4, 22, 28,29]。因此，训练目标与最终的实例分割之间存在差距。在本文中，我们提出了一种新颖的框架，称为AS-Net，旨在提供一种无需检测的三维实例分割的端到端解决方案。整个流程如图2所示。我们不是为不同实例检测大量对象，而是采样一小组实例候选作为实例代表。然后，实例分割变成了使用分配模块将点分配给不同的候选者的问题。然后，我们提出了一个抑制模块，用于屏蔽冗余的候选者，以便可以控制不规则数量的实例。最后，我们引入了实例标签与实例候选之间的映射，以便于直接优化实例分组，实例的顺序可以是随机的。在图1中，我们说明了我们的框架与以前方法之间的差异。总之，我们的贡献包括：0•一种3D实例分割框架，首先采样一组实例候选者，然后使用分配模块将点分配给不同的候选者，并使用抑制模块消除重复的候选者。0•将实例标签映射到实例候选并促进端到端的实例分割训练的算法。0•大量实验证明我们的方法在更快的运行速度下取得了优越的结果，相比现有方法。02. 相关工作02D实例分割。2D实例分割旨在进行语义分类和实例对象的像素分组，由[6, 9]开创。近年来，先进的0深度学习极大地推动了实例分割的性能提升。以前的工作可以分为两个流派，即基于检测的方法和无需检测的方法。基于检测的方法要么采用滑动和分割过程[7,23]，要么采用联合检测和分割过程[5, 9, 10,11]。基于滑动和分割的方法[7,23]在边界预测和重叠对象的分割方面存在不准确的问题。联合检测和分割的方法，例如MaskRCNN[11]，可以生成良好的实例分割结果，但由于使用了额外的检测过程，需要更大的内存占用。另一类方法通过根据预测的像素信息对像素进行分组来获取实例，例如基于分水岭变换的盆能量[3]、形状信息[2, 14,20]、语义信息[2]和嵌入特征[4, 8, 16,21]等。然而，大多数这些方法在推断过程中需要多阶段处理。例如，基于嵌入特征的方法[4, 16,21]首先推断嵌入特征，然后使用聚类算法对像素进行分组。这不可避免地导致训练和测试阶段之间存在差距，因为优化的是代理目标而不是像素分组损失。此外，额外的超参数，例如聚类带宽[4,21]和条件随机场中的参数[2]，也需要仔细调整以确保良好的性能。尽管Neven等人[21]提出了直接估计这些超参数的方法，即均值漂移算法中的聚类带宽，但它只能减弱而不能消除差距。点云的三维实例分割。考虑到普遍存在的点云数据及其在自动驾驶和场景重建中的广泛应用，视觉界对三维点云实例分割产生了极大的兴趣。三维实例分割可以被视为在三维数据上的二维实例分割的类比，旨在对三维场景进行对象级别的理解。ℒ𝑐𝑑127980然而，噪声数据和无结构的拓扑使得这个问题更加困难。开创性的工作[28]通过探索成对相似性矩阵来研究3D实例分割。Pham等人[22]提出了一种多值条件随机场（MV-CRF）来增强实例分割和语义分割。Wang等人[29]探索了语义特征和实例特征之间的依赖关系，取得了最先进的结果。这些方法都是基于点云表示的，并且通常使用多阶段的过程作为2D无需提案的实例分割[4, 16, 18,21]，因此继承了它们的限制，如超参数调整和优化差距。另一类3D实例分割方法是基于检测的。特别地，Hou等人[12]通过将MaskRCNN[11]扩展到RGBD扫描中的多模态信号，共同优化了3D检测和3D语义实例分割。Yi等人[31]提出了一个生成形状提案网络（SGPN），用于从不同的种子生成形状，然后通过估计边界框和其分割来实现实例分割。Yang等人[30]提出了一种有趣的方法，直接预测一定数量的边界框，然后为每个边界框估计一个实例掩码。然而，基于检测的方法可能会给一个点分配无标签或不一致的实例标签，因为检测段中可能存在遗漏或重叠。在这项工作中，我们尝试在端到端的方式中学习3D实例分割，无需检测，也无需额外的分组步骤。3D点云分析。深度神经网络在2D图像分析上的出色性能激发了研究人员将其应用于3D点云。Qi等人首次提出了PointNet[24]和PointNet++[25]，以处理点云的随机顺序和多尺度特征提取。最近的研究还研究了球形核[19]、角度表示[15]和切线投影[27]，以从点云中学习特征表示。我们的工作依赖于一个骨干网络来提取点云特征。虽然我们在评估中使用了PointNet和PointNet++，但可以很容易地改变为其他架构。03. 提出的方法0我们的目标是在无需检测的情况下以端到端的方式对3D点云进行实例分割。我们的方法以3D点云 X = {xj}Nj=1作为输入，并预测每个点的实例标签 Y i ={yij}Nj=1，如图2所示，其中 N 是输入点的数量，xj表示每个点的输入特征，例如坐标和颜色，yij 是实例标签集Li 中的一个实例标签。与之前的两阶段无需检测方法[22,28,29]和基于检测的方法[12]不同，我们的方法是端到端学习的。0将这个问题模拟成一个单阶段的过程，无需额外的分组步骤或检测。首先，使用点云骨干处理点云，通过探索语义标签、实例质心和实例标签的监督来提取语义特征、质心感知特征和实例感知特征，其中实例的质心是通过计算实例中所有点的坐标的平均值来获得的。然后将这些特征连接起来作为精炼特征 Fr ∈ R N × 256。实例分割是通过首先对 K个实例候选 L c = {1, 2, ..., K}进行采样，然后预测每个点属于实例候选的得分，称为候选分配 W ∈ R N × K。W中的每一行包含一个点被分配给每个候选的得分。根据由抑制网络产生的掩码 M ∈ {0, 1} 1 ×K，进一步消除冗余的候选，其中每个维度指定一个候选是否被掩码/移除。每个点的最终分组标签是通过在所有未被掩码的候选中选择得分最大的标签来估计的。03.1. 点云特征学习0实例分割与语义信息和几何信息相关。例如，具有不同语义标签的对象可以很容易地被识别为不同的实例。但是语义信息不能用于区分同一类别的对象。在这种情况下，几何信息，例如物体边界框和物体质心，可以帮助实例识别。事实上，这种信息也被广泛应用于引导2D实例分割[3,11]。在我们的方法中，我们共同学习了质心感知和语义感知的3D信息。0MLP（64x |Ls|）0实例质心0MLP（128x64）0实例感知特征精炼特征点特征0语义特征0质心感知特征0MLP（128x64）0MLP（131x64）0MLP（64x3）0点坐标0质心距离0MLP（128x64x1）0语义标签0��0��0��0图3.特征精炼模块。点特征通过融合语义特征、质心感知特征和实例感知特征进行精炼。我们还预测了预测实例质心与其地面真值之间的质心距离。注意，⊕表示特征拼接，而|Ls|表示语义标签的数量。不同特征的监督损失用�标记。(a)(b)(c)127990实例分割。我们首先使用现有的点云骨干网络（例如PointNet[24]）提取点特征，如图2所示。然后将点特征输入到四个分支中，通过四个独立的多层感知器（MLP）共同学习语义特征（顶部分支）、实例感知特征（第二分支）、质心感知特征（第三分支）以及质心预测与地面真值之间的质心距离（底部分支），如图3所示。语义特征通过施加语义损失Lsem来学习，这有助于区分具有不同语义标签的对象。实例感知特征通过最小化嵌入损失Le来学习，使得同一实例中的点的特征应该是接近的。质心感知特征通过优化预测实例质心与其地面真值之间的距离Lc来训练。这些实例质心有助于根据它们的位置区分对象。质心距离Lc进一步通化质心距离损失Lcd来估计，它可以作为一个正则化我们将前三个分支的特征拼接起来作为精炼特征Fr。所有损失函数的详细信息见第3.5节。03.2. 实例候选采样0在我们的方法中，我们采样一组实例候选集Lc作为实例代表，用于对点进行分组。然而，如果不知道实例分割，确定实例候选是困难的。一种直观的方法是生成足够多的实例候选，覆盖所有实例，并且不同的候选之间应该有尽可能大的候选间距。我们在这个任务中采用了PointNet++[25]中提出的最远点采样方法。基本上，最远点采样计算采样点与其他点之间的距离，并将距离最大的点添加到采样集中。这个过程迭代进行，直到采样到足够的候选。在我们的实验中，我们使用点的实例感知特征之间的欧氏距离作为点的距离。03.3. 候选抑制0图4.实例候选数量的影响。星号表示不同的候选，黑色圆圈表示它们的成员点。（a）缺少一个候选，（b）采样到了正确数量的候选，（c）生成了一个多余的候选。0采样候选数目对性能有很大影响0256×1280256×1280128×64×10候选特征0MLP（256×64×1）0相似性矩阵0绝对值0掩码0分组0转置0图5. 抑制模块。符号�表示特征的减法。0精炼特征0候选特征0MLP（256×128）0MLP（256×128）0MLP（128×64×1）0分配0共享0256×64×10图6. 分配模块。0如图4所示，这会影响性能。例如，缺少一个候选会减少实例的数量，从而降低召回率（见图4（a））。相反，冗余的候选会降低分组准确性，因为它们会侵蚀其他候选的点，如图4（c）中的蓝色点所示。0在我们的方法中，我们将候选数目K设置为足够大的数目，以便大多数情况下可以覆盖所有实例。不幸的是，这将大大增加冗余的候选。为了避免候选冗余，我们引入了一个抑制模块，如图5所示，用于预测候选掩码M。抑制模块首先计算任意两个候选j、k∈Lc的特征Frj、Frk之间的绝对差异，然后将结果输入到一个两层MLP（128×64×1）中，估计一个相似性矩阵S∈RK×K，如图5所示。然后，将相似性矩阵S二值化为0、1，其中1表示两个候选来自同一实例。0如果将相似性矩阵S视为任意两个候选之间的邻接图表示，则将来自同一实例的候选分组可以看作是查找图的所有连通分量的问题。矩阵的幂可以用来解决这个问题。其基本思想是，连接矩阵的第k次幂表示具有小于k跳的连通分量。如果k足够大，矩阵的幂将找到所有的连通分量，如[26]中所解释的那样。在我们的实验中，我们计算相似性矩阵S的32次幂，结果矩阵的每一行表示一个候选与其他候选的连通性。对于每组候选，我们保留一个候选并将其他候选标记为冗余候选。候选分组是非可微的，抑制模块通过在第3.5节中最小化相似性损失来学习。(b)different numbers (see Fig. 7 (a) for an example). Becauseinstance labels only specify which points are in a samegroup and have no speciﬁc meaning, the order of instancescan be random. This randomness makes it tough to directlyoptimize instance segmentation accuracy.To tackle this problem, we propose to map instance la-bels Li to candidates Lc. An example is illustrated in Fig. 7.We ﬁrstly calculate the optimal mapping, namely {1 →1, 2 → 3, 3 → 2}, as shown in Fig. 7(b). Then the orig-inal instance labels {3, 2, 2, 1} are mapped to {2, 3, 3, 1} inFig. 7(c) so that remapped instance labels and candidateswill have a consistent order. The optimal mapping is ob-tained by minimizing the cost of the optimal matches:(4)1280003.4. 实例分配0我们将实例分组问题定义为将点X分配给不同的实例候选Lc。在本文中，我们提出了一个专用的分配模块来学习分配，如图6所示。分配网络首先使用一个单层MLP（256×128）对特征进行编码，然后计算候选特征和点特征之间的绝对差异，最后使用一个两层MLP（128×64×1）估计分配分数W。然后，使用图5中的预测掩码M对分配分数进行掩码处理，即W - α(1 -M)，其中α设置为一个较大的值以消除冗余的候选。最终的实例分割可以通过将每个点标记为得分最高的候选来获得。03.5. 目标函数0整个网络通过优化目标函数来学习，该目标函数由语义损失Lsem、实例质心损失Lc、质心距离损失Lcd、嵌入损失Le、实例分组损失Lg和候选相似性损失Lsim组成：0L = wsem∙Lsem + wc∙Lc + wcd∙Lcd + we∙Le + wg∙Lg +wsim∙Lsim，其中w�表示不同损失项的平衡权重。图2和图3显示了这些损失在训练过程中的应用位置。语义损失。语义损失Lsem计算预测的语义标签与真实标签之间的交叉熵损失。实例质心损失。实例质心损失Lc定义为预测的实例质心zj与真实质心z�j之间的距离：0Lc =0j =1 ∥zj − z�j∥2，(2)0质心距离损失。质心距离损失 Lcd 计算如下：0Lcd =0j =1 ∥dj − ∥zj − z�j∥2∥2，(3)0其中 dj 是预测的质心距离。相似性损失。抑制模块是通过在相似性矩阵 S上施加相似性损失 Lsim来学习的。基本上，该损失使用二元交叉熵来衡量两个候选是否来自同一个实例。由于实例标签是已知的，因此很容易获得真实值。实例分组损失。给定预测的候选分配和每个点的真实实例标签，候选和实例可能按不同的顺序排列并且具有不同的数量（见图7(a)的示例）。因为实例标签只指定哪些点属于同一组并且没有具体的含义，实例的顺序可以是随机的。这种随机性使得直接优化实例分割准确性变得困难。为了解决这个问题，我们提出将实例标签 Li 映射到候选Lc。图7给出了一个示例。我们首先计算最优映射，即 {1 → 1, 2 → 3, 3 →2}，如图7(b)所示。然后将原始实例标签 {3, 2, 2, 1} 映射到图7(c)中的 {2, 3, 3,1}，以使重新映射的实例标签和候选具有一致的顺序。最优映射通过最小化最优匹配的成本来获得：0(a) (b) (c)0图7. 候选和实例标签之间的匹配示例。 (a)一组点的预测候选分配（左）和实例标签（右）， (b)从实例标签（右）到候选（左）的最优映射， (c) 根据 (b)重新映射的实例标签（左）。候选和实例标签用密集颜色的索引表示。0minimize |Li| ≤0|Lc|0k =1 bj,k ∙ cost(j, k),0s.t. |Li| ≤0j =1 bj,k = 1, �k = 1, ..., |Lc|,0k =1 bj,k ≤ 1, �j = 1, ..., |Li|,0其中 b j,k 是一个二进制变量，表示 j 和 k 是否匹配，|∙|计算实例或候选的数量，cost(j, k)衡量匹配的好坏。第一个约束条件确保每个实例标签都分配给一个候选，而第二个约束条件保证最多只有一个候选与实例标签匹配。在我们的情况下，匹配应该最大化实例分割的准确性，因此成本定义为预测候选分配和实例标签之间的交并比的补集：0cost(j, k) = 1.0 −0其中 �(y c m = l c j) ∧ �(y i m = l i0∑N m=1 �(ycm = lcj) ∨ �(yim = lik), (5)0其中 y c m 是点 m 的预测候选分配，y i m表示点所属的真实实例标签，�(∙)测试给定值是否为真。这个分配问题可以通过匈牙利算法[17]或整数规划来解决。在我们的实现中，我们使用SciPy中的线性分配求解器。由于每个输入的实例数量很小（不超过50个实例），所以问题可以高效地解决。Le = Lpull + Lpush + wreg · Lreg,(6)Lpull =1|Li||Li|�k=11NkNk�j=1max (0, ∥mk −f ij∥2 −δ1)2, (7)Lpush =1|Li|(|Li| − 1)|Li|�k=1K�o=1,o̸=kmax (0, δ2−∥mk−mo∥2)2,Lreg =1|Li||Li|�k=1∥mk∥2.(9)g∈GmwCov(G, P) =�g∈Gwg maxp∈P IoU(g, p),wg =|g|�g′∈G |g′|,(11)128010在获得实例标签和实例候选之间的映射后，我们可以通过最小化预测概率和最优分配标签之间的交叉熵来优化实例分割。嵌入损失。虽然我们的方法可以通过提出的实例分组损失来学习，但仍需要实例感知特征来确保在候选采样步骤中可以采样到好的候选。这是因为采样步骤是非可微的，因此实例分组损失无法传播回来指导嵌入学习。根据[22,29]，嵌入损失 Le 定义如下：0其中L pull是拉动损失，L push是推动损失，Lreg是正则化项。拉动损失试图最小化实例感知特征fij和其所属实例mk的平均特征之间的距离，而推动损失最大化两个不同实例的平均特征mk，mo之间的实例间距离：0(8)其中Nk是实例k中的点数，δ1 = 0.5，δ2 =1.5是剪辑损失的两个边界。损失L reg通过鼓励小值来限制实例感知特征的有限性：04. 实验04.1. 数据集和评估指标0数据集。我们在Stanford3D室内语义数据集（S3DIS）[1]上进行评估，该数据集在3D实例分割[22, 28,29]中被广泛使用。S3DIS包含在6个区域收集的3D扫描。按照标准数据划分，区域5用于测试，其他区域用于训练。我们还在SceneNN[13]上评估我们的方法，这是一个在房间尺度上进行扫描的室内场景数据集。我们遵循JSIS[22]的数据划分进行训练和测试。由于注册的网格包含许多异常值，我们通过删除少于200个点的异常值实例来清理它们。评估。我们的方法主要针对3D点云的实例分割。实例分割的常用指标是平均类别精度（mPrec）0以及平均类别召回率（mRec），其预测与地面真值之间的交并比（IoU）大于0.5。我们还根据[29,32]计算平均类别覆盖率（mCov）和平均类别加权覆盖率（mwCov）。覆盖率衡量了地面真值与其匹配预测之间的实例级IoU。给定特定类别的地面真值区域G和预测区域P的列表，mCov和mwCov的计算如下：mCov ( G , P ) = 10其中|∙|计算列表中的点数，IoU(∙,∙)计算两个点集之间的IoU。实现。我们使用PyTorch实现了该算法。网络使用Adam优化器进行训练，初始学习率为0.002。在训练和测试过程中，我们将场景分割为包含4096个点的点云，按照SGPN[28]的方法。我们的算法对每个点云进行实例分割，然后使用SGPN中提出的BlockMerging算法将它们合并为最终结果。04.2. 与现有技术的比较0现有方法。我们将我们的方法与3D实例分割领域的最新方法进行比较，包括SGPN [28]、ASIS [29]和JSIS[22]。这些方法的结果是使用它们发布的代码生成的。由于网络骨干对最终结果有很大影响，我们使用相同的骨干（即PointNet[24]）评估这些方法。Wang等人[29]只发布了使用PointNet++[25]骨干的代码。为了进行公平比较，我们使用PointNet骨干实现了ASIS。我们还报告了使用PointNet++骨干的我们的方法的结果，以便与ASIS的最新结果进行比较。对于S3DIS数据集的评估，我们使用JSIS（PN）和ASIS（PN2）的发布模型以及经过微调的SGPN（PN）模型进行性能评估，其中PN和PN2分别表示PointNet和PointNet++。对于其他数据集和ASIS（PN）模型的评估，我们从头开始使用训练数据集训练网络。S3DIS数据集上的结果。在我们的实验中，我们发现3D实例分割对点云的不同采样非常敏感。在图8中，我们比较了不同方法在测试数据集中对点云采样的性能和方差。我们的方法在所有指标的平均值上始终表现更好。尽管所有方法的结果都有波动，但我们的方法在mCov和mwCov指标上的方差较小。为了消除#inst23467668343374521271542581121742921SGPN (PN)0.4390.8050.8630.5330.0250.0350.6930.6150.4920.4620.2020.2880.3650.322JSIS (PN)0.3940.8270.8360.5340.0000.0290.4910.1010.4790.7140.1500.4560.0820.421ASIS (PN)0.4220.8640.8830.6030.0000.0360.6190.1300.4610.6490.0990.3890.4030.355Ours (PN)0.4440.8690.8720.6540.0000.0830.6060.3320.4540.6350.1360.4060.4000.327ASIS (PN2)0.4460.8690.8830.6050.0000.0190.6020.1000.4670.6800.2310.4070.5930.341Ours (PN2)0.4960.8600.8630.6950.0000.0750.6240.1440.5410.7680.3260.5180.6970.392JSIS (PN)0.0950.1120.0290.039ASIS (PN)0.1230.1330.0800.095Ours (PN)0.1240.1340.0800.066mCov0.4300.4350.4000.4320.3500.444mwCov0.4630.4670.4320.4660.3830.475mPrec0.4910.4950.4580.5040.3920.526mRecall0.4050.4200.3710.4250.3190.433128020表1. 在S3DIS数据集上mCov指标的比较。#inst计算了每个类别的实例数量。0天花板地板墙壁梁柱窗户门桌子椅子沙发书柜白板混杂物0图8.在S3DIS数据集上的定量比较。每个颜色条的高度表示每个指标的平均值，黑色条线的范围表示每个指标的最大值和最小值之间的差异。0输入 ASIS (PN2) Ours (PN2) 真值0图9. 与ASIS(PN2)的定性比较。颜色有助于标记不同的实例。请注意突出区域中的杂乱物体是如何被区分开的。0针对这些方差，我们报告了来自相同输入的6次采样的平均结果。在表1中，我们将使用PointNet骨干网络时与最先进方法在mCov指标上进行了比较。结果表明，我们的方法在使用PointNet骨干网络时与其他方法相当，并且在使用PointNet++骨干网络时可以在10/13个类别中取得最佳结果。其他指标的结果在补充材料中提供。定性结果在图9和图10中展示。我们通过第3.5节中的分配算法将预测的实例与其真实值进行匹配，以使相同的实例具有相同的颜色。我们可以通过PointNet骨干网络和PointNet++骨干网络实现更好的实例分割，特别是在杂乱区域，例如附近的椅子、长桌子和图9和图10中突出区域中的一堆物体。在SceneNN数据集上的结果。我们还评估了我们的方法0表2. 在SceneNN数据集上的比较结果。0方法 mCov mwCov mPrec mRecall0表3. 对不同模块的消融研究。无质心无语义无嵌入无质心距离无抑制 Ours (PN)0在SceneNN数据集上的结果报告如表2所示，包括NYU-40标签的10个选定类别（包括墙壁、地板、床、椅子、桌子、门、书桌、冰箱、电视和道具）。所有方法的表现都很差，因为SceneNN数据集中重建的场景有很多离群点和飞行形状。此外，该数据集规模相当小。04.3. 消融研究0为了评估不同模块的有效性，我们通过从特征细化模块中移除相应的分支来研究质心感知特征（无质心）、语义特征（无语义）、实例感知特征（无嵌入）和质心距离分支（无质心距离）的影响。我们还通过移除掩蔽过程和相似性损失（无抑制）来研究抑制模块的重要性。在表3中，我们展示了替代设计的结果。我们可以看到不同类型特征的融合提升了性能，特别是实例感知特征。这是因为候选采样步骤依赖于实例感知特征来获取可靠的候选物体。虽然质心分支对于细化特征Fr没有贡献，但它仍然对结果产生影响。这可能归因于多任务学习的正则化。抑制模块也很重要，因为它有助于消除冗余的候选物体，如图4所讨论的。在图11中，我们评估了K的选择对结果的影响，并且我们的方法对于不同的K选择在推理过程中是鲁棒的。这归因于学习到的抑制模块。默认情况下，我们使用训练数据集中所有输入中的实例的最大数量作为K。SGPN (PN)47.08774.38821.3ASIS (PN)160.7241.6402.3JSIS (PN)14.55048.25062.7128030输入 SGPN (PN) 我们的 (PN) 真值 JSIS (PN) ASIS (PN)0图10. 在S3DIS测试数据集上的实例分割结果。请注意我们的方法能够区分相同类别的不同实例，例如椅子。0图11. 推理过程中选择K的影响。0表4.推理时间比较。时间是在S3DIS测试数据集（区域5）上测量和平均的。0方法网络 (ms) 分组 (ms) 总体 (ms)0我们的 (PN) 34.3 0.0 34.304.4. 时间分析0我们在表4中比较了计算时间。时间是在一台配备nVidiaGTX 1080 GPU和Intel i7-6850KCPU的计算机上，在S3DIS的测试集上测量的。请注意，不计算数据加载时间。我们测量了SGPN的分组合并、ASIS的均值漂移聚类以及JSIS的均值漂移聚类和多值CRF标签细化所花费的时间。我们可以看到，分组阶段是这些方法中计算量最大的部分。相比之下，我们的方法可以以端到端的方式执行，并且网络推理速度非常快。因此，我们的方法只需要34毫秒来处理一个包含4096个点的点云。在表4中，我们的算法是0比SGPN快257倍，比ASIS快11倍，比JSIS快147倍。所有方法都使用PointNet骨干进行评估。我们的计算增强归功于端到端实例分配设计。04.5. 限制和讨论0我们的方法使用最远点采样来生成实例候选。这个过程是非微分的，且高度依赖于实例感知特征。如果采样到了质量较差的候选者，将会使冗余去除和实例分配变得更加困难。将来，我们将结合估计的质心距离来指导候选采样。05. 结论0我们提出了一种端到端的3D实例分割方法。与无检测方法和基于检测的方法不同，我们直接生成一组实例候选，并将实例分组视为每个点的候选分配问题。冗余的候选者还通过抑制模块进行屏蔽。在S3DIS数据集和SceneNN数据集上的实验结果证明了我们方法的效率和有效性。我们的框架不限于3D点云，也可以很容易地扩展到处理2D实例分割。0致谢。本研究得到了新加坡教育部二级资助（2016-T2-2-065，2017-T2-1-076）和新加坡南洋理工大学数据科学与人工智能研究中心（DSAIR）（编号M4082285）的支持。部分支持来自MonashFIT创业资助和NSFC（编号61802362）。128040参考文献0[1] Iro Armeni, Ozan Sener, Amir Roshan Zamir, Helen Jiang,Ioannis K. Brilakis, Martin Fischer, and Silvio Savarese.大规模室内空间的3D语义解析。在2016IEEE计算机视觉与模式识别会议, CVPR 2016, 美国拉斯维加斯,2016年6月27日至30日 , 页码1534-1543, 2016. 60[2] Anurag Arnab and Philip H. S. Torr.动态实例化网络的像素级实例分割. 在 2017IEEE计算机视觉与模式识别会议, CVPR 2017, 美国夏威夷檀香山,2017年7月21日至26日 , 页码879-888, 2017. 20[3] Min Bai and Raquel Urtasun.深度分水岭变换用于实例分割。在2017IEEE计算机视觉与模式识别会议, CVPR 2017, 美国夏威夷檀香山,2017年7月21日至26日 , 页码2858-2866, 2017. 2 , 30[4] Bert De Brabandere, Davy Neven, and Luc Van Gool.具有判别性损失函数的语义实例分割. CoRR , abs/1708.02551,2017. 1 , 2 , 30[5] Jifeng Dai, Kaiming He, Yi Li, Shaoqing Ren, and Jian Sun.实例敏感的全卷积网络. 在计算机视觉- ECCV 2016 -第14届欧洲会议上，位于荷兰阿姆斯特丹，2016年10月11日至14日，第534-549页，2016年。 20[6] Jifeng Dai, Kaiming He, and Jian Sun.用于联合对象和物体分割的卷积特征掩蔽.在IEEE计算机视觉与模式识别会议（CVPR2015）上，位于美国马萨诸塞州波士顿，2015年6月7日至12日，第3992-4000页，2015年。 20[7] Jifeng Dai, Kaiming He, and Jian Sun.通过多任务网络级联进行实例感知的语义分割.在2016年IEEE计算机视觉与模式识别会议（CVPR2016）上，位于美国内华达州拉斯维加斯，2016年6月27日至30日，第3150-3158页，2016年。 1, 20[8] Alireza Fathi, Zbigniew Wojna, Vivek Rathod, Peng Wang,Hyun Oh Song, Sergio Guadarrama, and Kevin P. Murphy.通过深度度量学习进行语义实例分割.CoRR，abs/1703.10277，2017年。 20[9] Bharath Hariharan, Pablo Andr´es Arbel´aez, Ross B. Gir-shick, and Jitendra Malik. 同时检测和分割. 在计算机视觉- ECCV2014 -第13届欧洲会议上，位于瑞士苏黎世，2014年9月6日至12日，第297-312页，2014年。 20[10] Zeeshan Hayder, Xuming He, and Mathieu Salzmann.边界感知实例分割.在2017年IEEE计算机视觉与模式识别会议（CVPR2017）上，位于美国夏威夷檀香山，2017年7月21日至26日，第587-595页，2017年。 20[11] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross B.Girshick. Mask R-CNN. 在2017年IEEE国际计算机视觉会议（ICCV2017）上，位于意大利威尼斯，2017年10月22日至29日，第2980-2988页，2017年。 1, 2, 30[12] Ji Hou, Angela Dai, and Matthias Nießner. 3D-SIS:RGB-D扫描的三维语义实例分割.在IEEE计算机视觉与模式识别会议（CVPR）上02019年6月16日至20日，位于美国加利福尼亚州长滩，2019年，第4421-4430页，2019年。 1, 30[13] Binh-Son Hua, Quang-Hieu Pham, Duc Thanh Nguyen,Minh-Khoi Tran, Lap-Fai Yu, and Sai-Kit Yeung. SceneNN:一个带有注释的场景网格数据集. 在第四届三维视觉国际会议（3DV2016

下载后可阅读完整内容，剩余1页未读，立即下载