语义超点树网络在3D场景实例分割中的应用

81 浏览量更新于2023-10-14 收藏 15.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

27830使用语义超点树网络进行3D场景的实例分割0Zhihao Liang 1, 2, Zhihao Li 3, Songcen Xu 3, Mingkui Tan 1和Kui Jia 1, 4, 5 *01 华南理工大学，2 DexForce科技有限公司，3 华为诺亚方舟实验室，4广州市番禺实验室，5 彭城实验室0eezhihaoliang@mail.scut.edu.cn，{kuijia, mingkuitan}@scut.edu.cn，0{zhihao.li, xusongcen}@huawei.com0摘要0在3D场景中进行实例分割是许多场景理解应用的基础。由于数据的不规则性和实例数量的不确定性，这仍然是一项具有挑战性的任务。最先进的方法主要依赖于一个通用流程，首先学习在语义和实例级别上具有区分性的点级特征，然后通过点分组的单独步骤提出对象实例。虽然有希望，但它们存在以下缺点：（1）第二步不受实例分割的主要目标的监督，（2）它们的点级特征学习和分组对于处理数据的不规则性不够有效，可能导致分割不连续。为了解决这些问题，我们在这项工作中提出了一种名为语义超点树网络（SSTNet）的端到端解决方案，用于从场景点中提出对象实例。SSTNet的关键是一个中间的语义超点树（SST），它是基于超点的学习语义特征构建的，并且将在中间树节点处遍历和分割，以提出对象实例的建议。我们还在SSTNet中设计了一个称为CliqueNet的改进模块，用于修剪可能错误分组到实例提议中的超点。在ScanNet和S3DIS的基准测试中，我们的方法表现出了很好的效果。在提交时，SSTNet在ScanNet（V2）排行榜上排名第一，比第二名方法的mAP高出2%。PyTorch的源代码可在https://github.com/Gorilla-Lab-SCUT/SSTNet中找到。01. 引言03D实例分割的任务在许多与3D场景理解相关的应用中是基础性的。给定通过多视角融合技术从深度相机重建的点云观察场景[8,14]，任务是同时为预定义对象分配语义标签和实例标签。0*通讯作者：Kui Jia 0将类别分配给单个场景点，并区分属于不同对象实例的点。学习实现3D实例分割至少在以下几个方面具有挑战性：（1）观察到的场景点通常是稀疏和不规则的，这对基于局部（可能是全局）上下文的形状特征进行点级分类学习造成了困难；（2）场景中未知数量的对象实例引入了学习点-实例关联问题的额外不确定性，而这个问题本身已经是组合的；（3）即使可以进行点级分类和点-实例关联，也不能保证在空间上相邻的点之间学习一致性，这可能导致分割不连续，特别是在对象边界周围（参见图1的示例）。目前最先进的方法（例如[16, 37,9]）通过以下通用流程解决了（部分）上述挑战。它们首先训练网络以学习在语义和实例级别上具有区分性的点级特征，然后通过单独的点聚类步骤将那些被认为属于同一实例的点分组，使用学习到的点级特征。虽然有希望，但它们存在以下缺点。首先，点聚类的第二步与网络训练无关，其结果因此不能通过指导向地面实例的真实分组来保证。其次，虽然超点[19]已经常用于3D点的语义分割[18,4]，但是当涉及到实例分割时，除了OccuSeg[15]之外，这些最先进的方法选择以点级方式进行特征学习和分组，这使得它们无法利用超点的中级形状表示中建立的几何规律。为了克服这些缺点，我们有动力开发一种从观察到的点场景中提出对象实例的端到端解决方案。考虑到超点表示几何上同质的邻域，我们选择使用超点预处理。27840从场景点计算得到，实例分割问题归结为学习一个将超点分组在同一对象实例上的网络。在这项工作中，我们设计了一种名为语义超点树网络（SSTNet）的解决方案，如图2所示。与现有方法类似，SSTNet从学习点级语义和实例级特征的骨干开始；与它们不同的是，SSTNet通过点级池化将这些特征立即有效地聚合为超点级特征。SSTNet的关键是一个中间的语义超点树（SST），超点作为其树叶。SST基于超点的汇总语义（和实例级）特征构建，并将通过后续的SSTNet模块进行遍历和分割的中间树节点进行分割；从根节点开始，当在跨越该分支的中间树节点处做出非分割决策时，对象实例的提议形成为树分支的超点（参见图3的示例）。我们的树构建非常高效，选择了从叶子到根节点的特征继承方式和成对相似度度量，支持最近邻链[35]等快速算法。我们注意到，在构建和遍历树时，可能会发生超点错误分配给实例的情况。为了弥补这一问题，我们设计了一个后续的改进模块，称为CliqueNet，它将每个提议的分支转换为图形团，并学习修剪一些分支节点。最后使用ScoreNet[16]评估生成的提议，给出了我们SSTNet的实例分割结果。在ScanNet [7]和S3DIS[1]的基准数据集上进行了全面的实验证明了我们提出的方法的有效性。值得注意的是，SSTNet在这两个基准测试中优于所有现有方法，并且在提交时，在ScanNet（V2）排行榜上排名第一，比第二名方法的mAP高2%。最后，我们总结我们的技术贡献如下。0•我们提出了一种端到端的解决方案，即语义超点树网络（SSTNet），用于直接从观察到的3D场景中提出和评估对象实例。通过使用超点，我们的方法享受几何规则的好处，支持一致和清晰的分割，特别是在对象边界处。0•我们在SSTNet中选择了分裂分组的策略，首先构建树，然后通过节点分割进行树遍历以进行对象提议。通过使用适当的节点合并和特征继承构建树，我们的策略比替代的聚合分组方法快一个数量级，从而实现了SSTNet的高效训练和推理。0• 考虑到在构建和遍历过程中可能会发生超点错误分配给实例的情况0在构建树的过程中，我们在SSTNet中设计了一个改进模块，称为CliqueNet，它将每个提议的分支转换为图形团，并学习修剪一些分支节点。实验证明了它的有效性。0图1.现有的基于点的分组方法（PointGroup[16]）和我们的SSTNet（右）的示例实例分割结果的可视化。不同的颜色代表分割的实例。02. 相关工作0在本节中，我们简要回顾了3D分割的文献，重点关注我们提出的方法的相关内容。3D语义分割建立几何规则对于实现不规则点云的语义分割是必不可少的。最近的方法使用投影[20]、体素化[12, 5]或局部聚合[26,34]来进行简要的规则化，而后续的语义学习任务仍然具有挑战性。相反，基于超点的方法[19,18]将几何上同质的点聚合为超点，以建立一定程度的几何规则性。此外，超点成为中级形状表示，将实例分割问题简化为将属于同一实例的超点分组。3D实例分割考虑自底向上的方法，该方法基于语义分割对结果进行聚类。[38, 33,17]根据具有区分性实例级特征[2]的启发式[6,3]聚类实例掩码。直观地说，PointGroup[16]利用了实例坐标的邻接性。上述聚类结果依赖于边界条件，因为缺乏明确的边界监督。为了解决这个问题，SSTNet将自底向上的聚类策略与自顶向下的遍历相结合，实现了端到端的学习提议生成。图像分割用于对象提议为了克服滑动窗口[11,28]引起的复杂性，基于分割的[32, 27,31]方法将2D检测视为图像分割，其中候选对象是从层次图像分割中假设的。此外，SSTNet采用了贪婪的聚合策略，并使用学习分割分类器摆脱了对聚合次数的依赖，并生成精确的掩码结果。(1)Over-Segmentation(2)Sparse3D U-Net� � �� Pooling in each Superpoint� � �� Tree SplitClassifierBottom-up ConstructionTop-down traversalNN Chain(3)ScoreNetFinal InstancePredictionsCliqueNet(4)Refined Proposals� � �� HNIR��†�†- Feature Block- Learning Block- Learning-Free Block� � �MLPMLP� � �� Feature LearningProposal Generation- Addition- Concatenation� - point cloud coordinates� - features� - semantic scores� - offsets� - augmented semantic scores� - nodes’ features for SST††HNIR: hierarchical node-inheriting relationsMerging relation:Feature inheriting:†††�� 1{ }Mii�1�| |11||��1�iip��Softmax27850过分割0Sparse 3DU-Net0每个超点内的池化0Tree SplitClassifier0最近邻链0ScoreNet0最终实例预测0CliqueNet0优化的提议0HNIR01 1 | | � �0图2.我们提出的语义超点树网络（SSTNet）的概述。有关各个模块的详细信息，请参阅正文。N是场景点的数量，M是超点的数量，K是类别的数量，n是骨干网络输出特征的维度。˜f，˜a，˜o分别表示点特征，语义评分和偏移量。（1）输入场景，（2）生成的超点集{Pi}Mi=1，（3）前景超点和语义超点树（SST）T，（4）树遍历和分割后生成的提议R。最近邻链（NN Chain）是我们用于高效构建树的算法。03. 概述0假设输入点集I={p∈R3}是通过多视图融合技术（例如SLAM[8,14]）从深度相机重建的3D场景，其中包含K个未知类别的对象实例。任务是分割出I中定义每个实例的点，这是一个具有挑战性的任务，如第1节所分析的。为了减轻困难，我们选择为I中的点建立一定程度的几何规律性，通过利用一种中层形状表示称为超点[19,18] -对于输入I，超点定义了其局部点的几何同质邻域，并且通常通过使用图分割对I进行过分割来计算。通过预先计算的超点集{P}，实例分割问题可以归结为将空间上接近的{P}聚集在一起，这些{P}属于同一个对象实例并分配给它们一个语义标签。这在超点所在的3D空间中是一个聚类/分组问题；鉴于超点在同一实例上的空间紧凑性，自然而然地考虑使用分层聚类/分组来实现目标。这个策略类似于在2D图像中使用的用于对象提议的策略，通过分层图像分割[32,29,13]来实现。为了实现上述思想，我们在这项工作中提出了一个端到端的分层分割网络，该网络经过训练以将场景的超点作为预定义类别的对象实例进行语义分组。我们网络的关键是一个中间的语义超点树（SST）；它是构建的01通过使用超点，我们依赖于一个假设，即单个超点不会跨越对象边界；虽然这并不能得到保证，但这是我们愿意为超点带来的几何规律性所付出的代价，这些规律性对于原始的不规则点集I是有益的。0基于前面网络模块中学习到的语义特征，我们的方法将在后续网络模块中进行遍历和分割；因此，我们将我们提出的方法称为语义超点树网络（SSTNet）。图2给出了说明。具体而言，SSTNet从一个骨干网络开始，为每个点p∈I学习点特征˜f∈Rn，然后将其输入到一个后续的语义评分模块中，以输出语义评分˜a∈[0,1]K和偏移量˜o∈R3，其中˜a是表示点p的软标签预测的K维概率向量，˜o是相对于p所属实例的中心的预测坐标偏移量。与此模块并行，我们对I进行超分割，得到超点{P}；注意，这仅在网络训练期间应用一次。点级特征{˜f}，{˜a}和{˜o}通过每个超点内的平均池化进行聚合，形成超点特征f∈Rn，评分a∈[0,1]K和偏移量o∈R3。假设从I获得了一组超点，我们使用所得到的{f}，{a}和{o}在网络的后续模块中使用。为了实现SSTNet的高效训练，我们选择在构建语义超点树T之后进行分割分组（即自上而下方式），而不是常用的分层图像分割中使用的聚合分组，这意味着首先构建整个树T，其叶节点表示单个超点。然后，我们设计了一个树遍历和分割模块，该模块学习以层次方式分割树节点；从根节点开始，在中间树节点进行非分割决策时，形成对象实例的提议作为树分支。我们注意到，在树构建的两个阶段都可能发生超点和对象实例之间的错误分配。CE(˜ai, ˜a∗i ) +∥˜oi − (c∗pi − pi)∥2 · I(pi) −2· I(pi),(2)27860构建和树遍历与分割。[25,24]证明了细化可以实现更高的网格重建精度。受此启发，我们设计了一个后续的细化模块称为CliqueNet，以弥补其中的一些错误。该模块将每个提案分支转换为一个图形团，并学习修剪一些分支节点。我们最后使用ScoreNet[16]评估生成的提案，从而得到我们的SSTNet的实例分割结果。整个网络以端到端的方式进行训练，据我们所知，这是首个用于点集上的3D实例分割任务的端到端训练网络。中间的SST构建非常高效，其计算复杂度和运行时间在第4.2节中给出。第4节还介绍了网络的各个模块，并与其他设计进行了比较。04. 提出网络的各个模块04.1. 主干网络和语义评分0假设输入I包含N个点。给定{pi∈I}Ni=1，我们使用U-Net风格的3D卷积主干网络[30]学习逐点特征{˜fi∈Rn}Ni=1，其层次结构实现为子流形稀疏卷积(SSC)或稀疏卷积(SC)[12]。我们在补充材料中给出了层次结构的具体细节。通过使用两个多层感知机(MLP)，我们从{˜fi}Ni=1中获得语义评分{˜ai∈[0,1]K}Ni=1和偏移预测{˜oi∈R3}Ni=1。令{˜a�i}Ni=1以K维的独热向量形式表示N个点的真实语义标签。我们使用以下损失来训练用于语义评分的MLP0L语义 = -10N个01 - 2 × Ni=1˜a�i˜a�i × Ni=1˜a�i˜ai + ×Ni=1˜a��i˜a�i, (1)0其中CE(∙,∙)表示交叉熵损失，(1)中的其余项定义了一种骰子损失，以减轻K个类别之间的不平衡[22]。令c�p表示任意p∈I所属的对象实例的几何中心。我们使用以下损失来训练用于偏移预测的MLP0L偏移 = 10N'个0N个01N'个0N个0i =10∥˜oi∥2 ∙ c�pi−pi0其中I(p)∈{0,1}是一个指示函数，告诉我们点p是否属于任何对象实例，N' =∑Ni=1I(pi)表示这样的点的数量。我们在补充材料中给出了两个MLP的具体细节。04.2. 语义超点树的构建0如前一节所述，我们构建SSTT基于从输入I预计算得到的超点{P}；不失一般性，我们假设从I计算得到M个超点。通过对每个超点{Pi}Mi=1中的每个点进行平均池化，我们简单地获得了超点级别的特征{fi∈Rn}Mi=1，语义评分{ai∈[0,1]K}Mi=1和偏移{oi∈R3}Mi=1。给定对{Pi}Mi=1的预测{fi,ai,oi}，树可以贪婪地生长[23]，从合并超点的叶节点开始（参见图3的示例）。为了定义连接标准，可以选择许多相似度度量来衡量任意一对P i和Pj之间的相似度。在本文中，我们选择语义评分和偏移预测来定义度量标准。具体而言，对于一个超点P，我们首先计算可能属于其的（可能的）对象实例的预测几何中心cP = o +10|P|的并集 |P| i=1 p i，然后连接起来0a† = [a; cP] ∈ R K+3 2。我们使用增强的 a† i 和 a† j来表示 P i 和 P j，并计算欧氏距离 ∥a† i − a† j∥作为决定成对超点合并顺序的链接准则。合并两个超点 P i和 P j 会得到一个中间树节点，表示为 t ∈T。我们通过加权平均计算 t 的语义分数，如下所示：0a t = w i a i + w j a j，(3)0其中权重 w i 和 w j 与 P i 和 P j 的大小成比例，即 w i = |P i| / (|P i| +|P j|) 和 w j = |P j| / (|P i| + |P j|)。类似地，t 的偏移预测也可以通过 wi o i + w j o j 进行计算。然后，我们通过获得的 a t 和 o t 计算增强的a† t。需要注意的是，我们还计算节点 t 的特征 f t = w i f i + w j fj，这将在提案生成模块中使用。给定任意 t ∈ T 的增强 a† t和基于欧氏距离的成对相似度度量，可以按照层次结构构建树，如图3所示，其深度范围在 log M 2 和 M - 1 之间。为了清晰起见，我们将 M个叶节点写为 {t P i ∈ T} M i=1，将任何根节点或中间节点写为 t ∈T。我们之所以使用增强的语义分数 a† = [a; cP] 来表示每个 t P（和t），是基于以下论点：对于同一实例上的任何一对 P i 和 Pj，它们的语义分数和实例中心都应该是一致的。第5.1节的实证结果表明，这比其他选择更好，验证了这一假设。因此，我们将构建的 T称为语义超点树。备注：给定 M个超点，上述描述的层次树构建的复杂度为O(M^3)。由于线性特征继承（3）和使用欧氏距离作为相似度度量，可以通过使用最近邻链的快速算法 [23] 构建T，从而使其高效率，复杂度为 O(M^2)。在运行频率为13Hz的机器上，每次构建需要约75毫秒（例如ScanNet[7]的场景），因此支持网络训练的每次迭代在线构建 SST。02 考虑到 a ∈ [0, 1] K 和 c P ∈ R 3的领域差异，我们曾尝试加权连接，例如 a† = [αa; βcP]，其中 α 和 β是超参数。我们最终采用经验设置 α = β = 1，在实践中取得了良好的结果。Tree Split Classifier��043215678927870树分割分类器0图3.语义超点树（SST）的构建和遍历示意图。→表示自底向上的构建过程；→表示自顶向下的遍历过程。0鉴于 M 个超点，上述描述的层次树构建具有 O(M^3)的复杂度。由于线性特征继承（3）和使用欧氏距离作为相似度度量，可以通过使用最近邻链的快速算法 [23] 构建T，从而使其高效率，复杂度为 O(M^2)。在运行频率为13Hz的机器上，每次构建需要约75毫秒（例如ScanNet[7]的场景），因此支持网络训练的每次迭代在线构建 SST。04.3. 通过树遍历和分割生成提案0给定构建的 SST T，我们提出的 SSTNet通过学习一个二进制分类器来遍历和分割 T的节点，从而生成物体实例的提案。对于任何根节点或中间节点 t，将其两个子节点表示为 s1 ∈ T 和 s2 ∈T。实际上，每个 t 定义了一棵树分支，表示为Bt，其中包含超点的叶节点。如第4.2节所述，与每个 t相关联的特征 ft 和增强分数 a†t是从其包含的超点继承而来的。我们使用连接的特征 f†t =[ft; a†t] 作为节点 t的特征。将要学习的二进制分类器表示为 ϕ: R n + K +3 ×R n + K +3 ∈ (0,1)。从根节点开始，我们以广度优先的方式维护一个树遍历的队列。设 Q 和 R 为两个空集合，并将根节点推入队列Q。如果 ϕ(ft†s1, ft†s2) < 0.5，即认为 t的两个子节点属于不同的物体实例，则将 s1 和 s2 推入队列Q。相反，当 ϕ(ft†s1, ft†s2) ≥ 0.5 时，我们将树分支 Bt中包含的所有超点视为物体实例的提案，并将 t 推入R；停止遍历 Bt中包含的中间节点。需要注意的是，我们已经确定了树分支Bt 中的超点作为物体实例的提案。0在构建T时，我们建立了一个继承层次节点关系的索引表，它支持对Bt中包含的任何中间节点和叶节点/超点进行高效检索。当队列Q变为空时，我们将获得所有对象实例的提案。算法1给出了上述过程的伪代码。在这项工作中，我们将分类器ϕ实现为一个多层感知机（MLP），其详细信息在补充材料中给出。为了训练ϕ，我们定义了树节点的实例级别的地面真实标签。假设训练场景I包含J个对象实例，这些实例可能属于K个类别中的一些。对于任何超点P（即叶节点tP），我们根据其包含点属于（某些）J个实例的比例，分配其实例级别的软标签q�P∈[0,1]J。对于任何中间节点或根节点t，其软标签q�t∈[0,1]J再次通过加权平均从超点的标签继承，类似于特征的继承。给定t在T中的两个子节点s1和s2，我们使用以下对称损失来训练ϕ0L分裂=Et∈T/{tPi}Mi=112[BCE(ϕ(f†s1, f†s2), q��s1q�s2)+0BCE(ϕ(f†s2, f†s1), q��s1q�s2)]，(4)0其中BCE(∙, ∙)表示二元交叉熵损失，q��s1q�s2∈[0,1]以软方式指示两个子节点是否属于同一个实例。备注：在提出的SSTNet中，我们选择首先构建树，如第4.2节所述，然后学习遍历和分裂树节点以生成实例提案；换句话说，我们选择了一种分裂分组的策略，而不是常用的聚合分组策略[32, 29,13]。我们之所以选择这样的设计，主要是出于计算方面的考虑：通过使用最近邻链[23]，我们的树构建的复杂度为O(M2)，遍历树以提出所有对象实例的分支的复杂度为O(M)，从而产生总体复杂度为O(M2+M)；相比之下，以聚合方式生成提案的学习具有数量级更高的复杂度O(M3)。04.4. 用于提案细化的CliqueNet0我们注意到，在SSTNet的前向传播中，一旦一个真正属于对象实例的超点P被构建到SSTT的错误分支Bt中，例如对应于背景或不同实例的Bt，错误将无法纠正。然而，当任何分支Bt被提出作为对象实例时，我们有机会通过修剪其包含的可能属于其他实例或背景的超点来改进其分数评估（参见第4.5节）。考虑一个由Mt个超点的叶节点组成的提出的分支Bt。实施修剪的一种直接方法是连接特征表示��0321��0321LSSTNet = Lsemantic + Loffset + Lsplitting + Lrefining + Levaluation.(8)27880算法1：通过树遍历和分裂生成提案的伪代码0输入：树T，节点特征{f†i}|T|i=1，分类器ϕ；01: 初始化R = �来存储提案，并且队列Q = �；2:将T的根节点推入Q；3: 当Q非空时执行4: t =Q.dequeue()05: 如果t是叶节点，则06: {s1, s2} = t.getchild()07: f†s1 = s1.getfeature()08: f†s2 = s2.getfeature()09: 如果ϕ(f†s1, f†s2) ≥ 0.5，则010: 将t推入R，并且Bt = t.getbranch()011: 否则012: Q.入队(s1, s2)013: 结束如果014: 结束如果015: end while016: return R ;0图4. 将树分支转换为（图）团的示意图。0在节点t处使用f † t与{ f † P i } M t i =1中的每个f †P进行二元分类器的学习，以决定是否应该移除超点P。然而，这仅涉及f † t与每个f †P之间的成对关系，我们经验性地发现错误地分配超点的修剪效果较差。在这项工作中，我们提出了一种更有效的方案，称为CliqueNet，通过学习{ f † t , f † P 1 , . . . , f † PMt}之间的特征交互来确定要移除的超点。具体而言，给定如图4所示的提议分支Bt，我们首先将节点t直接连接到各个叶节点/超点，形成一个团C，当将整个SSTT视为一个图时，我们注意到为不同的提议分支形成的团是相互独立的，即它们不在同一个图上。可以计算出一个邻接矩阵A C ∈ { 0 , 1 } ( M t +1) × ( M t+1)，指定团的节点连接。令¯ A C = A C +I，其中I是单位矩阵，将团节点的特征简洁地写为F † C = [ f † t , f † P 1 , . . . , f † P Mt ] ∈ R ( n + K +3) × ( M t+1)。将CliqueNet表示为函数ψ，ψ的第一层计算0ReLU ( ¯ D − 1 / 2 C ¯ A C ¯ D − 1 / 2 C F † C W1 ψ ) , (5)0其中¯ D C是¯ A C的对角度矩阵，W 1ψ表示ψ的第一层的权重矩阵。在这项工作中，0我们使用一个三层的CliqueNet，其具体细节在补充材料中给出。CliqueNet输出得分ψ ( F † C , A C ) ∈ (0 , 1) M t+1，分别为C中的M t +1个节点定义。为了训练ψ，我们对每对节点t和P i，i ∈ { 1, . . . , M t }施加监督，得到0L refining = 1 Mt0i =1 BCE ( ψ ( F † C , A C ) , q �� t q � P i) , (6)0其中实例级别的软标签q � t ∈ [0 , 1] J和q � P ∈ [0 , 1]J在第4.3节中定义。04.5. 提议评估0将通过CliqueNet修剪一些超点后的对象实例的提议分支表示为B − t，并假设它包含N −t个原始点。回想一下，它们的逐点特征已经由SSTNet的主干计算出来。我们将这些特征简洁地表示为� F B − t = [ ˜ f 1, . . . , ˜ f N − t ] ∈0R n × N −t。我们遵循[16]，使用一个称为ω的ScoreNet来评估提议。ScoreNet只是U-Net的一个缩小版；有关网络细节可以参考[16]。根据与场景中地面实例的交并比（IoU）值，我们将提议的标签定义为v � t ∈ [0, 1]（有关设置v �t值的详细信息，请参见补充材料），并使用以下损失函数训练ScoreNet0L evaluation= 1 |R|0t ∈R BCE ( ω ( � F B − t ) , v � t ) ,(7)0其中|R|是由我们的SSTNet生成的提议数量（参见算法1）。04.6. 训练和推理0我们将SSTNet的整体训练目标写为0请注意，SSTNet是以贪婪的、模块化的方式进行训练的，这意味着将分别应用于各自模块的个别损失项依次调用到总体损失中（8）。尽管每次SSTNet的前向传播都需要构建树T，但根据前面的部分给出的复杂度和实际运行时间，它非常高效。例如，对于实例提议的树遍历复杂度与超点数量成线性关系；此外，一旦在中间树节点形成一个提议，就不需要遍历所有后代节点。推理过程与SSTNet训练的前向传播过程相同。鉴于我们提出的目标实例之间不重叠的特性，不需要进行非极大值抑制等后处理步骤。InputSemantic GTSemantic PredInstance PredInstance GT27890输入语义 GT 语义预测实例预测实例 GT0图5. 在ScanNet v2（顶部）和S3DIS（底部）的验证集上展示了语义分割和实例分割的结果。05. 实验0数据集我们使用ScanNet（V2）[ 7 ]和S3DIS[ 1]的基准数据集进行实验。ScanNet有1201个训练场景，312个验证场景和100个测试场景，包含18个类别的物体实例。每个场景还提供了表面法线。我们在其验证集上进行分析和消融研究，并将结果提交给隐藏的测试集。S3DIS包含6个大规模室内场景，包含13个物体类别，我们在以下方面评估我们的模型：（1）将Area-5作为测试集，使用剩余部分进行训练，（2）6折交叉验证，每个区域轮流作为测试集。实现细节对于每个输入场景，我们将RGB值和点坐标连接起来作为SSTNet的逐点输入。使用AdamW优化器[ 21]进行网络训练，初始学习率为1e-3，权重衰减为1e-4；学习率遵循多项式学习率策略。我们将批量大小设置为4。我们通过对S3DIS数据集的点进行1/4的子采样来预处理场景。我们使用基于图的分割方法[ 10]为ScanNet场景生成超点。对于S3DIS，每个场景由彩色点云表示，我们使用SPP + SPG [ 19 , 18]生成其超点。SSTNet的模块和层的具体细节在补充材料中给出。评估指标按照官方ScanNet（V2）评估协议，我们报告在不同IoU阈值下的平均精度（mAP）作为评估指标，以比较不同方法的性能。mAP@25和mAP@50分别表示IoU阈值分别设置为25%和50%时的平均精度得分，mAP表示平均精度得分，阈值从50%到95%，步长为5%。0平均分数是在IoU阈值从50%到95%之间以5%的步长计算的。05.1. 消融研究和分析0我们首先进行消融研究，评估SSTNet中各个组件的有效性。这些研究是在ScanNet（V2）数据集[ 7]上进行的。对SST构建的特征分析SST的质量取决于构建树时使用的特征。在这项工作中，对于超点 P ，我们选择语义分数 a 和预测的实例中心 c P，其中 c P 由偏移预测 o计算得出（参见第4.2节），并形成增强的 a † = [ a ; c P ]用于SST的构建。表3中的结果验证了我们的论点，即对于同一实例上的任意一对超点，它们的语义分数和实例中心应该是一致的，而它们的超点特征不一定相似。通过树遍历和分割学习进行提案生成的有效性为了验证我们通过SST进行主要提案生成方案的有效性，我们与两种替代方案进行比较。第一种替代方案进行了与SST相同的遍历，但将节点分割分类器 ϕ替换为简单的阈值化方案，我们将其称为SST-Thresholding；为了确定是否将中间节点 t 分割为其子节点 s 1 和 s2 ，它对欧几里得距离 ∥ a † s 1 − a † s 2 ∥ 2进行阈值化，其中我们通过优化调整阈值以获得最佳性能3。0我们还尝试了欧几里得距离的阈值化，即 ∥ f † s 1 − f † s 2 ∥ 2 ，其中 f †s 1 = [ f s 1 ; a † s 1 ] ， f † s 2的计算方式类似。实验结果表明，这种方法的性能更差。3D-MPA[9]35.545.748.429.927.759.14.733.221.221.727.819.341.341.019.557.435.284.921.3SSEN[38]38.485.249.419.222.664.82.239.829.927.731.723.119.451.419.658.644.484.318.4PE[37]39.666.746.744.624.362.42.257.710.621.934.023.948.747.522.554.135.081.827.3PointGroup[16]40.763.949.641.524.364.52.157.011.421.135.921.742.866.025.656.234.186.029.1OccuSeg[15]48.680.253.642.836.970.220.533.130.137.947.432.743.786.248.560.139.484.627.3rkingingSuperpointSemanticInstancemAPAP@50AP@25featurescorecenter✓40.155.366.2✓43.559.872.2✓47.361.671.4✓✓✓48.963.672.949.464.374.0Ex-[7].m-SST-Thresholding46.362.674.7Superpoint Graph44.460.669.5Our SSTNet49.464.374.049.464.374.050.064.773.9ion27900方法 AP 浴缸床书架柜子椅子中央柜帘桌门办公家具图片冰箱淋浴水槽沙发桌子厕所窗户0我们的SSTNet 50.6 73.8 54.9 49.7 31.6 69.3 17.8 37.7 19.8 33.0 46.3 57.6 51.5 85.7 49.4 63.7 45.7 94.3 29.00表1.在ScanNet（V2）基准测试上的3D实例分割（隐藏测试集）。SSTNet的结果是通过在2021年1月4日训练的ScanNet训练集上提交模型获得的。0方法 mAP AP@50 AP@2503D-MPA[ 9 ] 35.5 61.1 73.7 SSEN[ 38 ]38.4 57.5 72.4 PE[ 37 ] 39.6 64.5 77.6PointGroup[ 16 ] 40.7 63.6 77.8 OccuSeg[15 ] 48.6 67.2 74.2 我们的SSTNet 50.669.8 78.90表2.在ScanNet（V2）基准测试上的3D实例分割（隐藏测试集）。SSTNet的结果是通过在2021年1月4日训练的ScanNet训练集上提交模型获得的。0表3.对SST构建使用的特征进行分析。实验在ScanNet（V2）[7]的验证集上进行。有关三种特征如何计算的详细信息，请参阅第4.2节。0第二种替代方案，不依赖于SST构建，给定具有增强语义分数{a†i}Mi=1的M个超点，我们首先基于两两欧氏距离构建K最近邻图，然后训练分类器来决定是否断开某些图边缘；生成的断开的图团被提议为对象实例；我们将这种替代方案称为SuperpointGraph，可以解释为学习提出对象提案的扁平化版本。表4显示，SST-thresholding在mAP@25的低精度指标上表现最佳，表明我们构建SST的确对于生成对象提案是有用的。在mAP的平均指标上，SSTNet远远优于这两种替代方案。CliqueNet细化的有效性CliqueNet的有效性剖析研究在表5中呈现，表明从提议的树枝中修剪超点在mAP指标的高精度区间是有效的。05.2. ScanNet基准测试结果0我们在ScanNet（V2）的训练集上训练SSTNet，并将我们的模型提交到测试服务器。表1显示，在ScanNet（V2）测试集的排行榜上，SSTNet优于所有现有方法。结果以以下指标为准：0方法 mAP AP@50 AP@250表4.通过遍历和节点分割学习语义超点树的提案生成的有效性分析。实验在ScanNet（V2）[7]的验证集上进行。有关这两种替代方案的设计，请参阅正文。0CliqueNet细化 mAP AP@50 AP@250表5.关于CliqueNet提案细化的剖析研究。实验在ScanNet（V2）[7]的验证集上进行。0方法 mAP AP@50 mPrec mRec0ASIS[ 33 ] - - 55.3 42.4 PointGroup[ 16 ] - 57.861.9 62.1 我们的SSTNet 42.7 59.3 65.5 64.20ASIS † [ 33 ] - - 63.6 47.5 3D-BoNet † [ 36 ] - - 65.647.6 OccuSeg † [ 15 ] - - 72.8 60.3 PointGroup † [16 ] - 64.0 69.6 69.2 我们的SSTNet † 54.1 67.8 73.573.40表6.在S3DIS验证集上的实例分割结果。没有 †标记的方法在Area-5上进行评估；带有 †标记的方法在6折交叉验证上进行评估。0表2报告了AP@25和AP@50。05.3. S3DIS上的结果0根据先前方法中使用的协议，我们采用了Area-5和6折交叉验证，并使用IoU阈值为0.5的mAP / AP@50/平均精度（mPrec）/平均召回（mRec）来评估S3DIS数据集上的SSTNet。有关这些指标的精确定义，请参阅[33]。表6显示SSTNet优于所有现有方法，验证了我们提出的方法的普适优势。致谢：本工作得到了中国广东省重点研发计划（编号：2019B0

下载后可阅读完整内容，剩余1页未读，立即下载