TWIST：半监督3D实例分割中的双向互标自训练

94 浏览量更新于2023-10-25 收藏 20.85MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

model pre-training through a contrastive loss. They, however,only explore SSL by means of consistency regularization.In this paper, we address semi-supervised 3D instancesegmentation by designing a new self-training framework,which is the first of this kind. We aim to generate high-quality pseudo labels from unlabeled data to improve modeltraining. This goal is challenging to achieve. First, the taskrequires both semantic- and instance-level understanding ofa 3D scene. These two goals may conflict with each other.For example, we may want different instances of the sameclass to have different instance IDs but the same semanticID. Therefore, it is non-trivial to generate high-quality (joint)pseudo labels for supporting both prediction tasks.Second, the way to promote consistency among pseudolabels in the instance-level task has much room to explore.For instance, pseudo semantic labels within the same in-stance should be consistent. Otherwise, it could confuse howpoints are separated into object instances. Third, an effectivepseudo-label evaluation and selection mechanism is in high11000TWIST：用于半监督3D实例分割的双向互标自训练0Ruihang Chu 1 Xiaoqing Ye 2 Zhengzhe Liu 1 Xiao Tan 20Xiaojuan Qi 3 * Chi-Wing Fu 1 , 4 Jiaya Jia 1 , 501 CUHK 2 Baidu Inc. 3 HKU 4 SHIAE 5 SmartMore0摘要0我们探索了在半监督设置下缓解3D实例分割中的标签需求问题的方法。为了利用未标记的数据提升模型性能，我们提出了一种名为TWIST的新型双向互标自训练框架。它利用场景的语义理解和实例信息之间的内在相关性。具体而言，我们考虑了两种伪标签，用于语义级和实例级监督。我们的关键设计是为去噪伪标签提供对象级信息，并利用它们之间的相关性进行双向互相增强，从而迭代地提升伪标签的质量。与最近的3D预训练方法相比，TWIST在ScanNet和S3DIS上取得了领先的性能，并且可以与它们合作进一步提升性能，例如，在1%标签的ScanNet数据有效性基准上，AP50增加了4.4％。代码可在https://github.com/dvlab-research/TWIST上获得。01. 引言0深度学习方法在3D点云学习方面取得了巨大成功。它们需要大规模的注释数据。与扫描工作相比，注释方法需要更多的人工工作量。对于ScanNet[9]，需要雇佣20人来收集RGB-D扫描。然而，平均每个扫描需要500名基于众包的工人，每人使用约22.3分钟来标记。为了缓解这个标签需求问题，一种方法是利用半监督学习（SSL）。这种设置只需要对训练集的一小部分进行地面真值标注。目标是利用大量完全未标记的数据来提升模型性能。与对图像理解的密集研究相反[1, 14, 26, 27, 38,39]，对于3D实例分割的这种设置进行了较少的研究[20,49]，而这是3D感知的重要任务。[20,49]的方法利用未标记的数据进行模型预训练，通过对比损失进行半监督学习。然而，在本文中，我们通过设计一种新的自训练框架来解决半监督3D实例分割问题，这是首次尝试。我们的目标是从未标记的数据中生成高质量的伪标签，以改善模型训练。这个目标很难实现。首先，这个任务需要对3D场景进行语义级和实例级的理解。这两个目标可能会相互冲突。例如，我们可能希望同一类别的不同实例具有不同的实例ID，但具有相同的语义ID。因此，为支持这两个预测任务生成高质量的（联合）伪标签是非常困难的。其次，在实例级任务中促进伪标签之间的一致性还有很大的探索空间。例如，同一实例内的伪语义标签应该是一致的。否则，可能会混淆点如何分离成对象实例。第三，一个有效的伪标签评估和选择机制非常重要。0*通讯作者0（a）（b）（c）0图1.上：通过（a）置信度阈值、（b）我们的方法（无重新校正模块）和（c）我们的完整方法在未标记的点云上产生的伪语义标签（绿色表示正确结果，红色表示错误结果）。下：通过各种方法找到的伪质心（蓝点）。橙色点标记了地面真值（GT），红色框标记了离GT较远的蓝点。我们的TWIST框架（c）有效提升了语义和偏移至质心伪标签的质量。11010需求。这不能通过常见的策略轻松实现，例如简单的置信度阈值[3, 48]。为了解决这些问题，我们设计了TWO-WayInter-labelSelf-Training（TWIST）框架，该框架共同考虑了两种伪标签，即用于语义级监督的伪语义标签和用于实例级监督的伪偏移向量。重要的是，TWIST迭代地更新这两个伪标签集，同时提高它们的一致性和质量。关键设计包括一种新颖的提案重新校正模块，利用对象级预测来去噪伪标签，并采用策略实现互补标签增强。具体而言，由于其对噪声的敏感性，TWIST不像点级置信度阈值那样在点级别生成伪标签，而是利用模型预测实例提案，并利用此先验知识在提案级别上更新伪标签，自然地保持了提案内的一致性。为了进一步提高伪标签的质量，我们开发了提案重新校正模块，以提供对象级评估和伪标签去噪。该模块可以以可学习的方式进行训练，并采用多样的提案级样本作为输入，以缓解标签需求问题。TWIST的另一个显著特点是明确促进两个伪标签集之间的互补增强。在这里，我们设计了双向的互补标签交互，通过语义引导的实例提案生成模块和基于提案的伪标签更新模块实现。此外，我们还设计了它们之间的提案重新校正模块作为保护措施，以评估提案质量并纠正低质量标签。它鼓励更好的模型收敛。通过这些手段，我们显著地共同增强了这两个伪标签集，如图1（c）所示。我们在ScanNet v2 [9]和S3DIS[2]这两个大规模3D数据集上评估了TWIST。TWIST在仅有监督的基线和最先进的无监督预训练方法[20,49]上取得了很大的优势。此外，它可以与其他3D预训练方法[20,49]合作，进一步提高0.8到4.4个点的性能。这表明TWIST在半监督3D实例分割方面具有互补的优势。我们的总体贡献如下。0•我们展示了自训练在半监督3D实例分割中的有效性，使用两种伪标签进行有效的模型训练。0•我们提出了TWIST，通过对象级去噪和双向互补标签增强，实现更准确的伪标签生成。0•提出了一种新的SOTA半监督学习框架，用于3D实例分割。在两个大规模数据集上进行验证，并显示与现有3D预训练方法的互补优势。02. 相关工作3D实例分割。给定一个点云，该任务旨在预测具有语义类别的对象实例。3D实例分割方法[4, 5, 11, 15, 18, 19, 22, 24,25, 28, 29, 34, 44, 45, 53,54]可以分为自上而下和自下而上的方法。自上而下的方法[4,19,53]通常采用检测和分割的流程，首先利用几何和/或颜色特征生成3D提案，然后通过掩模预测对提案进行优化。另一方面，自下而上的方法[5, 8, 11, 15, 18, 22,024, 25, 28, 44, 45,54]通过基于嵌入相似性对输入点进行聚类来形成对象实例。SPGN [44]和ASIS[45]通过判别损失促进内部和实例之间的相似性。后来的方法[11, 24,25]在聚类中考虑了语义预测和几何分布。一个自然的先验是只将一致语义类别的点分组到同一个实例中。这些流程通过各种技术进一步改进，例如多任务学习[15]、层次聚合[5]、动态核[18]和超点遍历[28]。在本文中，我们专注于标签高效的设置，并按照自下而上的范式开发了基线框架。3D中的标签高效学习。标记点云是费时且容易出错的。最近的一些方法探索了点云的标签高效学习。与要求训练集中每个点都有标签不同，使用不完整/间接标签，例如2D图像标签[40, 43, 47]，稀疏3D点标签[21, 30-32, 50,55]，区域/场景标签[36, 37, 41,46]和来自部分训练集的标签[6, 10, 23, 40, 42,56]。尽管监督变得较弱，但模型被设计为利用可访问的信息来优化性能。这些技术已在各种3D任务中得到验证，例如单个CAD模型分类和部分分割[12, 16, 33,57]，大规模语义分割[6, 10, 21, 23, 30, 41, 46, 50,55]和目标检测[31, 32, 36, 37, 40, 42, 47,56]。我们专注于需要标签高效学习的3D实例分割。在这里，我们只对训练集的一小部分有真值标签，并旨在利用大量未标记的数据来提高模型性能。与用于半监督3D目标检测的工作[40, 42,56]相比，我们专注于需要点级实例分离的拥挤室内场景。到目前为止，只有少数几种无监督预训练方法[20,49]可以帮助完成这项任务。这是第一个具有新颖自训练模型的工作。自训练。自训练是半监督学习中常用的技术，并已成功应用于11020许多2D图像理解任务[17, 48, 51, 58, 60,61]已经追求了这个方向，以降低3D数据的高昂注释成本。到目前为止，只有少数方法在3D任务上受益于自训练，例如3D形状分类[59]、语义分割[30]和目标检测[37,52]。在本文中，我们展示了自训练在3D实例分割上的有效性。我们方法的成功关键在于对象级伪标签去噪和互标签相互增强，以提高自训练中伪标签的质量。03. 3D实例分割的基础知识0给定一个点云P = {(pi, ci)}Ni=1，其中每个pi = (xi, yi,zi)是一个3D坐标，每个ci是一个RGB颜色，模型产生一组3D对象实例提议ˆG ={ˆgj}Mj=1，其中每个ˆgj是P中同一推断语义类别的点的子集。我们使用i作为点索引，j作为实例提议索引。回顾监督基线框架。对于有标签的监督，我们直接使用一个自底向上的框架[20]，该框架采用一个具有共享稀疏U-Net[13]和两个独立的基于MLP的分支的神经模型Φ。一个分支用于预测一组每个点的语义类别ˆS = {ˆsi ∈ {1, ...,K}}Ni=1，另一个分支用于预测一组3D中每个点的偏移向量ˆO = {ˆoi ∈R3}Ni=1，用于将对象表面上的点向相应的实例质心移动，其中K是语义类别的数量。ˆS通过标准交叉熵损失在地面真值语义标签S的监督下进行，ˆO通过回归损失通过地面真值点到质心向量O进行显式监督。我们通过联合优化ˆS和ˆO来训练网络。在测试时，同时考虑语义预测和紧凑的点局部性(pi+ˆoi)进行点级聚类。此外，我们使用广度优先搜索在一个x厘米的球体内探索相同语义类别的相邻点，并将这些点聚类成一个对象实例。讨论。我们选择这样一个监督流程作为我们的基线，因为它简单且在评估基准上表现良好[25]。一个关键的成功因素是准确的语义预测为过滤掉附近的噪声跨类别点提供了强大的先验，从而净化了实例聚类结果。我们利用这个原则进行半监督学习。04. 我们的方法0在半监督设置中，只有一小部分点云场景有标签，而其余的大部分点云是无标签的。我们使用上标l和u来表示有标签和无标签的数量。Pl表示有标签的点云，Pu表示无标签的点云。此外，我们用(ˆSl, ˆOl, ˆGl)和(ˆSu, ˆOu,ˆGu)表示每个点的语义类别、偏移向量和实例提议的预测0在Pl和Pu上，分别用Sl和Ol表示Pl的每个点的地面真值语义标签和偏移向量。我们的目标是利用无标签数据进行训练，以提高3D实例分割性能。为了有效地从无标签数据中学习知识，我们通过以下自训练流程训练网络。0第一步（i）是初始化阶段，在该阶段我们使用第3节描述的模型Φ(.,θr0)在所有带标签的点云上进行训练，使用第0轮的θr0模型权重。每个Pl上的目标函数为0Ll = Ls(Sl, ˆSl) + Lo(Ol, ˆOl)，(1)0其中，Ls是基于语义预测ˆSl的交叉熵损失，Lo是用于监督预测偏移向量ˆOl的L1距离和方向的回归损失。对于一个包含N个点的点云Pl，Lo的公式为0Lo（Ol，^Ol）= 10N0i（||oli−^oli||−oli0||oli||2∙^oli0||^oli||2）。（2）0步骤（ii）是伪标签生成阶段。在自训练的第t轮中，我们首先使用学习的模型Φ（。,θrt−1）预测每个未标记点云Pu的语义类别^Su和偏移向量^Ou，然后对其进行改进以生成伪语义标签~Su和伪偏移向量~Ou。0步骤（iii）是网络模型更新的训练阶段。此外，在自训练的第t轮中，我们使用伪标签~Su和~Ou来改进模型Φ（。,θrt−1）为Φ（。,θrt）。对于每对点云（Pl，Pu），训练目标是0LΦ = Ll + Lu，（3）0其中Lu = Ls（~Su，^Su）+ Lo（~Ou，^Ou）。（4）0自训练在步骤（ii）和（iii）之间迭代，直到性能收敛。重要的是，伪语义标签~Su提供类别级别的监督，伪偏移向量~Ou提供实例级别的监督，使得可以使用未标记的数据来更新网络模型。自训练成功的关键是在步骤（ii）中生成准确的伪标签。这不能通过简单的点级置信度阈值轻松实现。此外，对于3D实例分割，我们考虑伪标签的一致性，并探索它们的相互关系以提高其质量；参见图2中我们TWIST的三个组件。首先，语义引导的提议生成模块（第4.1节）将相同语义预测的点聚类成候选实例提议^Gu在每个未标记的点云Pu中。由于这些提议可能不准确，我们设计了提议修正模块（第4.2节），它是一个可学习的模型，用于定位更可靠的实例提议并进行对象级别的评估/修正。之后，…11030输入场景0修正0特征提取0网络�0语义0（A）语义引导的提议生成0（C）基于提议的伪标签更新0标记的0未标记的0偏移0训练阶段0伪标签生成阶段0更新的标签0固定参数0（B）提议修正0（"�！，"�"）0（%�！，%�"）0（�！，'�"）0（�！，（�"）0（%�！，%�"）0图2. 我们的TWIST框架概述.给定一对标记和未标记的点云（Pl，Pu），特征提取网络Φ首先预测每个点的语义类别（^Sl，^Su）和每个点的偏移量（^Ol，^Ou）。在每个自训练轮次的训练阶段，模块A将^Sl和^Ol传递给模块B生成实例提议^Gl，然后将其输入模块B进行评估/校正。这里，（^Sl，^Ol）和（^Su，^Ou）分别由真实标签（Sl，Ol）和伪标签（~Su，~Ou）进行监督。模块B也可以进行训练（见第4.2节）。在伪标签生成阶段，只处理未标记的点云。我们通过模块A、B和C对^Su和^Ou进行对象级去噪，最后更新伪标签（~Su，~Ou）。绿色和蓝色的粗箭头表示伪标签~Su和~Ou之间的双向相互增强，如第4.3节所讨论的。0池化0类0得分0增强0旋转平移缩放裁剪扩展0�！×（3 + �）0�！×�0�！×30骨干特征0图3.重新校正模块。其输入包括多个对象级特征，每个特征由实例提议的3D坐标和相关的骨干特征连接而成。该模块返回一个语义类别和一个实例确定性分数。两者都可以通过地面实例进行监督。我们设计了五种增强策略来使输入特征多样化。0基于提议的伪标签更新模块（第4.3节）从可靠的实例提议中生成伪标签˜ S u和˜ Ou，并帮助强化提议内的一致性。这些模块共同探索伪标签之间的相互关系。它们增强了伪标签的一致性和质量（详细分析见第4.3节）。04.1. 语义引导的实例提议生成0语义引导的实例提议生成模块（图2中的模块A）使用在第3节中描述的聚类算法以语义预测作为指导，在输入点云Pl或P u中生成实例提议。注意，我们在端到端网络训练（在Pl中输出ˆ G l）和伪标签生成（在P u中输出ˆ Gu）中都涉及到这一步骤。输出的提议被送入重新校正模块进行提议级别的评估。04.2. 提议重新校正0每个实例提议的预测语义类别不够准确，因为它只是每个点的语义预测的组合。为了解决这个问题，我们设计了提议重新校正模块Ψ，评估提议中每个点集是否形成一个单独的实例。然后，我们重新对提议进行分类以纠正错误分类的标签。在每一轮的训练阶段，该提议重新校正模块接收ˆ Gl进行训练，在伪标签生成阶段，它评估一组ˆ Gu以更新伪标签。0输入数据。我们将对象级特征作为输入样本传递给Ψ，而不是将整个点云场景作为输入样本。因此，我们可以大大扩大可训练样本的集合，更好地预测单个对象，并更容易从全局角度进行对象识别。对于一个包含N j个点的实例提议ˆ gj，重新校正模块将3D点坐标（R N j ×3）和相关的骨干特征（R N j ×F），即模型Φ中稀疏U-Net的输出，连接起来形成输入样本ˆ k j ∈ R N j × (3+F)给模块Ψ。我们选择骨干特征而不是原始的RGB特征，因为它们能够有效地捕捉上下文信息，这对于定位3D对象可能是关键的，如在第5.3节中进行了消融实验。0模块训练。图3显示了模块训练的工作流程。在训练阶段，重新校正模块首先通过各种对象级数据增强来使特征ˆ k lj多样化。我们考虑了两类增强。几何变换包括旋转、平移和逐点缩放。几何突变包括裁剪和扩展，这会对变化产生更强的干扰。M˜auj = 1NjWorse Prediction(a)(b)11040ˆ k l j的实例确定性分数，即Eq.（5）中的iou lj。具体来说，首先通过随机比例缩小或放大ˆ k lj的边界框，然后选择更新后的边界框内的所有点作为新的ˆ kl j。这些操作会移除ˆ k l j的一部分或将其他对象的点带到ˆ klj中。然后，重新校正模块使用一个小的SparseConv编码器[13]和两个MLP头来处理ˆ k lj。它们为每个实例提议预测一个语义类别ˆ e lj和一个实例确定性分数ˆ v l j。ˆ v lj通过Sigmoid操作缩放到（0,1）之间。受[5,24]的启发，我们计算ˆ k lj与与之最匹配的地面实例之间的逐点IoU，并将其用作监督实例确定性分数的最佳匹配。0L Ψ sc = −10j =1 [ iou l j ∙ log(ˆ v l j ) + (1 − iou l j ) ∙0(5) 其中 M 是实例提议的数量。对于语义监督，我们仅在iou l j 大于0.5时使用交叉熵损失函数对 ˆ e l j进行训练。真实值应该是ˆ k l j最匹配的实际实例的语义类别。训练重新校正模块的整体目标是 L Ψ = L Ψ sem + L Ψ sc。它与 LΦ（参见公式（3））一起在每个轮次的训练阶段进行优化。04.3. 基于提议的伪标签更新0在每个自训练轮次的伪标签生成阶段，对于一个未标记的点云 P u，重新校正模块为每个实例提议ˆ g u j生成一个重新预测的语义类别ˆ e u j 和一个实例确定性得分ˆv uj。得分高于0.5的实例提议用于提议级别的伪标签更新。对于ˆ g u j 中的所有点，即 p u i ∈ ˆ g uj，我们使用重新预测的语义类别ˆ e u j更新它们的伪语义标签，如下所示：0˜ S u { p u i ∈ ˆ g u j } = ˆ e u j . (6)0要更新伪偏移向量，我们首先生成每个提议ˆ g u j的伪实例中心。我们不直接选择ˆ g u j的质心，而是采用均值漂移结果，考虑ˆ g u j中的所有点，利用预测的偏移向量，如下所示：0p u i ∈ ˆ g u j ( p u i + ˆ o u i ), (7)0其中 N j 是 ˆ g u j中的点数。然后，我们可以通过以下方式更新伪偏移向量集合 ˜ O u：0˜ O u { p u i ∈ ˆ g u j } = ˜ a u j − p u i0通过这种机制，我们在实例提议级别上更新两种类型的伪标签，从而自然地保持了提议内伪标签的一致性。因此，即使ˆe u j 是错误的，ˆ g u j 的点仍然有可能在˜ a u j的引导下聚集在一组中。0图4. 伪标签质量图。我们通过点对点的平均准确率（表示为Sem.Acc.）和向量差异来评估伪语义标签的质量（表示为Off. Error）。(a) 伪标签的准确率随着更多的自训练轮次而持续增加。(b)使用不太准确的语义预测会损害伪标签的质量。因此，没有重新校正模块时，两个伪标签集的准确率都会继续下降（绿色钻石和蓝色五角星）。我们的重新校正模块将情况纠正回来（绿色圆点和蓝色方块）。实验在ScanNet v2上进行，标签占比为10%。0相互增强分析。TWIST的一个有趣优点是通过两种伪标签集的双向交互可以相互改善它们的质量。首先，更好的˜ S u鼓励更好的语义预测，从而引导网络获得更好的实例提议（如图2中的粗绿色箭头所示）。在一个提议内，点更有可能来自同一个物体，它们的均值漂移结果（公式（7））可以更可靠，从而提高˜ O u的质量。反过来，通过更准确的偏移预测来训练更多和更好的点簇可以产生有效的实例提议，用于更新伪语义标签（如图2中的粗蓝色箭头所示），其中可以产生更多˜ S u并分配给高质量的点集。因此，在自训练过程中，伪标签的质量是共同提高的，如图4（a）所示。此外，设计的重新校正模块可以有效地促进它们的相互作用朝着正向收敛。如图4（b）所示，我们故意降低伪标签的质量，首先对10%的GT标签的语义类别进行破坏，然后使用更新后的模型预测生成伪标签。当移除重新校正模块时，˜ S u 和˜ O u都会受到准确性降低的影响。幸运的是，它们仍然可以恢复甚至最终收敛到更好的状态，当重新启用重新校正模块时。重新校正机制保证了模型的容错能力，促进了语义和偏移伪标签的相互促进效果。05. 实验05.1. 实验设置0数据集。我们在两个大规模室内数据集ScanNet v2 [9]和S3DIS [2]上进行了广泛的实验。ScanNetv2由1613个真实世界的3D场景组成，具有点级语义和实例注释。整个数据集被分为训练、验证和测试集，分别包含1201、312和100个扫描。S3DIS有272个扫描的3D布局，分布在6个大区域。我们遵循之前工作中的常见划分[20, 24]，将Area5作为验证集，其他五个区域作为训练集。TWIST9.6(+4.5) 17.1 (+7.3)26.2 (+8.6)27.0 (+8.8)44.1 (+12.1) 56.2 (+9.2)30.6 (+3.9) 49.7 (+6.9)63.0 (+4.1) 32.8 (+3.5) 52.9 (+5.0) 66.8 (+3.8)TWIST + CSC [20] 11.5 (+6.4) 20.0 (+10.2) 31.1 (+13.5) 28.6 (+10.4) 45.9 (+13.9) 58.2 (+11.2) 32.8 (+6.1) 51.5 (+8.7)65.1 (+6.2) 34.1 (+4.8) 53.7 (+5.8) 67.8 (+4.8)TWIST17.9 (+8.9) 22.5 (+9.8)27.1 (+6.4)27.1 (+5.6)37.1 (+6.7)48.6 (+5.8)33.6 (+8.4) 45.6 (+8.8)55.8 (+7.5) 36.7 (+6.8) 48.4 (+7.2) 59.7 (+5.2)TWIST + CSC [20] 18.9 (+9.9) 24.8 (+12.1) 28.9 (+8.2)29.3 (+7.8)39.6 (+9.2)49.9 (+7.1)35.0 (+9.8) 46.9 (+10.1) 57.8 (+9.5) 37.9 (+8.0) 49.5 (+8.3) 61.6 (+7.1)100%110501% 5% 10% 20% 数据集方法 mAP AP 50 AP 25 mAP AP 50 AP 25 mAP AP 50 AP 25 mAP AP 50 AP 250仅标记 5.1 9.8 17.6 18.2 32.0 47.0 26.7 42.8 58.9 29.3 47.9 63.00PointContrast [49] 7.2 12.5 20.3 19.4 35.4 48.5 27.0 43.9 59.5 30.2 49.5 63.60CSC [20] 7.1 13.0 21.2 20.9 36.7 50.6 27.3 45.0 60.2 30.6 50.3 64.10ScanNet v20仅标记 9.0 12.7 20.7 21.5 30.4 42.8 25.2 36.8 48.3 29.9 41.2 54.50PointContrast [49] 13.4 15.9 23.1 22.9 33.6 44.5 27.1 38.7 50.2 31.2 43.1 56.60CSC [20] 14.6 16.7 23.2 24.9 34.2 44.9 29.7 41.0 52.1 33.5 44.7 57.80S3DIS0表1. 在ScanNet v2验证集和S3DISArea-5集上使用不同标记数据比例的结果。'仅标记'是仅使用标记数据训练的基线模型。TWIST始终获得最佳结果，并且可以与CSC合作以获得更好的性能。0方法 1% 5% 10% 20%0仅标记 10.1 27.3 41.3 47.3 PointContrast [49] 11.7 29.8 43.2 48.8 CSC [20] 11.9 32.5 44.0 52.9 TWIST 14.2 (+4.1)40.1 (+12.8) 46.6 (+5.3) 53.5 (+6.2)0TWIST + CSC [20] 18.6 (+8.5) 42.1 (+14.8) 48.1 (+6.8) 55.0 (+7.5)0表2. 在ScanNet v2数据高效基准有限重建测试集上的结果。AP 50= 评估指标。0Netv2由1613个真实世界的3D场景组成，具有点级语义和实例注释。整个数据集被分为训练、验证和测试集，分别包含1201、312和100个扫描。S3DIS有272个扫描的3D布局，分布在6个大区域。我们遵循之前工作中的常见划分[20,24]，将Area 5作为验证集，其他五个区域作为训练集。0SSL训练集划分。在ScanNetv2上，我们直接采用ScanNet数据高效基准的设置，并将训练集分为标记和未标记的集合，分别使用{1%，5%，10%，20%}的标记数据。此外，我们按照这四个标签比例随机采样3D场景来划分S3DIS训练集。0实现细节。在两个数据集上，我们使用SGD优化器训练3D特征提取网络Φ和修正模块Ψ，学习率分别设置为0.1和0.005。学习率按照0.9的多项式衰减进行调度。在每一轮（即第(iii)步和第(ii)步），我们的模型在4个NVIDIA 2080TiGPU上进行10k步的训练，批量大小为8，其中包括4个标记场景和4个未标记场景。在将3D场景输入Φ之前，我们采用[35]中的标准点云数据增强策略进行处理。训练Ψ时，几何变异增强的边界框缩放比例在[0.7,1.3]之间。对于所有实验，我们采用相同的Sparse U-Net[20,49]作为Φ的骨干网络，并使用更小的解码器作为Ψ的骨干网络，层数和阶段更少，体素化大小为2.0cm。自训练在3或4轮内收敛。更多训练0L.R. 方法 mAP AP 50 AP 250TWIST 32.8 52.9 66.8 20% TWIST+CSC [20] 34.1 53.767.80我们的基线 36.8 57.2 71.80GSPN [53] 19.3 37.8 53.40MTML [25] 20.3 40.2 55.40PointGroup [24] 34.8 56.9 71.303D-MPA [11] 35.3 59.1 72.40DyCo3D [18] 35.4 57.6 -0表3.与在ScanNet验证集上100%标签监督的方法进行比较。'L.R.'表示标签比例。0有关自训练初始化的详细信息请参见补充材料。05.2. 主要结果0我们在ScanNetv2和S3DIS上评估了我们的TWIST和其他最新方法。表1显示了它们在验证集上的定量结果，使用1％，5％，10％和20％的标记数据进行监督。表2呈现了ScanNetv2数据有效性基准测试集上的在线比较结果。比较的方法包括：（i）仅使用Sup基线方法，使用第3节中的基线方法对标记数据进行训练；（ii）PointContrast [49]；（iii）CSC[20]；（iv）TWIST；以及（v）以CSC预训练模型作为初始化的TWIST。如表1所示，TWIST通过利用无标签数据进行模型训练显著提高了性能。与利用无监督预训练的两种SOTA方法（ii）-（iii）相比，TWIST生成了高质量的伪标签作为显式监督，并在所有指标上持续超越它们。一个值得注意的发现是，在第一轮中以CSC预训练权重作为初始化的TWIST（v）进一步提升了性能，如表1和表2的灰色行所示，揭示了它们对这个任务的互补优势。具体而言，它们的合作性能甚至使得在只有1％标签的ScanNet验证集上的mAP翻倍，达到34.1％，仅比完全监督的基线低2.7％。后者与使用100％标签训练的几种最新竞争方法相当，如表3所示。图5显示了TWIST和CSC在ScanNetv2验证集上的视觉比较。仅使用5％标记数据进行训练，TWIST生成了干净的实例预测，并展示了高度分离空间接近的对象的能力，例如相邻的相似椅子。01 http://kaldir.vc.in.tum.de/scannet_benchmark/data_efficient/thetionthetion;11060CSC Ours GT CSC Ours GT0图5. CSC（仅使用5%标记场景进行训练）的可视化结果比较。不同的实例具有不同的颜色。0TWIST和CSC在ScanNetv2验证集上的可视化比较。仅使用5％标记数据进行训练，TWIST生成了清晰的实例预测，并展示了在空间上分离接近的对象的高能力，例如相邻的相似椅子。05.3. 消融研究0我们还进行了消融研究，以评估TWIST中的关键设计。除非另有说明，我们在ScanNetv2验证集上评估，使用5％的标记训练数据。0TWIST中不同组件的效果。为了分析核心组件的效果，我们尝试了不同的组合，并在表4中总结了消融结果。我们首先将GroupI作为基准。在此基础上，改进主要来自以下三个方面。0• 伪标签。Group II和GroupIII使用第4节中讨论的简单阈值策略生成伪语义标签和伪偏移向量，分别提高了2.7％和1.5％的mAP。它们的联合效果（GroupIV）带来了进一步的增益（+0.4％的mAP）。0• 基于提案的伪标签更新。GroupV利用TWIST的C组件（图2）生成提案级别的伪标签，并保持实例提案内的伪标签一致性。与伪标签策略（GroupIV）相比，该策略提高了3.5%的mAP。0•重新校正模块。该模块对两个方面的对象级伪标签去噪有贡献。对于实例置信度得分低于阈值的实例提案，我们将其过滤掉。否则，我们通过重新预测来纠正它们的语义类别。生成的伪标签因此变得更可靠（+2.2％的mAP），如最后两行所示。0互相增强的效果。TWIST通过语义引导的提案生成和基于提案的伪标签更新实现了标签间的互相增强（见第4.3节）。因此，我们通过改变上述模块中的任意一个来禁用双向增强，并在表5中展示了消融结果。0组 ˜ S u ˜ O u (C) (B) mAP AP 50 AP 250I 18.2 32.0 47.0 II � 20.9 36.4 50.1 III � 19.7 35.2 48.6 IV � �21.3 36.8 50.2 V � � � 24.8 41.2 53.6 VI � � � � 27.0 44.1 56.20表4. TWIST不同组件的效果。˜ S u和˜ O u0分别表示伪语义标签和伪偏移向量。 (C)表示基于提案的伪标签更新，(B)是重新校正模块（参见图2中的模块B和C）。0语义到偏移偏移到语义 mAP AP 50 AP 25 mIoU0� □ � □ 22.5 39.4 51.7 49.40� □ � □ 21.7 38.7 50.5 52.00� □ � □ 27.0 44.1 56.2 54.90表5.TWIST中互相增强的效果。我们通过在自训练过程中阻断语义到偏移或偏移到语义的增强来禁用标签间的互相增强。0组特征增强 mAP AP 50 AP 250I xyz+rgb - 22.3 38.0 51.8 II xyz+b.feats. - 25.6 42.354.5 III xyz+b.feats. trans. 25.9 42.7 55.0 IVxyz+b.feats. mut. 26.6 43.6 55.7 V xyz+b.feats.trans.+mut. 27.0 44.1 56.20表6.重新校正模块不同输入特征和增强策略的比较，其中'b.feats.'表示骨干特征；'trans.'表示几何变换；'mut.'表示几何突变。0为了禁用偏移到语义的增强，我们简单地通过逐点置信度阈值产生伪语义标签，而不是采用基于提案的伪标签更新。为了公平比较，伪偏移向量的生成策略（公式（7）和（8））保持不变。从第1行和第3行的观察结果可以看出，这种方法产生了较差的语义预测（-5.5%mIoU）和实例分割准确性的显著下降（-4.5%mAP）。另一方面，为了阻止语义到偏移的增强，我们将实例提案生成过程中的聚类算法改为类别不可知的算法。1%9.814.115.616.517.017.15%32.038.742.343.744.144.110%42.845.848.349.549.749.720%47.951.252.052.852.952.9CSC [20]29.340.07.113.01%TWIST31.0 (+1.7)41.2 (+1.2)9.0 (+1.9)16.1 (+3.1)CSC [20]49.157.220.936.75%TWIST54.9 (+5.8)63.6 (+6.4)24.0 (+3.1)40.7 (+4.0)CSC [20]59.569.327.345.010%TWIST61.1 (+1.6)70.6 (+1.3)29.2 (+1.9)47.4 (+2.4)CSC [20]64.173.130.650.320%TWIST66.5 (+2.4)74.7 (+1.6)31.8 (+1.2)51.6 (+1.3)11070第0轮 1 2 3 4 50表7. 在ScanNetv2上每个自训练轮次的性能，给定标记数据的{1％，5％，10％，20％}比例。第0轮表示“仅监督”基线方法。AP 50 = 评估指标。0机制。如表5的第2行和第3行所示，尽管语义分割的性能下降，但其对引导实例生成的影响被禁用，从而导致实例分割的mAP下降了5.3%。0重新校正模块的消融实验。为了进一步探索重新校

下载后可阅读完整内容，剩余1页未读，立即下载