半监督点云语义分割方法中的引导点对比学习

50 浏览量更新于2023-10-14 收藏 3.25MB PDF 举报

深度网络模型

3D语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6423引导点对比学习半监督点云语义分割李江1史少帅1田卓涛1赖信1刘舒2傅志荣1贾亚嘉1，21香港中文大学2SmartMore@ www.example.comcse.cuhk.edu.hksliu@smartmore.comssshi@ee.cuhk.edu.hk摘要3D语义分割的快速发展与深度网络模型的进步密不可分，深度网络模型高度依赖大规模注释数据进行训练。为了解决3D点级别标记的高成本和挑战，我们提出了一种用于半监督点云语义分割的方法，以在训练中采用未标记的点云来提高模型性能。受最近自监督任务中的对比度损失的启发，我们提出了引导点对比度损失，以增强半监督环境中的特征表示和模型泛化能力对未标记点云的语义预测在我们的损失中充当伪标签指导，以避免相同类别中的负对。此外，我们还设计了置信度引导，以确保高质量的特征学习。此外，提出了一种类别平衡的抽样策略来收集正样本和负样本，以减轻类别不平衡问题。在三个数据集（ScanNet V2，S3DIS和SemanticKITTI）上的实验表明，我们的半监督方法可以有效地提高未标记数据的预测质量。1. 介绍3D点云语义分割是许多下游应用的基本和必要的感知任务[20，34，45，16]。用于该任务的现有基于深度学习的方法严重依赖于用于模型训练的标记点云数据的可用性和然而，3D点级标记是耗时且劳动密集的。与点云标注相比，点云采集所需的工作量要少得多，主要是通过三维扫描，然后进行一些数据后处理。因此，我们有动力探索半监督学习（SSL），以提高数据效率和使用未标记点云的深度分割模型的性能。虽然SSL已被广泛探索用于2D图像上的任务[9，21，39，27，48，29，17]，但对于3D点云，它的探索相当实现SSL的常用策略无伪制导的输入点云以我们的伪引导图1.不同损失策略下未标记数据的特征嵌入的可视化，分别在室内ScanNet V2 [6]（顶部）和室外SemanticKITTI [2]（底部）上进行训练，具有20%的标记数据。我们提出的伪指导增强了特征学习，不同类别中的特征嵌入被更好地分离（中间与中间）。右列）。是一致性正则化[21，39]，其在不同扰动下对齐相同图像/像素的特征，以在利用未标记数据时保持预测一致性我们的方法在SSL中共享这个共同点，通过鼓励具有不同变换的匹配3D点对的相似和强大的特征然而，受自监督学习中应用的对比度损失的启发[10，47，11，3]，我们通过提出引导点对比度损失来进一步增强特征表示，以通过使用语义预测作为半监督设置中的指导来进一步扩大类别间特征之间的距离。对比学习始于2D图像，最近由PointContrast [44]扩展到3D点云，作为自监督设置中的预训练任务点对比损失鼓励匹配的正点对在嵌入空间中相似，同时推开负点对。然而，在没有任何标签的情况下，相同类别中的负对也可以被采样，特别是对于大对象（例如，沙发）和冗余背景类（例如，地板和墙壁）;这些负对实际上削弱了特征的辨别能力。与PointContrast不同，我们利用一些标记点6424云来优化网络模型以产生点级语义预测，同时，利用未标记数据的预测语义得分和标记来指导对比损失计算。我们的伪标签指导有助于减轻特征学习中类内负对的副作用，而我们的置信度指导利用语义得分来减少特征恶化的机会。此外，我们提出了一个类别平衡的采样策略，利用伪标签，以减轻类不平衡的问题，在点采样，帮助保存点样本从罕见的类别，并提高对比学习的特征多样性如图1B中的t-SNE可视化所揭示的。1，配备了我们的伪指导的模型学习更多有区别的逐点特征。我们按照SSL的常规做法进行实验，一小部分标记的数据和一个更大的部分未标记的数据，然后评估如何有效的SSL方法提高了性能与unlabeled数据。获得了室内（ ScanNet V2 [6] 和 S3DIS [1] ）和室外（SemanticKITTI [2]）场景的出色性能，显示了我们的半监督方法的有效性此外，我们用100%标记的数据进行实验，其中标记的集合也被馈送到无监督分支中，其中我们的引导点对比损失作为辅助特征学习损失。在这种情况下，我们的方法的准确性仍然超过了只有监督交叉熵损失的基线，这表明在没有额外的未标记数据的情况下，我们的引导点对比损失也有助于改进特征表示和模型我们的贡献有三个方面：• 我们采用半监督学习的三维场景SEMANT分割，证明了未标记的点云可以帮助提高室内和室外场景的特征学习。• 我们将对比学习扩展到具有伪标签指导和置信度指导的3D点云• 我们提出了一个类别平衡的采样策略，以减轻点类不平衡的问题，并增加嵌入的多样性。2. 相关作品点云分割。已经探索了用于3D语义分割的各种方法。基于体素的方法[25，36]通过将不规则点云转换为规则3D网格来利用3D卷积神经网络。其他方法利用OctNet [33]或稀疏卷积[8，5]探索用于高分辨率3D表示的体素的稀疏性。由PointNet [30，31]开创的基于点的方法直接从原始数据中学习点特征。点云与分类分层局部特征聚合策略[50，43，15]。KPConv [40]定义了点上的核函数，用于在局部点上进行卷积。也有作品，例如，[35，22，42]，用于点特征学习集成图卷积。为了训练网络模型，这些完全监督的方法需要具有逐点标签的数据，这是耗时且繁琐的准备以及容易出错的。因此，在这项工作中，我们将未标记的点云在网络训练，以提高数据效率的三维点云语义分割。半监督学习（SSL）旨在通过从标记数据和未标记数据中学习来改进模型SSL的现有工作主要集中在图像分类[9，23，21，39，27，48]和图像语义分割。[37，14，26，29，17，7，53]。一致性正则化是SSL的一种常用策略，强调模型预测在不同的扰动适用于相同的输入。Π-模型[21]是Γ-模型[32]的简化版本，鼓励在相同的研究中针对不同的脱落和扩增进行一致的模型输出。put，而temporal ensembling [21]和Mean Teacher [39]采用指数移动平均策略来稳定一致性正则化的预测。最近用于图像分割的SSL方法表明，可以通过扰动输入图像[7]或中间特征[29]，或者通过将同一图像馈送到不同模型[17]来实现像素一致性。基于伪标签的自训练[23，53]是SSL的另一种方法，其中我们首先使用标记数据训练模型，然后通过在未标记数据上生成伪标签来进行进一步训练。其他一些作品[37，14]也采用生成对抗网络进行SSL图像分割，以合并未标记的图像进行学习。虽然已经提出了许多用于图像的SSL作品，但是用于点云场景的SSL相当不充分。目前，存在两种用于3D检测的工作，其通过Mean-Teacher框架[51]或通过质量感知伪标记[41]对未标记的场景进行杠杆化。与3D框注释相比，用于3D点云分割的逐点密集注释更加资源密集。因此，我们提出了一种新的SSL框架的任务，演示的可行性，将未标记的点云，以提高分割3D点的性能。对比学习是一种广泛用于非监督学习的方法[12，47，11，3，4]。其核心思想是对比损失[10]，鼓励查询样本的特征与正关键字样本的特征相似，而与负关键字样本的特征不相似。对比损失的常见选择是InfoNCE[28]，它通过点积来测量相似性。PointCon- trast [44]提出了点级无监督表示学习的PointInfoNCE损失，他们的后续工作[13]提出了一种类似ShapeContext的空间分区6425∈∈我u12u2Ku|（i，j）∈M|(i,j)∈M我1Σl lΣlJ位置感知对比学习最近还提出了监督对比学习[18在这项工作中，我们扩展了对比学习来支持半监督点云分割，并提出将逐点伪标签纳入对比损失，以更好地区分点云。其中M是从相同输入扰动的点云U1和U2在SSL中，我们将Lu与标记数据上的以下监督交叉熵损失Ll组合以用于模型训练：NlL=（−S[Y]+log expS[j]），（3）使用正样本和负样本，并共同使用标记的点云和未标记的点云来学习lNli ij ii=1更有效的代表。3. 我们的方法3.1. 点级特征学习初探SSL中的关键是从未标记的数据中学习特征表示，这是无监督学习[11，3]和SSL [39，21，29]共享的共同目标当在三维语义分割中，点层次的特征学习是关键。因此，我们在本节开始时，首先回顾和分析无监督设置中的无标签点级特征学习，然后在SSL中进行。自我监督学习中的点级对比。Point-Contrast [44]首先提出了点级自监督策略，用于使用未标记的点云进行预训练。它将InfoNCE损失[28]扩展为点，作为3D场景上对比学习的PointInfoNCEu1 u2其中Nl是给定标记点Sl是预测的语义得分;并且Y1表示地面实况标签。讨论虽然PointInfoNCE和我们的SSL基线都可以从未标记的点云中学习并受益于3D语义分割（参见表6），但它们有几个缺点：（i）相同类别的负点对可能使特征学习恶化：在PointInfoNCE的无监督设置中，负点对（i，k）可能来自相同的语义类别，因此推开它们的嵌入（Eu1，Eu2）可能使特征学习恶化。(ii)来自相同类别的点可能被采样，特别是对于大对象或对于诸如道路的常见类别：随机采样可能容易产生实际上来自相同类别的不利的负点对。(iii)应该考虑类内和类间的特征距离：在我们的SSL基线中，只有成对的类内特征被限制为相似。然而，在这方面，LPC一个= −|M|ΣlogΣexp（Ei·Ej/τ），exp（Eu1·Eu2/τ）类间特征距离也应该被扩大到p（i，j）∈Mp（·，k）∈MpIk（一）更好地改善语义分割。为缓解上述问题，我们重点探索其中Mp是从相同输入扰动的两个点云上随机采样的正对（一对一匹配点）的索引集;Eu1和Eu2是两个点云的特征嵌入;τ是温度超参数。对于第一点云中的点i，（i，j）MP是一个正对，其特征EM-鼓励垫料（Eu1，Eu2）相似，而以及利用来自标记的点云的信息来更好地引导来自未标记的点云的特征学习，以改进3D场景语义分割。3.2. 对比学习现在，我们专注于3D点云语义分割的半监督学习（SSL）的设置，其中I j{（i，k）|（·，k）j}是负点对。点我们可以利用一些标记数据来训练模型Mp，k=i被称为锚点;其特征嵌入是en-被迫与其所有负点的特征嵌入不同。PointContrast作为预训练的借口任务，验证了点云自监督学习中点级对比度损失的有效性SSL中的点级一致性。一致性正则化是一种广泛使用的策略，利用未标记的数据，以提高特征的鲁棒性。因此，我们定义了一个简单的基线一致性正则化。对于点级一致性，受2D SSL [39]的启发，可以通过最小化点的特征嵌入之间的均方误差（MSE）来形式上，具有MSE的SSL中的无监督分支中的损失可以表示为以产生针对未标记场景的语义预测。因此，我们提出了基于SSL的点云分割的引导点对比学习框架，并利用语义预测作为伪指导，以提高对未标记点云的对比学习。图2示出了我们的框架的整体架构，其由监督分支和非监督分支组成。在本节中，我们将重点关注无监督分支中的引导对比损失。形式上，对于来自相同未标记数据的一对扰动点云（Pu1， Pu2），我们可以从预测的语义得分（Su1，Su2）生成它们的伪标签（Yu1，Yu2）和标签置信度（Cu1，Cu2）Yi*=argmaxS*i，C*i=maxσ（S*i），（4）其中*是u1或u2，σ表示softmax函数。L=1Σ¨E−E¨，（2）然后我们将Mp表示为匹配的正点点云u1和u2上的点云对6426Pu2骨干网nn 联系我们∈我EJE我Jexp（Eu2·stopgradu1i/τ）信心引导在很大程度上防止了特征恶化和uJMp中的正对的损失：.Σnnup联系我们u2受监管分支机构交叉熵损失（$，$ ）P$共享权重无监督分支Pu1联系我们Pu作物面积共享权重联系我们中文（$$分类器$argmax共享权重u1分类器u1argmax投影仪Eu1'u1嵌入共享权重u2分类器u2argmax投影仪EU2'u2嵌入引导对比损失图2.我们的SSL框架上标l和u分别代表“标记的”和“未标记的P是输入点云。 Aug表示“增加”（例如，作物）。Pu被独立地增强以形成Pu1和Pu2，作为无监督分支的输入 F是骨干U-Net的输出逐点特征，其被进一步馈送到分类器以预测语义得分S。在无人监管的分支，F也被馈送到投影仪以产生特征嵌入E。Y表示按点的类预测，而Y是真实标签骨干网络、分类器和投影仪的权重对于所有输入点云是共享交叉熵损失用Yl约束监督训练，而我们的引导对比损失引导无监督分支中的特征学习。输入. 对于负的点集，而不是使用点在M如在[44]中，我们分别对负点进行采样.1（Yu1=Yu2），若（i，j）∈/Mp，p确保阴性样本也可以来自不匹配的区域。我们将从点云u1和u2采样的负点集表示为 MU11，2，...，nu1和Mu21，2，... 其中，Nu1和Nu2表示相关联的点云中的点的数量。引导对比损失。给定正的点对集合Mp和负的点集合Mu1和Mu2，我们的正的点对（i，j）M的引导对比损失L（i，j）可以表示为1，否则。如图3、对于“沙发”上的锚点，许多负样本也在“沙发”上。推开这样的类别内负点对可能会对特征学习产生不利影响（图2）。3左）。通过将我们提出的伪标签指导结合到对比学习中，只有具有不同语义预测的负面特征对被强制为不相似的（图2）。3右）。• 置信度指导：由于特征Eu1被拉到u2（i，j）exp（Eu1·stopgrad. Eu2Σ/τ）我J在L u1中，我们还提供了一个信心指南-L（i，j）=−logΣ，nu2（i，j）u1u1Gi，k·exp（Eu1·stopgrad（Eu2）/τ）事件1（CjL u 1上≥γ）避免Ei 学习一个k∈Mu2∪{j}k、jIk低置信度特征;所以对于L（i，j）。反Lu2=−logΣG·exp（Eu2·stopgrad（Eu1）/τ），L（i，j）=1（Cu2≥γ）·L（i，j）+1（Cu1≥γ）·L（i，j），总体引导对比度损失是其中γ是置信度阈值。注意，损失是由...分别放在Pu1和Pu2对于每一侧，另一侧的特征被分离以停止梯度，并且一个Lu=|Mp|（i，jΣ）∈MpL（i，j）。（七）因此被视为常数参考以更好地优化当前侧的特征。通过利用Eq.（4），我们提出了两个伪制导方程。（5）引导从未标记的点云的特征学习，其在图1中示出。3，并在下面讨论：• 伪标签引导：G是用于过滤具有相同伪标签的负点对的伪标签引导，其被定义为3.3. 类别平衡抽样引导对比损失的计算成本与正/负点数高度相关由于在每个点云中存在大量的点（例如，对于室内场景大约100 k-1000 k，对于室外LiDAR帧大约100 k），通常我们不能将所有点作为正样本或负样本。因此，对于类别分布不平衡的数据，一些点数非常少的类别可能很少nGi，j=u（六）（i，j）k∈Mu1∪{i}JK提高了特征学习质量。Ju1我u2（五）6427、、、∈∈∈M∈CMp∈N|C|×××Kn|C|MpMMpu-Σ|C|确保银行包含最新的功能嵌入。在每个迭代处的每个类别的更新嵌入的数量被设置为Bu。然后，为了收集负点，在每个迭代，我们均匀采样每一个人，无伪制导伪制导gory我们提出的CBS策略产生类别平衡的正对和负点。它使得能够从未标记的点云进行更有效的对比特征学习，如稍后在表5中所示。3.4. 整体架构网络架构。如图2、我们的半监督方法的整体框架是由图3.对比学习的伪指导左：An-鼓励chor点与其匹配的阳性点相似右图：语义预测（针对不同类别以不同颜色示出）被并入对比损失设计中。伪标签引导过滤掉与锚点具有相同伪标签的负样本。置信度指导在正点对上添加了避免锚点被拉近具有低置信度的匹配的正点的约束。随机抽样会增加样本抽取的机会，而一些大部分类别往往会被冗余抽取，从而影响对比学习中特征的多样性。为了解决这个问题，我们提出了一个简单而有效的抽样策略-类别平衡抽样（CBS）。正对的类别平衡抽样。我们将类别集定义为，因此类别的数量为。两个分支，即，受监督分支和无监督分支。在每次迭代中，我们分别从标记和未标记的集合中采样标记和未标记的点云，并将它们馈送到网络中。对于骨干网络，我们应用具有稀疏卷积的U-Net [8，5]，这是几个3D分割数据集上性能最好的网络。在监督分支中，骨干网络取带有3D的标记点云P1RN1×（3+C0）坐标和C0维原始特征（例如，颜色）作为输入，并生成逐点特征FlRNl×CF，然后是分类器以产生语义预测Sl∈ RNl×| C|，其受到如等式（1）中的交叉熵损失的约束。（3）具有地面实况标签Y1RN1。对于无监督分支，我们随机增加无标号点云Pu∈RN×（3+C0）两次对于一对受扰动的C点云，我们表示|Co|F将所有匹配的点对作为M，并根据对中第1个点的预测类别来重组M每个类别中匹配点对的数量c表示为Nc。为了从M中采样总数为Kp的正点对以形成针对我们的引导对比损失的Mp具体地，对于类别c，所选择的正对的数量Nc被计算为Nc= min{，Kp，，Nc}。（八）然后，从所有类别中采样额外的Kpcc对，以确保正对的总数为Kp。负点集的类别平衡抽样。为了增强负点的样本多样性，我们通过从整个训练集中的场景而不是仅从当前场景中收集负样本来进行CBS，因为某些类别甚至可能在特定场景或批次中不存在。准确地说，我们维护一个大小为B的类别感知否定嵌入内存库其中B是每个类别的存储体长度，并且C E是特征嵌入的通道数量。记忆库中的每个类别都采用“先进先出”策略进行更新，引入一对训练样本Pu1∈RNu1×（3+C0）和Pu2RNu2×（3+C0）.然后，我们将它们馈送到骨干网络中以产生Fu1和Fu2，并进一步使用分类器来分别预测语义得分Su1和Su2。此外，使用附加投影仪将（Fu1，Fu2）映射到潜在空间中的特征嵌入（Eu1，Eu2）。没有标签，无监督分支被优化我们建议的指导对比损失在方程。（五）、总体目标。我们的半监督框架的总体目标是监督和无监督分支中的损失的组合：L=L1+λLu，（9）其中Lu是我们的引导对比损失，以增强对未标记点云的特征学习;L1是用于语义分割的常见交叉熵损失;并且λ是用于调整损失率的超参数。4. 实验我们目前的评价我们的指导对比学习框架与室内和室外场景。在实验中，我们使用平均交集对并集（mIoU）和平均准确度（mAcc）作为评价指标：N个样本（1，2）：P个空气（1，）：N例如P空气：P空气储存器联系我们锚点1锚点1作物面积同一类别如果C（2）22作物面积联系我们Pse udo La bels$指导伪标签信心（C）指引6428∼3}{∼∼×个}{四四--4.1. 实验装置4.1.1数据集我们在评估中使用室内（ScanNet V2 [6]和S3DIS [1]）和室外（SemanticKITTI [2]）数据集：ScanNet V2 [6]是一个流行的室内3D点云数据集，包含1，613个带有逐点语义标签的3D扫描。整个数据被分成训练集（1201次扫描）、验证集（312次扫描）和测试集（100次扫描）。共有20个类别的语义分割。S3DIS[1]是另一种用于语义分割的常用室内3D点它在六个区域中有271个点云场景，在逐点注释中总共有13个类别。我们遵循共同的分裂在以前的作品[31，24]中，利用区域5作为验证集，并采用其他五个区域作为训练集。SemanticKITTI[2]是一个用于自动驾驶场景中3D语义分割的大型户外点云数据集，其中每个场景都由Velodyne-HDLE 64 LiDAR传感器捕获。该数据集包含22个序列，其被分成训练集（具有19k帧的10个序列）、验证集（具有4k帧的1个序列）和测试集（具有20k帧的11个序列）。有19个类别的语义分割。SSL训练集分区。遵循SSL中的常规实践，我们在评估中使用现有的数据集，并将训练集分成具有五种不同标记数据比率的标记集和未标记集，即，5%、10%、20%、30%、40%。对于SemanticKITTI，考虑到相邻帧可能具有非常相似的内容，当我们分割数据集时，我们尽最大努力确保标记和未标记的数据不来自相同的序列。然而，为了达到特定的标记比率，我们可能需要将最多一个序列切割成两部分，前部分为标记集合，后部分为未标记集合。4.1.2半监督学习的增强我们采用随机裁剪作为我们的增强操作之一。由于室内和室外场景由于使用不同的捕获设备而具有非常不同的点分布，因此我们对它们执行不同的裁剪操作。室内场景的增强。对于室内场景，通过随机裁剪大小为3的正方形区域来实现裁剪增强。5米3。从上往下看5米。对于每个未标记的场景，我们将其裁剪两次，并保证两个裁剪的点云之间的重叠，以在重叠区域中建立点对点的对应关系。除了随机裁剪之外，我们还采用围绕z轴（垂直轴）的随机旋转（0-2π）和随机翻转。在[8]的发布代码之后，我们还采用了弹性操作。户外场景的增强。对于室外场景，我们提出了一个部门范围作物中心的原点，遵循激光雷达点云的光束模式。具体地，我们随机化范围[0，2π]中的航向角作为扇区的中心方向，并且进一步随机化- 在范围[2π，2π]中的视场角，以形成裁剪扇区。对于每个未标记的场景，两个扇区被裁剪为具有保证的重叠，以用于设置点对点对应。除了基于扇区的裁剪外，我们还采用了常用的随机翻转，随机旋转（π-π）和随机缩放（0.95 - 1.05）增强。4.1.3实现细节网络详细信息。对于室内和室外场景，我们利用基于稀疏卷积的U-Net [8，5]作为3D语义分割的骨干网络。编码器应用步长为2的稀疏卷积层以将输入体积下采样六次，而解码器利用六次去卷积将体积逐渐上采样回到原始大小。在U-Net中使用步长为1的子流形稀疏卷积来编码特征。投影仪是将特征映射到嵌入空间的多层感知。为了对输入点云进行体素化，对于室内场景，体素大小被设置为2cm，并且对于室外场景，体素大小被设置为10cm培训详情。对于ScanNetV2，我们使用SGD优化器从头开始训练SSL框架。学习率被初始化为0.2，并以幂为0.9的多边形策略衰减。批量大小为16，即，16个标记场景和16个未标记场景。对于S3DIS，我们应用初始学习率为0.02的Adam优化器。对于不同的设置，我们保持相同的训练迭代次数，以便使用八个GPU在ScanNet V2上训练36k次迭代，在S3DIS上训练8k对于更稳定的半监督训练，我们在开始的200次迭代中只使用监督损失来训练模型。对于室外场景，分割网络首先由Adam优化器在标记集上进行预训练，其中批次大小为48，学习率为0.02，在8个GPU上进行16k次迭代然后，我们用我们的SSL框架在标记和未标记的集合上训练网络，通过Adam优化器进行另外18k次迭代，批量大小为24，学习率为0.002。余弦退火策略用于衰减学习速率。针对引导对比损耗的损耗比λ被设置为0.1，而损耗中的温度τ被设置为0.1.置信度阈值γ为0.75。4.2. 主要结果为了证明我们的方法在利用未标记数据方面的有效性，我们将基于强稀疏卷积的U-网[8，5]作为我们的骨干，并遵循SSL中的常规实践，将我们的半监督模型与仅用标记点云完全训练的模型进行比较，分别使用5%，10%，20%，30%，40%的训练集作为标记数据。表1总结了Scan-Net V2、S3 DIS和SemanticKITTI在mIoU和mAcc方面的定量结果。对于所有三个数据集，无论是室内还是室外，我们的半监督模型在所有比率上都始终优于仅受监督的模型，这表明我们的半监督模型具有更好的性能。6429--数据集模型百分之五百分之十百分之二十百分之三十百分之四十百分百MiouMACCMiouMACCMiouMACCMiouMACCMiouMACCMiouMACCScanNet V2仅Sup-only半上48.154.859.165.557.260.568.470.364.066.774.276.067.168.976.978.568.871.377.979.872.974.082.082.3即兴表演+6.7+6.4+3.3+1.9+2.7+1.8+1.8+1.6+2.5+1.9+1.1+0.3S3dis仅Sup-only半上45.053.057.963.252.957.762.769.159.963.567.970.461.264.969.273.262.665.069.471.466.468.873.175.9即兴表演+8.0+5.3+4.8+6.4+3.6+2.5+3.7+4.0+2.4+2.0+2.4+2.8SemanticKITTI仅Sup-only半上34.841.840.048.443.949.955.259.153.858.862.166.155.459.463.667.457.459.965.666.765.065.872.173.8即兴表演+7.0+8.4+6.0+3.9+5.0+4.0+4.0+3.8+2.5+1.1+0.8+1.7表1.ScanNet V2 [6]验证集、S3DIS [1]区域5和SemanticKITTI [2]验证集的主要结果（mIoU（%）和mAcc（%）），‘Sup-only’means fully-supervised models trained with only labeled 特别是，在100%标记数据的实验中，标记集也被作为我们的“Semi-sup”模型中无监督分支的输入，我们的方法参考ScanNetV2 S3DIS SemanticKITTI验证区域5确认测试MinkowskiNet [5] CVPR 201972.265.461.163.1KPConv [40]ICCV 201969.267.1-58.8[46]第四十六话CVPR 202066.462.6-46.8SPVNAS [38]ECCV 2020年版--64.766.4FusionNet [49]ECCV 2020年版-67.263.761.3MVFusion [19]ECCV 2020年版76.465.4--Cylinder3D [52]CVPR 2021--65.967.8仅Sup-only（100%）-72.966.465.065.4我们的模型（100%）-74.068.865.867.7Ground-Truth Sup-Only我们的方法图4.室内ScanNet V2（第1行）、室内S3DIS（第2行）和室外SemanticKITTI（第3行）的定性结果。所有模型都使用20%的标记数据进行训练。SSL模型能够有效地利用未标记的数据来改善嵌入特征，从而提高分割性能。在所有数据集上，性能差距随着未标记数据的相对量（比率）而增加。给定5%的标记数据和95%的未标记数据，我们的半监督方法在ScanNet V2、S3 DIS和Se-manticKITTI中分别将mIoU相对提高了13.9%、17.8%和20.1%。此外，我们提出了一些定性的结果图。4，这表明我们的模型有助于提高未标记数据的分割质量。此外，我们在100%比率上进行实验，其中整个训练集被视为标记集，同时也作为未标记集馈送到无监督分支我们的引导点对比度损失作为100%设置中的特征学习的辅助约束。如表1的最后一列所示，在没有额外的未标记数据的情况下，我们的方法仍然可以通过在无监督分支中通过引导对比学习来增强特征表示和模型区分能力来提高网络性能。我们还将我们的100%结果与表2中的最新技术方法进行了比较。我们的仅受监督的基线模型在这些方法中已经具有竞争力，而我们的方法可以进一步提高预测质量，在所有三个数据集上都实现了出色的性能。6430表2. ScanNet验证集、S3DIS区域5和SemanticKITTI验证和测试集的语义分割结果（mIoU（%））。对于所有数据集，突出显示前两个结果我们重新实现了基于强稀疏卷积的U-Net [8]作为我们的基线我们的模型进一步使用我们的引导点对比损失作为辅助特征学习损失。我们所有的结果都是基于100%的标记比率。100%比率的传导学习。与旨在将模型推广到看不见的测试集的归纳学习不同，在转导学习中，测试集是给定的，并且在训练中也被观察到。我们通过将测试数据作为未标记数据的一部分将100%比率的实验扩展到转导形式我们观察到转导形式的性能变得更高，如表 3 所示。转导模型具有与 SemanticKITTI Co-daLab基准测试（单扫描）中的SOTA相当的性能（70.2%）。4.3. 消融研究伪制导CBS。我们使用ScanNet V2上的20%标记数据对我们的伪引导和CBS设计表4示出了我们的方法中每个组分的贡献在没有伪导引的情况下，点对比度损失对利用未标记数据的影响是有限的。通过避免潜在的类别内否定对，我们的伪标签指导提供了最显着的性能增益（1.5%）超过香草点对比损失。我们的置信度指导提高了特征学习质量，进一步将mIoU从65.9%提高我们的完整模型与CBS，以提高功能多样性导致最高的性能66.7%。6431采样策略ScanNet V2SemanticKITTI随机66.457.1CBS66.758.8表3.广泛的实验100%的比率为转导学习，其中测试集被纳入未标记的集进行训练。评估度量是mIoU（%）。设置伪标签指导信心指导CBSmIoU（%）仅Sup-only64.0PointInfoNCE64.4我们的模型a✓65.9我们的model-b✓✓66.4我们的完整模型✓✓✓66.7表4.在我们的SSL方法的3D场景语义分割，其中“CBS”表示我们的类别平衡的采样策略的不同组件的影响。所有实验均在ScanNet V2上进行，具有20%标记数据。不同数据集上的CBS。为了进一步分析我们的CBS的效果，我们比较了CBS与随机抽样的ScanNet V2（室内）和SemanticKITTI（室外）与20%的标记数据。表5报告了结果。与室内场景相比，室外数据遭受更多的类别不平衡问题。我们对两个数据集的训练集的每个类别中的点数进行计数。在Se-manticKITTI中，19个类别中的6个，即，最罕见的“摩托车手”类别只有0.04‰。然而，在ScanNet V2训练集中，点类别分布更均衡;最罕见的类别因此，我们的CBS为SemanticKITTI贡献了更大对于点非常稀疏的类别CBS增加了从这些类别中选择样本的概率，从而改善了特征多样性。局部视图与随机作物PointContrast [44]表明，多视图设计对于改善表5.类别平衡采样对ScanNet V2和SemanticKITTI的影响，20%标记数据（度量：mIoU（%））。战略什么只MSE余弦相似性PointInfoNCE自我-培训我们mIoU（%）64.065.064.964.465.566.7表6.比较ScanNet V2上半监督3D语义分割的不同策略，其中20%的标记数据。4.4. 各种半监督策略的分析除了我们的引导式对比学习之外，我们还对其他一些半监督策略进行了实验，并性能比较如表6所示。一致性正则化随着一致性正则化-灰作为半监督策略，我们应用的MSE损失在方程。（2）或余弦相似性损失来对齐在不同扰动下的匹配特征。结果分别超过仅监督模型1.0%和0.9%。我们的方法实现了更好的性能，提高了2.7%，更强的约束特征，不仅保持匹配点之间的一致性，但也推开了嵌入空间中具有不同的语义预测的点。PointInfoNCE丢失。在PointContrast [44]中直接应用PointInfoNCE损失作为无监督损失在半监督设置中表现不佳在同一类别内对负对进行采样的高概率对特征学习产生不利影响。自我训练。基于伪标签的自我训练是SSL的另一种替代策略。我们还尝试了它，首先用标记集训练模型，加载它为未标记集生成伪标签，然后通过交叉熵损失用伪标签自训练在利用未标记数据（65.5%）方面也表现良好，但我们的方法仍然可以达到更高的性能（66.7%）。预训练模型的质量。对于ScanNet V2中的场景，多视图设计对场景的两个部分视图进行采样，而不是裁剪重建的点云。我们也在我们的无监督分支中尝试这种多视图策略然而，在ScanNet V2上的实验结果（具有20%的标记数据）显示，应用部分视图而不是随机裁剪甚至将性能从66.7%降低到63.2%。性能下降的可能原因是多视图设计可能会扩大标记集和未标记集之间的差异，从而在无监督分支中引入不精确的语义预测。投影仪。投影仪对于对比学习是必不可少的，如[3]中所讨论的。如果我们移除投影仪，在具有20%标记数据的ScanNet V2数据集上，性能（mIoU）从66.7%下降到65.0%。5. 结论在这项工作中，我们提出了一个半监督的框架，利用未标记的点云进行3D语义分割的数据高效的方式。通过我们的引导点对比度损失，网络可以通过利用我们的伪标签和置信度指导来学习更多有区别的特征此外，我们提出类别平衡采样，以利于对比学习与更多样化的特征嵌入。实验结果表明，我们的方法的有效性，利用未标记的3D数据和提高模型的泛化能力。鸣谢本研究计划获香港特别行政区研究资助局部分资助（研究资助计划编号：香港中文大学14206320）。数据集仅Sup-only基线半上感应直推ScanNet V2 Val.72.974.074.7S3DIS区域566.468.869.7SemanticKITTI Val.65.065.866.5语义KITTI测试65.467.770.26432引用[1] 放大图片创作者：Iro Armeni，Ozan Sener，Amir R.Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的3D在CVPR，2016年。二六七[2] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel ， Sven Behnke ， Cyrill Stachniss ， and JurgenGall. Se-mantickitti：激光雷达序列语义场景理解数据集。在ICCV，2019年。一、二、六、七[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。一二三八[4] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大型自监督模型是强半监督学习器。在NeurIPS，2020年。二个[5] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在CVPR，2019年。二五六七[6] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet：室内场景的丰富注释3D重建。在CVPR，2017年。一、二、六、七[7] Geoffrey French 、 Samuli Laine 、 Timo Aila 、 MichalMackiewicz和Graham Finlayson。半监督语义分割需要强的、变化的扰动。在BMVC，2020年。二个[8] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。在CVPR，2018年。二五六七[9] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。InNeurIPS，2005. 一、二[10] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数. CVPR，2006。一、二[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshic

下载后可阅读完整内容，剩余1页未读，立即下载