扰动自蒸馏：弱监督大规模点云语义分割

74 浏览量更新于2023-10-13 收藏 1.67MB PDF 举报

弱监督学习

图形拓扑

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15520∼×扰动自蒸馏：弱监督大规模点云语义分割张亚超1，曲燕云1*，谢元2*，李宗浩1，郑珊珊1，李翠华1厦门大学2华东师范大学yachaozhang@stu.xmu.edu.cn，yyqu@xmu.edu.cn，yxie@cs.ecnu.edu.cn，{zonghaoli，shanshanzheng}@ stu.xmu.edu.cn，chli@xmu.edu.cn摘要大规模点云语义分割具有广泛的应用前景。目前流行的研究主要集中在全监督学习，需要昂贵和繁琐的人工逐点注释。弱监督学习是避免这种令人疲惫的符号的另一种方法。然而，对于大规模的点云，只有少量的标记点，网络很难提取识别。基线（RandLA-Net）PSD地面实况未标记点的固有特征以及标记点和未标记点之间的拓扑的规则化通常被忽略，导致不正确的分割结果。为了解决这个问题，我们提出了一个扰动自蒸馏（PSD）框架。具体地，受自监督学习的启发，我们构造扰动分支，并在扰动分支和原始分支之间执行预测一致性这样，通过引入辅助监督，可以有效地建立整个点云的图形拓扑，从而实现标记点与未标记点之间的信息传播。除了点级别的监督，我们提出了一个集成良好的上下文感知模块显式正则化标记点的亲和力相关性。因此，可以进一步细化点云的图形拓扑在三个大规模数据集上的实验结果表明，与最近的弱监督方法相比，具有较大的增益（平均3.0%），并且具有可比性一些完全监督的方法的结果。1. 介绍目前，大规模点云语义分割在自动驾驶、人机交互、虚拟现实、机器人等环境感知领域有着广泛的应用，受到越来越多的关注。在小规模点云语义分割方面取得了很大进展[15，16，31，12，11，22，24]。*通讯作者图1.语义分割结果具有1%的标记点。我们提高了与红框突出显示的其他类别具有高结构相似性的类别的分割精度最近，RandLA-Net [5]被提出作为大规模点云（106点）语义分割的有效方法。然而，所有这些方法的主流都是建立在完全监督学习的基础上的，需要大量的逐点注释。不幸的是，这样的一个符号涉及大量的手工工作。例如，注释ScanNet的一个场景需要22.3分钟[2]平均而言[23]。为了避免过度的标注，弱监督的方法正在兴起。Xu和Lee等人 [26]首先提出了一种通过标记微小分数点的弱监督方法。该方法利用多分支监督和基于Laplacian矩阵的无参数基于图的平滑项，实现了与其完全监督版本相当的性能，减少了10个标记点。然而，由于缺乏可学习的拓扑关系和Laplacian矩阵的计算复杂度，该方法不能直接应用于大规模的点云数据此外，该方法仅使用点级监督，并且不容易对上下文进行建模而在完全监督的分割任务中，上下文信息通过U-网式结构[16，5]或局部特征聚合[31，22]隐式由于大规模场景标注的局限性，这些技术无法满足需求Area5_storage4区域5_office3915521···学习足够的鉴别特征。例如，在图1的第一列中，由1%标签训练的基线（RandLA-Net [5]）错误分类了红框中的许多点。受自监督学习成功的启发，我们提出了一个扰动自蒸馏框架，重点解决两个关键问题：1）如何为未标记的点设计辅助监督，使得可以建立形式良好的点图拓扑。2)除了仅仅在点级别上进行监督之外，如何导出上下文正则化来对标记点之间的关系进行对于第一个问题，我们通过构造扰动分支并保持扰动分支和原始分支之间的预测分布一致性来一致性约束为所有点提供额外的监督，使得引入的图卷积网络（GCN）能够在所有点之间建立良好形式的图拓扑因此，在此学习图结构的基础上，引入了一种新的两分支交互方式，实现了标记点与未标记点之间的有效信息流动其次，为了改进图的拓扑结构，我们提出了上下文感知模块，在该模块中，我们对标记点的语义相关性亲和力进行编码，以监督特征相关性的由于标记点在图的拓扑结构中的分布类似于锚点，如果能够在一定程度上保证锚点之间的关系是正确的，则会对图的拓扑结构产生积极的影响。未标记数据的分类结果。总而言之，我们的贡献有三个方面：提出了一种扰动自蒸馏（PSD）框架，通过构造扰动样本引入自蒸馏机制，保证扰动样本与原始样本的预测在标记数据的监督下，通过训练过程中标记点与未标记点之间的信息传播，有效地建立了整个点云的图拓扑结构。提出了一个上下文感知模块，它可以无缝地集成到自蒸馏框架。在精确学习标记点的亲和上下文的帮助下，可以进一步细化点云的图形拓扑。PSD在最先进的方法上实现了显着的性能，并且在三个数据集的平均值上获得了3.0%的改进。此外，PSD还以完全监督学习的方式提高了Baseline的性能。2. 相关工作2.1. 大规模点云分割在PointNet和PointNet++ [15，16]之后，深度神经网络的显着进步，语义分割引起了更多的关注。虽然一些工作[31，12，11，22，24，9，6，28]已经显示出有希望的结果，但由于高计算成本或内存要求，它们中的大多数仅适用于小的点云，并且不能直接扩展到大规模的点云[5]。最近，基于图卷积的方法SPGraph[8]和基于体素的方法FCPN [17]被提出用于大规模点云分析。然而， SPGraph 或体素化在计算上昂贵。RandLA-Net [5]利用随机点采样策略而不是更复杂的点选择方法，这提供了一种有效且轻量级的神经架构。上面提到的这些现有技术的方法都依赖于良好标记的点云数据集。然而，这种逐点表示法是劳动密集型的并且耗时的。2.2. 弱监督点云分割弱监督点云语义分割的研究还处于起步阶段。我们根据注释方式将现有方法分为三类：一小部分点注释方法[26，30]、语义类别注释方法[23]和2D分割图注释方法[21]。注释一小部分点是一种流行的类型弱监督的点云分割。Xu和Lee [26]利用多分支监督和随后的用于后处理的无参数图是不可学习的，并且在处理大规模点云时将导致GPU存储器爆炸。Zhang等人。 [30]提出了一种基于迁移学习的方法来提高弱监督点云分割的性能。此方法需要其他数据集学习先验知识并将知识转移到弱监督分割任务。然而，预训练是耗时的并且需要大量数据。与Xu和Lee [26]的多分支约束不同，我们通过构建可学习的图拓扑来关注隐式标签传播，并且我们的方法适用于大规模点云。不同于Zhang等人。 [30]，需要额外的数据集进行预训练，我们的方法侧重于如何挖掘数据本身的监督除了上述方法之外，MPRM [23]利用子云的语义类别，并使用分类网络引入点类激活图（PCAM）。它从各种方面特征中挖掘每个类的本地化线索，GPFN[21]使用基于深度图卷积网络的框架，并利用不同视点的2D分割图来监督点云训练。然而，这两种方法都需要将点云分割成子云或截断点云，不可避免地15522415（×∪›→NF⊕Gkxxl，ylXL，yl，xu，的。. .，xu，其中Xl和1u我我我并约束扰动间的预测一致性已标记点未标记点标记点未标记点权重共享特征串联分割损失自蒸馏损失亲和力损失图2.扰动自蒸馏的框架。丢失了结构信息并且难以对上下文进行建模。我们的PSD引入了一个上下文感知模块，以改善邻居相关的上下文。3. 方法3.1. 符号和表示法假设P是火车上的点云.我GseΣtdefi. 奈德aΣs{（Xl ， Yl ），（XΣu，）}=X是M个标记点和未标记点的集合3.2. 总体框架对于弱监督任务，我们考虑了两种方法来实现点云分割的鲁棒特征表示：1）引入辅助监督来构造信息流的图拓扑; 2）细化图拓扑。我们提出了一个扰动自蒸馏框架，如图2所示，包含扰动自蒸馏（顶部）和一个可插拔的上下文感知模型。Y1是标记点的标记集形式上，给定具有极小部分标签的大规模点云作为输入，弱监督分割旨在学习函数f：XlX uY. 具体来说，1%设置时，标记点的数量为M=1% N。的1pt仅表示一个标记有地面真值的每个类别的标记点的数量M等于类别的数量C。所有标记的点都是随机选择的。在PSD框架中，有两个网络：骨干和图卷积网络（GCN）。对于主干和GCN，我们选择RandLA-Net [5]和Edge-Conv [22]，其中GCN可以公式化为：Egcn（x k）= F（{x，k}）x i− x kΣ |Xk∈ N（xi）}; Θ），（1）通过标记数据的监督和一致性约束，有效地建立整点的图拓扑此外，后者被设计为学习标记点的精确亲和上下文，使得可以进一步细化点云的图形拓扑。在图2中，首先将训练批次分别馈送到扰动分支和原始分支中。在扰动分支中，点云需要被两个随机变换和一个可学习的变换所扰动。原始点云和扰动点云穿过主干和GCN层。然后，我们将骨干和GCN的输出特征连接起来，以细化预测。两个分支的输出类别概率分布由交叉熵标记点的损失和所有点的自蒸馏损失其中（xi）是通过基于欧几里德距离的K最近邻算法简单构造的点xi的局部邻域，表示特征级联。是具有一组可学习参数Θ的函数。然后我们使用最大池操作来聚合局部fea-真的。因此，GCN可以被公式化为：K此外，上下文感知模块构造点相关描述符以通过亲和性损失来约束逐点特征亲和性。3.3. 扰动自蒸馏扰动自蒸馏非常适合于弱监督语义分割，原因有两个：（1）弱（xi; Θ）=maxi∈N（xi）Egcn（xi）.（二）监督任务受益于附加监督GCN[N，2d]骨干点摄动E[N，2d]P骨干GCN原始点云YlC点相关描述子点亲和性[Y1，Y1]51451 4独热Ag= YcYc）L l[2M，标签上下文感知模块[2M，ReLU点态余弦相似性原始分支扰动分支MLP1MLPsMLPs查询标注的点[2N，d][2M，d]MLPsMLPsSoftMaxSoftMax，的。. .、Ule（底部）。前者构造了一个扰动分支1MMM+1N样品和原始样品。因此，GCN可以-15523F·F∈Σ∈L−·X∈SDX2N我我XX我我XXXΣ−由自我蒸馏产生。(2)自蒸馏可以在不同的扰动分支之间转移知识[25]，并驱动网络自动学习更具代表性的特征以进行泛化。然而，为了实施扰动自蒸馏，出现两个困难：（1）如何构造扰动分支。（2）如何进行两个分支之间的互动我们将详细说明解决方案如下。对于输入属性，可以将其视为可学习的变换以适应点云的多样性具体地，称为y，我们将每个城市的坐标Px和原始属性Pa连接为Pc。然后，通过具有可学习参数Θ a的多层感知器实现映射函数a（，Θa），以将Pc的信道映射到响应s=a（Pc; Θa），RN×d。通道i的属性关注度得分αi可以公式化为：exp（si）α=.（三）3.3.1扰动分支Idi=1 exp（si）这两个分支分别以点云和相应的扰动点云作为输入，并输出类概率分布。由于点扰动对于自蒸馏学习是至关重要的，强扰动可能导致网络难以收敛，而弱扰动将使性能微不足道。因此，我们设计了一个组合变换，其中包含的场景明智的转换，逐点位移坐标，和属性的注意。注意，在测试阶段期间将不使用扰动分支。场景式变换。点云P可以是分割为坐标PxRN×3和属性Pa（例如，颜色或正常）。我们使用场景的坐标-我们使用属性注意力得分来构造对角矩阵α = diag（α1，α2，···，α d）。最终扰动点云可以由P_（？）=Pc·α得到。3.3.2自蒸馏损失为了加强预测一致性的约束，我们使用詹森-香农散度作为自蒸馏损失sd来约束原始分支和扰动分支之间的类概率分布：1NL=JS（y~y）i=1（四）含有随机旋转Tr∈=y~log。2y~iΣ+ylog. 2yiΣR3×3 和镜像 T m∈R3×3。旋转点iy~i+yiiy~i+yi云Pr可以表示为Pr=Px·Tr，其中Tr=其中y~和y是点i的预测概率cosθsinθ0sinθcosθ0，即围绕0 0 1z轴服从均匀分布U（0，2π），表示矩阵乘积。对于镜像，我们只考虑相对于Y轴的镜像变换为Pm= Px·Tm和Tm= diag（1，−1，1）。逐点位移。对于逐点位移，我们抖动点位置并产生噪声位移T jRN×3，其中Tj为高斯噪声平均0。01和方差1。0的情况。然后，设置偏移在[ 0. 05，0。05]。抖动的点云表示P j=Px+T j 。具有扰动坐标Px的点 coud可以从{Pr，Pm，Pj}中随机选择。属性注意。对于不同的点云，其属性对提取特征的可分辨性有不同的影响。真实世界的点云具有不同属性的多样性。例如，颜色属性在用于获得区分特征的一些类别中起关键作用，诸如“门”和“窗”。然而，在一些具有高颜色相似性的类别中（例如，the “column”and “wall”), the color infor- mation may confuse feature上述两种随机变换方法无法处理属性的差异。因此，我们引入属性注意层来自适应地学习权值由原始分支和扰动分支输出，重新分配。自蒸馏损失并不强调两个分支是否能准确预测类别，而是侧重于保证两个分支之间的预测一致性，从而在自我监督的场景中引入了一个辅助损失函数。该方法利用标记点的自蒸馏损失和交叉熵损失，通过标记数据和未标记数据之间的信息传播，获得整个点云的精确图形拓扑3.4. 上下文感知模块U-Net的架构由尝试捕获上下文的收缩路径组成由于标记点很少，因此这种隐式上下文不足以理解大规模、不规则和无序的点云。因此，我们提出了一个上下文感知模块来模拟标记点的确切亲和度上下文。标记点像锚点一样分布在图拓扑中。图拓扑中锚点之间的相关性越准确，未标记点的预测就变得越精确。情境感知模块包括三个基本组件：点亲和度、点语义相关描述符和亲和度损失。15524∈∈--∥·∥ ⟨··⟩LLT·Σ−Σ2M2MCHHCMCc=1 expICL= −Σ。语义相关性可以定义为：点亲和力。我们引入点亲和矩阵来表示点特征的相似性。设E~RN×d和ERN×d分别是两个分支中的GCN层的输出特征。 Wee沿着点维度连接E~和E（，并且查询标记点的合并特征为E=e1，e2，. . .，e2M，其中e i是点i的特征向量。点相似度由余弦相似度构建：用于弱监督点云分割，而CPL用于完全监督的2D场景分割。2)目标不同。我们构建点亲和度来优化图拓扑的学习，以促进标记点和未标记点之间的信息流动，而不是学习CPL中的类内和类间上下文依赖性。此外，我们将这两个分支结合起来计算点亲和矩阵，提供了特征级的一致性约束pij=max（0，∠ei，ej∠ei），i，j = 1，2，. . .2个月，（5）进行自我蒸馏3.5. 全损哪里表示“2归一化”，、” denotes产品显然，如果两个点属于不同的类别，则pij很小。相反，它会更大。点相关描述符。我们设计了点相关描述符来提供点亲和度的监督。它表示点云中标记样本的成对关系具体地，我们首先将标签Yl转换成独热向量。由于扰动分支和原始分支具有相同的标签，我们将两个one-hot分支总损失L包含三项：分割损失Lseg、自蒸馏损失Lsd和亲和性损失Laf。L=Lseg+Lsd+Laf，（11）其中 sd 在等式中给出。 (4)并且 af 在等式中给出。（七）、我们利用标记点的softmax交叉熵损失作为两个分支的分割损失。在原始分支中，它可以被公式化为：码Yl=[Yl; Yl] ∈ R2M ×C，其中M和C是.ΣMCL标记的点和类别的数量此描述符1L=−ΣΣyli=1c=1exp日志y~ic.、（十二）Ag=Yl·T（Yl），∈R2M×2M（6）其中yl表示地面实况标签，y~l是预言家其中（）是矩阵转置。让一个ij的元素∈ {0，1}表示标记的点i的部分。M和C表示标记的点和类别。的损失一个g，它代表的语义相关性点i和j。例如，aij=1表示i和j属于同一类别。亲和力丧失。受[29]的启发，我们使用复合损失，由交叉熵损失Lce，精度Lp和召回率Lr组成，以指导点亲和力的学习：Laf=Lce+Lp+Lr。（7）交叉熵损失Lce可以用公式表示为：（2个月）（2个月）扰动分支与原始分支相同。4. 实验4.1. 实验设置数据集。为了展示PSD的多功能性，我们评估- 在三个大规模数据集上评估PSD的性能：S3 DIS [1]、ScanNet-v2 [2]和Semantic 3D [3]。S3DIS包含6个大型室内区域，包括271个房间，每个房间包含约106个点。我们使用6个属性（即， XYZ坐标和RGB颜色）作为Lce =12（2个月）2i=1（aijj=1对数pij+（1−aij）log（1−pij））的情况下，每个点。ScanNet-v2是一个大规模的点云数据集，它来自包含250万像素（八）其中pij是点i处的特征af有限的元素，并且J.查准率和查全率可以分别表示为：超过1500次扫描。它提供点云包含RGB属性和注释良好的点。Se-mantic 3D是一个户外数据集，它提供了一个大型的自然场景的标记3D点云，拥有超过40亿个1p2Mj=11Σ。j=1ΣΣy~segICLICCCIC15525ΣΣaijpijΣved语义分割方法[30]，我们选择一个有效的日志2Mi=12Mi=1Σ2Ma pΣi=1IJ、（9）点的总数。它涵盖了一系列不同的城市场景。原始3D点属于8类，并且包含3D坐标、RGB信息和强度。我们在实验中使用坐标和相应的Lr= −2M日志i=1ij ij2Ma.（十）实作详细数据。类似于弱超-讨论上下文先验之间的差异层（CPL）[29]和我们的上下文感知模块出现在以下方面。（1）任务不同。我国是ficient RandLA-Net [5] as our backbone.我们利用亚当优化器的初始学习率为0.001，intum为0.9，以在一个Σpij15526×∼∼设置方法Miou 细胞楼板墙梁列赢了门椅子桌子书。沙发板杂波Π模型[7]44.389.1 97.0 71.5 0.03.643.2 27.4 62.1 63.1 14.743.7 24.036.71例患者（0.2%）MT [19]徐和李[26]44.444.588.990.196.897.170.171.90.10.03.01.944.347.228.829.363.662.963.764.015.515.943.742.223.018.935.837.51例患者（0.03%）基线40.783.7 90.7 61.2 0.011.9 40.8 15.2 52.0 51.7 14.950.5 25.331.8PSD48.287.9 96.0 62.1 0.020.6 49.3 40.9 55.1 61.9 43.950.7 27.331.1百分之十徐和李[26]48.090.9 97.3 74.8 0.08.449.3 27.3 69.0 71.7 16.553.2 23.342.8百分之一Zhang等人[30个]61.891.5 96.9 80.6 0.018.2 58.1 47.2 75.8 85.7 65.268.9 65.050.2PSD63.592.3 97.7 80.7 0.027.8 56.2 62.5 78.7 84.1 63.170.4 58.953.2PointNet [15]41.188.8 97.3 69.8 0.13.946.3 10.8 58.9 52.6 5.940.3 26.433.2SPH3D [10]59.593.3 97.1 81.1 0.033.2 45.8 43.8 79.7 86.9 33.271.5 54.153.7充分KPConv刚性[20]RandLA-Net*[5]65.463.092.692.497.396.781.480.60.00.016.518.354.561.369.543.380.277.290.185.266.471.574.671.063.769.258.152.3PSD65.192.3 97.1 80.7 0.032.4 55.5 68.1 78.9 86.8 71.170.6 59.053.0表1. S3DIS区5的定量结果[1]。“*”表示我们使用官方代码训练的方法的结果。基线是RandLA-Net [5]。请注意，我们的1pt仅表示整个房间中每个类别的一个标记点，而不是小块（例如，11米）的徐和李[26]。在我们的1pt设置中，标记点的数量占总点数的0.03%，在Xu和Lee中约为0.2%[26]。NVIDIA RTX Titan GPU。此外，我们采用平均IoU（mIoU，%）作为标准度量。我们实验研究了两种类型的弱标签：1pt和1%设置。此外，我们进一步扩展PSD的完全监督的方式和S3DIS的5区进行测试。4.2. 实验结果S3DIS的5区结果。在表1中，我们示出了S3 DIS的区域-5的定量结果。从弱监督任务的比较中，观察到PSD分别在1pt和1%的弱设置下实现了很大的改善。在1 pt设置下，尽管PSD的标记率低于Xu和Lee [26]，但与具有弱监督设置（基线）的RandLA-Net相比，PSD在mIoU方面仍获得约3.7%的改善，并实现约7.5%的改善。值得注意的是，具有1%标记点的PSD在类别“列”（col.）中获得18.7%、11.6%和28.0%的“门”和“书橱”（书）[26]李明博和李明博。这些类别通常在颜色或结构上与“墙”相似。这些结果支持PSD可以使特征更具区分性的论点。在1%设置下，PSD的性能优于Zhang等人的1.7%改善 [30]。此外，PSD实现了63.5%的mIoU，与Xu和Lee的10%标记点相比增益为15.5%有趣的是，PSD的性能PSD之所以表现出色的一个原因是PSD可以通过自蒸馏获得更有区分力的特征我们在图1中给出了一些定性结果。通过与基线的比较可以看出，PSD得到了正确的分割结果，而Baseline则出现了误分类红框中的点。因为红框中的类别在结构上与其他类别相似。为了验证PSD的可扩展性，我们进一步扩展PSD完全监督的任务。由于大规模的点云包含106个点，亲和矩阵是非常大的，导致GPU的内存限制在训练阶段。基于以下考虑，我们在编码器之后插入我们的上下文感知模块，具有102个点：1）当前层的点特征可以胜任地表示局部特征。2)所学习的上下文信息可以由骨干网的解码器传播到更高分辨率的层。在表1中，从完全监督设置（Fully）的比较可以看出，我们比RandLA-Net [5]实现了2.1%的改进，性能接近KPConvrigid [20]，这表明PSD具有良好的可扩展性。6倍S3DIS的结果在表2中，我们列出了在S3DIS上的6-面积交叉验证（6倍）的定量结果。我们首先注意到PSD 达到了68.0% 的 mIoU ，这确实优于 Zhang 等人[30]。PSD超过了完全监督方法（例如PointCNN [13]，DGCNN [22]和ShellNet [31]）的性能，并实现了与最先进的完全监督方法相当的结果。ScanNet-v2上的结果。MPRM [23]注释了次云层（sub.）的地震类别。与我们的1%设置相比，它减少了劳动力。但它需要将整个场景划分为子云，并重复注释每个子云。根据表2，PSD相对于MPRM和基线在mIoU中分别获得13.6%和4.4%的改善。与Zhang等人[30]相比，PSD在mIoU方面超过了3.6%的性能质量-15527基地八月自我否定凸轮1pt百分之一百分百#1✓40.758.663.0#2✓✓41.159.963.3#3✓✓46.962.063.9#4✓✓✓48.263.565.1表2. 6倍S3 DIS [1]、ScanNet-v2 [2]和Semantic 3D（reduced-8）[3]（表示为Sem 3D）的定量结果。“*” de- notes原始点云语义分割（1%）图3. ScanNet-v2上的定性结果实验结果如图3所示。据观察，PSD实现了良好的分割结果。Semantic3D 上的结果。从表 2 中 Semantic 3D（reduced-8）的定量结果的比较，观察到PSD分别比基线和Zhang等人 [30]增加6.9%和3.2%。此外，PSD实现了75.8%的mIoU，其优于完全监督的ShellNet [31]和PointGCR [14]，增益超过6.5%和6.3%。这些结果表明PSD在室外数据集上也是有效的。表3.不同成分对S3DIS 5区的影响[1]。4.3. 消融研究在本节中，我们将分解PSD框架并分析一些重要组件。所有实验均在S3 DIS [1]的区域-5上进行，结果示于表3中。数据扩充的无效性。为了验证改善是由PSD而不是数据增加引起的，我们比较了基线（Base. ）与点扰动（ Aug. ） . 比较表 3 中的 #1 和 #2 ，我们发现基线（Base. ）实现了与增强类似的性能。结果表明，作为数据增广的简单点扰动对结果的影响可以忽略不计。自我升华的有效性我们只引入扰动自蒸馏（Self-dis. ）用于语义分割。从#1和#3之间的比较可以看出，Self-dis实现了显著的改进。在1pt和1%设置下，它分别比基线获得6.2%和3.4%的增益。对于完全监督的集合，PSD获得0.9%的mIoU，但不如弱监督的任务，因为PSD通过自蒸馏损失提供对未标记点的监督，而Baseline不能。对于完全监督任务，足够的标签信息使得自蒸馏带来的性能改善不太明显。上下文感知模块的有效性从#3和#4的比较，上下文感知模块（CAM）分别获得1.3%、1.5%和1.2%。这些结果表明，上下文感知模块可以进一步提高弱监督和全监督任务的性能。私营部门司的效力。从#1和#4的比较，PSD比基线增加约7.5%、4.9%和2.1%。该结果表明PSD（Self-dis.+ CAM）从自蒸馏机制和上下文感知模块获得显著益处。4.4. 分析标记点和性能。我们进一步讨论了标记点的数量与图4（a）中的分割性能之间的关系。随着标记点的增加，PSD的性能也逐渐提高，增长趋势逐渐减缓。这些结果表明，足够的标签集方法S3DIS ScanNetSem3D充分美国有线电视新闻网65.4 45.8-美国有线电视新闻网（DGCNN56.1--[24]第24话-55.6-ShellNet66.8-69.3KPConv70.6 68.473.1PointGCR-60.869.5RandLA-Net70.0 57.8*77.4SPH3D68.9 61.0-[27]第20话68.7 63.0-Point2Node70.0--附属MPRM-41.1-百分之一Zhang等人65.9 51.172.615528PSD基线mIoU（%）允许网络学习更好的表示。而对于弱监督任务，网络需要额外的监督和准确的上下文信息来提高其学习能力。7065656060555550504545401 P T 0.1% 1% 1 0% 1 0 0%弱设定（一）40Xu+PN2PSD+PN2KPConv兰德拉PSD（b）第（1）款图5.点相关性描述符（顶行）和预测的点亲和性（底行）的可视化。我们随机选择了10，240个点进行可视化。图4.不同设置和脊柱的消融研究。（a）标记点的数量与性能之间的关系。 (b)PSD 独立于主干网。 “+PN2” 表示使用PointNet++ [16]作为主干的方法。KPConv和RandLA分别是KPConv [20]和RandLA-Net [5]在1%设置下的方法。语义关联的可视化我们用1%的标记点训练网络，并从S3 DIS的Area-5中选择三个场景进行可视化。学习的点亲和度和点相关描述符如图5. 这表明PSD可以学习准确的亲和力上下文。准确的上下文迫使网络细化图拓扑。实现了标记点和未标记点之间的实际信息流动，从而增强了特征的可区分性。骨干独立。进一步通过实验分析了PSD的提高并不是由于主链的作用。结果示于图4（b）中。当我们选择PointNet++ [16]作为主干（PSD+PN2）时，PSD在1%设置下仍达到51.0%的mIoU，甚至高于Xu和Lee的结果（48.0%）（10%标记点）。此外，我们在1%设置下对两种方法进行了实验：KPConv [20]和RandLA-Net [5]，它们在全监督方式下实现了良好的性能。据观察，PSD仍然实现了最佳性能。因此，PSD是一个通用框架，可以与其他点云深度分割模型一起实例化。模型复杂性。RandLA-Net [5]是一种高效的大规模点云语义分割方法，PSD是使用RandLA-Net作为主干构建的我们在表4中列出了每个epoch的训练时间，网络参数和由于两个分支的参数是共享的，因此与RandLA-Net相比，仅添加了GCN的参数由于扰动分支仅在训练阶段引入，PSD的训练时间比RandLA长86s/epochNet. 而总的测试时间基本相似。因此，PSD也是一种有效的方法。方法培训时间网络参数总测试时间RandLA-Net [5]2161.05258私营部门司（1%）3021.10263表4.每个epoch的训练时间（以秒为单位），网络参数（以百万为单位）和S3DIS上的总测试时间（以秒为单位）5. 结论在本文中，我们提出了一个扰动自蒸馏框架弱监督大规模点云语义分割。我们的方法侧重于提供额外的监督扰动自蒸馏建立图拓扑结构的隐式信息传播。大量的实验结果表明，PSD实现了显着的收益相比，国家的最先进的方法。此外，所引入的两个关键部件（即，扰动的自蒸馏和上下文感知模块）通过烧蚀研究来验证。结果进一步表明，额外的监督和图形拓扑学习是重要的，以改善弱监督语义分割的大规模点云。6. 致谢本工作得到国家自然科学基金项目 61876161 、61772524; 国家重点研究发展计划项目2020AAA0108301;上海市自然科学基金20 ZR 1417700;上海市科委21511100700号; CAAI-华为思维-孢子开放基金;中央高校基础研究经费。1%设置10%设置63.558.654.551.048.0mIoU（%）15529引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR，第1534-1543页[2] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页[3] Timo Hackel，N.萨维诺夫湖Ladicky，Jan D. Wegner，K. Schindler和M.波勒菲斯SEMANTIC3D.NET:一个新的大规模点云分类基准。 ISPRSAnnals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，第91-98页[4] Wenkai Han 、Chenglu Wen 、Cheng Wang、Xin Li和Qing Li。Point2node：用于点云特征建模的动态节点相关学习。在CVPR中，第10925[5] Qingyong Hu，Bo Yang，Linhai Xie，Stefano Rosa，Yulan Guo，Zhihua Wang，Niki Trigoni，and AndrewMarkham. Randla-net：大规模点云的高效语义分割。在CVPR中，第11108-11117页[6] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在CVPR中，第984- 993页[7] Samuli Laine和Timo Aila用于半监督学习的时间集成ICLR，2016年。[8] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR中，第4558-4567页[9] 桓磊、纳维德·阿赫塔尔、阿杰马勒·米安。三维点云的八叉树引导的球面核cnn。在CVPR中，第9631-9640页[10] 桓磊、纳维德·阿赫塔尔、阿杰马勒·米安。用于三维点云上的高效图形卷积的球形 IEEE Transactions onPattern Analysis and Machine Intelligence，2020。[11] Guohao Li，Matthias Muller，Ali Thabet，and BernardGhanem. Deepgcns：gcns能和cnns一样深吗？在ICCV，第9267-9276页[12] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络在CVPR中，第9397-9406页[13] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积在NeurIPS，第820-830页[14] Yanni Ma ， Yulan Guo ， Hao Liu ， Yinjie Lei ， andGongjian Wen.三维点云语义分割的全局上下文推理在CVPR，第2931-2940页[15] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR中，第652-660页[16] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。在NeurIPS，第5099-5108页，2017年。[17] Dario Rethage ， Johanna Wald ， Jurgen Sturm ， NassirNavab，and Federico Tombari.用于大规模点云的全卷积点网络。参见ECCV，第596[18] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[19] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。在NeurIPS，第1195-1204页[20] Hugues Thomas ， Charles R Qi ， Jean-EmmanuelDeschaud ， BeatrizMarcote gui ， Franc oisGoulette ，andLeonidasJGuibas.Kpconv：点云的灵活和可变形卷积。在ICCV，第6411-6420页[21] Haiyan Wang ， Xuejian Rong ， Liang Yang ， JinglunFeng，Jizhong Xiao，and Yingli Tian.野外场景三维图结构点云的弱监督语义分割。 arXiv 预印本 arXiv ：2004.12498，2020。[22] Wang Yue，Yongbin Sun，Ziwei Liu，Sanjay E.作者声明：Michael M. Bronstein和Justin M.所罗门点云学习的动态图cnn。ACM Transactions on Graphics（TOG），2019年。[23] Jiacheng Wei ， Guosheng Lin ， Kim-Hui Yap ， Tzu-YiHung，and Lihua Xie.基于多路径区域挖掘的点云弱监督三维语义分割。在CVP

下载后可阅读完整内容，剩余1页未读，立即下载