网络修剪引导的半监督语义分割的课程学习

196 浏览量更新于2023-10-16 收藏 12.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

The key challenge in semi-supervised semantic segmen-tation is the effective training of the network by leveragingunlabeled data. Pseudo-labeling [28] is a typical solutionthat assigns the most probable class that is predicted on theunlabeled sample as the pseudo ground truth. Due to thesimple yet effective approach, recent studies [26, 1, 18, 54]have commonly adopted pseudo-labeling. Unfortunately,these methods suffer from the confirmation bias [2] that iscaused by incorrect pseudo-labels, which directly degradesthe performance of the training network. Previous stud-ies tackle this bias by exploiting confidence thresholding[1, 54, 36, 38]. They have attempted to prevent the learn-ing of incorrect predictions by only reflecting highly con-fident samples with confidence scores that exceed a prede-fined threshold.However, in practice, the effectiveness of confidencethresholding is limited due to the ambiguity of confidencescores, and we observed that this ambiguity is naturally fur-ther intensified in the early training stages, as illustrated inFig. 1. This figure indicates that many highly confident pix-els exist, although their predictions are erroneous, which59140基于修剪引导的半监督语义分割的课程学习0Heejo Kong 1 Gun-Hee Lee 2 Suneung Kim 3 Seong-Whan Lee 3 †01 韩国大学脑与认知工程系，首尔，韩国 2 韩国大学计算机科学与工程系，首尔，韩国 3韩国大学人工智能系，首尔，韩国0{ hj_kong, gunhlee, se_kim, sw.lee } @korea.ac.kr0摘要0本研究侧重于在半监督语义分割的背景下提高伪标签的质量。先前的研究采用置信度阈值来减少伪标签数据中的错误预测并提高其质量。然而，尽管在早期训练阶段它们的预测是错误的，但仍存在许多具有高置信度得分的伪标签，这种不确定性严重限制了置信度阈值的效果。在本文中，我们提出了一种新的方法来通过网络修剪的指导解决置信度得分的不确定性。最近的研究发现，网络修剪严重影响尚未学习或表示良好的样本的网络泛化能力。受到这一发现的启发，我们通过反映预测受修剪影响的程度来改进置信度得分。此外，我们采用了课程学习策略来处理置信度得分，使网络能够逐渐从简单到困难的样本进行学习。这种方法通过抑制学习嘈杂的伪标签来解决不确定性，这些伪标签由于早期阶段的训练不足而难以信任。在各种基准测试中进行的大量实验证明了我们的框架优于最先进的替代方法。01. 引言0由于深度监督学习的发展，我们在过去十年中见证了语义分割的显著进展[34, 4, 5,52]。然而，这一成功在很大程度上依赖于大规模的训练数据集[7,9]，由于像素级标注的高成本，构建这些数据集需要耗费大量人力和时间。为了解决这个问题，半监督学习（SSL）[27, 44, 42, 46,47]在语义分割中引起了关注，其中假设只有整个数据集的一小部分被标记。0输入置信度我们的图1.前景对象的像素级置信度得分的热图可视化。置信度得分是由训练好的网络在10个周期（总共80个周期）中估计得出的。红色区域的预测得分高于蓝色区域。该图表明，尽管在早期训练阶段它们的预测是错误的，但仍存在许多有信心的像素。59150无法通过置信度阈值进行过滤。这些有信心但错误的预测被分配为伪标签，并作为后续训练时的噪声进行学习。这种噪声积累直接导致了确认偏差。在早期的训练阶段，由于训练不足，网络对特定样本的泛化能力不足。这些样本直接导致了具有高置信度分数的噪声伪标签，即使预测是错误的。因此，我们认为，如果可以估计样本在当前阶段从网络中训练的程度，就可以通过有效地改进其置信度来减少噪声。为此，本研究借鉴了最近关于图像分类的经验发现[19]的概念。他们表明，由于训练分布的稀疏性，网络修剪严重损害了深度神经网络（DNN）在训练不足的样本上的泛化和记忆能力。受到这一发现的启发，我们的研究将网络修剪应用为一种实用工具，以识别网络中尚未训练良好的样本。在本研究中，我们提出了基于修剪引导的课程学习（PGCL）方法，用于解决早期训练阶段置信度分数的歧义性。具体而言，我们首先测量从原始网络和修剪网络提取的特征在相同像素上的相似性。测得的相似性被认为是样本在当前阶段已经训练的程度。随后，我们根据课程策略利用相似性改进置信度分数，使网络逐渐从简单到困难的样本进行学习。这种方法通过防止网络学习具有不足训练的噪声伪标签来提高伪标签的质量，这些噪声伪标签的置信度分数由于训练不足而难以信任。所提出的PGCL有助于轻松应用于现有方法，并有效提高分割性能。根据众所周知的基准测试，我们在PASCALVOC [9]和Cityscapes[7]数据集上进行了大量实验，结果证明了我们提出的方法的有效性。总之，我们的主要贡献有三个方面：0•为了提高伪标签的质量，我们提出了一种新的方法，通过网络修剪的指导来改进置信度分数的歧义性。0•我们设计了PGCL框架，根据提出的改进方案，逐渐从简单到困难的样本训练分割网络。这种方法简单而有效，并且可以轻松地融入现有的半监督学习方法。0• 在PASCAL VOC2012和Cityscapes上进行的大量实验表明，我们提出的方法超过了当前最先进的替代方法。02. 相关工作0语义分割。语义分割[9, 7, 40,29]是计算机视觉中的一项基本任务，它为图像中的每个像素分配语义标签。FCN[34]的引入在该任务中取得了重大进展，最近的研究已经利用了这种方法，其中分辨率、上下文和边缘三个方面已经得到了研究。关于分辨率的研究旨在获得准确的高分辨率输出，尝试利用编码器-解码器结构[5, 41]或扩张卷积层[4,49]。关于上下文的研究旨在获得更多样化的空间上下文，例如PSPNet [52]和ASPP[4]。一些研究尝试提高边缘区域的分割质量，包括PointRend [24]和SegFix[50]。然而，它们的性能严重依赖于需要昂贵标签消耗的大规模数据集。半监督语义分割。半监督语义分割的早期方法[22, 30,43]倾向于使用生成对抗网络[13]，将未标记的数据作为对抗性损失进行训练。近年来，主导流派包括一致性正则化[27,44, 38, 12]和自训练[46, 47, 18,48]。一致性正则化强制在相同输入的不同扰动下预测的一致性，从而使学习的决策边界位于低密度区域。自训练通过使用标记数据集和伪标签数据对未标记数据上的预测进行伪标签分配，并使用预训练网络对网络进行重新训练。最近的尝试利用了一种整体方法[42, 54,6]，结合了一致性正则化和自训练。此外，一些研究[26, 1,32,53]采用了像素级对比学习，半监督语义分割的性能得到了显著提高。课程学习。课程学习[3]是一种训练策略，在训练过程中逐渐引入更容易到更困难的样本，从而模仿人类课程中有意义的学习顺序。以前的研究表明，在几种情况下，课程学习具有提高网络泛化能力和收敛速度的优势[39, 14,20]。网络修剪超越压缩。网络修剪[15, 31,33]是一种去除DNN冗余权重的主要方法，它有效地防止了计算和内存的浪费，同时保持网络性能。相比之下，最近的研究[19, 10,11]试图从DNN记忆和泛化的角度探索网络修剪超越简单的压缩工具。与我们最相关的研究是Hooker等人的研究[19]，他们研究了网络修剪对图像分类中泛化特性的影响。作者们经验性地发现，网络修剪严重影响了训练不足样本上的泛化特性。59160图2.我们的SSL框架概述，包括PGCL，它由三个分支组成：学生网络、教师网络和修剪的教师网络。学生网络以两种不同的方式使用伪标签进行训练，即一致性损失（公式（8））和像素级对比损失（公式（9））。教师网络生成伪标签，并通过学生网络的权重的EMA进行更新。修剪的教师网络通过利用教师网络和修剪的教师网络对相同输入提取的输出特征之间的相似性来改进生成的伪标签，并通过对教师网络应用网络修剪来进行更新。PGCL通过识别和忽略由于训练不足而难以信任的预测像素，使对未标记数据的训练对伪标签上的噪声具有鲁棒性。0经验证明，修剪训练的分类器对某些示例或类别产生了更大的影响，例如最困难和长尾图像，这是由于引入了稀疏性。这为揭示修剪网络暴露出训练网络潜在弱点提供了新的见解，一些研究[21, 45]在其方法中采用了这一见解。03. 提出的方法03.1. 概述0根据半监督语义分割[1, 37,25]的设置，我们通过利用小型标记数据集Dl和大型未标记数据集Du来训练网络。总体损失函数旨在最小化标记数据集的监督损失Lsup和未标记数据集的无监督损失Lunsup的总和：L = Lsup + Lunsup. (1)0标记数据集的监督损失应用标准的像素级交叉熵损失，该损失在预测的逻辑和给定的真实标签之间进行计算：0Lsup = -10xi∈Bl yi log(g◦f(θ; xi)), (2)0其中xi表示标记数据集的第i个像素输入，yi表示像素的独热向量标签。Bl表示每个批次中的标记数据，g◦f表示编码器f的组合函数，具有可学习的权重θ和分类器头g。在本研究中，我们提出了一种新的框架，用于对未标记数据进行鲁棒学习。所提出的方法的概述0所提出的框架的概述如图2所示。具体而言，该框架由三个分支组成，具有相同的架构但不同的更新规则，分别是学生网络、教师网络和修剪的教师网络。学生网络直接学习未标记数据作为主要分支，网络的权重θ通过梯度下降进行更新以优化无监督损失函数。教师网络为学生网络提供伪标签进行监督。我们采用均值教师框架[44]，使教师网络能够提供更稳定的伪标签。教师网络的权重ˆθ通过权重θ的指数移动平均（EMA）进行更新，更新比率为α：ˆθt = αˆθt−1 + (1− α)θt，(3)0修剪的教师网络用于改进教师网络生成的伪标签。修剪的教师网络的权重ˆθp通过对带有权重ˆθ的教师网络应用网络修剪[15]来更新。两个网络处理相同的输入以获得输出对，并使用对的相似性来实现对每个样本的伪标签的自适应训练。在接下来的章节中，我们介绍所提出方法的细节（第3.2节），然后描述如何通过利用该方法增强半监督语义分割的学习（第3.3节）。03.2. 修剪引导的课程学习0置信度阈值[1, 54, 36,38]是减少生成的伪标签中噪声样本并提高其质量的典型解决方案。然而，这个标准在早期训练阶段对于训练不足的样本的置信度得分存在不确定性。59170(a) 置信度（对于摩托车） (b) 真实标签0(c) 过滤后的伪标签 (d) Softmax概率（黄色十字）0图3. 置信度得分的不确定性示例。 (a)经过训练网络估计的摩托车像素级置信度热图，共10个训练周期（总共80个周期）。 (b) 像素级真实标签图像。 (c)经过置信度阈值（0.9）过滤的像素级伪标签，白色区域内的像素未被分配为伪标签。 (d)黄色十字像素的类别级别Softmax概率，尽管其预测是错误的，但置信度得分超过0.9。0例如，图3中的黄色十字像素的置信度得分超过0.9，尽管它被错误地预测为摩托车。图3(c)显示了在对所有预测应用0.9阈值过滤后的伪标签图像，它表明仍然有几个错误的预测被训练为监督。我们设计了新颖的PGCL方法来解决这种不确定性并提高伪标签的质量。我们PGCL方法的关键方法有两个：（1）通过利用教师网络和修剪教师网络从相同像素中提取的特征的相似性来改进置信度得分，（2）将课程策略应用于改进过程，使网络能够逐渐从简单样本训练到困难样本。通过这种方法，我们的目标是防止网络在噪声伪标签上学习，这些伪标签的预测由于早期阶段的训练不足而难以信任。修剪教师构建。为了解决置信度得分的不确定性，我们首先通过利用网络修剪构建了一个修剪教师网络。构建的关键是在保持标记数据集性能的同时尽可能地移除权重。通过这种方法，我们的目标是仅在未经训练的样本上削弱网络的泛化能力。为了稳定修剪网络，网络修剪仅应用于教师编码器，而它们的投影头共享权重。0具体来说，我们通过将最简单的基于幅度的修剪[15]应用于教师编码器f(ˆθ;)来获得修剪掩码M。为了节省计算开销，修剪掩码在每个周期的开始时进行延迟更新[21]，即同一周期的所有迭代都采用相同的掩码。获得的修剪掩码应用于每次迭代中的教师编码器，构建一个修剪教师编码器f(ˆθp;) =f(M ◦ˆθ;)。置信度得分改进。网络修剪显著削弱了网络在学习不足或表示不足的样本上的泛化或记忆能力[19]。因此，我们的方法旨在通过反映个体样本受网络修剪影响程度来改进置信度得分。通过这种方法，我们的方法防止了学习噪声伪标签，即使它们的置信度得分很高，由于学习不足可能导致错误的预测。我们首先测量教师网络和修剪教师网络对于相同像素输入i的像素嵌入对的相似性。每个像素嵌入是由编码器和投影头的组合函数提取的，并且余弦相似度被应用作为相似性度量，如下所示：d(˜zi, ˜zpi) = (1 + ˜zi ∙ ˜zpi) / 2，(4)0其中，˜zi和˜zpi分别表示教师网络和修剪教师网络提取的归一化像素嵌入，d(∙, ∙) ∈ [0,1]表示归一化相似度。当第i个样本受到网络修剪的影响更大时，相似度越接近于零。随后，通过超参数β控制修剪的影响，将测得的相似度嵌入到由softmax概率估计的置信度分数中：0si = ˜pi ∙ d(˜zi, ˜zpi)β, (5)0其中，˜pi表示由教师网络估计的像素i的softmax概率。通过这种方法，我们的方法通过减少当前阶段训练不足而难以信任的预测样本的置信度来解决模糊性问题。使用公式（5）中的精炼分数，我们采用类似于之前方法[1, 54, 36,38]的置信度阈值方法，如下所示：0ωi = 1, si ≥ γ0, otherwise. (6)0课程策略。虽然提出的精炼方法可以有效减少噪声伪标签，但在这种方法中存在一个权衡，即它也会抑制对困难样本的学习。由于这些样本更有可能接近物体边界或属于长尾类别，它们通常对提高类别区分能力起到重要作用。因此，我们引入了一种课程学习策略Lcont = − 1NNωi·logs (zi, ˜zi+)s (zi, ˜zi+) +i−i s (zi, ˜zi−),Lunsup = λconsLcons + λcontLcont,(10)59180即还考虑了对困难样本的学习，以有效地训练无标签数据。具体而言，我们设计了一个自适应函数来通过调整β作为学习步调参数来控制网络修剪的影响。随着学习的进行，逐渐减小步调参数，从而减小修剪对置信度分数的影响：0βt = βmax - (βmax + βmin) × t0tmax0σ，(7)0其中，βmax和βmin分别表示β的最大和最小值。t表示当前训练轮数，tmax表示训练结束时的轮数。超参数σ控制步调参数在训练过程中的快速减小速度。通过这种方法，在整个训练期间逐渐增加困难样本的比例，同时在早期学习阶段抑制噪声伪标签的学习。03.3. 带有PGCL的半监督学习0我们提出的PGCL可以轻松应用于现有方法，使它们在无标签数据上的学习更加稳健。因此，通过将PGCL应用于先前的SSL方法，我们旨在证明它可以有效提高分割性能。为此，本研究结合了像素级对比学习[26, 32,25]（最近表现出卓越性能）和一致性[54, 38,6]（这是该任务中最常见的方法）。像素级交叉熵损失被应用于一致性正则化损失Lcons，类似于公式（2）。为了生成公式（6）中的伪标签及其指示函数，我们使用弱增强的无标签数据用于教师网络和修剪教师网络。对于学生网络，强增强的无标签数据被处理以提高泛化能力，具体如下：0Lcons = -10xi ∈ Bu ωi ∙ ˆyTi log[f(θ; ˆA ◦ xi)], (8)0其中，ˆyi表示像素i的伪标签的one-hot向量，ˆA表示强数据增强操作符。令Bu表示每个批次中的无标签数据。使用提出的指示函数ωi，分割网络只能在有效像素上进行训练。我们采用像素级的InfoNCE损失作为对比学习损失Lcont。令zi+和zi−分别表示锚点嵌入zi的正向和负向键。正向键zi+是所有预测类别与像素i相同的像素嵌入的平均表示，而负向键zi−是从同一训练批次中的其余像素嵌入中采样得到的。s(zi,zi+)=0exp ( z i ∙ z i + /τ )表示嵌入对的相似度度量，τ是温度超参数。形式上，Lcont 定义如下：0(9) 其中N i 表示锚点像素i的负键集合，ω i表示像素i的指示函数，如公式(8)中所示。z i 和˜ z i分别是来自学生网络和教师网络的归一化像素嵌入。随后，无监督损失的整体函数是一致性正则化损失L cons和像素级对比损失L cont 的加权和，如下所示：0其中λ cons 和λ cont 是用于控制两个损失强度的超参数。04. 实验04.1. 实验设置0数据集。我们的实验在PASCAL VOC 2012[9]和Cityscapes [7]数据集上进行。PASCAL VOC2012是一个包含20个语义类别和1个背景类别的标准分割基准数据集。该数据集有三个独立的子集，分别是训练集、验证集和测试集，分别包含1464、1449、1456张图像。按照常规做法，我们使用Segmentation Boundary Dataset(SBD)[16]作为增强集，其中包含9118张额外的训练图像。Cityscapes是一个真实的城市场景数据集，包含19个前景对象和背景杂物的语义类别。训练集和验证集分别包含2975和500张图像。我们在几个标记数据的部分上比较了我们的方法。对于PASCAL VOC2012，我们使用了三个分区协议，1/20、1/8和1/4，而对于Cityscapes，我们使用了1/8、1/4和1/2。数据增强。我们在PASCAL VOC2012和Cityscapes的训练中采用了相同的数据增强策略。所有的训练图像首先被随机调整大小，调整比例在0.5到2之间，然后对它们进行随机裁剪（PASCAL VOC2012为320×320，Cityscapes为720×720）。以0.5的概率对裁剪后的图像进行随机水平翻转。以0.2、0.5和0.8的概率采用随机灰度、随机高斯模糊和颜色抖动进行强增强，用于公式(8)和(9)中的强增强。此外，我们采用了CutMix[51]进行强增强，遵循之前的研究[12, 6,32]。实现细节。我们使用在ImageNet[8]上预训练的ResNet-50、101[17]作为骨干网络，DeepLab v3+GCT [23]DL2R101-72.1473.6275.73ClassMix [37]DL2R10167.7771.0072.45-Alonso et al. [1]DL2R10170.0071.60-74.10ECS [35]DL3+R50-70.2272.6076.29CAC [26]DL3+R50-72.4074.0076.50CPS [6]DL3+R50-73.6774.90-ELN [25]DL3+R5070.5273.2074.63-CAC [26]DL3+R101-74.6076.3078.20CPS [6]DL3+R101-76.4477.68-ELN [25]DL3+R10172.5275.1076.58-Table 1. Performance (mIoU) on the PASCAL VOC 2012 valida-tion set under different partition protocols. ”Baseline” stands forthe results of supervised training on the labeled dataset only.CutMix [12]DL2R10160.3463.87-67.68ClassMix [37]DL2R10161.3563.6366.29-Alonso et al. [1]DL2R10164.4065.90-67.30ECS [35]DL3+R5067.3870.7072.8974.76CAC [26]DL3+R5069.7072.70-77.50Alonso et al. [1]DL3+R5070.0071.60-74.20ELN [25]DL3+R5070.3373.5275.33-59190方法 SegNet 骨干网络 1/20 1/8 1/4 完整 (530) (1323) (2645) (10582)0基线 DL3+ R50 62.10 68.20 70.40 77.00 我们的 DL3+ R50 70.90 75.20 76.00-0基线 DL3+ R101 67.30 71.50 74.00 78.80 我们的 DL3+ R101 73.60 76.8077.90 -0方法 SegNet 骨干网络 1/8 1/4 1/2 完整 (372) (744) (1487) (2975)0Baseline DL3+ R50 61.20 66.20 72.00 78.90 Ours DL3+ R50 71.20 73.9076.80 -0表2.在不同分区协议下的Cityscapes验证集上的性能（mIoU）。'Baseline'代表仅在标记数据集上进行监督训练的结果。0[5]作为解码器。投影头由两个“1x1Conv-BN-ReLU”块组成，隐藏和输出维度分别为128和256。对于公式（9）中的Lcont，τ设置为0.5，负样本数为PASCAL VOC2012的19200和Cityscapes的14400。我们将λcons和λcont都设置为1.0，并将公式（6）中的固定阈值γ设置为0.7。我们采用小批量随机梯度下降（SGD）优化器，动量固定为0.9，权重衰减设置为0.0001。使用多项式调度来在训练过程中衰减学习率：lr = lr base ∙ (1 - iter/totaliter)0.9。对于在PASCAL VOC2012上的训练，我们将基本学习率分别设置为0.001和0.01，批量大小为16，总训练时期为80。对于在Cityscapes上的训练，我们使用基本学习率分别为0.01和0.1，批量大小为8，总训练时期为200。为了稳定训练，在PASCAL上仅使用监督学习在前3个时期进行训练（在Cityscapes上为5个时期）。04.2. 结果0与最先进的方法的比较。为了证明我们提出的PGCL方法的优越性，我们进行比较0准确率精确率召回率 F1分数0Conf. 92.73 77.50 84.12 79.94 Ours 95.2483.98 85.66 84.160表3.置信度阈值（Conf.）和我们提出的方法的像素级准确率、精确率、召回率和F1分数。报告的分数是每个类别所有结果的平均值。实验在PASCAL VOC 2012的验证集上进行。0（a）错误（b）正确图4.置信度（Conf.）和我们提出的分数之间的概率密度函数（PDF）比较。'False'和'True'分别表示预测的伪标签错误和正确的情况。0将我们的方法与当前最先进的方法和基线（仅在标记数据上进行训练）进行比较。我们采用平均交并比（mIoU）指标来评估分割性能。所有结果都是在PASCALVOC和Cityscapes数据集的验证集上报告的。我们将DeepLab v2缩写为DL2，DeepLabv3+缩写为DL3+，ResNet-50、101缩写为R50、R101。表1显示了在PASCALVOC上的比较结果。PGCL在所有分区协议（1/20、1/8和1/4）以及ResNet-50和ResNet-101骨干网络上均取得了最高性能。特别是，我们的PGCL大幅超过了ECS [35]和ELN[25]，并且被认为从DNN记忆/泛化的角度来看，我们的方法比利用辅助网络进行错误定位和错误修正方案更有效。此外，为了证明我们方法的泛化能力，我们在Cityscapes上进行了三个分区协议（1/8、1/4和1/2）的实验，如表2所示。该表显示我们的方法仍然优于其他最先进的方法。关于伪标签质量的分析。为了证明我们的PGCL改善伪标签质量的有效性，我们将我们的方法与置信度阈值[1, 54, 36,38]进行比较。我们在PASCALVOC的验证集上使用ResNet-50和DeepLabv3+进行实验。仅使用训练了10个时期（总共80个时期）的网络，并将超参数β和γ分别设置为1.0和0.7。'Conf.'表示使用通过softmax概率估计的置信度分数的过滤方法，'Ours'是引入在公式（5）和（6）中引入的经过改进的置信度分数的提出方法。如所示unsupRef.Cur.CutMix1/81/4✓73.174.1✓✓72.874.2✓✓✓74.275.1✓✓74.075.1✓✓✓✓75.276.0LconsLcontLcons + LcontConf.73.673.174.0Ours73.974.275.2σβmax0.10.30.51.01.50.574.073.874.074.174.41.074.375.274.874.173.81.574.174.374.674.273.659200仅有监督 68.2 70.40表4.对PGCL中每个组件有效性的消融研究。实验在给定比例为1/8和1/4的PASCAL VOC2012的未标记数据上进行。Ref：公式（5）中的修剪引导置信度修正。Cur.：公式（7）中的课程策略。CutMix：对强增强图像进行CutMix增强。0表3，我们提出的方法在像素准确度、精确度、召回率和F1分数上分别比置信度阈值提高了2.51%、6.48%、1.54%和4.22%。这些结果表明我们的方法在早期训练阶段有效地忽略了噪声伪标签。图4显示了置信度（Conf.）和我们提出的得分超过预定义阈值γ（0.7）的概率密度函数（PDF）。'False'和'True'分别表示预测的伪标签不正确或正确的情况，'Area'表示反映在训练中的伪标签比例。如图所示，错误伪标签的面积从0.753降低到0.457（-0.296），而真实伪标签的面积从0.976几乎保持不变，从0.942降低到0.034）。04.3.消融研究0我们在本节中报告了消融研究和超参数设置的实验。所有实验都使用ResNet-50和DeepLabv3+进行分割网络。每个组件的有效性。我们进行消融研究，以研究我们提出的方法中每个组件的贡献。所有消融实验都在PASCALVOC验证集的1/8和1/4划分协议下进行，表4显示了结果。我们使用仅使用有监督损失训练的模型作为基准，分别在1/8和1/4的标记数据比例下达到了68.2%和70.4%的mIoU。在1/8划分（1/4划分）下，利用无监督损失而不使用PGCL将基准提高了4.9%（3.7%）。仅应用提出的改进方案甚至使性能从73.1%下降到72.8%。这被认为是由于缺乏对困难样本的训练所致，如第3.2节所述。在应对这一限制的过程中，提出的PGCL大大超过了仅应用无监督损失和基准的情况。此外，该表还显示了提出的方法在使用CutMix增强时有效地提高了性能。0表5.在不同损失组件中对我们的PGCL有效性的消融研究。Lcons和Lcont分别表示公式（8）和（9）中的一致性正则化损失和像素级对比损失。0表6.在自步进函数（公式（7））中的不同β max 和σ下在PASCALVOC验证集上的性能（mIoU）。0(a) PASCALVOC（b）Cityscapes图5.在不同修剪比率下训练集的像素级准确度。“基准”表示未应用网络修剪的结果，即“基准”的修剪比率等于零。0不同损失函数的消融研究。表5显示了在不同损失组件（一致性正则化损失L cons 和像素级对比损失L cont）上的mIoU性能。实验在PASCALVOC上进行，比例为1/8。'Conf.'和'Ours'分别表示使用通过softmax概率估计的置信度得分和我们提出的得分的不同过滤方法。在L cons的情况下，应用我们的方法使性能提高了0.3%，而在L cont的情况下，性能提高了1.1%。由于提出的方法考虑了特征空间中的相似性，它表明我们的方法在对比学习中更有效，对比学习直接学习嵌入特征之间的相似性。超参数的消融研究。表6显示了在自步进函数（公式（7））中的两个超参数βmax 和σ（β max固定为0）的网格搜索结果。实验在PASCALVOC验证集上使用1/8划分进行。可以看出，我们发现βmax = 1.0和σ =0.3可以取得最佳结果，因此在所有其他实验中采用这些值。此外，为了设置适当的修剪比率，我们研究了在PASCALVOC和Cityscapes的训练集上使用1/8和1/4划分协议的不同修剪比率下的像素级准确度。我们将修剪比率设置为0.6。59210图像真值基线 CAC [26] CPS [6] ELN [25] 我们的方法0图6. PASCAL VOC 2012验证集上PGCL方法与之前最先进方法的定性结果对比。“基线”表示仅在标记数据集上进行监督训练的结果。为了公平比较，所有模型都使用1/8的数据进行训练。0图像真值预测置信度我们的方法0图7. PASCAL VOC2012验证集上置信度阈值法和我们的PGCL方法之间伪标签质量的定性结果对比。所有预测都是由经过10个时期训练的网络（总共80个时期）使用1/8的数据估计得出的。白色区域表示未分配为伪标签的像素，即它们的得分低于预定义的阈值（0.7）。0为了尽可能减少权重并保持训练集的性能，我们将剪枝率设置为0.5，分别在PASCALVOC和Cityscapes数据集上进行了实验。定性结果。图6展示了我们提出的PGCL方法与当前最先进的方法[26, 6,25]和基线方法（即仅在标记数据集上进行监督训练）在PASCALVOC验证集上的定性结果对比。为了公平比较，所有模型都由DeepLabv3+解码器和ResNet-50骨干网络组成，并使用1/8的数据进行训练。可以看到，我们的PGCL方法的结果通常优于其他方法。为了分析伪标签的质量，我们进一步展示了PASCAL VOC验证集上使用置信度阈值法[1, 54, 36,38]和我们的PGCL方法进行的一些定性伪标签结果。该图表明，与置信度阈值法相比，我们的方法有效地抑制了学习噪声伪标签的情况。05. 结论0在本文中，我们提出了一种新颖的修剪引导课程学习方法，用于半监督语义分割。0为了解决早期训练阶段置信度分数的不确定性，我们的方法通过反映从原始网络和修剪网络提取的特征在相同像素上的相似性来改进分数。通过这种方法，我们的方法通过防止学习难以信任的噪声伪标签有效地提高了伪标签的质量，这是由于训练不足而难以信任的。据我们所知，这项研究是首次利用网络修剪来进行半监督语义分割中无标签数据的稳健学习。大量实验证明我们的方法优于之前最先进的方法。06. 致谢0本工作得到了韩国政府（MSIT）信息与通信技术规划评估研究所（IITP）资助（编号2019-0-00079，韩国大学人工智能研究生院计划，编号2022-0-00984，个性化即插即用解释和解释验证的人工智能技术开发）59220参考文献0[1] Inigo Alonso, Alberto Sabater, David Ferstl, Luis Monte-sano, and Ana C Murillo.基于像素级对比学习的半监督语义分割.在计算机视觉国际会议（ICCV）中的论文集，2021年。0[2] Eric Arazo, Diego Ortego, Paul Albert, Noel E O’Connor,and Kevin McGuinness. 伪标签和深度半监督学习中的确认偏差.在神经网络国际联合会议（IJCNN）中的论文集，2020年。0[3] Yoshua Bengio, J´erˆome Louradour, Ronan Collobert,and Ja- son Weston. 课程学习.在机器学习国际会议（ICML）中的论文集，2009年。0[4] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:使用深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能交易（TPAMI），2017年。0[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.具有空洞可分离卷积的编码器-解码器用于语义图像分割。在欧洲计算机视觉会议（ECCV）中，2018年。0[6] Xiaokang Chen, Yuhui Yuan, Gang Zeng, and JingdongWang.基于交叉伪监督的半监督语义分割。在IEEE计算机视觉与模式识别会议（CVPR）中，2021年。0[7] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集。在IEEE计算机视觉与模式识别会议（CVPR）中，2016年。0[8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei.ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉与模式识别会议（CVPR）中，2009年。0[9] Mark Everingham, Luc Van Gool, Christopher KI Williams,John Winn, and Andrew Zisserman.Pascal视觉对象类别（VOC）挑战。《国际计算机视觉杂志》（IJCV），2010年。0[10] Jonathan Frankle and Michael Carbin.赢家彩票假设：寻找稀疏、可训练的神经网络。在国际学习表示会议（ICLR）中，2018年。0[11] Jonathan Frankle, Gintare Karolina Dziugaite, Daniel MRoy, and Michael Carbin.稳定赢家彩票假设。arXiv预印本arXiv:190

下载后可阅读完整内容，剩余1页未读，立即下载