半监督语义分割的均值教师提高了预测准确性的方法

91 浏览量更新于2023-10-25 收藏 13.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1/161/81/41/2(ratio)6466687072747678(mIoU)CPS[9]GCT[21]CAC[22]CCT[33]OursFeature Perturb.Perturb. Lossdata distribution. The challenge is how to extract additionaland useful training signal from the unlabelled images to al-low the training of the model to generalise beyond the smalllabelled set.Current state-of-the-art (SOTA) semi-supervised seman-tic segmentation models are based on consistency learning,which enforces the agreement between the outputs from dif-ferent views of unlabelled images [9,14,34,44]. These dif-ferent views can be obtained via perturbations applied to theinput image with data augmentation [44] or to the featurespace with noise injection [34]. Another way of obtainingdifferent views is with network perturbation, which encour-ages similar predictions between multiple models trainedfrom different initialization, and has been shown to enablebetter consistency regularization than input image and fea-ture perturbations [9, 21]. One potential weakness of con-sistency learning is that it assumes accurate predictions forunlabelled images, such that the perturbation does not pushthe image feature to the wrong side of the true (hidden)classification decision boundary.Unfortunately, in prac-42580扰动和严格均值教师用于半监督语义分割0Yuyuan Liu 1 Yu Tian 1 Yuanhong Chen 1 Fengbei Liu 10Vasileios Belagiannis 2 Gustavo Carneiro 101 澳大利亚阿德莱德大学机器学习研究所 2 德国乌尔姆大学0摘要0使用输入图像、特征或网络扰动的一致性学习在半监督语义分割中显示出了显著的结果，但这种方法可能会受到未标记训练图像的不准确预测的严重影响。这些不准确预测的结果有两个后果：1）基于“严格”交叉熵（CE）损失的训练很容易过拟合预测错误，导致确认偏差；2）应用于这些不准确预测的扰动将使用潜在错误预测作为训练信号，降低一致性学习的效果。在本文中，我们通过均值教师（MT）模型的新扩展来解决一致性学习方法的预测准确性问题，其中包括一个新的辅助教师，并用更严格的置信度加权交叉熵（Conf-CE）损失替代MT的均方误差（MSE）。这个模型的准确预测使我们能够使用具有挑战性的网络、输入数据和特征扰动的组合来改善一致性学习的泛化能力，其中特征扰动包括新的对抗扰动。公共基准测试结果显示，我们的方法在该领域超过了先前的SOTA方法。1我们的代码可在https://github.com/yyliu01/PS-MT找到。01. 引言0语义分割是一项重要的像素级分类任务，在近年来取得了显著的成功。然而，这样的任务的训练被认为是数据密集型的，其中标注过程特别昂贵和耗时[34]。为了解决这个限制，半监督语义分割已经成为一个重要的研究方向，近年来引起了越来越多的关注[9, 21,34]。这个问题依赖于一小部分像素级标记图像和一大部分未标记图像，这两种类型的图像都来自于相同的数据分布。挑战在于如何从未标记的图像中提取额外且有用的训练信号，以使模型的训练能够超越小的标记集。当前最先进的半监督语义分割模型基于一致性学习，它强制要求不同视图的未标记图像的输出达成一致[9, 14, 34,44]。这些不同的视图可以通过对输入图像进行数据增强[44]或对特征空间进行噪声注入[34]来获得。获得不同视图的另一种方式是进行网络扰动，这鼓励从不同初始化训练的多个模型之间产生相似的预测，并且已经显示出比输入图像和特征扰动更好的一致性正则化效果[9,21]。一致性学习的一个潜在弱点是它假设未标记图像的预测准确，以使扰动不会将图像特征推向真实（隐藏）分类决策边界的错误一侧。不幸的是，在实践中，这种假设经常不成立。01 由澳大利亚研究委员会通过DP180103232和FT190100525资助。0网络扰动0输入0Conf-CE0图1.在(a)中，我们将我们的方法（红星）与基于增强集合[16]的不同分区协议下的当前SOTA在Pascal VOC2012上进行了比较，(b)显示了我们基于一致性的模型的简单图示，该模型包括两个均值教师（由编码器t(1) enc.和t(2) enc.以及解码器t(1)dec.和t(2)dec.表示）为未标记的图像xu生成准确的分割图和学生（编码器senc.和解码器sdec.），其中使用三种扰动（网络、特征和输入图像）来最小化我们严格的Conf-CE损失。42590实践中，SOTA方法并不总是满足这个假设，这使得一致性学习方法的训练信号可能是不正确的。这个问题对于基于网络扰动的一致性学习尤为严重，因为一个模型的错误预测会恶化另一个模型的训练，反之亦然。这些不准确的预测的另一个后果是，依赖于“严格”的交叉熵（CE）损失的一致性学习方法很容易过拟合预测错误，这可能导致确认偏差。在本文中，我们通过扩展均值教师（MT）模型[9, 14, 21,37]，引入一个新的辅助教师，并用更严格的置信度加权交叉熵损失（Conf-CE）替代MT的均方误差（MSE）损失来解决一致性方法的预测准确性问题，这样可以更好地训练收敛。这些准确的预测使得可以使用更具挑战性的扰动，结合输入图像、特征和网络扰动，以提高一致性学习的泛化能力。此外，我们提出了一种新型的对抗性特征扰动，使用来自教师模型的虚拟对抗训练[33]学习应用于学生模型的扰动，而不是在图像特征中注入不同类型的噪声[34]。总结起来，我们的贡献是：0•设计了一种新的基于一致性的半监督语义分割MT模型，通过引入一个新的辅助教师和用更严格的置信度加权交叉熵损失（Conf-CE）替代MT的均方误差（MSE）损失，提高了未标记训练图像的分割准确性；0•一种新的具有挑战性的输入数据、特征和网络扰动的组合，以提高模型的泛化能力；和0•一种新型的特征扰动类型，称为T-VAT，基于从我们MT模型的两个教师学习的对抗性噪声，并应用于学生模型，从而产生具有挑战性的噪声，促进学生模型的有效训练。0我们的实验评估表明，我们的方法在Pascal VOC 2012[12]上取得了最好的结果。我们的方法在Cityscapes[10]上也表现最好。02. 相关工作0下面，我们首先讨论监督语义分割，然后是半监督学习，然后我们描述伪标签和基于一致性的SSL方法。监督语义分割包括将所有图像像素分类为一组封闭的视觉类别。当前0模型基于全卷积神经网络（FCN）[2, 30,32]和探索以下扩展：1）图像的多尺度特征[11,29]，2）金字塔特征图[15, 17, 43]，3）扩张卷积[6, 8,40]，和4）注意力机制[7,27]。SOTA半监督语义分割模型依赖于监督语义分割模型DeeplabV3+ [5]和PSPNet[43]作为骨干架构。半监督学习（SSL）使用有标签和无标签的图像训练模型。当前的SSL解决方案基于三个假设[38]：1）平滑性：相似的图像具有相似的标签；2）低密度：决策边界不通过特征空间的高密度区域；3）流形：嵌入在特征空间中的相同低维流形上的样本具有相同的标签。SSL方法可以松散地分为基于伪标签的SSL [1, 3,36]和基于一致性的SSL [23, 35,37]，前者的准确性通常比后者差。我们认为这是因为伪标签方法在训练过程中忽略了部分无标签训练集，这可能降低了它们的泛化能力。下面，我们重点关注基于一致性的SSL，因为它在公共基准测试中具有更高的准确性。基于一致性的SSL方法旨在强制未标记图像的扰动预测之间的一致性，其中扰动可以应用于输入图像、特征表示或网络。一致性-basedSSL的有效性取决于未标记图像的预测准确性和用于挑战模型训练的扰动。一般来说，更具挑战性的扰动可以改善泛化能力，但如果将此扰动应用于不准确的预测，可能会导致一致性方法从错误的标签中学习。预测准确性可以通过多种方式改善，但简单的模型集成策略[23,37]是一种常见的方法。扰动可以应用于输入图像[44]、特征表示[34]或网络[9,21]。无论如何应用，扰动在挑战分类过程时往往更有效，例如通过将扰动特征移动到真实（但隐藏）分类边界附近，例如虚拟对抗训练（VAT）[33]。基于一致性的半监督语义分割方法比伪标签方法显示出更具竞争力的结果[9, 14,34]。在SOTA基于一致性的半监督语义分割方法中，PseudoSeg[44]依赖于一种新的伪标签策略和数据增强一致性训练来校准伪标签，但其依赖于通常不准确的类激活图可能导致训练性能不佳。交叉一致性训练（CCT）[34]应用不同类型的特征扰动来强制stop gradient3.1. Multiple Mean Teachers and Student Models42600强0增强0T-VAT0弱增强0图2.我们方法的示意图。未标记图像xu对于均值教师（由θt1,t2h参数化的编码器和由θt1,t2g参数化的解码器）进行弱数据增强，共同预测分割˜yu。同一未标记图像对于学生（具有θsh编码器和θsg解码器）进行强数据增强，在预测分割ˆyu之前遭受T-VAT特征扰动。未标记图像的这个预测和标记图像xl的预测ˆyl（也经过T-VAT扰动）用于最小化一致性损失ℓcon(.)和监督损失ℓsup(.)，分别用于训练学生。均值教师使用学生模型的EMA进行训练。0它们的语义分割结果与非扰动特征的分割之间的一致性。虽然CCT中使用的特征扰动是有效的，但更有针对性和准确的对抗性噪声可以更有助于一致性正则化。其他方法已经探索了网络扰动[9, 13, 21,31]，其中在不同初始化的模型的响应之间强制执行一致性。扰动模型依赖于模型产生准确分割结果的能力，正如上面提到的，这种能力可以通过使用模型集成[37]来提高。French等人[14]探索了模型集成[37]以及网络扰动和输入图像扰动[42]。这是与我们提议的方法最接近的方法之一，但我们添加了多个均值教师的更有效的模型集成，以及使用VAT[33]进行的新的对抗性特征扰动和使用CutMix [42]和ZoomIn/Out [7,28]数据增强进行的挑战性输入图像扰动。与[14]相比，我们的多个均值教师产生的更准确的分割结果使我们能够使用CE损失而不是[14]中使用的MSE来训练未标记图像的模型，从而提供更好的训练收敛性和准确性。03. 方法0在描述我们的模型和训练过程之前，我们介绍用于半监督语义分割的数据集。我们有一个小的标记训练集DL={(xi,yi)}|DL|i=1，其中xi∈X�RH×W×C是大小为H×W且具有C个颜色通道的输入图像，yi∈Y�{0,1}H×W×Y是分割图，其中Y表示视觉类别的数量。我们还有0提供了一个大型未标记训练集DU={xi}|DU|i=1，其中|DL|<<|DU|。这些数据集用于训练我们提出的带有辅助教师的MT模型，该模型在第3.1节中进行了描述。我们的新MT模型的训练包括网络、特征和输入图像扰动以及严格的Conf-CE损失，在第3.2节中进行了描述。0正如第1节所解释的，我们的目标是提高未标记训练图像的分割准确性。为了实现这一目标，我们提出了引入辅助教师的方法，探索双重集成过程的思想，以提高分割准确性，即教师模型的集成，每个模型代表学生模型的时间集成[37]。教师模型和学生模型具有相同的网络结构，由fθ：X→RH×W×Y表示，其中θ是模型参数。该模型分解为编码器hθh：X→Z和解码器gθg：Z→Y，其中Z�RZ表示维度为Z的特征空间。因此，fθ=gθg◦hθh，其中θ={θg,θh}。网络的概率输出通过对Y个类别应用逐像素softmax函数σ(.)来实现，如pθ(x)=σ(fθ(x))。多个均值教师-学生模型用相应的参数上标表示：θt1={θt1g,θt1h}和θt2={θt2g,θt2h}表示教师模型，θs={θsg,θsh}表示学生模型。03.2.使用多个扰动和严格的置信加权交叉熵损失进行训练0在本节中，我们介绍了使用置信加权的交叉熵损失的新MT模型的训练过程，该过程是↽↽gg (zs + radv)��,↽ℓ(µ(˜yi, ˜yj, m), pθs(µ(xi, xj, m))),(7)42610通过对网络、特征表示和输入图像进行扰动进行优化。训练。学生模型的完整训练损失为0ℓ（DL，DU，θs）= ℓsup（DL，θs）+ βℓcon（DU，θs），（1）0其中第一个损失是监督分割损失，定义为：0ℓsup（DL，θs）= 10|DL||Ω|�0（x，y）∈0ω∈Ωℓ（y（ω），pθs（x）（0（2）其中Ω是大小为H×W的图像格点，ℓ（.）表示注释y和从pθs（x）的分割预测之间的交叉熵损失在像素地址ω∈Ω处。（1）中的第二项是一致性损失，由置信加权的交叉熵损失（Conf-CE）表示，β∈R加权其贡献，其定义如下：0ℓcon（DU，θs）= 10|DU||Ω|�0x∈DU�0ω∈Ωc（ω）ℓ（˜y（ω），pθs（x）0（3）其中ℓ（.）表示交叉熵损失，ω表示分割图的输出格点Ω的像素地址，˜y（ω）∈{0，1}Y是ω处教师模型的分割预测，pθs（x）（ω）∈[0，1]Y是ω处学生模型的分割预测，c（ω）∈[0，1]表示ω处教师模型的分割预测置信度，在（4）中定义如下。网络扰动是从平均教师模型和学生模型的预测中获得的。由平均教师组成的软分割图估计为：0ˆy = σ（0.5 ×（fθt1（x）+ fθt2（x））），（4）0其中σ（.）表示softmax函数。由教师组成的硬分割预测，用˜y∈Y表示，在（3）中由从ˆy∈[0，1]H×W×Y计算得出的one-hot表示获得。在（3）中的分割预测置信度c（ω）通过c（ω）=˜y（ω）�ˆy（ω）×I（˜y（ω）�ˆy（ω）>τ）计算，其中I（.）表示指示函数，τ是一个最小置信度，以使c（ω）大于零。根据MT框架[37]，虽然学生模型通过随机梯度下降（SGD）来最小化（3）中的损失函数进行训练，但是两个教师模型都是使用指数移动平均（EMA）[37]和批归一化（BN）参数[4]进行训练的，其中：0θk = γ × θk + (1 − γ) × θs，（5）0其中k∈{t1，t2}，γ∈（0，1）控制着迁移权重在各个时期之间的转移。对于教师模型的训练，我们每个训练时期只更新两个教师中的一个的参数。特征扰动由具有挑战性的对抗性特征扰动组成，旨在违反0通过将从模型编码器计算得出的图像特征推向特征空间中的分类边界，我们采用了聚类或低密度假设[34,38]来产生这种对抗性特征噪声。一种有效的方法是使用虚拟对抗训练（VAT）[33]来优化扰动向量，以最大化正确分类和对抗分类之间的差异。目前的方法使用相同的单个网络来估计对抗噪声，其中一致性损失将被应用[34]。然而，在半监督语义分割中使用VAT来扰动MT的训练是新的，据我们所知。在MT模型中，可以将特征扰动应用于学生模型，但是考虑到它的预测比教师模型更不准确，这种方法可能不利于有效的训练。因此，我们建议使用更准确的教师来估计对抗噪声，然后将这个估计的噪声应用于学生模型的特征 -我们称之为特征扰动T-VAT。在（3）中用于损失的学生输出为pθs（x）=σ（gθsg（hθsh（x）+radv）），其中对抗性特征扰动radv∈Z是从教师模型集合的响应中估计得出的。0最大化 d � σ � 0 . 5 × ( g θ t 1 g ( z s ) + g θt 2 g ( z s )) � ,0满足 || r adv || 2 < = ϵ,0(6) 其中 z s = f θ s ( x ) ，d ( . )是原始像素预测和扰动像素预测之间的逐像素Kullback-Leibler（KL）散度的总和。输入图像的扰动基于弱-强增强对[24]，其中弱增强（图像翻转、裁剪和缩放）应用于要由教师模型处理的图像，并且除了这些弱增强之外，还将强增强[9，21]（例如，颜色抖动、随机灰度和模糊）应用于馈送给学生模型的图像，以提高整体泛化能力。在强增强之上，我们还将CutMix [42]和Zoom In/Out[7，28]数据增强应用于学生模型图像。如[14]中所定义，CutMix增强通过应用二进制掩码m ∈ {0，1} H ×W来使用函数µ(xi，xj，m) = (1−m)⊙xi +m⊙xj来组合两个图像。我们可以通过组合两个输入图像并最小化一致性损失（3）与（4）中的预测[9]（称为预测前的CutMix）来应用CutMix，或者我们可以使用图像及其预测的CutMix组合来最小化一致性损失，如0其中 ˜ y 在 ( 4 ) 中定义。在 ( 7 )中使用的扰动被称为预测后的CutMix，我们认为它ℓ(ζ(˜y, s), pθs(ζ(x, s))),(8)our approach.During training, we apply data augmentation with ran-dom scaling in {0.5, 0.75, 1.25} and random flipping ofboth labelled and unlabelled images. On Pascal VOC 2012,we crop images to 512 × 512 pixels for DeeplabV3+, trainfor 80 epochs with base learning rate set to 0.01, using batchsize 32, for both labelled and unlabelled images, follow-ing [9]. For PSPNet, we follow [18] and crop images to321 × 321 pixels and use batch size 8.On Cityscapes,due to hardware limitation, we crop images to 712 × 712pixels, train for 450 epochs with base learning rate set to0.0038 with batch size 8 for both architectures. Because theteacher’s predictions are unstable at the early stage of thetraining, we apply the Gaussian ramp-up to the consistencyloss weight β in (1). For both datasets, the supervised lossis the cross-entropy loss.Evaluation metrics. Following previous papers [9, 21],we report the mean Intersection-over-Union (mIoU) for val-idation set for both datasets. All the results are based on thesingle scale inference.42620与CutMix预测前相比，它的预测不包含CutMix图像的预测引入的伪影，因此对一致性损失产生了更干净的预测。ZoomIn/Out增强[7，28]由函数ζ(x，s)定义，该函数使用参数s∈R+来对图像进行缩放。对于教师模型的集成结果，图像的一致性损失在（3）中定义为0其中 ˜ y 在 ( 4 )中定义。先前基于一致性的半监督语义分割模型的分割损失ℓ(.)（例如[9，14]）通常基于L2损失。尽管L2损失被认为是鲁棒的，这在处理一致性方法产生的噪声预测时是有优势的，但它也被认为具有较差的收敛性，并且可能导致梯度消失。鉴于我们扩展的MT模型产生的分割预测的可靠性，我们改用更有效的交叉熵（CE）损失，该损失被限制在高置信度分割结果的区域计算，由（3）中的c(ω)表示，这是自训练方法中应用的策略[18，39，41]。推理。测试图像的语义分割是从教师模型中获得的，如（4）中所述。04. 实验0首先介绍我们用于评估我们方法的实验设置。在第4.2节中，我们通过将其与监督基线和其他先前的SOTA方法进行比较，演示了我们在不同分区协议下对两个数据集的方法。此外，我们还根据少量监督研究进行了详细的结果分析（第4.3节）。最后，我们在第4.4节进行了消融研究，并在第4.6节基于图像级数据的探索中进行了扩展实验。04.1. 实验设置0数据集。Pascal VOC 2012[12]是用于评估半监督分割模型性能的标准数据集。该数据集包含超过13,000个带有21个类别的图像，提供了1,464个带有像素级标签的训练图像，1,449个验证图像和1,456个测试图像。根据先前的论文[9，34]，我们采用了来自[16]的额外标签，我们的整个训练集包含10,582个图像。请注意，来自[16]的标签质量较低，可能包含噪声。Cityscapes[10]是城市驾驶场景数据集，包含2,975个用于训练的图像，500个用于验证，1,525个用于测试。数据集中的每个图像的分辨率为2,048×1,024，总共有19个类别。0根据[9, 21]，我们以不同的比例随机划分Pascal VOC 2012和Cityscapes的完整标记集.我们还提供了基于官方标记集的结果（对于Pascal VOC 2012，有1464张图像）[41, 44].实现细节. 大多数结果都是基于我们的方法来训练DeeplabV3+ [5]模型的.我们加载了ImageNet预训练的检查点，并随机初始化分割头. 根据之前的论文[9, 18,34]，我们使用以下多项式学习率衰减: (1 - iter / max_iter) ^ 0.9. 我们还在PSPNet [22,34]上测试了我们的方法，以展示我们方法的泛化性能.在训练过程中，我们应用数据增强，包括在标记和未标记的图像上进行随机缩放（0.5, 0.75,1.25）和随机翻转. 在Pascal VOC2012上，我们将图像裁剪为512×512像素，使用基本学习率为0.01，在32个批次中进行DeeplabV3+的训练，对于标记和未标记的图像都是如此，遵循[9].对于PSPNet，我们遵循[18]，将图像裁剪为321×321像素，并使用批次大小为8.在Cityscapes上，由于硬件限制，我们将图像裁剪为712×712像素，使用基本学习率为0.0038，在450个批次中进行两种架构的训练.由于在训练的早期阶段，教师的预测结果不稳定，我们在一致性损失权重β（1）上应用了高斯斜坡. 对于这两个数据集，监督损失是交叉熵损失. 评估指标. 根据之前的论文[9,21]，我们报告了验证集的平均交并比（mIoU）作为评估指标，对于这两个数据集都是如此.所有结果都是基于单尺度推断.04.2. 不同分区协议上的结果0在本节中，根据[9,21]，我们基于子采样的方式对数据集进行评估，其中标记集的比例为1/n，未标记集的比例为(1-1/n).具体而言，在Pascal VOC2012数据集中，我们将整个训练集（共10582张图像）按照1/16, 1/4, 1/8, 1/2的比例划分为标记集.在Cityscapes中，我们同样使用1/8, 1/4,1/2的比例划分为标记集. 所有的分区协议都来自于[9].相对于监督基线的改进.我们首先将我们的结果与完全监督学习（使用相同比例的标记集进行训练）使用DeepLabV3+架构进行比较，并在图3中展示了改进的情况.这个图表显示了我们的方法成功利用了未标记的数据，取得了显著的性能提升. 在Pascal VOC2012上，图3-(a)显示了我们的方法在小标记分区上与完全监督基线相比有很大的优势.具体而言，在1/16的比例（662个标记图像）下，我们的方法在ResNet50和ResNet101上分别超过了完全监督基线6.01%和5.97%. 在另一组-646)1/2(5291)MT* [37]66.7770.7873.2275.4170.5973.2076.6277.61French et al.* [14]68.9070.7072.4674.4972.5672.6974.2575.89CCT* [34]65.2270.8773.4374.7567.9473.0076.1777.56GCT* [21]64.0570.4773.4575.2069.7773.3075.2577.14ECS [31]-67.3870.7072.89----CPS [9]71.9873.6774.9076.1574.4876.4477.6878.64CAC [22]70.1072.4074.00-72.4074.6076.30-1/161/81/41/2646668707274767880VOC (resnet-50)Sup. OnlyOurs1/161/81/41/2646668707274767880VOC (resnet-101)Sup. OnlyOurs1/81/41/2707274767880CityScapes (resnet-50)Sup. OnlyOurs1/81/41/2707274767880CityScapes (resnet-101)Sup. OnlyOurs42630表1. 在Pascal VOC 2012上与SOTA的比较. 所有方法都基于DeeplabV3+架构，在不同的分区协议[9]下进行. �表示由[9]重新实现的方法.最佳结果以粗体显示.0方法 ResNet-50 ResNet-1010我们的方法 72.83 75.70 76.43 77.88 75.50 78.20 78.72 79.760表2.在不同分区协议下，与Cityscapes上的SOTA方法进行比较。所有方法都基于DeeplabV3+。†表示实验设置（例如，有监督损失、分辨率）遵循CPS [ 9 ]。0方法骨干 1/8 1/4 1/20ECS [ 31 ] ResNet50 67.38 70.70 72.890CAC [ 22 ] ResNet50 69.70 72.70 -0我们的ResNet50 74.37 75.15 76.020我们的（滑动评估）ResNet50 75.76 76.92 77.640ResNet101 76.89 77.60 79.090GCT [ 21 ] † ResNet50 71.33 75.30 77.090CPS [ 9 ] † ResNet50 76.61 77.83 78.770我们的† ResNet50 77.12 78.38 79.220此外，我们的方法在1/8、1/4和1/2的比例下也表现出一致的改进，改进幅度在2%到5%之间。在Cityscapes上，我们使用滑动评估方法按照[9]的方法评估我们的最终结果。图3-(b)显示，我们的方法在所有协议下，对于ResNet50和ResNet101，超过有监督基线的2%到6%。与SOTA的比较。对于Pascal VOC 2012，表10结果表明，我们的方法在所有分区协议下，使用DeepLabV3+和ResNet50和ResNet101骨干是最好的。与French等人[14]相比，我们的方法在所有情况下提高了3%到6%。我们的方法还在所有情况下对原始MT提供了显著的提升。结果还表明，我们的方法比当前的SOTA CPS [ 9]在所有情况下提高了约1%到2%。在某些分区协议中，我们的方法比使用更少标记样本的CPS [ 9]更好。例如，我们的方法使用1,323个标记图像训练，优于使用2,646个标记图像训练的CPS [ 9]，使用了两种骨干。这表明，我们的扰动和严格的meanteachers比领域中的任何其他方法都能产生更准确的结果。在Cityscapes上，我们使用[22]的设置，并展示使用类似设置（图像分辨率、批量大小和有监督损失函数）进行公平比较的结果。我们的方法在1/8和1/4分区协议下，比CAC [ 22]分别提高了近4.6%和2.4%。滑动评估0（a）Pascal VOC 2012数据集0（b）Cityscapes数据集0图3. 在Pascal VOC2012（顶部）和Cityscapes（底部）上使用ResNet50和ResNet101骨干和DeepLabV3+的分区协议结果与有监督基线的mIoU对比。0滑动过程还使我们的性能提升了约1.30%，适用于所有比例。这表明滑动过程改善了我们的方法在大分辨率图像中的性能。04.3. 在Pascal VOC 2012官方标记集上的结果0在本节中，我们基于Pascal VOC2012的官方1,464个高质量标记数据报告结果。我们比较了我们的PSPNet和DeepLabV3+架构的方法。表3显示，我们的方法在每种架构和骨干设置下都优于SOTA方法。对于PSPNet，我们的方法比DARS [ 18 ]高0.7%的mIoU，比CCT[ 34]高5.19%。在实验中，我们的方法在各种情况下都优于其他SOTA方法。Yuan等人[41]只有0.760.770.781/42/43/40.730.740.750.760.770.78CutMix after Pred.CutMix before Pred.42640表3. 在不同网络设置下，使用Pascal VOC2012官方（1,464张）标记图像进行比较。最佳结果以粗体显示。0方法架构骨干 mIoU0CCT [ 34 ] PSPNet ResNet50 69.400DARS [ 18 ] PSPNet ResNet50 73.890我们的PSPNet ResNet50 74.590CAC [ 22 ] DeeplabV3+ ResNet50 74.500我们的DeeplabV3+ ResNet50 78.080PseudoSeg [ 44 ] DeeplabV3+ ResNet101 73.200Yuan等人[41] DeeplabV3+ ResNet101 75.000我们的 DeeplabV3+ ResNet101 80.010表4. 使用官方（1,464）标记图像在Pascal VOC2012上进行少监督的SOTA方法比较。我们的方法遵循CPS[9]和PseudoSeg [44]的相同协议。最佳结果以粗体显示。0方法 732 366 183 920AdvSemSeg [20] 65.27 59.97 47.58 39.690CCT [34] 62.10 58.80 47.60 33.100MT [37] 69.16 63.01 55.81 48.700GCT [21] 70.67 64.71 54.98 46.040VAT 63.34 56.88 49.35 36.920French等人[14] 69.84 68.36 63.20 55.580PseudoSeg [44] 72.41 69.14 65.50 57.600CPS [9] 75.88 71.71 67.42 64.070我们的 78.42 76.57 69.58 65.800利用单个网络以自我训练的方式生成伪标签。例如，我们的方法相对于Yuan等人[41]的mIoU提高了5.01%，这显示了我们的教师和学生网络以及几种扰动策略的价值，与他们的自我训练单个网络方法相比。少监督研究。我们使用官方的1/2、1/4、1/8和1/16分区对1,464个标记图像进行子采样。剩余的数据与增强集合[16]（约9K个图像）结合在一起，作为实验中的无标签数据。表4显示了我们的方法在所有情况下都取得了最好的mIoU结果。例如，我们的方法相对于CPS[9]在366个标记图像上提高了4.86%。我们认为我们的有效扰动使得我们的模型在有限的标记数据条件下更好地泛化。04.4. 消融研究0在本节中，我们研究了我们方法中置信度加权的CE损失（conf-CE）、T-VAT扰动和辅助教师（AT）的作用。所有实验都在Pascal VOC2012上以1/8的比例运行，并使用DeeplabV3+评估我们的结果。表5展示了上述每个组件的改进效果。0表5. 在DeeplabV3+架构下使用1/8标记比例在Pascal VOC2012上进行消融研究。0MT conf-CE T-VAT AT 主干网络0ResNet-50 ResNet-1010� 71.49 73.500� � 73.79 76.390� � � 74.87 77.360� � � � 75.70 78.2000.79（mIoU）0原始均匀vat t-vat0（epochs）0（mIoU）0图4.T-VAT和CutMix扰动的有效性。（a）不同特征扰动下的mIoU。（b）在训练期间应用CutMix之前或之后的验证集mIoU，如（7）中所述。0我们使用了在第3.2节中使用输入图像扰动训练的MT[37]，并使用MSE损失作为基准。我们注意到，将MSE替换为我们的conf-CE可以将mIoU提高2.30%和2.81%，对于ResNet50和ResNet101来说，T-VAT扰动可以提高近1%的性能，显示了我们提出的特征扰动的有效性。辅助教师的更准确预测进一步提高了两个主干网络的性能，分别提高了0.83%和0.84%。T-VAT扰动。图4-(a)展示了不同类型的特征扰动的性能，包括：原始（无特征扰动）、均匀（从均匀分布中随机采样的特征噪声）、vat（从学生模型中学习到的VAT噪声）、t-vat（从教师模型中学习到的T-VAT噪声，如（6）中所述）。我们提出的T-VAT相对于均匀和VAT扰动分别提高了0.93%和0.62%，此外，它还超过了原始结果1.10%。CutMix在预测之前或之后的实证结果，如（7）中所述。在图4-(b)中，我们展示了训练时验证集上的mIoU结果。在预测之前应用CutMix可能会引入额外的语义复杂性，并导致不准确的伪标签，从而导致优化无效。相反，结果表明，在预测之后应用CutMix可以将mIoU提高约3%。MSE和Conf-CE之间的平均梯度幅度差异。图5显示了在训练的最后阶段（80个中的第70个）使用MSE和Conf-CE损失优化一致性后，学生模型每层的平均梯度幅度。0.000.010.020.030.04ℓcam(DU, θs) =1(1 − c(ω))ℓ(¯y(ω), fθs(x)(ω)),4265

下载后可阅读完整内容，剩余1页未读，立即下载