基于不确定性引导的交叉头共训练用于半监督语义分割

110 浏览量更新于2023-10-25 收藏 21.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

99470UCC：基于不确定性引导的交叉头共训练用于半监督语义分割0范佳硕1高斌2金欢2姜立辉2*01清华大学深圳研究院，清华大学2华为诺亚方舟实验室0摘要0深度神经网络（DNNs）在语义分割方面取得了巨大的成功，这需要大量标记数据进行训练。我们提出了一种新的学习框架，称为基于不确定性引导的交叉头共训练（UCC），用于半监督语义分割。我们的框架在共享编码器内引入了弱增强和强增强，以实现共训练，自然地结合了一致性和自训练的优势。每个分割头与其同行进行交互，弱增强结果用于监督强增强。动态交叉集复制粘贴（DCSCP）可以通过增加一致性训练样本的多样性来提升，同时也缓解了分布不匹配和类别不平衡问题。此外，我们提出的不确定性引导的重新加权模块（UGRM）通过建模不确定性来抑制来自同行的低质量伪标签的影响，从而增强了自训练的伪标签。在Cityscapes和PASCAL VOC2012上进行的大量实验证明了我们的UCC的有效性。在1/16协议下，我们的方法在Cityscapes和PASCAL VOC2012数据集上分别取得了77.17％和76.49％的mIoU，比监督基线提高了10.1％和7.91％。01. 引言0图像语义分割是计算机视觉领域的一个重要热门话题，可以应用于自动驾驶[24]、医学图像处理和智慧城市。在过去的几年中，基于深度神经网络（DNNs）的语义分割方法取得了巨大的进展，例如[3, 5, 20,30]。然而，这些方法中大多数涉及像素级手动标注，这是非常昂贵和耗时的。为了有效利用未标记图像，基于一致性正则化的方法已经广泛应用于0*通讯作者：jianglihui1@huawei.com0半监督学习[11, 18,27]。它通过计算输出之间的差异作为损失函数，促使网络对不同增强的相同未标记图像生成类似的预测。其中，数据增强通常用于一致性正则化，通过设计搜索空间来提供一组数据增强策略[29,36]。此外，Fix-Match[26]通过对弱和强增强生成的预测施加一致性约束来展示其有效性。尽管一致性正则化取得了成功，但我们发现网络性能在高数据情况下往往达到瓶颈。另一种半监督学习方法是自训练，它可以充分利用大量数据。它将来自分割模型的未标记图像上的伪标签纳入其学习过程，并使用标记和未标记数据重新训练分割模型。然而，传统的自训练过程具有固有的缺点：伪标签的噪声可能会累积并影响整个训练过程。作为自训练的扩展，共训练[23,42]让多个个体学习者相互学习，而不是归结为自身。为了充分利用一致性正则化和共训练的优点，我们提出了一种融合弱增强和强增强的交叉头共训练学习框架。通过比较多个模型，我们可以通过共享编码器实现最小额外参数的共训练，该编码器对不同的学习者施加约束，避免它们朝相反的方向收敛。我们的方法还受益于学习者的多样性。如果缺乏多样性，共训练将变为自训练，对于缺乏多样性的相同预测进行一致性训练也没有意义。多样性本质上来自强增强函数的随机性（两个头的未标记示例经过不同的增强和伪标记）和不同学习者的初始化。复制粘贴（CP）也是提高训练样本多样性的另一种替代方法，最近的研究[42]证明了其有效性。然而，普通的CP由于两个问题而具有固有的缺点。第一个问题是标记数据和Semi-supervised classification. Semi-supervised classifi-cation methods mainly pay attention to consistency train-ing by combining a standard supervised loss and an unsu-pervised consistency loss to make predictions of unlabeledsamples consistent under different perturbations. For ex-ample, Temporal Ensembling [18] expects current and pastepochs predictions to be as consistent as possible. Meanteacher [27] modifies Temporal Ensembling via using theaverage of model weights by Exponential Moving Average(EMA) over training steps and tends to produce a more ac-curate model instead of directly using output predictions.Dual Student [17] further extends the Mean Teacher modelby replacing the teacher with another student.Other studies like S4L [38] explore a self-supervisedauxiliary task (e.g., predicting rotations) on unlabeled im-ages jointly with a supervised task. MixMatch [1] produces99480未标记数据。第二个问题是类别不平衡问题，大多数当前的语义分割数据集[7,9]包含长尾类别。通过将Copy-Paste（CP）扩展为动态交叉集Copy-Paste（DCSCP），我们的方法不仅可以提高一致性训练样本的多样性，还可以减少两个集合样本之间的不对齐，并通过保留长尾样本来解决类别不平衡问题。同时，为了减少自训练带来的噪声预测的负面影响，我们应用了不确定性引导的重新加权模块（UGRM）来动态地给可靠样本更多权重，同时抑制自训练中的噪声伪标签。通过将数据增强策略与不确定性重新加权模块相结合，我们开发了基于不确定性引导的交叉头部共同训练方法，自然地结合了一致性和共同训练。在Cityscapes和PASCAL VOC2012两个基准测试上的各种设置的实验结果表明，所提出的方法在半监督分割性能方面达到了最先进的水平。我们的贡献可以总结如下：•我们提出了一种新颖的框架UCC，将弱增强和强增强引入交叉头部共同训练框架。通过共享模块，我们可以进一步提高泛化能力，并从两个不同视角学习更紧凑的特征表示。•提出了一种名为DCSCP的方法，通过增强一致性训练样本的多样性，同时减少分布不对齐和解决类别不平衡问题。此外，我们提出了UGRM来处理自训练带来的伪标签噪声。•我们在Cityscapes和PASCAL VOC2012数据集上验证了所提出的方法，与所有标记数据比例相比，显著优于其他最先进的方法。02. 相关工作0使用Mixup [39]生成的增强标记和未标记样本。FixMatch[26]利用同一未标记图像的弱增强视图和强增强视图之间的一致性正则化来进行单阶段训练。半监督语义分割。受到图像分类领域SSL方法的最新进展的启发，一些工作探索了半监督学习在语义分割中的应用，并展示了有希望的结果。半监督语义分割的初步工作[15,21]倾向于利用生成对抗网络（GANs）[8]作为未标记数据的辅助监督信号，其中判别器判断生成的预测是否模仿真实分割掩码的常见结构和语义信息。对比学习等替代方法也显著出现。ReCo[19]在对比框架下为语义类别提供相关性。PC2Seg[40]利用图像增强和特征空间对比特性之间的标签空间一致性属性。C3-SemiSeg[41]通过计算像素级特征的损失实现对比学习，并采用样本策略来处理噪声标签，通过类别的ema阈值。一致性正则化方法在半监督语义分割中也常被使用。CCT[22]引入了特征级扰动，并强制不同解码器的预测保持一致。GCT[16]通过使用两个不同初始化的分割模型进行网络扰动，并鼓励两个模型的预测保持一致。GuidedMix-Net [28]在[11,39]的基础上构建，并强制混合预测和混合输入的预测彼此保持一致。通过伪标签进行自训练是一个经典的方法，起源于十年前，将最可能的类别作为伪标签，并在未标记数据上训练模型，这是一种常用的实现最小熵的方法。它最初用于分类任务[2, 25, 33,35]。最近，它已经广泛应用于半监督语义分割任务，例如[10, 37,38]。[10]根据两个不同初始化模型的不一致性重新加权不同区域上的损失。[38]在重新训练阶段选择和优先处理易于可靠的图像以利用未标记图像。[37]采用大量增强来实现高性能。尽管有许多旨在利用标记和未标记数据来改善模型性能的策略[12]，但很少讨论标记和未标记数据分布不匹配的问题。实际上，标记数据的经验分布往往偏离真实样本的分布[31]，当存在相当大的分布不匹配时，模型的性能将显著降低。除此之外，长尾类别分布也是一个问题。Head 2Pred1,weak Pred1,strongPred1,weakPred2,weakPred2,strongPred2,weak 99490有标签数据0真值0真值0无标签数据0前向操作0损失监督0点积0停止梯度0硬伪标签0弱增强0强增强0弱增强01个头0sup0Y0unsup0sup0Y0UGRM0unsup0UGRM0Y0图1.我们的不确定性引导交叉头共同训练的概述。在我们的方案中，我们以头1为例，弱增强的标签数据将通过共享模块和相应的分割头1生成Pred1,weak'，然后它将由真值（GT）进行监督。对于无标签数据，弱增强的图像被输入到共享模块和相应的分割头1中生成Pred1,weak。与Pred1,weak'不同，Pred1,weak用于对来自另一个头的强图像预测的监督信号Pred2,strong，反之亦然。此外，为了进一步减少噪声标签的影响，在获得无监督损失Lunsup之后，我们加入了UGRM来解决伪标签的噪声问题。0在半监督语义分割中，分布不均衡是一个常见问题。在半监督语义分割中，很少有关于这个问题的研究[14,32]，而[32]介绍了一种用于不平衡类别的自训练框架。[14]提出了一种框架，通过使用动态置信度库来鼓励对性能较差的类别进行充分训练。03. 带交叉头共同训练的半监督学习0在本节中，我们介绍了提出的UCC框架的概述，在第3.1节中介绍了我们的弱和强数据增强策略。此外，我们在第3.3节中提出了一种动态的复制粘贴与跨集数据混合策略。最后，在第3.4节中进一步介绍了一种基于不确定性引导的损失重新加权模块。03.1. 概述0图1是我们交叉头架构的可视化。图像被输入到共享的CNN骨干网络中，然后是两个相同的分割头。与使用单独的模型相比，交叉头可以学习到紧凑的特征，并进一步提高泛化能力。对于有标签的图像，我们计算GT和相应弱版本预测之间的监督损失Lsup。对于无标签的图像，伪标签是通过弱增强的图像预测生成的。然后使用伪标签。0以监督强增强图像预测为例，伪标签在扩展训练数据方面起到作用。另一方面，强弱图像预测的约束强化了一致性训练的优点。此外，如图所示，在获得无监督损失Lunsup之后，我们添加了UGRM。UGRM鼓励更可靠的样本参与我们的训练过程，而自训练带来的高不确定样本在训练过程中将被赋予较小的权重。另一个模块DC-SCP增加了一致性训练样本的多样性，同时解决了长尾和分布不匹配问题。更多细节请参见第3.3节。0我们的方案由共享的骨干网络f和两个分割头gm（m∈{1,2}）组成，其中两个头的结构相同。在这里，我们的伪标签是由pm(y|x)=gm(f(x))生成的，它是由f和gm产生的。伪标签将用作另一个头的监督信号。0按照半监督语义分割的设置，我们在每次迭代中提供一批标记示例 Dl = {(xb, yb); b ∈ (1, . . . , Bl)} 和一批未标记示例Du = {(ub); b ∈ (1, . . . ,Bu)}。我们初步定义ℓce为标准的像素级交叉熵损失，W和S表示应用于图像上的相应弱增强和强增强函数。与之前的半监督方法类似[41]，对于标记部分，监督损失Ls为：l1WHW H�j=1(ℓce(yij, pW1,ij)+ℓce(yij, pW2,ij)),(1)qWm,ij = arg maxcpm(y = c | pWm,ij),(2)Nu�i=11WH(ℓce(qW1,ij, pS2,ij)+ℓce(qW2,ij, pS1,ij)),(3)Strong_Transforms = [’channel_shuffle’,’color_jitter’, ’invert_channel’,’coarse_dropout’,’jpeg_compression’,’solarize’,’salt_pepper’,’noise_gau’,’equalize’]Weak_Transforms = [’random_scale’, ’random_flip’, ’random_crop’, ’Normalization’]"""return Strong_ops + Weak_Transformsxcopy_paste = M ⊙ xa + (1 − M) ⊙ xb,(5)99500使用标记图像上的两个头部上的标准像素级交叉熵损失来累积损失：0Ls = 10Nl �0其中pWm,ij = gm(f(W ◦xij))表示由第m个头部生成的第i个弱增强标记图像的第j个像素的预测，yij ∈R是第i个标记（或未标记）图像中第j个像素的相应真值，Nl是标记训练集中的样本总数。0Lu = 1 Nu0WH0对于未标记的数据，我们应用无监督损失结合一致性和自训练，以鼓励对同一图像进行不同扰动时的一致性伪标签预测。Argmax函数选择具有最大概率的相应类别 c ∈ {1, . . . ,C}。pSm,ij = gm(f(S ◦xij))表示由第m个头部生成的第i个强增强未标记图像的第j个像素的预测，Nu是训练集中未标记样本的总数。最后，整个损失函数可以写成：0L = Ls + λLu, (4)0在这里，我们使用 λ来控制监督损失和无监督损失之间的平衡。03.2. 弱增强和强增强0为了充分享受一致性训练的优点，我们利用弱增强和强增强在我们的框架中引入额外的信息。在我们的实验中，弱增强是标准翻转、平移、随机缩放和裁剪策略的组合。具体而言，我们以50%的概率随机翻转和缩放图像。我们的方法使用一致性正则化和自训练伪标签来生成伪标签。具体而言，伪标签是基于弱增强的未标记图像生成的，然后在将模型输入同一图像的强增强版本时用作监督信号。与RandAugment类似，如图2所示，我们构建了一个包含九种图像变换的操作池。在每个训练步骤中，我们从预定义的范围中随机选择每个样本的变换，而不是在每个训练迭代中使用固定的全局幅度。0# 定义强增强函数 defStrong_augmentation(N): """生成0参数：N：要应用的增强变换数量0依次0强操作 = np.random.choice(Strong_Transforms,0图2. Numpy中强数据增强的Python代码。03.3. 动态交叉集复制粘贴策略0复制粘贴[12]是一种成功的方法，它将对象从一幅图像复制到另一幅图像，复制的是目标对象的特定像素，而不是矩形掩码。复制粘贴最初的目标是建立一个能够处理稀有对象类别的数据高效模型，通过创建各种新的、高度扰动的样本，并将其用于训练，从而更好地利用标记数据。此外，最近的工作[14]采用了一种自适应的复制粘贴策略。它提出了一个框架，通过动态置信度库来鼓励性能不佳的类别得到充分的训练。然而，我们的目标范围有很大的不同。尽管[14]扩大了内层标记样本的多样性，但它忽略了标记和未标记数据分布不匹配的问题。如果标记数据和未标记数据之间存在很大的差距，网络性能将会下降。最近的工作如[31,34]展示了数据混合方法的有效性。因此，我们提出了DCSCP来通过扩展复制粘贴策略解决标记和未标记数据分布不匹配和长尾问题。这里的关键思想是通过复制属于特定类别的所有像素，并将它们粘贴到标记和未标记的图像上，像素是从估计的标记数据置信度分布中采样的。相应的混合过程为：0给定两个图像xa∈Da，xb∈Db，其中Db�D。我们将D扩展为Dl∪Du而不是Dl，以便未标记数据也能通过解决类别不平衡问题共享复制粘贴的精神。这里Da�Dl保持不变u1m,ij = wm,ij,(8)u21,ij = 1ij, w2,ij > w1,ij,(9)u22,ij = 1ij, w1,ij > w2,ij,(10)um,ij = u1m,ij ∗ u2m,ij,(11)Lu =1Nuu1,ijℓce(qW1,ij, pS2,ij)2,ij ce(qW2,ij, pS1,ij)),(12)99510其中M表示属于特定类别的像素的复制粘贴语义掩码。具体而言，对于每次前向传递，我们计算第c类的平均像素置信度分布为ˆσt,c。然后通过指数移动平均的方式更新类别的置信度分布：0ˆσt,c = αˆσt−1,c + (1 − α)σt,c，(6)0其中α表示ema比率，ˆσt,c表示t步骤中第c类的平均置信度分布，通过过去的阈值信息使其更加平滑。然后将置信度分布用于类别选择过程。03.4. 不确定性估计0由于伪标签的噪声，即使是一个微小的错误也很容易累积到会大幅降低模型性能的程度。为了解决噪声标签的问题，之前的工作如[10]采用了基于多数票的硬投票方法。然而，任意使用多数票生成的共识结果可能会导致错误的累积。[11,22]通过使用固定阈值来过滤噪声伪标签展示了它们的有效性。然而，不变的和固定的阈值忽略了一些有用的低于阈值的伪标签。尽管这些方法在一定程度上显示了它们处理噪声标签的有效性，但它们仍然受到它们固有的弱点的限制。因此，我们提出了基于软投票范式的不确定性建模方法UGRM来解决噪声问题。具体而言，我们考虑每个学习器的确定程度，并在其同伴的概率值更高时将目标类作为真实标签。因此，我们的方法不仅可以有效地减轻伪标签的负面影响，还可以减轻错误的累积问题。我们首先通过以下方式重新加权像素级损失：0wm,ij = maxc∈{1,...,C}pcm,ij，(7)0其中，w m,ij表示类别c ∈ {1, ..., C}中的最大概率。u 1m,ij通过公式（8）计算，它是我们控制每个像素贡献的第一个重新加权因子。0在公式（9）和（10）中，1 ij = 1 表示如果当前头部对第i个像素的第j个预测的置信度较高，则为1；否则，1 ij将为0。当可靠时，伪标签的置信度应作为监督信号使用。否则，在训练过程中应将其丢弃。将u 1 m,ij、u 2m,ij合并到我们的无监督损失中，我们可以得到公式（11），并将公式（3）重写如下，通过权重调整不仅可以减轻噪声的影响，还可以将被两个头部选择的可靠样本输入训练中。0图像较高，则等于1；否则，1 ij将为0。当可靠时，伪标签的置信度应作为监督信号使用。否则，在训练过程中应将其丢弃。将u 1 m,ij、u 2m,ij合并到我们的无监督损失中，我们可以得到公式（11），并将公式（3）重写如下，通过权重调整不仅可以减轻噪声的影响，还可以将被两个头部选择的可靠样本输入训练中。0Nu0W H ( 1 - W H j =1 u 1 ,ij0WH0+ 1 - W H j =1 u 2,ij0WH04. 实验04.1. 实验设置0数据集。我们的主要实验和消融研究基于Cityscapes数据集[7]，该数据集包含5K张精细标注的图像。这些图像被分为训练、验证和测试集，分别包含2975、500和1525张图像。Cityscapes定义了19个城市场景的语义类别。此外，我们还在PASCAL VOC2012数据集（VOC12）[9]上测试了提出的方法，该数据集包含20个语义类别和一个背景类别。标准的VOC12包括1464张训练图像、1449张验证图像和1456张测试图像。按照常规做法，我们使用增强集[13]作为训练集，该集合包含10582张图像。我们遵循[6]的分区协议，通过随机子采样整个训练集的1/2、1/4、1/8和1/16作为标记集，将剩余的图像作为未标记集。评估。我们的性能评估基于单尺度测试和交并比均值（mIoU）。我们报告了Cityscapes验证集和PASCAL VOC2012验证集上与最新技术方法的比较结果。我们以公平的方式与最近的报告进行比较。我们分别使用ResNet-50和ResNet-101作为我们的主干网络。预训练模型使用有监督数据进行初始化。此外，我们使用DeepLabv3+[4]作为分割头。我们使用带有动量的小批量SGD和Sync-BN来训练Cityscapes数据集上的模型。特别地，我们采用学习策略，初始学习率为0.004，然后乘以(1-iter/max_iter)的多项式。权重衰减为0.0005，动量为0.9。我们将裁剪尺寸设置为800×800，批量大小为8。对于PASCAL VOC2012数据集，我们将初始学习率设置为0.0005，权重衰减设置为0.0005，裁剪尺寸0max_iter)0.9，权重衰减为0.0005，动量为0.9。我们将裁剪尺寸设置为800×800，批量大小为8。对于PASCAL VOC2012数据集，我们将初始学习率设置为0.0005，权重衰减设置为0.0005，裁剪尺寸1/16 1861/8 3721/4 7441/2 14881/16 1861/8 3721/4 (744)1/2 (1488)CCT* [22]66.3572.4675.6876.7869.6474.4876.3578.291/16 6621/8 13231/4 26461/2 52911/16 6621/8 13231/4 (2646)1/2 (5291)99520表1. 在不同分区协议下与Cityscapes验证集上最新技术的比较。所有方法都基于DeepLabv3+。0方法 ResNet-50 ResNet-1010基准 65 . 28 71 . 33 73 . 78 76 . 04 67 . 16 72 . 30 74 . 60 76 . 70MT* [27] 66.14 72.03 74.47 77.43 68.08 73.71 76.53 78.590GCT* [16] 65.81 71.33 75.30 77.09 66.90 72.96 76.45 78.580CPS [6] 74.47 76.61 77.83 78.77 74.72 77.62 79.21 80.210我们的方法 76.02 77.60 78.28 79.54 77.17 78.71 79.59 80.570表2. 在不同分区协议下与最新技术的比较结果。所有方法都基于DeepLabv3+。0方法 ResNet-50 ResNet-1010基准线 65.28 68.09 72.35 74.00 68.58 72.56 75.05 76.030MT* [27] 66.77 70.78 73.22 75.41 70.59 73.20 76.62 77.610CCT* [22] 65.22 70.87 73.43 74.75 67.94 73.00 76.17 77.560GCT* [16] 64.05 70.47 73.45 75.20 69.77 73.30 75.25 77.140CPS [6] 71.98 73.67 74.9 76.15 74.48 76.44 77.68 78.640我们的方法 74.05 74.81 76.38 76.53 76.49 77.06 79.07 79.540如512×512，批量大小为8。我们使用随机水平翻转、随机缩放和裁剪作为默认的数据增强，并在Cityscapes和VOC12上使用OHEM损失。04.2. 与最新技术方法的比较0在本节中，我们在各种数据集和设置下与之前的方法进行了广泛比较。其他比较的最新结果来自[6]，并标记为*。Cityscapes。在表1中，我们展示了在不同标记样本比例下在Cityscapes验证数据集上的平均交并比（mIoU）结果。我们还在表的顶部显示了相应的基准线，它表示通过相同标记数据训练的纯监督学习结果。请注意，所有方法都使用DeepLabV3+进行公平比较。从结果可以看出，我们的方法在Cityscapes上始终优于监督基准线。具体而言，与基准线相比，我们的方法在不同分区协议下使用ResNet-50分别为1/16、1/8、1/4和1/2时的改进分别为10.74%、6.27%、4.50%和3.50%，使用ResNet-101分别为1/16、1/8、1/4和1/2时的改进分别为10.01%、6.41%、4.99%和3.87%。当标记数据的比例变小（例如1/8、1/16）时，我们观察到我们的方法在性能上表现出显著的改进。特别是在极少数据设置下，尤其是在1/16分区下，我们的方法相对于基准线的增益为10.01%，超过了之前的最新方法[27]0使用ResNet-101作为骨干网络时，较之下降1/8分区，性能提升2.45%，较之下降1/8分区，性能提升1.09%。总之，我们的方法在各种情况下都显示出显著的改进。我们的方法可以处理大量未标记的数据，并通过在训练过程中结合一致性正则化和自训练来保持良好的性能。PASCOL VOC2012。为了进一步证明我们方法的泛化能力，我们还在PASCOL VOC2012验证数据集上进行了实验。从表2中可以看出，我们的方法始终以较大的优势击败了监督基准线，改进分别为8.77%、6.72%、4.03%和2.53%（使用ResNet-50分别为1/16、1/8、1/4和1/2分区协议），7.91%、4.50%、4.02%和3.51%（使用ResNet-101分别为1/16、1/8、1/4和1/2分区协议）。此外，我们的方法优于所有其他最新技术方法在不同设置下的表现。具体而言，它在1/16和1/4分区下分别比之前的最新方法[6]提高了2.01%和1.39%。04.3. 消融研究0在本小节中，我们将讨论每个组件对我们框架的贡献。如果没有特别提到，所有方法都基于DeepLabv3+和ResNet50在1/8分区协议下[6]。不同组件的有效性。为了进一步了解不同组件带来的优势，我们逐步进行消融研究，并逐步检查每个组件的有效性。表3报告了结果。通过训练不带任何组件的普通交叉头框架，我们可以看到72.2399530表3.对不同组件的有效性进行消融研究，包括WS（弱强策略），UGRM（不确定性引导重新加权模块），DCSCP（动态交叉集合复制粘贴）。0WS DCSCP UGRM mIoU0� 74.30� � 75.70� � � 77.600表4.弱强增强策略的有效性。对不同增强策略的性能分析。S：强增强，W：弱增强。0方法 mIoU0N.A. 71.320S 70.020W 73.010W + S 74.20在第3.2节、3.3节、3.4节中描述的策略下，我们可以实现72.23%的mIoU。此外，通过WS，可以进一步提高普通框架的结果2.07%，这可以归因于通过强制约束弱强图像的预测来进行一致性训练的优点。在WS的基础上，通过将DCSCP合并到我们的框架中，通过减轻类别平衡和分布不匹配问题，进一步改善了1.40%的性能。此外，UGRM通过重新考虑每个像素的重要性和两个分割头部带来的不同信息，进一步提高了77.60%的性能，这显示了我们的不确定性估计方法的有效性。弱强增强策略的有效性。通过利用弱强策略，我们可以向一致性引入更多信息（值得注意的是，强变换函数每次生成不同的增强图像）。我们进行了添加不同强度增强的实验。如表4所示，直接将强增强的预测应用为监督信号会导致性能下降。这可能是由于来自另一个头部的错误预测显著增加，导致网络的优化方向错误。为了获得更明智和准确的伪标签，一个自然的想法是通过与强增强图像相比，使用弱增强版本的未标记图像生成伪标签。如表4所示，在将监督信号替换为与弱增强预测相匹配的弱增强版本后，性能提高了1.69%。最后，通过进行弱和0表5.DCSCP的有效性。对DCSCP的性能分析。DCP：动态复制粘贴，CSCP：交叉集合复制粘贴，DCSCP：动态交叉集合复制粘贴。0方法 mIoU0N.A. 74.010CP 75.010DCP 75.280CSCP 75.630DCSCP 75.790表6. 不同权重λ的性能分析。0λ 0.5 0.75 1 2 40mIoU 76.20 76.76 76.88 77.60 77.120表7. Cross-Model网络与Cross-Head网络的比较。0方法 mIoU0CM 76.570CH 77.600强增强对两个头部都进行了增强，这显示了我们策略的有效性。DCSCP的有效性。我们逐步消除DCSCP的每个组件。表6显示，直接使用内部级别的复制粘贴可以通过形成新的扰动样本带来1.00%的提升。在CP的基础上，进一步将我们的方法扩展到DCP可以获得0.27%的增益，这可能归因于从估计的类分布中采样目标类别并鼓励稀有类别得到充分训练。此外，将DCP扩展到标记和未标记数据上可以带来额外的0.62%的改进，这可以归因于解决标记和未标记数据分布不匹配的问题。最后，我们的方法通过结合DCP和CSCP将性能提高了1.78%，这说明所提出的DCSCP是一种更强大的半监督语义分割工具。权重λ用于平衡监督损失和无监督损失之间的权衡。结果显示，在我们的设置中，λ=2的表现最好，其中较小的λ=0.5将减少伪分割图带来的大量有用信息。较大的λ=4存在问题，并导致性能下降，因为网络可能会朝错误的方向收敛。Cross-Head网络与Cross-Model网络的比较。在CityScapesval上比较Cross-Head网络和Cross-Model网络。CH =Cross-Head网络，CM =Cross-Model网络。从表7可以看出，Cross-Head网络的性能优于Cross-Model网络+1.03%。通过共享相同的表示，Cross-Head网络可以进一步提高泛化能力，然后从不同的视角学习更紧凑的特征。99540（a）图像（b）GT（c）CPS（d）我们的方法0图3. Cityscapes验证集上的定性结果。（a）和（b）对应于目标图像和真值（GT），（c）表示CPS[6]的结果，（d）是我们的方法结果。橙色矩形突出显示它们之间的差异。04.4. 定性结果0在图3中，我们展示了在Cityscapes验证集上使用1/8协议的一些定性结果，所有方法都基于DeepLabv3+和ResNet-101网络。由于所提出的框架具有一系列组件的好处，我们的方法在分割结果上显示出比先前的最先进方法[6]更准确的结果，特别是对于具有复杂纹理和需要长距离信息的大区域。05. 结论0在本文中，我们提出了一种新颖的框架，称为UCC（基于不确定性的交叉头共训练），用于半监督语义分割领域。我们的方法是第一个将弱增强和强增强合并到交叉头共训练框架中的方法，自然地结合了一致性和自训练的优势。一方面，0我们提出的DCSCP在处理不平衡数据集引起的有偏分布和标记和未标记数据之间的差距时，提升了一致性训练样本的多样性。另一方面，我们提出的UGRM通过建模不确定性来抑制来自同行的低质量伪标签的影响，增强了自训练伪标签的效果。我们证明了我们的方法在半监督语义分割中的有效性，重点关注CityScapes和PASCAL VOC2012这两个常用基准数据集。基于一致性正则化的方法在过去几十年中得到了很好的发展，但是自训练的有效性一直被忽视。因此，如何在利用一致性正则化的同时进一步发挥噪声伪标签的潜在好处是未来的研究方向。599550参考文献0[1] David Berthelot, Nicholas Carlini, Ian Goodfellow, NicolasPapernot, Avital Oliver, and Colin Raffel.Mixmatch:半监督学习的整体方法.arXiv预印本arXiv:1905.02249，2019年。20[2] Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, andVincente Ordonez. 课程标签：重新审视半监督学习的伪标签.arXiv预印本arXiv:2001.06001，2020年。20[3] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L. Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割，2017年。10[4] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam.重新思考用于语义图像分割的空洞卷积，2017年。50[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.带有空洞可分离卷积的编码器-解码器用于语义图像分割，2018年。10[6] Xiaokang Chen, Yuhui Yuan, Gang Zeng, and JingdongWang. 基于交叉伪监督的半监督语义分割.在IEEE/CVF计算机视觉与模式识别会议论文集中，页码2613-2622，2021年。5, 6, 80[7] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集，2016年。20[8] Antonia Creswell, Tom White, Vincent Dumoulin, KaiArulkumaran, Biswa Sengupta, and Anil A Bharath.生成对抗网络：概述.IEEE信号处理杂志，35(1)：53-65，2018年。20[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I.Williams, J. Winn, and A. Zisserman.Pascal视觉对象类别挑战赛：回顾.计算机视觉国际期刊，111(1)：98-136，2015年。2, 50[10] Zhengyang Feng, Qianyu Zhou, Qiqi Gu, Xin Tan, Guan-gliangCheng, Xuequan Lu, Jianping Shi, and Lizhuang Ma. Dmt:动态互训用于半监督学习。arXiv预印本arXiv:2004.08514，2020年2月5日。0[11] Geoff French, Samuli Laine, Timo Aila, Michal Mackiewicz,and Graham Finlayson.半监督语义分割需要强大且多样化的扰动，2020年1月2日5日。0[12] Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian,Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, and Barret Zoph.简单的复制粘贴是一种强大的实例分割数据增强方法，2021年2月4日。0[13] Bharath Hariharan, Pablo Arbeláez, Lubomir Bourdev,Subhransu Maji, and Jitendra Malik.从逆向检测器中提取语义轮廓。在2011年国际计算机视觉会议上，页码991-998。IEEE，20

下载后可阅读完整内容，剩余1页未读，立即下载