无偏差子类别正则化网络：缓解半监督语义分割中的类别偏差问题

92 浏览量更新于2023-10-26 收藏 13.01MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0.1110100backgprsncatdogcartrainchairbusmbikesofatableaerobirdhorsebiketvboatplantsheepcowbottlePrecentage (%) Ground Truth Prediction0.1110100backgprsncatdogcartrainchairbusmbikesofatableaerobirdhorsebiketvboatplantsheepcowbottlePrecentage (%) Ground Truth Prediction99680无偏差子类别正则化用于半监督语义分割0Dayan Guan, Jiaxing Huang, Aoran Xiao, Shijian Lu *新电信认知与人工智能实验室，南洋理工大学0{ Dayan.Guan, Jiaxing.Huang, Aoran.Xiao, Shijian.Lu } @ntu.edu.sg0摘要0半监督语义分割从少量标记图像和大量未标记图像中学习，随着深度神经网络的最新进展，取得了令人瞩目的进展。然而，在探索未标记图像时，它经常遭受严重的类别偏差问题，这在很大程度上是由于标记图像中明显的像素级类别不平衡造成的。本文提出了一种无偏差子类别正则化网络（USRN），通过从平衡的子类别分布中学习无偏差的分割，缓解了类别不平衡问题。我们通过将每个原始类别的像素聚类成大小相似的多个子类别来构建平衡的子类别分布，这为类别偏差的分割提供了类别平衡的伪监督。此外，我们设计了一种基于熵的门控机制，通过抑制不确定的子类别预测，有效地协调原始类别和聚类子类别之间的学习，从而促进子类别正则化。在多个公共基准测试上进行的大量实验证明，USRN相比现有技术具有更优越的性能。01. 引言0语义分割旨在为图像的每个像素分配一个人为定义的类别标签，这是计算机视觉研究中的一个基本任务。随着深度神经网络的最新进展[9, 19,69]，在有大量标记训练图像的情况下，我们可以学习到非常准确的分割模型。然而，收集大量像素级的语义标签是费力和耗时的，这已经成为语义分割研究中的一个瓶颈[11,15,39]。半监督语义分割旨在从少量标记图像和大量未标记图像中学习，已经引起越来越多的关注来解决图像注释的挑战。0* 通讯作者。0图像0类别不平衡标签类别平衡的聚类0（b）类别无偏差的分割（我们的方法）（a）类别偏差的分割（基线）0未标记数据上的类别分布0图1.我们工作的动机：在半监督语义分割中，使用类别不平衡的标签（标记数据的标签）训练的分割模型倾向于在未标记数据上产生类别偏差的分割。我们通过将每个原始类别的像素聚类成大小相似的多个子类别，创建了类别平衡的聚类，从中学习可以缓解类别不平衡问题并在未标记数据上产生类别无偏差的分割。最佳效果以彩色显示。0大多数现有研究通过在未标记数据上应用一致性训练[35,46, 47]或自训练[10, 20, 29, 43, 45,68]来解决半监督语义分割的挑战。然而，它们经常受到分割模型的限制，这是通过使用标记数据训练的。如图1所示，使用标记数据训练的模型由于标记数据的类别不平衡而具有类别偏差。这导致未标记数据的类别偏差分割，这种偏差积累并最终降低整个半监督学习的性能。尽管一些研究[20,64]尝试通过在自训练过程中为少数类别选择更多的伪标签来处理类别不平衡问题，但这些伪标签通常是噪声的，因为它们是从类别偏差的分割中生成的。请注意，类别不平衡问题已经通过重新采样在监督学习中广泛研究[5, 6, 34, 55,62]。99690重新加权[12, 22, 38, 49]和元学习[49, 53,63]等方法需要使用标签来纠正有偏差的预测，因此不适用于半监督语义分割中的未标注数据。在本文中，我们提出了一个无偏子类正则化网络（USRN），它解决了类别不平衡问题，并通过生成无偏的类别分割来规范有偏的类别分割。利用从原始类别分布中学到的分割骨干，USRN引入了一个辅助分割任务，由一组类别平衡的聚类来监督未标注数据上的无偏类别分割。我们通过将每个原始类别的像素聚类成多个大小相似的子类来获得类别平衡的聚类。如图1所示，使用类别平衡的聚类训练的USRN可以为未标注数据产生更清晰的无偏类别分割。此外，由于不同的收敛速度，原始类别的分割可能会受到生成的子类别分割的干扰。我们设计了一种基于熵的门控机制来解决这个问题，当子类别的预测不如原始类别的预测可靠时，学习过程将停止（即不进行反向传播）。在多个公共基准测试上进行了大量实验证明了我们设计的网络的有效性。本文的贡献有三个方面。首先，我们提出了一个无偏子类正则化网络，探索了类别无偏的分割，以缓解半监督语义分割中的类别不平衡问题。其次，我们设计了一种基于熵的门控机制，有效地协调了原始类别和生成子类别的并行学习。第三，大量实验证明了我们设计的网络与最先进的方法相比的卓越有效性。02. 相关工作02.1. 监督语义分割0随着深度学习的最新进展，通过设计各种架构，监督语义分割取得了显著的进展。[42]中的FCN是第一个使用全卷积层进行语义分割的端到端可训练网络。随后的研究通过采用编码器-解码器结构[3, 9, 51]，多尺度输入[8, 13,37]，特征金字塔空间池化[41, 69]，注意机制[16,70]或空洞卷积[7, 9, 61,67]来改进[42]。例如，[9]中的Deeplabv3+结合了低级和高级特征，以改进分割结果的对象边界。然而，训练这些监督分割网络需要大量的标注数据，这通常是费时费力的。我们的工作旨在缓解这个问题。0通过探索大量未标注数据和有限的标注数据，来缓解数据注释的限制。02.2. 半监督语义分割0半监督分割旨在利用有限的标注数据与大量的未标注数据进行探索，这在域自适应分割中尤为相关，其中标注数据来自另一个域[2, 18, 26-28, 60,66]。大多数现有研究通过一致性训练[17, 25, 32, 36, 48,58, 65, 71, 72]或自训练[1, 4, 21, 23, 24, 29, 30, 33, 50,54, 57,73]来解决这一挑战。具体而言，一致性训练在不同扰动下保持每个未标注样本的分割一致性。例如，CCT[47]使用两个具有不同初始化的相同结构的分割网络产生不同的扰动样本。CAC[35]在具有不同上下文信息的同一未标注图像的表示之间强制上下文感知一致性。相反，自训练在未标注数据上生成伪标签以重新训练网络。例如，GCT[31]引入了一个缺陷检测器来纠正伪标签中的缺陷。DBSN[68]为稳健的伪标签生成设计了特定分布的批归一化。CPS[10]从一个分割网络生成伪标签，以监督具有相同结构但不同初始化的另一个分割网络。然而，一致性训练和自训练都存在标注数据中明显的像素级类别不平衡问题。我们的方法可以有效地缓解半监督分割中的类别不平衡问题。02.3. 类不平衡学习0类不平衡问题已经在监督学习中得到广泛研究。例如，基于重新采样的方法[5, 6, 34,62]根据每个类别的样本数量重新平衡偏差网络。基于重新加权的方法[12, 22, 38,49]根据不同类别的训练样本自适应调整损失权重。基于元学习的方法[49, 53,63]使用从选择的类平衡标记样本计算的验证损失作为元目标来优化网络。然而，所有这些方法都依赖于标签来解决类不平衡问题，不能直接应用于半监督学习中的未标记数据。最近，一些研究尝试在半监督学习中处理类不平衡问题。例如，CReST[64]根据估计的类分布更频繁地选择少数类别的伪标签。DARS[20]在自训练过程中使用自适应阈值为少数类别选择更多的伪标签。然而，这些方法往往会从未标记数据的类偏差分割中生成噪声伪标签。我们通过构建和学习类平衡的子类来解决类不平衡问题。99700无偏的0正则化0带有原始类标签的图像0F0类不平衡的原始类分布0平衡聚类0原始类分布正向传播反向传播子类分布0子类分割0类偏差分割0类无偏分割0类0映射0F0未标记的图像0类平衡的子类分布0在类不平衡的标记图像上生成类平衡的子类分布0在带有标签的图像上进行监督学习0带有原始类标签的图像F sub0F sub0生成的聚类0原始类标签0F0在未标记的图像上进行自训练0图2.无偏子类正则化网络（USRN）概述：USRN通过将原始类分布的类偏差分割与子类分布的类无偏分割进行正则化，从而实现类平衡的子类分布。我们通过将来自类不平衡的原始类分布的特征聚类成多个相似大小的群组来生成类平衡的子类分布。具体而言，USRN通过在半监督设置下对带有原始类标签和生成的聚类的标记图像进行训练，使用类偏差模型F和类无偏模型F sub进行监督学习。对于未标记的图像，USRN通过将F sub 的类无偏分割应用于F的类偏差分割来进行自训练。我们通过将子类分割（由F sub生成）从子类空间映射到原始类空间来获得类无偏分割。最佳观看效果为彩色。03. 方法03.1. 问题定义0本文重点研究半监督语义分割。给定图像X l � R H × W ×3，具有像素级语义标签 ˆ y � (1, C) H × W 和未标记图像 Xu � R H × W × 3（其中 H、W 和 C分别表示图像的高度、宽度和类别数），目标是学习一个分割模型F，能够适应带有标签和未标记的数据，并在未知图像上表现良好。现有方法[10, 20, 29, 31, 35, 43, 45, 47,73]将带有标签的图像上的监督学习和未标记图像上的无监督学习结合起来，以应对半监督挑战。对于带有标签的图像，它们采用交叉熵损失作为监督损失 L s 来训练F。对于未标记的图像，它们采用一致性正则化损失[31,47]或自训练损失[10, 20, 29, 35, 43, 45,73]作为无监督损失 L u 来训练F。总体目标是监督和无监督损失的加权组合：0L = Ls(Xl, Y) + λu Lu(Xu), (1)0其中λu是平衡权重。通过这个目标函数，有监督学习和无监督学习可以相互受益，因为它们具有互补性[59]。尽管一致性训练和自训练可以有效地从无标签图像中学习，但它们的性能往往受到使用有标签图像训练的有监督模型的质量的限制。具体而言，有标签图像往往受到明显的类别不平衡问题的困扰，这直接导致类别偏置模型，进而导致无标签图像上的类别偏置分割。这种类别偏置分割在一致性训练或自训练过程中累积，最终降低了半监督语义分割的整体性能。我们将这个问题定义为半监督语义分割中的类别不平衡问题，并设计了一个类别平衡的子类别正则化网络来解决类别不平衡问题。03.2. 无偏子类别正则化0我们设计了一个无偏子类别正则化网络（USRN）来解决半监督分割中的类别不平衡问题。99710如图2所示，USRN在半监督分割中使用有标签图像首先训练一个类别偏置模型F（通过学习类别不平衡的有标签图像），然后通过对有标签图像的F生成的特征进行聚类来产生一个类别平衡的子类别分布。通过类别平衡的子类别分布，可以训练一个类别无偏的模型Fsub，该模型在半监督分割中应用于无标签图像时倾向于产生类别无偏的分割。生成类别平衡的子类别分布。USRN通过生成类别平衡的聚类来学习类别无偏模型。使用有标签图像（具有类别不平衡的注释），USRN首先训练一个有监督分割模型F，然后将F应用于每个有标签图像以提取语义特征。然后采用平衡的k均值聚类[40]将提取的语义特征分组成多个大小相似的聚类。生成的类别平衡聚类ˆy��(1，Csub)H×W（Csub是聚类子类别的数量）直接给出具有有标签图像的平衡子类别分布。在我们的实现中，我们根据原始注释中最小类别的大小来经验性地设置聚类大小。有标签数据的有监督学习。USRN对原始和子类别注释执行有监督学习。对于每个有标签图像xl，我们将弱增强图像Aw(xl)输入F以获得原始类别预测pwl=F(Aw(xl))，并将相同输入输入F sub以获得子类别预测pw�l=Fsub(Aw(xl))。这里，Aw是一个弱增强函数，即随机缩放、裁剪和水平翻转。给定pwl及其原始类别标签ˆy�Y和pwl及其类别平衡聚类ˆy��Y�，可以通过以下方式定义多分布有监督损失Lmds：0Lmds = Lce(pwl, ˆy) + λsub Lce(pw�l, ˆy�), (2)0其中 L ce 是交叉熵损失，λ sub是平衡权重。无标签数据的自训练。USRN通过使用从子类分布生成的无偏伪标签对F进行自训练以更新F。对于每个无标签样本xu，我们将弱增强图像Aw(xu)输入F以获得原始类别预测pwu=F(Aw(xu))，并将相同输入输入F sub 以获得子类别预测pw�u=Fsub(Aw(xu))。为了为原始类别监督生成无偏伪标签，我们首先将来自子类空间(1，Csub)H×W的预测pw�u映射到原始类别空间(1，C)H×W（此过程表示为M），然后定义一个函数S以在线方式从映射的预测中选择伪标签。我们通过以下方式定义伪标签选择函数S：0将映射的预测从子类别空间(1，Csub)H×W映射到原始类别空间(1，C)H×W（此过程表示为M），然后定义一个函数S以在线方式从映射的预测中选择伪标签。我们通过以下方式定义伪标签选择函数S：0S(p) = 1[p(c)>γ](p(c)), (3)0其中p表示预测，1是一个函数，如果条件为真，则返回类别索引c，否则返回'ignore'类别索引，γ是置信度阈值。注意，在训练中，'ignore'类别不进行反向传播。为了减轻自训练中的过拟合，使用从图像的弱增强版本Aw(xu)生成的伪标签来监督来自同一图像的强增强版本As(xu)的分割。这里，As是一个强增强函数，即随机颜色变换和高斯模糊。使用pwu和ˆpw�u（通过softmax从pw�u计算得到的one-hot向量）来同时将As(xu)馈送给F，以获得原始类别预测psu =F(As(xu))，并使用损失Lst进行子类别规范化的自训练：0Lst = Lce(psu, S(M(ˆpw�u) ∙ pwu)) (4)0此外，USRN对子类别分布进行自训练以更新Fsub。使用Eq.4中的pw�u作为pw�u，同时将As(xu)馈送给Fsub，以获得子类别预测ps�u，并使用损失Lst进行子类别自训练：0Lsub st = Lce(psu, S(pw�u)). (5)03.3. 基于熵的门控机制0所提出的USRN使用子类预测来规范原始类别预测。由于子类分布是从原始类别分布派生出来的，从子类分布中学习比从相同学习策略下的原始类别分布中学习更复杂，更容易变慢。这可能引入不必要的正则化。具体而言，在训练中，原始类别学习比子类学习更快地收敛，因此原始类别学习可能会产生比子类学习更自信和正确的预测。在这种情况下，如果原始类别预测受到子类预测的正则化，半监督学习将会退化。为了解决这个问题，我们设计了一种基于熵的选择函数，以避免将自信的原始类别预测p与不自信的子类别预测p�进行正则化。基于熵的选择函数定义如下：0Se(p�, p) = 1[E(p�) < E(p)](S(ˆp�) ∙ p), (6)0其中E是熵函数，如[52]所定义。给定原始预测（即来自同一图像的强增强版本和弱增强版本的psu和pwu）和子类预测（即来自弱增强版本的pw�u，如Eq.4所示），我们重新定义Eq.4中的自训练损失，并定义基于熵的自训练损失Le st如下：0Lest = Lce(psu, Se(M(pw�u), pwu)) (7)Oracle-76.876.876.8Oracle-78.378.378.399720将Eqs.2、5和7中的损失相结合，无偏子类正则化网络（USRN）的整体训练目标可以表示如下：0LUSRN = Lmds + λu(Lest + λsubLsubst). (8)04. 实验04.1. 实验设置0数据集。我们在PASCAL VOC[15]数据集上进行了主要实验，按照之前的工作[10, 31, 35,47]进行。该数据集包含10,582张训练图像和1,456张评估图像，图像分辨率从192×282到500×500不等。它提供了21个语义类别的像素级注释。为了进行全面的验证，我们还在Cityscapes[11]数据集上进行了实验，该数据集包含2,975张训练图像和500张评估图像，所有图像的分辨率都是1024×2048。Cityscapes提供了19个语义类别的像素级标签。实现细节。分割主干模型F和辅助分割模型F sub都采用了Deeplabv3+[9]和在ImageNet [14]上预训练的ResNet-50[19]，其中F和Fsub共享提取ResNet-50低级特征的层。所有网络模型都使用小批量随机梯度下降（SGD）进行优化，基本学习率为10^-3，动量为0.9，权重衰减为10^-4。弱增强函数Aw（即随机缩放、裁剪和水平翻转）和强增强函数As（即随机颜色变换和高斯模糊）与[35]中的相同。置信度阈值γ设置为0.75，所有平衡权重（即λ sub和λu）直接设置为1。在评估过程中，每个图像只在分割主干上进行测试，并采用平均交并比（mIoU）作为评估指标。04.2. 与最先进方法的比较0我们将USRN与最先进的方法[10，020， 31， 35， 47， 68]在PASCALVOC和Cityscapes数据集[11，15]上进行比较。表1和表2显示了实验结果。对于PASCALVOC数据集，我们随机将训练集的1/64、1/32和1/16（分别包括165、331和662个训练图像）作为标记数据，其余的训练图像作为未标记数据。由于Cityscapes数据集中的训练图像数量少于PASCALVOC，我们随机将Cityscapes数据集的训练集的1/32、1/16和1/8（分别包括93、186和372个训练图像）作为标记数据，其余的训练图像作为未标记数据。最先进的方法使用不同的分割主干和训练集划分进行实验。为了公平比较，我们使用官方代码重新复现了一些实验结果，以便所有方法都使用相同的设置进行评估。0方法发表 1/64 1/32 1/160基线 - 52.4 59.2 63.9 GCT [31] ECCV 20 - - 64.1 CCT [47]CVPR 20 - - 65.2 DARS [20] ICCV 21 56.9 64.5 68.4 DBSN[68] ICCV 21 57.5 64.6 69.8 CAC [35] CVPR 21 56.5 65.1 70.1CPS [10] CVPR 21 57.9 64.8 68.2 USRN（我们的方法） - 61.768.6 72.30表1. 在PASCALVOC数据集[15]上与最先进方法的定量比较。我们随机将训练集的1/64、1/32和1/16（分别包括165、331和662个训练图像）作为标记数据，其余的训练图像作为未标记数据进行半监督学习。基线和Oracle分别使用划分的标记训练数据和整个训练集进行有监督损失训练。0方法发表 1/32 1/16 1/80基线 - 59.8 64.3 68.9 GCT [31] ECCV 20 - 65.8 71.3 CCT [47]CVPR 20 - 66.4 72.5 DARS [20] ICCV 21 61.9 66.9 73.7 DBSN[68] ICCV 21 62.2 67.3 73.5 CAC [35] CVPR 21 62.2 69.4 74.0CPS [10] CVPR 21 62.5 69.8 74.4 USRN（我们的方法） - 64.671.2 75.00表2.将USRN与Cityscapes数据集[11]上的最先进方法进行定量比较。我们随机将训练集的1/32、1/16和1/8（分别包括93、186和372个训练图像）作为标记数据，其余的训练图像作为未标记数据进行半监督学习。基线和Oracle分别使用划分的标记训练数据和整个训练集进行有监督损失训练。0可以将ods与相同划分的标记数据以及相同的分割主干进行比较。如表1和表2所示，所提出的USRN在两个具有不同标记训练数据划分的数据集上始终优于最先进的方法。卓越的性能主要归因于所提出的无偏子类别正则化，该方法有效解决了半监督分割中的类别不平衡问题。对于标记训练数据的较小划分，USRN在PASCALVOC的1/64划分和Cityscapes的1/32划分上的mIoU分别比最先进的方法高出3.8％和2.1％。特别地，最先进的方法的性能在很大程度上受到由类别不平衡标记数据训练的分割模型的质量的限制。由于深度卷积神经网络倾向于在小数据集上过拟合99730输入图像真实标签基线 CAC [35] CPS [10] USRN（我们的方法）0图3. 在PASCALVOC数据集的1/32划分上，将USRN与最先进的方法进行定性比较。USRN可以获得更准确的语义分割，特别是对于被最先进的方法（例如，背景类别被可视化为黑色）错误分割为最主要类别的像素[10, 35]。0正如[56]所证明的那样，当使用较少的有标签数据进行训练时，类别不平衡问题更加严重，这严重降低了最先进方法的性能。使用更大的有标签数据划分时，我们的方法与使用整个训练集进行训练的Oracle之间的差距在PASCALVOC的1/16划分上为4.5％，在Cityscapes的1/8划分上为3.3％。这些实验结果表明，我们的方法可以使用少量有标签训练数据学习准确的分割模型，展示了它在减少深度网络训练中的标注工作方面的潜力。我们还对PASCALVOC数据集的1/32划分进行了定性比较。我们将USRN与最先进的方法[10,35]和仅使用有监督损失进行训练的Baseline进行了比较。定性结果与定量结果一致，如图3所示。可以观察到，USRN相对于最先进的方法产生了更准确的分割结果，特别是对于属于最主要类别的分割不准确的像素。定性实验结果进一步验证了USRN在半监督语义分割中更好地处理类别不平衡问题的能力。04.3. 消融研究0我们进行了大量的消融研究，以探究提出的USRN如何实现卓越的半监督语义分割。我们在PASCALVOC数据集的1/32划分上进行了所有消融研究，在默认设置下，USRN可以达到68.6％的mIoU。具体而言，我们研究了USRN中的不同设计，包括不同的USRN组件，不同的聚类策略。0类平衡的聚类生成，在不同层次上共享特征（在分割主干F和辅助分割模型Fsub之间），以及对伪标签选择的置信度阈值γ进行参数分析。0Model MSL OST USR SST EGM mIoU0Model I � 59.1 Model II � � 64.1 Model III � � � 65.0 Model IV � � � � 67.1USRN � � � � � 68.60表3.对USRN的不同组件（即MSL、OST、USR、SST和EGM）在PASCALVOC数据集的1/32划分上进行的消融研究。这里，MSL、OST、USR、SST和EGM分别是多分布监督学习、原始自训练、无偏子类正则化、子类自训练和基于熵的门控机制的缩写。0不同的组件。我们对USRN的不同组件进行了消融研究，以检验它们的有效性，如表3所示。具体而言，我们在PASCALVOC数据集的1/32划分上训练了五个模型，包括：1）只使用多分布监督学习（MDL）损失函数Lmds在有标签数据上训练的ModelI；2）只在原始类别分布上使用MDL损失和原始自训练（OST）损失进行自训练的ModelII，如[10, 35, 54]所示；3）在ModelII的OST上直接使用MDL损失和提出的自训练损失Lst进行无偏子类正则化（USR）的Model III；4）将子类自训练（SST）损失函数Lst引入ModelIII，用于在无标签数据上训练辅助分割模型的Model IV；5）在ModelIV中引入基于熵的门控机制（EGM），以协调从原始类别和生成的子类别中并行学习的USRN。如表3所示，Model II和Model III相对于ModelI都有很大的性能提升，证明了自训练在半监督分割中的有效性。没有SST时，ModelIII的性能仍然优于ModelII，这表明只使用有标签数据训练的子类别分割模型可以在无标签数据上产生高质量的伪标签。通过SST，Model IV在mIoU上比ModelIII提高了2.1％，这得益于在无标签数据上通过自训练更新子类别分割模型。通过更新的辅助分割模型，可以产生更准确的子类别分割结果，用于生成无偏的伪标签来更新分割主干网络。最后，USRN在mIoU上进一步提高了ModelIV的1.5％，验证了提出的基于熵的门控机制的有效性。�1CC�n=1nc)2�1C (C�n=1nc)2, (9){γ0.550.650.750.850.950.99mIoU67.467.768.668.668.568.199740Model IV将方程5中的子类自训练（SST）损失引入ModelIII，用于在无标签数据上训练辅助分割模型；而USRN将基于熵的门控机制（EGM）引入ModelIV，以协调从原始类别和生成的子类别中并行学习。如表3所示，Model II和Model III相对于ModelI都有很大的性能提升，证明了自训练在半监督分割中的有效性。没有SST时，Model III的性能仍然优于ModelII，这表明只使用有标签数据训练的子类别分割模型可以在无标签数据上产生高质量的伪标签。通过SST，ModelIV在mIoU上比ModelIII提高了2.1％，这得益于在无标签数据上通过自训练更新子类别分割模型。通过更新的辅助分割模型，可以产生更准确的子类别分割结果，用于生成无偏的伪标签来更新分割主干网络。最后，USRN在mIoU上进一步提高了ModelIV的1.5％，验证了提出的基于熵的门控机制的有效性。0聚类算法原始CBR 子类别CBR mIoU0普通k-means 33.8% 96.4% 68.0 平衡k-means 33.8% 99.5% 68.60表4. 在应用USRN到PASCALVOC数据集的1/32划分时，将普通k-means [44]与平衡k-means[40]进行比较。这里，类别平衡率（CBR）在公式9中定义，其中CBR=100%表示每个类别内的像素数相等（即极端类别平衡），CBR=0%表示所有像素都标记为同一个类别（即极端类别不平衡）。0聚类策略。在第3.2节中，我们采用平衡k-means聚类[40]生成类别平衡的子类别注释。为了衡量注释的类别平衡性，我们定义了一个名为类别平衡率（CBR）的新指标，可以表示为：0CBR = 1 - σ c0σ � c = 1 -0n =1 n 2 c- ( 10n =1 n c ) 2 -( 10其中，n c 是给定注释中每个类别c � (1, C)内的像素数，σ c是 { n 1 , n 2 , ∙ ∙ ∙ , n C } 的标准差，σ � c 是0n =1 n c , 0 , ∙ ∙ ∙ , 0 } ，即所有像素都标记为同一个类别0类别（极端类别不平衡）。如表4所示，子类别注释的CBR几乎达到了100%，远高于原始注释的CBR。这表明我们成功地从类别不平衡的原始注释中获得了类别平衡的子类别注释。0从类别不平衡的原始注释成功生成类别平衡的子类别注释。我们还可以观察到，使用普通k-means[44]生成的子类别注释也非常类别平衡（CBR=96.4%），并且使用这样的注释训练的USRN模型可以达到与使用默认聚类策略（即平衡k-means）训练的USRN相当的准确率。这表明我们的方法对不同的聚类策略具有鲁棒性。0特征共享 GPU占用 mIoU0不共享 9.76 Gb × 2 67.3 低级特征共享 8.75 Gb × 2 68.6低级和高级特征共享 6.99 Gb × 2 67.80表5. 分割主干F和辅助网络F sub之间特征共享对PASCALVOC数据集1/32划分的影响：使用默认设置（即共享低级特征）训练的USRN在训练过程中获得了最佳mIoU，并且计算开销较小。需要注意的是，在推断过程中，所有设置的计算成本都是相同的。0特征共享。最近的监督分割模型[3, 9, 69,70]通过整合多层特征实现了高准确率。在USRN的默认设置中，分割主干F和辅助分割模型Fsub共享提取低级特征的层。我们进一步评估了F和Fsub之间特征共享的影响。如表5所示，与USRN使用其他设置（即“不共享”和共享多层特征）训练相比，使用默认设置（即共享低级特征）训练的USRN在mIoU上获得了最高的准确率。而“不共享”的设置具有最低的准确率，这表明原始类别分割和辅助子类别分割相互补充。共享高级特征（即语义特征）降低了USRN的准确率的原因是原始类别分割和辅助子类别分割需要学习不同的语义特征，因为这两个任务的语义信息是不同的。0表6. Eq.3中置信度阈值γ的敏感性：当γ在0.75到0.95的范围内变化时，USRN保持稳定。实验在PASCAL VOC数据集的1/32划分上进行。0参数分析。Eq.3中的置信度阈值γ是生成高质量无偏类别伪标签的重要超参数。我们评估了不同γ下的USRN，表6显示了实验结果。可以观察到，当γ在0.75到0.95的范围内变化时，USRN非常稳定。当γ小于0.75时，性能下降，因为预测的伪标签往往变得嘈杂。当γ大于0.95时，USRN过拟合，因为非常高的置信度阈值返回的伪标签非常有限。我们在实现的USRN中将γ默认设置为0.75。99750方法背景飞机自行车鸟船瓶子公共汽车汽车猫椅子牛桌子狗马摩托车人植物绵羊沙发火车电视 mIoU0基准模型 89.9 73.6 33.8 75.1 42.0 54.4 80.0 75.8 78.9 24.7 50.2 43.1 72.6 50.2 68.2 77.2 34.9 64.8 30.6 67.6 55.1 59.2 CReST [64] 90.5 77.0 38.6 74.848.2 52.1 83.3 76.0 82.9 24.9 61.2 49.8 79.6 63.7 71.2 77.3 41.5 65.9 34.8 74.7 59.1 63.2 DARS [20] 91.3 82.6 37.4 81.9 50.5 58.6 88.5 82.9 82.8 25.556.3 49.1 75.3 64.6 73.6 79.7 42.2 64.0 37.1 73.4 57.9 64.5 USRN (我们的方法) 91.9 84.1 36.1 84.9 52.8 66.4 87.9 81.8 86.4 26.5 75.2 58.6 83.0 73.374.7 80.2 40.7 76.2 42.0 78.5 59.8 68.60表7. USRN与多种类别不平衡学习方法在半监督语义分割上的定量比较。实验在PASCAL VOC数据集的1/32划分上进行。0USRN的性能会因为预测的伪标签变得嘈杂而下降，当γ大于0.95时，USRN会因为非常高的置信度阈值返回的伪标签非常有限而过拟合。我们在实现的USRN中将γ默认设置为0.75。04.4. 讨论0与类别不平衡方法的比较：提出的USRN探索了无偏类别分割来解决半监督分割中的类别不平衡问题。最近的几项研究[20,64]尝试解决半监督学习中的类别不平衡问题。我们将USRN与这些方法进行比较，表7显示了实验结果。可以看到，USRN在整体性能（即mIoU为68.6）和21个类别中的17个类别上都取得了最佳的性能。优越的性能表明，从平衡的子类别分布中探索无偏类别分割比在自训练中为少数类别选择更多伪标签（如[20, 64]）更有效。0方法基准模型 + USRN 增益0DARS [20] 64.5 69.0 +4.5 CPS [10] 64.8 69.2+4.4 CAC [35] 65.1 70.0 +4.90表8. 提出的USRN与最先进的方法[10, 20, 35]在PASCALVOC数据集的1/32划分上相辅相成：所有测试的最先进方法的性能都可以通过集成USRN来大幅提升。0补充研究：我们还研究了提出的USRN是否可以与最先进的方法[10, 20,35]相辅相成，如第4.2节所比较。我们将我们提出的无偏子类别正则化网络集成到最先进的方法中进行研究。表8显示了实验结果。可以观察到，集成USRN显著提高了所有测试的最先进方法的性能，这些方法使用了一致性训练[35]或自训练[10,20]。不同的分割架构：我们进一步研究了USRN是否可以与不同的语义分割架构很好地配合。我们研究了三种广泛使用的架构。0架构基准模型 USRN 增益0PSPNet [69] 49.7 65.4 +15.7 PSANet [70] 56.5 66.5+10.0 Deeplabv3+ [9] 59.2 68.6 +9.40表9. 提出的USRN可以与不同的语义分割架构[9, 69,70]很好地配合，在PASCALVOC数据集的1/32划分上与基准模型相比，性能有显著提升。0使用了包括PSPNet [69]、PSANet [70]和Deeplabv3+[9]在内的多种分割架构，表9展示了实验结果。可以观察到，所提出的USRN在这三种架构下始终以较大的差距优于基准模型。这表明USRN可以很好地与应用金字塔空间池化[69]、注意力机制[70]和空洞卷积[9]的不同语义分割架构配合工作。05. 结论0本文提出了一种无偏子类正则化网络，探索了类别无偏分割来解决半监督分割中的类别不平衡问题。具体而言，通过在平衡的子类分布中学习的类别无偏分割来规范不平衡的原始类别分布中学习的类别有偏分割。为了协调从原始类别和生成的子类同时学习，设计了一种基于熵的门机制，用于抑制不自信的子类预测，以促进子类正则化。全面的实验证明了我们方法在半监督分割中的有效性。未来，我们将研究无偏子类正则化的思想在其他半监督学习任务中的表现，如半监督图像分类和半监督目标检测。致谢。本研究得到了RIE2020工业对齐基金-工业合作项目（IAF-ICP）资助，以及新加坡电信有限公司（Singtel）的现金和实物贡献，通过新加坡电信认知与人工智能实验室（SCALE@NTU）。99760参考文献0[1] I˜nigo Alonso, Alberto Sabater, David Ferstl, LuisMontesano, and Ana C. Murillo.基于像素级对比学习的半监督语义分割与类别记忆库。在计算机视觉国际会议（ICCV）论文集中，页码8219-8228，2021年。20[2] Nikita Araslanov and Stefan Roth.自监督增强一致性用于自适应语义分割。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码15384-15394，2021年。20[3] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.SegNet:一种用于图像分割的深度卷积编码器-解码器架构。IEEE模式分析与机器智能交易，39（12）：2481-2495，2017年。2,70[4] David Berthelot, Nicholas Carlini, Ian Goodfellow, NicolasPapernot, Avital Oliver, and Colin A Raffel.Mixmatch:半监督学习的整体方法。在神经信息处理系统的进展中，页码5049-5059，2019年。20[5] Mateusz Buda, Atsuto Maki, and Maciej A Mazurowski.卷积神经网络中类别不平衡问题的系统研究。神经网络，106：249-259，2018年。1, 20[6] Nitesh V Chawla, Kevin W Bowyer, Lawrence O Hall, andW Philip Kegelmeyer.SMOTE:合成少数类过采样技术。人工智能研究杂志，16:321-357，2002年。1, 20[7] L

下载后可阅读完整内容，剩余1页未读，立即下载