半监督语义分割中的强数据增强与性能优化

89 浏览量更新于2023-10-13 收藏 884KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8229一个简单的半监督语义分割基线与强数据增强*袁建龙1，刘一凡2，沈春华2，王志斌1，李浩11阿里巴巴集团2澳大利亚阿德莱德大学摘要近年来，语义分割研究取得了重大进展。然而，监督语义分割的成功通常依赖于大量的标记数据，这是耗时且获得成本高的。受半监督学习方法在图像分类中的成功启发，本文提出了一种简单而有效的半监督学习框架用于语义分割。我们证明了魔鬼在细节中：一组简单的设计和训练技术可以共同地显著提高半监督语义分割的性能。以前的作品[3，25]未能有效地在伪标签学习中使用强增强，因为强增强引起的大分布差异损害了批量归一化统计。我们设计了一个新的批处理规范化，即分布特定的批处理规范化（DSBN），以解决这个问题，并显示强大的增强语义分割的重要性。此外，我们设计了一个自校正损耗，这是有效的抗噪声。我们进行了一系列的消融研究，以显示每个组件的有效性。我们的方法在Cityscapes和Pascal VOC数据集上的半监督集上实现了最先进的结果。1. 介绍语义分割/像素标注是视觉理解的核心任务之一，广泛应用于场景解析、人体解析等下游应用。这是一个逐像素分类问题，它将图像中的每个像素分类到一组预定义的类别中。在过去的几年中，基于深度卷积神经网络（CNN）的语义分割方法取得了巨大的进展[7，11]。请注意，所有这些成功的共同先决条件是大量像素级标记数据的可用性。不幸的是，标记这样的数据集是非常昂贵和时间-*JY和YL为这项工作做出了同样的贡献。(a) 均值方差图1红线和蓝线分别表示用弱和强数据增强训练的BN统计。消耗，特别是在密集预测问题中，例如语义分割。最近的研究表明，使用大量未标记数据与少量标记数据的半监督学习（SSL）非常有利于分类[1，2，5，6，14，28，36]。这些方法可以分为一致性方法[1，2，28]，伪标记方法[36]，表示学习[14]。一些作品试图将SSL应用于语义分割。天真的学生[3]使用大模型来生成具有未标记视频序列的伪标签，并应用迭代训练以进一步改进。它们仅考虑具有原始输入图像的伪标签，而没有扰动。最近的工作[25]考虑向图像添加扰动以进行语义分割。它们在不同的子解码器中转发具有不同扰动的图像，并加强子解码器和主解码器之间的一致性其他工作注重生成方法[17，23，29]。AdvSemiSeg [17]和[23]中的工作都采用生成对抗网络（GAN），并在未标记数据上使用区分性损失和在标记数据上使用监督性损失来训练模型。在这里，我们提出了一个有效和高效的框架来应用SSL语义分割。我们采用强增强，以更好地利用未标记的数据。先前基于一致性学习的工作[1，6，35]已经表明，在学习过程中添加噪声，伪标签有助于提高图像分类的性能。8230化这些工作的动机，我们建议应用强大的增强语义分割。然而，如图1所示，强增强将不可避免地影响批次归一化（BN）中的均值和方差分布。因此，在这种情况下，需要。这可能是为什么在半监督语义分割中没有使用强增强的原因[3]。采用多个分支网络来处理不同的扰动，如[25]所示为了避免强数据增强引起的分布偏移，我们提出了一种简单而有效的方法，即特定于分布的批量归一化（DSBN）。在训练过程中，我们分别对强增广数据和弱增广数据进行不同的批量统计，并利用弱增广数据计算出的批量统计对模型进行推理。此外，由于教师网络可能不是在所有情况下都表现良好，所以一些不可靠的区域可能被包括在所生成的伪标签中。因此，直接从所有像素学习将不可避免地引入标签噪声。受[32]中先前工作的启发，该工作选择不可靠的图像对，并将预测与学习目标交换以抑制标签噪声的负面影响，我们设计了一种新的自校正损失（SCL）并动态修改每个像素的权重和学习目标以进行语义分割。我们的方法在半监督设置下在Cityscapes [7]和PascalVOC数据集[11]上实现了最先进的性能。我们的主要贡献总结如下。• 我们提出了一个有效和高效的半监督学习框架的语义分割。我们在训练过程中采用强增强，而不修改网络结构，例如引入子网络。• 提出了一种基于分布的批处理规范化方法，以适应强数据增广引起的批处理此外，我们设计了一个自训练的鲁棒损失，以减轻标签噪声的负面影响。损失函数能够在一定程度上校正噪声标签，从而抵抗噪声。• 我们凭经验证明了我们的方法的有效性，包括与最先进的方法进行比较，并在半监督设置中对我们的方法进行详细的消融研究进行深入分析。接下来，我们回顾一些与我们相关的工作半监督分类以前的大多数SSL工作都集中在分类任务上。当前最先进的代表性方法包括基于一致性的方法[1，2，28]，伪标记[36]和表示学习方法[5，6，14]。基于一致性的方法利用事实上，未标记图像的预测不应随着微小扰动而显著改变。UDA [35]和ReMixMatch [1]都使用弱增强的示例来生成人工标签，并针对强增强的示例实施一致性。FixMatch通过在未标记丢失和伪标记生成中对输入应用强（ CutOut[10] 、 CTAugment [1] 和RandAugment [8]）和弱数据增强来实现一致性训练伪标记方法依赖于由教师模型生成的伪标记可以有益于新模型的训练的假设。嘈杂的学生训练[36]是这一类中的迭代自训练方法。不同变换之间的对应关系用于表示学习。然后用少量的数据对模型进行半监督语义分割。早期的方法在半监督分割中使用GAN模型[17，23，29]，其中对抗性损失在未标记的数据上训练。最近也提出了基于一致性正则化的方法[13，19，21，21，25它们依赖于未标记数据和标记数据具有相同分布的事实，因此它期望训练的模型对未标记数据和标记数据都具有一致和可靠的预测。在这些工作中，不同的未标记的图像在不同的变换下被用作模型的输入，并且一致性损失被强加在模型的预测掩模上。迄今为止，自我训练推动了最先进的性能[3，41]。请注意，它们都没有试图解决由噪声伪标签引起的负面影响数据扩充。数据增广是一种有效的正则化技术。数据扩充的基本策略包括随机翻转、随机裁剪等。其通常用于训练视觉模型。此外，当输入图像颜色被随机干扰时，初始预处理 [30] 更加复杂。最近， Au-toAugment [9] 改进了图像分类的初始预处理 Ran-dAugment [8]提出了一个显着减少的搜索空间，允许它在目标任务和数据集上进行训练，从而消除了对单独代理任务或数据集的需要所有这些工作都解决了图像分类问题。在这篇文章中，我们建议将强增强应用于语义分割。分离的批处理归一化层。在文献中观察到，采用单独的批次归一化来处理分布外样品可以导致性能改善。AdvProp [34]使用辅助批量归一化来适应来自对抗性示例的域偏移，这些示例是针对8231在监督图像级分类的背景下更有效的对抗训练。我们受到这种方法的启发，但采用了一个辅助的批量归一化处理强增强的训练样本，表现出不同的统计数据从弱增强的样本- ples。共享β和γ参数的Split-BN [38]被提出用于未标记数据集的类别失配和图像失真。TransNorm [31]设计用于非监督域自适应。TransNorm计算不同域的α在这里，我们的动机是解决BN统计差异造成的负面影响，在图像分割任务中的强大的增强。用于噪声数据训练的鲁棒损失函数。一些工作注意到损失函数的学习与噪声标签，并取得了改善的结果。提出了广义交叉熵 [39] ，以实现平均绝对误差（MAE）和分类交叉熵损失（CCE）的优势。受Kullback-Leibler散度的对称性的启发，通过将噪声容限项（即反向交叉熵损失）与标准CCE损失组合来提出对称交叉熵[32]。然而，由于语义分割是像素级分类任务，因此直接将这些方法应用于分割（其被设计用于图像级分类）不太可能产生令人满意的结果。2. 我们的方法2.1. 半监督语义分割在本节中，我们将介绍用于语义分割的简单与CCT[25]不同，它需要针对不同的扰动设计辅助解码器，我们的方法可以应用于任何现有的分段网络。给定一小组标记的训练示例和一大组未标记的训练示例，利用小组标记的训练示例使用标准交叉熵损失来训练初始教师模型。然后，我们使用教师模型来生成伪标签的unlabed图像与测试时增强。遵循朴素学生方法[3]，我们仅生成硬伪标签，即、独热向量。然后，我们训练一个强增强的学生模型，以更好地利用未标记的数据。因此，批次中的数据分布受到强增强过程的干扰，导致与通过弱/标准增强处理的样本的数据分布不匹配。在这里，我们提出了特定于分布的批量归一化（DSBN），以减轻这种批量分布不匹配的负面影响。此外，受对称交叉熵[32]的启发，为了使用潜在的噪声标签进行学习，我们开发了一种新的损失函数，即自校正损失（SCL）。SCL用于适应具有噪声标签的学习。最后，与[3]中一样，我们迭代通过将学生放回教师来生成新的伪标签并训练新的学生。强大的语义分割数据增强（SDA）。虽然监督和半监督图像分类的增强策略得到了广泛研究[1，9，28，35]，但对于语义分割的努力要少得多。我们将随机增强应用于语义分割。如图2所示，我们构建了一个操作池，其中包含16个图像转换方法。在每次训练迭代中，我们从池中随机选择一系列操作，然后将它们与语义分割的标准变换（随机缩放、随机裁剪、随机翻转等）组合。2.2. 特定于分布的批标准化正如在以前的一些作品中提到的[4，27，40]，批量归一化（BN）对于语义分割至关重要。BN计算小批量平均值（µB）和标准差（σB）[18]，公式（1）。然后，如等式（2）所示，BN使用可学习的尺度（γ）和移位（β）参数来变换归一化分布。同时，通过等式（3）更新移动均值和移动方差在测试阶段，BN使用移动均值和移动方差来白化输入激活。然而，强增强可能会改变自然图像的分布，并导致训练图像和测试图像之间的域间隙。因此，在训练阶段期间计算的移动为了解决这一问题，我们提出了特定于分布的批量归一化（DSBN）。具体来说，我们有两个独立的BN：BN w用于弱/标准增强的样本;和BNTransforms=[基本变换=[' random scale '，' random flip '，'random crop'，'Normalization' ]# data augmentationfuncdefSDA（N）：“生成一组扭曲。参数：N：数量的增强。变换按顺序应用““”sampled ops = np.random.choice（Transforms，N）返回sampled ops +基本变换图28232MΣΣBM我BM我B在训练期间自动调整置信度。如果信心很高，我们就采用积极学习。如果置信度非常低，则我们认为该像素的伪标签因此，应用了反向学习。此外，SCL仅适用于伪标签：li=wi·yilog（yi*）+（1−wi）·yi*log（yi），（4）图3-exp（yi0）exp（yi*c）（五）在训练阶段，具有强增强的图像被wi= max（Σcexp（y），.，Σcexp（y_n））。具有弱增强的图像通过BNs，而具有弱增强的图像通过标准BNs。在测试阶段期间，丢弃BNs。j=0ij3. 实验j=0ij强扩增样本（见图3）。在训练阶段，如果数据样本来自伪标签，则在前向中使用BN s;否则，使用BN w。在测试阶段，BNs被弃用，只有BNw用于归一化：在本节中，我们首先报告实现细节。然后进行了一系列的烧蚀实验，并对实验结果进行了详细的分析。最后，我们报告我们的结果与其他国家的最先进的方法。3.1.实现细节训练我们的实现基于Pytorch [26]。mΣ0。5µ=1Σx;σ=1（x−µ）2+ε，（1）根据以前的工作[4]，我们使用1-iter/iter）功率。初始学习速率为Maxy=γ（xi−µB）+β，（2）iσB设置为0。01，功率设置为0。9 .第九条。我们训练网络-工作使用迷你浴随机梯度下降（SGD）。我们在Cityscapes上使用了769×769的裁剪尺寸µt+1= αµt+（1 − α）µt+1，σt+1= ασt+（1− α）σt+1。2.3.自校正损耗（三）DeepLabv3Plus [4]的文件。更多细节与[4]相同。在在[4，20，33，37，40]之后的加法研究中，我们采用了平均联合交集（mIoU）作为评价指标。数据扩充。在[4]之后，我们使用平均减法，先前的工作[32]已经表明，交叉熵损失掩盖了模型对图像分类中一些较容易的类上的噪声标签的过拟合和对一些较难的类的学习不足。由于语义分割是逐像素分类问题，因此也存在类似的挑战。此外，在半监督学习框架中，学习目标是伪标签，其可能包含由当前教师模型的有限容量引起的不可靠区域为了避免过拟合的噪声中包含的伪标签，我们提出了一个自校正损失（SCL）的语义分割。它分配一个自适应的权重的信心，信心的网络输出到每个像素在训练阶段。此外，我们将噪声鲁棒性术语反向交叉熵[32]应用于不可靠区域。不同于以往的工作，选择反向学习对固定的信心，从人类的启发式，我们动态地改变学习目标，通过比较学生网络和教师网络的输出。如等式⑷所示（i是位置索引），注意到像素的预测，yi表示由教师生成的伪标签，并且wi表示动态权重，其是所有c个类别中softmax之后的最大激活（参考等式（5））。我们用预测来增强垫块薄弱BNw强大的增强。BNsi=1i=18233在初始化训练期间，通过在0.5和2之间随机调整大小和随机左右镜像来应用数据增强。在半监督学习阶段，我们使用强增强来提高自训练的性能数据集。在[3]之后，我们对Cityscapes数据集[7]进行了主要实验和消融研究。这个大规模的数据集包含不同的立体视频序列记录在50个不同的城市街景。在ad-除了20k弱注释帧之外，还有5000个高-质量像素级注释帧，其中，2，975;500和1，525用于训练、验证和测试。此外，有20k个图像具有粗略的注释，即训练粗糙。我们在标准训练集中随机子采样1/8，1/4和1/2的图像，以构建像素级标记数据。列车上剩下的画面ing集被用作未标记数据。最后，我们在Pascal VOC 2012数据集[11]上报告了我们的结果，该数据集包含21个类，包括背景。标准的PascalVOC2012数据集有1449张图像作为训练集，1456张图像作为验证集。我们构造了1449幅图像作为像素级的标记数据。增强集[15]中的图像（大约9k个图像）被用作未标记数据。8234Deeplabv3plusC71.276.278.079.5Deeplabv3plusC C71.376.378.279.7Deeplabv3plusC C C72.376.978.780.0Deeplabv3plusC C C C72.877.478.780.4Deeplabv3plusCCCCC74.177.878.780.5表1-对所提出的半监督学习框架的消融研究。这里的模型是具有Xception65骨架的Deeplabv3plus。's.t.'表示在没有强增强的情况下使用伪标签进行自训练。“SDA”意味着强大的数据增强。'DSBN'表示分布指定批次归一化。“SCL”是建议的自校正损耗。'iter.'表示迭代训练。在具有单尺度输入的验证集上评估结果。“mIoU- 1 / n”意味着我们使用1 / n个标记数据，训练集中的剩余图像用作未标记数据。集合，并且train-coarse被用作未标记的数据集。3.2. 消融研究在本小节中，我们进行实验，以探索在不同的半监督设置下，每个提出的模块的有效性。首先，我们为我们的实验建立基线。我们基于Xception65在验证集上使用交叉熵评估DeepLabv3Plus接下来[3，36]，自训练采用基线模型作为教师模型，教师模型在未标记的数据集上生成伪标签，然后在伪标签和原始标记图像上训练不小于教师模型的学生模型我们用天平-747372717069680 1 2 34 5 6 7包括0. 5，0。75，1。0，1。五一75并翻转剩余的图像以生成伪标签。为了公平比较和快速训练，学生模型是由教师模型初始化的相同模型。主要结果如表1所示，我们将在以下章节中详细讨论每个所有消融研究均在Cityscapes上进行。3.2.1不同的半监督设置我们遵循以前的工作[13，17，29]，根据不同的比例将训练集划分为标记数据和未标记数据。我们使用训练数据集的1/8，1/4和1/2作为标记数据，其他图像作为未标记数据。评价结果分别以mIoU-1/8、mIoU-1/4、mIoU-1/2示于表1从表1中可以看出，我们的算法可以有效地提高性能5。2%、4. 4%、1. 8%、1. 8%，分别。当标记数据和未标记数据的总数不变时，如果我们有更少的标记图像，半监督学习框架将有同时，如果我们有更多高质量的标记图像，最终的结果会更好。我们还可以看到，在所提出的半监督学习框架的帮助下，只有一半的标记数据量可以实现相同的结果（mIoU为78. 7%），因为我们使用所有带有监督学习的标记训练数据（第1行和第10列）。当可用数据的总数增加时，半未标记数据与标记数据图4监督学习将发挥更有价值的作用。我们使用训练集中的所有高质量标记数据作为标记数据，并使用train-coarse作为未标记数据进行实验，评估结果在表1中称为mIoU-Full。我们可以看到，在具有大量标记数据的强基线下，如果可以获得额外的未标记数据，则所提出的半监督学习框架的性能将在实际应用中，标记数据往往是有限的，而未标记数据很容易获得。探索增加训练集中未标记数据的比例的影响。我们将标记数据固定为训练集的1/8，并增加未标记数据的数量。结果如图4所示.从图4中，我们可以看到，增加未标记数据与标记数据的比例会改善结果，但性能的增长趋势逐渐变平，这受到在固定标记数据上训练的初始教师模型的能力的限制如果在训练过程中引入太多未标记的图像，性能甚至会略有下降。73.1七十三点一72.772.872.1七十二点零71.168.9Miou模型S.T.SDADSBNSCLITER。mIoU-1/8（%）mIoU-1/4（%）mIoU-1/2（%）mIoU-已满（%）Deeplabv3plus68.973.4 76.978.782353.2.2强扩在本节中，我们将展示拟议的强增强和DSBN的影响。首先，如表1所示，我们比较了朴素自训练和与强增强和所提出的DSBN组合的自训练的结果。尽管自训练可以提高基线性能，但自训练直接使用伪标签，这使得网络难以学习并引入噪声，如第2节所述。同时，在仅使用强增强的情况下，性能没有显著改善。相反，我们的方法对具有强增强和DSBN的朴素自我训练表现良好。特别是，与朴素的自我训练相比，我们的方法将mIoU提高了1。1%、0. 7%、0. 7%和0。5%基于DeepLabv3Plus。在以下部分中，我们分析BN统计的分布，然后比较不同BN设置的强增强。最后，我们提供了一些关于强增强如何与地面真值标签和伪标签一起工作BN统计的可视化为了验证我们的陈述，即BN的分布将受到强增强的影响，我们显示了使用强增强输入图像和弱增强输入图像的BN训练的统计数据。可视化结果见图1。从整个训练统计量获得的均值和方差的分布如图1所示，我们计算了弱增广和强增广的BN的均值和方差的分布。蓝线表示具有弱增强的BN的分布我们可以看到，强增强改变了BN统计的分布，这可能导致畴隙。我们认为这就是为什么强增强没有带来太多性能改进的原因，如表1所示。DSBN的影响。为了显示所提出的DSBN的有效性，我们进行实验以比较如下三种不同的BN设置• 可训练BN：在训练期间利用弱增强数据和强增强数据更新均值和方差。• 固定BN：均值和方差在训练过程中是固定的，并使用ImageNet分类的预训练权重进行初始化。• DSBN：在训练期间分别针对弱增强数据和强增强数据基线模型是用训练集上的1/8标记数据其他7/8图像用作半监督学习中的未标记数据集。结果示于表2中。我们可以看到，与建议的DSBN，性能可以提高0。7%，表明DSBN有助于解决强增强带来的负面影响。讨论。为了进一步了解强增强和DSBN对不同数据组的影响，我们仅将强增强应用于地面真值标签和伪标签。• 1/8真相我们只使用训练数据集的1/8图像和相应的地面真实标签来训练模型。• 全面的真相我们使用训练数据集的所有图像以及相应的地面真值标签来训练模型。• 7/8个伪标签。我们用训练数据集的7/8个图像和相应的伪标签来训练模型。对于每个设置，我们在训练期间应用每周增强，实验结果示于表3中。我们可以看到，在完全监督的设置下，强增强并不能带来额外的改进。同时，当应用于具有伪标签的未标记数据时，mIOU提高了0。百分之八这些观察结果表明，在半监督设置下的改进不是来自标记数据上的额外从表3中，我们还发现DSBN可以有助于训练。此外，据我们所知，这是第一次在全监督设置下将强增强应用于语义分割，并且观察到改进。3.2.3自校正损失为了进一步提高性能和减少噪声的影响，我们采用了自校正损耗（SCL）。从表1中，我们可以看出，当伪标签包含更多噪声时，所提出的SCL将发挥更重要的作用用有限的标记数据集训练的教师模型可能得到较少的有用知识，并且不能很好地推广未标记的数据集。因此，噪声的水平高于基线mIoU（%）ST 71.2ST + SDA +可培训BN 71.3ST + SDA +固定BN 71.6ST + SDA + DSBN 72.3表2-8236方法mIoU（%）74.5使用地面实况标签进行74.073.5使用伪标签进行73.072.51 2 3 4表3-强扩增对不同数据的影响。迭代次数图6-DeepLabV 3 Plus在不同迭代次数下的性能。在更多标记数据上训练当我们使用1/8或1/4标记图像进行训练时，SCL可以将mIoU提高0。百分之五此外，我们在训练在图5中，使用和不使用建议的SCL的相位。在没有SCL的情况下进行训练，结果会很快出现相反，结果相对稳定。8060402000 5000 10000 15000 20000训练迭代图5训练期间的迭代次数。绿线代表SCE损失[32]。此外，我们在CE和RCE之间设置相同的比率。红线代表我们建议的损失，其初始权重与SCE损失相同。3.2.4迭代训练在Naive Students [3]之后，我们还测试了半监督学习框架中迭代训练表1表明，如果可以获得更多的标记数据，则迭代训练将变得不那么有用。因为用更多的标记数据训练的初始教师模型已经可以产生令人满意的伪标记。我们在图6中示出了迭代次数的性能变化。基准模型是DeepLabV3PlusECS [22] DeepLabv3Plus 67.4 70.7 72.9 七十四点八基线DeepLabV2 60.6 66.7 69.3 70.1我们的DeepLabV2 67.6 69.3 70.7 70.1基线DeepLabV3Plus68.9 73.4 76.978.7我们 DeepLabV3Plus74.177.878.7 七十八点七表4-与Cityscapes值集上的最新方法进行比较。这里的使用1/8标记的图像进行训练我们可以看到，更多的迭代确实有助于提高性能，但性能的增长趋势正在逐渐平缓。可视化结果图7中示出了若干可视化结果。我们可以看到，基线和自我训练不能很好地分离的对象（特别是大尺寸的对象，如公共汽车，卡车，火车，人行道）完全，而我们的纠正这些错误。与基线模型和自训练相比，我们的方法在这些小尺寸对象类（诸如杆和3.3. 与最先进方法的城市景观。我们在表4中与其他最先进的算法进行比较实验。为了进行公平的比较，我们还将我们提出的框架应用于DeepLabV2 [17]。特别是，DeepLabV 2基于ResNet-101，该ResNet-101使用ImageNet分类的预训练权重进行初始化。在DeepLabV2平台而使用DeepLabV3Plus分别为74.1%、77.8%、78.7%，这与先前的最先进的方法相比表现良好。有关DeepLabV2消融研究的更多详细信息，请参见补充材料。Pascal VOC。我们遵循DeepLabV3Plus [4]训练细节，在Pascal VOC [11]上使用513×513裁剪大小。Ta-74.173.773.472.8MiouMiou1/8-地面实况1/8-ground truth + SDA1/8-地面实况+SDA + DSBN68.968.669.5完全真实78.7完全真实+SDA78.7完全真实+ SDA + DSBN79.27/8-伪标签70.67/8-伪标签+SDA71.47/8-伪标签+SDA + DSBN72.5我们将强增强应用于使用方法模型1/8四分之一1/2满仅标记数据，以及仅具有伪标记的未标记数据高级半隔离区[17]DeepLabV258.862.365.7 66.0分开[23]第二十三话DeepLabV259.361.9-65.8[13]第十三话DeepLabV260.363.87-67.7DST-CBC [12]DeepLabV260.564.4-66.9[24]第二十四话DeepLabV261.463.666.3 66.28237（a）图像（b）基线（c）ST（d）我们的（e）GT图7基线方法使用所有标记图像的1/8进行训练。‘ST’ represents the self-training trained with ‘Ours’ is our framework with 所提出的半监督的方法相比，基线和天真的自我训练产生改进的结果。我们在黄色框中突出显示了详细信息。方法模型mIoUGANSeg [29] VGG16 64.1[17]第十七话CCT [25] ResNet-50 69.4[42]第四十二话我们ResNet-10175.0我们Xception-6579.3完全监督ResNet-10178.3完全监督Xception-6579.2表5-我们使用官方训练集（1.4k）作为标记数据，而增广集（9k）作为未标记数据。表5列出了其它现有技术方法和我们的方法的性能结果。实验采用单尺度测试。为了进行公平的比较，我们在不同的主链下进行了实验我们的框架基于Resnet-101 [16]实现了 75.0%的mIoU，基于Xception-65 [4]实现了79.3%的mIoU，比PseudoSeg [42]高出1.8%。同时，我们发现，我们的结果基于Xception-65可以达到相同的性能的完全监督设置。此外，我们发现迭代训练对Pascal VOC的改善是有限的，这可能是由于样本数量少4. 结论在这项工作中，我们构建了一个简单的半监督学习框架的语义分割。它采用具有分布特定批处理归一化的强大增强，以及伪标签学习。特别地，DSBN可以有效地避免强增强引起的BN统计漂移。同时，我们还设计了一个自校正损失，有效地消除了伪标记引入的标签噪声。定量和定性的比较表明，该方法对最近的国家的最先进的半监督方法表现良好。引用[1] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。混音-匹配：具有分布匹配和增强锚定的半监督学习。在procInt. Conf. 学习. 代表。，2019年。一、二、三[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在proc Adv.神经信息。过程系统，第5049-5059页，2019年。一、二[3] Liang-Chieh Chen ， Raphael Gontijo Lopes ， BowenCheng ， Maxwell D Collins ， Ekin D Cubuk ， BarretZoph，Hartwig Adam，and Jonathon Shlens.视频序列中的半监督学习用于城市场景分割。Proc. EUR.确认补偿目视，2020年。一、二、三、四、五、七[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在proc EUR.Conf. Comput. 目视，第801三、四、七、八[5] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大自我监督模式-8238ELS 是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。一、二[6] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。一、二[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。正在进行IEEE会议Comput.目视模式识别，第3213一、二、四[8] Ekin Cubuk，Barret Zoph，Jonathon Shlens和Quoc V.乐Randaugment：减少搜索空间的实用自动数据增强在proc Adv. 神经信息。过程系统，2020年。2[9] Ekin D Cubuk ， Barret Zoph ， Danjay Mane ， VijayVasude-van，and Quoc V.乐AutoAugment：从数据中学习正在进行IEEE会议Comput.目视患者记录，第113-123页，2019年。二、三[10] 作者声明：Dr.Taylor.改进的卷积神经网络的正则化。arXiv预印本arXiv：1708.04552，2017。2[11] MarkEveringham 、 LucVanGool 、 ChristopherWilliams、John Winn和Andrew Zisserman。pascal视觉对象类（ voc ）的挑战。 Int. J. Comput. 目视， 88（2）：303一、二、四、七[12] Zhengyang Feng ， Qianyu Zhou ， Guangliang Cheng ，Xin Tan，Jianping Shi，and Lizhuang Ma.通过动态自我训练和班级平衡课程的半监督语义分割。arXiv预印本arXiv：2004.08514，2020。7[13] Geoff French ， Timo Aila ， Samuli Laine ， MichalMackiewicz，and Graham Finlayson.半监督语义分割需要强的、高维的扰动。 Proc.英国人马赫。目视Conf. ，2019年。二、五、七[14] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap你自己的潜在：一种自我监督学习的新方法。在proc Adv. 神经信息。过程系统，2020年。一、二[15] Bhara thHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓在Proc. Int. Conf. Comput.目视，第991-998页。IEEE，2011年。4[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议计算机目视模式识别，2016年。8[17] 洪伟智、蔡怡萱、刘彦婷、林彦宇、杨明萱。半监督语义分割的对抗学习。 Proc. 布莉马赫目视Conf. ，2018年。一、二、五、七、八[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。程序国际会议马赫学习. ，2015年。3[19] 张汉柯，邱迪，李凯灿，严琼，刘永成.针对像素智能的8239半监督学习arXiv预印本arXiv：2008.05258，2020。2[20] Guosheng Lin，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在proc IEEE会议计算机。目视模式识别，第1925-1934页，2017年。4[21] 洛文峰，杨梦。基于强弱双分支网络的半监督语义分割在procEUR. Conf. Comput. 目视，第784Springer，2020年。2[22] Robert Mendel ， Luis Antonio de Souza ， DavidRauber，Jo aoPauloPapa，andChristophPalm. 基于纠错监督的半监督分割在procEUR. Conf. Comput. 目视，第141Springer，2020年。7[23] Sudhanshu Mittal 、 Maxim Tatarchenko 和 ThomasBrox。具有高、低层次一致性的半监督语义分割。IEEE传输模式分析马赫内特尔，2019年。一、二、七[24] Viktor Olsson，Wilhelm Tranheden，Juliano Pinto，andLennart Svensson. ClassMix：用于半监督学习的基于分段的数据增强。在Proc. Winter Conf.应用计算目视，2021年。7[25] Yas sineOuali，C e'lineHudelot，andMyriamTami. 具有交叉一致性训练的半正在进行IEEE会议Comput.目视模式识别，第12674-12684页，2020。一二三八[26] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。在Proc. Adv. Neural Inform.过程系统，第80264[27] SamuelRotaBu lo`，Lo r enzoPorzi，andPeterKontschieder. 用于dnn记忆优化训练的就地激活batchnorm正在进行IEEE会议Comput.目视模式识别，第5639-5647页，2018。3[28] 孙基赫，David Berthelot，李春良，张子昭，NicholasCarlini，Ekin D.Cubuk，Alex Kurakin，Han Zhang，and Colin Raffel.FixMatch：用一致性和信心简化半监督学习。在Proc. Adv. Neural Inform.过程系统，2020年。一、二、三[29] 纳西姆·苏利康塞托·斯潘皮纳托和穆巴拉克·沙阿。使用生成式对抗网络

下载后可阅读完整内容，剩余1页未读，立即下载