半监督语义分割：GuidedMix-Net利用标记信息指导未标记数据学习

109 浏览量更新于2023-12-01 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文GuidedMix-Net：基于标记图像的半监督语义分割涂鹏*1、2、黄亚文*3、郑峰<$1、何振宇4、曹柳娟5、邵凌61南方科技大学，深圳2深圳市微比特电子科技有限公司有限公司，中国3腾讯贾维斯实验室，中国深圳4哈尔滨工业大学，中国深圳5厦门大学，中国厦门6沙特数据和人工智能管理局国家人工智能中心，沙特利雅得yh.peng.tu@ gmail.comyawenhuang@tencent.com，zfeng02@gmail.comzhenyuhe@hit.edu.cn，caoliujuan@xmu.edu.cn，ling. ieee.org摘要半监督学习是一个具有挑战性的问题，其目的是通过从有限的标记样本中学习来构建模型。许多用于此任务的方法集中于仅利用未标记实例一致性的预测来正则化网络。然而，将标记数据和未标记数据分开处理会导致从标记样本中学习到的大量先验知识被丢弃。在本文中，我们提出了一种新的半监督语义分割方法命名为GuidedMix-Net，利用标记的信息来指导学习的未标记的instances。具体而言，GuidedMix-Net采用三种操作：1）相似的标记-未标记图像对的插值; 2）互信息的传递; 3）伪掩模的生成。它通过将标记样本的知识转移到未标记数据中，使分割模型能够学习未标记数据的更高质量的伪掩模随着对标记数据的监督在PASCAL VOC2012和Cityscapes上进行的大量实验证明了我们的GuidedMix-Net的有效性，它实现了竞争性。有效的分割精度，与以前的方法相比，mIoU显著提高了+7%1介绍在过去的几年里，卷积神经网络（CNN）在视觉语义分割方面取得了成功（ Long ， Shelhamer ，andDarrell2015;Ronneberger ， Fischer ， and Brox 2015b;Huanget al. 2020;Chen et al. 2017;Huang et al. 2021）尽管数据驱动的深度学习技术已经从大规模图像数据集的可用性中受益匪浅，但它们需要密集和精确的像素级注释来进行参数学习。因此，替代学习策略（如半监督）已成为减少对符号的需求的有前途的方法，需要更简单或更少的图像分类标签（Tarvainen和Valpola2017 a; Takeru等人）。2018;Sohn et al. 2020年）。*同等贡献†通讯作者Copyright © 2022，Association for the Advancement of ArtificialIntelligence（www.aaai.org）. All rights reserved.(a)投入（b）一般技术人员（c）有条件现金援助（d）我们的图1：上部（虚线框）：互信息转移模块选择相似的特征，将知识从标记的样本转移到未标记的图像。下图：地面实况（GT）的示例（b），CCT的伪掩码(c)我们的（D）最近的用于语义分割的半监督方法，例如（Ouali，Hudelot 和 Tami 2020;Luo et al. 2020;French et al.2020;Olsson et al. 2021），通过扰动未标记的样本来正则化模型训练，从而利用一致性。直观地说，模型被期望在观察数据的自然属性的同时，特别是对于未标记的数据，表现出任何小扰动下的不变性为了解决这个问题，已经提出了许多半监督语义分割方法来对抗利用未标记样本时的扰动。例如， CCT（ Ouali ，Hudelot和Tami 2020）通过为每种类型的扰动设计分离的、不相关的解码器来引入随机手动扰动。DTC（Luoetal. 2020）构建了任务级正则化，而不是数据级扰动。CutMix（French et al. 2020）和Class- Mix（Olssonet al. 2021）遵循MixUp（Zhang et al. 2017），并通过强制对增强数据和原始数据的预测保持一致来实现半监督分割。arXiv：2112.14015v1 [cs.CV] 2021年12+v：mala2255获取更多论文尽管多年来已经引入了各种方法，但半监督分割模型的关键瓶颈在于它们通常在训练期间单独处理标记和未标记的样本。现有的方法集中在如何在各种人工扰动下单独使用未标记数据。一方面，虽然低水平的扰动确实稍微提高了鲁棒性，但未标记实例的丰富内在信息尚未被充分挖掘。例如，基于一致性的方法主要依赖于样本本身的局部信息，通过约束局部光滑度。这种策略不能全面地挖掘结构信息，特别是对于未标记的数据，这反过来又导致模型产生次优解。基于一致性的方法的另一个明显的缺点是它们需要大量的和不同的扰动，这是昂贵的和耗时的获得。例如，CCT（Ouali，Hudelot和Tami 2020）包含了近30个解码器，以使学习的模型足够鲁棒。图1（c）中所示的示例结果还证实，使用简单扰动一致性训练生成伪掩模在换句话说，从标记样本中学习到的大量先验信息不能转移到未标记数据中。现有的半监督语义分割方法在不同的训练阶段对标记和未标记数据提供了不一致的优化目标，其中标记样本用于提高模型的区分能力，未标记样本用于增强模型的平滑性然而，我们应该能够在标记样本的指导下，通过利用大量未标记的数据来这将使学习到的表征能够被细化，从而促进相互信息的交互和传递。我们还注意到，人类可以通过基于相似或可识别的物体进行推断，下意识地识别不熟悉的物体例如，在图1中，虚线框提供了具有相似对象的标记图像A和未标记图像B大多数人通过将他们对图像A的知识转移到图像B中，就可以识别和分割图像B中的目标。相比之下，现有的深度模型通常使用有限的标记样本进行训练，并且最直接地生成图像B的伪掩模，使得难以为未看到的样本产生高质量的预测，如图1（c）的底部所示。图1中所示的示例是相对简单的场景;自然图像通常复杂得多，例如具有多个被包含的对象，这使得它们分割起来更具挑战性。另一个观察是，类似的物体（例如，类内对象）通常包含公共边缘和纹理。改进未标记数据分割的直观方法是参考标记图像，就像人类一样。出于这些问题，我们提出了一种新的半监督语义分割方法，名为GuidedMix-Net。GuidedMix-Net允许知识从标记的图像转移到未标记的样本，就像人类的认知路径一样。，标记-未标记图像对插值，μ-真实信息传输和伪掩码生成。具体来说，我们将标记和未标记的图像对作为模型的输入，并对它们进行线性插值以捕获成对的相互作用。然后，我们从混合数据中学习统一的特征向量，以继承图像对中的不同上下文。为了结合非局部块（Wanget al. 2018）到混合特征层中，在图像内和图像之间探索长期依赖关系，以挖掘相似的对象模式并学习语义相关性。我们进一步选择具有相似特征的对象，以确保不同图像对的线索相似。特征选择通过使用来自标记图像的监督信息作为参考来提高未标记图像的预测和掩模质量。然后，对混合预测进行解耦，得到未标记图像的伪掩模.因此，生成的伪掩模比未标记样本的直接预测更可信。最后，这些对可以用于自我训练，以探索未标记示例提供的丰富的潜在语义结构，并进一步提高我们模型的性能。2相关工作2.1半监督分类半监督分类方法（ Sajjadi ， Javan-marti 和 Tasdizen2016;Tarvainen和Valpola 2017 b;Takeru等人2018）通常专注于通过结合标准监督损失（例如，交叉熵损失）和无监督一致性损失，以增强对未标记样本上的扰动的一致预测。随机性对于机器学习至关重要，可以保证模型的泛化和鲁棒性，或者为同一输入提供多个不同的预测。在此基础上，Sajjadi等人（Sajjadi，Javan-marti和Tasdizen 2016）引入了一种无监督损失函数，该函数利用随机化数据增强，dropout和随机最大池化的随机属性尽管这些随机增强技术可以提高性能，但它们仍然难以提供有效的边界约束 Miyato 等人（Takeruet al. 2018年）提出了一个虚拟对抗训练方案，以实现平滑的正则化。他们的方法旨在通过基于虚拟对抗损失的正则化来扰动模型的决策边界，以测量条件标签分布的局部平滑度2.2半监督语义分割半监督语义分割算法近年来取得了巨大的成功（Papandreouetal.2016;Weietal.2018;Souly ，Spampinato ，and Shah 2017;Lee et al. 2019;Hung et al.2018）。例如，EM- Fixed（Papandreou et al. 2016）提供了一种新的在线期望最大化方法，通过从弱注释数据（如边界框、图像级标签）或一些强标记和许多强标记的组合进行训练。+v：mala2255获取更多论文← −∈”。ΣWΣ监督方法旨在训练将图像x作为输入的CNNΓ（x;θ），其中θ表示模型的参数LuENCLENCHu弱标记图像，来自不同的数据集。EM- Fixed受益于使用少量标记和大量未标记的数据，即使与其他完全监督的方法相比也能实现竞争结果。从某种角度来看，EM-Fixed涉及用于训练的弱标签，因此不是纯半监督方法。 Spampinato 等人（ Souly ， Spampinato 和Shah2017）在生成对抗网络（GAN）中使用有限的标记数据和丰富的未标记数据设计了一种半监督语义分割方法他们的模型使用判别器来估计未标记数据的预测质量。如果质量分数高，则从预测生成的伪标签可以被视为地面实况，并且通过计算交叉熵损失来优化模型。然而，在有限数量的标记数据上训练的模型通常会在以下方面失败：1)它们产生不准确的低级细节; 2）它们错误地解释高级信息。为了解决这些问题，s4 GAN-MLMT（Mittal，Tatarchenko和Brox 2019）融合了一个基于GAN的分支和一个分类器来区分生成的分割图。然而，考虑到GAN的内在训练困难，一些半监督图像分类方法反而采用一致性训练有时甚至是不可行的相比之下，对于一些计算机视觉任务，可以相对容易地收集大量未标记的数据，并且难以获得标记的样本在这种情况下，完全监督的训练方案在存在轻微数据不足时无法获得良好的性能为了解决这个问题，并在训练过程中使用未标记的总体框架如图所示。二、为了利用标记样本来指导未标记样本的可信伪掩模的生成，GuidedMix-Net使用三个操作：1）图像对的插值; 2）互信息的传递;3）伪掩模的生成，这将相应地被介绍3.1标记-未标记图像对插值标记-未标记图像对插值（LUPI）应用线性插值来为具有潜在相似标记样本的当前未标记实例制定数据混合目标，以保证线索相似，并使信息能够在它们之间流动给定一对样本（xi，yi）和xk，图像级这是一项确保在小变动下取得类似产出的战略，因为这是一项灵活和易于执行的战略。CCT（Ouali，Hudelot，卢卢2.x mix（x l，x u）= λx l+（1 − λ）x u。（二更）和Tami 2020）采用这种训练方案用于半监督语义分割，其中在施加到解码器的输出的具体地，使用几个标记的示例以监督的方式训练共享的编码器和主解码器为了利用未标记的数据，CCT强制执行主解码器预测和另一组解码器之间的一致性（对于每种类型的扰动），并使用来自编码器的不同扰动输出作为输入来改进表示。与以前的方法主要集中在学习未标记数据不同，我们使用标记图像作为参考，并转移它们的知识来指导从未标记数据中学习有效信息。结果表明，该方法能够从标记图像中提取高质量的特征，并通过两两交互的方式对未标记图像进行特征提取3引导混合网络假设我们具有有限数量的标记图像S1={x1，y1}，其中y1是图像 x1的真实掩模，以及大量没有注释的数据Su={xu}。图像插值后的输出可以表示为xmix。为了在标记样本xl上学习未标记数据xu，我们设置λmin（λ，1λ），其中λ（0，1）是从Beta（α，α）分布中采样的超参数，α。在这里，α被预定义为1。相似图像对选择尽管LUPI使模型能够在标记和未标记图像之间关联相似线索，但随机选择图像对将不允许将知识从标记数据转移到未标记数据，因为单个图像对可能不包含足够的相似对象。我们克服了这个问题，在一个小批量的训练构造相似的图像对具体地说，我们在编码器之后添加一个全连接层作为分类器，以增强池化特征的语义，并根据欧几里得距离（如等式2所示）选择其中，renc是图3的编码器模块，GuideMix-Net）进行图像对。请注意，类-Sifier首先使用标记数据进行训练，因此具有一定的识别能力。该过程允许所提出的模型为每个未标记的图像捕获最相似的标记示例进一步讨论见附录A。图像x∈RH×W 空间尺寸为H×W且y∈RH×W×C有C范畴.完全苏-d（xi，xk）=， n（r（xi）-r（xk））2.（三）并通过最小化交叉熵损失Lce输出分段掩码y，如下所示：Lce（y，y）=− yilog（yi），（1）我其中i表示第i个类别。通常，收集大规模标记的训练数据是耗时的，昂贵的3.2互信息传递在混合这对样本之后，我们将相似的线索关联起来以增强特征并生成未标记样本的伪掩码。通常，标记的数据对应于可信特征，并且未标记的数据被视为质量差的特征，因为不存在监督信号来引导梯度更新。这意味着，在制服+v：mala2255获取更多论文×Σj，nJ−−×图2：我们提出的半监督分割方法概述。GuidedMix-Net遵循U-Net的基本架构，由编码器-解码器架构组成。主解码器由ResNet构建，而解码器由我们的MITrans模块组成。对于vj，但是通道数是vj的一半，为了降维然后，我们通过计算Q和K之间的相关性来生成相关矩阵D。还在通道维度上的D上利用软最大层以获得注意力图A= f（Q，K）。为了获得适应具有11滤波器的另一卷积层vj的特征用于生成V而不改变大小远程上下文信息由如下的聚集操作捕获图3：MITrans模块的构造细节。'j，n=1f（QC（x）布勒姆，Km）Vm+vj，n、（五）在混合向量空间中，对于一对来自不同来源的相似对象，差的特征可以借鉴可信的特征来提高其质量，无论可信与否，其中n和m分别是变量空间中需要计算其响应的位置和所有其他潜在位置的索引参数V'表示信息位于短距离或长距离。虽然最终输出中的特征向量在位置n处具有特征v'，LUPI使短距离的可信信息流向更差的特征（见附录A），CNN在从遥远的空间位置捕获信息时无效。我们通过应用非局部（NL）块（Ouali，Hudelot和Tami2020）来解决这个问题，以获得类似于混合数据的给定局部区域的长距离补丁。在混合标记-未标记图像之后，我们获得包含来自输入对的所有信息的互图像。然后将混合数据x_mix馈送到编码器以进行分段r，直到到达层j，从而提供输入。中间体vj如下：vj=hj（xmix）。（4）另一个中间体vj1由j 1产生层，其空间大小是vj的两倍。非本地模块从远程特征中收集上下文信息，以增强本地特征表示。如图3的虚线框所示，模块使用两个卷积层11和滤波器vj来映射并获得两个特征Q和K。空间大小与并且vj，n是vj中在位置n处的特征向量。函数f用于表示关系，例如Qn和所有Km之间的亲和力。最后，C（x）是一个归一化因子。之后，将几个卷积层与 PixelShuffle 层（ Shi et al.2016）相结合，以融合低级特征并恢复空间信息（如图3所示）。在混合之前，模型首先在标记的样本上进行训练。虽然训练样本的数量很少，但它们提供了一定的识别能力。非局部块使用标记样本的特征作为新的训练信号来校正混合数据（即，图像间）中未标记样本的特征生成与传统方法主要关注图像内部信息不同，“互信息传递”模块针对图像内部的语义关系进行该模块通过捕捉图像本身的语义相似性，建立互信息转换模型，提高了对未标记样本的预测能力。vn+v：mala2255获取更多论文−ΣΣ混合−ΣΣ−2请注意，MITrans中的非局部块用于从标记和未标记的特征中关联相似的块。因此，它们可以利用监督信号进行无标签数据训练。3.3伪掩模生成为了有效地从未标记的样本中学习，我们需要从混合数据xmix中解耦高质量的伪掩码。根据卷积运算器的平移等方差（Goodfel-low、Bengio和Courville 2015），对输入图像操作的平移仍然可以在具有相应平移的输出特征上检测到平移等方差也可以反映在混合数据中，如附录B所示，可视化（a）、（b）、（c），其中感兴趣对象的空间位置的激活，例如，，bus和person是不变的。此外，分割网络的预测层将这些激活的特征分别分配给某些类别通道。我们专注于此，并提出了一个伪掩模生成（PMG），通过在预测之间进行减法来约束前景分离，从而为未标记的实例生成掩模，图像和标记图像，这可能抵消混合图像中对象重叠区域的预测为了克服这个问题，我们提出了一种用于伪掩模生成的软解耦，如下所示：Mu−dec=Mmix−λMl，（8）其中λ是Beta（α，α）分布的参数。软解耦通过减弱M 混合中的Ml的强度来保留重叠区域的细节。如表2所示，软解耦优于硬解耦。GuidedMix-Net关注复杂环境中对象的轮廓，首先从混合的标记-未标记对中转移知识，然后解耦它们的预测，以理解对象的完整语义信息。如附录D所示，GuidedMix-Net补充了对象轮廓和语义理解。3.4损失函数我们为基于一致性的半监督学习（SSL）开发了一个整体损失函数L，如下所示：L=Lsup+ωusupLusup，（9）分别来自标记和未标记的数据然后，我们联合训练标记和未标记的数据其中ωusup 是一种无监督的减肥，如（Laine一般来说，语义分割可以被认为是寻找映射函数Γ，使得输出M=Γ（x）是接近地面实况的期望掩码对于一对标记图像和未标记图像（xl，xu），预测分别为Ml=Γ（xl）和Mu=Γ（xu）Af-和Aila 2016），控制两者之间的平衡损失一方面，Lusup在Eq.10是无监督均方误差（MSE）损失，用于计算解耦掩模Mudec和直接预测Mu之间的差：将来自Eq. 2进入分段网络HW因此，我们可以得到预测的掩模M混合=r（x 混合），卢苏普为1名（男）H Wu−dec -Mu ）2.（十）其可以被视为直接混合掩模Ml和Mu的近似：M mix= Γ（x mix）<$Ml+ Mu。（六）我们将xu的伪掩码与Mmix解耦，然后利用它们作为目标来计算均方误差损失（具有来自主解码器的xu的直接输出）。这一过程确保了模型的鲁棒性，并且对小扰动不太敏感。掩码解耦的目标是从混合数据中消除Ml，然后为未标记的样本生成伪掩码。考虑到为模型提供了标记数据的基础事实，另一方面，对于监督训练，损失L由三项组成，以优化模型如下：Lsup=Lce（Ml，yl）+Ldec+Lcla，（11）其中，Lce（Ml，yl）与等式中的相同。1，Lcla是图像级注释的分类器损失项。对于Ldec，我们首先根据第二节中的匹配规则为种子xl选择样本xl3.1，其中λ跟随Sec。3.1. 然后，我们将yl和Ml（yl和Ml）分别表示为xl（种子xl）的对应的地面实况和预测此外，可以对标记的样本xl和xl进行混合操作，如下等式：2、获得混合在训练初期，预测M1具有较高的概率，样本xl=λxl+（1−λ）xl。一个持续的损失，接近真实的面具。一旦获得Ml，我们就可以直接解耦未标记的数据掩码M解耦掩码Mdec=MmixMl，并且预测M可以定义为使用等式7，我们称之为硬解耦：乌代克H WMu−dec =M混合-M l.（七）Ldec 为1名（男）H WDec-Ml）。（十二）硬解耦是合理的，因为神经网络具有分离相应类别通道的能力（附录B中显示了一个示例）。在最终预测之间直接相减可以分离并获得未标记样本的更精确的结果。软解耦所提出的硬解耦直接执行混合附录C中显示了对GuidedMix-Net的另一项分析。4实验4.1数据集和评估PASCAL VOC 2012. 该数据集广泛用于语义分割和对象检测。它由21个+v：mala2255获取更多论文∼×××最大值−课程包括背景。我们使用来自原始PASCAL数据集的1，464个训练图像和1，449个验证图像，并且还利用增强的注释数据集（涉及9，118个图像）（Hariharanetal. 2011）（Huanget al. 2018;Zhao et al. 2017年）。城市风景。我们使用Cityscapes来进一步评估我们的模型。该数据集提供了分布在19个类别中的不同驾驶场景，其中有2，975，500，1，525张密集注释的图像用于训练，验证和测试。对于语义分割，分别使用59个语义类和1个评估指标。在训练过程中使用了常见的数据增强方法，包括随机缩放（尺度：0.5 2.0），裁剪（PAS为321 321），CAL VOC 2012 ， Cityscapes 为 513 513 ， PASCALContext为480 480），水平翻转和轻微旋转。我们评估不同的方法，通过测量平均像素的交集（IoU）。4.2网络架构和培训详情编码器。编码器基于在 ImageNet （ Krizhevsky ，Sutskever和Hinton2012）上预训练的ResNet（He et al.2016），并且在最后一层之后还包括PSP模块（Zhao etal. 2017）译码器GuidedMix-Net通过图像线性插值将标记和未标记的数据结合起来，设置新的SOTA，用于半监督语义分割。为了避免混合对的细节分解，我们在解码器中采用了跳过连接，就像在 U-Net 中所做的那样（Ronneberger，Fischer和Brox 2015 a）。像素混洗层（Shi et al. 2016）也用于恢复特征的空间分辨率。培训详情。类似于（Chen et al. 2017），我们使用“poly”学习率策略，其中基础学习率乘以（（1 iter）power），power = 0。第九章我们的分割网络使用随机梯度下降（SGD）优化器进行优化该模型对所有数据集进行了超过40，000次迭代的训练，PASCAL VOC2012 的批量大小设置为 12 ， Cityscapes 和 PASCALContext的批量大小设置为8。我们在Tesla V-100 s GPU上进行了所有实验。4.3Pascal VOC 2012消融研究我们的消融研究检查了不同λ值的影响以及我们框架中不同组件的影响。不同的λ值。不同λ值下的结果报告于表1中。可以看到，改变在Sec中使用的λ。3.1影响结果，因为λ控制混合输入数据中像素的强度。如表1所示，过高或过低的aλ不利于模型优化。高λ值导致标记信息被丢弃，而低λ值导致未标记数据被覆盖。当λ<0. 5、GuidedMix-Net提供了2012年PASCAL VOC最佳性能因此，我们选择λ<0。5用于PASCAL VOC 2012上的其余实验。表1：不同λ值对PASCAL VOC 2012实验结果的影响数据表2：在GuidedMix-Net中使用相似图像对、MI- Trans和软硬去耦模块的消融研究。&我们在ResNet50上训练模型，并在PASCAL VOC 2012的验证集上测试它们。方法使用数据Miou标签取消标签相似对√×1464911871.9七十三点七72.7七十三点七71.473.7米特兰斯√×√硬解耦√软解耦Suponlyw/o MITransSuponlyw/ MITrans√√1464911870.270.5不同的组件。如表2所示，我们评估了GuidedMix-Net不同组件的影响为了公平比较，我们评估每个实验的一个组件，并冻结其他组件。首先，我们研究了不同的策略来构建图像对，即。相似对的随机选择。i）第一策略为小批量中的每个未标记图像随机选择标记图像ii）为了寻找相似的标记和未标记图像对，我们在编码器模型之后添加了一个分类器。我们根据特征之间的欧氏距离作为如表2所示，相似对比普通随机选择带来2.5%的mIoU增益（71.9%对73.7%）。相似对的构建为后续分割任务中的目标对象提供了上下文，并支持GuidedMix-Net将知识从LA-Mix-Net转移到LA-Mix-Net。将图像与未标记的样本进行比较，几乎没有增加复杂性。其次，我们探讨MITrans是否对知识转移有用。表2中提供的结果清楚地表明，MITrans实现了1.4%的显著mIoU增益（72.7%vs.73.7%）明确提及相似和高置信度的非局部特征补丁，对未标记样本的粗糙特征进行第三，如表2所示，软解耦的性能比硬解耦好3.2%（71.4%对73.7%），因为软解耦考虑了混合数据中发生的重叠并且倾向于保留局部细节。各种-我们的GuidedMix-Net中使用的所有组件都是有益的，因此将它们结合起来可以显著改善优化。以上实验结果表明，我们设计的所有组件都有利于半监督λ骨干Miou标签取消标签<0.167.9<0.269.5<0.3ResNet501464911870.7<0.471.4<0.573.7+v：mala2255获取更多论文语义分割学习然而，我们仍然困惑的是，MITrans模块的性能增益是否归因于在学习未标记数据表示时使用标记样本作为参考范例的知识转移？还是非局部块增强的如表2所示，我们通过额外的实验进一步研究了这个问题。 “Suponly相比之下，这组实验清楚地表明，对于非局部标记的样本，几乎没有性能增益。上述巨大的性能增益主要是由于MITransCCT（Ouali，Hudelot和Tami 2020）的实验设置与其他半监督语义分割方法AdvSSL（Hunget al. 2018）、S4L（Zhaiet al. 2019）、GCT（Ke et al. 2020）、CutMix（ French et al. 2020 ）、 Reco （ Liuet al. 2021 ）、ClassMix（Olssonet al. 2021）和SSCon-trast（Alonso etal. 2021）。这里，我们在表3中提供了比较实验。我们可以看到，GuidedMix-Net的性能优于CCT，性能提高了5.7%以上。与其他艺术状态相比我们探索使用ResNet101的更深层主干进行半监督语义分割任务的性能。结果如表3所示。GuidedMix-Net比目前的半监督图像分割方法的性能高3。4%，3. 7%，3。1/8个标签、1/4个标签、1/2个标签占4%分别在不同的应用程序标记数据的比率表明，GuidedMix-Net是一种普遍有效的半监督语义分割方法。质量可视化结果见附录D。表3：在PASCAL VOC 2012上不同标记数据比例下与其他最先进的半监督语义分割方法的比较。SSL1/81/41/2-AdvSSLS4LGCTReCoCutMix我们的68.467.270.771.070.873.470.868.472.8-71.775.573.372.074.0-73.976.5------SSL500标签1000标签1464标签内存大小CCT我们58.665.464.468.169.473.724公里15公里4.4关于CityscapesCityscapes有2，975张训练图像。在我们的实验中，我们将它们分为1/8标签和1/4标签，而其余的数据被视为未标记的。我们使用ResNet101作为表4：不同λ值对Cityscapes实验结果数据表5：在Cityscapes上不同标记数据比例下与其他半监督语义分割方法的比较。SSL方法100标签1/8标签1/4标签1/2标签AdvSSL-57.160.5-s4GAN-59.361.9-CutMix51.260.363.9-ClassMix54.161.463.666.3ReCo56.564.967.568.7我们56.965.867.569.8训练模型的骨干。由于λ的最佳值随训练数据集而变化，因此我们使用 1/8 标记图像作为训练数据对Cityscapes进行实验，以探索λ对该数据集的影响，并将结果显示在表 4中。对于城市景观，当λ<0. 3、GuidedMix-Net在验证数据集上达到65.8 mIoU，优于其他选定的值范围。因此，我们将λ的值固定为小于0.3，并且ver-缩小GuidedMix-Net与其他方法之间的差距。相关结果见表5。与其他半监督语义分割方法相比，GuidedMix-Net对Cityscapes产生了相当大的改进，即，mIoU增加0。7%，1. 4%，1。100、1/8和1/2标签，分别。不同阶层城市景观是高度不平衡的。绝大多数类几乎出现在每一幅图像中，而剩下的几个类很少出现。因此，在编码器之后插入分类器以语义上增强特征并帮助匹配相似图像是没有帮助的。因此，我们在GuidedMix-Net中使用随机选择的图像对的混合我们还在附录E中提供了仅使用1/8标记图像的城市景观可视化结果。此外，在附录 F 中还介绍了 GuidedMix-Net 在PASCAL-Context数据集上与其他SOTA的5结论本文提出了一种新的半监督学习语义分割方法，称为GuidedMix-Net，并达到SOTA性能。在未来，我们将研究未标记数据在其他相关领域（如医学成像）的使用。我们将继续改进由标记数据引导的未标记样本的学习机制。致谢。这项工作得到了Na-λ骨干Miou标签取消标签<0.164.3<0.264.0<0.3ResNet1011/87/865.8<0.465.5<0.565.7+v：mala2255获取更多论文国家自然科学基金项目61972188号和国家自然科学基金项目200062122035。6附录6.1附录A：关于相似图像对选择值得注意的是，标记-未标记图像对内插（LUPI）与图像分类的典型混合有很大不同相反，我们的方法试图通过将其中一个样本固定为标记样本来混合一对样本，这带来了两个优点：首先，未标记图像可以与不同的标记样本混合，以获得更多样化的扰动。伪掩模监督信号的后续优化可以鼓励模型聚焦于对象轮廓。其次，xmix是xi和xk的混合，包含完整的轮廓和纹理，Lu每对中所有相似物体的形成。为了识别物体，CNN通常学习物体形状的复杂表示。它们结合了低级特征（例如，边缘），以增加复杂的形状，如车轮和车窗，直到对象可以很容易地识别（ Kriegeskorte2015;Goodfellow，Bengio和Courville 2015）。当神经元通过局部连接相互作用时，CNN将信息结合到不断增长的感知场中，其中信息通过连续的过滤器传输，从而产生纯化的输出（Chollet等人2018;Yosinski等人2015;Shrikumar等人2016）。GuidedMix-Net通过专门开发的LUPI统一了标记-未标记图像对的维空间此外，它利用CNN的属性来引用短范围内的完整轮廓和纹理信息，使其能够隐式地细化和多样化未标记数据的特征，如图4所示。该方法也为进一步的互信息传递做好了准备。6.2附录B：伪掩模生成过程硬解耦是合理的，因为神经网络具有分离相应类别通道的能力，如图所示五、在最终预测之间直接相减可以分离并获得未标记样本的更精确的结果。6.3附录C：GuidedMix-Net图像的边缘和纹理可以通过逐层卷积进行交互式组合，并且可以在神经网络的更高级别上获得各种组合（Olah，Mordvintsev和Schubert 2017）。受此启发，我们提出了LUPI的地图标记未标记的图像对在相同的维度，使类似的线索在隐藏状态进行交互为了通过从标记数据中学习相关特征来改进未标记特征，我们提出了MITrans，通过从标记实例中捕获类似的远程线索来纠正未标记数据产生的局部错误。正文的图1和表3显示了CCT（直接预测）和我们的GuidedMix-Net的结果，图4：类似于（Faramarzi et al. 2020），我们提供了未标记实例和混合图像（混合标记-未标记图像对）之间所有卷积层的平均激活比较。水平轴代表ResNet101中卷积层的不同级别（He et al. 2016）。CNN中的滤波器信息由激活值表示。值越高，激活效果越大（Leshnoetal. 1993;Bouvrie 2006）。我们可以看到，混合数据输入具有更高的平均激活值，这意味着网络中有更多的过滤器或神经元被激活。因此随着可以利用高概率、更多的潜在结构或相关性来改进分段决策。未标记的图像。我们可以看到，该方法鼓励知识转移从标记的实例到未标记的样本，而其他方法不能实现。我们还观察到，尽管xmix似乎在对象之间重叠，但神经网络可以很容易地将隐藏层中的对象分离出来（如图所5）。此外，PMG可以用于通过在预测层之后执行减法来生成用于未标记样本的伪掩模。总之，所提出的方法极大地鼓励分割模型挖掘由未标记样本提供的丰富的底层语义结构。6.4附录D：PASCAL VOC 2012的质量可视化可视化如图所示。第六章6.5附录E：城市景观质量可视化结果可视化如图所示。第七章引用[Alonso et al. 2021] Alonso，I.; Sabater，A.; Ferstl，D.;Mon-tesano，L.;和Murillo，A.C. 2021年半监督语义分割与像素级对比学习从类明智的记忆银行。arXiv预印本arXiv：2104.13415。+v：mala2255获取更多论文(a) 标签数据（b）未标签数据(c)混合数据（d）图5：PMG流程的可视化。蓝色图像是输入的网络特征，明亮区域表示前景对象。（a）标记数据：第一行是具有相应地面实况的图像，两者都用于训练。在标记图像中，感兴趣的对象是一辆公交车，其中通道表示不同类别的公交车，并且最突出的区域是公交车的位置（b）未标记数据：第一行显示图像及其地面实况，其中只有图像本身参与训练。(c)混合数据：第一行是混合数据及其预测，其中突出显示来自（a）和（b）的感兴趣对象(d)解耦数据：对象将在其对应的类别通道中被激活，如（a）、（b）和（c）所示。利用PGM相减法对伪掩模进行解耦，可以有效地分离和获取所需的有价值信息。[Bouvrie 2006] Bouvrie，J.2006年。关于卷积神经网络的注记[Chen等2017] Chen，L.-C.的; Papandreou，G.;科基诺斯岛Murphy，K.;和Yuille，A. L. 2017. Deeplab：使用深度卷积网络、无卷积和全连接crf进行语义图像分割IEEEtransactions on pattern analysis and machine intelligence40（4）：834-848.[Chollet等人2018] Chollet，F.，等，2018年。Python深度学习，第361卷。纽约曼宁。[Faramarzi等人，2020]Faramarzi， M.; 阿米尼， M.; 巴德里-naaraayanan，A.;Verma，V.;和Zeroar，A.2020年。补丁：卷积神经网络的正则化技术ArXivabs/2006.07794。[French et al. 2020] French，G.; Laine，S.; Aila，T.; Mack-iewicz，M.; Finlayson，G. 2020.半监督语义分割需要强的、变化的扰动。在英国机器视觉会议上，排名第31位。[Goodfellow，Bengio，and Courville 2015] Goodfellow，I.;Bengio ， Y.; 和 Courville ， A. C. 2015. 深度学习Nature521：436-444.[Hariharan et al. 2011] Hariharan，B.; Arbelaez，P.; 布尔德夫，L. D.的; Maji，S.; and Malik，J. 2011.从逆检测器的语义

下载后可阅读完整内容，剩余1页未读，立即下载