点击级弱监督语义切分中的研讨会学习模型

65 浏览量更新于2023-10-14 收藏 967KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6920用于点击级弱监督语义分割的Seminar学习陈洪军1、王金宝1、陈洪才1、甄显通2、冯正1 *、冀蓉蓉3、邵凌41南方科技大学2阿姆斯特丹大学3厦门大学4先启人工智能研究院摘要标注负担已经成为语义切分的最大障碍之一。因此，基于点击级注释的方法由于其在监督和注释成本之间的优越权衡而吸引了越来越多的关注在本文中，我们提出了研讨会学习，ING，一个新的学习范式与点击级监督语义分割。研讨会学习的基本原理是利用来自不同网络的知识来弥补点击级注释中提供的信息不足模仿研讨会，我们的研讨会学习涉及教师-学生和学生-学生模块，学生可以从熟练的教师和其他学生那里学习。教师-学生模型使用基于指数移动平均的教师网络来指导学生网络的训练。在学生-学生模块中，提出了异构实验结果证明了研讨会学习的有效性，它实现了72.51%（mIOU）的新的最先进的性能，在Pascal VOC 2012 数据集上超过了以前的方法高达16.88%1. 介绍语义分割是一项基本的任务，其中图像的每个像素都被标记到预定义的集合中的阶级。在计算机视觉领域，它在自动驾驶、场景理解、医疗诊断等诸多应用中取得了长足的进步[30] [48]。最近，深度卷积神经网络（CNN）在各种语义分割任务中取得了显著的成功[9，30]。然而，它们需要大量的像素级注释用于训练。像素级注释的获取过程非常耗时-* 通讯作者：冯政（邮箱：f. ieee.org）。本工作得到了国家自然科学基金项目批准号：61972188。（c）第（1）款最终分割结果学生学生学生-学生模块学生教师-学生模块老师（b）第（1）款（一）低-尺寸连续性图1.弱监督分割与点击级别的一个符号。(a)仅用点击级注释训练的通用模型过度拟合标签，并且不能识别整个对象。(b)以前的作品（例如正则化损失）将低维连续性信息应用于训练，也未能正确地分割对象。(c)通过研讨会学习，我们的教师-学生模块使网络能够泛化到整个对象，如箭头所示。同时，通过整合来自两个网络的各种信息，学生-学生模块可以平滑标记框中的边界区域。消耗和劳动密集型。为了减轻注释的负担，弱监督语义分割已经变得越来越流行，因为它只需要粗略的注释，例如框级[12]、图像级[33]、涂鸦级[24]或点击级[4]监督。其中，点击级监督仅为图像中的每个对象注释一个像素。此外，它不仅提供有价值的位置信息，而且还是最便宜的弱监督形式之一[4]。它在权衡信息和时间成本方面具有很高的研究潜力。众所周知，在模型训练期间利用有限的监督信息实现满意的性能例如，单击级pat-6921然而，如果仅从一个标记像素学习，则模型不能推断对象的整个范围，特别是边缘，这最终将削弱分割性能。引入更多的先验信息是补偿弱视觉信息的有效方法.例如，‘ScribbleSup’ [ ‘Regularized Loss’ [这些模型仅关注标记像素与其他像素之间的低维连续性因此，这些模型不能正确地分割整个对象并且仍然表现不佳。考虑到点击级监督语义分割的性质，我们进行了两次观察：1）大量未标记的像素没有得到很好的利用，但可以提供更广泛的信息，这可以将网络的学习范围从单个注释像素扩展到整个对象。2）如果一个网络是在不同的条件下训练的，比如使用不同的随机种子，预测结果会有很大的差异。这种不确定性导致不同的网络捕获不同的和不同的信息，这些信息可以被聚合以相互补充。受这些观察的启发，我们提出了研讨会学习，一种新的学习范式，通过引入更多的有效信息，用于点击级弱监督语义分割。我们的研讨会学习的本质是通过利用其他网络的预测提供的知识来补充网络的不足如图1、研讨会学习框架由两部分组成：师生模块和学生模块。值得注意的是，教师-学生模块被用来扩展网络的学习范围。我们使用基于指数移动平均（EMA）的教师网络进行广义预测，并防止学生网络过度拟合点击级别标签，这与半监督平均教师方法[45]具有类似的工作流程然而，与平均教师相比，我们的模块能够对每个图像中的未标记像素而不是未标记图像进行操作。学生-学生模块通过聚合学生网络的多样性信息来细化分割边界为了提高信息传递的效率，我们提出了异构伪标签作为学生网络之间的桥梁，它基于一个经过充分训练的学生的预测来指导另一个总之，我们做出了以下几个主要贡献• 我们提出了一种新的学习范式，称为研讨会学习，可以学习利用一组网络提供的更多的监督信息。• 我们对待点击级监督语义分割任务作为一个半监督像素分类任务的每一个图像，并提出了一种新的像素一致性损失，这使得学生从老师使用未标记的像素学习。• 提出了异构伪标签的新概念，它是一种更有效的媒介，使监管信息之间共享不同的网络之间的学生-学生模块。• 我们进行了大量的实验来验证所提出的研讨会学习的有效性，其表现优于之前的SOTA作品[44]（就mIOU度量而言，从55.63%到72.51%2. 相关工作语义分割语义分割可以被视为逐像素分类，其中每个像素被分配到一个类别。在语义分割中使用深度学习始于全卷积网络（FCN）[27]首次出现。最流行的架构基于编码器-解码器模型，如FCN，如SegNet [3]，U-Net [37]，MobileNet [39]和RefineNet [25]。最近的作品在增加网络的接受领域方面做了很大的努力例如，Chen等人。 [10]通过atrous卷积提取长距离信息，而无需缩小图像。DeepLabv2 [9]引入了一个空间金字塔池化模块。在本文中，我们采用DeepLab-v3+ [10]作为我们的骨干，因为它集成了各种有效的模块，并且优于以前的模型。半监督学习一般来说，半监督学习只需要少量的标记数据就可以解决训练问题。如何利用大量的未标记数据成为半监督学习的关键。一种有效的方法是伪标记[22]，它使用自己生成的预测来监督未标记的数据。最近，有许多半监督方法的基础上的预测与扰动一致的概念。Π模型[21]产生两个噪声模型，称为学生模型和教师模型，并对教师和学生预测应用一致性损失以使模型适应噪声。虚拟对抗训练[31]类似于Π模型，但它使用对抗扰动作为噪声。Mean-teacher [45]改善了师生结构。它通过移动学生模型权重的平均值来获得教师模型。这种做法也被随后的半监督工作[6，29，46，40]。此外，许多算法利用这些半监督的方法进行图像分割问题.例如，[11]直接将均值-教师应用于半监督语义分割中的未标记数据，而6922×个×个×× ×LpCE单击标签LCRFL伪古代学生指数移动平均小学生指数移动平均古代教师小学教师输入旧型号异构伪标签主要模型LCRFLpConsLpConsLpCE图2.所提出的用于点击级监督语义分割的研讨会学习方法的管道。它由主模型和辅助模型组成，它们是逐步训练的。[28]在强标签和弱标签之间使用平均教师方法。弱监督语义分割。收集准确的逐像素语义标签是一个劳动密集型过程[4]。为了降低成本，已经提出了弱监督的标记，包括点击级[4，36]、涂写级[24，44，43]、框级[12，16]和图像级监督[1]。虽然图像级标签需要最少的工作来收集，但它们包含的信息有限，不适合复杂的场景。最近的作品[17，8，23]通常使用类激活图（CAM）[49]来生成用于训练的标签。框级注释携带最多的对象信息，但也需要最多的工作来收集。大多数现有方法利用边界框作为搜索区域来进行对象掩模的低级搜索[12，41，20]。点击级注释的收集成本介于图像级和框级之间，提供了成本和信息的折衷。然而，很少有方法解决点击级分割算法的问题，因为它在[4]中被引入涂鸦可以被认为是点击级标签的扩展，使得涂鸦级监督方法通常在点击级监督下测试它们的性能。以前的作品[24，4]试图通过生成建议来模仿他们的完全监督对应物。具体来说，他们通过GrabCut [38]生成建议，并在CNN训练和建议生成步骤之间交替。这种迭代方法是根据它们的特定设置定制的，这限制了它的泛化。为了解决这个问题，[43]引入了受归一化切割方法启发的正则化损失。然后[44]用密集的CRF损失改进了正则化损失。这些方法在涂鸦级别的监督下是有效的，但仍然挣扎于点击级的监督。3. 方法在本节中，我们将详细描述我们提出的用于点击级监督语义分割的研讨会学习我们的框架主要包括教师-学生和学生-学生模块，用于在网络之间传递信息。这两个模块的结合类似于现实世界的研讨会，这是研讨会学习的灵感。我们将首先描述整个过程，然后解释它如何工作。3.1. 研讨会学习我们提出的方法的概述如图所示。二、我们首先训练辅助模型，然后训练主模型。对于每个模型，我们应用一个教师-学生模块。同时，由辅助学生生成的异构伪标签被用作主模型的额外输入，构成学生-学生模块。以这种方式，主模型可以集成来自辅助模型的信息。使用统一的CNN框架进行训练。我们将输入图像对定义为X，大小为WH，与cor-响应注释Y;x和y作为X和Y;N=WH为每个图像中的像素的总数。年龄;和n作为我们的点击级别中每个图像的标记像素监督任务网络输出大小为W H C的softmax得分图Y，其中C是标签类别的数量。对于测试过程，得分图为每个像素选择最大得分的类别，并且获得大小为H×W的最终预测69231-<α时的EMA。∈·θt=Σ′′不不不不伪N我我PCEn我我训练过程可以描述如下：训练辅助模型。辅助模型由师生模块构成。在这个模块中，我们只需要训练学生网络。教师网络由学生网络的指数移动平均（EMA）得到在训练迭代t处，EMA过程被定义为其中λ控制每个损失项的贡献。训练主要模型。在初级模式中，我们还采用了教师-学生模块进行培训。此外，我们应用student-student模块来连接具有异构伪标签的辅助学生网络和主学生网络。在辅助模型被完全训练之后，小学生和教师在同一个’。（1−1）×θ′−1+1×θt， 1−1α（一）作为其附属物的方式在每列火车上-αθt−1+（1−α）θt，否则，其中，α是平滑系数，θ′和θ分别是教师和学生的权重为了在初始训练迭代期间快速更新教师模型的权重，我们使用绝对平均值而不是1不辅助学生和辅助学生的网络教师用相同的随机种子随机初始化在训练的每次迭代中，我们将训练图像输入到学生和教师网络中，并评估三个损失。首先，我们通过最小化部分交叉熵，使用点击级标签损失LpCE[44]，其被定义为通过迭代，我们通过EMA以与辅助学生网络相同的方式训练主学生网络此外，我们将训练图像输入辅助模型，并获得预测图。通过选择预测图的最大类，生成异构伪标签，将辅助学生网络的贡献引入到主学生网络的训练中。为了包含异构伪标签的信息，提出了一种新的损失L伪。由于异构伪标签被应用于每个像素，因此损失是交叉熵的形式。Lpseudo被定义为1ΣccL（θ）=−y~log（y），（6）i∈NL=−1Σyclog（yc），（2）i∈n其中i n表示只有标记的像素参与损失的计算，yc=[0，1]c是地面其中y~表示所生成的异构伪标签每次迭代中的概览损失L，其被定义为∗我属于类别C的像素i的真值。L= L+ λpseudo（七）为了获得辅助教师网络的帮助，我们应用像素一致性损失LpCons，其被定义为1Σ′2L=−||f（x，θ）−f（x，θ）||、（3）3.2. 模块协作师生关系大量的未标记像素在点击级监督语义分割中没有得到很好的利用，这在半监督学习中也是如此。pConsNi ii∈Ning（SSL）。因此，我们将点击级监督视为SSL任务，其中一些图像像素被标记，而其中，f（）是网络的softmax预测，并且在教师网络中计算梯度。正则化损失LCRF[44]也被应用于平滑分割，其被定义为其他的没有标签。mean-teacher [45]是一种有效的SSL方法，它使用教师-学生模块来利用未标记的图像。受此启发，我们通过对未标记的pix进行操作，使教师-学生模块适应我们的模型LCRF =YC′WpqC（1 −YC），（4）els而不是未标记的图像。在师生模块中，教师网络由学生网络的EMA得到。EMA网-其中Wpq是具有稠密CRF松弛作用的稠密高斯核[19]，YC是每个类的softmax输出，YC′是YC的转置矩阵。在所有损失的反向传播之后，EMA将更新辅助教师网络该过程迭代地继续，直到训练结束。总的来说，辅助学生网络由损失L*训练，其定义为L*=LpCE+λpConsLpCons+λCRFLCRF，（5）辅助模型θanc。因此，初级学生网络是用6924工作被证明比直接使用最终网络更有效[35]。EMA可以看作是一个时间集合过程，这使得它具有很强的泛化能力.因此，教师网络可以避免对点击级标签的此外，其减少目标偏差的能力可以实现更平滑的分类边界[45]。由于对象边界可以被视为分类边界[14]，EMA网络也可以预测更平滑，更准确的掩模。6925Σ≪pConsN−n我我研讨会学习生生L师生L分割预测古代学生小学生小学教师输出GroundTruth图3.研讨式学习机制的可视化我们在初级模型训练的第十个时期获得了前三个结果为了使教师和学生网络之间的一致性约束，我们提出了一个像素一致性损失 LpCons ，作为均方误差（MSE）的一种形式。我们的像素一致性损失仅测量未标记的像素，并定义为：L=1（Σ||f（x，θ′）−f（x，θ，）||2−i∈n（八）示于图3，说明为什么研讨会学习的作品，利用教师-学生和学生-学生模块。通过比较辅助学生和小学生的分割结果，我们可以看出，两个网络对目标人的预测不同。虽然辅助学生不能预测出实验对象的右臂绿色框，它对红色框中的噪声具有更好的鲁棒性，并且正确地预测了黄色框中的人的腿。||f（xi，θ′）−f（xi，θ）||2）的情况。i∈N因为n是N，所以我们最终使用LpCons，定义于Eq. 三个学生之间的关系教师-学生模块被用作个体模型，而学生-学生模块被用于连接两个模型。在学生-学生模型中，我们提出了异构伪标签作为两个模型之间的桥梁。在网络被完全训练之后，由辅助学生网络生成异构伪标签然后，标签被传输到小学生网络。伪标签的早期尝试[22]使用网络的预测来训练网络本身。然而，这样的操作会产生确认偏差[2]。在这种情况下，模型将记住错误的伪标签，并且在训练期间很难忘记它们因此，我们使用完全训练的辅助模型来生成异构伪标签。这样的判别模型可以产生可靠的预测，正确地指导初级学生网络的训练。此外，辅助模型应该在与主模型不同的条件下训练，例如不同的随机种子。如前所述，模型可以生成具有极大多样性的不同掩码。从辅助学生网络的预测中学习，可以弥补主学生网络的不足，进而平滑分割边界。3.3. 研讨式学习我们将每个网络在点击级监督语义分割训练中的预测可视化为低箱人的肢体和背景噪声是不确定区域，因为它们远离点击级标签。通过在学生-学生模块中集成两个网络，辅助学生在腿部和噪声区域获得更好的分割性能。在师生模块中，我们发现小学教师的预测比小学生的预测覆盖了绿框和黄框中人物的更大区域，这证实了小学教师具有更好的泛化能力。由于小学教师是由小学生更新的，小学生的学习范围将在训练中逐渐增长，最终允许其认识整个人。训练完成后，我们获得最终的分割预测作为输出。我们可以看到，几乎人的每个部分都被准确预测，最终结果接近地面真相。这表明我们的sem- inar学习可以有效地整合来自我们管道中所有网络的信息，并克服点击级别标签的限制，以提供更平滑的分割。4. 实验4.1. 实验装置实作详细数据。我们选择具有ResNet 101 [ 15 ]的网络DeepLab-v3+ [10]作为我们的骨干网，因为它具有灵活的结构和出色的性能。在每个模型中，我们训练学生网络，批量大小为12，超过60个epoch。我们遵循DeepLab-V3+ 中的优化策略，使用随机梯度下降（SGD）[7]，基本学习率为0.007，多项式时间表[26]，矩-6926方法前景注释背景注释细节mIOU（%）有什么手动-VGG16，大小=[1×1]pxDeeplab-v2-VGG 16，大小=[3×3]pxDeeplab-v2-ResNet 101，大小=[3×3]px Deeplab-v3+-ResNet 101，大小=[1×1]pxDeeplab-v3+-ResNet 101，大小=[1×1]px43.40[24]第二十四话合成合成51.60正常损失[44]合成合成57.00正常损失[44]手动合成55.63我们手动合成72.51表1. Pascal VOC 2012验证集的性能比较。对于所有的方法，我们报告的点击级监督下的性能。我们还在表中描述了训练细节和注释源。tum为0.9，对于90K步，重量衰减为5e−4。我们将损失权重的超参数设置为 λCRF=1 ， λpseudo=1 和λpCons=200。这些超参数在所有模型中保持不变在每个模型中，由于教师网络在早期时期表现不佳，我们在前40个时期将权重λpCons从0提升到其最终值λpCons在每个历元中用线性函数更新我们设置EMA衰减参数α=0。999为每个教师-学生模块。我们的实现基于Pytorch [34]。所有实验都在Nvidia Titan RTX（24G）GPU上运行。数据集和注释。我们的大部分实验都是在PASCALVOC 2012分割数据集[13]上进行的，该数据集包含10，582张训练图像、1，449张验证图像和1，456张测试图像。我们使用与以前的点击级监督工作相同的设置。在验证集上评估在21个类上平均的平均交集（mIOU）在以前的工作中，有两种方法可以获得Pascal VOC 2012数据集的点击级别标签‘What’s thepoint’ [ [24，44]中的每个点击级别标签是从每个对象的涂鸦标签中随机选择的一个点。我们选择手动标注作为我们的训练标签，因为它们可以更好地反映真正的点击级监督标注。但是，非实例类（background）不在此注释集中进行注释。因此，我们使用[32]中提出的背景标签，这些标签是从涂鸦标签合成数据扩充。在[44]之后，我们仅使用DeepLab-V3+中的默认数据增强来处理图像数据。它包括训练集的随机缩放裁剪、水平翻转和随机高斯噪声，以及验证集的固定缩放裁剪我们设置图像裁剪大小为513×513的训练集和验证集。4.2. 主要结果表1在Pascal VOC 2012验证集上将我们的方法与SOTA弱监督方法进行了比较在该表中，两个点击级标签是通过手动注释生成的，而“合成”表示它们是从潦草的标签合成生成的。如第4.1中，我们的注释集由手动注释的前景标签和从涂鸦生成的背景标签组成。表的前三行是在相应论文中发表的结果。为了在相同条件下与当前SOTA方法进行比较，我们在与我们的方法相同的注释集、主干和标签大小上运行其结果显示在第四行中，当使用其论文中的超参数设置时，其实现了55.63% mIOU。我们的方法是基于“正则化损失”的实现在不修改第四行中的实现的任何参数的情况下，我们将我们的研讨会学习方法直接应用于经过这次操作，我们大大提高了mIOU从55.63%到72.51%（增加了16.88%），这远远超过了所有以前的SOTA方法。监督水平注释时间(sec/img）方法Miou（%）框38.1BCM [42]70.2Scribble34.9BPG [47]73.2图像20.0DRS [17]71.2单击22.1我们72.5表2.Pascal VOC 2012验证数据集与各种SOTA弱监督方法的性能比较与其他弱监管相比。在表2中，我们比较了各种级别的弱监督方法，所有这些方法都使用ResNet101作为主干并且没有后处理。表中的注释时间见[4，5]。可以看出，点击级监管仅需要22.1秒来注释图像，这接近于图像级监管。同时，我们的方法获得了中等的性能，这超过了图像级，但低于涂鸦级，这表明我们充分利用了点击级监督的潜力，我们的方法是时间成本和性能之间的权衡。692775全程监督70656078.5955表3.我们的框架在PASCAL VOC 2012 val set上的性能比较。实验的目的是验证在不同的网络研讨学习的每个模块的效果。对于所有模块，我们报告的性能都在点击级监督4.3. 消融研究在本节中，我们通过分别测试损失、学生-学生模块和超参数的有效性来研讨学习中损失的影响。这一部分的目的是显示不同的损失的贡献半nar学习。表3示出了用于比较的五种损失组合的mIOU分数。值得注意的是，教师网络在训练后与学生网络具有相似的性能，并且我们使用学生网络作为输出。在没有Lpseudo的组合中，辅助学生的输出是最终预测。事实上，通过比较表3的第1和第2行，LCRF+LpCE在点击级监督下不能明显改善分割性能通过比较表3的第2 - 4行，我们可以发现L pCE+LCRF+L pCons提供了显著的改善，其中mIOU从55.63%增长到 70.29% ，增加了 14.66% 。其结果也比LpCE+LpCons高8.82%，表明LCRF与LpCons协同作用有助于提高性能。第5行显示，将Lpseudo添加到训练中可以获得额外的2.22%的改进，并且达到72.51%。因此，研讨会学习中的所有损失都有助于改进点击级弱监督分割中的mIOU。虽然将LCRF添加到LpCE没有效果，但LCRF可以在与像素一致性损失LpCons交织的情况下起到补充作用。为了验证所提出的损失的一般性，我们还使用MobileNet在Deeplab-V3+上测试了损失MobileNet的结果与ResNet101的趋势相同。它可以证明我们的损失可以用于其他网络。学生-学生模块的有效性。在student-student模块中，专门设计了异构伪标签来实现两个不同网络之间的数据传输。如图4、通过与其他两个案例的比较，验证了学生-学生模式的有效性5045120 40 60 80 100 120时代图4.在Pascal VOC 2012验证集上使用伪标签的不同方法的比较所有结果均由DeeplabV3+和ResNet101获得module. 在比较的情况下，伪标签被转移到同一个学生网络，而不是一个不同的学生网络，我们称之为自生成方法。两种情况使用不同的学习率方案。在前60个时期中，三种情况使用相同的辅助模型。我们在第61个epoch中生成伪标签。在第60个历元之后，我们将两个学习率方案应用于自生成方法：1）自生成复位：我们在第61个epoch重置学习率，并保持学习率与学生-学生一致。很明显，这种情况下的mIOU总是低于使用伪标签训练后的学生-学生模块。结果变得比使用伪标签之前更差。2)自我生成不变：学习速率在第60个时期之后保持不变。mIOU保持稳定直到训练结束通过实验发现，自生成的伪标签并不能改善模型。学生-学生模块被证明是必要的，以改善点击级超监督分割。学生-学生模块的数量。完全训练的主模型还可以充当下一个主模型的辅助模型。因此，我们的方法可以扩展到学生-学生模块链。图5（a）示出了不同数量的学生-学生模块的性能。我们使用两个网络来评估有多少学生-学生模块可以提高性能。当应用第一个学生-学生模块时，网络的性能显著提高。Resnet101的准确率从70.29%提高到72.51%，而MobileNet的准确率从60.59%提高当我们多次应用学生-学生模块时，两个网络中的mIOU几乎不增加。它的结论是一个学生-学生模块是72.5170.2970.3969.89生生自我生成不变自发电复位LpCE LCRF LpConsL伪mIOU（%）MobileNet ResNet101✓50.8554.70✓✓48.7555.63✓✓56.1461.47✓✓✓62.0370.29✓✓✓✓64.4472.51mIOU（%）692872.5172.3972.2670.2962.5962.9760.59ResNet101MobileNetResNet101MobileNet70.2961.3560.5958.05mIOU（%）mIOU（%）80 100 80七五七五80七零七67.5660六五六70.2969.8668.494060 6058.0560.5960.89 60.8855500 1 23数字2000.99衰变重量0.99955ResNet101MobileNet50100 200 300 400重量(a) 学生-学生模块(b) EMA衰减权重(c) 像素一致性损失图5.Pascal VOC 2012验证集的消融研究和实证分析（a）用不同数量的学生-学生模块验证mIOU（%）;（b）EMA衰减权重α上的验证mIOU;（c）像素一致性损失的权重λ pCons上的验证mIOU。吕吕 +LR吕 +LR+L研讨会学习涂鸦监督全面监督4.4. 可视化图图6示出了来自定性视图的语义分割预测的示例在前四列中，我们应用了研讨会学习的损失的不同组合，并且分割结果显示了它们的效果。损失的直观解释。如SEC所示。4.3，LCRF仅当其与像素一致性损失LpCons组合时才对性能有贡献。基于密集CRF理论[18]，如果两个像素在颜色和距离上都很接近，则它们之间的类别关联将是紧密的，并且两个像素更有可能被预测为同一类别。因此，基于损失LCRF的密集CRF可以使分割结果在对象内部连续。从图的前两列。6、我们可以--图6.Pascal VOC 2012验证集上的可视化足以训练网络。超参数的灵敏度分析。Seminar学习的性能取决于一致性权重λpCons和EMA衰减α的超参数。图5（b）显示了EMA中衰减权重α的灵敏度。从[45]中，我们知道良好的衰减总是大致跨越一个数量级，并且当前半监督方法中常用的超参数值为0.999和0.99。我们的实验证明，0.999是更好的点击级监督任务。图图5（c）示出了网络对一致性权重λpCons的灵敏度。我们发现λpCons的值远小于点击级监督的λpCE。这不会影响神经网络的训练。因此，我们增加一致性损失LpCons的权重以达到与LpCE相同的数量级。使用这个数量级，我们在两个网络上使用不同的超参数进行实验。我们发现，当一致性权重达到200时，学生网络可以从教师网络学习到最好的结果。服务于LCRF的加入增强了同一范畴的内部连续性。然而，由于有限的标签包含的信息不足，该模型无法预测的对象的边界附近的像素。由于LCRF是用模型的预测图计算的，对象中的大量错误预测阻止LCRF在像素之间建立正确的连接，因此LCRF不起作用。在图的第三列中。6、应用L pCons后，边界预测更加准确，L CRF能以正确的方式平滑预测。最终，我们的研讨会学习实现了所有损失相结合的出色表现。5. 结论在本文中，我们提出了一个研讨会学习范式的点击级弱监督语义分割。我们的方法包括教师-学生和学生-学生模块，在那里我们聚合了来自多个网络的广义和多样化的信息。通过这种方式，我们解决了有限的点击级标签的信息不足实验结果表明，我们的方法取得了良好的分割性能，超过目前的 SOTA 模型的16.88%（mIOU）。mIOU（%）6929引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，第4981-4990页三个[2] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差 2020 年国际神经网络联合会议（IJCNN），第1IEEE，2020年。五个[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。2[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么2016. 一、二、三、六[5] M´ıriamBellver Bueno，Amaia Salvador Aguilera，JordiTor-resVi n´ als，andX a vierGi ro´Nieto.Budget-aw是半监督语义和实例分割。在IEEE计算机视觉和模式识别会议（CVPR）研讨会，2019年，第93-102页六个[6] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在神经信息处理系统的进展中，第5049-5059页，2019年。二个[7] 我在博图。随机梯度下降技巧。在神经网络中：贸易技巧，第421-436页。Springer，2012. 五个[8] 陈丽怡，吴薇薇，付晨晨，韩晓，张运涛.具有边界探索的弱监督语义分割。欧洲计算机视觉会议，第347-362页Springer，2020年。三个[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。一、二[10] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。二、五[11] Jaehoon Choi，Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的领域适应。在IEEE计算机视觉国际会议论文集，第6830-6840页，2019年。二个[12] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEinternational conference on computer vision ，第 1635-1643页，2015年。第1、3条[13] 放大图片作者： Mark Everingham， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303-338，2010. 六个[14] Geoffrey French 、 Samuli Laine 、 Timo Aila 、 MichalMackiewicz和Graham Finlayson。半监督语义分割需要强的、变化的扰动。在英国机器视觉会议，第31号，2020年。四个[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五个[16] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议论文集，第876-885页，2017年。三个[17] Beomyoung Kim，Sangeun Han Kim，等.弱监督语义分割的判别区域抑制。arXiv预印本arXiv：2103.07246，2021。三、六[18] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通 crfs 的有效推理在 Advances in neuralinformation processing systems，第109八个[19] Phi l ippK r？henb？hl和VladlenKoltun。稠密随机场的参数学习国际机器学习会议，第513PMLR，2013年。四个[20] Viveka Kulharia、Siddhartha Chandra、Amit Agrawal、Philip Torr和Ambrish Tyagi。Box2seg：弱监督分割的注意力加权损失和判别特征学习。欧洲计算机视觉会议，第290-308页Springer，2020年。三个[21] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。2[22] Dong-Hyun Lee等人伪标签：简单有效的深度神经网络半监督学习方法。在表征学习的挑战研讨会上，ICML，第3卷，2013年。二、五[23] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在IEEE/CVF计算机视觉和模式识别会议论文集，第5267-5276页，2019年。三个[24] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络 2016 年 IEEE 计算机视觉和模式识别会议（CVPR），2016年。一、二、三、六[25] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页，2017年。二个[26] Wei Liu ， Andrew Rabinovich ， and Alexander C Berg.Parsenet：看得更宽，看得更好。arXiv预印本arXiv：1506.04579，2015。五个6930[27] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。二个[28] 洛文峰，杨梦。基于强弱双分支网络的半监督语义分割。欧洲计算机视觉会议，第784Springer，2020年。三个[29] Yucen Luo，Jun Zhu，Mengxi Li，Yong Ren，and BoZhang.教师图上的光滑邻居用于半监督学习。在IEEE计算机视觉和模式识别会议论文集，第8896-8905页，2018年。二个[30] Shervin Minaee、Yuri Boykov、Fatih Porikli、AntonioPlaza、Nasser Kehtarnavaz和Demetri Terzopoulos。使用深度学习的图像分割：一个调查。arXiv预印本arXiv：2001.05566，2020。一个[31] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin

下载后可阅读完整内容，剩余1页未读，立即下载