基于图像标签的弱监督语义分割方法的研究及实现

172 浏览量更新于2023-10-20 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4253基于图像标签的达姆施塔特工业大学计算机科学系摘要近年来，在弱监督环境下提高语义分割准确性的新方法迅速发展，即：其中仅图像级标签可用于训练。然而，这是以增加模型复杂性和复杂的多阶段训练程序为代价的。这与早期的工作形成对比，早期的工作仅使用单个阶段-在图像标签上训练一个分割网络-由于分割精度较低而被放弃。在这项工作中，我们首先定义弱监督方法的三个理想属性：局部一致性、语义保真度和完整性。使用这些属性作为指导方针，然后我们开发了一个基于分割的网络模型和一个自监督训练方案，以在单个阶段中从图像级注释中训练语义掩码。我们表明，尽管它的简单性，我们的方法实现的结果是竞争力，与显着更复杂的管道，大大优于早期的单级方法。1. 介绍场景理解的许多应用需要某种形式的像素级精度的语义定位，因此语义分割已经享有巨大的流行。尽管监督学习方法取得了成功[8，36]，但由于其依赖于像素级注释，因此其一般适用性仍然因此，我们认为学习语义分割的任务，从图像级注释单独，旨在开发一个实用的方法。与其他弱监督场景相比，该问题设置尤其具有挑战性，这些场景假设可用的定位线索，例如边界框，涂鸦和点[4，10，27，33，51]。注意力机制，如类激活图（CAM）[63]，提供了部分解决方案：它们仅使用预先训练的分类网络来定位图像中最有区别的区域。然而，这种面具相当代码可在https://github.com/visinf/1-stage-wseg上获得。图1.我们的分割模型可以在仅使用图像级注释的情况下，在单个训练阶段产生接近地面实况（右）的高质量语义掩模（左）没有对这些实施例应用后处理。粗糙-它们违反对象边界，对于大尺度对象往往是不完整的，而对于小尺度对象则是不精确的。这并不奇怪，因为注意力地图一开始就不是为分割而设计的。然而，大多数用于从图像标签进行弱监督分割的方法采用注意力图（例如，CAM）作为进一步细化的初始种子然而，这些方法已经取得早期的方法是单阶段的，即：训练一个网络[17，38，40，41]，它们很快被更先进的管道所取代，采用多个模型，训练循环和现成的显着性方法[24，55，57，60]。在这项工作中，我们开发了一种有效的单阶段方法，用于弱监督语义分割，简化了以前的多阶段尝试，并且既不使用显着性估计也不使用额外的数据。我们的关键见解是实现分类的分割感知训练考虑Fig.2描述注意力地图的典型局限性：（i）两个局部邻近的具有相似外观的区域可以被分配不同的类别，即，语义标签可能是局部不一致的;（ii）注意力地图往往是在-4254局部不相容不完全语义不准确图2. 注意力地图的典型缺点（左）与像素级注释（右）。我们对注意力地图中失败模式的观察导致了来自图像标签的分割感知训练的三个定义属性，我们将其纳入我们的模型中：语义保真度、局部一致性和完整性。在涵盖对象的整个范围方面是完整的;（iii）虽然注意力地图的区域对于正确的对象类别占主导地位，但是地图的部分仍然可能被错误标记（即，语义不准确）。这些观察引导我们定义分割感知训练应该包含的三个属性：（a）局部一致性意味着具有相似外观的相邻像素共享相同的标签;（b）通过产生允许可靠的分类决定的分割掩码的模型来展示语义保真度（例如，良好的概括性）;（c）完整性意味着我们的模型识别图像中所有可见的类出现。请注意，由于分类只需要足够的证据，CAM既不能确保完整性，也不能确保局部一致性。使用这些概念作为我们的指导方针，水平预测在输出层中产生的类分数，并细化与图像级先验的片段。帕潘德里欧等[38]采用了期望最大化（EM）方法，其中掩码从中间预测中推断并用作伪地面实况。[43]使用CRF-RNN [62]在端到端模型中将自上而下的注意力掩码与自下而上的分割线索相结合。基于注意力的模型[17]允许在跨域设置中进行联合分类和分割训练。尽管它们简单，单阶段模型已经失宠，由于其较差的分割精度。播种和扩张。Kolesnikov Lampert [28]引入了扩展高精度定位线索（如CAM [63]）的想法，在这个框架中，可以端到端地训练分割网络，但是从独立分类网络预先计算定位线索因此，更高质量的定位[32]可以进一步提高分割准确性。根据种子和扩展原则，Huangetal.[24]采用了种子区域生长算法[1]，以鼓励初始定位种子的更大覆盖范围。删除。CAM的一个常见观察结果[63]是它们倾向于只识别最具歧视性的类别证据。Wei等[55]探索了从图像中“擦除”这些高置信度区域的想法[21]见，见，见。这种方法在性能方面明显优于CAM分割精度。首先，我们提出了归一化的全局加权池，这是一种用于计算分类分数的新过程，它可以同时进行分割任务的训练。其次，我们鼓励面具注意外观线索与像素自适应面具细化。这些掩码作为伪地面实况提供给我们的模型，用于自监督分割。第三，为了对抗伪掩模符号中的不准确性的复合效应（自我监督方法的常见问题），我们引入了一个随机门，该随机门将特征表示与不同的感受野大小混合。正如我们的实验所证明的那样，由此产生的单阶段模型提供了与现有技术相当或优于现有技术的分割质量，同时易于训练和使用。2. 相关工作用于弱监督语义分割的方法已经从简单的单阶段模型快速发展到更复杂的模型，采用显著性估计方法、附加数据（例如，视频），以及完全监督的补充材料，SEC。A）的情况。单阶段方法。继[40]之后，Pinheiro Col- lobert [41]使用了多实例学习（ MIL ）公式，但应用了像素的LogSumExp聚合段擦除使用两个解码器分支辅助显着性[20];第一个分支删除峰值CAM响应并馈送到第二个。为了避免重新训练或修改解码器结构，Chaudhryet al.[5]迭代地将现成的显着性检测器[35]应用于渐进擦除的图像，以累积前景掩模。多次训练。另一条工作线训练一系列分割网络，每个网络学习其前任的预测[27]。Wei等[56]按照任务难度的递增顺序依次训练三个网络继Khorevaet al.[27]，Jinget al.[26]使用多轮训练，并使用Grab- Cut [42]优化中间结果，但没有使用边界框注释。类似地，Wangetal. [54]使用种子和扩展原则迭代地训练网络，使用显着图[53]改进中间结果，并将其作为分割网络的监督。补充数据。Hong等人[18]其他数据在用于训练类不可知解码器的视频中：在推断时间，类特定注意力图必须单独地通过解码器。最近，Leeet al. [31]通过经由扭曲合并来自连续帧的检测到的掩模来从视频中聚集附加注意力图突出和进一步完善。Zeng等人 [60]表明，联合训练与显着性地面真理签署，4255Cm= max跳过连接评分语义地图面具softmaxPAMR我图像nGWPLseg随机门Lcls图3. 体系结构概述。我们的模型共享了分割网络的设计，但还使用了归一化的全局加权池（nGWP，Sec.3.2）和像素自适应掩模细化（PAMR，第3.2节）。3.3）实现自监督学习，用于从图像标签进行分割。显著地提高了掩模精度。Fan等人[14]将[13]的显着性检测器与注意力地图相结合，将每个检测窗口内的特征划分为一个片段。为了增加注意力地图的回忆，Weiet al.[57]在最后一层增加了多个膨胀率。为了实现同样的目标，Leeet al.[30]随机选择隐藏单位并将改进的初始种子提供给DSRG [24]。仅图像级标签。在这项工作中，我们坚持早期的做法，只依赖于图像标签注释。在此设置之后，AhnKwak [3]对来自初始CAM的像素级亲和距离进行建模，并采用随机游走在像素级传播各个类标签实例感知的亲和编码提供了额外的好处[2]。这两种方法都需要在掩模上训练一个独立的分割网络以获得最终结果[24、55、56、57]）。柳井下田归一化全局加权池（nGWP），其利用像素级置信度预测来对相应分类分数进行相对加权。此外，我们将焦点掩模惩罚纳入分类分数以鼓励完整性。我们将在第二节中更详细地讨论这些组件。3.2.接下来，为了符合局部一致性，我们提出了像素自适应掩模细化（PAMR），它修改了粗糙掩模预测w.r.t.外观提示。更新后的掩码进一步用作分割的伪地面实况，与分类目标一起进行训练，如我们在第2节中所解释的。三点三由PAMR产生的改进的掩模可能仍然包含w.r.t.地面实况和自我监督学习可能通过过拟合进一步加剧这些错误。为了减轻这些影响，我们设计了一个随机门（SG），它结合了一个深的功能表示易受这种现象更强大，但表现力较弱的浅层功能，在随机的方式。秒3.4提供更多细节。3.2.分类分数CAMs. 简要回顾一下如何使用全局平均池（GAP）计算类分数是有指导意义的，因为这种分析为我们的聚合映射建立了前提令xk，：，：表示K个特征通道在GAP之前的大小为h×w，并且ai：是参数vec。在完全连接的预测层中的类别C的TOR。的然后获得类别C的类别得分，[45]建议使用级联的三个额外的“差异检测”模块对这些掩码进行后细化与这些工作相比，我们开发了一种具有竞争力的替代方案，同时考虑到实用性：y间隙=1ΣKHWk=1a、c、kΣi、jxk，i，j.（一）弱监督分割，在一个循环中训练。接下来，我们可以计算类激活映射(CAM)[63]关于C类，3. 模型3.1. 概述凸轮c，：，：. ΣK0，k=1ac，kxk，：，：Σ.（二）我们的网络模型，如图所示。3，遵循具有softmax输出和跳过连接的完全卷积分割网络的既定设计[36]。这允许任何基于分割的网络架构的直接扩展，并利用预先训练的分类模型进行参数预调节。推理只需要一个前向传递，类似于完全监督的分割网络。然而，相比之下，我们的模型允许单独从图像标签中以自我监督的方式学习分割。我们提出了与我们的任务相关的三个新组件（i）新的类聚合函数，（ii）局部掩码细化模块，以及（iii）随机门。类聚合函数的目的是利用分段掩码进行分类决策，即：以提供如前所述的音质保真度。为此，我们开发了一个图4a示出了这个过程，我们称之为CAM-GAP。从等式（1）我们观察到，它鼓励特征图中的所有像素与目标类识别。这可能不利于小片段并增加分类器对上下文的依赖，这可能是不期望的，因为掩码精度的损失。同样，从Eq.（2）如果我们采用CAM-GAP来为学习提供分段线索，还有两个问题。首先，掩码值不是从上面有界的，而是在段a中，因此，我们寻求归一化表示（例如，∈（0，1）），其可以被下游应用程序解释为置信度-选项。其次，GAP没有编码来自底层分割任务的像素级竞争的概念，其中每个像素只能假设一个类别标签（即，没有softmax或相关组件）。因此，我们认为，CAM-GAP是不适合的分割任务。4256conv1x1背景常数softmaxnG分类评分[C×1]分数图[C+1 ×h×w]特征张量[K×h×w]=mCCC：，：，：1conv1x1共享ReLU语义掩码，mt亲和内核图像语义掩码，mt+1FC分类评分[C×1]（一）口罩[C+1×h×w]保证金WP焦点P（b）第（1）款图4. 原始GAP-CAM架构（a）和我们提出的修改，nGWP（b）。我们对CAMs的分析促使我们设计了一种替代的班级分数聚合映射图5. 像素自适应掩模优化（PAMR）的概念图。对于每个像素，我们计算一个亲和内核，以测量其在RGB空间中与相邻像素的接近度。我们通过自适应卷积迭代地将此内核应用于语义掩码，以获得精炼的标签。在Eq中概括惩罚项。（4）焦点损失[34]，用于我们的最终模型：nGWP，它允许重新使用原始分类损失，但能够进行分割的联合训练，从而大大改善y大小-焦点=（1−m<$c）plog（λ+m<$c）、m'cΣ1hwc，i，j面具质量。i、j（五）超越CAM 为了解决这个问题，我们提出了一种新的分数聚合方案，见图。4 b的概述，其允许无缝集成到前骨干网中，但不继承CAM-GAP的缺点。请注意，以下讨论与应用于最终分类分数的损失函数正交，我们从基线模型中保留了该损失函数。请注意，当掩码大小接近零时，m<$c→0，惩罚保持其原始形式，即，当量（四）、然而，如果掩码为非零，则p >0不考虑掩码大小的进一步增加，以集中于近零掩码的故障情况。我们将最终的分类得分计算为ycynGWP+ysize-focal，并使用多标签软边缘损失函数[39]在以前的工作[3，57]作为分类损失，给定特征x：，：，：，我们首先为每个像素预测大小为C×h×w的分类得分y：，：，：然后，我们添加一个背景通道（具有一个常量值），并计算一个1摄氏度Lcls（y，z）=−Cc=1zc测井.Σ11 +e−yc+.Σ（6）逐像素softmax以获得具有置信度值m的掩码。为了计算分类得分，我们提出了归一化的全局+（1−zc）loge−yc1 +e−yc，加权合并（nGWP），定义为Σ其中z是地面实况标签的二进制向量。损失对于负类鼓励yc0（即，当zc=0时）nGWPi，jmc，i，jyc，i，j并且对于正类yc>0（即，当z c= 1时）。yc=0。（三）n+i′，j′mc，i′，j′这里，小的k>0解决了在实践中经常观察到的饱和问题（参见图1）。补充材料，SEC。B）。正如我们从Eq。（3）nGWP不随掩模大小变化。这可能为小片段带来优势，但与更积极的GAP聚合相比，会导致召回率较差。为了鼓励完整性，我们鼓励增加正类的掩码大小，并对其进行惩罚3.3. 像素自适应掩模细化虽然我们的分类损失占语义fidelity和完整性，局部掩码细化的任务是实现局部一致性：附近的区域共享相同的外观应该被分配到同一个类。将该想法形式化的映射采用像素级掩码预测m：，：，：∈（0，1）（C+1）×h×w（对于背景类）并考虑要产生的图像I术语：.ΣΣy大小= log λ +m。精致的面具. 这种映射必须是高效的，t+1CAMs[C×h×w]分数图[C×h×w].特征张量[K×h×w]【K×1】间隙4257chw i、jc，i，j（四）因为我们将使用它来为segmen产生自我监督与分类目标同时训练的站。这种惩罚的大小由一个小的λ>0。对数标度确保了只有当掩码接近零时，我们才会招致较大的负值惩罚由于我们解耦了班级分数的影响（由方程捕获）。（3））从掩模尺寸（通过等式（4）），我们可以应用困难意识损失函数。我们因此，简单选择GrabCut [42]或密集CRF[29]这会使训练过程变慢。相反，我们的实现来自像素自适应卷积（PAC）[49]。这个想法，在图中说明。5，是迭代地更新像素标签m，i，j，使用一个con-i，i，j。它的邻居N（i，j）的标签的vex组合，即，4258：，l，nσ2在第t次迭代中，我们有Σ输入地面实况预测精化伪GT不：i，j=（l，n）∈N（i，j）αi，j，l，n·mt−1，（7）其中像素级亲和度α i，j，l，n是图像I的函数。为了计算α，我们对像素强度I使用核函数，k（Ii，j，Il，n）=− |Ii，j−Il，n|、（8）i、j其中，我们将σ i，j定义为针对亲和核局部计算的图像强度的标准偏差。我们应用softmax来获得（i，j）的每个邻居（l，n）的最终亲和距离αi，j，l，n，即αi，j，l，n=图6. 训练时的中间结果。PAMR细化ek<$（Ii，j，Il，n）/（q，r）∈N（i，j）ek<$（Ii，j，Iq，r）），其中k<$是av-模型预测（中）通过考虑外观线索形象修改后的掩码（第4列）用作伪地在RGB通道上擦除亲和度值这种局部细化，称为像素自适应掩模细化（PAMR），被实现为无参数的回流模块，其迭代地更新标签，遵循等式（1）。（七）、显然，所需的迭代次数取决于亲和核的大小和形状（例如，图5中的3×3）。在实践中，我们将多个3×3-内核与不同的膨胀率相结合。我们研究了在我们消融研究中更详细地描述了亲和结构（参见，秒4.2）。注意，由于我们没有通过PAMR反向传播在实践中，一次迭代增加的GPU占用空间不到基线的1%自我监督分割丢失。我们通过考虑置信度>最大值的60%（对于背景类>70%）的像素，从PAMR生成伪地面实况掩码损失函数将忽略正在删除的像素和具有低置信度的像素。我们完全丢弃图像，其中一些地面实况类不会产生任何有信心的伪地面实况像素。在完全监督的情况下[8]，我们使用像素交叉熵，但平衡了类间的损失分布，即每个单独类别的损失被归一化w.r.t.包含在伪地面实况中的对应像素的数量。在训练时分段自我监督的中间结果如图所示六、3.4. 随机门自监督学习的基本前提是自举的思想：我们期望模型然而，这与模型的代表性力量不一致，因为一个功率-truth，我们只使用高置信度像素（最后一列）。深层特征的感受野使模型能够在分割中学习这种复杂的现象[8，58，61]。为了对抗自我监督错误的复合效应，我们提出了一种规则化，称为随机门（SG）。基本的想法，如图所示。7是将深层特征（具有大的感受野）与来自前一层的特征随机组合，其中感受野的大小是中等的。形式上，让x（d）和x（s）分别表示深特征图和浅特征图中的激活（为简洁起见，省略张量子脚本）。在训练时间让人想起辍学[48]：xSG=（1−r）x（d）+r（s）其中r<$Bernoulli（r），（九）其中，混合率<$∈[0，1]调节输出张量中两个特征表示的比例在-参考时间，我们确定性地组合两个流使用匹配输出的第一时刻，即，xSG=（1− 1） x（d）+ 1 x（s）。（十）就它们所包含的语义信息而言，单独的浅层特征可能过于有限为了丰富他们的代表性，同时保留他们原来的接受领域，我们设计了通过自适应实例归一化（AdIN）的全局提示注入（GCI）[23]。如图7，我们首先对深度特征张量应用1×1卷积，以使通道数量加倍。然后，我们提取两个具有全局信息的向量（即，无空间提示）通过全局最大池化（GMP）。在图1中显示为GMP之后的1D矢量的左半部分（无阴影）和右半部分（有阴影）。7，让z（a）和b（a）表示这样的表示的两个部分，其将由浅特征通道M4259中的每个位点共享。我们计算∗增强浅激活x（s）as错误模型也可以学习模仿这些错误。从以前的工作中得到的有力证据表明，* 本文件迟交。x（s）=ReLU.z（a）Σx（s）−µ（x（s））σ（x（s））+b（a）Σ、（11）4260Cconv3放大浅层特征conv1x1+ReLU深度特征Adin∗x（s）conv1x1↓ p/λ → 0。10. 010.001124812 24 IoU✓✓✓中国59.4（无改进）31.8（×2）conv1x1+ReLUconv1x1+ReLU（concatenate）z（a）x（d）conv1x1+ReLUGMPb（a）+ReLU随机栅极xSG(a) IoU（val，%）w.r.t.焦点掩模惩罚✓中国50.6(b) IoU（val，%）w.r.t. 像素自适应图7. 随机门的概念图。所有直角块都是大小相同的张量.DeepLabv3+[8]的基线模型显示为红色：ASPP的输出为经由来自 Conv3 的跳过连接来增广，并且结果 x（d）直接通过解码器。以蓝色显示，我们的改装-阳离子（GCI）通过AdIN将从深层特征提取的全局线索注入到浅层特征中[23]。然后，使用Eq.（9）在训练和Eq.（10）推理时间。我们固定<$= 0。5w/GCI for SG并使用PAMR内核[1，2，4，8，12，24]。面具炼制。我们固定<$= 0。5w/GCI用于SG，并设置p = 3，λ =0。01.其中，µ（·）和σ（·）是平均值，标准偏差是∗x（s）的每个通道。更新后的激活x（s）为通过1×1卷积，并取代方程中的原始x（s）（9）和Eq。（10）在SG的最终形式在[8]之后，然后，来自SG的输出通过3层解码器。4. 实验4.1. 设置数据集。Pascal VOC 2012 [12]是弱监督语义分割的既定基准，包含20个对象类别。根据标准实践[3，28，57]，我们使用Hariharan等人提供的额外图像集来增强原始VOC训练数据。[15 ]第10段。我们总共使用了10582张带有图像级注释的图像进行训练，1449张图像进行验证。实作详细数据。我们的模型在PyTorch中实现[39]。我们使用WideResNet-38骨干网络[58][59]F，用于VGG16 [47]和ResNet主链[16]的我们通过添加Atrous Spatial Pyramid Pooling（ASPP），跳过连接（使用我们的随机门）和3层解码器[8]将此模型进一步扩展到DeepLabv3+我们使用权重衰减使用SGD训练我们的模型20个epoch5× 10−4，动量0.9，恒定学习率0.01对于新的（随机初始化的）模块和0.001对于WideResNet-38参数，从ImageNet初始化[11]预培训。我们首先只使用分类损失训练我们的模型5个时期，并在剩余的15个时期中打开自监督分割损失。我们使用多尺度输入的推理[7]，并删除分类器置信度为0的类的掩码<。1.一、数据扩充。按照惯例[3，57]，我们使用随机重新缩放（在（0. 九，一。0）范围w.r.t.原始图像区域），水平翻转，颜色抖动，并在大小为321 ×321的随机作物上训练我们的模型。(c) IoU（val，%）w.r.t.随机之门我们使用p = 3，λ = 0。01，并使用PAMR内核[1，2，4，8，12，24]。表1. Pascal VOC的消融研究。我们研究了（a）焦点掩模惩罚，（b）像素自适应掩模细化和（c）随机门的作用。4.2. 消融研究焦掩模惩罚。根据[34]的直觉，焦点掩模惩罚强调对当前失败情况的训练，即小（大）掩模用于图像中存在（不存在）的类从Eq回忆（5）λ控制惩罚幅度，而p是较好图像样本的折扣率我们的目标是验证掩模惩罚的“焦点”方面是否p=0）。表1a总结了结果。首先，我们发现掩模惩罚的焦点版本提高了基线的分割质量这种改进在p = 5和λ = 0时最大化。1，是有形的，但在一个微不足道的计算成本。其次，我们观察到增加λ倾向于增加分割准确度。当从0改变λ时。01到0。001导致平均更高的召回率，但它对精确度有不利影响。最后，我们还发现，与CRF细化相结合的p的适度正值导致掩模质量的更大幅度的提高：其中p=3，λ=0。我们得了62分。2%的IoU，而p = 0时的最高IoU仅为60。5%（λ=0时达到）。01）。然而，较高的p值并不能从CRF处理中获益（例如，五十九8%，p = 5，λ = 0。1）。因此，p =3在使用和不使用CRF的模型准确度之间取得了最佳平衡。请注意，去除掩码惩罚，y大小焦点，导致召回率预期下降，仅达到56。6%的IoU。像素自适应掩模细化（PAMR）。从SEC召回。3.3PAMR旨在提高原始粗掩模的质量局部一致性以提供用于分段的自我监督。在这里，我们验证（i）im-x（s）ASPP解码器058.858.957.4✓ ✓✓✓✓55.7359.559.458.1✓369✓1657.9560.259.157.1✓ ✓✓✓✓1658.2ConfigIOUIoU（+CRF）= 0。559.462.2= 0。5个，无全球通信基础设施59.860.9= 0。359.762.7= 0。3个，无全球通信基础设施57.760.34261方法IoU（列车，%）IoU（val，%）方法骨干主管DEP.Val测试CAM [3]（我们的基线）48.046.8完全监督我们的报告+通用报告格式表2.基于Pascal VOC训练和value-based的分割质量[58]第58话：我的世界[8] Xception-65 [9]F多阶段+显著性[25]第一届中国国际汽车工业展览会[26验证集。在这里，我们使用地面实况图像级标签来重新DCSP [5]ResNet-101S[35]第三十五届60.861.9移动模型预测的任何假阳性类别的掩码RDC [57]VGG-16S[59个]60.460.8[第24话]ResNet-101S[五十三]61.463.2FickleNet [30]ResNet-101S[24日]64.965.3PAMR的重要性，通过训练我们的模型，没有报告，细化;和（ii）核结构的选择，即。PAMR中3×3-核膨胀率的合成表1b中的结果表明，PAMR是我们的自监督模型中的一个关键组成部分，因为分割精度从59.4%至31。我们进一步发现，核的大小也会影响识别的准确率。这是预期的，因为小的感受野（表1b中的膨胀1-2-4-8）不足以修正通常表现出与对象边界的大偏差的粗掩模的边界。具有较大亲和核感受野的结果进一步支持了这一直觉：增加最大3 × 3-内核到24获得最佳的掩码质量相比，更小的亲和核。此外，我们还观察到-改变核的形状不会有如此剧烈的影响;从1-3-6-9-12-16到1-2-4-8-12-16的变化仅导致小的精度变化。这在实践中是可取的，因为对这些次要细节的敏感性将意味着我们的架构过度适应数据中的特殊性[52]。随机门（SG）。的意图SG，介绍了在SEC. 3.4，是为了对抗过拟合中所包含的伪监督误差.在这里，有四个基线，我们的目标是验证：（i）停用SG;（ii）将x（d）和x（s）确定性地（即，在Eq.（9）;（3）作用全球线索注射（GCI）的影响;及（iv）混合速率为1000。这些结果总结见表1c。显然，SG是至关重要的，因为禁用它会大大削弱掩模精度（从59.8%到55.6% IoU）。SG的随机性也很重要：简单地说，对x（d）和x（s）求和（我们使用r=0。5）产生较差的掩码IoU（57.5%vs.59.8%）。在我们的模型中-其中两个都是0。5，则0=0。3.我们发现，GCI模型往往提供更好的结果。然而，没有GCI的模型可以在给定特定的选择的情况下具有竞争力（例如，0的情况。（五）。在这种情况下，使用GCI的模型通常具有更高的召回率，而不使用GCI的模型具有更高的精度。由于CRF往往会增加精度提供足够的面具支持，GCI的模型，因此，应更多地受益于这种改进。我们证实了这一点，并观察到GCI模型有更大的改善（59.4vs.62.2% IoU）。此外，本发明还美国证券交易委员会[28]VGG-16S、D[46个]50.751.7显著性[37]VGG-16S、D55.756.7CAM + RW [3]58.157.0CAM + RW + CRF [3]59.7–CAM + IRN + CRF [2]66.5–我们64.763.44262[31 ]第31话第一次见面[50、19、30]63.9 65.0表3. Pascal VOC确认和测试的平均IoU（%）。对于每种方法，我们指出了用于图像级标签I之外的训练的额外线索，例如显着性检测（S），额外数据（D）以及它们对其他方法的依赖性（我们发现，GCI提供更稳定的结果，为不同的反射率，这可以减轻参数微调在实践中。4.3. 与最新技术水平的比较Setup. 在这里，我们的模型使用具有GCI 的SG，θ = 0。3，p = 3和λ = 0时的焦点罚分。01，以及具有10次迭代和1-2-4-8-12-24亲和内核的PAMR面具质量。回顾一下，最近的大多数工作，例如，[24，30，31，57]，另外从伪地面实况训练单独的完全监督分割网络。为了评估由我们的模型生成的这种伪监督的质量，我们使用图像级的地面真实标签来移除图像中不存在的类的任何掩码（仅针对本实验）。表2中的结果表明，使用我们的单级掩码输出作为伪分段标签，CAM的基线IoU提高了惊人的18。9%的IoU（18. 5%的验证），甚至超过最近的多阶段方法[3] 7。2%IoU，[2] 由0。4%的IoU。这是值得注意的，因为我们既没有训练额外的模型，也没有求助于显着性检测。单阶段+显著性ResNet-10166.567.4联合显著性[60][22]第二十二话S、D63.364.3多级AffinityNet [3]WideResNet-38 我61.763.7伊朗[2]ResNet-50我63.564.8SSDD [45]WideResNet-38 我[3]第一章64.965.5单级[第17话]VGG-16D52.151.2[第18话]VGG-16D58.158.7[第38话]VGG-16我38.239.6[41]第四十一话[44]第四十四话我42.040.6CRF-RNN [43]VGG-16我52.853.7我们WideResNet-38我59.762.760.564.34263(a) 序列（b）确认（c）测试图8. PASCAL VOC的定性结果。我们展示了我们的方法的示例分割（左），CRF后处理的结果（中）和地面实况（右）。我们的方法可以在各种具有挑战性的条件下生产高质量的掩模分割精度。表3提供了相对于最先进的技术由于图像级标签在测试时通常不可用，因此我们在这里不执行任何掩码修剪（与表2不同）。在图像级监督的设置中，IRN [2]和SSDD [45]是唯一具有比我们更高IoU的方法。两种方法都是多阶段的;他们至少要经过三个阶段的训练。IRNet[2]在伪标签上训练一个额外的分割网络，最终只比我们的方法好0。5%的IoU。回想一下，SSDD本质上是一种后处理方法：它从AffinityNet [3]（63. 7%IoU），并进一步使用两个网络的级联来修改掩码。这个策略比我们的结果只提高了1。2%的IoU，但代价是模型复杂性大幅增加。我们的单阶段方法也与JointSaliency [60]竞争，后者使用更强大的主干[22]和显着性监督。最近的帧到帧系统[31]也使用显着性进行监督，并在从视频中挖掘的额外15K图像上进行训练，这需要最先进的光流[50]。相比之下，我们的方法要简单得多，因为我们在一个镜头中训练一个网络。然而，我们超越了许多使用额外数据和显着性监督的多阶段方法[5，24，28，37，56]。我们显着改进了以前的单阶段方法[38，41，43]，并且优于单阶段WebCrawl [18]，后者依赖于额外的训练数据，并且需要通过其类不可知的解码器进行多次正向传递。我们的模型既不需要，也不需要在一次通过中推断所有类的掩码。请注意，在我们的伪标签是一个微不足道的扩展，考虑到我们的实际目标，我们在这里省略了它然而，我们仍然在补充材料中提供这些结果（第二节）。事实上，在多级设置中也达到了最先进的水平。定性分析从定性结果来看，图8，我们观察到我们的方法产生的分割掩模与对象边界对齐良好我们的模型表现出良好的泛化能力，具有不同的对象规模和语义内容的具有挑战性的场景。我们的分割网络的常见故障模式类似于完全监督方法的故障模式：分割细粒度细节（例如，自行车车轮），在闭塞条件下贴错标签（例如，骑自行车的人的腿vs.自行车），以及误导性的外观提示（例如，低对比度、相似纹理）。5. 结论在这项工作中，我们提出了一种实用的弱监督语义分割方法为了保证局部一致性、语义保真度和分割掩码的完整性，我们引入了一个新的类聚合函数、一个局部掩码细化模块和一个随机门。我们的方法虽然简单，但非常有效。具体而言，它产生的分割精度与最先进的水平相当，并优于一系列依赖于额外的训练数据和显着性监督的最近的多阶段方法我们希望我们的模型也可以从辅助监督中受益，并适应下游任务的需求，而无需大量的部署工作。4264引用[1] 罗尔夫·亚当斯和莉安·比肖夫。种子区域生长。 IEEETrans. 模式分析马赫内特尔，16（6）：6412[2] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习。在CVPR中，第2209-2218页，2019年。三、七、八[3] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR中，第4981-4990页，2018年。一、三、四、六、七、八[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，第549-565页，2016中。1[5] Arslan Chaudhry，Puneet Kumar Dokania和Philip H. S.乇发现类特定的像素，用于弱监督语义分割。在BMVC，2017年。二七八[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， Kevin Murphy ， and Alan L. 尤尔。DeepLab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 7[7] Liang-Chieh Chen，Yi Yang，Jiang Wang，Wei Xu，and Alan L.尤尔。注意秤：尺度感知语义图像分割。在CVPR，第3640-3649页，2016年。6[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV中，第833-851页，2018年。一、五、六、七[9] 弗朗索瓦·肖莱Xception：使用深度可分离卷积的深度学习。在CVPR中，第1800-1807页，2017年。7[10] 戴季峰、何开明、孙建。BoxSup：利用边界框来监督卷积网络进行语义分割。在CVPR，第1635-1643页，2015年。1[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。6[12] Mark Everingham，Luc J.放大图片作者：Christopher K.I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pas- cal VisualObject Classes（VOC）Challenge. Int. J. Comp.目视，88（2）：303-338，2010. 6[13] 范若尘、程明明、侯启斌、穆泰江S4net：单阶段显著实例分割。在CVPR中，第6103-6112页，2019年。3[14] 范若尘，侯启斌，程明明，余刚，拉尔夫R. Martin和Shi-Min Hu。弱监督语义分割的图像间显著实例关联。在ECCV，第371-388页，2018年。3[15] 放大图片创作者：Bharath Hariharan，Pablo Arbelaez，Lubomir D. Bourdev ， Subhransu Maji ， and JitendraMalik.从反向检测器的语义轮廓载于ICCV，第991-998页，2011年。6[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。6[17] Seunhoon Hong ， Junhyuk Oh ， Honglak Lee ， andBohyung Han.用深度卷积神经网络学习语义分割的可转移知识在CVPR，第3204-3212页一、二、七[18] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在CVPR中，第2224二七八[19] Hou Qibin ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip H.S. 乇具有短连接的深度监督在CVPR中，第5300-5309页，2017年。7[20] Hou Qibin ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip H.S

下载后可阅读完整内容，剩余1页未读，立即下载