基于类内判别器的弱监督语义分割整数对象学习的有效性

14 浏览量更新于2023-10-23 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4283基于类内判别器的弱监督语义分割整数对象学习范俊松1，2张兆祥1，2，3宋春风1，2谭铁牛1，2，3谭1智能感知与计算研究中心（CRIPAC），模式识别国家实验室（NLPR），中国科学院自动化研究所2中国科学院大学（UCAS）3中国科学院脑科学与智能技术卓越中心{fanjunsong2016，zhaoxiang.zhang}@ ia.ac.cn，{chunfeng.song，tnt}@nlpr.ia.ac.cn摘要图像级弱监督语义分割（WSSS）旨在通过只采用图像类别标签来学习语义分割。现有的方法通常依赖于类激活图（CAM）来生成伪掩码，然后训练分割模型。主要的困难是CAM估计只覆盖部分前地目标.在本文中，我们认为，阻碍获得完整的对象掩模的关键因素是分类边界失配问题，在应用CAM WSSS。由于CAM通过分类任务进行了优化，因此它侧重于不同图像级别类别之间的区分。然而，WSSS需要区分共享相同图像级类的像素，以将它们分离成前景和背景。为了消除这种矛盾，我们提出了一个有效的端到端类内判别器（ICD）框架，它学习类内边界，以帮助分离每个图像级类内的前景和背景。在没有花里胡哨的情况下，我们的方法实现了基于图像标签的WSSS的最先进性能，在VOC 2012语义分割基准测试中，mIoU为68.0%，证明了所提出方法的有效性1. 介绍语义分割是场景理解的基础，近年来取得了很大的进展[26，3，4，5]。然而，它通常需要具有像素级注释的大规模数据集进行训练[9，25]，这是非常昂贵的。为减轻负担*通讯作者图1.方法的动机CAM学习区分不同的类。我们的ICD学习区分同一类中的前景和背景，这更适合于估计WSSS的伪掩模针对像素级注释，研究人员提出了弱监督语义分割（WSSS），其仅采用容易获得的粗糙标签进行训练，例如，图像级标签[20，40，1，38，37，15]、涂鸦[24，36]和边界框[7，19，34]。本文重点研究了最具挑战性的问题，即只采用图像级类别标签来训练语义分割模型。现有的方法通常遵循首先生成伪掩码（又称伪掩码）的流水线。种子），然后采用种子来训练分割模型。类别激活图（CAM）[42]被广泛用于估计种子。然而，CAM只能给出稀疏的和不完整的目标对象的估计，这通常是最具鉴别力的区域来识别对象类。以前的方法试图通过采用扩张卷积[40]、迭代迭代策略[38]、随机丢弃连接[22]以及我们的（ICD）凸轮Plane-FGPlane-BGBird-FGBird-BG4284在线积累策略[18]等。这些方法通过迫使CAM突出更多未开发的区域来实现良好的效果。然而，由于CAM只负责分类的固有特性，平衡前景的召回和背景的假阳性是相当棘手的。在本文中，我们认为，应用CAM生成种子的核心问题是图像级分类任务和所需的像素级伪掩模估计任务之间的不匹配。为了训练CAM，像素投票以获得用于图像级分类的图像的总体分数在这一过程中，主要的评判标准是阶级间的差别.局部区域中更容易被识别的前景对象像素支配激活，例如，一个人的脸或一辆车的轮子。其他前景像素被淹没，与背景无法区分。该模型的最终目标是学习类间识别的边界。然而，为了获得WSSS的整体对象掩模，我们需要精确地区分像素是属于前地对象还是背景。因为前景和背景像素位于同一图像中，所以这种区分主要在同一图像级类内进行，即，阶级内的歧视。一般来说，由CAM学习的类间边界不符合我们对前地和背景之间的类内区分的要求，如图所示。1.因此，很难通过简单地对CAM分数进行阈值化来获得完整的对象掩模为了缓解这种边界不匹配的问题，我们提出了一个类内分类器（ICD），致力于分离每个图像级类内的前景和背景像素，如图所示。1.这样的类内分类器类似于用于每个图像级类的二元分类器，其在前方像素和背景像素之间进行识别。主要的困难是我们没有地面真值标签来指导用户。我们通过实验观察到，像素的嵌入特征位于流形中，前景和背景像素通常位于不同的簇中。因此，我们利用特征的这种各向异性特性来开发一种方法，该方法训练ICD将前景像素与背景分离，而不依赖于任何额外的监督。我们以端到端的方式通过多个神经网络层对所提出的ICD进行建模，这些神经网络层可以直接插入现有网络，如图所示。2.我们的ICD方法非常有效，并且在一轮中与CAM一起训练。ICD模块的输出提供对前景对象和背景杂波的估计。我们的方法不一定需要任何外部显着性模型[17]来帮助获得背景种子，这通常是许多人所需要的。最近的WSSS方法[15，40，14，18]。在不参考显着性模型的情况下，我们的方法在VOC 2012分割基准[9]上实现了64.3%的此外，在用于背景估计的外部显著性模型的帮助下，我们的ICD实现了68.0%的mIoU，这是基于图像级标签的WSSS领域中的新的最先进性能。这些结果证明了我们的ICD方法处理边界失配问题的优势。总之，我们的方法的主要贡献如下：• 我们确定了在将CAM应用于WSSS时的边界失配问题，即，图像级的类间识别和所需像素级类内分割。• 我们提出了一种有效的端到端类内识别器（ICD）方法来解决这个问题，通过学习类内边界来分离前地面物体和背景。• 我们进行了大量的实验来分析我们提出的ICD方法的有效性。所提出的模型达到了最先进的性能基于图像标签的WSSS。2. 相关工作类激活映射。类激活图（CAM）[42]被广泛采用作为WSSS的基石第一获得CAM的步骤是用图像级标签训练分类网络，该分类网络在最后一个线性分类层之前具有全局平均池化（GAP）层。然后，它删除GAP层，并直接将分类层应用于特征图，获得每个类的密集得分图。梯度CAM[32]是CAM的一般化，其使用一般化权重来导出分数图，这也被一些WSSS方法[22]采用。因为这些得分图是从分类任务中导出的，所以它们通常仅在用于分类的最具鉴别力的区域上激活，从而导致WSSS的稀疏和不完整的伪掩码弱监督语义分割。弱监督语义分割（WSSS）旨在学习仅具有粗糙标签的语义分割，例如，边界框[7，34]，涂鸦[24，36]，和图像la-贝尔[38，20，15，37，40，14]。在本文中，我们专注于最具挑战性的问题，只采用图像级标签的WSSS。现有的基于图像级标签的WSSS方法通常遵循首先由CAM（或grad-CAM）从图像级标签4285i=1框架：ICD：前向估计向后更新输出损失：Ltd种子CxHxWFG图像BG损失：Lbu共享主干骨干CxHxWCow类的得分图超像素优化方向向量自上而下的适应种子生成图2. 左：我们方法的总体框架，包括CAM分支和拟议ICD分支。右图：ICD模块的框架，其中包含一个自底向上的估计分支和一个自顶向下的适应分支。用于生成种子的最终ICD分数请参见Sec。4了解详情。然后采用这些种子训练一个普通的分割模型。研究者们一直在努力解决种子不完全问题. AE-PSL [38]提出了一种迭代擦除方法，以迫使CAM从更多不同的区域学习分类。MDC [40]提出使用具有不同膨胀率的多个卷积层来扩展激活区域。DSRG [15]在训练分割模型时采用种子生长算法来扩展种子。FickleNet [22]建议在每个滑动窗口中随机丢弃连接并累积多个推理结果。OAA [18]设法沿着CAM的训练过程累积分数图。然而，由于基于分类任务的CAM固有的局限性，通常很难平衡召回率和假阳性。同时，需要外部显着性模型[17，13]来估计背景，这隐含地引入了额外的像素级注释要求。AffinityNet [1]展示了另一个想法，没有外部显着性的要求，它学习像素级的亲和度模型来生成和细化种子。然而，它需要昂贵的多阶段培训。此外，初始种子仍然依赖于CAM，这可能是较差的，因为CAM提供了不可靠的背景估计。3. 试点研究我们进行试点实验，以证明由CAM学习的分类边界是不适当的。分数的这些像素，这只突出了部分前地面。一些前景像素，例如，红框中的像素虽然远离流形中的背景像素，但通过CAM分数与背景无法区分，因为CAM仅关注不同类别之间的边界。相比之下，我们的方法利用特征流形来设置每个类中前景和背景像素之间的边界。图3（c，d）显示了通过我们的方法获得的分数，这更适合于为WSSS生成种子。4. 方法图2示出了整个框架，其包含用于从图像级标签学习特征流形的CAM分支，以及用于学习类内边界以分离每个图像中的前景和背景ICD分支包含两个主要组件，分别基于当前特征估计掩码和调整整个模型以进一步细化。4.1. 自底向上估计ICD的核心思想是基于特征流形将像素分为前景和背景组我们通过学习一个方向性的向量wc对于每个类c。设X={Xi}N是输入图像的集合，并且fi是Xi的特征图，其大小为H×W。方向向量通过学习获得用于分离前景和背景以生成种子的门。为了清楚起见，我们举例说明两类情况。我们应用经过训练的CAM模型来提取图像中每个像素的特征。我们将这些特征作为单独的样本，并采用t-SNE [27]对其进行可视化。如图3（a）中所示，前景像素和背景像素分别为：L布（X）=−1ΣN公司简介NHWi=1k =1c=1w=wcc ||w/c||2yi，cwTfC i，k第二章（1）（二）地面像素通常位于不同的簇中并且是可分离的。图图3（b）示出了相应的CAM其中，fi，k是fi，yi中第k个像素的特征，c是等于1的二进制标签，当且仅当第c个类出现在（4286CK ICi、k、ci、k、ci、k、ci、k、ci、k、ci、k、c对应的CAM分数，我们计算这两组的平均CAM分数：a) 类b) CAM c）我们的鸟d）我们的飞机M<$g=1ΣNN|I g|ΣMi，k，c，g∈ {pos，neg}（4）i，ci=1∈gi，c图3.通过t-SNE算法实现像素特征的可视化。a）特征的类属性; b）CAM评分其中，|·|表示集合中元素的个数。然后，我们比较M<$pos和M<$neg的值，特征; c、d）我们的ICD特征评分。C c图像，C是前景类的总数。为了防止无穷值的平凡解，通过L2-归一化来约束wc，二、如果原始ICD评分较大，则翻转原始ICD评分的符号，ICD评分Si，k，c始终以正值表示Si，k，c=Si，k，c·sign（M<$pos−M<$neg）（5）C c优化方程1鼓励wc指明方向其中像素的特征位于两极。这些特征共享相同的图像级类别标签，并且属于第c个类别的前景或背景。因此，ICD将不会像CAM那样被类间区分问题所困扰由于前景（或背景）像素的特征倾向于聚集在一起，并且前景和背景的嵌入通常不重叠，如图1所示。1，方向矢量学习拟合它们，一个极点是前地，另一个极点是背景。因此，很自然地采用特征在方向向量上的投影的符号为此，我们通过以下方式计算每个像素的得分：Si，k，c=wTfi，k（3）其中，S_i，k，c的绝对值可以被视为置信度，并且符号指示像素属于前景还是背景。请注意，到目前为止，我们还不知道正号代表前景，负号代表背景，或者反之亦然。4.2. ICD评分在本节中，我们描述如何调整等式中分数的符号。3，使得正号始终代表前景聚类。我们注意到，虽然CAM只在部分前景区域激活，但突出显示的区域集中在前景上。这一特性被广泛证明其中，sign（·）是映射多个值的Sign函数为1，负值为-1。为了提高效率，我们将上述步骤作为网络中的一个模块来实现，以便可以在线调整我们通过等式计算本地平均4，并采用动量为0.9的移动平均策略更新全局平均CAM得分。然后是Eq。5根据全局CAM分数翻转符号4.3. 自顶向下适应先前的自下而上估计从现有特征导出初始前景和背景分区。从方向向量的角度来看，这些特征是固定的为了进一步使模型适应伪掩模估计任务，我们通过当前估计来微调特征为此，我们首先细化ICD评分Si，k，c通过对每个超像素中的值进行平均[10]，得到精确的ICD得分S'。该步骤有助于恢复通常在下采样过程中丢失的对象边界信息。然后，我们从细化的ICD分数生成二进制掩码Bi，k，cB i，k，c= I（S′ > 0），k ∈{1，.，硬件} （6）其中，I（·）是指示符函数，如果状态为真，则等于1，否则等于0。最后，我们采用一个新的分支来拟合二进制掩码并导出新的ICD分数S“”：通过以前的方法[15，40，14，18]的有效性，因为它们将CAM中的高分区域作为前景种子因此，我们可以利用这个道具-Ltd（X）=−1ΣNNHW公司简介yi，c（Bi，k，clogσ（S′′）+以确定两个组中的哪一个是前景。为此，对于图像中显示的每个类，我们i=1k =1c=1（1−Bi，k，c）log（1−σ（S′′）））（七）Plane-FGPlane-BG Bird-FG Bird-BG4287i，c首先根据等式（1）的符号将像素分成两组。 3，即，Ipos={k|Si，k，c >0，yi，c=1}，并且其中，σ（·）是sigmoid函数。S′′是分支的预测值，也是最终的适应性ICD评分，negi，c={k|Si，k，c<0，yi，c=1}。将Mi，k，c定义为种子发芽。我4288CCCC|对于Li，k，csig |forLi,k,csigCi、k、cCW4.4. 变体和分析除了EQ。1，还有其他方法来学习方向向量以区分像素。例如，我们可以采用L1形式来学习wc：5. 实验5.1. 数据集在相关工作之后，我们在Pascal VOC 2012 [9]上进行实验它包含21Labs（X）=−1ΣNNHW公司简介y i，c|wTfi，k|（八）用于语义分割的类（包括背景类）。有10582个训练图像，它们是前-i=1k =1c=1另一个直观的选择是将其视为标准的二元分类问题，它生成在线伪标签并采用sigmoid损失进行训练：Yi，k，c=I（wTfi，k>0）（9）由[11]，1449个验证图像和1456个测试图像缩放。对于所有的实验，我们只采用图像级的类标签进行训练，它们对应于20个前景类。性能通过标准平均交大于并（mIoU）进行评估，21个类用于语义分割任务。Lsig（X）=−1 ΣNNHW公司简介yi，c（Yi，k，clogσ（wTfi，k）+5.2. 实现细节i=1k =1c=1（1−Yi，k，c）log（1−σ（wTfi，k）（十）我们揭示了这些变量的连接通过分析梯度。这三种变体的梯度可以用统一的形式表示：我们采用VGG16 [33]作为学习ICD框架的主干，该框架由ImageNet [8]预训练。遵循Deeplab[4]的策略，我们将最后两个池化层中的步幅从2改为1以获得更大的Fc 6和Fc 7层也是简体中文（CN）=−cHW（yi，csign（wTfi，k））·λi，k·fi，k（11）转换为具有1024个通道的以及内核大小分别为3和1其中，i=1k =1对于自底向上的估计，我们采用Conv5 Block的特征来学习。我们附加了一个批量归一化|wTfi，k|对于 Lbuλ i，对于L abs，k= 1C（十二）层[16]与冻结的伽玛1和β 0，以规范化的功能，然后再应用方程。1，以防止琐碎的单符号结果。方向向量通过以下方式有效地实现：当量图11和图12示出梯度是特征的加权和我们的原始方法在具有较大绝对投影值的特征上权重更大，这是一般可靠的，因为它们远离决策边界。相比之下，sigmoid损失方法对边界附近的特征权重更大五点五4.5. 训练和生成种子整个ICD框架与CAM一起训练。将Lcam（X）表示为CAM使用的多类S形损失，总训练损失为：Lall（X）=Lcam（X）+Lbu（X）+Ltd（X）（13）1×1卷积层。对于自上而下的适应，我们将另一个Fc6和Fc7块连接到采用自下而上的估计，我们连接这三个特征来预测适应分数。为了节省训练过程中的计算负担，我们计算了ImageNet预训练的超像素特征[10]，并遵循[35]中的策略分层合并它们，使每个图像最多包含64个超像素。新层由标准差为0.01的正态分布初始化。我们将SGD优化器与动量0.9，重量衰减5e-4。初始学习率为1e−3，每一个epoch以0.9的幂衰减，新层的学习率乘以10。我们采用批量大小32，训练20个epoch。培训训练后，适应的ICD评分S′′采用通过随机缩放，随机翻转，来产生种子。对于单个类别的图像，我们直接采用ICD分数来生成阈值为0的伪掩模。对于多个类别的图像，由所有ICD分数标记为背景的像素被视为种子的背景，而其他像素为前景。如果一个像素被多个ICD分数标记为前景，我们采用CAM分数和ICD分数的乘积来确定其类别，因为CAM是由类别识别问题专门优化的。还采用CRF [21]后处理来进一步细化细节。4289并被随机裁剪成321的尺寸自下而上通过单类图像学习估计以避免混合多类对象。我们采用了预热策略，在前两个时期，自上而下的自适应分支的损失权重从0到1呈指数级增加，因为最初的自下而上的估计是不可靠的。5.3. 重现性我们使用两个TITAN V GPU进行训练，但单个GPU也是可行的。建议的ICD方法很简单-4290自行车鸟巴士猫椅牛不含CRF使用CRF自底向上估计超像素细化自顶向下自适应FG阳性 BG阴性输入图像凸轮ICD（我们的）种子图4.CAM评分、ICD评分和生成的种子的可视化分数的相邻两列分别对应于前景和背景。最好用彩色观看。0.80.60.40.20.0图5. ICD和CAM每类AP的比较。在VOC 12训练集上获得的结果。方法最大平均接入点（%）凸轮46.3我们的（ICD）57.0表1.在VOC12训练集上通过像素级mAP评估评分图的质量。价值越大越好。阈值Miou （%）回忆（%）凸轮我们凸轮我们0.035.159.559.783.50.153.665.337.578.80.362.972.115.165.20.568.575.26.543.8表2.在VOC 12训练集上评估种子更高的阈值导致更可靠的种子，但召回率下降。在MXNet [6]平台上运行。代码可在https://github.com/js-fan/ICD网站。5.4. ICD评分我们首先证明了我们的ICD ap-proach分离的前景和背景像素的图像中的有效性。图4显示了一些示例通过CAM和我们的ICD方法获得。通过在分数图上应用阈值0来获得可视化由CAM获得的前景和背景都非常稀疏。更糟糕的是，由于CAM只关心类间区分，背景分数的最大值并不覆盖周围的环境;相反，它们通常位于物体的边缘。这就是为什么许多以前的方法[38，15，22，18]依赖于额外的显着性模型来估计背景的原因。相比之下，我们的ICD方法致力于区分共享相同图像类标签的像素，从而得到比CAM更好的估计。为了定量评价上述评分图，我们建议应用平均精度来评价评分图。为了计算特定类别的AP，我们首先使用分数来对来自此类图像的所有像素进行排名。然后，我们通过依次将每个像素作为正前景并在所有唯一召回值处采样精度来计算AP。最后，我们通过对所有20个类别的AP进行平均来计算mAP。结果示于图1中。5、Tab 1.这一措施表明，与CAM相比，我们的ICD正确地作为-标志更多的前景像素与更高的分数比背景。我们还采用最终的适应ICD分数来生成种子以评估质量。我们用多个不同的阈值检测种子具体地，给定阈值T，前景和背景由T和-T，分别。我们用种子中的非空区域计算mIoU一般来说，一个更大的门槛，得到了更可靠的估计，但由于空区域的存在，我们的ICD种子始终优于具有不同阈值的CAM种子，如表1所示。二、凸轮ICD平面自行车鸟船瓶总线车猫椅子牛表狗马电机人植物羊沙发火车电视4291变体L布LabsLsigmIoU（%）62.258.352.9表3. ICD入路中组件的消融研究。在具有种子的VOC 12训练集上评估结果5.5. 消融研究ICD的组成部分。我们通过评估生成的种子来展示ICD框架中每个组件的效果，如表10所示。3.初始自下而上的ICD评分在训练集上获得mIoU 49.9% 通过用地面实况评估生成的种子。通过超像素细化的ICD评分达到种子mIoU 54.0%，表明超像素有助于修订ICD评分。自上而下的自适应进一步将每千比特提高了5.9%mIoU，证明了用像素级ICD任务微调骨干模型的效果。最后，CRF后处理策略进一步将性能提升到mIoU62.2%，获得完整版本种子来训练分割模型。自底向上估计的特征。我们研究了特征对自底向上估计的具体来说，我们采用了VGG16主干中三个不同块的特性，即，Conv4、Conv5、Fc 6及其级联。选项卡中的结果。5表明自底向上估计对特征敏感，并且Conv5表现最好。我们认为这是因为自底向上的估计依赖于特征流形。低层的Conv4特征包含了太多的干扰项而无法估计共同的前景对象，而高层的Fc6特征则过度适应分类任务，从而抑制了与识别任务无关的特征。自上而下适应的结构。我们研究了不同结构对适应分支的影响。具体来说，我们探索了四种不同的结构：a）直接采用Conv 5 Blockb）在Conv 5特征之上添加两个块，Fc 6和Fc 7，其拥有与CAM分支相同的结构但不与其共享参数，并且采用Fc 7块的特征进行适配; c）采用上述Conv 5、Fc 6和Fc7的特征的级联进行适配; d）采用与c）相同的结构，但与CAM分支共享参数。Tab中的结果。6证明设置c）实现了最佳性能。与CAM分支共享参数会导致较差的结果，这表明CAM的分类任务和ICD的每像素区分任务需要不同的直接适应表4.ICD估计变量的比较在具有种子的VOC 12训练集上评估结果。方法mIoU（%）不含CRF使用CRFConv443.847.0Conv549.956.7FC640.042.4Concat41.344.1表5.自底向上估计的特征比较在具有种子的VOC 12训练集上评估结果方法mIoU（%）不含CRF使用CRFa）、50.442.9b）、57.258.8c）、59.962.2d）、59.262.0表6.自上而下适应的结构比较在具有种子的VOC 12训练集上评估结果Conv5特性导致了更差的性能。这是因为自下而上估计也直接使用了这个特性.自适应的指导来自自下而上的估计，因此使用相同的特征用于这两个任务的行为类似于更新方向向量和等式中的特征。1同时，其遭受纠缠漂移问题。变体。我们进行实验，以评估不同的方法来估计前景和背景像素，如第二节所讨论的。4.4.选项卡中的结果。4 demonstrate，我们的方法在方程。1执行得最好，而采用伪标签和S形损失的方法执行得最差，这是因为它在决策边界附近的像素上权重更大，这是不可靠的，因为我们在弱监督场景中缺乏基础事实5.6. 与相关作品的比较为了将我们的ICD方法与其他相关工作进行比较，我们使用最终适应的ICD分数生成种子，并使用CRF后处理算法对其进行细化。我们使用生成的种子来学习标准的语义分割网络。具体来说，我们采用Deeplab-Largefov，VGG 16 [33]和Resnet 101 [12]作为骨干。结果列在选项卡中。7和Tab。8，分别。许多先前的方法采用显著性模型来生成背景种子，这些背景种子通常通过以下来训练：底向上细化顶向下CRFmIoU（%）C49.9CC54.0CCC59.9CCCC62.24292VGG16RES101方法监督Val测试DCSP [2]BMVC 17一.+ S.60.861.9[37]第三十七话一.+ S.60.361.2美国[15]一.+ S.61.463.2[14]第十四话一.+ S.63.162.8美国[22]一.+ S.64.965.3[18]第十八话一.+ S.65.266.4我们I.64.164.3我们一.+ S.67.868.0Image GT ICDICD+sal ICD ICD+sal图6.分割结果的可视化。样品来自VOC12值集。我们可视化演示没有显着性模型（ICD）和显着性模型（ICD +萨尔）。方法监督验证试验CCNN [29]ICCV 15I.35.335.6[28]第二十八话38.2 39.6[30]第30话42.0 40.6[20]第二十话50.7 51.7[31]第三十一话54.3 55.5[39]第三十九话S.49.8 51.2[38]第38话S.55.0 55.7DCSP [2]BMVC 17I.+S.58.6 59.2[1]第一届中国国际汽车工业展览会58.460.5美国[23]S.55.3 56.8[37]第37话S.56.2 57.6[15]第十五话S.59.0 60.4[40]第40话S.60.4 60.8[14]第18话S.61.1 60.7[22]第二十二话S.61.2 61.9[41]第四十一话S.57.1 58.6[18]第十八话S. 63.1 62.8奥斯岛61.2 60.9Ours I.+ S.64.0 63.9表7.与VOC12数据集上的相关工作进行比较。所有结果均基于VGG16。I.代表图像级标签，S.代表外部显着性模型。外部显着性数据集与像素级注释，并可以提供精确的背景估计。为了公平的竞争，我们还评估了外部显着性模型的设置。为此，我们采用与[18]用于估计背景相同的显着性模型具体来说，我们保持前景分数不变，用显着性分数替换背景分数，然后遵循与之前相同的方法来生成种子。结果表明，我们的ICD方法优于许多以前的尖端方法，即使没有表8.与VOC12数据集上的相关工作进行比较。所有结果均基于ResNet101。I.代表图像级标签，S.代表外部显着性模型。外部显着性模型的帮助。据我们所知，先前最好的基于VGG16的结果（无显著性）是由AffinityNet [1]实现的，验证集上的mIoU为58.4%我们的ICD方法显着提高了这个分数高达61.2%，而只使用有效的单阶段训练。在使用显著性模型的设置下，我们的ICD方法也实现了不错的性能，这比之前最好的OAA结果有所改善，在VGG16和Resnet101主干的验证集上分别具有0.9%mIoU和2.6% mIoU我们还在图中可视化了一些分割模型6、有助于对结果进行定性学习的分割模型可以正确处理小对象和多对象的复杂情况6. 结论在本文中，我们观察到的决策边界失配问题，在应用CAM估计伪掩模的WSSS。CAM只学习在图像级中区分不同的类;然而，伪掩模需要将共享相同类别标签的像素分离成前景部分和背景部分。为了缓解这个问题，我们提出了一种有效的端到端ICD方法，它致力于在每幅图像中的前景和背景像素之间的类内区分。我们进行了分析实验，研究所提出的方法，并实现了新的国家的最先进的性能在VOC 2012数据集，证明了该方法的优势。确认本工作得到了国家重点研发计划（ No.2018YFB1402600 ）、国家自然科学基金（ No.61836014 、 No.61761146004 、 No.61773375 、No.61602481）、国家重点实验室（ No.2018YFB1402600 ）、国家自然科学基金（ No.61836014 、 No.61761146004 、 No.61773375 、No.61602481）的部分资助。山东省研发计划（重大科技创新项目）（NO.2019JZZY010119）、中国航天航空科学院。4293引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，第4981-4990页[2] Arslan Chaudhry，Puneet K. Dokania，and Philip H. S. 乇发现用于弱监督语义分割的类特定像素。2017年英国机器视觉会议。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割。2015年国际学习代表会议[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[6] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang.Mxnet：一个灵活高效的机器学习库，用于异构分布式系统。神经信息处理系统的进展，机器学习系统研讨会，2015年。[7] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision，第1635[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第248[9] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K.I. Williams ， John Winn ， and AndrewZisserman. pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[10] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。 International Journal of ComputerVision，59（2）：167[11] Bhara thHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓在IEEE计算机视觉国际会议论文集，第991-998页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射欧洲计算机视觉会议论文集，第630- 645页，2016年[13] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip HS Torr.具有短连接的深度监督法律程序的IEEE计算机视觉和模式识别会议，第3203-3212页，2017年。[14] Hou Qibin，PengTao Jiang，Yunchao Wei，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统进展，第549-559页，2018年[15] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议论文集，第7014-7023页[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015年国际机器学习会议论文集[17] Huaizu Jiang ， Jingdong Wang ， Zejian Yuan ， YangWu，Nan- ning Zheng，and Shipeng Li.显著对象检测：判别式区域特征集成方法。在IEEE计算机视觉和模式识别会议的Proceedings，第2083-2090页[18] Peng-Tao Jiang ， Qibin Hou ， Yang Cao ， Ming-MingCheng，Yunchao Wei，and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在IEEE计算机视觉国际会议论文集，第2070-2079页[19] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议集，第876-885页[20] Alexander Kolesnikov和Christoph H.蓝伯特种子、展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议论文集，第695-711页，2016年[21] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理神经信息处理系统的进展，第109-117页，2011年[22] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在IEEE计算机视觉和模式识别会议论文集，第5267-5276页[23] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and Yun Fu.告诉我去哪里看：引导注意推理网络。在IEEE计算机视觉和模式识别会议论文集，第9215-9223页，2018年。[24] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 3159[25] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，卢博米尔·布尔德夫，罗斯·吉希克，詹姆斯·海斯，彼得·佩罗纳，德瓦·拉马南，C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。Microsoftcoco：上下文中的公共对象InProceedings of the4294欧洲计算机视觉会议，第740-755页，2014年。[26] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[27] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579[28] George Papandreou，Liang-Chieh Chen，Kevin P Murphy和Alan L.尤尔。用于语义图像分割的深度卷积网络的弱监督和半监督学习在IEEE计算机视觉国际会议论文集，第1742-1750页[29] 迪帕克·帕塔克，菲利普·克拉亨布尔，和特雷弗·达雷尔。用于弱监督分割的约束卷积神经网络。IEEE国际计算机视觉会议，第1796-1804页，2015年[30] Pedro O Pinheiro和Ronan Collobert使用卷积网络从图像级到像素级标记。在IEEE计算机视觉和模式识别会议的论文集，第1713-1721页[31] Xiaojuan Qi，Zhe

下载后可阅读完整内容，剩余1页未读，立即下载