弱监督语义分割中的可视化结果与语义分割不等效

120 浏览量更新于2023-10-12 收藏 1.73MB PDF 举报

弱监督语义分割

提高精度

身份认证购VIP最低享 7 折!

30元优惠券

1自监督差分检测弱监督语义分割下田涉和柳井敬二日本东京都调布长福冈1-5-1电子通信大学人工智能探索研究中心{shimoda-k，yanai}@ mm.inf.uec.ac.jp摘要为了最小化与语义分割模型训练相关的标注成本，研究人员广泛研究了弱监督分割方法。在目前的弱监督分割方法中，最广泛采用的方法是基于可视化的。然而，可视化结果并不等于语义分割。因此，为了在弱监督条件下执行精确的语义分割，有必要考虑将可视化结果转换为语义分割的映射函数。对于这样的映射函数，通常使用连续随机场和使用分割模型的输出的迭代再训练然而，这些方法并不总是保证准确性的提高;因此，如果我们多次迭代地应用这些映射函数，最终精度将不会提高或将降低。为了充分利用这类映射函数，本文假设映射函数的结果中含有噪声，并通过去除噪声来提高精度。为了实现我们的目标，我们提出了自我监督的差异检测模块，它通过预测映射前后的分割掩模之间的差异来估计映射函数结果中的噪声通过在PASCAL Visual ObjectClasses 2012数据集上的实验，验证了该方法的有效性，在val集和测试集上分别达到了64.9%这两个结果成为新的国家的最先进的弱监督语义分割相同的设置下1. 介绍语义分割是一种很有前途的图像识别技术，它可以对图像进行详细的分析，以用于各种实际应用。然而，语义分割方法需要具有像素级注释的训练数据，这是创建成本高的。另一方面，图像级注释比像素级注释更容易获得。近年来，各种监管不力的证券市场，已经提出了仅需要图像级注释的人工分割（以下称为WSS）方法来解决注释问题。然而，在完全监督和弱监督方法之间仍然存在很大的性能差距。在弱监督分割方法中，基于可视化的方法[39，33，41]已被广泛采用。可视化结果突出了对分类有贡献的区域，并且我们可以通过可视化粗略地估计目标对象的区域。类别激活图（CAM）[41]是可视化分类结果的标准方法。然而，可视化结果并不总是与实际分割结果相匹配;因此，在弱监督分割中，通常需要考虑从可视化结果到语义分割的映射。条件随机场（CRF）[17]被广泛用作映射函数。CRF是一种通过使用颜色和位置信息作为特征来优化要拟合到区域边缘的概率分布的方法。Wei等人提出的学习分割模型的迭代方法。[37]是一种用于改进弱监督分割结果的通用方法。在这种方法中，我们在弱监督条件下生成伪像素级标签，并使用伪标签训练分割模型。随后，我们从训练的分割模型的输出中生成伪像素级标签，并使用生成的伪标签重新训练新的分割模型。Wei等人。[37]表明，重复这个过程可以吸收离群值，并逐渐提高准确性。这些方法可以被视为使输入更接近分割的映射函数。然而，这些方法[17，37]的映射函数不能保证语义分割的准确性的任何改进;因此，映射结果包含噪声。在本文中，映射函数，使上述输入接近分割被视为监督含噪声，我们提出了一个强大的学习方法，这样的噪声。本文把作为映射函数输入的信息表示为知识，把含有噪声的监督看作是建议。完全监督学习的监督，允许一对一52085209一个映射是教师。我们假设建议提供监督，其中包括一些正确和不正确的信息。为了有效地利用从这一建议中获得的信息，有必要选择有用的信息。在本文中，我们把知识和建议之间意见分歧的区域视为差异。由于两个分割掩模的差异可以通过简单的处理而无需注释来获得，因此训练预测差异的模型是一种自监督学习。自我监督学习是一种间接监督的形式。例如，作为显着的工作，着色[4]和预测补丁排序[5]已经被提出。从知识中推断出知识和建议的差异，从而提前预测出顾问在预测建议中，有可预测的建议和不可预测的建议。某些建议可以很容易地推断出来，因为在训练过程中包含了许多类似的样本这里，我们假设建议包含足够数量的好信息，并且可预测的信息可以被认为是有用的信息。基于这一思想，我们提出了一种选择信息的方法，通过发现的真实信息的建议，可以预测的差异检测的推理结果。图1显示了所提出的方法的概念。在本文中，我们证明了所提出的自监督差异检测（SSDD）模块可以用于种子生成阶段和训练阶段的全监督分割。在种子生成阶段，我们通过使用SSDD模块来细化像素级语义亲和度（PSA）的CRF结果[1]。在训练阶段，我们在全监督分割网络的训练循环中引入了两个SSDD模块在实验中，我们证明了SSDD模块在这两个阶段的有效性。特别是，SSDD模块极大地提升了WSS在PASCAL视觉对象类（VOC）2012数据集上的性能，并达到了新的最先进水平。总结起来，我们的贡献如下：• 我们提出了一个SSDD模块，它估计弱监督分割的映射函数的噪声，并选择有用的信息。• 我们表明，SSDD模块可以有效地应用于种子生成阶段和训练阶段的完全监督分割模型。• 我们在PASCAL VOC 2012数据集上获得了最佳结果，在val集上的平均IoU为64.9%，在测试集上为65.5%。2. 相关作品在本节中，我们回顾了基于CNN的WSS方法的相关研究，将其分为几种类型。可视化在基于CNN的WSS的早期工作中，研究了基于可视化的方法。的像素有助于分类的图像与目标对象的区域相关，因此，可视化方法可以用作弱监督环境下的分割方法Zeiler等人[40]表明，通过反向传播从为分类任务训练的CNN模型获得的导数突出显示了图像中目标对象的区域。Simonyan等人[33]使用GrabCut种子等衍生工具，并将可视化方法扩展到WSS方法。他们还证明，多类对象的区域也可以通过类特定导数的差异来捕获[13，32]。Oquab等人[21]通过使用激活的forwarding过程来可视化注意区域，并通过使用全局最大池来训练具有大输入图像的在这种方法之后，还提出了几种采用全局池的衍生方法[25，41，16]。特别是，CAM [41]在最近的弱监督分割方法中被广泛采用使用CRF对WSS结果进行区域细化一般来说，基于全卷积神经网络（FCN）[19]的分割结果往往会输出模糊的轮廓。CRF [17]可以使用低级特征，例如像素颜色。Chen et al. [22] and Pathaket al.[23]采用CRF作为区域细化的后处理方法，并证明了CRF对WSS的有效性。Kolesnikov等人[16]提出在语义分割模型的训练期间使用CRF。Ahn等人。[1]提出了一种从CRF结果中学习像素级相似性的方法，并应用基于随机行走的区域细化，该方法在PASCAL VOC2012数据集上获得了最佳结果。CRF对提高弱监督分割的准确率有重要作用。此外，各种研究采用CRF来细化粗分割掩模[32，29，28，15，37，36，10，31]。然而，CRF并不能保证平均交集对并集（IoU）分数的任何改进，并且它经常降低分段掩码和分数。因此，我们专注于防止分割掩模被应用CRF降级。我们估计初始掩码和CRF后处理后的掩码的置信度图，并基于估计的置信度图整合两个掩码。在弱监督设置下训练全监督分割模型某些研究人员在弱监督设置下训练了全监督语义分割（以下简称FSS）模型首先，帕潘德里欧等人[24]提出了MIL-FCN，其仅使用图像级标签训练具有全局最大池化损失的完全监督的语义分割模型。Wei等人。[37]提出了一种新的方法，使用显着图[12]获得的像素级标签来训练FSS模型。该方法简单，所得结果令人印象深刻。Wei et al. [37]还证明，训练的语义分割模型的输出可以用作重新训练的新像素级注释，并且重新训练的FSS模型比原始模型获得了更好的结果。在FSS模型训练期间生成像素级标签约束卷积神经网络5210图1.提出的方法的概念。(a)我们将映射函数的输入表示为知识，输出表示为建议。（b）拟议的差异检测网络（DD-Net）估计知识和建议之间的差异。（c）在区别上，咨询意见分为真实咨询意见和虚假咨询意见。我们假设，如果真建议的数量大于假建议的数量，也就是说，如果一组假建议是离群值，那么可预测的建议与真建议具有很强的相关性。（CCNN）[23]和EM-采用[22]在训练期间使用分类标签和分割模型的输出生成像素级标签。在这两项研究中，对生成像素级标签进行了类似的限制，以获得更好的结果。他们设置图像中前景和背景的比例，并在比例内生成像素级标签。Wei等人。[36]提出了一种在线禁止分割学习（PSL）。他们在第一次训练FSS模型之前生成训练样本的像素级种子标签语义分割模型由两个像素级标签训练，并且它们在没有昂贵的手动像素级标注的情况下获得了良好的性能。我们期望像素级种子标签将扮演约束的角色。Huang等人[11]提出了深度种子区域生长（DSRG），这是一种在训练期间扩展种子区域的方法。在训练之前，作者准备了像素级种子标签，这些标签具有未考虑像素的未标记区域。在这项研究中，我们提出了新的约束条件，用于在FSS模型的训练过程中生成像素级标签我们以端到端的方式训练了FSS模型和差异检测模型然后，我们内插一些像素级种子标签，这些标签在新生成的像素级标签中具有使用附加信息的WSS方法一些最近的弱监督方法通过对图像级标签使用附加注释来实现高精度。研究人员提出了边界框anno-对于WSS [22]，他们表明绑定框注释大大提高了性能。作为较弱的附加注释，也有人提出了点注和笔注[2]. Saleh等人[29]提出了一种通过人类视觉的最小额外监督来检查生成的初始掩码的方法。视频的运动分割作为弱监督分割的额外训练信息也已被提出[34，9]。还有报告称，Web图像有助于提高弱监督分割准确性[25，37，14，31]。最近，完全监督显著性方法被广泛用于检测背景区域，并且某些研究人员报告说，这种方法可以大大提高性能。图2.差分检测网络（DD-Net）。Mance [30，36，38，11，10，35，3]。使用完全监督的前景掩模（如MCG [26]）训练的区域建议方法也已在[25，27]中使用。Hu等人。[6]使用WSS的实例级显着性图突显度的概念可以在不同的情境中使用和帮助;然而，全监督显著性模型受其训练数据域的影响，这可能会对应用造成负面影响。没有显著图的WSS方法也是有益的。在本文中，我们不使用任何额外的信息，我们只使用带有图像级标签的PASCAL VOC图像和用ImageNet图像及其图像级标签预训练的CNN模型。3. 方法在弱监督的情况下，分割的映射函数没有监督;因此，有必要考虑一种映射，通过使用一种结合人类知识的方法，使输入接近更好的分割结果。本文提出了一种从映射函数的结果中选择有用信息的方法，即把映射函数的结果看作是含有噪声的监督。我们将映射函数的输入定义为知识，将映射结果定义为建议。我们预测知识和建议之间的差异区域，我们称之为差异检测任务。利用推理结果，我们选择的信息的建议。3.1. 差分检测网络在本节中，我们将制定差异检测任务。在所提出的方法中，我们预测知识和建议之间的差异。在这里，我们定义了segmen-5211uMMu知识的分割掩码为mK，建议为mA，它们的差为MK，A∈RH×W。.K AMK，A=1如果（mu=mu）0如果（mK/=mA）、（1）u u其中u∈ {1，2，.，n}指示像素的位置，并且n是像素的数量。接下来，我们定义了一个网络的差异检测推导的差异。我们使用从训练的CNN中提取的特征图以辅助差异检测。特别是，我们使用从主干网络（如ResNet）中提取的高级特征eh（x;θe）和低级特征el（x;θe）。这里，x是输入图像，e是由θe参数化的嵌入函数。如图3、输入的置信度图掩码d由差分检测网络（DD-Net）生成，DDnet（eh（x;θe），el（x;θe），m∈;θd），d∈RH ×W，其中m∈是与目标类号具有相同通道数的独热向量掩码，θd是DD-Net的参数，e（x）=（el（x），eh（x））.DD-Net的架构如图所示2;它由三个卷积层和一个残差块组成，具有三个输入和一个输出。DD-Net将原始掩码或处理后的掩码作为输入，并输出差异掩码。该网络使用以下损失进行学习：图3.DD-Net概览左图显示了DD-Net的训练，右图显示了使用差异检测结果的集成处理。dK在边界处，不清楚建议是否属于SA，T;这可能应该是不同的样本。因此，很难直接从dK值的大小推导出一个好的建议。为了解决这个问题，我们使用关于每个建议的知识状态的推理结果。尽管建议的分布有很大的差异，但这些差异比一般知识分布的差异要小Ldiff=1 Σ（J（MK，A，dK，u;θd）|S|u∈S+J（MK，A，dA，u;θd）），（二）因此，使用建议来推断知识被认为比使用知识来建议推断更容易。在本文中，我们考虑的结果推理的知识的建议，以评估困难的推理在每个样本;我们使用每个样本的阈值的推断。具体来说，我们计算的置信度得分其中S是输入空间的像素集合，并且J（）是假设是一个函数，返回二进制的损失交叉熵J（M，d，u）= M ulog d u+（1 − M u）log（1 − d u）。从dK与dA的值有多接近的角度给出建议。置信度分数wu∈R由以下表达式定义：wu=dK−dA+biasu（3）u u注意，嵌入函数θe的参数与θd的优化无关。网络的训练是自监督的;因此，既不需要特别注释，也不需要额外数据。3.2. 自监督差分检测模块这里，偏置是用于通过差异检测获得的选择的阈值的超参数从mK和mA获得的细化掩模mD由以下表达式定义：在本节中，我们将详细介绍图1所示的SSDD3，自适应地.一mD=u如果（wu≥0）（四）根据置信图。我们将差异为真的一组建议表示为SA，T，将差异为假的一组建议表示为SA，F。该方法的目的是从建议SA的整个集合中提取尽可能多的SA，T的样本。设d K是从给定知识中得到的建议的推理结果。推理结果为0 ~ 1的概率分布，且值有变化.这些差异是由推理难度的差异造成的训练过程中相似模式的存在对推理难度的差异有很大影响在这里，如果有足够数量的是真值而不是假值，也就是说，如果|S A，T|>>|S A，F|，较大的值表明他们的建议最有可能属于SA，T。然而，对于价值观uKif（wu0）我们将用于生成新分割掩码的该处理流程表示为后符号中的SSDD模块。mD=SSDD（e（x），mK，mA;θd）（5）4. 将SSDD模块引入WSS在本节中，我们将解释如何在WSS的处理流程中使用SSDD模块。通过将映射函数的输入作为知识，并将映射5212segKuKud0|S|作为建议。本文采用的处理流程包括两个阶段：具有静态区域细化的种子生成阶段和具有动态区域细化的分割模型的训练阶段。在第一阶段中，我们通过应用PSA的结果作为知识和CRF的结果作为建议来调整所提出的方法（第12节）。4.1）。在第二阶段中，我们通过应用第一阶段的结果来调整所提出的4.1）作为知识，由掩码训练的分割模型的输出作为建议（第4.1节）。4.2）。4.1. 具有静态区域细化的种子掩模生成阶段PSA [1]是一种将标签响应传播到属于同一语义实体的附近区域的方法。虽然PSA采用CRF来细化分割模板，但CRF往往不能改善分割模板;事实上，它会使面具退化。在本节中，我们通过使用建议的SSDD模块来改进PSA中CRF的输出我们在图1中示出了第一种子生成阶段的处理流程4.第一章请注意，为了简化图，我们省略了将给定图像输入到SSDD模块的步骤我们将输入图像表示为x，由PSA得到的概率图表示为pK0=PSA（x;θpsa），其CRF结果表示为pA0.我们从概率图（pK0，pA0）中获得分割掩码（mK0，mA 0），通过取包括背景类别的存在标签的最大值的自变量。我们计算了DD网络的损失如下：图4.在种子掩模生成阶段的处理流程与静态区域细化。图5.动态区域细化的处理流程图示。（和θbase是分割分支的参数。θe0的训练与θd0无关。1L差异0= |S|Σu∈S（J（MK0，A 0，dK0，u;θd0）（六）使用差异检测的静态区域细化的最终损失函数如下：+J（MK0，A0，dA0，u;θ）），Lstatic=Lbase+ Ldiff0。（九）在训练之后，我们对掩码（mK0，mA0）进行积分，所提出的方法是无效时，分割掩码或它们两者都不具有正确的标签。这些情况不仅对所提出的改进方法没有意义，而且还可能损害DD网络的训练。我们通过基于类特定像素数量差异的简单处理来定义坏的训练在这项工作中，我们还通过训练具有mK0的分割网络来训练嵌入函数，以获得高级特征和低级特征的输入的使用具有训练参数θd0的SSDD模块获得积分掩模mD0，如下所示：mD0= SSDD（e（x），mK0，mA0; θ d0）.（十）4.2. 具有动态区域细化的全监督分割模型的训练阶段当我们用像素级种子标签训练一个完全监督的语义分割模型时，种子标签的准确性直接影响分割的性能。Lbase= Lseg（x，mK0;θe0，θ基地），（7）性能增益是预期通过更换种子la-1ΣΣL（x，m;θ）=−θMKk∈Ku∈|SM|k∈Klog（hk（θ）），（8）在训练过程中更好地使用像素级标签。在这研究中，我们提出了一种新的方法来约束插值的种子标签在训练的分割模型。该约束的思想是将种子标签的插值仅限于不同的可预测区域其中Sm是属于上的类k的位置的集合，掩模m; h，k是在任何位置u∈ {1，2，.，n};并且C是类标签的集合。 θe0是嵌入函数新生成的像素级标签和种子标签之间的边缘检测。在实践中，我们在每次迭代的两个步骤中插入像素级种子标签，如图所示。五、注意5213D1图中的“SegNet”并不代表特定的细分网络;它表示任何完全监督的分段网络。在第一步中，对于输入im-θsub从下面的损失，以实现输出之间的中间mD0和mD1。年龄x，我们获得分割模型的输出L=αL（x，mD0;θ ，θ）+（1−α）L（x，mD1;θ，θ ），pK1=Seg（e（x）;θ主要）及其CRF输出p A1。我们子sege1subsege1（十四）子通过取包括背景类别的存在标签的最大值的自变量，从概率图（pK1，pA1）获得分割掩码（m K1，m A1）然后，我们通过应用所提出的细化方法获得细化的像素级标签mD1，如下所示：其中α是mD0的混合比的超参数mD1。所提出的动态区域细化方法的最终损失函数计算如下：低：mD1=SSDD（e（x），mK1，mA1;θd1）.在第二步中，我们将所提出的方法应用于种子层，belsmD0和在第一步骤中获得的掩模mD1L动态=Lmain +Lsub +L差异1+L差异2（十五）通过mD2=SSDD（e（x），mD0，mD1;θd2）获得进一步细化的掩模 mD2。我们在每次迭代中生成掩码mD2，并使用生成的掩码mD2训练分割模型。我们使用生成的掩码mD2训练语义分割模型，如下所示：5. 实验我们使用PASCAL VOC 2012数据评估了所提出的方法。PASCAL VOC 2012分割数据集有1464个训练图像、1449个验证图像和1456个测试图像，包括20个类像素级标签L主=L分段（x，mD2;θ，θmain），（十一）和图像级标签。类似于[25，22，16]所遵循的方法，我们使用了增强的PASCAL对于mA1和mK1，DD-Net的损失如下：VOC训练数据也由[8]提供，其中训练图像数量为10，582。为了评估，我们使用L差异11=|S|n（J（M K1，A1，dK1，u;θ ）的方式u∈S（十二）IoU指标，这是PASCAL VOC细分任务中的官方评估指标为了计算val和测试集的平均IoU，我们使用官方评估+J（MK1，A1，dA1，u;θd1）），在第二阶段中，我们还根据像素的变化率排除坏样本（如在Sec.static中所做的），因为如果输入分割掩码没有正确的区域，则所提出的方法无效。我们解释如何训练DD-网络（mD0，mD1）。掩码（mK1，mA1，mD1）取决于分割模型Seg（e（x），θmain）的输出。因此，如果分割模型的学习陷入局部极小，则掩模将变得毫无意义;所有像素都变成背景像素或单个前景像素。在这种情况下，差分检测的推断结果也总是恒定的，即，（DK=1，dA=1，dA=dK），和等式（3）w=bias。为了摆脱这个局部最小值，我们创建一个新的分割分支，模型，并使用它来学习之间的差异检测mD0和mD1。假设从新分割模型psub=Seg（e（x）;θsub）的分支的输出获得掩码msub。在差异检测的训练中，我们训练网络学习（mD0，msub）和（msub，mD1）之间的差异，如下所示：server.我们比较了我们的方法与最先进的方法在val和测试集上的最佳性能。5.1. 实现细节我们的实验在很大程度上是基于以前的研究[1].对于PSA结果的生成结果，我们使用了作者提供的公开可用的实现和训练参数。我们遵循[1]的方法并设置超参数，以提供最佳性能。对于CRF参数，我们使用[17]提供的默认设置。对于语义分割模型，我们使用了ResNet-38模型，该模型与[1]中的模型具有几乎相同的架构。唯一的区别是在最后的上采样率;在关于PSA的论文中，作者将上采样率设置为8，而为了减少CRF的计算成本，我们将上采样率设置为2。输入图像大小为448用于训练，并且测试图像和上采样之前的输出特征图大小在DD-Net中，我们使用在最后一层之前从分割模型中获得的特征作为高级特征eh，并使用在第二层之前获得的特征1L差2= |S|Σu∈S（J（MD0，subD0，u;θd2）（十三）第二池化层作为低级特征E1。使用简单的线性插值方法将这些特征图的大小调整为112乘112我们初始化了+J（Msub，D1，dD1，u;θd2）），e15214如果msub是输出，其在mD0和mD1之间，则训练样本的替换将使分割模型退出情形（dK=1，dA=1，dA=dK），并且差异检测的推断结果将预测与mD0和mD1之间的差异相关的区域。我们训练参数通过使用PASCAL VOC图像训练的参数及其图像级标签，使用ImageNet的预训练模型进行分割模型，这也在[1]中提供。[ 1 ]提供的代码不包括分割模型的训练和测试代码;因此，我们实施了自己的准则。在PSA的原始论文中，虽然作者对Adam的分割模型进行了优化，但性能不稳定，5215图6.具有不同参数值的训练图像的种子掩模的mIoU，仅使用CRF以及使用SSDD和CRF。我们的重新实施，有几个不明确的设置。因此，我们使用SGD来训练整个网络。我们将初始学习率设置为1e-3（在没有预训练模型的情况下初始化为1 e-2），并且我们通过余弦LR斜坡下降来降低学习率[20]。对于静态区域细化，我们训练了批量大小为16和10 epoch的网络。对于动态区域细化，我们训练了批量大小为8和30 epoch的网络对于数据扩充和推理技术，我们仔细遵循[1]中使用的方法。我们使用PyTorch实现了该方法。所有的网络都使用四个NVIDIA Titan X PASCAL进行训练。我们将开放所提出的方法和训练代码的结果。5.2. 静态区域细化在所提出的方法中，我们使用完全连接的CRF[17]，其参数设置与PSA [1]相同，（w g =3，w rgb=10，θ α =80，θ β =13，θγ=3。）在下面的例子中，als：k（fi，f<$j）=（a）（b）（c）（d）（e）（f）（g）图7.每行示出了（a）输入图像，（b）原始PSA分割掩模，（c）（b）的差异检测图，（d）（b）的CRF掩模，（e）（d）的差异检测图，（f）通过所提出的方法的细化分割掩模，以及（g）地面真实掩模。5.3. 对整个方法的分析我们在所有表中将动态区域细化表示为SSDD的分数是CRF的参数（wg=3，wrgb=10），这些参数是作者公开实现的默认值。我们还在训练过程中使用了CRF的参数。与PSA的比较表1示出了动态区域细化方法与PSA的比较。我们观察到，所提出的方法优于PSA，超过3.2点的利润率。这清楚地证明了通过差异检测对具有新约束的种子标签进行插值的有效性。与静态|pi −pj||Ii−Ij|2|p-pj|由于数量的增加，wg exp−2θ2−2+wrbg exp−i2. 到α2θβ2θγ通过端到端的细分学习，通过对CRF参数与结果的关系进行分析，改变（wg，wrgb）的值，并评价其准确性。图6显示了所提出的静态区域细化与PSA [1]及其CRF结果在训练集上的比较。减弱wrgb仅减小CRF与SSDD+CRF结果之间的差异;因此，所提出的方法的有效性降低。然而，所提出的方法总是指示高精度。最佳权重对于每个图像是不同的，并且预计难以针对每个图像搜索它们。我们认为，该方法通过纠正CRF的部分失效，实现了CRF的改进图图7示出了差异检测结果及其细化的分割掩模。在第四和第五行的图。7、给出了该方法的典型失效案例。小对象的区域往往会在CRF中消失，DD-Net也会学习到这种趋势，这导致了所提出的重新细化方法的失败。在第五行中，两个输入分割掩码都未能提供分割。在这种情况下，所提出的方法也是无效的。模型，即，|S A1，T|>> |S A0，T|.在表1中，我们还显示了所提出的方法和PSA之间的增益，以进行详细分析。我们在猫，牛，马和羊类上获得了超过10%的增益有趣的是，所有获得较大收益的类都属于非线性类。然而，在盆栽植物、飞机和人物类物体中，该方法难以提高分割效果。在所提出的方法中，我们考虑了一个前提条件，即建议，这是一个真正的价值，是大于价值，这是不是一个真正的值（|S A，T|>>|S A，F|）.当这个前提条件得到满足时，分类的准确性得到提高。如果不满足预处理条件，则准确度不会提高，或者准确性下降。图图8示出了PSA的重新实现、静态区域细化和动态区域细化的结果的示例。动态区域细化显示了对对象位置和边界的更准确的预测。静态区域细化的结果是用掩模在图1中（wg=3，wrgb=10）情况六、请注意，我们显示CRF之前的结果以进行详细比较。5216表1.PASCAL VOC 2012valset的结果。方法Bg航空自行车鸟船瓶巴士汽车猫椅牛桌犬马汽车人厂羊沙发火车电视MiouPSA [1]88.2 68.2 30.6 81.1 49.6 61.0 77.8 66.175.129.066.040.2 80.462.070.4 73.7 42.570.7 42.6 68.1 51.661.7SSDD89.0 62.5 28.9 83.7 52.9 59.5七十七点六 73.787.034.083.747.6 84.177.073.9 69.6 29.884.0 43.2 68.053.464.9增益+0.8 -5.7 -1.7 +2.6 +3.3 -1.5 -0.2 +7.6+11.9 +5.0+17.7 +7.4 +3.7+15.0 +3.5 -4.1 12.7+13.3+0.6 -0.1 +1.8+3.2表2.与无额外监督的WSS方法进行比较。方法Val测试[24]第二十四话25.724.9[23]第二十三话35.335.6[22]第二十二话38.239.6[32]第三十二话44.145.1[29]第二十九话46.648.0美国证券交易委员会[16]50.751.7CBTS [28]CVPR 201752.853.7TPL [15]ICCV201753.153.8MEFF [7]CVPR 2018-55.6PSA [1]CVPR 201861.763.7SSDD64.965.5表3. WSS方法与附加监督的比较。方法与最先进的方法的比较表2显示了所提出的方法和最近的弱监督分割方法的结果，这些方法在PASCAL VOC2012 valida上不使用额外的监督。测试数据和PASCAL VOC 2012测试数据。我们观察到65.6%的测试集使用额外的24，000张ImageNet图像进行训练。所提出的方法的得分也高于沈等人的得分。[31]，它使用了76.7k的网络图像进行训练。不可能具有由于网络模型、增强技术、迭代时期的数量等的不同，对它们进行完全公平的比较。然而，所提出的方法在没有任何额外的训练信息的情况下表现出相当的性能或更好的性能。6. 结论在本文中，我们提出了一种新的方法来细化分割掩模从一对分割掩模之前和之后的细化过程，如CRF通过使用建议的SSDD模块。我们证明了所提出的方法可以在两个阶段有效地使用：种子生成阶段中的静态区域细化和训练阶段中的动态区域细化。在第一阶段，我们通过使用SSDD模块来改进PSA [1在第二阶段，我们在训练过程中使用完全监督的分割模型和CRF来我们证明了三个SSDD模块可以极大地提高WSS的性能，并在PASCAL VOC 2012数据集上实现了所有弱监督方法的最佳结果。确认这工作是支持通过JSPS KAKENHI授予号 17J10261 、 15H05915 、 17H01745 、 17H06100 和19H04929。PSA我们的方法与使用相同类型监督的所有现有方法相比获得了最高分数[23，22，32，29，16，15，28，7，1]。所提出的方法优于最近以前的作品MEFF和TPL的大利润率。如前所述，所提出的方法也优于当前最先进的方法[1]。这一结果清楚地表明了所提出的方法的有效性。表3显示了所提出的方法与一些弱监督分割方法的比较，这些方法使用相对便宜的附加信息。令人惊讶的是，该方法也优于所有列出的弱监督分割方法。所提出的方法优于以下方法：SeeNet [29]，DSRG [37]，MDC [16]，GAIN [18]和MCOF [35]，采用完全监督的显着性方法。此外，所提出的方法的得分也优于输入（重新实施）（59.0%）SSDD（静态）（61.4%）SSDD（动态）(64.9%）地面实况AISC [6]的结果，使用实例级显着图方法。请注意，AISC在valset上实现了64.5%，图8.PASCAL VOC结果的分割示例2012.附加监管Val测试[25]第二十五话显著性掩模+ Imagenet图像42.040.6[34]第三十四话网络视频38.139.8[27]2016年中国国际医疗器械展览会突出模板54.355.5STC [37]PAMI2017显著性掩模+ Web图像49.851.2Oh等人[30]CVPR 2017突出模板55.756.7AE-PSL [36]CVPR 2017突出模板55.055.7Hong等人[9]CVPR 2017网络视频58.158.7WebS-i2 [14]CVPR 2017Web图像53.455.3DCSP [3]BMVC 2017突出模板60.861.9GAIN [18]CVPR 2018突出模板55.356.8MDC [38]CVPR 2018突出模板60.460.8MCOF [35]CVPR 2018突出模板60.361.2DSRG [11]CVPR 2018突出模板61.463.2Shen等人[31]CVPR 2018Web图像63.063.9[10]第10话突出模板63.162.8AISI [6]ECCV 2018实例显著性掩模63.664.5SSDD-64.965.55217引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR，2018年。二五六七八十二[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，2016年。3[3] Arslan Chaudhry，K. Puneet Dokania和H.S.菲利普·托尔发现用于弱监督语义分割的类特定像素。英国机器视觉会议，2017年。三八十二[4] 泽州丞、庆雄杨、宾胜。深着色。在ICCV，2015年。2[5] Carl Doersch、Abhinav Gupta和A.阿列克谢·埃弗罗斯通过上下文预测的非监督视觉表示学习在ICCV，2015年。2[6] 范若尘，侯启斌，程明明，余刚，R.拉尔夫·马丁和胡世敏。弱监督语义分割的图像间显著实例关联。在ECCV，2018。三八十二[7] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据在CVPR，2018年。八、十二[8] BharathHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。2014年，在ECCV。6[9] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在CVPR，2017年。三八十二[10] Hou Qibin，Jiang Peng-Tao，Wei Yunchao，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。在NIPS，2018年。二、三、八、十二[11] 黄子龙，王兴刚，王佳思，刘文宇，王敬东。基于深度种子区域生长的弱监督语义分割网络。在CVPR，2018年。三八十二[12] Huaizu Jiang，Zejian Yuan，Ming-Ming Cheng，YihongGong，Nanning Zheng，and Jingdong Wang.显著对象检测：一种判别式区域特征集成方法。CVPR，2013。2[13] 张建明，林哲，勃兰特·乔纳森，沈晓晖，斯坦·斯克拉罗夫。自上而下的神经注意力通过兴奋支撑。在ECCV，2016年。2[14] Jin Bin，Maria V.奥提兹·塞戈维亚和萨宾·萨斯特伦克我们监督的语义分割。在CVPR，2018年。三八十二[15] Dahun Kim，Donghyeon Cho，Donggeun Yoo，and InSo Kweon.弱监督目标定位的两阶段学习。InICCV，2017. 二、八、十二[16] Alexander Kolesnikov和Christoph H.蓝伯特种子、展开和约束：弱监督图像分割的三个原则。在ECCV，2016年。二、六、八、十二[17] Philipp Krahenbuhl和Vladlen Koltun。具有高斯边缘势的全连接crfs中的有效推理。NIPS，2011年。一、二、六、七[18] Kunpeng Li ， Ziyan Wu ， Kuan-Chuan Peng ， JanErnest，and Yun Fu.告诉我去哪里看：引导注意推理网络。在CVPR，2018年。八、十二[19] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。2[20] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降。在ICLR，2017。7[21] Maxime Oquab 、 Leon Bottou 、 Ivan Laptev 和 JosefSivic。使用卷积神经网络学习和传输中级图像表示。CVPR，2014。2[22] GeorgePapandreou ， Liang-ChiehChen ， KevinMurphy，and Alan L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。在ICCV，2015年。二三六八十二[23] Deepak Pathak Philipp Krahenbuhl和Trevor Darrell用于弱监督分割的约束卷积神经网络在ICCV，2015年。二、三、八、十二[24] Deepak Pathak，Evan Shelhamer，Jonathan Long，andTrevor Darrell.完全卷积的多类多实例学习。2015年，国际会议。二、八、十二[25] 佩德罗·奥Pinheiro和Ronan Collobert。使用卷积网络从图像级CVPR，2015。二三六八十二[26] Jordi Pont-Tuset，Pablo Arbelaez，Jonathan T Barron，Fer- ran Marques，and Jitendra Malik.多尺度组合分组CVPR，2014。3[27] Xiaojuan Qi，Zhengzhe Liu，Jianping Shi，HengshuangZhao，and Jiaya Jia.图像级监督下语义分

下载后可阅读完整内容，剩余1页未读，立即下载