统一的多任务学习框架解决弱监督语义分割和显著性检测的文件

107 浏览量更新于2023-10-12 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1显著性检测与弱监督语义分割曾宇，诸葛云智，胡川陆宇，张立和大连理工大学，中国{zengyu，zgyz}@ mail.dlut.edu.cn，{lhchuan，zhanglihe}@dlut.edu.cn，摘要现有的弱监督语义分割（WSSS）方法通常利用预训练的显着性检测（SD）模型的结果，而不显式地建模两个任务之间的连接，这不是最有效的配置。在这里，我们提出了一个统一的多任务学习框架，以联合解决WSSS和SD使用一个单一的网络，即。显着性和分割网络（SS-Net）。SSNet由分割网络（SN）和显着性聚合模块（SAM）组成。对于输入图像，SN生成分割结果，SAM预测每个类别的显著性，并将所有类别的分割掩码聚合到显著性图中。所提出的网络是用图像级类别标签和与类别无关的像素级显著性标签进行端到端训练的在PASCAL VOC 2012分割数据集和四个显著性基准数据集上的实验表明，我们的方法的性能与最先进的弱监督分割方法和完全监督显著性检测方法相比毫不逊色。1. 介绍语义图像分割是计算机视觉中一项重要而又具有挑战性的任务，其目标是为图像中的每一个像素预测一个类别标签最近，卷积神经网络（CNN）在语义图像分割方面取得了显着的成功[33，8，7，31，2，6]。由于标注语义分割标签以训练CNN的昂贵成本，弱监督学习引起了越来越多的兴趣，从而产生了各种弱监督语义分割（WSSS）方法。显著性检测（SD）旨在识别图像中最明显的物体或区域，这有助于许多计算机视觉任务，例如场景分类[41]，图像检索[16]，视觉跟踪[34]等。随着深度CNN的成功，它已经取得了很多-*通讯作者。尝试使用深度CNN或深度特征进行显着性检测[14，57，58，64，56，24，12，11]。这两个任务都需要生成精确的像素级掩模.因此，他们有着密切的联系。一方面，给定图像的显著图，由于避免了处理背景，分割模型的计算量可以减少。另一方面，给定图像的分割结果，可以通过选择显著性类别来容易地导出显著性图。因此，许多现有的WSSS[23，49，50，36，18，51，48，13]方法大大受益于SD。利用类别激活图（CAM）[63]来定位每个类别的对象并使用SD方法来选择背景区域是一种普遍的做法。例如，Weietal.[51]使用具有不同扩张卷积率的分类网络的CAM来找到对象区域，并使用[52]的显着图来找到用于训练分割模型的背景区域。Wang等人[48]使用[19]的显着图来细化分类网络产生的对象区域。然而，这些WSSS方法简单地利用预先训练的显著性检测模型的结果，这不是最有效的配置。一方面，他们使用SD方法作为预处理步骤来生成用于训练其分割模型的注释，同时忽略SD和WSSS之间的另一方面，通常需要启发式规则来根据SD模型的结果选择背景区域，从而使训练过程复杂化并且导致非端到端的方式。在本文中，我们提出了一个统一的，端到端的培训框架来解决SD和WSSS任务。与大多数使用预训练显着性检测模型的现有WSSS方法不同，我们直接利用像素级显着性标签。其核心动机是利用图像级类别标签的语义图像级别的类别标签可以使CNN识别出72237224产品类别：瓶人产品类别：瓶人显著性：0.60.9(a)（b）（c）（d）图1. (a)输入图像。(b)由仅用图像级标签训练的模型预测的分割结果。(c)分割结果预测我们的方法。（d）由我们的方法预测的显著图语义类别，但它们不包含任何空间信息，这是分割所必需的。尽管已经提出，用图像级标签训练的CNN也能提供对象位置的信息，但只能推断出粗略的空间分布，如图1的第一行所示。我们用像素级显著性标签解决了这个问题。通过显式建模SD和WSSS之间的连接，我们从分割结果中获得显着性图，并最大限度地减少它们与显着性地面真实值之间的损失。因此，CNN必须精确地切割识别出的对象，以便使导出的显着图与地面实况相匹配。具体来说，我们提出了一个显着性和分割网络（SSNet），它包括一个分割网络（SN）和显着性聚合模块（SAM）。对于输入图像，SN生成分割结果，如图1的第二列所示。SAM预测每个类别的显著性得分，然后根据其显著性得分将如图1的第三列所示，给定每个类别的分割图和显著性分数，可以通过突出显著对象的掩码（例如，第三列中人物的掩码）和抑制低显著性对象的掩码（例如，第三列中的瓶子的面具）。在训练时，计算分割结果与图像级类别标签以及显著性图和显著性地面实况之间的损失。我们的方法有几个优点。首先，与现有的利用预训练的SD模型进行预处理的WSSS方法相比，我们的方法显式地对显着性和分割之间的关系进行建模，这可以将学习到的分割知识从具有像素级注释的类不可知的图像特定显着性类别转移到仅具有图像级注释的不可见语义类别。其次，作为一个低层次的视觉任务，注释像素级的地面真理显着性检测是更便宜的语义分割。因此，与全监督分割方法相比，我们的方法使用图像级别的类别标签和显著性注释进行训练，需要更少的标签成本。第三，与现有的分割或显著性方法相比，我们的方法可以使用单个模型同时预测分割结果和显著性结果，并且两个任务之间共享大多数参数。总之，我们的主要贡献有三个方面：• 我们提出了一个统一的端到端的框架，为SD和WSSS任务，其中分割分为两个学习任务，分别基于图像-级别类别标签和像素级别显著性注释。• 我们设计了一个显著性聚合模块来明确地桥接这两个任务，通过该模块，WSSS可以直接从显着性推断中受益，反之亦然。• 在PASCAL VOC 2012分割基准和四个显著性基准上的实验证明了该方法的有效性该方法在弱监督语义分割和完全监督显著性检测方法中取得了良好的性能。我们使我们的代码和模型可用于进一步的研究12.2. 相关工作2.1. 显著性检测早期的显着性检测方法使用低级特征和启发式先验[55，20]来检测显着对象，这对复杂场景不鲁棒。最近，基于深度学习的方法已经取得了显着的性能改进。早期的基于深度学习的方法通常使用区域作为计算单元，例如超像素，图像补丁和区域建议。Wang等人[45]训练了两个神经网络，分别估计图像块和区域建议的显着性。Li和Yu [27]使用CNN提取多尺度特征并预测每个超像素的显着性受全卷积网络（FCN）[33]在语义分割上的成功启发，已经提出了一些方法来利用全卷积结构进行逐像素显著性预测。Liu和Han [32]提出了一种深度分层网络来学习粗略的全局显着性图，然后逐步对其进行细化。Wang等人[47]提出了一个经常性的FCN包含显着性先验。Zhang等人[60]建议让CNN学习深度不确定卷积特征（UCF），以提高显着性检测的鲁棒性和准确性Zhang等人[61]提出了一种注意力引导网络，其以渐进的方式选择性地集成多级上下文信息。Chen等人[4]提出了反向注意力，以自上而下的方式指导剩余特征学习，用于显著性检测。上述所有显著性检测方法都训练了完全监督模型1https://github.com/zengxianyu/jsws2http://ice.dlut.edu.cn/lu/7225一个单一的任务虽然我们的方法稍微增加了标记成本，但它在显著性检测和语义分割方面都达到了最先进的性能。2.2. 弱监管近年来，为了降低标注成本，提出了许多弱监督语义分割方法已经利用了各种监督，例如图像级标签、边界框、涂鸦等。在各种弱监管中，最弱的一种，图像级监管，最受关注。在图像级弱监督分割中，一些方法利用了预训练的显著性检测模型的结果。在[50]中提出了一种从简单到复杂的方法，其中使用用于监督的显着图用简单图像训练初始分割模型。然后，分割模型的能力通过逐步包括增加复杂度的样本来增强。Wei等[49]迭代地使用CAM [63]来发现对象区域，并使用[19]的显着性检测结果来找到背景区域以训练分割模型。Oh等人[36]使用图像分类器来找到对象类上的高置信度点，即，对象种子，并利用基于CNN的显著性检测模型来找到与一些检测到的对象种子相对应的掩模。然后使用这些类特定的掩码来训练分割模型。Wei等[51]使用具有不同扩张率的卷积块的分类网络来找到对象区域，并使用[52]的显著性检测结果来找到背景区域以训练分割模型。Wang等人[48]从分类网络产生的对象区域开始。使用挖掘的特征扩展对象区域，并使用[19]生成的显着性图进行细化。然后将细化后的目标区域作为监督训练分割网络。上述弱监督分割方法都利用了预先训练的显著性检测模型的结果，或者利用已有的模型，或者分别训练显著性模型和分割模型。所提出的方法与这些方法有两个主要区别首先，这些方法使用预先训练的显著性检测模型，而我们直接利用强显著性注释并以端到端的方式工作。其次，在这些方法中，显著性检测被用作预处理步骤，以生成用于分割的训练数据。相比之下，我们simul-tensile解决显着性检测和语义分割，使用一个单一的模型，其中大部分参数是共享的两个任务。2.3. 多任务学习多任务学习已被广泛用于计算机视觉问题。Teichman等人[43]提出了一种联合分类、检测和分割的方法使用统一的架构，其中编码器在三个任务之间共享Kokkinos [22]提出了一个UberNet，它联合处理低，中，高级任务，包括边界检测，正常估计，显着性估计，语义分割，人体部位分割，语义边界检测，区域建议生成和对象检测。Eigen和Fergus [9]使用多尺度CNN来解决三个不同的计算机视觉任务：深度预测、表面法线估计和语义标记。Xu等[53]提出了一种PAD-Net，首先解决从低级到高级的几个辅助任务，然后将预测用作最终任务的多模态输入。上述模型均在全监督环境下运行。相反，我们共同学习解决弱监管设置下的一个任务和全监管设置下的另一个任务。3. 所提出的方法在本节中，我们将详细介绍同时进行显著性检测和语义分割的联合学习框架。我们首先概述了所提出的显着性和分割网络（SSNet）。然后，我们在第3.2节和第3.3节中描述了分割网络（SN）和显著性聚集模块（SAM）的细节。最后，我们在3.4节中介绍了联合学习策略。图2示出了所提出的方法的总体架构。3.1. 网络概述我们设计了 SSNet 的两个变体，即。 SSNet-1 和SSNet-2，分别用于两个训练阶段。在第一个训练阶段，SSNet-1使用像素级显著性注释和图像级语义类别标签进行训练。在第二阶段，SSNet-2使用显著性注释和图像级语义类别标签以及SSNet-1预测的语义分割结果进行训练。SSNet-1和SSNet-2都由分割网络（SN）和显著性聚合模块（SAM）组成。给定输入图像，SN预测分割结果。SAM预测每个语义类的显著性得分，并根据每个类的显著性得分将分割图聚合成单个通道显著性图SSNet-1和SSNet-2都是端到端训练的。3.2. 分割网络分割网络由一个从输入图像中提取特征的特征我们网络的特征提取器是基于最先进的CNN图像识别架构设计的，例如，VGG [42]和DenseNet [17]，通常包含五个用于特征提取的卷积块和一个完全连接的分类器。我们移除完全连接的7226. . .vvvSn=1NCNN（一）（b）第（1）款分割网络（c）第（1）款conv层和上采样卷积. ......（e）12181920损失Ls2argmax.........（f）第（1）款（d）其他事项（h）损失Lc显著性聚合模块（g）损失Ls1（一）图2.所提出方法的概述。我们的模型是用（a）用类别标签注释的图像和（b）用显着性地面事实的训练的。对于输入图像，分割网络生成（c）分割结果，其中空间位置上的平均值指示（d）每个类别的概率。显著性聚集模块预测（e）每个类别的显著性得分，以将所有类别的分割掩码聚集到（g）显著性图中。在第一个训练阶段，网络使用（h）类别标签和（i）显著性基础事实进行训练。在第二训练阶段中，利用（f）在第一阶段中训练的模型的预测分割结果和显著性基础事实来训练网络分类器，并使用卷积块作为我们的特征提取器。为了获得更大的特征图，我们从最后两个卷积块中删除了下采样算子，并使用扩张卷积来保留原始的感受野。特征提取器生成1/8的特征图，把图像大小。我们将输入图像的大小调整为256×256，得到的特征图为32×32的空间尺度。在第一个训练阶段，唯一可用的语义监督线索是图像级标签。使用图像级标签进行训练后，每个类的粗略空间分布可以3.3. 显著性聚集我们设计了一个显著性聚合模块（SAM）作为两个任务之间的桥梁，使分割网络可以利用类无关的像素级显著性标签，并生成更准确的分割结果。该模块取特征提取器的32×32输出F，并生成具有32×32卷积层和sigmoid函数的C维向量v，其中每个元素vi是第i个类别的显著性得分然后，显著图S由所有类别的分割掩码的加权和给出：ΣC可以推断，但很难训练一个复杂的模型。因此，我们在SSNet-1S=i=1vi·Hi，（1）用于产生分割结果，即，1×1卷积层。预测的C通道分割图和单通道背景图是输入图像大小的1/8，其中C是语义类的数量。每个元素分割图和背景图的值是[0，1]中的值。对于每个像素，所有类别的值总和为1然后，通过反卷积层将分割结果上采样到输入图像大小。在第二训练阶段，其中Hi表示分割结果的第i个通道，其编码第i个类别的空间分布，其是分割网络的输出。3.4. 显著性和分割的联合学习我们使用两个训练集来训练建议的SSNet：具有像素级显著性注释的显著性数据集和具有图像级语义猫的分类数据集。SSNet-1的分割结果可用于训练-egory标签让Ds={（Xn，YN）}n=1表示显著性ing，这是一个更强的监督线索。因此，我们可以使用更复杂的分割网络来生成更精细的分割结果。受Deeplab [3]的启发，我们在SSNet-2中使用了四个3×3卷积层，膨胀率为6，12，18，24，并将其输出的总和作为seg。精神状态结果。与SSNet-1类似，这些分割结果是输入图像大小的1/8，并由反卷积层上采样到输入大小。数据集，其中Xn是图像，Yn是地面实况。Yn的每个元素是1或0，表示对应的像素属于显著对象或后向对象。地，分别。分类数据集表示为Dc={（Xn，tn）} ，其中X是图像，t是图像类别的独热编码。对于输入图像，分割网络生成其分割结果，从该分割结果中可以计算每个图像vn7227im我MM可以通过对空间位置上的分割结果求平均来导出类别。我们计算损失，跟随，NcC+1这些值和地面实况类别标签，并向后传播它以使分割结果语义化。1ΣLs2=−n=1Σ Σn洛格海姆i=1m∈Ci、（四）在物理上正确，即，语义范畴的出现，正确识别输入图像。这一损失表示为其中hni=1，.，C是Hn在Lc定义如下，Σ像素m和通道i，表示像素m和通道i的概率。我属于第i类.SSNet-2使用1Lc=−ΣNc ΣC tnlogtn+（1−tn）log（1−tn），损失Ls1+Ls2。n=1我我我i=1我（二）4. 实验4.1. 数据集和设置其中tn是tn的第i个元素。tn=1表示ni in分割对于语义分割任务，我们评估-图像X否则，请执行以下操作。包含第i个类别的对象，并且ti=0tn是在空间位置上的平均值在PASCAL VOC 2012 seg上验证了所提出的方法图像Xn的分割图Hn，其中每个元素t<$n∈[0，1]表示第i类目标出现在图像中的预测概率图像级类别标签可以使分割网络识别语义类别，但它们不包含任何空间信息，这是分割所必需的。我们用像素级显著性标签解决了这个问题。如第3.3节所述，SAM生成每个类别的显著性得分，并将分割结果聚合到显著性图中。我们最小化a在导出的显著性图和地面真实值之间损失Ls1，使得分割网络必须精确地切割识别的对象，以使导出的显著性图匹配地面实况。显著性图和显著性地面实况之间的损失Ls1定义如下，心理状态基准[10]。该数据集有20个对象类别，一个是背景类，一个是背景类。它被分为1，464张图像的训练集，1，449张图像的验证集和1，456张图像的测试集根据常见的实践[1，15，49]，我们通过增强将训练图像的数量增加到10，582。我们只使用图像级标签进行训练。我们的方法和其他国家的最先进的方法的性能进行评估的验证集和测试集。根据PASCALVOC评估标准，在平均超过21个类（mIOU）的inter-section-over-union方面评估语义分割的性能。我们通过将结果提交给PASCAL VOC评估服务器来获得测试集上的mIOU。显着性对于显着性检测任务，我们使用DUT- S训练集[46]进行训练，该训练集有10，553张图像1L=−ΣNsΣΣnn n ny log s+（1−y）log（1−s），用像素级的显著性注释。所提出的方法和其他国家的最先进的方法进行评估的四个s1m m mNsn=1mM（三）基准数据集：ECSSD [54]，PASCAL-S [30]，HKU-IS[27]，SOD [35]. ECSSD包含1000个自然图像，其中包含多个不同大小的对象。PASCAL-S股骨柄其中yn∈{0，1}是第m个像素的值，从PASCAL VOC 2010段的验证集显著性基础事实Yn. Sn[0，1]是一个值，它包含850幅自然图像。 HKU-IS拥有- 图像的显著性图中的第m个像素，对第m个像素是显著的预测概率进行编码。在第一个训练阶段，我们用损失 Lc+Ls1 训练SSNet-1。在训练SSNet-1之后，我们在分类数据集Dc上运行它，并获得C+1通道分割结果，其中前C个通道对应最后一个通道对应于背景。然后，分割结果的前C个通道与独热类别标签tn交叉通道相乘，以抑制错误预测，并使用CRF [25]进行细化，以增强空间平滑度。最后，我们通过对每个像素进行赋值来获得一些伪标签m的每个训练图像Xn∈Dc的类标签，包括与细化分割结果中的最大值对应的背景标签。我们将分割结果和伪标签之间的损失Ls2定义为4447个图像被选择为包括多个断开的对象或接触图像边界的对象SOD有300个具有挑战性的图像，其中许多图像包含多个对象，这些对象要么具有低对比度，要么接触图像边界。显着性检测的性能进行了评估的最大F-措施和平均绝对误差（MAE）。训练/测试设置我们采用在ImageNet [5]上预训练的DenseNet-169 [17]作为我们分割网络的特征提取器，因为它能够实现比较，与其他架构相比，具有更少参数的低性能。我们的网络基于Pytorch框架实现，并在两个NVIDIA GeForceGTX 1080 Ti GPU上训练。我们使用亚当优化器[21]来训练我们的网络我们随机裁剪原始图像大小的9/10的补丁，并在训练时重新缩放为256×2567228图像GT我们PAGRRasUCF护身符RFCNDSELDDCLDHSMCDLMDF图3.所提出的方法与最先进的全监督显着性检测方法的视觉比较批量大小设置为16。我们以1 e-4的初始学习率训练SSNet-1和SSNet-2 10，000次迭代测试时，输入图像的大小调整为256×256。然后，对预测的分割结果和显著性图进行重新估计，通过最接近的插值将大小调整为输入大小。我们不对分割结果进行任何后处理。我们应用CRF [25]来细化显着图。4.2. 与显着性方法的我们将我们的方法与以下最先进的基于深度学习的全监督显着性检测方法进行比较：PAGR （CVPR'18）[ 61 ]、RAS（ECCV'18）[ 4 ]、UCF（ICCV'17）[ 60 ]、Amulet（ICCV'17）[ 59 ]、RFCN（ECCV'16）[ 47 ]、DS（TIP'16）[ 29 ]、ELD（CVPR '16）[ 26 ]、DCL（CVPR'16）[ 28 ]、DHS（CVPR '16）[ 32 ]、MCDL（CVPR'15）[ 62 ]，（CVPR '15）[ 27 ].图3示出我们的方法与最先进的全监督显着性检测方法的视觉比较。MAE和最大F测量值的比较分别见表1和表2如表1所示，所提出的方法在所有数据集中实现了最小的MAE表2中的最大F-度量还表明，我们的方法在一个数据集中实现了第二大F-度量，在其他三个数据集中实现了第三大F-度量。结合这两个指标，可以看出我们的方法在显著性检测任务中达到了最先进的性能。4.3. 与分割方法的比较在本节中，我们将我们的方法与以前最先进的弱监督语义分割方法进行了比较，即。MIL（CVPRAE(CVPR’17）[49]，STC(PAMI’17）[50]，CBTS(CVPR’17）[39]，ESOS(CVPR’17）[36]，MCOF(CVPR’18) [ MDC（CVPRWSSL使用边界框作为监督，RAWK使用涂鸦作为监督，其他方法使用图像级类别作为监督。在使用图像级监督的方法中，ESOS利用了使用边界框注释训练的深度CNN的显著性检测结果。AE、STC、MCOF、MDC使用完全监督图像结果Ground-truth图像结果Ground-truth(a)(b)（c）第（1）款图4. PASCAL VOC 2012验证集上拟定方法的定性结果。显著性检测模型，并因此隐式地使用像素级显著性注释。由于以前的一些方法使用VGG16作为其骨干网络，我们也报告了我们的方法使用VGG16的性能。从表3和表4中可以看出，我们的方法与所有上述方法相比，包括使用更强监督的方法，如边界框（WSSL）和涂鸦（RAWK）。我们的方法也优于方法，ESOS，AE，STC，MCOF，MDC，通过使用预训练的显着性检测模型隐式地使用显着性注释。与这些方法相比，我们的方法同时解决了语义分割和显著性检测，可以以端到端的方式进行训练，这是更有效，更容易训练。4.4. 消融研究在本节中，我们分析了所提出的联合学习框架的效果。为了验证多任务的影响，我们展示了在不同的单任务和多任务设置下训练的网络的性能语义分割表5和图5分别显示了在不同设置下训练的用于分割任务的模型的定量和定性比较。对于第一个训练阶段，我们首先在单任务设置中训练SSNet-1，其中仅使用图像级类别标签和Lc。所得到的模型表示为SSNet-S，其mIOU如图所示。表5的第一列。然后，我们在多任务设置中添加显着性任务来训练SSNet-1。在该设置中，Lc+Ls1用作损失函数，图像级类别标签和显著性数据集都用作训练。ing数据。所得到的模型表示为SSNet-M，其中mIOU在表5的第二列中示出。可以看出，SSNet-M具有比SSNet-S大得多的mIOU，这表明联合学习显著性检测对WSSS有很大的好处在第二次训练7229表1.在MAE方面比较全监督显着性检测方法（越小越好）。最好的三个结果分别是红色、绿色和蓝色方法/数据集RASPAGRUCFAmuleRFCNDSELDDCLDHSMCDL ’15 2015年我们ECSSD0.0560.0610.0780.0590.1070.1220.0790.0880.0590.1010.1050.045Pascal-S0.1040.0930.1260.0980.1180.1760.1230.1250.0940.1450.1460.067HKU-IS0.0450.0480.0740.0520.0790.0800.0740.0720.0530.0920.1290.040DUT测试0.0600.0560.1170.0850.0910.0900.0930.0880.0670.1060.0940.052表2.比较全监督显着性检测方法的最大F-测度（越大越好）。最好的三个结果分别是红色、绿色和蓝色方法/数据集RASPAGRUCFAmuleRFCNDSELDDCL ’16 DHSMCDL ’15 MDF ’15 我们ECSSD0.9210.9270.9110.9150.8900.882 0.8670.8900.9070.8370.8320.919Pascal-S0.8370.8560.8280.8370.8370.765 0.7730.8050.8290.7430.7680.851HKU-IS0.9130.9180.8860.8950.8920.865 0.8390.8850.8900.8080.8610.907DUT测试0.8310.8550.7710.7780.7840.777 0.7380.7820.8070.6720.7300.832表3. PASCAL VOC 2012验证集上WSSS方法的比较。通过使用预先训练的显著性检测模型，隐式地使用显著性注释。*和*标记方法分别使用框监督和涂鸦监督。Ours：我们的方法使用基于Densenet169的特征提取器。Ours-VGG：我们使用基于VGG 16的特征提取器的方法。MCOF-Res：基于ResNet101的MCOF特征提取器。MCOF-VGG：MCOF与基于VGG 16的特征提取器。最好的三个结果是红色，绿色和蓝色。方法BKG阿雷奥自行车鸟船瓶总线车猫椅子牛表狗马MBK人植物羊沙发火车电视是说MIL1574.7 38.8 19.8 27.5 21.7 32.8 40.0 50.1 47.1 7.2 44.8 15.8 49.4 47.3 36.636.424.3 44.5 21.0 31.5 41.3 35.8WSSL†---------------------60.6BFBP79.2 60.1 20.4 50.7 41.2 46.3 62.6 49.2 62.3 13.3 49.7 38.1 58.4 49.0 57.048.227.8 55.1 29.6 54.6 26.6 46.6SEC82.2 61.7 26.0 60.4 25.6 45.6 70.9 63.2 72.2 20.9 52.9 30.6 62.8 56.8 63.557.132.2 60.6 32.3 44.8 42.3 50.7RAWK---------------------61.4STC201784.5 68.0 19.5 60.5 42.5 44.8 68.4 64.0 64.8 14.5 52.0 22.8 58.0 55.3 57.860.540.6 56.7 23.0 57.1 31.2 49.8AE2017---------------------55.0CBTS85.8 65.2 29.4 63.8 31.2 37.2 69.6 64.3 76.2 21.4 56.3 29.8 68.2 60.6 66.255.830.8 66.1 34.9 48.8 47.1 52.8ESOS2017---------------------55.7MCOF-Res87.0 78.4 29.4 68.0 44.0 67.3 80.3 74.1 82.2 21.1 70.7 28.2 73.2 71.5 67.253.047.7 74.5 32.4 71.0 45.8 60.3MCOF-VGG85.8 74.1 23.6 66.4 36.6 62.0 75.5 68.5 78.2 18.8 64.6 29.6 72.5 61.6 63.155.537.7 65.8 32.4 68.4 39.9 56.2MDC 2018年89.5 85.6 34.6 75.8 61.9 65.8 67.1 73.3 80.2 15.1 69.9 8.1 75.0 68.4 70.971.532.6 74.9 24.8 73.2 50.8 60.4Ours-VGG89.1 71.5 31.0 74.2 58.6 63.6 78.1 69.2 74.4 10.7 63.6 9.8 66.4 64.4 66.664.827.5 69.2 24.3 71.0 50.9 57.1a我们90.0 77.4 37.5 80.7 61.6 67.9 81.8 69.0 83.7 13.6 79.4 23.3 78.0 75.3 71.468.135.2 78.2 32.5 75.5 48.0 63.3bahttp://host.robots.ox.ac.uk:8080/anonymous/F5E3DJ.htmlbhttp://host.robots.ox.ac.uk:8080/anonymous/AOZU76.html阶段，SSNet-2的训练数据由两部分组成：一个是SSNet-1的预测，另一个是显着性数据集。为了验证每个分裂的贡献，我们在三个设置中训练SSNet-2：（1）列车只使用Ls2作为损失函数的SSNet-S的预测，2）仅使用Ls2作为损失函数的SSNet-M的预测进行训练，以及3）使用Ls1+Ls2作为损失函数的SSNet-M 三种设置表示为 SSNet-SS 、 SSNet-MS 和 SSNet-MM ，其mIOU分数示于表5的第三至第五列。从SSNet-SS和SSNet-MS的比较可以看出，在第一个训练阶段使用多任务设置训练的模型可以为第二个训练阶段提供更好的训练数据。com-SSNet-MS和SSNet-MM的对比表明，当使用相同的像素级分割标签进行训练时，在多任务设置中训练的模型仍然优于单任务设置。显著性检测为了研究联合学习对显著性检测的影响，我们比较了SSNet- 2在多任务设置和单任务设置中的性能。我们首先仅针对显著性检测任务训练SSNet-2，从而产生表示为SSNet-2S的模型，其最大F测量和MAE在表6的第一列中示出。然后，我们在显着性数据集上运行上面提到的模型SSNet-MM，得到的F度量和MAE如表6的第二列所示。可以看出，在多任务设置中训练的模型具有与在单任务设置中训练的模型相当的性能，7230表4.PASCAL VOC 2012测试集上WSSS方法的比较通过使用预先训练的显著性检测模型，隐式地使用显著性注释*和*标记方法分别使用框监督和涂鸦监督。Ours：我们的方法使用基于Densenet169的特征提取器。Ours-VGG：我们使用基于VGG 16的特征提取器的方法MCOF-Res：MCOF，基于ResNet101的特征提取器。MCOF-VGG：MCOF与基于VGG 16的特征提取器。最好的三个是红色，绿色，蓝色。方法BKG阿雷奥自行车鸟船瓶总线车猫椅子牛表狗马MBK人植物羊沙发火车电视是说MIL74.7 38.8 19.8 27.5 21.7 32.8 40.0 50.1 47.1 7.2 44.8 15.8 49.4 47.3 36.636.424.3 44.5 21.0 31.5 41.3 35.8WSSL†---------------------62.2BFBP80.3 57.5 24.1 66.9 31.7 43.0 67.5 48.6 56.7 12.6 50.9 42.6 59.4 52.9 65.044.841.3 51.1 33.7 44.4 33.2 48.0SEC83.5 56.4 28.5 64.1 23.6 46.5 70.6 58.5 71.3 23.2 54.0 28.0 68.1 62.1 70.055.038.4 58.0 39.9 38.4 48.3 51.7STC-1685.2 62.7 21.1 58.0 31.4 55.0 68.8 63.9 63.7 14.2 57.6 28.3 63.0 59.8 67.661.742.9 61.0 23.2 52.4 33.1 51.2AE2017---------------------55.7CBTS85.7 58.8 30.5 67.6 24.7 44.7 74.8 61.8 73.7 22.9 57.4 27.5 71.3 64.8 72.457.337.0 60.4 42.8 42.2 50.6 53.7ESOS2017---------------------56.7MCOF-Res88.2 80.8 31.4 70.9 34.9 65.7 83.5 75.1 79.0 22.0 70.3 31.7 77.7 72.9 77.156.941.8 74.9 36.6 71.2 42.6 61.2MCOF-VGG86.8 73.4 26.6 60.6 31.8 56.3 76.0 68.9 79.4 18.8 62.0 36.9 74.5 66.9 74.958.144.6 68.3 36.2 64.2 44.0 57.6MDC 2018年89.8 78.4 36.2 82.1 52.4 61.7 64.2 73.5 78.4 14.7 70.3 11.9 75.3 74.2 81.072.638.8 76.7 24.6 70.7 50.3 60.8Ours-VGG89.2 75.4 31.0 72.3 45.0 56.6 79.3 73.2 73.9 14.1 64.4 19.7 69.5 71.1 76.764.741.8 70.9 27.5 68.2 46.6 58.6a我们90.4 85.4 37.9 77.2 48.2 64.5 83.9 74.8 83.4 15.9 72.4 34.3 80.0 77.3 78.569.041.9 76.3 38.3 72.3 48.2 64.3bahttp://host.robots.ox.ac.uk:8080/anonymous/YTXEXK.htmlbhttp://host.robots.ox.ac.uk:8080/anonymous/PHYZSJ.html其中前者具有较大的最大F-测量，而后者在MAE方面更好。因此，可以安全地得出结论，进行语义分割的联合学习不会损害显著性检测的性能。这一结果验证了所提出的联合学习框架的优越性，考虑到其巨大的好处，语义分割。表6.在不同设置下训练的模型在显着性检测任务上的比较S和M分别代表单任务训练和多任务训练CRF代表CRF后处理后的结果。较大的maxFβ和较小的MAE表示更好的性能。最佳结果以粗体显示。图像地面实况SSNet-SSSNet-MSSNet-SSSSNet-MSSSNet-MM5. 结论图5.在不同设置下训练的模型的分割结果的视觉效果。图像：输入图像。地面实况：分割地面真相。SSNet-S：SSNet-1在单任务设置中训练的结果。SSNet-M：SSNet-1在多任务设置中训练的结果。SSNet-S：使用SSNet-S的预测在单一任务设置中训练SSNet-2的结果。SSNet-MS：使用SSNet-M 的预测在单任务设置中训练 SSNet-2 的结果。SSNet-MM：使用SSNet-M的预测，SSNet-2在多任务设置中训练的结果。表5.比较在不同设置下训练的模型在语义分割任务上的表现S和M分别代表单任务训练和多任务训练mIOU越大，表示性能越好。最佳结果以粗体显示。训练阶段培训战略阶段1SMSMM阶段2SSMMiou33.157.147.162.763.3本文提出了一个联合学习框架，用于显著性检测（SD）和弱监督语义分割（WSSS）。显着性和分割网络（SSNet）。与使用预训练SD模型的WSSS方法相比，该方法充分利用了显著性标记的分割线索，并且更容易训练。与现有的完全监督SD方法相比，我们的方法可以提供更多的信息。实验表明，我们的方法达到了国家的最先进的性能之间的完全supervised SD方法和WSSS方法。确认国家自然科学基金项目#61725202，#61829102，#61751212，#61876202，中央高校基础研究基金编号DUT19GJ201和大连市科技创新基金编号2019J12GX039。培训战略SMMMae0.0460.0470.045（通用报告格式）最大Fβ0.8990.9120.919（通用报告格式）7231引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。5[2] Liang-ChiehChen ， Geo

下载后可阅读完整内容，剩余1页未读，立即下载