多源弱监督显著性检测

127 浏览量更新于2023-10-19 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6074多源弱监督显著性检测曾宇1，诸葛云智1，卢沪川1，张立和1，钱明阳1，于一舟21大连理工大学2Deepwise AI Lab，中国zengyu@mail.dlut.edu.cn，zgyz@mail.dlut.edu.cn，lhchuan@dlut.edu.cn，zhanglihe@dlut.edu.cn，mingyangqian25@gmail.com，yizhouy@acm.org摘要像素级注释的高成本使得训练具有弱监督的显著性检测模型变得非常重要。然而，单个弱监督源通常不包含足够的信息来训练性能良好的模型。为此，我们提出了一个统一的框架来训练具有不同弱监督源的显著性检测模型。在本文中，我们使用类别标签，标题和未标记的数据进行训练，但其他超级视觉源也可以插入到这个灵活的框架中。我们设计了一个分类网络（CNet）和一个上限-（一）(b)（c）（d）PNet是一个学习预测对象类别和生成字幕的网络，同时突出显示相应任务的最重要区域。注意力转移损失被设计为在网络之间传输监督信号，使得被设计为用一个监督源训练的网络可以从另一个监督源受益。在未标记数据上定义注意一致性损失我们使用CNet和PNet 生成像素级伪标签来训练显着性预测网络（SNet）。在测试阶段，我们只需要SNet来预测显着图。实验表明，该方法的性能优于无监督和弱监督方法，甚至一些监督方法。1. 介绍显著性检测旨在检测图像中信息量最大的部分。它可以应用于广泛的应用[4，6，36]，因此近年来吸引了大量的兴趣。在深度卷积神经网络（CNN）的显着成功的推动下，已经进行了大量尝试来训练CNN进行显着性检测[9，19，28，26]。基于CNN的方法通常需要大量带有像素级注释的数据进行训练。由于使用注释图像的成本很高，图1. (a)注释。(b)图像. (c)用单个弱监督源训练的模型的显著性图在对应行的第一列中示出。(d)使用我们提出的多源弱监督框架训练的模型的显着图。像素级地面实况，已经尝试开发更高级别的监督，例如，图像级监督，以训练CNN进行显着性检测[27]。然而，训练网络在弱监督环境中准确地切割显著对象是具有挑战性的。一方面，弱监管源头不全、噪音大。例如，图像级类别标签是用于显著性检测的有效弱监督线索。它指示了其中主要对象的类别，这些对象很可能是突出的前景。然而，类别标签过于简单，无法传达足够的信息。在不知道显著对象的属性或运动的情况下，用类别标签训练的网络可能只突出最具区分力的区域，而不是整个对象。如图1的第一行所示，使用类别标签训练的模型仅突出显示狗的面部，因为面部提供了足够的信息将其归类为狗。另一个弱监督线索是图像标题。图像标题是描述图像主要内容的几句话。与图像级标签相比，标题提供了对显著对象的更全面的描述如图1的第二行中所示，对于类别：狗图片说明：一只狗把一个蓝色的杯子扔在沙滩上。图片说明：一只非常可爱的小鸟在绿叶上。6075狗，标题不仅告诉有一只狗，但也说，狗是返回，是与飞盘。为了生成正确的标题，网络需要关注整个狗。因此，用字幕训练的网络更有可能捕捉到整个显著对象。然而，图像字幕通常不仅描述显著对象，还描述背景。这可能导致不准确的显著性检测结果。如图1的第二行和第三行所示，除了鸟和狗等突出对象外，字幕还提到了背景关键词，如海滩和绿叶。因此，用字幕训练的网络的显着图突出了背景的一部分。另一方面，由于多个薄弱监督源的互补性，整合多个薄弱监督源具有很强的吸引力，但仍存在诸多障碍。首先，缺乏具有多种标注的大规模数据集，而现有的具有不同标注的数据集对于显著性检测任务是不匹配的。其次，使用不同的注释训练的模型通常要求具有不同的结构。因此，值得设计一个统一的框架来组合这些模型并从多个注释源中获益。为此，我们提出了一个弱监督学习框架，它集成了多个弱监督线索来检测显著对象。具体来说，我们使用带有图像级标签、图像标题和未标记数据的注释数据请注意，其他监督源也可以插入到这个灵活的框架中。我们设计了三个子网：多标记分类网络（CNet）、字幕生成网络（PNet）和显著性预测网络（SNet）。图2显示了主架构。CNet由卷积特征提取器、注意力模块和全连接层组成对于输入图像，特征提取器为每个区域产生特征向量注意力模块在所有区域上生成空间注意力它必须关注最重要的区域才能正确预测类别标签。所有图像区域的空间注意力构成了一个粗略的显着图，突出显示所有潜在的类别不可知的对象区域。PNet具有与CNet类似的结构，其中全连接层被LSTM [8]层取代以生成标题。由其atten- tion模块生成的粗显着图突出了用于生成正确字幕的必要区域。为了充分利用这些注释，我们设计了一个注意力转移损耗来传输网络之间的监控信号当使用类别标签进行训练时，CNet从注释中学习，PNet从CNet的粗糙显着性图中学习，注意力转移损失。当使用标注的图像进行训练时，对于字幕，PNet从注释中学习，而CNet从PNet的粗糙显着图中学习。为了鼓励网络检测一般突出的区域，而不是特定于任务的区域，我们定义了一个注意力一致性损失，使用未标记的数据进行正则化。根据低层颜色相似性对CNet和PNet产生的未标记图像的粗糙显著图进行细化，然后将CNet和PNet产生的粗糙显著图与细化的显著图进行匹配。在训练好CNet和PNet之后，我们使用它们生成伪标签来训练显著性预测网络（SNet）。SNet由特征提取器和几个卷积层组成受[5]的启发，我们使用扩张卷积来扩大感受野，并使用具有不同扩张率的并行扩张卷积层来捕获多个尺度的对象和上下文。在测试时，我们只需要SNet来生成最终的显着图。如图1的最后一列所示，我们提出的多源监督框架可以利用不同监督源的互补优势来生成更好的显著性图，该显著性图均匀地突出通常显著的对象，同时抑制背景。概括而言，我们的主要贡献如下：我们提出了一种新的弱监督框架来训练具有不同监督源的显著性检测模型。据我们所知，这是首次尝试将多个监督线索整合到一个统一的显著性检测框架中。我们设计了三个网络，分别从类别标签，标题和嘈杂的伪标签学习显著性检测。我们提出了一个注意转移损失来在网络之间传输监督信号，让网络从另一个监督源中受益，并提出了一个注意一致性损失来鼓励网络检测一般显着区域。2. 相关工作2.1. 显著目标检测显著性检测的早期研究集中在手工制作的特征和启发式先验，中心先验[12]和边界背景先验[31]。最近，由于深度卷积神经网络（CNN）在各种视觉任务上取得了显着的成功，已经提出了许多基于深度学习的方法来进行显着性检测。Li等[15]从深度CNN中提取多尺度特征来表示超像素，并使用分类器网络来预测每个超像素的显着性得分。 Hou等人[9]提出了一种用于显著性检测的具有深度监督的跳层结构。Wang等人[29]建议···6076图2.提出了多源弱监管框架的概述（1，2，3）用类别标签注释的图像、标题注释和未标记的图像。(c1，c2，c3）由分类网络（CNet）生成的图像（1，2，3）的显著性图。(p1，p2，p3）由字幕生成网络（PNet）生成的图像（1，2，3）的显著性图。(s)最终输出显着图。全局递归定位网络通过加权响应图来利用上下文信息更准确地定位显著对象。虽然这些方法实现了卓越的性能，但它们都需要昂贵的像素级注释进行训练。2.2. 弱监督学习为了降低手工标注的成本，弱监督学习越来越受到人们的关注。Pinheiro和Collobert [22]使用分割网络来预测像素级标签，并将其聚合为图像级标签。然后将预测值与图像级真实值之间的误差Ahn和Kwak [3]利用类激活图（CAM）[34]训练网络来预测局部图像区域内的语义相似性，并将其与随机游走结合Wang等人[27]训练CNN来检测具有图像级监督的显著对象他们设计了一个前景推理网络（FIN）来推断潜在的前景区域，并提出了一个全局平滑池（GSP）操作来聚合推断出的前景对象的响应与执行潜在实例的硬选择的全局最大池化（GMP）和全局平均池化（GAP）不同，GSP显式地计算每个实例的权重，并且更适合像素级任务。然而，GSP需要为每个输入图像解决一个最大化问题，这大大降低了网络的前向计算速度。相比之下，我们提出的atten- tion模块聚合的功能和计算的空间分布的前景物体在一个向前通过，带来更少的计算负担。此外，所有上述方法依赖于单个图像级监督源，而我们集成互补监督线索来训练更鲁棒的模型。3. 该方法在本节中，我们详细介绍了所提出的多源弱监督显著性检测。总体框架如图2所示。分类网络（CNet）预测类别标签，同时其注意力模块生成一个粗略的显着图，突出显示与分类结果相关的区域。字幕生成网络（PNet）生成字幕并定位相应的区域。当使用类别标签进行训练时，计算CNet的类别定位损失，并计算PNet的注意力转移损失。当使用字幕进行训练时，计算PNet和CNet重新分配的字幕定位损失和注意力转移损失。当使用未标记的数据进行训练时，我们使用CNet和PNet的显着性图计算注意力一致性损失。在训练CNet和PNet之后，我们使用它们生成伪标签来训练显着性预测网络（SNet）。CNet、PNet以及显著性预测网络（SNet）的架构在第3.1、3.2、3.3节中介绍。培训策略见第3.4节。3.1. 特征提取器我们网络的特征提取器是基于DenseNet-169 [10]设计的，它由五个用于特征提取的卷积块和一个全连接的线性分类器组成每一层都与其他层（一）第一培训阶段类别标签图片/类别标签分类损失分类预测图像图片/说明分类数据集（二）关注模块（c1）（c2）（c3）未标记图像字幕注意转移损失注意一致性损失关注模块前向计算（p2）（p3）字幕数据集（三）（p1）反向传播字幕丢失生成的字幕图像未标记数据显著性损失（s）第二训练阶段图像...6077168SF×--×××D我Npip1：T ii=11：T i1不在同一个街区。由于其密集的连接模式，DenseNet可以用比其他体系结构更少的参数实现相当的分类所有区域的特点如下，ΣK结构。我们删除了完全连接的分类器，并使用卷积块作为我们的特征提取器。为了-G=i=1α i·fi.（四）为了获得更大的特征图，我们从最后几个池化层中删除了下采样操作。对于CNet和PNet，我们只在最后一个池化层中进行这种修剪，这可以被视为具有自适应空间权重的全局池化操作。图3显示了attention模块的细节。所生成的特征图为输入图像的大小。为SNet，我们修改最后两个池化层以获得fea-（16x16x1）（16x16x1）显著性图（公式1的结果（16x16x1）softmax（256x1）真实的地图与更多的细节信息，并生成更好的显着图SNet的特征提取器输出输入图像大小的特征图。特征图西格莫伊d1x1转换1x1转换重塑（16x16x1）归一化的注意力权重（等式3的结果总和3.2. 关注模块3x3转换（16x16x512）（16x16x1）（512x1）全局关注特征（等式4的结果（16x16x512）参与特征图（等式2的结果（16x16x512）我们设计了一个注意力模块来计算空间前景对象在图像区域上的分布同时聚合所有区域的特征给定一个输入图像，特征提取器生成一个特征图，该特征图被表示为一组特征向量v1，...，vK，每个编码器编码一个图像区域（即，特征提取器的最后卷积层中的空间网格位置）。K表示区域的数量，并且K=HW表示空间大小为H W的特征图。我们在特征图上应用11卷积，随后是S形函数，以生成粗略的显著性图，如下所示，si=σ（w<$vi+bs），（1）其中σ表示sigmoid函数。ws和bs是学习参数。是第i个区域的显著性得分。所有区域的显著性得分构成显著性图S。给定每个区域的特征向量vi和显著性得分si，我们计算每个区域的关注特征，如下表示为fi，fi=si·（w∈vi+bf），（2）其中wf和bf是学习参数。这可以通过另一个11卷积层来实现，该卷积层的输出与S元素相乘然后，我们如下计算每个图像区域的归一化注意力权重ai，ai=wfi+ba（a）（b）（c）（d）图3.注意力模块的细节。3.3. 网络架构分类网络（CNet）由一个精心引入的特征提取器和一个注意力模块以及一个完全连接的层组成。给定输入图像，注意力模块从特征提取器提供的特征图生成其关注的全局特征和然后，全连接层将全局关注特征转换成C维向量，编码每个类别的概率，其中C是类别的数量。字幕生成网络（PNet）的架构类似于CNet。它们之间的主要区别在于LSTM层取代了CNet的全连接层。LSTM层将全局关注特征作为输入，并产生一个M维向量序列，其中M是所有候选单词的数量。显著性预测网络（SNet）由特征提取器;四个分别具有扩张率6、12、18、24的扩张卷积层和一个去卷积层。四个扩张卷积层将特征图作为输入，并预测四个显着图。然后，将四个显著图加在一起，并通过去卷积层上采样到输入图像大小。3.4. 多监督线索训练一α=softmax（a），（三）我们的训练集由三个子集组成：分类数据集、标题数据集和未标记数据集其中向量a的每个元素ai是注意力权重数据集。分类数据集表示为Dc=i iNci的第i个区域。wa和ba是学习参数。softmax函数将所有位置的权重之和约束为1。设α是α的元素;全局关注特征g{（X，y}i= 1，其中yj∈{0，1}，j=1，.，C是一个-对出现在图像X1中的类别进行热编码。Nc是Dc中的样本数。字幕数据集表示为D={（X i，y i}，其中y是一系列输入图像的加权平均值是Ti单词（y i，.，y ii）。Np是Dp中的样本数。6078i=1CCppC−−||−||{1}| 联系我们|}p未标记的数据集表示为Du={X i}Nu，其中N u是样本的数量。给定输入图像X，CNet预测每个类别的独热标签的概率，表示为p（yj|X），j=1，...， C，yj∈{0，1}，以及一个salien c y映射Sc. 表示为sci的Sc的每个元素是由等式2给出的第i个区域的显著性得分。PNet输出在给定先前单词y 1：t-1的情况下，在序列的步骤t处的候选单词上的条件分布，表示为p（y t|y1：t−1，X），y t=1，...，M.它还生成显著图Sp，其中每个元素表示为spi。我们定义了四个损失函数来训练网络：类别定位损失Lc，字幕定位损失Lp，注意转移损失Lat和注意一致性损失Lac。Lc使CNet找到最重要的区域，受其结构的限制，CNet不能直接使用标题标注，PNet不能直接从类别标注中学习。为了充分利用标注数据，我们提出了注意力转移损失，让一个网络在其相应的标注不可用时，从另一个网络的注意力图中学习具体来说，对于用类别标签注释的图像，我们使用CNet的显着性图来选择正样本和负样本（即，显著区域和背景区域）来监督PNet的显著图。对于带有字幕的图像，根据PNet的显著图选择负样本和正样本形式上，注意转移损失定义如下，分类. LP使PNet找到了生成字幕的最重要区域。Lat将监控信号从另一个网络的注意力图传输到当前网络。1Lat=−NΣ ΣSlogsspi+Σlog（1−spi）网络 lac鼓励由dif监督的两个网络-找到共同的显著区域。Lc是c（X，y）∈Dci∈I+i∈I−定义如下，1N-pΣ ΣSloglogsciΣ+log（1−sci），1Lc=−N公司简介logp（yj|X）+βΣlog（1−s），（X，y1：T）∈Dpi∈I+i∈I−（七）c（X，y）∈Dcj=1s∈Sc（五）其中，第一项是对数似然，第二项是正则化，其测量显著性图Sc和全零图之间的交叉熵，以防止平凡的显着图，有高的反应，在所有低-其中I+=i sc i0的情况。5和1c=i sc i<0. 5是根据显著性映射 Sc 选择的显著区域和背景区域的索引。I+={i|spi≥0。5}阳离子β是设置为0.005的超参数。注意，显著性图Sc和Sp是针对每个输入图像生成的，因此依赖于输入图像X。在这里和下面的等式中，为了简化，我们省略了符号的这种依赖性。通过最小化等式5，CNet学习预测输入图像中存在的对象的类别同时，正则化项限制了从图像区域流向分类器的信息量;因此网络必须关注最重要的区域，即，生成合理的显着图，来预测类别。字幕定位损失Lp定义如下，，p={i|spi<0. 5}是突出部的索引，根据Sp选择的背景区域。对于输入图像，CNet和PNet分别关注对于预测类别和生成字幕最重要的区域。为了使网络找到通常显著的区域，我们结合了低级别的颜色相似性来细化CNet和PNet的显着性图，并在未标记的数据上定义注意力一致性损失，以将CNet和PNet的显着性图与细化的显着性图相匹配。具体来说，我们使用SLIC [2]将每个未标记的图像分割成超像素，并标记显着值大于平均值的超像素1Lp=−NΣΣΣTlogp（yt|y1：t−1、X）值作为显著种子，其中超像素的显著性值被定义为其像素上的平均值。p（X，y1：T）∈Dp t=1（六）埃尔斯然后构造一个亲和图，其中超-像素是节点。每一个超像素都连接到它的两个-Σ+βlog（1−s），s∈Sp其中第一项是对数似然，第二项是如上所述的正则化项β设定为0.005.通过最小化等式6，PNet学习为输入图像生成字幕，并找到与字幕对应的显著区域。环邻居，并且图像边界上的所有超像素是连接的。第m和第n节点之间的边的权重由相应超像素之间的Lab颜色的距离的高斯定义，即，2019 - 05 - 25 00：01：00C m其中Cm、Cn表示超像素m、n的Lab颜色，并且σ被设置为0.1。受[31]的启发，我们通过解决以下问题来对每个具有显着种子的超像素的颜色相似性进行−6079−--uu××≥数据流形上的排名[35]：DUT-OMRON [31]。 ECSSD包含1000个自然图像1hm氢氮二唑其中，不同大小的多个对象是从21000000（H2 m，nw mn||√− √||+µMΣ||）的情况下，||),（八）互联网PASCAL-S来自PASCALVOC 2010 [7]分段挑战，包含850 nat-乌拉尔图像 SOD有300个图像，设计初衷是-其中d mm=nwmn。 µ设置为0.01。 zm=1in-指示第 m 个超像素是显著种子，否则 zm=0。令D=diag d mm，优化的h=（I γL）−1z是所有超像素的排名分数，其中L=D−1/2WD−1/2是归一化的拉普拉斯矩阵，γ=1/（1+µ）。我们选择超像素的像素，其排名得分大于h值的平均值作为正样本，表示为I+，并使用其他像素作为最后进行图像分割; Jiang等[11]生成了显著物体的像素级注释。 MSRA5K拥有5，000张图像，包含各种图像内容。DUT-OMRON包含5，168张具有挑战性的图像，其中包含复杂背景上的一个或多个突出对象。我们使用精确-召回曲线、平均绝对误差（MAE）和最大F-测量（最大Fβ，β2设置为u负样本，表示为I-，以监督两个网络的显着性图。注意力一致性损失是定义如下，[1]中建议的0.3），以定量评估每-并与其他方法进行了比较。拉克1=−NΣX∈DuΣSloglogscii∈I+u+ logspi4.2. 实现细节我们使用Python实现我们的方法，其中Py-1中文（简体）火炬工具箱我们的代码将被释放为未来的COM-Σ+i∈I−log（1− sc i）+log（1 −sp i）型坯23.在第一个训练阶段，我们在ImageNet检测数据集上训练CNet和PNet，用于多标签分类和MicrosoftCOCO标题数据集，以及关于用于训练整个系统的损失函数由上述四个损失函数的组合给出：L=Lc+Lp+λLat+λLac，（10）其中λ控制每个项的权重我们使用相同的权重λ=0。01为Lat和Lac。3.5. 训练显著性预测网络在训练了CNet和PNet之后，我们使用它们生成的粗糙显着图来训练SNet。两个粗糙的显着性图的平均值和大小调整到原始图像的大小，通过双线性插值。平均图用CRF [14]处理，然后二进制化为伪标签。让Y是伪标签，S是SNet的输出。我们使用自举损失[24]来训练SNet： Σ来自ImageNet分类数据集的300，000张图像，未标记数据。在这个训练阶段，我们使用Adam优化器[13]，批量大小为36，学习率为0.0001。在第二个训练阶段，我们使用DUTS训练集[27]的图像作为未标记的数据，并使用经过训练的CNet和PNet生成伪地面实况来训练SNet。在这个训练阶段，我们使用Adam优化器，批量大小为26，学习率为0.0001。所有训练图像的大小调整为256 256。在训练过程中，我们随机裁剪和翻转图像以避免过度拟合。测试时，该方法在我们的计算机上运行在约103 fps，256 256分辨率与3.2GHz的CPU，32GB RAM和两个GTX 1080Ti GPU。4.3.消融研究在本节中，我们分析了每个组件的贡献Lb（S，Y）=−[δyi+（1−δ）ai]logsi我包括CNet、PNet、注意力转移损失、注意力一致性损失（应用于未标记数据）的分量+[δ（1−yi）+（1−δ）（1−ai）] log（1−si），（十一）其中y i，s i分别是Y，S的元素，如果s i 0，则a i=1。5否则ai=0。 δ设定为0.05。请注意，我们仅在生成伪标签来训练SNet时使用CRF。在测试时，显着图以端到端的方式预测，而无需任何后处理。4. 实验SNet。表1显示了每个组件对最大F测量值的影响。每个组件的视觉效果如图4所示。从单一的监督源学习。我们分别训练CNet和PNet，以探索每个监督源的效果。具体地，使用类别局部化损失Lc和PNet使用标题日志用图像标题进行训练气化损失Lp然后，我们评估每个网络的性能和两个网络的平均结果4.1. 数据集和评价指标1https://github.com/pytorch我们在五个基准数据集上评估我们的方法：EC-[20][21][22][23][24][25][26]2https://github.com/zengxianyu/mws3http://ice.dlut.edu.cn/lu/udmmdnn6080AC销售时的图像GT Cls帽平均值图4.每个组件的视觉效果。Image：输入图像。GT：地面真相。Cls：使用类别本地化损失L c训练的CNet的结果。Cap：用字幕定位损失L p训练的PNet的结果。平均值：Cls和Cap的平均结果。AT：使用注意力转移损失L at联合训练两个网络。AC：联合训练两个网络，并使用未标记的数据进行正则化。未标记数据上的损失是注意一致性损失Lac。Sal：使用CNet和PNet生成的伪标签训练SNet。如表1的1-2行所示，单独的CNet和PNet都不能提供令人满意的结果。平均结果（表1第三行）优于两者，说明两种监督源是互补的。注意转移损失下的多源监督。虽然平均CNet和PNet的结果可以改善性能，但改善是最小的。这是因为通过分别训练两个网络并简单地平均结果，训练数据的信息没有被充分利用相比之下，通过合并注意力转移损失并联合训练两个网络，CNet受益于标题，PNet也受益于类别标签。因此，联合训练具有注意力转移损失的两个网络实现了比简单地平均结果（表1的第三行）好得多的性能（表1的第四行未标记数据的贡献。为了验证未标记数据的一致性，我们联合训练CNet和PNet，并使用具有注意一致性损失的未标记数据对于标记数据，损失是类别（或帽）本地化损失和注意转移损失的总和对于未标记的数据，我们计算注意力相干性损失Lac，如等式9所示。注意一致性损失促使网络关注更普遍的显著性对象，而不是任务特定区域。如表1的第五行中所示，通过并入未标记的数据和注意一致性损失来改进性能显着性预测网络的效果。在使用类别标签、标题和未标记数据联合训练CNet和PNet之后，我们使用它们生成伪标签来训练SNet。SNet的性能如表1的最后一行所示。4.4. 性能比较我们比较了我们的方法和11个阶段的最先进的方法，包括五个无监督的方法，表1. ECSSD数据集上每个分量在最大F-测量方面的影响。Cls：使用类别本地化损失Lc训练CNet。 Cap：使用字幕本地化训练PNet-损耗Lp. AT：联合训练两个网络，传输损耗Lat. AC：联合训练两个网络，并使用未标记的数据进行正则化。未标记数据上的损失是注意一致性损失Lac。Sal：使用CNet和PNet生成的伪标签训练SNet。CLS 帽在ACSal最大Fβ√√√√√√√√√√√√√√√√0.7200.7300.7620.7860.8200.878ods BSCA [23]，MB+[32]，MST [25]，MR [31]，HS[30]，一个弱监督方法WSS [27]，和五个完全监督方法DRFI[11]，LEGS [26]，MCDL [33]，ESTA [16]，DS [17]。弱监督方法WSS使用ImageNet检测数据集的类别标签进行训练。完全监督的方法DRFI，LEGS，MCDL，EQUIPMENT和DS是用像素级显着性注释训练的。除了DRFI之外，所有比较的监督方法都是基于深度CNN的。我们使用作者提供的显着图或通过运行作者提供的代码获得的显着图进行公平的精确度-召回率曲线（图5）和分数比较（表2）表明，我们的方法优于所有无监督方法，具有很大的优势。如图5和表2所示，我们的方法的性能也优于另一种弱监督方法WSS。图5和表3显示，我们的方法与完全监督的方法相比，实现了相当甚至更好的性能。如图5所示，我们的方法在相同的精度下具有更大的召回率。表3表明，我们的方法优于完全supervised方法DRFI和LEGS。在大多数数据集上，我们的方法也具有比MCDL，ESTA和DS更好的性能。图6中的视觉比较也证明了我们方法的优越性与无监督的方法相比，我们的方法可以检测到语义显著的物体，低对比度的背景，如。狗在第一排，而显著的物体在杂乱的背景中。第三排的鸟与另一种仅使用对象类别训练的弱监督方法WSS相比，我们的方法可以更好地突出第四行和第六行中的水等非对象显著区域。5. 结论和今后的工作我们提出了一个统一的框架来训练具有不同弱监督源的显著性检测模型我们使用类别标签、标题和未标记的数据进行训练。我们设计了一个分类网络（CNet）和一个标题6081HSBSCA先生WSS*DRFI<$腿部<$MCDL†MDF†我们的 *ECSSD PASCAL-S SOD DUT-OMRON图5.查准率-查全率曲线我们的方法优于无监督方法，弱监督方法（标记为）和监督方法（标记为†）。表2.与弱监督（标记为无监督和无监督方法）在最大F-测度（越大越好）和MAE（越小越好）方面的比较。最好的分数用粗体表示。ECSSDPascal-SSODMSRA5KDUT-Omron方法最大FβMae最大FβMae最大FβMae最大FβMae最大FβMaeBSCA0.7580.1820.6630.2230.6560.2520.8290.1320.6130.196MB+0.7360.1930.6730.2280.6580.2550.8220.1330.6210.193MST0.7240.1550.6570.1940.6470.2230.8090.0980.5880.161先生0.7420.1860.6500.2320.6440.2610.8210.1280.6080.194HS0.7260.2270.6440.2640.6470.2830.8150.1620.6130.233公司简介0.8560.1040.7780.1410.7800.1700.8770.0760.6870.118我们的0.8780.0960.7900.1340.7990.1670.8900.0710.7180.114表3.在最大F-测度（越大越好）和MAE（越小越好）方面与完全监督方法进行比较。弱监督方法标记为“0”。MSRA5K数据集不存在，因为大多数监督方法都使用它进行训练。ECSSDPascal-SSODDUT-Omron方法最大FβMae最大FβMae最大FβMae最大FβMaeDRFI0.7850.1640.6970.2070.7010.2240.6510.145腿0.8270.1180.7610.1550.7330.1960.6710.140MCDL0.8370.1010.7430.1450.7300.1810.7030.096MDF0.8310.1050.7680.1460.7860.1590.6930.100DS0.8820.1220.7630.1760.7840.1900.7390.127我们的0.8780.0960.7900.1340.7990.1670.7180.114图像GT我们的 *BSCAHS先生WSS *DRFI † MCDL † 中文（简体）图6.目视比较。弱监督方法和完全监督方法分别用和†生成网络（PNet），其分别从类别标签和标题学习以生成显著性图。设计了一个注意力转移损失来传递网络间的监督信号，使得一个监督源的网络可以从另一个监督源中受益。在未标记的数据上定义注意一致性损失最终显着性前通过用CNet和PNet生成的伪标签训练的显着性预测网络（SNet）来进行判断。实验结果表明，该方法的性能优于无监督和弱监督方法，甚至优于一些监督方法。所提出的框架是灵活的，可以很容易地扩展到集成更多的监督源。未来可能的发展方向包括整合更多的监督源，如边界框监督，涂鸦监督和无监督方法生成的噪声显着图。它还可以扩展到同时利用弱监督源，未标记数据和像素级注释进行半监督学习。确认本工作得到了国家自然科学基金（#61725202，#61829102和#61751212）的资助。6082引用[1] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。IEEE计算机视觉与模式识别会议，2009年。[2] Radhakrishna Achanta ， Appu Shaji ， Kevin Smith ，Aurelien Lucchi，PascalFua和SabineSüsstrunk。切片超级像素。技术报告，2010年。[3] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别上，2018。[4] Shai Avidan和Ariel Shamir。用于内容感知图像调整大小的接缝雕刻。ACM图形学报，第26卷，第10页。ACM，2007年。[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[6] CelineCraye，D a vidFilliat，andJean-Fran c.Goudou. 基于对象的视觉显著性学习的实验探索IEEE机器人与自动化国际会议，2016年。[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[8] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[9] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著对象检测在IEEE计算机视觉和模式识别会议上，2017年。[10] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议上，2017年。[11] Huaizu Jiang ， Jingdong Wang ， Zejian Yuan ， YangWu，Nan- ning Zheng，and Shipeng Li.显著对象检测：判别式区域特征集成方法。IEEE计算机视觉和模式识别会议，2013年。[12] Zhuolin Jiang和Larry S Davis.子模块显著区域检测。在IEEE计算机视觉和模式识别会议上，2013年。[13] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[14] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理神经信息处理系统的进展，2011年。[15] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。IEEE计算机视觉与模式识别会议，2015年。[16] 李冠斌、余益州。基于多尺度深度cnn特征的视觉显著性检测。 IEEE transactions on image processing ， 25（11）：5012[17] Xi Li，Liming Zhao，Lina Wei，Ming-Hsuan Yang，FeiWu，Yueting Zhuang，Haibin Ling，and Jingdong Wang.深度-显著性：用于显著对象检测的多任务深度神经网络模型。 IEEE transactions on image processing ， 25（8）：3919[18] Yin Li，Xiaodi Hou，Christof Koch，James M Rehg，and Alan L Yuille.显着对象分割的秘密。IEEE计算机视觉和模式识别会议，2014年。[19] 刘念和韩俊伟。Dhsnet：用于显着对象检测的深度层次显着网络。在IEEE计算机视觉和模式识别会议上，2016年。[20] Tie Liu ， Zejian Yuan ， Jian Sun ， Jingdong Wang ，Nanning Zheng，Xiaoou Tang，and Heung-Yeung Shum.学习检测显著物体。 IEEE transactions on patternanalysis and machine intelligence，33（2）：353[21] David Martin Charless Fowlkes Doron Tal和Jitendra Malik人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用2001年IEEE计算机视觉国际会议[22] Pedro O Pinheiro和Ronan Collobert使用卷积网络从图像级到像素级标记。IEEE计算机视觉和模式识别会议，2015年。[23] 秦瑶，陆沪川，徐一群，王鹤。基于元胞自动机的显著性检测IEEE计算机视觉与模式识别会议，2015年。[24] Scott Reed 、 Honglak Lee 、 Dragomir Anguelov 、ChristianSzegedy、DumitruErhan和AndrewRabinovich。使用自举在噪声标签上训练深度神经网络arXiv预印本arXiv：1412.6596，2014。[25] Wei-Chih Tu ， Shengfeng He ， Qingxiong Yang ， andSh

下载后可阅读完整内容，剩余1页未读，立即下载