基于轮廓知识传递的显著目标检测

46 浏览量更新于2023-10-13 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于轮廓知识传递的显著目标检测李欣1 *，杨凡1 *，程红1，刘伟1，沈定刚21电子科技大学，成都6117312北卡罗来纳大学教堂山分校放射学和BRIC系North Carolina 27599，美国{xinli uestc，fanyang uestc}@ hotmail.com，hcheng@uestc.edu.cn，dgshen@med.unc.edu抽象。近年来，深度卷积神经网络（CNN）打破了显著对象检测的所有记录。然而，训练这样的深度模型需要大量的手动注释。我们的目标是通过自动将现有的深度轮廓检测模型转换为显著对象检测模型，而无需使用任何手动显著对象掩模来克服这一限制为此，我们创建了一个深度网络架构，即轮廓到显着性网络（C2 S-Net），通过将一个新分支嫁接到训练有素的轮廓检测网络上。因此，我们的C2 S-Net具有用于执行两个不同任务的两个分支：1）用原始轮廓分支预测轮廓，以及2）用新添加的显著性分支估计每个图像的每像素显著性得分为了弥合这两个任务之间的差距，我们进一步提出了轮廓到显著性转移方法来自动生成显著对象掩码，该掩码可用于从轮廓分支的输出训练显著性分支最后，我们引入了一种新的交替训练管道来逐步更新网络参数。在该方案中，轮廓分支生成用于训练显著性分支的显著性掩模，而显著性分支又以显著性感知轮廓标签的形式反馈显著性知识，用于微调轮廓分支。所提出的方法在五个众所周知的基准上实现了最先进的性能，优于现有的完全监督方法，同时还保持了高效率。关键词：显著性检测·深度学习·迁移学习1介绍显著目标检测是定位自然图像中视觉上最显著的目标，对计算机视觉至关重要。它可以用于各种任务，例如人体姿势估计[5]，语义分割[11]，图像/视频字幕[25]和密集语义对应[34]。* 两位作者都对这项工作做出了同样的贡献。代码和预训练模型可在https://github.com/lixin666/C2SNet上获得。2X. Li，F.Yang，H.郑，W.Liu，L.盛输入DSSUCF护身符我们的GTFig. 1.由当前最佳深度显著性模型（DSS [8]，[38]和Amulet [37]）。与这些完全监督的方法不同，我们的方法不需要用于训练深度CNN的groundtruth显着对象掩码。在过去的几十年中，显著对象检测的技术有了显着的发展。传统方法[3，4，20]仅使用低级特征和线索来识别图像中的显著区域，导致其无法总结高级语义知识。因此，这些方法不适合处理具有复杂场景的图像最近，基于深度卷积神经网络（CNN）的全监督方法[8，9，21，24]极大地提高了显著对象检测的性能这些方法的成功不幸的是，在显著对象检测中，注释以逐像素掩模的形式提供。注释大规模训练数据集需要巨大的成本和精力。为了消除耗时的图像注释的需要，我们建议通过从现有的轮廓检测模型中借用知识来促进显著对象检测中的特征学习。虽然显著目标检测和轮廓提取看起来本质上不同，但它们实际上是相互关联的。一方面，轮廓提供用于识别图像中的显著区域的有用先验或线索。例如，显著区域通常被包围通过轮廓。另一方面，显著性知识有助于去除背景杂波，从而改善轮廓检测结果。因此，它是合理的在这两个相关领域之间转移知识[16我们的目标是将训练的轮廓检测模型（CEDN）[35]转换为显着性检测模型，而无需使用任何手动标记的显着对象掩码。为此，我们首先在现有的CEDN上嫁接一个新的分支，形成一个多任务网络架构，即：轮廓显着性网络（C2 S-Net）。然后，我们采用训练有素的轮廓分支生成轮廓图的所有图像，并使用一种新的轮廓显着性转移方法，以产生相应的显着性掩模。新添加的分支在这些自动生成的显著性掩模的强有力的监督下进行训练。之后，训练后的分支依次传递学习到的显著性知识，基于轮廓知识传递的显著目标检测3以显著性感知的轮廓标签的形式被分配到轮廓分支。以这种方式，原始轮廓分支学习仅检测最引人注目的对象的轮廓。原始分支和新添加的分支之间的交互被迭代以增加准确性。虽然生成的显著性对象掩模和显著性感知轮廓标签在开始时可能包含更重要的是，经过良好训练的CEDN通过两个分支之间的交替训练过程（即，轮廓到显著性过程和显著性到轮廓过程），成为一个强大的显著性检测模型，其中一个分支专注于显著对象轮廓检测，另一个分支预测每个像素的显著性得分。尽管不使用手动注释的显著对象标签进行训练，但我们提出的方法能够为每个输入生成可靠的显著性图（见图1B）。①的人。实验表明，我们提出的方法比现有的全监督深度模型具有更高的准确性。此外，它只需要0。03秒来执行每个图像，这比大多数现有方法快得多综上所述，本文做出以下三大贡献：– 我们提出了一个新的想法和解决方案，通过自动转换一个训练有素的轮廓检测模型到显着性检测模型的显着性对象检测，而不需要任何groudtruth显着对象标签。– 本文在训练好的轮廓检测网络的基础上，提出了一种新的轮廓-显著性网络（C2 S-Net）。在该架构中，原始轮廓分支和新添加的显著性分支使用相同的特征编码器。我们还引入了跨域连接，使显着性分支在学习过程中充分编码轮廓知识– 我们引入了一个简单而有效的轮廓显着性转移方法，以弥合轮廓和显着对象区域之间的差距。因此，由良好训练的轮廓分支生成的结果可以用于生成用于训练显著性分支的可靠显著性掩模此外，我们提出了一种新的交替训练管道来更新我们的C2 S-Net的网络参数。2相关工作显著对象检测在过去二十年中发展迅速。早期的方法[3，4，20]依赖于低级特征和线索，如强度，颜色和纹理。虽然这些方法可以在大多数简单的情况下产生准确的显著图，但由于缺乏语义知识，它们无法处理复杂的图像。近年来，全监督CNN在显著对象检测任务中表现出高度准确的性能。这些方法可分为两组：基于区域的方法和逐像素显著性预测方法。基于区域的方法以区域方式预测显着性得分4X. Li，F.Yang，H.郑，W.Liu，L.盛Zhao等人。 [39]将全局和局部上下文集成到多上下文CNN框架中，用于显着性检测。在[13]中，提出了一种多层全连接网络，用于估计每个超像素的显着性得分Wang等人。 [28]提出了局部估计和全局搜索的集成，用于分块显着性得分估计。所有这些方法都将图像块作为独立的单元，因此它们可能会导致空间信息丢失和冗余计算。为了克服这些缺点，逐像素显著性预测方法通过使用经训练的深度全卷积网络（FCN）将输入图像直接映射到对应的显著性图。Li等人。 [19]提出使用多任务全卷积神经网络进行显著对象检测。Wang等人。 [30]提出了一种递归FCN来编码显着性先验知识，用于显着对象检测。在[8]中，Hou et al. 在整体嵌套边缘检测器（HED）网络架构中引入短连接[31]，以便解决显著对象检测中的尺度空间问题。Li等人 [21]描述了一种多尺度级联网络，它可以对多尺度上下文信息进行编码，从而产生更好的结果。一般来说，这些基于全监督CNN的方法即使在处理复杂场景时也可以实现良好的性能然而，训练深度CNN模型需要大量的像素级注释，这些注释必须以耗时且昂贵的方式手动创建。在不使用显著性掩模进行训练的同时检测显著性对象的值得注意的先前尝试是弱监督显著性（WSS）[29]和通过融合的超视（SBF）[37]方法。WSS利用图像级标签来生成逐像素注释，以用于训练深度显著性模型。SBF通过从弱显著性模型的融合过程自动生成可靠的监督信号来训练期望的深度显著性模型。然而，由于缺乏详细的对象形状信息，这些方法执行与完全监督的方法相比，在具有挑战性的情况下要差得多。与文献[29，37]中提出的方法相比，该方法具有更高的精度.这是因为我们的解决方案消除了在训练中对图像级标签的需要，因此可以通过使用来自任何类别（不限于预定义类别）的大量训练图像来提高准确性。此外，轮廓知识成功地转移到显著区域检测。这使得深度CNN网络能够学习详细的对象形状信息并提高整体性能。据我们所知，转移轮廓知识的显着对象检测的想法还没有被调查过。3方法3.1概述本文解决的问题，借用轮廓知识的显著对象检测，而不需要标记的数据。给定一个现有的轮廓检测网络（CEDN）[35]，我们的目标是将这个已经训练好的模型基于轮廓知识传递的显著目标检测5图像轮廓至显著性程序轮廓显着性程序数据集2图二.建议的交替培训管道。我们的训练算法由两个过程组成：（a）轮廓到显著性过程和（b）显著性到轮廓过程。在轮廓到显著性过程中，我们使用生成的显著性掩模来训练新添加的显著性分支。在显著性到轮廓过程中，所生成的显著性感知轮廓用于微调原始轮廓分支。转换为精确的深度显著性检测模型，而不使用任何手动标记的显著性掩模。首先，我们提出了一种新的轮廓显着性网络嫁接到现有的CEDN的在该架构中，原始轮廓分支和新添加的显著性分支共享相同的特征提取器（或编码器）。使用CEDN初始化特征提取器和轮廓分支，并且随机初始化显著性分支。因此，我们的C2 S-Net有能力自然地检测参数初始化后的输入图像的轮廓。然后，我们通过一种新的交替训练管道在两个不同的未标记图像集上训练显著性分支并更新轮廓分支训练算法由两个过程组成：1）轮廓到显著性程序和2）显著性到轮廓程序。在轮廓到显著性过程中，轮廓分支首先用于检测每个图像中的轮廓。接下来，利用一种新的轮廓到显著性转移方法来生成基于检测到的轮廓的显著对象掩模。这些生成的掩码用于模拟对显著性分支的强监督在显著性到轮廓的过程中，我们采用相反的过程来更新轮廓分支的参数。交替上述两个过程使得显著性分支能够逐步导出用于显著对象检测的语义上强的特征，并且轮廓分支学习仅识别显著区域的轮廓。图2示出了交替训练流水线的主要步骤。在以下部分中，我们将详细描述C2 S-Net、轮廓到显著性转移方法以及我们的交替训练管道。3.2轮廓-显著性网络架构图3示出了我们的轮廓到显著性网络（C2 S-Net）的详细配置。我们的C2 S-Net植根于完全卷积VGG-16轮廓检测分支轮廓SS分支epoc epoc #1#2#3迭代EPOCEPOCepoc#3 #2 #1显著性损失检测显著性分支分支VGG-16数据集1显着性图图像轮廓面具Lo显著性掩模等高线图更新更新6X. Li，F.Yang，H.郑，W.Liu，L.盛轮廓分支（f续）VGG-162× 5×52× 5×52× 5×52× 5×52× 5×5等高线图（fenc）UCUCUCUCUCh×w×1卷积级联解池2×U5×5C5×5C_C 2×U5×5C_C 5×5C2×U5×5C_C 5×5C5×5C2×U_C 5×5C显著支显著图h×w×1图三.双分支C2 S-Net植根于CEDN [35]，用于显著对象检测。利用跨域连接（虚线），显著性分支自然能够合并显著性和轮廓知识两者。编码器-解码器网络（CEDN）[35]最初设计用于轮廓检测。我们通过将用于显著性检测的新解码器嫁接到原始编码器上来更新网络。通过这样做，我们的C2 S-Net由三个主要组件组成：编码器（fenc）、轮廓解码器（fcont）和显著性解码器（fsal）。在我们的网络中，编码器从输入图像中提取高级特征表示，轮廓解码器识别显著区域的轮廓，显著性解码器估计每个像素的显著性得分。编码器。编码器将图像Ii作为其输入，并且输出特征图Fi。在CEDN之后，我们采用VGG-16 [27]用于特征提取器部分（编码器fenc），其中最后两层被移除。轮廓解码器。轮廓解码器建立在特征提取器上，并且其获取特征图Fi，并且产生显著性感知轮廓图C（Fi，θc），其中θc表示轮廓分支的模型参数通过最小化以下目标函数，轮廓解码器的训练可以被视为对地面实况轮廓标签Σminθcecont（Lcont（Ii），C（Fi;θc）），（1）我其中Lcont（Ii）表示第i个示例的地面实况轮廓标签，并且econt（Lcont（Ii），C（Fi;θc））是每像素损失函数。显著性解码器。显著性解码器fsal与轮廓解码器fenc共享相同的编码器fenc。同样，它以特征图 Fi为输入，生成单通道显著图S（ Fi，θs），其中θs是显著解码器的模型参数由于显著性对象检测比轮廓检测更困难，因此我们在每个显著性解码器组中添加另一个卷积层显著性分支的目标是最小化地面实况与估计的显著性图之间的每像素形式上，目标函数可以写为：minθsΣesal（Lsal（Ii），S（Fi;θs）），（2）我C_CU输入图像h×w×35×5C_C5×5C损失2×U损失基于轮廓知识传递的显著目标检测7SISISISISI其中Lsal（Ii）是第i个图像的真实显著对象掩模，并且Esal（Lsal（Ii），C（Fi;θs））是S（Fi;θs））相对于Lsal（Ii）的每像素损失跨域连接。为了充分利用轮廓信息，我们引入跨域连接到我们的C2S-Net，使显着性分支编码轮廓知识。具体地，在显著性解码器阶段中，第二卷积层的特征学习对来自轮廓分支的学习特征f_cont和其先前层的卷积特征f_sal因此，显著性分支中第i级上的第二卷积特征图f~sal形式上为写为：f~sal=σ（cat（fcont，fsal）wsal+bsal），（3）ss s sssss s ss s在哪里销售和B销售是第i个解码器的卷积滤波器和偏置阶段中的显着性分支。表示卷积运算，cat（·）用于连接不同任务的两个学习特征图RELU用作非线性函数σ（·）。我们的C2 S-Net使用像素级显著性感知轮廓标签Lcont和显著性掩模Lsal作为监督。与完全监督的方法不同，在本文中，这些标签是自动生成的，而不是手动注释的。这是通过一种新的传输方法来实现的，该方法将在下面的部分中介绍。3.3轮廓-显著性转换由于我们的C2 S-Net植根于经过良好训练的轮廓检测网络[35]，因此其轮廓分支能够在参数初始化后识别轮廓。检测到的轮廓提供了重要的线索，显著对象检测。如许多先前的作品[6，7]所观察到的，显著对象通常被轮廓或边缘很好地包围。因此，我们可以利用这一重要线索来弥合物体轮廓和显著物体区域之间的差距。通过在大量未标记图像中检测到轮廓图，我们的目标是利用它们来生成相应的显著对象掩模，以便以模拟对显著性分支训练的强人类监督。首先，我们采用多尺度组合分组（MCG）[1]从每个图像中检测到的轮廓中生成一些建议候选掩模然后，与[2]不同，我们设计了一个目标函数，以便从C中仅选出极少数最有可能覆盖整个显著区域的掩模B，以形成每个图像的显著对象掩模Lsal形式上，我们的目标函数定义为：max{S（B）−α·O（B）−κ·N（B）}BS.T.B C（四）其中S（·）是鼓励选择具有较高显著性分数的区域提议的数据项O（·）表示惩罚所选区域提议之间的相交的重叠项N（·）是惩罚所选区域掩模的数量的数字项α和κ是重叠项的权重，并且8X. Li，F.Yang，H.郑，W.Liu，L.盛图像迭代1迭代2迭代 3（一）图像迭代1迭代2迭代3（b）第（1）款图4.第一章更新轮廓标签和显著性掩模。在这里，我们示出了在Iter#1、Iter#2和Iter#3中生成的（a）显著性掩模和（b）轮廓标签。这些更新的标签和掩码将用作下一次迭代的监督。数项，分别。通过最大化上面的目标函数，我们可以确定少量的区域建议，其并集用作用于训练的显著对象掩码Lsal更具体地，二进制变量ci用于指示从所有候选掩码C中选择建议bi。如果选择了bi，则设置ci= 1，否则ci= 0。因此，我们将等式4重写如下：Σmax{Sici−α·ΣK（bi，bj）cicj−κ·Σci}biCbi，bj∈Ci/=jbiC（五）S.T.ci，cj= 0或 1这里，K（bi，bj）是两个不同区域掩码bi和bj之间的交集对并集（IoU）得分。S1表示反映区域掩模bi 为显著区域掩模的可能性的分数。根据[6，7]，被轮廓更好地包围的区域更可能是显著区域。此外，在前一阶段中获得的显著性图提供了有用的先验知识。因此，我们也使用它来估计一个给定的区域掩模的显着性得分。形式上，每个区域提议的显著性分数可以被正式地写为：Si=K（cnt（bi），Cer）+γ·K（bi，Ser）（6）其中，CNT（bi）表示从给定区域掩模bi提取轮廓图的函数。这简单地通过计算二进制区域掩码bi上的梯度来实现。Cer和Ser分别表示在第r个训练时期之后检测到的轮廓和显著性图由于显着分支的参数是随机初始化的，并且我们的网络不能在一开始就生成显着图，因此我们在第一个时期设置组合权重γ= 0，在接下来的时期设置γ= 1优化. 求解Eq。5是一个NP难问题。这里我们采用[36]中描述的贪婪算法来有效地解决这个问题3.4交替训练我们的C2 S-Net有三个重要的组成部分：编码器fenc，轮廓解码器fcont和新增加的显著性解码器fsal。我们初始化两者的参数基于轮廓知识传递的显著目标检测9C（F，θ）≥0。1fenc和fcont通过现有的良好训练的轮廓检测模型（CEDN）[35]的参数值，并且从正态分布随机地初始化fsal为了避免局部最优问题，我们使用两组不同的未标记图像（M和N）来交互式地训练显著性分支和轮廓分支。在训练过程中，通过反向传播和随机梯度下降（SGD）优化网络参数。我们迭代地执行轮廓到显着性过程和显着性到轮廓过程，固定一组网络参数，同时求解另一组。具体地，在轮廓到显著性过程中，通过固定编码器参数θe和轮廓解码器参数θc，我们通过在第一时间步中使用初始化的C2 S-Net（以及在每个随后的时间步中使用更新的C2 S-Net）来生成未标记集合M之后，我们使用所提出的轮廓到显著性转移方法来产生显著对象掩模Lsal作为用于更新显著性解码器参数θs的训练样本。在该过程中，我们还通过 C（Fi，θc）≥0来测量每个生成的轮廓图的置信度得分。9，并选择我们的地图，其中所选的c或e是一个很大的，Ic定义的阈值（= 0. 15）以便过滤掉不可靠的等值线图。在显著性到轮廓的过程中，我们固定网络参数θe和θs，并使用学习的C2 S-Net生成轮廓图和显著性图。然后利用这些生成的结果来使用等式（1）在未标记的集合N上产生显著对象掩模。5.我们在等式中采用cnt（·）。6以生成显著性感知的轮廓标签Lc，并使用这些生成的标签来更新轮廓解码器参数θc。对于每一轮迭代，我们更新网络参数，以提高下一轮估计标签的质量。我们的交替训练管道成功地利用了两个相关领域的互补优势一方面，轮廓分支能够学习显著性知识，因此它可以更多地关注那些吸引注意力的对象的轮廓更重要的是，由显著性分支生成的训练样本不限于少量的预定义类别。因此，轮廓分支可以从大的图像集合学习显著性属性，以确定“未观察到”对象的轮廓。在另一个方面，该算法分支学习详细的对象形状信息，以便它可以产生具有清晰边界的显著图。如图4、显著目标模板和轮廓图的估计越来越可靠，为网络训练提供了有用的信息。4实验4.1实验装置数据集。训练集包含来自MSRA10K的10K图像（忽略标签），以及从Web收集的另外20K未标记图像作为附加训练数据。这些图像包含一个或多个对象和杂乱的背景，并且不与任何测试图像重叠我们将训练集随机分为两个子集M和N，分别训练轮廓分支和轮廓分支。10X. Li，F.Yang，H.郑，W.Liu，L.盛Maxββ2精确度+召回率β =（1+β）ββ我们的C2 S-Net的显着性分支。此外，我们通过水平翻转来增加每个对于性能评估，我们利用五个最具挑战性的基准测试，包括ECSSD[32]，PASCAL-S [22]，DUT-OMRON [33]，HKU-IS [14]和DUTS-TE [29].实施. 我们的C2 S-Net是基于CEDN [35]的公共代码实现的，CEDN[35]是基于Caffe工具箱[10]。编码器和轮廓解码器的网络参数由CEDN模型初始化显著性解码器的参数被随机初始化我们设置α =0。5且κ = 0。25在Eq. 4.第一章在训练期间，我们采用“多”级学习策略，学习率自动按（1-iter）p缩放。我们设定初始学习率ITER到10 - 6，p 到0。 9.迭代的最大次数基于训练数据的数量来设置（maxiter=N× 3，其中N表示训练数据的数量）。最小批处理大小设置为5。在每一轮训练中，我们通过微调上一轮训练的模型来更新网络参数。此外，如在Sec. 3.4，在每一轮训练中，我们首先求解一个分支的参数，同时固定另一个分支的参数，然后执行相反的过程。在测试过程中，输入RGB图像通过我们的C2 S-Net转发，以生成与输出大小相同的显着图。与其他方法不同，我们不需要采用任何预处理或后处理步骤，例如，DenseCRF，用于进一步改善检测结果。评估指标。我们使用四个评估指标来评估我们的方法的性能：精确-召回曲线（PR）、F-测量（Fβ）、加权F-测量（Fw）和平均绝对误差（MAE）。计算F-测度关于Fβ=（1 + β2）P精确度×召回率，其中β2设置为0。3强调精确锡永我们还采用加权F-测度[26]来评估我们的方法，定义为Fw2精确度w×召回率wβ2精度w+召回率w . 抵押协会是定义为地面实况与地面实况掩模和估计的显著性图。所有这些普遍同意的评价met-rics已被广泛采用的以前的作品。4.2消融分析在本节中，我们通过比较加权F-测量（Fw）和MAE对ECSSD数据集进行消融研究，以验证框架中每个组件的影响。结果详情总结见表1。跨域连接的影响。我们评估的性能差异，建议C2 S-Net与不跨域连接（CDC）。为了公平比较，我们使用相同的训练图像训练两个模型（即，从MSRA10K中随机选择的5K图像（具有逐像素地面实况），以及在第2.1.1节中描述的相同训练参数。4.1. 经验-实验结果表明，我们的C2 S-Net与CDC可以提高Fw了2. 4%和MAE评分显著降低21分。百分之三。与仅共享基于轮廓知识传递的显著目标检测11βT a ble1. 主要是这种方法。我们的结果是由ECSSD. “C DC”表示在我们的C 2S- N et中使用的跨域连接。“A V G - P”表示两种存储类型，“W T A”表示“所有存储类型”，而“C T S”则表示在本文档中使用的内容。使用训练迭代来更新网络参数。“† ” 加权F-测度（Fw）：越高越好;越低越好。方法数据/注释FWβMaeC2S-Net5K，带面罩0.793 0.103C2S-Net + CDC5K，带面罩0.812 0.081C2S-Net + CDC + AVG-P5 K w/o面罩0.665 0.121C2S-Net + CDC + WTA5 K w/o面罩0.732 0.112C2S-Net + CDC + CTS5 K w/o面罩0.743 0.093C2S-Net + CDC + CTS + SCJ10 K w/o面罩0.759 0.088C2S-Net + CDC + CTS + AT（1）10 K w/o面罩0.778 0.080C2S-Net + CDC + CTS + AT（3）10 K w/o面罩0.837 0.059C2S-Net + CDC + CTS + AT（5）10 K w/o面罩0.838 0.059C2S-Net + CDC + CTS + AT（3）20 K w/o面罩0.849 0.056†C2S-Net+ CDC+ CTS+ AT（3） 30 K w/o面罩0.852 0.054相同的编码器，我们的CDC使所提出的模型，以更好地探索显着性检测和轮廓检测之间的内在相关性，并在一个更好的性能结果。轮廓到显著性转移的有效性。基于所生成的提议可识别掩模C（大约500个提议）来自动生成每个图像的可靠显著对象掩模是一项具有挑战性的任务。在这里，我们采用三种不同的方法来生成显着性掩码来训练我们的模型。一种方法是两种不同的视觉效果转换策略，这种转换策略是“全白”视觉效果转换策略，第三种方法是我们的轮廓-显著性转换策略。这些方法分别被称为AVG-P、WTA和CTS。具体来说，对于AVG-P，我们首先简单地取所有建议的平均值（从检测到的轮廓生成），以形成每个图像的显着性图，然后使用SalCut [3]来生成其显着对象掩码。至于WTA，所有生成的提案都将根据Eq.6，并且仅挑选出具有最高分数的提议以用作每个图像的显著对象掩模至于我们的CTS，我们使用第2节中描述的3.3为所有图像产生显著对象掩模我们还使用来自MSRA10K的相同的5K图像作为训练集，但我们忽略了所有手动蒙版。表1的第三行、第四行和第五行分别显示了使用AVG-P、WTA和CTS生成用于训练我们的C2 S-Net的显著性掩模的相应结果显然，建议的CTS使我们的C2 S-Net实现更好的性能比其他策略。交替训练的影响。为了验证我们的交替训练（AT）方法的有效性，我们使用另外5K未标记的图像，MSRA10K的剩余图像，作为轮廓分支的训练集实验结果表明，我们的交替训练方法（AT）可以大大提高我们的C2 S-Net的性能。在第一次迭代之后，我们的模型实现了com-12X. Li，F.Yang，H.郑，W.Liu，L.盛βββ10.90.80.70.60.50.40.30.20.10MCMDFDS ELDDHSDCLDSSUCF护身符WSSSBF我们00.10.2 0.3 0.4 0.5 0.6 0.7 0.81召回10.90.80.70.60.50.40.30.20.10MCMDFDS ELDDHSDCLDSSUCF护身符WSSSBF我们00.10.2 0.3 0.4 0.5 0.6 0.7 0.81召回0.90.80.70.60.50.40.30.20.10MCMDFDS ELDDCLDSSUCF护身符WSSSBF我们00.10.2 0.3 0.4 0.5 0.6 0.7 0.81召回10.90.80.70.60.50.40.30.20.10MCMDFDS ELDDHSDCLDSSUCF护身符WSSSBF我们00.10.2 0.3 0.4 0.5 0.6 0.7 0.81召回10.90.80.70.60.50.40.30.20.10MDFDSELDDHSDCLDSSUCF护身符WSSSBF我们00.10.2 0.3 0.4 0.5 0.6 0.7 0.81召回10.80.60.40.20.80.60.40.20.80.60.40.210.80.60.40.20.80.60.40.20 0 0 0 0(a) ECSSD(b) Pascal-S(c) DUT(d) HKU-IS(e) DUTS-TE图五、从上到下，分别示出了我们的方法和其他最先进的方法的精确度-召回率（PR）曲线和加权F-度量作为完全监督方法的 petitive 性能（ Fw= 0. 778 ，并且 MAE = 0 。080）。我们的C2 S-Net具有三个AT迭代，根据Fw（0. 837）和MAE评分（0. 059）。我们观察到，我们的模型的性能与五个AT迭代（Fw=0。838，并且MAE = 0。059）仅略优于三次AT迭代的模型。这是因为所估计的显著性掩模和轮廓图已经变得足够可靠。考虑到算法和模型的性能，我们认为三次AT迭代应该是一个很好的选择。此外，为了显示我们的交替训练方案的优越性，我们使用相同的10K图像和估计的标签（包括显着性和轮廓标签）来训练我们的C2 S-Net。一个损失是轮廓分支和另一个损失是显著性分支。我们联合优化两个分支的参数，并在表中将此训练策略表示为SCJ。1.实验表明，在相同的训练数据量下，交替训练策略可以获得更好的性能。数据大小的影响。根据我们报告的结果（表1），ECSSD上的模型性能随着训练数据的扩展而提高。这指示数据大小对于并行模块的性能是一个很大的影响因素。将更多的训练样本添加到深度CNN模型可以导致更好的性能。4.3与其他方法的比较我们将所提出的方法与九个排名靠前的全深度监督显着性检测模型进行了比较，包括MC [39]，MDF [13]，DS [19]，ELD [12]，DHS [23]，DCL [15]，DSS [8]，UCF [38]和Amulet [37]，一个弱监督深度显着性模型WSS [29]和一个无监督深度显着性模型SBF [37]。在所有实验中，我们使用原作者提供的模型。定量比较。为了获得与现有弱监督和无监督深度模型的公平比较，我们首先使用相同的训练精度加权F-测度加权F-测度MCMDFDSELDDHSDCLDSSUCFAmuletWSSSBF我们精度MCMDFDSELDDHSDCLDSSUCFAmuletWSSSBF我们精度加权F-测度加权F-测度MCMDFDSELDDCLDSSUCFAmuletWSSSBF我们精度MCMDFDSELDDHSDCLDSSUCFAmuletWSSSBF我们精度加权F-测度MDFDSELDDHSDCLDSSUCFAmuletWSSSBF我们基于轮廓知识传递的显著目标检测13β表2.在五个广泛使用的基准上与10种领先的基于CNN的方法进行定量比较。前三个结果分别以红色、蓝色和绿色显示。Fβ：越高越好;越低越好。方法ECSSDPascal-SDUTHKU-ISDUTS-TEFβMaeFβMaeFβMaeFβMaeFβMaeSBF [37]0.852 0.880 0.765 0.130 0.685 0.108 0.842 0.075 0.698 0.107WSS [29]0.856 0.103 0.770 0.139 0.689 0.110 0.860 0.079 0.737 0.100我们的（10K）0.896 0.059 0.835 0.086 0.733 0.079 0.883 0.051 0.790 0.066MC [39]0.822 0.107 0.721 0.147 0.703 0.088 0.781 0.098--第十四章0.832 0.105 0.759 0.142 0.694 0.092 0.860 0.129 0.768 0.099DS [19]0.882 0.122 0.757 0.172 0.716 0.120 0.866 0.079 0.776 0.090ELD [12]0.869 0.098 0.777 0.121 0.720 0.091 0.767 0.071 0.758 0.097国土安全部[23]0.902 0.061 0.820 0.092--0.892 0.052 0.812 0.065DCL [15]0.887 0.072 0.798 0.109 0.718 0.094 0.879 0.059 0.771 0.079国防部[8]0.903 0.062 0.821 0.101 0.761 0.074 0.899 0.051 0.813 0.064UCF [38]0.910 0.078 0.819 0.127 0.735 0.132 0.885 0.074 0.771 0.117护身符[37] 0.915 0.059 0.828 0.100 0.743 0.098 0.895 0.052 0.778 0.085我们的（30K）0.910 0.054 0.846 0.081 0.757 0.071 0.896 0.048 0.807 0.062设置为SBF [37]（MSRA10K无掩模），并使用相同模型对所有评估数据集进行测试。如Tab.所示。2，我们的模型（具有10K训练图像）始终优于现有的弱监督和无监督深度显着性模型，并且具有很大的优势，并且与排名第一的全监督深度模型相比我们的方法的一个优点是它可以使用大量的未标记数据进行训练，而现有的完全监督方法受到标记数据量的限制。在这里，我们使用从Web上收集的额外的20K未标记图像（总共30K）来训练我们的模型，并将其与所有排名靠前的完全深度监督模型进行比较。如Tab.所示。如图2和图5所示，我们的方法可以在所有数据集的几乎所有评估指标中大大优于其他领先方法。具体而言，在ECSSD，PASCAL-S，DUT-OMRON，HKU-IS和DUTS-TE上，我们的方法将最低MAE分数降低了8。5%，11. 9%，4。1%，5. 9%和3。1%，分别。这表明我们的在F-测量和PR曲线方面，我们的方法在所有数据集上始终排名前三（见表1）。2和图（五）。此外，如图5，将现有的最佳加权F-测度（Fw）改进了1. 2%、4. 4%、2. 7%、0. 1%和0。ECSSD、PASCAL-S上2%DUT-OMRON、HKU-IS和DUTS-TE。一般来说，实验结果令人信服地证明了我们的方法的有效性还应该注意的是，我们的方法不需要手动显着对象标签来训练网络，而其他排名靠前的深度模型则使用像素级注释进行训练。由于我们的方法可以从无限数量的未标记图像中受益，因此它具有进一步提高性能的全部潜力。14X. Li，F.Yang，H.郑，W.Liu，L.盛输入DHS DCL DSS UCF Amulet WSS SBF OursGT见图6。我们的方法和国家的最先进的方法的定性比较。地面实况（GT）在最后一列中示出。表3.运行时间的比较。方法MC MDF DS ELD DHS DCL DSS UCF 护身符 WSS SBF 我们次数（s）2.38 8.04 0.73 0.59 0.06 1.17 0.05 0.110.060.02 0.03 0.03定性比较。图6提供了我们的方法与其他方法之间的定性比较。可以看出，我们的方法可以在不同的挑战性情况下，一致和准确地突出显着的对象由于轮廓知识已经被我们的C2 S-Net编码，我们的模型总是可以更好地保持对象的轮廓比其他方法。速度性能。最后，我们展示了我们的方法和其他方法的速度性能。3.第三章。该评估使用具有11G RAM的NVIDIA GTX 1080ti GPU进行我们的方法只需要0.03秒就可以为400× 300的输入图像生成5结论在本文中，我们提出了一种新的方法，借用轮廓知识的显著对象检测。我们首先通过将一个新的分支嫁接到一个经过良好训练的对象轮廓检测网络上来构建一个C2 S-Net。为了弥补轮廓和显著对象区域之间的差距，我们提出了一种新的传输方法，可以自动生成一个显着掩模的轮廓图的每幅图像。这些生成的掩码然后用于训练C2 S-Net的显著性分支。最后，我们使用一种新的交替训练管道，以进一步提高我们的C2 S-Net的性能。在五个数据集上的大量实验表明，我们的方法超越了目前的顶级显着性检测方法。致谢。本研究得到了国家重点研发计划（2017 YFB 1302300）、国家自然科学基金（U1613223）和西华大学综合健康管理中心开放研究课题（JKGL 2018 -029）的部分资助。基于轮廓知识传递的显著目标检测15引用1. Arbelez，P.，Pont-Tuset，J.，Barron，J.，Marques，F.，Malik，J.：多尺度组合以提高增长率。In：CVP R.pp. 3282. Bertasius，G.，施，J.，Torresani，L.：边界神经场语义分割IEEE计算机视觉与模式识别会议（CVPR）（2016年6月）3. 郑女士美国新泽西州米特拉市黄，X.，托，pH值，Hu S.M.：基于全局对比度的搜索区域。TPAMI37（3），5694. 郑女士Warrell，J. Lin，W.Y.，Zheng，S.，中国科学院，Vineet，V.，克鲁克，N.：利用灵活的数据库实现高效的存储区域设计。 In：ICCV. pp. 第15295. Chu，X.，杨伟，欧阳，W.马，C.，尤伊尔，A.L.，Wang，X.：人体姿态估计的多上下文注意。在：CVPR（2017年7月）6. 邓小平， Luo ， Y. ：用于检测显著对象的基于边缘的方法。OpticalEngineering50（5），3017. Du，S.，Chen，S.：通过随机森林的显著对象检测。IEEE SPL 21（1），518. Hou，Q.，郑女士Hu，X.，Borji，A.，Tu，Z.，Torr，P.H.S.：具有短连接的深度在：CVPR（2017年7月）9. Hu，P.，帅湾刘杰，王G：用于

下载后可阅读完整内容，剩余1页未读，立即下载