基于图形优化的无监督共显著性检测方法的研究

64 浏览量更新于2023-10-13 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于图形优化的许光瑞1，2，蔡崇基1，3，林燕宇1，钱晓宁3，庄永宇1，21台湾中央研究院资讯科技创新研究中心kjhsu@citi.sinica.edu.tw，yylin@citi.sinica.edu.tw2国立台湾大学计算机科学与信息工程系，台湾cyy@csie.ntu.edu.tw3电气计算机工程，美国德克萨斯A M大学xqian@ece.tamu.edu chungchi@ece.tamu.edu抽象。在本文中，我们通过无监督卷积神经网络（CNN）解决了一组图像中的共同显着性检测，这些图像共同覆盖特定类别的对象。我们的方法不需要任何额外的训练数据的形式的对象掩模。我们将共显性检测分解为两个子任务，单图像显着性检测和跨图像共现区域发现，对应于两种新的无监督损失，单图像显着性（SIS）损失和共现（COOC）损失。这两个损失建模的图形模型，前者和后者作为一元和成对的条款，分别。这两个任务可以被联合优化以生成高质量的共显著图。此外，可以经由两个扩展来增强所生成的共显著性图的质量：通过自定步学习的地图锐化和通过完全连接的条件随机场的边界保持。实验表明，我们的方法取得了优异的结果，甚至优于许多监督方法。关键词：共显着性检测，无监督学习，卷积神经网络，深度学习，图形模型。1介绍共显著性检测是指搜索在多个给定图像中重复出现的视觉显著对象。由于其优越的可扩展性，共显性已经被应用于帮助关于图像内容理解的各种应用，诸如图像/视频共分割[1，2，3]、对象共定位[4]、内容感知压缩[5]等。共显性检测的成功依赖于对跨图像的外观变化的共显性对象的鲁棒特征表示工程特征，如颜色直方图、Gabor滤波纹理特征和SIFT [6]广泛用于传统的共显着性方法[7，8，9，10]。深度学习（DL）最近出现并在许多计算机视觉应用中展示了成功。基于DL的特征已经被采用用于共显性检测，诸如2Hsu等人(a)（b）第（1）款Fig. 1. 我们方法的动机。(a)我们的方法优化了在图上定义的目标函数，其中联合考虑单图像显著性（SIS）检测（红色边缘）和跨图像共现（COOC）发现（蓝色边缘）。(b)第一行显示用于共显著性检测的图像。以下三行分别示出了通过使用C00C、SIS以及它们两者检测到的显著性图如从预训练的卷积神经网络（CNN）[11]或从具有受限玻尔兹曼机（RBM）的无监督语义特征学习[12]中提取的那些。然而，在这些方法中，特征提取和共显著性检测被视为单独的步骤[7，8，9，10，11，12]，导致亚最佳性能。相比之下，通过度量学习[13]或DL [14]的监督方法能够集成特征学习和共显性检测。然而，它们需要以对象掩模的形式的额外训练数据，其中的对象掩模由具有密集用户交互的工具手动绘制或描绘。这种沉重的注释成本使得这些方法不太实用，如在其他应用中所指出的，例如语义分割[15]和显着性检测[16]。此外，它们的学习模型可能在测试中对于看不见的对象类别表现不佳，因为模型本身不适应看不见的类别。在这项工作中，我们通过提出一种基于非监督CNN的方法来解决上述问题，该方法用于给定图像的联合自适应特征学习和共显性检测，从而在性能和注释要求之间做出了很好的妥协。该方法将共显著性检测分解为两个互补的部分：单图像显著性检测和跨图像共现区域发现。前者在单个图像中检测显著性对象，其可能不会在图像中重复出现。后者发现跨图像重复出现的区域，其可能在视觉上不显著。为此，我们设计了两种新的损失，单图像显着性（SIS）损失和同现（COOC）损失，以捕获两个不同但互补的信息源。这两个损失分别通过参考每个图像对的单独图像和同现区域来测量显著性图的质量。它们进一步集成在图形模型上，其一元项和成对项分别对应于建议的SIS和COOC损失，如图所示第1（a）段。通过UCCDGO3优化提出的损失，我们的方法可以通过整合SIS和COOC线索来生成高质量的共显着图，如图所示。第1段（b）分段。据我们所知，我们的方法代表了第一个用于共显着性检测的无监督CNN模型。与无监督方法（包括使用工程特征的方法[3，7，8，9，10]和使用基于DL的特征的方法[11，12]）相比，我们的方法通过联合自适应特征学习和基于CNN的共显著性检测实现了更好的性能。与监督方法[13，17]相比，我们的方法可以达到相当甚至稍好的性能，并且不会受到标签的高注释成本的影响。将对象遮罩作为训练数据。我们在用于共显性检测的三个基准上全面评估了我们的方法，包括MSRC数据集[18]，iCoseg数据集[19]和Cosal2015数据集[12]。结果表明，我们的方法显着优于国家的最先进的无监督的方法，甚至超过了许多监督的DL为基础的显着性检测方法。2相关工作2.1单幅图像显著性检测单图像显著性检测是通过基于颜色外观，空间位置以及各种灵活的高级先验（包括对象）的无监督[20，21，22，23，24，25]或监督[26，27，28，29，30]方法这些方法可以很好地处理具有单个显著对象的图像然而，当场景更复杂时，例如当多个显著对象以图像内变化呈现时，它们可能失败当共同目标出现在多幅图像中时，通过利用共现模式，期望共显性检测执行得更好。然而，跨图像的常见对象的外观变化也可能使共显性检测成为更具挑战性的任务。2.2共显著性检测共显著性检测使用不同的策略跨多个图像发现共同和显著的对象基于不同的鲁棒特征，包括低级手工特征[3，7，8，9，10，17，31，32]和高级基于DL的语义特征[11，12]，已经在自底向上框架内开发了共显性检测方法，以捕获图像内视觉刺激作为图像间重复性。然而，没有适用于所有视觉变化的特征被采用，并且它们将特征提取的单独步骤处理为：和共显著性检测，导致次优性能。数据驱动的方法[13，14，17]直接学习共显对象的模式，以克服自下而上方法的局限性。例如，基于转移学习的方法[17]使用对象掩模来训练堆叠去噪自动编码器（SDAE）以学习图像内对比度证据，并传播该知识以捕获图像间相干前景表示。尽管它们的结果令人印象深刻，但一旦转移，性能可能会急剧下降4Hsu等人n=1关于特征表示的知识是不令人满意的，因为特征提取和共显著性检测的分离可能潜在地妨碍性能。最近，Weiet al. [14]和Hanet al. [13]提出了统一的基于学习的方法来学习语义特征并联合检测共同显着的对象。尽管性能有所提高，但他们的方法依赖于大量的训练对象掩码。它降低了他们对看不见的图像的方法的普遍性。然而，我们的方法可以以无监督的方式对给定图像进行自适应和统一的学习，因此在我们的方法中不存在上述问题。2.3使用CNN的深度学习在许多计算机视觉应用中取得了成功。为了更好地保持空间一致性，当需要结构化输出时，图形模型已与CNN集成，例如深度估计[33]，立体匹配[34]，语义分割[35，36，37]，图像去噪和光流估计[38]。虽然在保持空间一致性和成对关系建模方面显示出希望，但这些方法在扩展到共显着性检测时有三个主要限制首先，它们的图形模型是建立在单个图像上的，因此不能直接应用于多个图像的共显著性检测。其次，这些图形模型中的成对项通常充当正则化项以确保空间一致性，但不能单独工作最后，它们需要训练数据来训练模型。对于图像间图形模型，Hayderet al.[39]和Yuanet al.[40]分别将全连接的CRF集成到CNN中，用于对象提议共同生成和对象共同分割，其中每个节点是对象提议。然而，他们的方法仍然受到最后两个限制。相比之下，我们的方法集成了图形模型的优点，没有上述问题的共同显着性3我们的方法首先，我们描述了所提出的制定共同显着性检测。接下来，我们提出了一对夫妇的增强自定进度的学习和完全连接的条件随机场。最后给出了优化过程和实现细节3.1拟定制剂给定一组N个图像{In}N，共显著性检测的目的是检测显著通常存在于这些图像中的类别的对象我们完成任务通过将其分解为两个子任务，即单图像显著性检测和交叉图像共现发现。前者在单幅图像中检测显著区域，而不考虑检测到的区域是否共同存在UCCDGO5GCnnnnIn⋮GSsSnS~nƒsScnSn⋮⊗⊗Ion⋮Ibn⋮ƒ最小化相似性布拉最大化相似性⋮⋮图二. 概述我们的方法来共同显着性检测。它通过学习两个协作FCN模型gs和gc来优化定义在图上的目标函数，这两个模型分别生成单图像显著图和跨图像共生图。跨图像。后者发现跨图像重复出现的区域找到显著同现区域的共显著性检测然后可以通过在图上执行和整合两个任务来执行，图的两种类型的边缘分别对应于两个任务，如图1B所示。第1（a）段。图上的所提出的目标函数定义为ΣNE（w）=ΣNψs（In; w）+Σψc（In，Im; w），（1）n=1n=1m n其中，一元项Φs（In; w）关注图像In的显著性检测，成对项Φc（In，Im;w）考虑图像对（In，Im）的共现发现，并且w是模型参数的集合。如图2，我们学习了两个完全卷积网络（FCN）[41]模型g s和g c，以优化一元项ψ s和成对项ψ c当量（1）分别。对于图像In，FCNgs调查图像内线索并生成其显著性图Ss。相比之下，FCNgc发现交叉图像证据并产生其同现图Sc，其中突出显示重复出现的区域。由此产生的共同显着图，突出显示同现和显著区域，由Sn=gs（In）<$gc（In）=Ss<$Sc产生，其中n n表示逐元素乘法运算符。令ws和wc分别表示FCNsgs和gc我们通过优化E（w=ws∪wc）来学习gs和gc。（一）.在Eq.中的一元项ψs和成对项ψc。（1）下面描述。3.2一元项该术语旨在识别单个图像中的显著区域。引导着- 训练FCNgs，其产生图像In的显著性图Ss，即，SS=6Hsu等人nnnnnnng s（I n）。受Zhanget al启发。[42]中，我们应用现有的无监督方法来对图像In进行排序检测，并使用输出的排序映射S~n作为学习FCN g的期望目标。在这项工作中，我们采用MILP [25]来生成S~n 。具体而言，unaryterm ψs（In;ws）应用于由Σψs（In;ws）=Rn（i）|Ss（i）−S~n（i）|二、（二）i∈In当In中的像素的索引为时，Ss（i）和S~ n（i）表示像素处的映射S s和S~n的一致性值，并且Rn（i）表示像素的一致性。通过使用Sn的平均值，可以将映射S n中的P ixel划分为独立和非独立组。 Rn（i）与两个组之间的潜在大小不平衡相关。令δ是整个图像In上的显著像素的比率。如果像素i属于显著组，则Rn（i）取值1-δ，否则取δ。以这种方式，显著和非显著组在等式中贡献相等。（二）、3.3成对项ψc成对项ψc寻找同时出现在图像上的区域它作为学习FCNgc的目标。这些区域应该在图像中看起来相似，但与周围未检测到的区域不同因此，在设计中共同考虑两个标准，包括1）检测到的同现区域之间的高跨图像相似性和2）检测到的同现区域与图像的其余部分之间的高图像内第二个标准是辅助的，但对于避免平凡的解决方案至关重要。如图2、FCNgc产生同现图Sc用于图像In，即，Sc=gc（In）。在gc的最后一层因此，在每个像素i处的同现图的值，Sc（i）在0和1之间利用Sc，图像In被分解成两个掩蔽的n图像，nIo=ScIn和Ib=（1 −Sc）In，（3）无无无无无无无其中表示逐元素乘法。被掩蔽的图像Io保持In的检测到的同现区域，而图像Ib包含其余的同现区域。为了度量图像之间的相似性，我们采用特征提取器f来计算给定图像的特征在这项工作中，提取器f可以是用于图像分类的预先训练的CNN模型，例如，AlexNet [43]或VGG- 19 [44]，其中softmax函数和最后一个全连接层被删除。我们将提取器f应用于所有被掩蔽的图像{I〇，Ib}N并获得他们nnn =1特征{f（Io）∈Rc，f（Ib）∈Rc}N其中c是特征尺寸。与n n n=1这些提取的特征，成对项ψc（In，Im; wc）应用于图像对In和Im定义为ψc（In，Im; wc）=− log（pnm），（4）UCCDGO7nmnmnM其中，Pnm是估计In和Im中检测到的同现区域的质量的分数。分数ρnm定义如下，exp（−d+）pnm=nm，其中（5）exp（−d+）+exp（−d−）d+=1<$f（Io）−f（Io）<$2和（6）n n md−= 1 <$f（I o）− f（I b）<$2+ 1 <$f（I o）− f（I b）<$2。（七）nm2cn n n2cm m当量（6）测量图像In和Im中检测到的同现区域之间的图像间距离（标准1）。当量（7）评估检测到的同现区域与图像的其余部分之间的图像内距离（准则2）。通过最小化等式1中的成对项ψc（In，Im; wc）（4）对于每个图像对（In，Im），所得到的FCN_g_c将产生同现图，其中检测到的同现区域之间的图像间距离被最小化，而检测到的同现区域与其余图像之间的图像内距离被最大化。在通过等式中的一元项和成对项联合学习了FCNgs和gc在等式（1）中，给定图像In的所得共显著图Sn通过Sn=gs（In）gc（In）产生。注意，等式（1）中的成对项（4）被定义为指共同--由FCNgc产生的出现图，即，Sc和Sc。在实践中，我们发现如果在成对项中也考虑了共同显著性图Sn和Sm，则可以进一步提高共同显著性检测的性能。在我们的实现中，我们扩展了方程中的成对项。（4）至c（In，Im;wc）=−λclog（pnm）−λc<$log（p<$nm），（8）当类似于p_n_m时，p_n_m被计算在通过将映射S_n和S_m相互关联而被更新的空间中。常数λc和λc~用于等式2中（8）用于对相应项进行加权。在下文中，我们将展示通过两个扩展可以进一步提高共显图的质量，包括通过自定进度学习的地图增强和通过完全连接的条件随机场（或DenseCRF）的后处理[45]。3.4共显著图增强提出了使用CNN的自定进度学习，以使显着图更清晰。然后，采用全连通条件随机场来保持约束条件的一致性。下面给出了这两个x项的详细信息。通过自定进度学习的共显着图增强。通过优化Eq.（1）有时过平滑，因为FCNg_s和g_c都不考虑关于对象边界的信息。为了解决这个问题，我们将每个图像In过分割成像素Qn={qk}K，其中qk是第k个超像素，并且K是第k个超像素的数量。nk=1n超像素超像素中的像素倾向于属于突出对象或突出对象。8Hsu等人nnnnn背景都在一起。可以利用该属性来将信息从高置信度的像素传播到同一超像素内的低置信度的像素我们将超像素分成三组，即，Qn=On∪Bn∪Tn。前两个组On和Bn分别包含可能属于对象和背景的超像素。第三组Tn覆盖其余部分。给定共显著图Sn，三个组由下式产生：O n，如果µk> µn+σn，qk∈科隆B n，如果µ k<µ n− 0。25*σ n，Tn，否则对于k=1，2，…K，（9）其中μk是超像素qk的平均显著值，而μn和σn是n{µk}K的平均值和标准差n.此外，我们还跟踪后面的-nk=1在以前的工作中使用的地面种子采样策略[20，46]，并添加超像素在图像边界上到集合Bn。On和Bn中的超像素确信被分配给显著区域或背景。Tn中的那些是模糊的，所以这里不考虑它们。利用图像In的On和Bn，通过优化训练出另一个用于共显著图增强的FCNgeψe（In; we）=woΣΣq∈Oni∈q|2 +wb |2+ w b ΣΣq∈Bni ∈q|第2条，第（10）项|2,(10)其中，映射Se=ge（In）由FCNge生成，并且i是In中的像素的索引。常数w o= |Bn|w b= |On|是用来平衡|On|+|Bn||+|B n|Bn|O n和B n的贡献，其中|O n|和|B n|是像素的数量在On和Bn中。在Eq.（10）增强高置信度的超像素内的一致性。如果它被打开，则目标从等式2中的目标扩展（1）至ΣNE（w）=ψs（In; ws）+λe ψe（In;we）+N−1Nψc（In，Im; wc），（11）n=1n =1m =n+1其中λe是权重，w = ws∪ we∪ wc是FCNsgs、ge和gc的可学习参数集的并集。在优化Eq.在等式（11）中，图像In的共显著图Sn由Sn=gs（In）ge（In）<$gc（In）=Ss <$Se<$Sc。n n n使用DenseCRF进行后处理。通过优化Eq.可以通过加强空间相干性和保留对象边界来进一步改进公式（11）。为此，我们遵循以前的工作[47，28]并采用DenseCRFs [45]来后处理给定图像In的共显着图Sn。在这项工作中，我们使用Li和Yu [47]实现的DenseCRFs代码3.5优化为了减少内存消耗和加快训练速度，所提出的方法进行了优化，通过使用一个两阶段的过程。在第一阶段，我们分别UCCDGO9n=1通过使用等式（1）中的目标函数来学习FCNs和c。（2）和Eq。（4）具有20个时期的所有图像。共显著图{Sn=gs（In）gc（In）}N变得足够稳定因此，我们将每个图像的超像素通过等式（1）分成（九）、然后用Eq.中的目标训练FCNge。（10）具有20个时期的所有图像。在第二阶段，我们打开所有三个项由方程式（11）其中等式（11）中的扩展成对项（8）通过。三个FCNgs、ge和gc针对20个时期联合优化请注意，在第二阶段，我们仅优化最后两个卷积层中的参数和每个FCN模型的跳过连接。Eq中的目标（1）和方程（11）是在全连通图上定义的。很难在所有图像同时直接优化任一物镜由于内存大小有限，时间因此，我们采用分段训练方案[48]。也就是说，我们只考虑在每个时刻由图像的子集产生的子图。学习率在第一阶段被设置为10- 6，在第二阶段被降低到10- 8权重衰减和动量设置为0。0005和0。9，分别。方程中的目标函数。（11）可微分。我们选择ADAM [49]作为其快速收敛的优化求解器。相对于优化变量的gra-可以直接导出，所以我们在这里省略它们的推导。3.6实现细节所提出的方法使用MatConvNet[50]实现。在所有实验中使用相同的网络架构。采用ResNet-50 [51]作为成对项的特征提取器f，因为AlexNet [43]和VGG-16/19 [44]有时会导致我们的应用中梯度消失的问题。特征提取器f在ImageNet [52]上进行预训练，并在优化过程中固定。由f提取的特征是f的最后一个全连接层的输入。特征尺寸，即，c在Eq.（6）和等式（7），设置为2048。所有FCN，包括gs、ge和gc，都是基于FCN [41]的VGG-16 [44]设置开发的我们将最后一层的激活函数softmax替换为sigmoid函数。SLIC [53]由于其计算效率、更好的紧凑性和规则性而被采用来生成超像素。需要在ImageNet [54]数据集上预训练的模型进行分类。遵循先前的共显性检测方法[11，12]，我们凭经验确定超参数的值，并在所有实验中保持它们固定4实验结果在本节中，我们首先描述数据集和评估指标。接下来，我们将我们的方法与一组最先进的方法进行比较。最后，我们通过报告消融研究调查了不同成分的贡献10Hsu等人β2×查准率+查全率10.90.80.70.60.50.410.90.80.70.60.50.40.30.90.80.70.60.50.40.30.30.20.30.40.50.60.70.80.91召回0.20.20.30.40.50.60.70.80.91召回0.20.20.30.40.50.60.70.80.91召回MSRC iCoseg Cosal2015图三. 在三个基准数据集的PR曲线括号中的数字是AP值。4.1数据集和评价指标数据集。我们在三个公共基准数据集上评估了所提出的方法：iCoseg [19]，MSRC [18]和Cosal2015 [12]。iCoseg由38组共643张图像组成，每组4 42张图像。iCoseg的图像包含具有复杂背景的各种姿势和大小的单个或多个类似对象MSRC包含7组共240幅图像，每组30幅图像。与iCoseg相比，MSRC中的对象表现出更大的外观变化。Cosal2015是一个比其他两个数据集更新、更具有挑战性的数据集。它有50组，共2015张图片。每组包含26到52张图像，有各种姿势和大小，外观变化甚至更复杂的背景。由于iCoseg和Cosal 2015的图像尺寸大于MSRC的图像尺寸，因此使用了不同的批次尺寸和分辨率。iCoseg和Cosal 2015的批量大小为3，分辨率为512× 512，而MSRC的批量大小为5，分辨率为320×320。评估指标。为了评估共显性检测的性能，我们考虑三个度量，平均精度（AP）、F-度量（Fβ）和结构度量（Sα）。AP是根据精确-召回（PR）曲线下的面积计算的，PR曲线是通过用[0， 255]范围内的每个整数阈值对显着性图进行二值化而产生的F-measure表示通过自适应阈值T=µ+σ获得的查准率和查全率值的调和平均值，其中µ和σ分别是显著图的平均值和标准差使用精确度和召回率值，F度量通过Fβ=2（1+β）×查准率×查全率，其中β2= 0。3按照建议，更加强调回忆在以前的工作[11，12，56]。采用结构度量（S α）[57]，基于区域感知结构相似性Sr和对象感知结构相似性SO来评估显着图的空间结构相似性，定义S α= α * S r+（1 − α）* S o，其中α= 0。五是[57]。4.2与最新方法的为了与最先进的方法进行彻底的比较，我们将它们分为四组，即，无监督显着性[20，22，23，24，25，42]和共同-我们的（0.9226）CBCS（0.7034）SACS（0.8602）CSHS（0.7834）ESMG我们的（0.9112）CBCS（0.7972）SACS（0.8400）CSHS（0.8454）ESMG精度我们的（0.8149）CBCS（0.5863）SACS（0.7077）CSHS（0.6198）精度精度UCCDGO11表1. 在三个基准数据集上进行共显性检测的性能。SI和CS分别表示单图像显著性和共显著性方法。US和S分别表示无监督和有监督方法。红色和绿色的数字分别表示无监督共显着性方法（CS+US）的最佳和次佳结果，所提出的方法属于该组方法设置MSRCAPFβ SαiCosegAPFβ SαCosal2015APFβ SαDIM[17]UMLBF[13]CS+SCS+S- -0.9160 0.84100.8773 0.7918 0.7583- -- -0.8210 0.7120CBCS[7]CS+US 0.7034 0.5910 0.4801 0.7408 0.65800.5863 0.5579 0.5439SACS[31]CS+US 0.8602 0.7877 0.7074 2019年12月31日0.7077 0.69230.6938CSHS[8]CS+US 0.7834 0.71180.8454 0.7549 0.7502 0.6198 0.6181 0.5909[32]第三十二话CS+US 0.6659 0.6245 0.5804 2017年12月31日0.5133 0.5114 0.5446CSSCF[3]CS+US 0.8604 0.80050.8400 0.7811 0.74040.6815 0.6710CoDW[12]CS+US 0.8435 0.7724 0.7129 0.87660.7985 0.75000.74380.7046SP-MIL[11] CS+US 0.8974 0.8029 0.7687 0.87490.8143 0.7715- -MVSRC[55]CS+US 0.8530 0.78400.8680 0.8100- -我们CS+US 0.9226 0.8404 0.7948 0.9112 0.8497 0.8200 0.8149 0.7580 0.7506腿[26]SI+S0.8479 0.7701 0.6997 0.7924 0.7473 0.7529 0.7339 0.6926 0.7068DCL[47]SI+S0.9065 0.82590.9003 0.8444 0.8606 0.7815 0.7386 0.7591[第28话]SI+S0.8700 0.8313 0.7435 0.8802 0.8386 0.8483 0.7745 0.7509 0.7579UCF[29]SI+S0.9217 0.8114 0.8175 0.9292 0.8261 0.87540.7194 0.7790护身符[30]SI+S0.9219 0.8159 0.8162 0.9395 0.8381 0.8937 0.8201 0.7384 0.7856GMR[20]SI+US 0.8092 0.7460 0.6547 0.7990 0.7805 0.7068 0.6649 0.6605 0.6599GP[22]SI+US 0.8200 0.7422 0.6844 2019年12月31日0.6847 0.6576 0.6714MB+[23]SI+US 0.8367 0.7817 0.7200 2016年12月31日0.6710 0.6689 0.6724MST[24]SI+US 0.7491 0.64600.8019 0.7659 0.7292 0.7096 0.6669 0.6676波兰语[25]SI+US 2017年12月31日0.8182 0.7883 0.75142009年12月31日SVFSal[42] SI+US 0.8669 0.7934 0.7688 0.8376 0.80560.7468 0.7120显著性[3，7，8，11，12，31，32，55]检测方法以及监督显著性[26，47，28，29，30，58]和共显著性[13，17]检测方法。表1和图3比较了总体性能统计。请注意，所有比较的监督单图像显著性检测方法都是基于CNN的。在无监督单图像显著性方法中，SVFSal[42]是基于CNN的。当可用时，我们使用公开发布的源代码与作者提供的默认参数来重现实验结果。对于没有发布源代码的方法，我们要么在其预生成的共同显着性图（SP-MIL[11]，CoDW[12]和DIM[17]）上评估指标，要么直接复制他们论文中报告的数字（UMLBF[13]和MVSRC[55]）。从表1，我们的方法优于具有相同的未监督的共显着性检测设置的所有方法显著的余量。大多数方法这一类别的方法将特征提取和共显对象检测作为分离的步骤。我们的方法通过同时执行这些步骤并采用CNN模型而优于它们。与监督共显着性方法，UMLBF[13]和DIM[17]的组相比，我们的方法产生了相当或12Hsu等人香蕉苹果婴儿床鸟见图4。由我们的方法和一些最先进的方法生成的显着性图的示例。从上到下，它们是给定的图像，我们的， CSSCF[3] ， CoDW[12] ， MILP[25] ，SVFSal[42]，UCF[29]和Amulet[30]。甚至稍微好一点的性能，而不需要昂贵的对象注释。虽然两者都具有无监督设置，但通过利用图像集内的附加信息，我们的方法明显优于未监督的sigle-imagesi e -incyd e te ttionmethods组。我们的方法中的算法还优于基于无监督CNN的单显著性方法SVFSal [ 42 ]，其需要显著性建议融合以生成高质量伪真实数据作为训练数据。一般来说，基于监督CNN的单图像显著性方法在四组方法中表现最好，因为它们更好地利用了对象注释。即便如此，我们的方法仍然优于许多方法，在这组利用交叉图像引用和自适应特征学习。从图中的PR曲线。3.所提出的方法大大优于现有技术。图4示出了由我们的方法和一些最先进的方法产生的示例显著性图，包括无监督的共显著性检测方法（CSSCF[3]，CoDW[12]），无监督的单图像显著性方法（MILP[25]和SVFSal[42]），以及有监督的基于CNN的方法（UCF[29]和Amulet[30]）。在不参考给定图像集中的其他图像的情况下，单图像显著性方法可以检测不重复出现的视觉显著对象在其他图像中，例如香蕉组的第二图像中的橙子和苹果或者婴儿床组的第一图像中的女人。在这方面，共显著性检测方法表现得更好。竞争的共显着性方法CSSCF[3]和CoDW[12]不能很好地用于具有低图形-背景差异或高度纹理化背景的图像，例如第二和第三图像。UCCDGO1310.90.80.70.60.50.410.90.80.70.60.50.40.30.90.80.70.60.50.40.30.30.20.30.40.50.60.70.80.91召回0.20.20.30.40.50.60.70.80.91召回0.20.20.30.40.50.60.70.80.91召回0.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.2F S0.2F S0.2F SMSRC iCoseg Cosal2015图五、三个基准的消融研究顶行绘制PR曲线，而底行显示Fβ和Sα的性能。婴儿床组的年龄或鸟组的第一和第二图像。他们的方法的主要缺点是将特征提取作为一个单独的步骤。因此，他们无法在图像中找到最具区分力的特征。我们的方法通过联合执行自适应特征学习和共显性检测来解决这个问题。4.3消融研究我们已经进行了消融研究，以调查单个组件，gc，gs，ge和DenseCRF的贡献图5报告了具有不同度量的结果。+D表示由DenseCRF细化的结果。对于AP和Fβ，gc和gs的积分优于单独的任一个。对于Sα测量被检测物体的结构，情况并非如此。这将在后面解释。自定进度学习和DenseCRF都进一步改善了结果。图图6给出了消融研究的共显著性图示例它们证明了gc和gs可以是互补的。以蝴蝶集为例，gs在第一、第三和第四张图像中同时突出显示蝴蝶和花朵。在整合了gc发现的共现信息后，在gc+gs中，花朵大多被去除和变淡如上所述，gc+gs在Sα方面可能表现更差。这是因为g c倾向于具有较低的确定性，特别是在对象或模糊背景区域内，如图2的第二行所示。六、因此，gc+gs通常比单独的gs生成更模糊的映射。例如，牛在gc+gs中具有较低的显着性值（图4的第四行）。6）比gs（图的第三行）（六）。通过传播来自具有高置信度的区域的信息，ge提高了gc+gsgcgsgc + gsgc + gs + gegc + gs + ge + Dgcgsgc + gsgc + gs + gegc + gs + ge + Dgcgsgc + gsgc + gs + gegc + gs + ge + DG CG sg c + g sg c + g s + g egc + gs +ge + DG CG sg c + g sg c + g s + g egc + gs +ge + DG CG sg c + g sg c + g s + g egc + gs +ge + D精度精度精度14Hsu等人牛女子足球蝴蝶图六、由不同分量的组合生成的示例共显着图从上到下，它们分别是给定的图像gc、gs、gc+ gs、gc+ gs+ ge和gc+ gs+ ge+D。虽然AP和Fβ的增益较小，但它带来了Sα的大幅改善，因为物体更加突出，背景进一步变亮，如图5的第五行所示六、最后，DenseCRF增强了空间一致性和边界保留，从而改善了定量和定性结果。5结论在本文中，我们提出了一种使用CNN进行共显性检测据我们所知，这是第一个用无监督CNN解决这个问题的方法我们的方法分解成两个子任务，单图像显着性检测和跨图像共现区域发现，通过建模相应的新的损失：单图像显着性（SIS）损失和共现（COOC）损失的问题。采用图形模型来整合这两个损失与一元和成对项对应的SIS和COOC损失，分别。通过优化与图相关联的能量函数，两个网络联合学习。通过自定进度的学习和通过Dense-CRF的后处理，进一步提高了共显图的质量。在三个具有挑战性的基准上的实验表明，该方法优于最先进的无监督方法。在未来，我们计划将我们的方法推广到其他应用，例如语义对应[59]，图像协同定位[14]和对象协同分割[60]，这些应用也需要在多个图像之间进行学习。致谢。这项工作得到了科学技术部（MOST）的部分支持，资助号为105-2221-E-001-030-MY 2，MOST人工智能技术和All Vista Healthcare联合研究中心的资助号为107- 2634-F-002-007。这项工作得到了美国国家科学基金会#1547557和#1553281的部分支持。UCCDGO15引用1. 傅，H.，徐，D.，张，B.，林，S.，沃德，R.：基于多状态选择图的多前景视频对象联合分割。《人口贩运》（2015年）2. 傅，H.，徐，D.，林，S.，Liu，J.：互斥约束下基于对象的rgbd图像联合分割。在：CVPR中。（2015年）3. Jerripothula，K.，蔡杰，Yuan，J.：基于显著性联合融合的图像联合分割。TMM（2016）4. Jerripothula，K.，蔡杰，Yuan，J.：CATS：用于视频共定位的共显着性激活的轨迹片段选择。In：ECCV. （2016年）5. Xue，J.，Li，C.，Zheng，N.：基于原型对象的jpeg2000码率控制：一种基于内容的可伸缩性的方法。（2011年）6. Lowe，D.：从尺度不变的关键点中提取独特的图像特征。 IJCV（2004）7. 傅，H.，曹，X.，图，Z.：基于聚类的共显性检测。《人口贩运问题》（2013年）8. 刘志，邹伟，Li，L.，Shen，L.，Meur，O.L.：基于分层分割的共显著性检测。SPL（2014）9. Zai，C.C. Qian，X.，Lin，Y.Y.：分割引导的局部建议融合的共显着性检测。In：ICME. （2017年）10. Zai，C.C. Qian，X.，Lin，Y.Y.：基于局部自适应显著图融合的图像共显著性检测。在：ICASSP中。（2017年）11. Zhang，D.，中国农业科学院农业研究所所长，Meng，D.，Han，J.：通过自定步调的多实例学习框架的共显着性检测。TPAMI（2017）12. Zhang，D.，中国农业科学院农业研究所所长，汉，J.，Li，C.，王杰，李X：通过观察深度和广度来检测共同显著的物体。IJCV（2016）13. 汉，J.，Cheng，G.，Li，Z.，张德：基于统一度量学习的共显性检测框架。TCSVT（2017）14. 韦湖，加-地赵，S.，Bourahla，O. Li，X.，Wu，F.：分组深度共显着检测。在：IJCAI. （2017年）15. 许国杰，林宇宇Chuang Y.Y.：用于推断边界框中的对象轮廓的增强多实例回归《人口贩运问题》（2014年）16. 许国杰，林宇宇Chuang Y.Y.：弱监督显着性检测与类别驱动的地图生成器。在：BMVC. （2017年）17. Zhang，D.，中国农业科学院农业研究所所长，汉，J.，汉，J.，Shao，L.：基于间隙内先验传递和深度间隙挖掘的共显著性检测TNNLS（2016）18. Winn，J.，Criminisi，A.，T. Minka，T..19. Batra，D.，Kowdle，A.，Parikh，D.罗，J.，陈T：iCoseg：具有智能涂写指导的交互式共同分割。在：CVPR中。（二零一零年）20. 杨，C.，张，L.，吕，H.，Ruan，X.，Yang，M.M.：基于图的流形排序的显著性检测在：CVPR中。（二零一三年）21. Huan，C.R.，Chang，Y.J.，Yang，Z.X.，Lin，Y.Y.：基于主摄像机运动去除的视频显著图检测。TCSVT（2014）22. 江，P.，Vasconcelos，N.，Peng，J.：基于扩散的显著对象检测的通用推广In：ICCV. （2015年）23.

下载后可阅读完整内容，剩余1页未读，立即下载