基于深层水平集的显著目标检测

124 浏览量更新于2023-10-15 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深层水平集的显著目标检测胡平phu005@ntu.edu.sg兵帅†bshuai001@ntu.edu.sg刘钧†jliu029@ntu.edu.sg王刚wanggang@ntu.edu.sg†新加坡南洋理工大学电气与电子工程学院阿里巴巴集团，杭州，中国摘要近年来，深度学习已被应用于显着性检测。卓越的性能证明了深度网络可以对显着对象的语义属性进行建模。然而，深度网络难以区分属于对象边界周围的相似感受野的像素，因此深度网络可能输出具有模糊显著性和不准确边界的地图。为了解决这个问题，在这项工作中，我们提出了一个深水平集网络产生紧凑和统一的显着性地图。我们的方法驱动网络学习显著对象的水平集函数，因此它可以输出更准确的边界和紧凑的显著性。此外，为了在像素间传播显著性信息并恢复全分辨率显著性图，我们将基于超像素的引导滤波器扩展为网络中的一层。该网络具有简单的结构和训练端到端。在测试过程中，该网络可以通过在GPU上以超过12FPS的速度有效地馈送测试图像来产生显著性图。基准数据集上的评估表明，所提出的方法达到国家的最先进的性能。1. 介绍在有限的计算资源下，人类视觉系统可以有效地从复杂的视觉输入中选择重要信息进行进一步处理。受这种生物能力的启发，视觉显着性计算被引入计算机视觉领域，因为它有可能增强图像处理[4，12]、图像理解[58，63]、视频分析和压缩[13，45]等任务。在过去的几年中，已经提出了许多显著性检测方法。早期的工作集中在注视水平显着性检测[19，14，17]，旨在预测人类在观看图像时的注意力优先级。后来，它被扩展到对象级显着性检测[54，55，12，64，10，34，60]，其目标是计算显着性图以突出显着对象的区域。(a)（b）（c）（d）（e）图1.逐像素显著性预测的示例（a）投入。(b)地面真相(c)通过二进制交叉熵（BCE）损失训练的深度网络的显着性图。(d)用水平集方法训练的深度网络的（e）通过插入有引导超像素滤波层的深度水平集网络的最终结果精确地根据机制的不同，这些方法大致可以分为两类：刺激驱动的自下而上方法和任务驱动的自上而下方法。自下而上的方法使用低级别的特征和线索，如对比度[10，40]，空间属性[12，54]，光谱信息[12，54]，[17，42]，objectiveness [59，22]等。由于图像内容的不可知性，纯粹的低级别线索难以检测复杂场景中的显著对象。与自下而上的方法不同，自上而下的方法[12，34，20]将高级视觉知识纳入检测。对于这类模型，有效地从数据中学习显著对象和背景之间的语义关系最近，卷积神经网络（CNN）由于其提取高级和多尺度特征的卓越能力，在许多视觉任务中表现出卓越的性能。在显着性检测中，最近使用CNN的几项工作[62，29，24，33，26，39，30，51，46]显着优于以前仅使用低级线索和手工特征的方法。然而，当将CNN应用于像素显着性23002301标签，它可能会受到一些限制。网络很难在显著区域的边界处学习显著性。这是因为边界周围的像素集中在类似的感受野，而网络被训练来区分二进制标签。网络可能会产生边界和形状不准确的地图。同样如[5]中所讨论的，对于密集像素标记任务，网络的训练总是基于像素是独立的假设。然而，独立地处理它们可能不是最佳的，因为它未能利用像素之间的相关性。虽然可以利用超像素或对象建议来细化粗略结果[62，29，26，30，31]，但更准确的粗略地图可以进一步改善结果。在本文中，为了克服这些局限性，我们提出了一种端到端的深层水平集网络用于显著对象检测。水平集[38]方法广泛用于图像二值分割任务[8，28]。像素的水平集函数的值是像素与分割边界之间的有符号距离。这些符号表示分割标记。利用初始值，水平集被迭代地更新以优化能量函数，该能量函数迫使边界进化以准确地将前景从背景中分割出来。当将其应用于显著对象检测时，这也是一个二进制分割任务，我们的目标是生成一个具有准确分离显著对象与背景的接口的水平集函数界面内外像素的符号距离应分别为正和负，其绝对值允许随着像素位置逐渐远离物体轮廓而逐渐增大利用带符号的距离，可以通过将负数投影到0并且将正数投影到1的Heaviside变换容易地生成最终的显著性标签而不是直接学习一个二进制标签为每个像素独立，我们的网络是训练学习水平集的显着对象。将水平集与深度网络相结合至少有两个优点：（i）水平集函数可以用符号表示分割标签。同时，允许绝对值逐渐变化，以便它可以帮助深度网络对像素的渐变和相关性进行建模。这有助于网络更自然、更容易地学习边界周围的逐渐变化。(ii)利用水平集公式，形状和面积可以隐含地表示在能量函数中，因此网络可以整体地感知显著对象，而不是独立地学习每个像素的显著性。如图1（c）和图1（d），使用水平集函数训练的基于VGG16的网络可以更精确地区分对象边界周围的像素，并且生成比直接使用二进制地面实况训练的网络更紧凑和准确的显著性图。为了进一步细化结果，将超像素的扩展引导滤波器[15]作为一个层插入到网络中。利用引导超像素滤波器，显著性可以在像素之间传播。最后，我们将该模块与基于VGG16的网络相结合，并对网络进行端到端的训练。如图1（e），所提出的网络可以产生紧凑、统一和准确的显著性图。总之，这项工作有以下三个贡献：• 我们使用水平集公式来帮助深度网络更容易和自然地学习有关显着对象的信息。训练后的网络可以检测出显著的对象精确，并输出显着的地图，是紧凑和统一的。• 我们扩展了引导过滤器，以纳入超像素信息，并将其用作端到端网络中的一个层。该过滤模块可以进一步细化显著图• 所提出的网络可以有效地检测显着-通过执行单个前馈传递来测试对象。它在基准测试数据集的速度超过12FPS与现代GPU。2. 相关工作2.1. 水平集分割水平集方法（LSM）[38]广泛应用于活动轮廓[37]的图像分割，因为它能够自动处理各种拓扑变化。其基本思想是在更高的维度上定义一个隐函数来表示轮廓作为零水平集。该函数被称为水平集函数，并根据从活动轮廓模型的拉格朗日公式推导出的偏微分方程（PDE）进行演化然而，早期的偏微分方程驱动的水平集方法利用边缘信息，通常是敏感的噪声。为了解决这个问题，提出了变分水平集方法[8，49，28]，以直接从某个能量函数导出演化PDE利用新的方法，可以在水平集域中方便和自然地表达区域[8，27]，形状[49，52]等附加信息。基于水平集的分割问题可以通过迭代地应用梯度下降来最小化进化能量来解决。虽然Chan等人 [7]指出变分水平集分割问题是非凸的，但在训练神经网络时使用良好初始化的水平集和基于动量的学习策略可以帮助实现最佳结果[3]。变分水平集方法的这些性质使其适合与深度网络相结合来解决二值分割问题。2.2. 显着物体检测早期的方法将显着性检测作为一个无监督的问题，并专注于低级别的功能和线索。2302最广泛使用的是对比度先验，它认为在某些情况下，显着区域相对于背景呈现出高对比度[14，12，34，21，40，17]。Cheng等人 [10]基于颜色唯一性和空间分布计算对象的显着性。Zhanget al [59]和Jianget al[22]从对象的独特性和周围性的角度来检测显着对象Shen等人 [43]假设背景可以由低秩矩阵表示，并且显著对象是稀疏噪声。另一个有用的假设称为中心偏置先验假设，突出的物体往往位于图像的中心[54，64，59，56，53]。由于图像边界属于背景，Zhang等人 [60]和Tu等人 [48]计算像素与图像边界之间的差异作为显著性，并实现实时测试速度。这些方法在复杂的情况下往往会失败，因为它们2.3. 深度显着性网络最近，深度学习在许多计算机视觉任务中实现代替定义手工特征，深度网络能够提取不同级别的语义特征与此图2.水平集分割的一个例子。左：水平集函数φ（x，y）在2D空间上的可视化。右：右下角的相应分割。零水平集和对应的分割边界C用红色标记。埃尔斯最后，我们提出了建议的网络的实施细节。3.1. 基于深层水平集的显著目标检测3.1.1水平集当将水平集方法[38，61]应用于2D空间中的二进制分割时，界面C被定义为开子集ω的边界，因此C=ω。界面曲线可以由Lipschitz函数的零水平集表示：φ：φ→R，C={（x，y）∈φ：φ（x，y）=0}，深度学习已经应用于显着性去保护并实现最先进的性能。[33，30，24]中提出的方法将VGG16网络[44]学习的低级，中级和高级特征合并在一起。{（x，y）∈φ：φ（x，y）>0}，outside（ C）={（ x，y）∈φ： φ（ x，y）0}，（一）er来分层地检测显著对象。Wang等人 [51]利用一个循环的全卷积网络来合并显着性先验知识，以获得更准确的显着性。Kuen等人 [25]利用卷积网络来生成内部（C）表示区域ω，外部（C）表示区域ω。ω外的区域一个例子如图所示。2.对于水平集φ，C的长度表示为：∫一个粗略的地图，然后用注意力递归网络对其进行细化而不是预测每一个长度{C}=∫|dxdy|dxdyΩ（二）像素，超像素和对象区域建议也与深度网络[46，26，29，62，31，50]相结合，以实现显著对象的准确分割。为了从超像素或对象区域建议中提取信息，这些方法总是将新的网络添加到模型中。然而，这增加了模型的大小，并减少了测试阶段的效率与这些方法不同的是=δ（φ（x，y））|n（x，y）|dxdyΩ其中（x，y）是坐标，H（z）是Heaviside函数，δ（z）是Dirac δ函数。.1，z≥0H（ z）=我们的网络通过引导超像素滤波层来实现这一点。该层可以有效地执行前馈（或反向传播）以进一步在像素之间传播显著性（或差分误差）。在基准测试上的实验表明，我们的端到端深度水平集网络运行速度快，0，z0，Dδ（z）= H（z）DZ3.1.2深度显著性的水平集（三）测试并实现最先进的性能。3. 该方法所提出的网络的管道如图所示。3.在本节中，我们首先详细介绍所提出的深度水平集网络。然后，我们描述了如何将引导滤波器扩展为网络中的一层来处理超像素，传统上，在用于图像分割的水平集方法中[8，28]，初始水平集φ0和图像被给定作为输入。然后，应用梯度下降来最小化能量函数并更新水平集函数φ的值。能量函数通常是根据前景和背景之间的颜色、纹理等图像特征的差异来定义的。有了水平集，信息2303224*224全分辨率全分辨率112*11256*5656*5656*5656*56GSFHF最终输出输入最大最大扩张上采样汇集汇集引导超像素滤波Heaviside函数基于VGG16的CNNGroundTruth超段图3.深层水平集网络的体系结构CNN构建在VGG16网络上，并以56*56的分辨率生成粗略的显着水平集图在CNN的结尾，添加了一个上采样层，以将显着水平集映射缩放到全分辨率。遵循引导超像素过滤（GSF）层，并将缩放的显著性水平集图和超像素作为输入。最后，GSF层的输出通过Heaviside函数（HF）转换为最终的显著图。网络可以端到端地训练例如形状和区域可以被集成以增强性能。然而，对于像场景图像这样的复杂图像，使用低级特征来测量差异是困难的。这限制了水平集分割的应用。深度网络具有学习和编码有用的高级特征的卓越能力这使得基于深度网络的水平集方法应用于复杂场景图像处理成为可能。基于梯度下降的水平集分割解决方案也意味着它可以与深度网络无缝结合考虑到这些，我们将水平集方法与深度网络相结合来检测显着对象。如图3、构建了一个基于VGG 16网络的CNN，并将最后三个Max-pooling层替换为扩张层，卷积层[57]。最后一个全连接层在第一项中，gt（x，y）是在（x，y）处的像素的地面实况值。如果α >0，最小化这个项，则会监督网络学习图像中的显着性。第二项是在Eq. 2对分割边界长度的约束。与传统的水平集分割方法[8]偏好最小轮廓不同，我们设置γ <0，使水平集具有更长的分割界面，从而可以表达更多关于显著对象形状的细节。具有λ >0的最后两项迫使显著图在显著区域内部和外部都是均匀常数c1和c2分别作为内部（C）和外部（C）的平均保持φ固定并使关于c1和c2的能量函数最小化，这两个常数可以表示为，∫H（ φ（ x，y）） H（ φ（ x，y）） dxdy被改变为卷积层和Sigmoid层，以便网络将224*224的RGB图像作为输入并生成56*56的地图。最后，添加一个没有可学习参数的上采样图层来缩放地图c1=∫C2=Ω∫φH（ φ（ x，y）） dxdyH（ φ（ x，y））（1− H（ φ（ x，y） dxdy∫n（1−H（φ（x，y）dxdy（五）完全解决。为了将深度卷积网络与水平集方法结合起来，我们将CNN输出的显着值线性移位到[-0.5，0.5]，并将其视为水平集φ。输入图像的像素空间被称为像素空间。C是φ= 0的分割边界，H（φ）是最终的显著性值。为了产生紧凑和准确的显着图，我们训练网络学习一个水平集φ，使以下能量函数最小化，∫很容易优化方程中定义的能量函数4与深度网络联合。通过变分法[11]，能量函数L对φ的导数可以写为：公司简介=δ（φ）2α（H（φ）−gt）−γdiv（）∂φ| ∇ φ|λ（ H（ φ）− c1）2+ 2 λ（ H（ φ）− c1） H（ φ）Σ- λ（H（φ）−c2）2+ 2λ（H（φ） −c2）（1 −H（φ）L= αΣ∫Ω+λ|2dxdy + γ长度（C）|2dxdy + γ Length(C)|H（φ（x，y））− c1|2H（φ（x，y））dxdy（六）正如[8]中所建议的，这种能量函数是非线性的。∫ΩΣ+|H（φ（x，y））−c2|2（1 −H（φ（x，y）dxdyΩ（四）2304凸的如果我们使用简单的Heaviside函数H，当量3只作用于零水平集，我们可能会陷入局部极小。为了解决这个问题，我们采用了[8]中提出的近似Heaviside函数（AHF），该函数作用于所有2305KK水平曲线并倾向于找到全局最小值。也就是说，12zHε（z）=2（1 +πarctan（ε）），δε= Hε（z）=伊茨1π·ε2ε+z2（七）利用上述AHF，深层集网络可以将误差差分反向传播到先前的层以更新权重以最小化能量。实际上，我们设置α = 0。75，γ =-0。005，且λ = 0。二、还有另一个参数ε控制δε的支持范围。我们将在部分实验中分析这些参数。3.2. 引导超像素滤波超像素是将图像分解为更简单和紧凑的表示并同时保持其语义信息完整的像素区域，因此它被应用于帮助细化分割结果[46，26，29，62，31]。然而，以前的方法总是采用逐个处理超像素的框架由于重复计算，这可能是低效的。在本节中，为了避免处理单个超像素，我们扩展了引导滤波器以有效地和高效地利用超像素来局部地传播显著性信息并恢复全分辨率显著性图。由于其数学性质，输出对输入的因此，该过滤模块可以作为一个层添加到网络中（图3），并且可以联合优化整个网络。引导图像滤波器[15]是一个显式图像滤波算法，运行时间为O（N）。如[15]所示，引导滤波器是一种边缘保持和梯度保持滤波器，因此它可以帮助我们利用引导图像中的对象边界来进一步检测对象内的显著性并抑制对象外的显著性。原始引导滤波器在方形像素网格上执行图4.以节点k为中心的窗口（用红点表示）。左：在像素网格上以k为中心，宽度为5像素右：一个以k为中心，半径为2圈（D= 2）的子图。(a)（b）（c）（d）（e）（f）图5.超像素滤波的例子。（a）由基于VGG16的CNN输出的水平集图。（b）平均（a）在每个超像素内。(c)使用（b）生成的显著性图。(d)对半径D = 3的（a）进行引导超像素滤波。(e)使用（d）生成的显著性图。（f）地面实况。graph.在每个节点内计算平均颜色和平均φ。然后我们对每个节点在这个图上执行过滤。当计算等式中的权重Wij（I）时，8、遇到问题。由方程式9，权重的计算是基于以像素k为中心的正方形窗口ωk，然而，由超像素形成的图形不是网格的形式。为了解决这个问题，我们使用由距离节点k不超过D步的n个节点形成的子图来作为窗口ω k（如图2所示）。4）.这可以通过图上的呼吸优先搜索（BFS）算法有效地实现。半径D表示窗口的大小.图1中示出了经处理的显著性图的示例。五、引导滤波器可以方便地添加到深度网络中，qi它涉及引导图像I、输入地图p和输出地图q。过滤过程可以表示为J.P.J= 第一章（十）Σ加权平均过程，Σδpj=Wij（I）δqi（11）我qi=Wij（I）pj（8）其中δqi为输出端的微分误差，δpiJ重量是是传播回输入端的差分误差由于 Wij （ I ） =Wji（I），该引导滤波器的反向传播通过简单地过滤微分误差来实现Wij1（I）=|ω|2Σk：（i，j）∈wk（1 +（Ii−µk）（Ij−µk））（9）σ2+σ到达其输出端。3.3. 实现细节其中qi是像素i处的输出，ωk是以像素k为中心的窗口，µk和σ2是ωk中I的均值和方差。为了进一步减少计算量，获得更准确和一致的结果，我们扩展了引导滤波器来处理超像素。首先，我们将图像分割成超像素。这些超像素充当节点，并连接到它们的邻居，以形成无向所提出的网络的结构如图所示3.第三章。最终的深度水平集网络由基于VGG16的CNN、引导超像素滤波（GSF）层和Heaviside函数（HF）层组成。ReLU层在CNN中的每个卷积层CNN之后是具有超参数D的引导超像素过滤层。GSF层采用超像素和一个级别2306|M||G|将CNN产生的map φ设置为输入。在这项工作中，我们利用快速gSLICr [41]将图像过度分割到400到500个超像素。最后是具有超参数ε的近似Heaviside函数层，如等式中所示。7.该层将水平集图转换为最终显著图。我们使用MSRA10K数据集[10]训练网络，其中包含10000个场景图像。在训练过程中，我们将训练图像和地面实况缩放到224*224。输入图像减去平均像素值。最终的网络首先使用二进制交叉熵（BCE）损失进行15个epoch的训练，然后使用亲正如[36]所指出的，传统的评估指标可能存在插值缺陷、依赖缺陷和同等重要性缺陷。因此，[36]中提出的ω-Fβ度量用于性能比较。我们使用作者提供的代码和默认设置。平均绝对误差（MAE）是另一个广泛使用的评估指标，它是显着图（S）和地面实况（G）之间的平均每像素差异。显着性图值在[0，1]中变化，地面真值变化在{0，1}中，提出了15个时期的水平集方法，最后添加并微调了我们使用1ΣWΣHMae=宽×高|（十三）|(13)Adam [23]使用初始学习率1 e-4来更新权重。当验证性能停止改善时，学习率会降低。我们使用Torch框架实现了网络。所有的实验都是在TESLA k40c GPU、2.3GHz CPU和64G RAM上进行的4. 实验4.1. 数据集我们评估所提出的方法在几个基准数据集上的性能SED2[2] 由 100 张带有两个显著对象的图像组成。PASCAL[32]有850张复杂场景的图像。由于该数据集中的基础事实不是二进制的，因此我们将其阈值设置为0.5，就像以前的工作一样。ECSSD[55]包含1000张结构复杂的图像。HKU-IS[29]包含4447个具有多个对象、边界上的观测对象或低对比度对象的挑战性图像。OM- RON[56]拥有5168张具有复杂背景和物体的挑战性图像THUR[9]从Flickr上收集了6232张图片，有5个主题：4.2. 评估指标四个指标用于定量性能比较和分析，包括精度-召回（PR）曲线，自适应-Fβ，ω-Fβ[36]和平均绝对误差（MAE）。假设显著性值在范围[0，255]内通过计算精度生成曲线 = |M∩G|和回忆=|M∩G|在二进制掩码（M）和地面实况上（G）阈值从0到255变化。为了计算自适应-Fβ，我们将显著性图二值化，其平均显著性值的两倍作为阈值。然后在二进制映射上计算精度和召回率，自适应-Fβ为：（1+β2）×精确度×召回率Fβ=β2×精度+召回率（12）其中β2通常被设置为0.3x=1y=1其中W和H分别是地图的宽度和高度。4.3. 性能比较我们比较了所提出的方法与几个最近-在上述数据集上测试最先进的方法S.这些方法包括基于对比度的模型FT [1]，HC [10]，DRFI [21]，基于中心偏差的算法GM-R [56]，BSCA[47]以及最近的基于深度学习的方法MTDS [31]，ELS[29]，MCDL [62]，ELD [26]，LEGS [50]。为了公平的比较，我们使用检测结果或作者提供的原始代码与默认设置。图6给出了与精确-召回曲线和自适应Fβ的相应性能比较。可以看出，基于深度学习的方法比传统方法实现了更好的性能与现有的最先进的方法相比，我们的方法在精确度和召回率都很高的地方（P-R曲线的右上区域）取得了更好的性能。通常使用该范围内的阈值生成良好的分割结果如图2的第二行所示6、与其他方法相比，该方法具有更好的自适应阈值分割性能。MAE和ω-Fβ的比较见表1。我们的模型在大多数数据集上实现了最佳性能在这些模型中，最近最先进的方法ELD和MTDS都是使用MSRA 10 K数据集训练的，并建立在VGG 16-net上，这与我们的设置相同。给定一个输入，ELD逐个处理超像素，并花费大约0.799秒来产生最终的显着图（在C++/caffe中实现）。MTDS基于全卷积神经网络输出的超像素和粗糙显着图为每个输入解决了优化问题，并且每个图像大约需要5.6秒（在python/caffe中实现）。这是两种典型的方法来细化显着图与超像素。与它们不同的是，我们的方法通过引导超像素滤波层有效地结合了超像素信息在测试期间，建议的网络处理230732图6.数据集上的精确-召回曲线和自适应-Fβ数据集度量FTHCDRFIGMRBSCAMCDL腿MTDSMDFELD我们SED2Maeω-Fβ0.1980.3330.1800.5170.1250.6130.1670.5680.1570.5260.1190.6300.1230.6210.1180.6110.1070.6740.1050.6870.0840.733PascalMaeω-Fβ0.2950.2050.3480.3090.2040.5140.2170.4210.2250.4390.1570.5730.1610.5960.1790.5370.1510.5820.1320.6580.1360.651ECSSDMaeω-Fβ0.2930.2440.3340.3190.1660.5850.1900.4840.1850.5090.1160.6790.1220.6820.1250.6630.1120.6920.0920.7560.0900.766OmronMaeω-Fβ0.2580.1940.3200.2420.1560.4670.1870.3790.1900.3700.0980.5480.1340.5200.1200.4860.0940.5570.0960.5810.0930.591HKU-ISMaeω-Fβ0.2280.1960.2910.3110.1540.5530.1810.4430.1780.4600.1060.6340.1220.6070.0810.7110.1300.5670.0840.7180.0720.748ThurMaeω-Fβ0.2190.1730.2930.2560.1530.4710.1790.3720.1830.3840.1100.5420.1270.5350.1180.5250.1320.5020.1030.5960.0990.621表1.建议方法与方法FT [1]、HC [10]、DRFI [21]、GMR [56]、BSCA [47]、MCDL [62]、LEGS [50]、MTDS [31]、ELD [29]之间的比较。最好的一个标记为红色，第二个标记为绿色，第三个标记为蓝色。通过简单地执行一个单一的前馈传递，平均只需0.078秒，在相同的实验环境中输入。一些定性比较如图所示7.第一次会议。我们的模型能够产生显著性地图，突出突出区域准确和均匀。4.4. 拟定方法分析该方法中有两个重要的超参数：近似Heaviside函数中的ε和引导超像素滤波中的图半径D。图图8显示了所提出的网络在数据集上具有不同参数值的性能顶部的两个图表是用于引导超像素过滤器中的图形半径D。我们尝试了六个值，发现从1开始增加D会导致性能略有改善，当D >4时，性能迅速下降。较大的D将在较大区域内传播显著性，并且这可能在复杂场景中产生噪声。底部图表显示了近似Heaviside中不同ε功能大的和小的值都会导致性能的下降。小的ε导致窄的支持范围并且可能陷入局部最小值，另一方面，大的ε可能无法学习好的水平集函数并且无法生成紧凑的显着图。因此，在最终系统中，我们设置D= 3，ε=1。分析E中定义的拟议能量函数Q. 4如图所示。9.我们用不同的参数设置训练基于VGG16的CNN，以评估不同术语的贡献。如图所示，长度项（与γ相关）和紧凑性项（与λ相关）有助于提高性能。我们都- 因此，请评估我们网络中不同组件的性能，如图所示。3.基于VGG 16的CNN使用BCE损失训练15个时期，并使用所提出的水平集方法微调15个时期（由“C-NN +LS”表示通过插入GSF层，我们得到了完整的网络，并将其表示为“CNN+LS+GSF”。为了进行比较，另一个基于VGG16的CNN训练了30个epoch2308真相（a）投入（b）地面-（c）FT(d) HC(e) GMR（f）BSCA （g）中期发展战略（h）（i）MCDL（j）ELD（k）LEGS（l）CNNCNN+LS我方最后图7.与FT [1]、HC [10]、GMR [56]、BSCA [47]、MTDS [31]、ELS [29]、MCDL [62]、ELD [26]、LEGS [50]进行定性比较”CNN”PascalECSSDOmronThur时间（ms）CNNMaeω-Fβ0.1430.6190.1040.7150.1020.5340.1080.56950CNN+LSMaeω-Fβ0.1380.6460.0950.7520.0990.5690.1050.59350CNN+LS+GSFMaeω-Fβ0.1360.6510.0900.7660.0930.5910.0990.62178表 2. 方法分析 “CNN” 表示用 BCE 损失训练的 CNN 。“CNN+LS”是用水平集方法训练的CNN。“CNN+LS+GSF”代表完整的网络。最后一列报告了一个图像的平均时间成本。PASCAL ECSSD OMRON THUR图8.参数分析上图：引导超像素过滤层中不同半径D底部：近似Heaviside函数层中不同ε0.4图9.不同参数设置的性能。仅使用BCE损失（由如表2和图3所示。如图7（1）-（n）所示，使用水平集有助于网络检测更紧凑的显著区域并检测更多的形状细节。通过添加GSF层，网络可以进一步改善显着性图，并准确地从背景中分割显着对象。我们还在表中报告了时间成本。引导超像素滤波层处理D= 3的图像大约需要28ms。我们最终的网络可以以超过12FPS的速度运行。5. 结论本文提出了一种端到端的深度水平集网络来检测显著目标。训练学习水平集函数而不是直接学习二进制地面实况，网络可以更准确地处理对象边界。此外，所提出的方法将引导图像滤波器扩展到处理超像素，使得显著性可以在像素之间进一步传播，并且显著性图可以恢复到全分辨率。在基准数据集上的实验表明，该方法能够有效地检测出显著目标确认这项研究得到了新加坡教育部（MoE）Tier 2 ARC28/14和新加坡A*STAR科学与工程研究委员会PS-F1321202099 的部分支持。作者非常感谢 NVAITC（NVIDIA AI技术中心）的支持，感谢他们捐赠TeslaK40和K80卡用于我们在快速丰富对象搜索（ROSE）实验室的研究。平均绝对误差-0.270.850.220.750.170.650.120.550.07D =12 3 4680.45D =12 3 46 8平均绝对误差-0.240.80.20.70.160.60.120.08=1111148161110.5=1111111123264128248163264128（m）（个）平均绝对误差-α=0.75;=-0.005;λ=0.20;α=0.75;=-0.005;λ=0;α=0.75;λ=0.20;α=0.75;=0;λ=0;0.160.80.70.120.60.080.04PascalECSSDOmronThurPascalECSSDOmronThur2309引用[1] R. Achanta，S. Hemami，F. Estrada和S.暂停频率调谐显著区域检测。CVPR，2009。[2] S.阿尔珀特M. Galun，A. Brandt和R.巴斯里图像分割的概率自底向上聚合和线索整合。IEEE Trans. on PAMI，34（2）：315[3] T. Andersson，G.拉滕河Lenz和M.博尔加基于水平集的改进梯度搜索图像分割。 IEEE Trans. on imageprocessing，22（2）：621[4] S. Avidan和A.沙米尔用于内容感知图像大小调整的接缝雕刻。在2007年ACM图形学报第26卷第10页中[5] A. Bansal，X.陈湾，澳-地罗素，A. Gupta和D. RamananPixelnet ： Towards a General Pixel-Level Architecture.arXiv预印本arXiv：1609.06694，2016。[6] 诉卡塞勒河 Kimmel 和 G. 萨皮罗测地线活动轮廓。IJCV，22（1）：61[7] T. F.陈，S. Esedoglu和M.尼科洛娃算法-用于寻找图像分割和去噪模型的全局最小值。SIAM应用数学杂志，66（5）：1632[8] T. F. Chan和L. A.维斯没有边的活动轮廓。IEEE Trans. 图像处理，10（2）：266 -277，2001。[9] M.- M. Cheng，N. J. Mitra，X. Huang和S.- M.胡凸形：图像集合中的组显著性。 The Visual Computer ， 30（4）：443[10] M.- M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.-M.胡基于全局对比度的显著区域检测。IEEE Trans. onPAMI，37（3）：569[11] L.埃文斯.偏微分方程美国数学学会，1998年。[12] S.戈弗曼湖Zelnik-Manor和A.塔尔上下文感知显著性检测。IEEE Trans. on PAMI，34（10）：1915[13] H. 哈迪扎德和我。诉巴伊奇显著性感知视频压缩。IEEE Trans.图像处理，23（1）：19-33，2014年。[14] J. Harel，C. Koch和P.佩洛娜基于图形的视觉显著性。在NIPS，2006年。[15] K. 他，J.Sun和X.唐引导图像滤波。ECCV，2010年。[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。[17] X. Hou和L.张某显着性检测：光谱残差方法。CVPR，2007。[18] G. Huang，Z.Liu和K.Q. 温伯格密集连接的卷积网络。arXiv预印本arXiv：1608.06993，2016。[19] L.伊蒂角Koch，E. Niebur等人基于显著性的快速场景分析视觉注意模型。IEEE Trans. on PAMI，20（11）：1254[20] Y. Jia和M.韩类别无关的对象级显著性检测。InICCV，2013.[21] H. Jiang，J. Wang，Z. Yuan，Y. Wu，N. Zheng，和S.李显著对象检测：判别式区域特征集成方法。CVPR，2013。[22] P. Jiang，H.Ling，J.Yu和J.朋UFO显著区域检测：统一性、集中性和客观性。InICCV，2013.[23] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。[24] S. S. Kruthiventi 诉古迪莎， J. H. Dholakiya，以及R.文卡特什先生显著性统一：一种用于同时进行眼睛注视预测和显著对象分割的深度架构。在CVPR，2016年。[25] J. Kuen，Z. Wang和G.王.用于显著性检测的递归注意网络。在CVPR，2016年。[26] G.李，Y.- W. Tai和J. Kim。具有编码的低级距离图和高级特征的深度显著性。在CVPR，2016年。[27] C. Li，C.-，中国地质大学学报（自然科学版），2003 -11 Y.高敬中Gore和Z.丁最小化区域可缩放拟合能量的图像分割。 IEEE Trans. on Image Processing ， 17（10）：1940[28] C. Li，C. Xu，C. Gui和M. D.狐狸.无需重新初始化的水平集演化：一个新的变分公式在CVPR，2005年。[29] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。CVPR，2015。[30] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在CVPR，2016年。[31] X.利湖，澳-地赵湖，加-地韦，M.- H. Yang，F. Wu，Y. 庄H. Ling和J.王.深度显著性：用于显著对象检测的多任务深度神经网络模型。IEEE Trans. on Image Processing，25（8）：3919[32] Y. Li，X.侯角，澳-地Koch，J. M. Rehg，和A. L.尤尔。显着对象分割的秘密。CVPR，2014。[33] N. Liu和J.Han. Dhsnet：用于显著对象检测的深度层次显著性网络。在CVPR，2016年。[34] T. Liu，Z.袁杰孙杰Wang，N. Zheng，X. Tang和H.- Y.沈学习检测显著物体。 IEEE Trans. on PAMI ， 33（2）：353[35] R. Malladi，J.A. Sethian和B.C. 维穆里具有前沿传播的形状建模：水平集方法。IEEE Trans. on PAMI，17（2）：158[36] R.马戈林湖Zelnik-Manor和A.塔尔如何评价前景图？CVPR，2014。[37] S. Osher和R. Fedkiw. 水平集方法与动态隐式曲面，第153卷。Springer Science Business Media，2006.[38] S. Osher和J. A.塞西安以曲率相关速度传播的锋面：基于Hamilton-Jacobi公式的算法。计算物理学报，79（1）：12[39] J. Pan，E.Sayrol，X.Giro-i Nieto，K.McGuinness和N.E.奥康纳用于显著性预测的浅层和深层卷积网络。在CVPR，2016年。[40] F. Perazzi，P.Krahenbuhl，Y.Pritch和A.霍农Salien- cy过滤器：用于显著区域检测的基于对比度的滤波。CVPR，2012。[41] C. Y. Ren，V.A. 普利斯卡留和我D. 里德gSLICr：SLIC超像素，频率超过 250 Hz 。 ArXiv 预印本 arXiv ：23101509.04232，2015。2311[42] B. Schauerte和R

下载后可阅读完整内容，剩余1页未读，立即下载