简化卷积神经网络实现高效显著目标检测

30 浏览量更新于2023-10-15 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6609用于显著目标检测Zhiming Luo1，2，3，Akshaya Mishra4，Andrew Achkar4，Justin Eichel4，Shaozi Li1，2岁，Pierre-Marc Jodoin31厦门大学认知科学系2厦门大学福建省脑启发计算技术与应用重点实验室3加拿大舍布鲁克大学计算机科学系4Miovision Technologies Inc.，加拿大{zhiming.luo，pierre-marc.jodoin}@ usherbrooke.ca，szlig@xmu.edu.cn{amishra，aachkar，jeichel}@ miovision.com摘要显著性检测旨在突出图像中最相关的对象。使用传统模型的方法在杂乱的背景上描绘突出对象时会遇到困难，而深度神经网络则会遇到过度复杂和缓慢的评估速度。在本文中，我们提出了一个简化的卷积神经网络，通过多分辨率4×5网格结构结合局部和全局信息。我们没有像通常情况下那样用CRF或超像素来强制空间相干性，而是实现了一个受芒福德启发的损失函数惩罚边界上的错误的Shah泛函我们在MSRA-B数据集上训练了我们的模型，并在六个不同的显着性基准数据集上对其进行了测试。结果表明，我们的方法是与国家的最先进的水平，同时减少计算时间的一个因素的18至100倍，使近实时，高性能的显着性检测。1. 介绍显著性检测旨在模仿人类视觉系统，自然地将场景的主要对象与图像的其余部分几个应用受益于显着性检测，包括图像和视频压缩[14]，上下文感知图像重定向[25]，场景解析[50]，图像重构[3]，对象检测[44]和分割[33]。显著对象通常被定义为一个区域，其视觉特征不同于图像的其余部分，并且其形状遵循一些先验标准[5]。传统方法通常提取局部像素或区域特征，并将其与全局特征进行比较。该比较的结果最近，深度学习已经进入显着性检测领域，并迅速成为事实上的基准。相对于传统的，*通讯作者。无监督方法的另一个优点是，它们可以使用结合局部和深度特征的简单优化函数进行端到端训练。虽然一些方法应用了直接的卷积神经网络（CNN）模型[36]，但其他方法提出了针对显着性检测问题定制的模型[25，26，29，43，50]。为了实现最先进的性能，性能最好的CNN模型需要一些重要的步骤，例如生成对象建议，应用后处理，通过使用超像素或定义复杂的网络架构来增强平滑度，同时使预测速度远远低于实时。因此，仍然有机会简化模型体系结构并加快计算速度。在本文中，我们表明，国家的最先进的CNN模型的首要目标空间相干性通过Mumford-Shah（MS）泛函[35]启发的贝叶斯损失来实施。损失表示为交叉熵项和边界项之和。与MS功能的常规实现相反，我们使用由深度网络学习的非本地特征，而不是原始RGB颜色。此外，不是直接最小化边界长度（如由非监督MS实现所做的），而是最小化使用预测边界像素和地面实况边界像素计算的联合损失上的交集。这个边界惩罚项显着有助于我们的模型我们模型还沿每个分辨率轴使用局部对比度处理块，以提升特征强烈的局部对比。所得到的局部和全局特征被组合到一个6610由于我们的方法不依赖于超像素，因此它是完全卷积的，从而实现了一流的评估速度。NLDF模型对输入图像的评估值为0。08s，与其他最先进的深度学习方法相比，速度增益为18至100倍，同时与MSRA-B[30]，HKU-IS[25]，PASCAL-S[27]，DUT-OMRON[49]的最先进评估性能ECSSD [48]和SOD [32]基准数据集。本文的其余部分组织如下。第2节概述了基于深度学习的显着性检测技术。第三部分描述了我们的NLDF模型的理论和实际实现。最后，第4节讨论了非局部特征模型与其他最先进的显著性检测方法的性能。2. 相关作品大多数以前的方法实现了一个无监督的模型，其目标是找到具有不同于背景的视觉特征的对象。先前的努力已经测试了简单的特征，如颜色和灰度[2]，边缘[13]或纹理[10]，以及更复杂的特征，如对象，焦点和背景[18，46，9]。文献提供了各种各样的无监督方法，在像素级[2]，区域级[11]，基于图形的方法[15，45]和贝叶斯公式[47]。读者应参考Borji等人的调查论文。[5]关于无监督方法的更多细节。虽然无监督方法有其优点，包括简单性和不需要训练，但它们已经被机器学习方法所超越。尽管一些传统的人工智能方法，如SVM [41]表现良好，但深度学习方法，特别是CNN模型，已经提高了标准，并将自己作为不可避免的标准。使用CNN，显着性问题已被重新定义为标记问题，其中显着和非显着对象之间的特征选择通过梯度下降自动完成。CNN最初被开发用于执行图像分类[22，4，24，23]。这些模型由一系列具有非线性激活函数和最大池操作的卷积层组成，一直到预测每个类别可能性的softmax层CNN方法先验地不适合预测显着图，因为它们的输出是k-D向量（其中k是类的数量），而不是一个N×M图（其中N×M是输入图像的大小）。但是，可以缓解这个问题-Lem通过提取每个像素周围正方形块并使用该块来预测中心像素为了使这些方法捕获超出每个补丁范围的全局上下文，它们处理从输入图像的不同分辨率获取的补丁。几种深度视觉显著性检测方法使用相同的补丁技巧来预测显著性图[29，50，25，43]。Zhao等人[50]将图像的全局和局部上下文集成到单个多上下文网络中，其中全局上下文有助于对完整图像中的显着性进行Li等[25]开发了一种计算模型，使用由三个CNN和三个完全连接的层提取的多尺度深度特征来定义图像的显著区域。设计这样一个复杂的模型是Wang等人[43]制定了两级战略：基于与用于识别显著区域的全局搜索策略并行的局部上下文估计，为每个像素分配显著性。然后使用测地线对象建议技术将这两个显着图组合在一起[21]。使CNN的输出分辨率与输入图像分辨率匹配的另一种方式是通过一个（或多个）上采样层。这样做的一种流行方法是Long等人的FCN方法。[31]它在网络的最末端添加了一个使用这种方法的显着性检测方法是最准确的方法之一[7，36，26]，因为它们比分片方法更好地捕获局部和全局上下文。为了加强空间相干性，大量方法使用预先计算的区域或超像素[25，26，50，29，43]。粗略地说，这个想法是将超像素的显着性得分设置为位于其内部的每个像素的平均显着性得分。由于超像素可能不准确，一些方法[43]使用多个对象建议，然后将其组合，而其他方法则使用多个CNN流[26，50]。空间相干性也可以通过使用CRF或平均场后处理来增强[26，23]。这些方法的主要不便之处在于它们的处理时间。我们的方法与这些方法不同，因为它使用单个和完全卷积的CNN。它使用了一系列多尺度卷积和反卷积块组织在一个新的5×4网格。我们的CNN模型确保输出具有正确的大小，同时捕获局部和全局背景以及各种分辨率的特征。空间相干性通过受Mumford-Shah模型[35]启发的损失函数来实现，我们将其适应于机器学习的背景。3. 该方法3.1. 基于模型的显著性检测显著区域检测和图像分割通常归结为由数据项和正则化项组成的非凸能量函数的优化一个优雅的数学全球模型是漫画6611图1.我们的4×5grid-CNN网络用于显著对象检测的架构Mumford-Shah（MS）模型[35]，其拟合能量随交叉熵数据保真度之和而变化Σ∫。.2000 年地面实况和估计的显著性之间的术语，FMS=λ j 。I（v）− u j.dv +γjdv（一）边界损失项：jv∈jJv∈CjΣ∫Σ联系我们数据保真度联系我们边界长度FMS<$λj Hj（y（v），y<$（v））+JJγj（1−IoU（Cj，C<$j））（三）将图像I分割为一组不相交的分段常数函数u，j，索引为j。在这里，N是开集v∈j联系我们交叉熵联系我们边界IoU损失表示图像域，I是观察到的图像，uj是基本的分段常数分割图像，v是像素位置，C是分割区域的边界。正加权常数λj和γj在数据保真度和总边界长度方面调整多准则能量函数。从贝叶斯统计角度[6，51]，方程。（1）可以近似为，其中，Hj是地面实况图1是区域Cj内的所有像素（v）的显著性（y）和估计的显著性（y）图，并且IoU（Cj，Cj）是真实边界Cj上的像素与区域Cj内的像素（v）之间的并集上的交集。在估计的边界Cj上。注意，由于我们的方法实现了一个监督版本的MS函数，使用IoU可以让我们的方法学习更高的层次Σ∫FMSλjΣIlogpj（I（v），v）dv+γjdv.（二）先验项，即学习惩罚错误边界而不是最小化总边界长度的项。jv∈j联系我们数据保真度jv∈Cj联系我们边界长度3.2. 网络架构在这里，我们提供了一个深度卷积网络架构-由于没有解析解方程。（1）和（2），最常见的无监督方法来优化这些采用水平集基本曲线演化技术[8，42]，广义贝叶斯准则使用变分原理，和模拟退火[51]。尽管它们的数学优雅，这些方法本质上都是迭代的，使得它们对初始条件敏感，并且可能在存在噪声、背景杂波、弱图像边界或图像不均匀性的情况下失败。此外，在迭代求解水平集的收敛速度差，限制了他们的实用性，非实时应用。为了解决这些问题，我们提出了一种监督深度卷积网络，其损失接近MS6612其目标是学习判别显着性特征（我们的模型如图1所示）。如第2、良好的显著性特征必须考虑图像的局部和全局背景，并结合来自不同分辨率的细节为了实现这一目标，我们实现了一个新颖的网格状CNN网络，包含5列和4行。这里，每一列都面向特定于给定输入尺度的特征的提取。输入I到我们的模型（左侧）是一个352×352的图像，输出（右侧）是一个176×176的显着图，我们使用双线性插值将其调整回352×352我们模型的第一行包含五个卷积来自VGG-16的块[39]（CONV-1至CONV-6613我我表1. 所提出的用于预测显著对象的深度卷积网络的细节（S：步幅，衬垫：零填充）。块层内核S垫输出CONV-12转换3*31是的352*352*64最大池2*22是的176*176*64CONV-22转换3*31是的176*176*128最大池2*22是的88*88*128CONV-33转换3*31是的88*88*256最大池2*22是的44*44*256CONV-43转换3*31是的44*44*512最大池2*22是的22*22*512CONV-53转换3*31是的22*22*512最大池2*22是的11*11*512CONV-6conv3*31是的176*176*128CONV-7conv3*31是的88*88*128CONV-8conv3*31是的44*44*128CONV-9conv3*31是的22*22*128CONV-10conv3*31是的11*11*128UNPOOL-5代诺夫五 *五2是的22*22*128UNPOOL-4代诺夫五 *五2是的44*44*256UNPOOL-3代诺夫五 *五2是的88*88*384UNPOOL-2代诺夫五 *五2是的176*176*512当地conv1*11没有176*176*640全球Conv-1五 *五1没有7*7*128Conv-2五 *五1没有3*3*128Conv-33*31没有1*1*128评分conv-L1*11没有176*176*2conv-G1*11没有1*1*2（五）。如表1所示，这些卷积块包含步幅2的最大池化操作，其对它们的特征图{X1，.， X5}乘以2，例如{176×176，88×88，.，11×11}。最后右边-第一行的大多数卷积块计算特征XG，它们特定于图像的全局上下文。第二和第三行是一组十个卷积块，第2行是CONV-6到CONV-10，第3行是这些块的目的是计算特定于每个分辨率的特征（Xi）和对比度特征（XC对比度特征捕捉每个特征相对于其局部邻域的差异，有利于比其邻域更亮或更暗的区域。最后一行是一组去卷积层，用于将特征图从11×11（右下）一直放大到176×176（左下）。这些UNPOOL图层是组合计算的要素地图（Xi，XC）的一种每一个尺度左下块构造最终的局部特征图XL。SCORE块有2个卷积层和一个softmax来计算显著性概率，6614我我我我我我13.2.1非局部特征提取多尺度局部特征：如第二行所示在图1中，卷积块 CONV-6 至 CONV-10 连接到 VGG-16 的CONV-1至CONV-5处理块。这些卷积层的目标是学习多尺度局部特征图{X1，X2，.，X5}。每一个骗局-卷积块的核大小为3×3，128个通道。对比度特征：显著性是前景物体的独特性质，使其从周围的背景中脱颖而出。因此，显著性特征必须在前景对象内部和背景内部是统一的，但同时在前景和背景区域之间是不同为了捕获这种对比度信息，我们添加了与每个局部特征Xi相关联的对比度特征。计算每个对比度特征Xc通过从其局部平均值中减去Xi。平均池化的核大小为3 ×3X c=X i− AvgPool（X i）。（四）注意，这种对比度特征在精神上类似于Achanta等人的对比度特征。[2]计算像素RGB颜色和图像的全局平均颜色之间的差异。它甚至更接近于Liu和Gleicher [28]的方法，后者从高斯图像金字塔计算对比度特征。然而，我们的方法是不同的，因为我们的功能是学习的，而不是预定义的。反卷积功能：从最后出局的大小来看 -put 为176×176，我们使用一系列反卷积层来增加预先计算的特征图Xi和斑点胡鲶而不是将特征图增加{2，4，8，16}如Longet al. [31]这导致粗糙的特征图，我们采用逐步上采样程序如图1中第三行所示。在每个UNPOOL处理块中，我们将先前的特征图上采样2倍。通过组合其局部特征Xi、局部对比度特征Xc和前一个块的未合并特征U i +1的信息，计算得到的未合并特征图UiU i= UNPOOL（X i，X c，U i+1）。（五）UNPOOL操作由步长为2的反卷积层和5×5内核实现输入是Xi、XC和Ui+1的级联。Ui的特征通道数等于Xi和Ui+1之和。本地特色地图：我们使用内核大小为1 × 1的卷积层来获得最终的局部特征图XL。的该层输入是X1、XC和U2融合局部（XL）和全球（XG ）功能。进一步de-1我们的模型的尾部在表1中给出。X L=CONV（X1，X c，U2）.（六）6615XL的特征通道数等于X1和U2之和。请注意，我们尝试使用另一个UNPOOL操作将XL的大小从176×176增加到352×352，但发现此操作将计算时间加倍，而不会显著提高精度。把握全球背景：检测图像中的显著对象需要模型在将显著性分配给各个小区域之前捕获图像的全局上下文。为了解决这个问题，我们在CONV-5块之后添加了三个卷积层来计算全局特征XG。前两个卷积层的内核大小为5，最后一个卷积层的内核大小为3。所有三个层都有128个特征通道。3.3. 交叉熵损失使用两个线性算子（WL，bL）和（WG，bG）将最终显著图计算为局部特征XL和全局特征XG的线性softmax函数用于计算每个像素是否显著的概率W cXL（v）+bc+W cXG+bc图2. 使用单个输入图像（a）连同其地面实况显著性（b）和边界（c）来训练仅包含等式（1）中的IoU边界损失项的模型（三）、估计边界(d)在训练200次迭代之后，与真实边界非常一致。.Σy（v）=py（v）=c=eL LG GWc′c ′c ′c ′c′∈{0，1}e交叉熵损失函数LXL（v）+bL+WGXG+bG（七）示例如图2所示。请注意，intersection-灰是使用逐点乘法运算符实现的1公斤4. 实验结果..ΣΣHj（y（v），y（v））=−Ni=1c∈{0，1}（y（vi）=c）logy（vi）=c（八）4.1. 基准数据集我们已经评估了我们的方法的性能用于最小化方程中的第一个数据项。（二）、3.4. IoU边界损失受Dice损失或IoU边界损失在医学图像分割中的重要应用的启发[53，40，34]，我们提出的方法近似于等式2的边界长度上的惩罚。（1）使用IoU边界损失项。为了计算边界损失，我们使用Sobel算子然后使用tanh激活来近似显着图梯度幅度（以及因此的边界像素）。双曲正切激活投射了显著性映射到概率范围[0，1]。给定区域j的显著性cy图C的梯度幅值和真实显著性图C的梯度幅值，Dice或IoU边界损失可以计算为2 |CC|IoU损失=1−|C|+的|C|、（9）（NLDF）在六个不同的公共基准数据集上进行测试：[25]第一次世界大战后，中国的经济发展和社会进步受到了很大影响。[27][28][29][29][29][29]MSRA-B：包含5000幅图像，广泛用于视觉显著性检测。大多数图像都有一个突出的对象和一个像素级的地面实况[17]。HKU-IS：包含4447张图像，其中大部分具有低对比度和多个显著对象。该数据集被分为2500张训练图像、500张验证图像和剩余的1447张测试图像。DUT-OMRON：包含5168个具有挑战性的图像，每个图像都包含一个或多个具有相对杂乱背景的突出对象。PASCAL-S：包含850张自然图像，这些图像是根据PASCAL-VOC 2010分割挑战的确认集构建的该数据集包含由12个受试者标记的逐像素显著性地面实况和眼睛注视地面实况。J JECSSD：包含1000张具有复杂结构的图像其范围为[0，1]。我们的整个边界重叠损失计算过程是端到端可训练的，并且从互联网上获得。地面真相面具是由5名受试者标记。6616图3. 与我们的NLDF方法相比，GS [46]，MR [49]，wCtr* [52]，BSCA [38]，LEGS [43]，MC [50]，ESTA [25]和DCL [26]方法产生的显着性图。与其他深度学习方法（LEGS，MC，EML和DCL）的显着性图相比，NLDF图提供了清晰的显着区域，并表现出良好的均匀性。与非深度学习方法（GS、MR、wCtr* 和BSCA）相比，我们的方法对背景杂波的鲁棒性也更强。SOD：包含300幅最初设计用于图像分割的图像许多图像包含具有低对比度和重叠边界的多个显著4.2. 实施和实验设置我们的NLDF模型在TensorFlow中实现[1]。CONV-1到CONV-5块中的权重使用VGG-16的预训练权重初始化[39]。新添加的卷积和去卷积层的所有权重都用截断的正态（σ= 0）随机初始化。01），偏差初始化为0。亚当优化器[19]用于训练我们的模型，初始学习率为10−6，β1=0。9，且β2=0。999在等式中的λj和γj（3）设为1。为了与其他方法进行公平比较，我们遵循[ 17 ]的实验设置，将MSRA-B数据集分为3部分：2500张图像用于培训，500张图像用于确认，其余2000张图像用于测试。将训练集和验证集组合在一起进行训练我们的模型用水平翻转作为数据增强。输入的大小调整为352×352用于训练。使用NVIDIA Titan X GPU，只需109小时即可完成20个epoch的整个训练过程，批量大小。在没有进一步优化的情况下，该训练模型用于计算其他数据集的显着性图4.3. 评价标准采用查准率 - 查全率曲线、 Fβ 和平均绝对误差（MAE）作为评价显著性检测性能的指标PR曲线是通过在从0到1的不同概率阈值下对显着性图进行二进制化并与地面实况进行比较来至于Fβ测度，它被定义为，（1 +β2）·查准率·查全率Fβ =β2·精确度+召回率。（十）其中β2= 0。3.强调精确度而不是召回度，如[2]所建议的我们报告计算的最大F-测量6617表2.我们的模型在六个基准数据集上的定量性能与GS [46]，MR [49]，wCtr*[52]，BSCA [38]，LEGS [43]，MC [50]，ESTA[25]和DCL [26]模型进行了比较后四种是深度学习方法，前四种不是。Fβ和MAE度量在文本中定义。数据集度量GS先生wCtr*BSCA腿MCMDFDCLDCL+NLDF-NLDFMSRA-B最大FβMae0.7770.1440.8240.1270.8200.1100.8300.1300.8700.0810.8940.0540.8850.0660.9050.0520.9160.0470.9120.0480.9110.048HKU-IS最大FβMae0.6820.1670.7150.1740.7260.1410.7230.1740.7700.1180.7980.1020.8610.0760.8920.0540.9040.0490.8740.0600.9020.048DUT-Omron最大FβMae0.5570.1730.6100.1870.6300.1440.6160.1910.6690.1330.7030.0880.6940.0920.7330.0840.7570.0800.7240.0850.7530.080Pascal-S最大FβMae0.6240.2240.6660.2230.6590.2010.6660.2240.7560.1570.7400.1450.7640.1450.8150.1130.8220.1080.8040.1160.8310.099ECSSD最大FβMae0.6610.2060.7360.1890.7160.1710.7580.1830.8270.1180.8220.1060.8320.1050.8870.0720.9010.0750.8860.0750.9050.063SOD最大FβMae0.6010.2660.6190.2730.6320.2450.6340.2660.7070.2150.6880.1970.7450.1920.7950.1420.8010.1530.7760.1610.8100.143S、ECSSD和SOD数据集。MSRA-B的变化很小，这是一个预期的结果，因为训练和测试样本是从类似的图像池中提取的。有意义的是，这些结果表明，边界损失项直接增强了NLDF的通用性，使其对输入类型的变化更具鲁棒性。图4.在等式中具有和不具有边界损失项的显著性检测结果的视觉比较（二）、PR曲线。MAE [37]被计算为估计的显著性图S与其对应的地面实况L之间的平均逐像素绝对差，4.5. 与最新技术水平的比较我们将我们的NLDF方法与几种最新的最先进的方法进行了定量比较：测地线显著性（GS）[46]、流形排名（MR）[49]、优化加权对比度（wCtr*）[52]、基于背景的单层细胞自动机（BSCA）[38]、局部估计和全局搜索（LEGS）[43]、多上下文（MC）[50]、多尺度深度特征（EML）[25]和深度对比度学习（DCL）[26]。LEGS、MC、DCL和DCL是最新的基于深度学习的显著性检测方法。请注意，由于HKU-IS数据集的一部分用于训练1千瓦你好模型[25]，我们只计算评估指标.Mae=宽×高x=1y =1. S（x，y）−L（x，y）. .（十一）在HKU-IS的测试集上。此外，仅提供在SOD数据集上预计算200个显著性图，我们使用相同的子集进行评估。其中W和H是给定图像的宽度和高度。4.4.边界损失项除了我们的NLDF模型之外，我们还训练了一个模型，表示为NLDF-，它只包含交叉熵损失项，不包括边界损失项[参见等式2]。3]。如图4所示，从NLDF生成的显著性图相当粗糙，并且显著性对象的边界没有得到很好的如表2的最后两列所示，性能的这种定性下降也反映在定量结果中。与NLDF-相比，NLDF中包含边界损失导致最大F β增加2。1%至4。4%，MAE下降5。8%至20。HKU-IS、DUT-OMRON、PASCAL-与表现最好的方法DCL+[26]相比，DCL+是DCL的扩展，使用完全连接的CRF [20]作为后处理步骤来细化显着图，我们发现NLDF在所有方面都达到了几乎相同（或更好）的性能（见表2）。这是在没有显著的后处理步骤的情况下实现的，这意味着执行时间和实现复杂性大大降低。[26]中报告的DCL计算时间为1.5 s/（300×400）图像，CRF后处理（DCL+）额外0.8 s。相比之下，我们的NLDF方法在Titan X GPU上每个图像这种实质性的加速支持几乎实时的显著对象检测，同时还提供最先进的性能。661810.90.80.70.60.50.40.30.20.110.90.80.70.60.50.40.30.20.110.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.100.10.20.30.40.50.60.70.80.91召回010.90.80.70.60.50.40.30.20.100.10.20.30.40.50.60.70.80.91召回010.90.80.70.60.50.40.30.20.100.10.20.30.40.50.60.70.80.91召回000.10.20.30.40.50.60.70.80.91召回000.10.20.30.40.50.60.70.80.91召回000.10.20.30.40.50.60.70.80.91召回图5.我们的模型与GS [46]，MR [49]，wCtr* [52]，LEGS [43]，BSCA [38]，ESTA [25]，MC [50]和DCL [26]相比的精确召回曲线在MASR-B，HKU-IS，DUT-OMRON，PASCAL-S，ECSSD和SOD基准数据集上进行了评估我们的NLDF模型可以在所有六个数据集上提供最先进的性能。图3提供了显着图的视觉比较。所有其他方法的显着性图要么由作者提供，要么使用作者发布的代码计算。精确度-召回率曲线如图3所示，最大Fβ和MAE评分如表2所示。如表2所示，与GS、MR、wCtr*、BSCA、LEGS、MC、WAF和DCL相比，我们的NLDF模型在所有方面都实现了更优的定量最大Fβ、MAE和PR性能NLDF在最大Fβ和MAE方面也超过DCL+更多倍，并表现出等同或更好的PR曲线。我们还将平均计算时间与其他四种领先的深度学习方法进行了比较，以生成表3中的一张图像的显着性图。在Titan Black GPU上，我们的方法比现有方法快18到100倍。表3.领先的深度学习方法的推理时间腿MCMDFDCLDCL+NLDFs/img21.681.52.30.085. 结论局部和全局特征的整合已经被证明是一种强大的显着性检测机制。在这里，我们通过向典型的交叉熵损失中添加边界损失项，将这种方法更进一步，实际上在深度神经网络框架中实现了Mumford-Shah泛函，并对其进行了端到端的训练由此产生的模型在多个显著性检测基准数据集上实现了最先进的性能，不使用任何特殊的预处理或后处理步骤，并且计算显著性图的速度比竞争系统快18到100倍。6. 致谢本工作得到了国家自然科学基金（No.61572409，No.61402386，No.61571188）、福建省中医药健康管理协同创新中心、中国乌龙茶产业协同创新中心（2011）、加拿大国家研究委员会（No.172083）、加拿大国家科学与工程研究委员会（IRAP）和加拿大国家科学与工程研究委员会（ENGAGE）的资助。引用[1] M. Abadi等人TensorFlow：大规模机器学习异构系统，2015年。软件可从tensor-flow.org获得。6[2] R. Achanta，S. Hemami，F. Estrada和S.暂停频率调谐显著区域检测。在Proc.CVPR，2009中。二、四、六[3] R. Achanta和S. 很好针对内容的Salienc y检测- a w are图像隐藏。载于国际刑事法院程序，2009年。1[4] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。IEEE传输模式分析马赫内特尔，35（8）：1798-1828，2013. 2[5] A. Borji，M. M. Cheng，H. Jiang和J.李显著对象检测：一个调查。arXiv预印本arXiv：1411.5878，2014年。一、二NLD FNLDF−GS先生wCtr*BSCA腿MDFMCDCLDCL+HKU-ISNLDFNLDF−GS先生wCtr*BSCAS腿MDFMCDCLDCL+ECSSD精度精度精度精度精度精度NLDFNLDFGS−先生wCtr*BSCA腿MDFMCDCLDCL+MSRA−BNLDFNLDFGS−先生wCtr*BSCA腿MDFMCDCLDCL+DUT−OMR对NLDFNLDF−GS先生wCtr*BSCAS腿MDFMCDCLDCL+PASCAL−SNLDFNLDF−GS先生wCtr*BSCA腿MDFMCDCLDCL+SOD6619[6] T. Brox和D.克莱姆斯局部区域模型与分段光滑mumford-shah泛函的统计解释。 Int.J.计算机Vision，84（2）：184-193，Jun. 2009. 3[7] N. 布鲁斯角，澳-地Catton和S.Janjic 深入研究显着性：特征对比，语义及其他。在Proc. CVPR，2016中。2[8] T. F. Chan和L. A.维斯没有边的活动轮廓。IEEE传输图像处理。，10（2）：266-277，2001. 3[9] K.- Y.张T L.刘洪T. Chen和S.- H. Lai.融合一般目标性与视觉显著性于显著目标侦测。在procICCV，2011年。2[10] Z. Chen，Y.刘湾，澳-地Sheng，J. - N. Liang，J. Zhang和Y.- B.元基于gabor纹理线索的图像显著性检测多媒体工具和应用程序，第1-16页，2015年。2[11] C.Li，Y.Yuan，W.Cai，Y.Xia，and D. Feng.通过正则化随机游走排序的鲁棒显著性检测在Proc.CVPR，2015中。2[12] C.法拉贝特角库普里湖Najman和Y.乐存。学习场景标记的层次特征。IEEE传输模式分析马赫内特尔，35（8）：1915-1929，2013. 2[13] C. Guo和L.张某一种简单的显著区域检测方法Pattern Recognition，42（11）：2363-2371，2009. 2[14] C. Guo和L.张某一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用。 IEEE Trans. 图像处理。，19（1）：1851[15] J. 哈雷尔角Koch和P.佩洛娜基于图形的视觉显著性。在《国家信息和公共服务程序》，2006年。2[16] M. Havaei、A. Davy，D. Warde-Farley，A. Biard，A. 库维尔Y.本焦角帕尔，P.- M. Jodoin和H.拉罗谢尔使用深度神经网络分割脑肿瘤。医学图像分析，35：18-31，2017。2[17] H. Jiang，J.Wang，Z.Yuan，Y.Wu，N.Zheng，和S.李显著对象检测：判别式区域特征集成方法。在Proc.CVPR，2013中。五、六[18] P. Jiang，H.Ling，J.Yu和J.朋UFO显著区域检测统一性、集中性和客观性。InProc. ICCV，2013. 2[19]D. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[20] V. Koltun.具有高斯边缘势的全连接crfs中的有效推理。NIPS，2011年。7[21] P. Kr aühenbuühl和V. 科尔顿测地线对象建议。在P r oc.ECCV，2014年。2[22] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的Imagenet分类。InProc. NIPS，2012. 2[23] S. S. 克鲁蒂文蒂河谷Gudisa，J.H. Dholakiya和R.文卡特什先生显著性统一：一种用于同时进行眼睛注视预测和显著对象分割的深度架构。在Proc. CVPR，2016中。2[24] Y. LeCun ， Y. Bengio 和 G. 辛顿深度学习 Nature ， 521（7553）：436-444，2015. 2[25] G. Li和Y. Yu. 基于多尺度深度特征的视觉显著性。在Proc.CVPR，2015中。一、二、五、六、七、八[26] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在Proc. CVPR，2016中。一二六七八[27] Y. Li，X.侯角，澳-地Koch，J.Rehg，和A.尤尔。显着对象分割的秘密在Proc. CVPR，2014。二、五[28] F. Liu和M.格莱歇区域增强尺度不变显著性检测。载于《国际海洋学和海洋环境会议程序》，2006年。4[29] N. 刘，J.Han，D.Zhang，S.Wen和T.刘某使用卷积神经网络预测眼睛注视在Proc.CVPR，2015中。一、二[30] T. Liu，Z.袁杰孙杰Wang，N. Zheng，X. Tang和H.沈学习检测显著物体。 IEEE Trans. 模式分析马赫内特尔，33（2）：353-367，2011. 二、五[31] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积在Proc.CVPR，2015中。二、四6620[32] D.马丁角，澳-地Fowlkes，D.塔尔和J·马利克人类分割自然图像数据库及其在评价分割算法和测量生态统计中的应用。在proc ICCV，2001年。二、五[33] P. Mehrani和O.维克斯勒基于学习和图割细化的显著性分割BMVC，2010年。1[34] F. 米列塔里N.Navab和S.-A. 艾哈迈迪V-net：用于体积医学图像分割的全arXiv预印本：1606.04797，2016年。5[35] D. Mumford和J. Shah.分段光滑函数的最佳逼近及相关变分问题。纯数学与应用数学通讯，42（5）：577-685，1989. 一、二、三[36] J. Pan，E. Sayrol，X. G. i Nieto，K. McGuinness和N.奥康纳用于显著性预测的浅层和深层卷积网络。在Proc.CVPR，2016中。一、二[37] F. 佩拉齐山口 Kr aühenbuühl ，Y. Pritch和A. 霍农Saliencyfilters：基于对比度的显著区域检测滤波。在Proc.CVPR，2012。7[38] Y. Qin，H. Lu，Y. Xu和H.王.基于元胞自动机的显著性检测。在Proc.CVPR，2015中。六七八[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本：1409.1556，2014。三、六[40] A. A. Taha和A.汉伯里用于评估3D医学图像分割的方法：分析、选择和工具。BMC医学成像，15（1）：29，2015。5[41] N. Tong，H.Lu，X.阮和M.- H.杨通过自举学习的显著对象检测。在Proc.CVPR，2015中。2[42] L. A. Vese和T.F. 陈基于Mumford和Shah模型的多相水平集图像分割框架 Int. J. Comput.Vision，50（3）：271-293，2002. 3[43] L. Wang，H. Lu、X. Ruan和M.杨通过局部估计和全局搜索进行显着性检测的深度网络在Proc.CVPR，2015中。一二六七八[44] P. Wang，J. Wang，G. Zeng，J. Feng，H. Zha和S.李基于全局显著性的网页搜索图像显著目标检测。在procCVPR，2012年。1[45] Q. Wang，W. Zheng，和P.罗宾逊Grab：通过新颖的图模型和背景先验的视觉显着性。在Proc. CVPR，2016中。2[46] Y. Wei，F.温，W. Zhu和J. Sun.使用背景先验的测地线显著性。在Proc.EC

下载后可阅读完整内容，剩余1页未读，立即下载