EGNet：基于显著边缘和对象信息的显著目标检测

29 浏览量更新于2023-10-12 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8779EGNet：用于显著目标检测的赵家兴，刘江江，范登平，曹阳，杨菊峰，程明明*南开大学理学院理学院http://mmcheng.net/egnet/摘要全卷积神经网络（FCN）在显着对象检测任务中显示出了它们的优势。然而，大多数现有的基于FCNs的方法仍然遭受粗糙的对象边界。为了解决这一问题，本文着重研究了显著边缘信息和显著对象信息之间的互补性。因此，我们提出了一个边缘指导网络（EGNet）的显着对象检测与三个步骤，同时在一个单一的网络模型，这两种互补的信息。在第一步中，我们提取的显着目标特征的渐进融合的方式。在第二步中，我们综合局部边缘信息和全局位置信息来获得显著的边缘特征。最后，为了充分利用这些互补特征，我们将相同的显著边缘特征与不同分辨率的显著对象特征相结合。融合特征利用显著边缘特征中丰富的边缘信息和位置信息，能够更准确地定位显著目标，尤其是其边界。实验结果表明，该方法优于国家的最先进的方法上六个广泛使用的数据集没有任何预处理和后处理。源代码可在http：//mmcheng.net/egnet/网站。1. 介绍显着对象检测（SOD）的目标是找到图像中视觉上最独特的对象它最近受到了广泛的关注，并广泛应用于许多视觉和图像处理相关领域，例如内容感知图像编辑[6]，对象识别[42]，照片合成[4]，非照片真实感渲染[41]，弱监督语义分割[19]和图像检索[15]。此外，有许多工作集中在视频显著对象检测[12，54]和RGB-D显著对象检测[11，66]。受视觉注意力认知研究的启发[7，21，*M.M.程（cmm@nankai.edu.cn）为通讯作者。源基线我们的GT图1.我们的方法的可视化示例通过对显著边缘信息进行建模和融合，显著对象的边界变得更加清晰。39] 早期的工作主要是基于对比度在显著性检测中起着最重要的作用。这些方法主要受益于全局或局部对比度线索及其学习的融合权重。不幸的是，这些手工制作的特征虽然有时可以定位最显著的对象，但是由于不期望的分割方法，所产生的显著性图具有不规则的形状，并且在前地和背景之间的对比度不足时不可靠最近，卷积神经网络（CNN）[25]已经成功地打破了传统手工特征的限制，特别是在全卷积神经网络（FCN）[34]出现这些基于CNN的方法在几乎所有广泛使用的基准测试中大大刷新了排行榜，并且由于效率和高性能而逐渐取代传统的显著对象检测方法在基于CNN架构的SOD方法中，大多数将图像块[64，65]作为输入的方法使用多尺度或多上下文信息来获得最终的显着图。由于全卷积网络是针对像素标记问题提出的，因此出现了几种用于显著对象检测的端到端深度架构[17，18，23，28，31，50，60，67]输出显著性图的基本单位变为来自图像区域的每像素。一方面，结果突出显示细节，因为每个像素都有其显著性值。然而，另一方面，它忽略了结构信息，这是重要的SOD。8780随着网络感受野的增大，显著对象的定位越来越准确。然而，同时，空间相干性也被忽略。最近，为了获得精细的边缘细节，一些基于SOD U-Net [40]的作品[32，33，59，61]使用双向或递归方式来利用局部信息细化高级然而，显着对象的边界仍然没有明确建模。显著边缘信息和显著对象信息之间的此外，还有一些方法使用预处理（超像素）[20]或后处理（CRF）[17，28，33]来保留对象边界。这些方法的主要不便之处在于它们的低推理速度。在本文中，我们集中在显着边缘信息和显着目标信息之间的互补性。我们的目标是利用显着的边缘特征来帮助显着的对象特征定位对象，尤其是它们的边界更准确。综上所述，本文主要有三个方面的贡献：• 我们提出了一个EGNet来显式地对网络中的互补显著对象信息和显著边缘信息进行建模，以保留显著对象的边界。同时，显著的边缘特征也有助于定位。• 我们的模型通过允许这两个互补任务相互帮助来共同优化这• 我们将所提出的方法与6个广泛使用的数据集上的15种最先进的方法进行比较。没有花里胡哨，我们的方法在三个评估指标下实现了最佳性能。2. 相关作品在过去的几年里，提出了一些方法来检测图像中的显著对象。早期的方法通过手工特征使用自下而上的模式来预测显着性图，例如对比度[5]，边界背景[57，68]，中心先验[24，44]等[22，44，51]。更多细节在[1，2，9]中介绍近年来，卷积神经网络（CNN）在计算机视觉的许多领域发挥了其优势，刷新了最新的记录。Li等人 [27]将图像区域调整为三个不同的尺度以提取多尺度特征，然后将这些多个显著性图进行聚合以获得最终的预测图。Wang等人。 [45]设计了一个神经网络来提取输入块的局部估计，并将这些特征与全局对比度和几何信息集成以描述图像块。然而，该结果受到图像块在这些方法。在[34]中，Long等人首先提出了一个网络（FCN）来预测每个像素的语义标签。受FCN的启发，越来越多的像素级显著性检测方法被提出。Wang等人 [47]提出用于显著对象检测的递归FCN架构。Hou等人提出了一种基于HED [55]的短连接[17，18]，以集成低级特征和高级特征来解决尺度空间问题。在[62]中，Zhang等人引入了重新定义的dropout和有效的混合上采样来学习深度不确定卷积特征，以提高鲁棒性和准确性。在[61]中，Zhang et al. 显式地将多级特征聚集成多个分辨率，然后通过双向聚集方法组合这些特征图。Zhang等人。 [59]提出了一种双向消息传递模型，用于集成多层次特征以进行显著对象检测。Wang等人。 [53]利用固定图来帮助模型更准确地定位突出物体。在[35]中，Luo等人提出了一种基于U-Net的架构，该架构包含IOU边缘损失，以利用边缘线索来检测显著对象。在其他与显著性相关的任务中，出现了一些使用边缘线索的方法。在[26]中，li等人生成对象的轮廓以获得显著实例分割结果。在[29]中，liet al. 利用经过良好训练的轮廓检测模型来生成显著性掩模，以克服由手动注释引起的限制。与大多数基于SOD U-Net的方法[32，33，59，61]相比，我们明确地对网络中的边缘信息进行与使用边缘线索的方法[14，58，69]相比，主要区别在于我们使用单个基础网络并联合优化显著边缘检测和显著对象检测，使它们相互帮助。这导致更好的性能。与NLDF[35]相比，他们实现了一个受Mumford-Shah函数[38]启发的损失函数来惩罚边缘上的由于显著边缘是通过固定的清醒算子从显著对象导出的，因此该惩罚基本上仅影响特征图上的显著边缘的邻域中的梯度这种方法在一定程度上优化了边缘细节，但没有充分利用显著边缘检测和显著目标检测之间的互补性在我们的方法中，我们设计了两个模块来独立地提取这两种特征。然后，我们融合这些互补功能的一对一的指导模块。这样，显著边缘信息不仅可以提高边缘质量，而且可以使定位更加准确。实验部分验证了我们的说法。3. 凸边制导网络总体架构如图所示。二、在本节中，我们首先描述了第二节中的动机。3.1，然后介绍了所采用的显著目标特征提取方法8781nNLSEM：Conv层显式边缘建模ConvUConv1-2++UConv2-2ConvO2OGMFF：上采样：逐像素添加：Saliency Spv.：Edge Spv.Conv3-3ConvPSFEMFFConvConv 4 -3转换自顶向下位置传播FFConvConv5-3ConvFFConvConv6-3 ConvFFConv图2.拟议方法的管道。我们使用棕色粗线来表示尺度之间的信息流。PSFEM：渐进式显著对象特征提取模块。NLSEM：非局部显著边缘特征提取模块。O2OGM：一对一指导模块。FF：特征融合。Spv.：监管模块和建议的非局部显着的边缘特征提取模块在第二节。3.2，最后介绍了在第二节中提出的一对一指导模块。三点三3.1. 动机与基于区域的方法相比，基于像素的显著目标检测方法显示了其优势。然而，他们忽略了图像的空间连贯性，导致不满意的显着对象边界。大多数方法[17，18，31，33，59，61]希望通过融合多尺度信息来解决这个问题。一些方法[17，28，33]使用CRF等后处理来细化显著对象边界。在NLDF [35]中，他们提出了IOU损失来影响边缘周围位置的梯度。但没有注意到显著边缘检测与显著目标检测之间的互补性。一个好的显著边缘检测结果可以帮助显著对象检测任务的分割和局部化，反之亦然。基于这个想法，我们提出了一个EGNet模型和融合互补的显着边缘信息和显着对象信息在一个单一的网络内的端到端的方式。3.2. 互补信息建模我们提出的网络是独立的骨干网络。在这里，我们使用其他基于深度学习的方法[17，35]建议的VGG网络首先，我们截断最后三个完全连接的层。在DSS[17，18]之后，我们将另一个侧路径连接到VGG中的最后一个池化层。因此，从骨干网络，我们获得六个侧特征Conv 1 -2，Conv 2 -2，Conv 3 -3，Conv 4 -3，Conv 5 -3，Conv 6 -3。因为Conv 1 -2离输入太近，感受野太小，所以我们抛弃了这条侧路径S（1）。有在我们的方法中剩余五条边路径S（2）、S（3）、S（4）、S（5）、S（6）为了简单起见，这五个特征可以由主干特征集合C表示C={C（2），C（3），C（4），C（5），C（6）}，（1）其中C（2）表示Conv 2 -2特征，依此类推。Conv 2 -2保留了更好的边缘信息[61]。因此，我们利用S（2）来提取边缘特征和其他侧路径来提取显著的对象特征。3.2.1渐进式显著目标特征提取如图1的PSFEM所示。2、为了获得更丰富的上下文特征，我们利用广泛使用的架构U-Net [40]来生成多分辨率特征。与原始的U-Net不同，为了获得更鲁棒的显著对象特征，我们增加了三个卷积层（图中的Conv）。2）在每条边路径上，在每个卷积层之后，添加ReLU层以确保非线性。为了简单地说明，我们使用T（Tab. 1）表示这些卷积层和ReLU层。此外，在每条支路上都采用深度监督。我们采用卷积层将特征图转换为单通道预测掩码，并使用D（Tab. （1）表示它。卷积层的详细信息可以在Tab中找到。1.一、3.2.2非局部显著边缘特征提取在这个模块中，我们的目标是建立显着的边缘信息和提取显着的边缘特征。如上所述，Conv 2 -2保留了更好的边缘信息。因此，我们从Conv2中提取局部边缘信息2.然而，为了获得显著的边缘特征，只有局部信息是不够的。还需要高级语义当信息8782DDDDDD不不不不JST1T2T3D23456335571122312825651251251233557112231282565125125123355711223128256512512512333331111111111表1.每个侧输出的详细信息 T表示特征增强模块（图1中所示的Conv）。2）的情况。每个T包含三个卷积层：T1，T2，T3和三个随后的ReLu层。我们展示了每个卷积层的内核大小、填充和信道数。例如，3、1、128表示内核大小为3、填充为1、信道号为128的卷积层。D表示其中Z+和Z-分别表示显著边缘像素集合和背景像素集合。WD表示过渡层的参数，如表1所示1.一、 Pr（yj=1|F E; W（2））是预测图，其中每个值表示像素的显著边缘置信度。另外，在显著对象检测侧路径上添加的监督可以表示为：L（i）（F（i）;W（i））=−logPr（y=1|F（i）;W（i））将多通道特征图转换为单通道激活图的过渡层。S表示侧路径。Σ−j∈Y−j∈Y+l〇 gPr（yj=0|F∈（i）;W（i）），i∈[3，6]，（5）如U-Net体系结构一样，从顶层逐步返回到底层，高层位置信息逐渐被稀释。此外，顶层的感受野最大，定位最准确。因此，我们设计了一种自顶向下的位置传播，将顶层位置信息传播到侧路径S（2），以抑制非显著边缘。融合特征C¯（2）可以表示为：C<$（2）=C（2）+Up（φ（Trans（F（6）;θ））;C（2）），（2）其中，Trans（θ;θ）是具有参数θ的卷积层，其旨在改变特征的通道的数量，并且φ（）表示ReLU激活函数。Up（C;C（2））是双线性插值运算，旨在将 * 上采样到与C（2）。在等式的右侧，第二项表示来自较高侧路径的特征。为了清楚地说明，我们用 UpT （ F∈（i）;θ，C（j））表示Up（φ（Trans（F∈（i）;θ））;C（j））. F（6）表示增强的侧路径S（6）中的特征。增强特征F（6）可以可以表示为f（C（6）;W（6）），并且S（3）、S（4）、S（5）中的增强特征可以计算为：F∈（i）=f（C（i）+UpT（F∈（i+1）;θ，C（i））;W（i）），（3）其中W（i）表示T（i）和f（f;W（i））中的参数其中Y+和Y-分别表示显著区域像素集合和非显著像素集合。因此，补充信息建模中的总损耗L可以表示为：Σ6L=L（2）（FE;W（2））+L（i）（FE（i）;W（i））。（六）I=33.3. 一对一制导模块在获得互补的显著边缘特征和显著对象特征之后，我们的目标是利用显著边缘特征来引导显著对象特征在分割和定位上都表现得更好。简单的方法是将FE和FE（3）融合。充分利用多分辨率显著对象特征将是更好的然而，从下到上渐进地融合显著边缘特征和多分辨率显著对象特征的缺点在于，当融合显著对象特征时，显著边缘特征被稀释。此外，目标是融合显著目标特征和显著边缘特征，利用互补信息，以获得更好的预测结果。因此，我们提出了一个一对一的指导模块。此外，实验部分验证了我们的观点。T T表示一系列卷积和非线性运算参数W（i）。在获得引导特征C（2）之后，与其他侧路径类似，我们添加一系列卷积层来增强引导特征，然后是最终的显著边缘特征S（2）中的FE可以计算为f（C<$（2）;W（2））。配置详细信息可在选项卡中找到。1.一、建模显式地，我们增加了一个额外的显着边缘监督来监督显着边缘特征。我们使用交叉熵损失，其可以定义为：具体地，我们为S（3）、S（4）、S（5）、S（6）添加子边路径。在每个子边路径中，通过将显著边缘特征融合到增强的显著对象特征中，使得高层预测的定位更加准确，更重要的是，分割细节变得更好。显著边缘引导特征（s特征）可以表示为：G（i）=UpT（F∈（i）;θ，FE）+FE，i∈[3，6].（七）然后，类似于PSFEM，我们在每个子边路径中采用一系列的卷积层T来进一步增强L（2）（FE（2）Σ;WD）=−logPr（yj=1|F E8783DD;W（2））s特征和过渡层D，以将多通道特征图转换为单通道预测图。这里Σ−j∈Z−j∈Z+logPr（y j= 0|法、英、西（2）、（4）为了说明清楚，我们在这个模中把T和D记为T′和D′ 由等式（ 3 ），我们得到了增强的 s- 特征 G_（i）。8784D′D′D′FD′WfD′在这里，我们还为这些增强的s-特性添加了深度监督对于每个子侧输出预测图，损失可以计算为：DUT-OMRON [57]包含5168个高质量但具有挑战性的图像。该数据集中的图像包含一个或多个具有相对复杂背景的显著对象。SODL（i）′（G（i）;W（i））=−ΣΣj∈Y+logPr（yj=1|G（i）;W（i））[36]包含300个图像，并建议用于图像分割。显着对象的像素级注释由[44]生成。它是最具挑战性的数据集之一−j∈Y−logPr（yj=0|G（i）;W（i）），i∈[3，6].（八）目前。 HKU-IS [27]包含4447张图片，质量注释，其中许多注释具有多个不连接的显著对象。该数据集分为2500个火车-然后对多尺度细化预测图进行融合，得到融合后的预测图。融合映射的损失函数可以表示为：Σ6L′（G;WD′）=σ（Y， βif（G（i）;W（i），（9）I=3其中，σ（σ，σ）表示预测图和显著性地面实况之间的交叉熵损失，其具有与等式（ 1 ）相同的形式（五）、这一部分的损失，拟议网络的总额可表示为：500个验证图像和2000个测试图像。DUTS [46]是最大的显著对象检测基准。它包含了10553张用于训练的图像和5019张用于测试的图像。大多数图像具有不同的位置和尺度的挑战性。在最近的工作[33，49，52]之后，我们使用DUTS数据集来训练所提出的模型。我们使用三个广泛使用的标准度量，F-度量，平均绝对误差（MAE）[2]和最近提出的基于结构的度量，即S-度量[10]，来评估我们的模型和其他最先进的模型。F-L′=L′（G′;WD′）+i=6I=3L（i）′（G（i）;W（i））（十）measure是平均查准率和平均查全率的调和平均值，公式为：（1 +β2）精确度×召回率Lt= L +L′。Fβ=β2×精确度+召回率、（11）4. 实验4.1. 实现细节我们在DUTS [46]数据集上训练我们的模型，然后是[33，49，59，63]。为了进行公平的比较，我们分别使用VGG [43]和ResNet [16]作为骨干网络我们的模型在PyTorch中实现新添加的卷积层的所有权重均以截断正态（σ= 0.01）随机初始化超参数设置如下：学习率= 5e- 5，权重衰减= 0.0005，动量= 0.9，每侧输出的损失权重等于1。反向传播是针对十个图像中的每一个的处理。我们在训练过程中不使用验证数据集。我们训练我们的模型24个时期，并在15个时期后将学习率除以10。在推理过程中，我们能够获得一个预测的突出我们设β2=0。3.如[5]中所建议的，精确度比回忆度更重要。精度表示预测的显著性图中检测到的显著性像素的比率。召回率表示地面实况图中检测到的显著像素的比率。查准率和查全率是在二值图像上计算的。因此，我们应该首先将预测映射阈值化为二值映射。不同的阈值有不同的查准率和查全率。我们可以在不同的阈值下绘制精确率-召回率曲线。这里我们使用[17，18]提供的代码进行评估。遵循最显着的对象检测方法[17，18，32，59]，我们报告了所有精确度-召回率对的最大F度量MAE是评估预测图和地面实况图之间的平均差异的度量。令P和Y表示显着图和归一化为[0，1]的地面真值。我们通过以下方式计算MAE评分：边缘图和一组显著图。在我们的方法中，我们直接使用融合的预测图作为最终的显著性ε=1ΣΣ宽×高|、（十二）|,(12)地图4.2. 数据集和评估指标我们在六个广泛使用的公共基准数据集上评估了所提出的架构：ECSSD [56]，PASCAL-S [30]，DUT-OMRON [57]，SOD [36，44]，HKU-IS [27]、DUTS [46]。ECSSD [56]包含1000个具有各种复杂场景的有意义的语义图像。PASCAL- S [30]包含从PASCAL VOC分割数据集[8]的验证集中选择的850个图像H8785x=1y=1其中W和H分别是图像的宽度和高度。S-测度侧重于评价显著图的结构信息，比F-测度更接近人类视觉系统。因此，我们包括S-措施，以更全面的评价。S-measure可以计算为：S=γSo+（1−γ）Sr，（13）8786ECSSD [56]PASCAL-S [30]DUT-O [57]香港大学-IS [27]SOD [36，37][46]第四十六话MaxF↑ MAE↓S↑MaxF↑ MAE↓S↑MaxF↑ MAE↓S↑MaxF↑ MAE↓S↑MaxF↑ MAE↓S↑MaxF↑ MAE↓S↑基于VGG0.8960.9060.9030.9030.9150.8650.9050.8980.9080.9110.9090.9240.0800.0640.0590.0650.0600.0820.0620.0970.0800.0620.0570.0640.8630.8820.8750.8750.8860.8390.88408520.8840.8940.8910.8890.8050.8210.8390.8220.8300.7720.8250.8270.8200.8260.8450.8470.1150.1010.0830.0980.1020.1220.0920.1180.1270.0920.0810.0890.7910.7960.8020.8030.7980.7570.8070.7990.8060.8200.8390.8180.7330.7600.7900.7530.7840.738-0.7470.7350.7370.7590.7710.0940.0740.0730.0790.0630.093-0.0940.1310.0830.0720.0710.7430.7650.7670.7500.7920.743-0.7520.7480.7710.7830.7510.8930.9000.9070.9020.9100.8430.8920.8950.8880.8890.8970.9190.0630.0500.0430.0480.0470.0720.0520.0790.0730.0520.0470.0470.8590.8780.8520.8780.8840.8230.8690.8600.8740.8860.8860.8890.8310.8340.8410.8370.8440.7620.8230.8050.7980.7990.8210.8410.1310.1250.1110.1230.1300.1540.1280.1610.1640.1460.1220.1460.7480.7440.7570.7560.7600.7050.7500.7300.7620.7530.7630.7160.7860.8130.8240.8160.8000.7470.8150.7860.7710.7730.8110.8540.0810.0650.0620.0650.0600.0920.0650.0900.1160.0750.0620.0550.7850.8120.8090.8050.8270.7490.8090.7840.7770.7960.8220.825DCL[28]DSS[十七、十八]MSR[26]NLDF[35][3]ELD[13]国土安全部[32]RFCN[48]UCF[62]护身符[61]C2S[29]PAGR[63]我们0.9410.0440.9130.8630.0760.8480.8260.0560.8130.9290.0340.9100.8690.1100.7880.8800.0430.866基于ResNet[49]第四十九话0.9160.0560.8950.8380.0840.8320.7690.0690.7770.9060.0460.8870.8400.1260.7420.8260.0580.824DGRL[52]0.9210.0430.9060.8440.0750.8390.7740.0620.7910.9100.0360.8960.8430.1030.7740.8280.0490.836∗PiCANet[33]0.9320.0480.9140.8640.0770.8500.8200.0640.8080.9200.0440.9050.8610.1030.7900.8630.0500.850我们0.9430.0410.9180.8690.0740.8520.8420.0520.8180.9370.0310.9180.8900.0970.8070.8930.0390.875表2.定量比较，包括六个广泛使用的数据集的最大F-测量，MAE和S-测量。‘-’ denotes that corre- sponding ↑↓分别表示越大越好，越小越&*指使用预处理或后处理的方法最好的三个结果分别用红色、蓝色和绿色标记。我们的方法在这六个广泛使用的数据集上实现了最先进的三个评价指标。显著对象特征F（3）以得到预测掩码。我们将这种使用边的策略表示为边PROG。结果显示在选项卡的第二行3 .第三章。这证明了显著边缘信息对于显著对象检测任务是非常有用的表3. SOD [36]和DUTS-TE [46]的消融分析。这里，B表示基线模型。边PROG、边TDLF、边NLDF、MRF PROG、MRFOTO在第二节中介绍。四点三。其中，S0和Sr表示区域感知和对象感知的结构相似性，并且γ默认设置为0.5。更多的细节可以在[10]中找到。4.3. 烧蚀实验与分析在本节中，使用DUTS-TR [46]作为训练集，我们探索了拟议网络中不同组件对相对困难的数据集SOD [36]和最近提出的大数据集DUTS-TE [46]的影响4.3.1互补信息建模在这一小节中，我们探讨了显着的边缘信息的作用，这也是我们的基本思想。基线是U-Net架构，其以PSFEM的方式集成了多尺度特征（从Conv 2 -2到Conv 6 -3）（图1）。2）的情况。我们去除基线中的侧路径S（ 2 ），然后融合最终的显著边缘特征F（3）（来自Cnv3-3的侧路径）和局部Conv 2 -2特征以获得显著边缘特征。最后，我们将显著的边缘特征和4.3.2自顶向下位置传播在本小节中，我们将探讨自上而下的位置传播的作用。与上一小节中提到的边缘PROG相比4.3.1，我们利用自顶向下的位置传播来从顶层而不是侧路径S（3）提取更准确的位置信息。我们称这种使用边的策略为边TDLP。通过比较Tab的第二行和第三行。3、可以证明自顶向下位置传播的效果。此外，还比较了制表符的第一行和第三行。3.通过对网络中这两种互补信息的显式建模，我们可以发现，在不增加时间和空间消耗的情况下，数据集上的性能得到了很大的提高（3.1%，F-测度下为2.4%）。4.3.3利用边缘线索为了证明优于NLDF [35]的优势，其中IOU丢失被添加到网络的末端以惩罚边缘的错误。我们把同样的欠条损失加到基线上。这种策略被称为边缘NLDF。性能显示在选项卡的第4行3 .第三章。与基线模型相比这也证明了所提出的利用边缘信息的方法更模型SOD个dutMaxF↑ MAE↓S↑MaxF↑ MAE↓ S↑1. B.851.116.780.855.060.8442. B + edge PROG.873.105.799.872.051.8513. B +边缘TDLP.882.100.807.879.044.8664. B +边缘NLDF.857.112.794.866.053.8605. B + edge TDLP + MRF PROG.882.106.796.880.046.8696. B + edge TDLP + MRF OTO.890.097.807.893.039.8758787DCLRFCNMSRAmuletSRMPAGRDGRLPiCANet我们的DCLRFCNMSRAmuletSRMPAGRDGRLPiCANet我们的1110.90.90.90.80.80.80.70.70.70.60 0.2 0.4 0.6 0.810.60 0.2 0.4 0.6 0.810.600.20.40.60.8 1(a) [27]第27话：我的世界，我的世界[27]图3.三个流行的显著对象数据集上的精确度（纵轴）召回率（横轴）曲线。可以看出，所提出的方法相对于最先进的方法表现良好。模型SOD个dut回忆↑精密度↑MaxF↑回忆↑精密度↑MaxF↑NLDF我们0.5130.6370.5410.5340.5270.5810.3180.4460.6590.6800.4290.539表4. NLDF和我们的显着边缘的比较。源B B+边缘NLDF B+边缘TDLP GT图4.添加边缘提示之前和之后的视觉示例。B表示基线模型。边缘NLDF和边缘TDLP代表了NLDF [35]中使用的边缘惩罚和本文提出的边缘建模方法。详情见第二节。四点三。有效可视化结果如图所示。4.第一章与没有边缘约束的基线模型相比，在我们添加NLDF [35]中使用的边缘惩罚之后，边缘信息只能帮助细化边界。特别地，这种惩罚不能帮助去除显著性预测掩模中的冗余部分，也不能弥补缺失的相比之下，所提出的互补信息建模方法考虑了显着边缘信息和显着目标信息之间的互补性，在分割和定位方面都有更好的表现。此外，为了进一步证明显著边缘检测和显著目标检测是相互帮助和互补的。我们将NLDF生成的显著边缘与我们生成的显著边缘进行比较。预训练模型和代码均由作者提供。如Tab.所示。4、我们的方法产生的显著边缘更好，特别是在召回率和F-度量指标下。这证明了我们的方法中的边缘更准确。4.3.4互补特征融合在此基础上得到了显著边缘特征和多分辨率显著目标特征. 我们的目标是融合这些互补功能。在这里，我们比较三种融合方法。第一种方法是默认方法，它集成了显著边缘特征（FE）和显著对象特征F（3），这是U-Net架构的顶部。第二种方法是将多分辨率特征F_∞ （ 3）、F_∞ （ 4）、F_∞ （ 5 ）、F_∞（6）逐级融合，称为MRFPR OG。第三种方式是建议的一对一指导，即所谓的MRF OTO。这里MRF表示多分辨率融合。结果显示在表的第三、第五、第六3所示。可以看出，我们提出的一对一的指导方法是最适合我们的整个架构。4.4. 与最新技术在本节中，我们将我们提出的EGNet与15种以前最先进的方法进行了比较，包括DCL [28]，DSS [17，18]，NLDF [35]，MSR [26]，ELD [13]，DHS [32]，RFCN [48]，UCF [62]，护身符[61]， [63]第六十三话：[29][请注意，上述方法的所有显着图都是通过运行源代码或由作者预先计算而产生的。评价代码见[10、17、18]。F-measure、MAE和S-measure。我们评估和比较我们提出的方法与其他显著对象检测方法的F-测度，MAE，和S-测度，如表。二、我们可以看到不同的方法DCLRFCNMSRAmuletSRMPAGRDGRLPiCANet我们的8788[63]第63话：我的世界DGRL [52] [62]第62话：一个女人[17，18]第17话：我的世界国土安全部[32]图5.与最新技术水平的定性比较。可以使用不同的骨干网。为了进行公平的比较，我们分别在VGG [43]和ResNet [16]上训练我们的模型。可以看出，在所有比较数据集的所有评价指标下，我们的模型与最先进的方法相比表现良好，特别是在相对具有挑战性的数据集SOD [36，44]（F-测量和S-测量改善2.9%和1.7%）和最大数据集DUTS [46]（3.0%和2.5%）上。具体而言，与当前最佳方法[33]相比，六个数据集的平均F测量改进为1.9%。注意，这在没有任何预处理和后处理的情况下实现查准率-查全率曲线。除了表1中所示的数值比较外，2，我们绘制了三个数据集上所有比较方法的准确率-召回率曲线。3.第三章。可以看出，表示所提出的方法的红色实线在大多数阈值下优于所有其他方法。由于互补的突出边缘信息的帮助下，结果产生尖锐的边缘信息和准确的定位，这导致一个更好的PR曲线。目视比较。在图5中，我们显示了一些可视化结果。可以看出，我们的方法在显着对象分割和定位上表现值得一提的是，由于显着边缘特征，我们的结果不仅可以突出显着区域，而且可以产生相干的边缘。例如，对于第一个样本，由于复杂场景的影响，其他方法无法准确定位和分割显著对象。然而，受益于互补的显着边缘特征，我们的方法表现得更好。对于第二个sam-尽管我们的结果仍然非常接近于地面实况，但在这种情况下，显著对象相对5. 结论在本文中，我们的目标是保持显着的对象边界。与其他融合多尺度特征或利用后处理的方法不同，本文着重于突出边缘信息与突出目标信息的互补性。基于这一思想，我们提出了EGNet来模拟网络中的这些互补特征。首先，我们提取基于U-Net的多分辨率显著对象特征。然后，我们提出了一个非局部显著边缘特征提取模块，该模块综合了局部边缘信息和全局位置信息，得到显著边缘特征。最后，我们采用一对一的指导模块，融合这些互补的功能。在显著边缘特征的帮助下，显著对象的边界和定位得到了改进我们的模型在六个广泛使用的数据集上与最先进的方法相比表现良好，无需任何预处理或后处理。我们还提供了EGNet的有效性分析致谢。这研究是国家自然科学基金（61572264）、国家青年人才支持计划、天津市自然科学基金（17JCJQJC 43700、18ZXZNGX 00110）资助。8789引用[1] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测：一个调查。CVM，5（2）：117[2] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：基准。IEEE TIP，24（12）：5706[3] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意。在ECCV中，第234-250页[4] Tao Chen ， Ming-Ming Cheng ， Ping Tan ， ArielShamir，and Shi-Min Hu. Sketch2photo：互联网图像蒙太奇。ACM TOG，28（5）：124：1[5] Ming Cheng，Niloy J Mitra，Xumin Huang，Philip HSTorr，and Song Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569[6] 郑明明，张芳略，尼洛伊·J·米特拉，黄晓磊，胡世民。Repfinder：查找近似重复的场景元素进行图像编辑。ACM TOG，29（4）：83，2010.[7] 我和彼得·柯尼希。亮度-对比度对显性视觉注意的显著图有贡献吗欧洲神经科学杂志，17（5）：1089-1097，2003。[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[9] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.clut- ter中的显著对象：将显著对象检测带到前景。见《欧洲法院判例汇编》，第186-202页。Springer，2018.[10] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4548-4557页[11] Deng-Ping Fan，Zheng Lin，Jia-Xing Zhao，Yun Liu，Zhao Zhang ， Qibin Hou ， Menglong Zhu ， and Ming-Ming Cheng.重新思考rgb-d显著对象检测：模型、数据集和大规模基准测试。 arXiv 预印本 arXiv ：1907.06781，2019。[12] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR中，第8554-8564页[13] 李佳彦戴有荣金俊模具有编码的低级距离图和高级特征的深度在CVPR，2016年。[14] 关文龙，王天天，齐金庆，张立和，陆沪川。基于边缘感知卷积神经网络IEEE SPL，26（1）：114[15] Junfeng He ， Jinyuan Feng ， Xianglong Liu ， TaoCheng ， Tai-Hsu Lin ， Hyunj

下载后可阅读完整内容，剩余1页未读，立即下载