CapSal：基于字幕增强的显著对象检测

68 浏览量更新于2023-10-18 收藏 2.98MB PDF 举报

显著目标检测

复杂场景

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6024一只狗坐在一个教练与笔记本电脑。一个穿白衣服的女人正在球场上打网球CapSal：利用字幕增强显著对象检测张璐1，张建明2，林哲2，胡川路1，何友31大连理工大学2Adobe Research，美国3中国海军航空大学鲁章dut@mail.dlut.edu.cn，{jianmzha，zlin}@ adobe.com，lhchuan@dlut.edu.cn，和友f@126.com输入GT DSS BMPM DGRL基线CapSal生成的标题图1：与其他基于CNN的方法的视觉比较从左到右：输入图像，地面实况，DSS的显着图[11]，BMPM [41]，DGRL [35]，我们的基线模型，CapSal模型和ICN生成的标题用红色突出显示的单词我们的CapSal网络经过训练，可以利用字幕任务中的语义进行显著对象检测，可以从杂乱的背景中精确定位显著区域。摘要在杂乱的场景中检测显著的物体是一个很大的挑战。为了解决这个问题，我们认为该模型需要学习显著对象的判别语义特征。为此，我们建议利用字幕作为辅助语义任务，以提高复杂场景中的显着对象检测。具体来说，我们开发了一个Cap-Sal模型，它由两个子网络组成，图像字幕网络（ICN）和局部-全局感知网络（LGPN）。ICN编码生成的字幕的嵌入以捕获场景中主要对象的语义信息，而LGPN将字幕嵌入与局部-全局视觉上下文结合以预测显著性图。ICN和LGPN被联合训练以模拟高级语义和视觉显著性。大量的实验证明了图像字幕在显著目标检测中的有效性.特别是，我们的模型在复杂场景的几个具有挑战性的数据集上的表现明显优于最先进的方法1. 介绍显著目标检测是计算机视觉中的一个基本问题，其目的是定位和分割图像中最显著的区域。近年来由于其对许多计算机视觉应用的有用性而获得了很多关注[12，36，44]。虽然由于深度学习技术，在这一领域已经取得了重大进展，但在杂乱场景中准确检测显著对象仍然是一个很大的挑战（见图1）。为了解决这个问题，我们认为，该模型需要学习的歧视性语义特征的显着对象，如对象类别，属性和语义上下文。然而，现有的显著对象检测网络仅在像素级掩模符号上进行训练，而没有对更高级别的语义进行监督。在这项工作中，我们建议使用图像字幕[37，26，30]作为辅助任务，以提高显著对象检测的语义图像字幕和显著性检测之间的联系已经在图像字幕领域进行了探索。一些作品[1，28]利用显着性检测来使网络关注相关区域以进行字幕。这些作品假设标题中提到的对象在很大程度上基于同样的假设，我们认为字幕任务可以为显著对象检测提供丰富的语义监督。例如，从标题为此，我们提出了CapSal，一个突出的对象检测框架，利用图像字幕保护，6025图2：建议的CapSal模型概述。对于输入图像，采用共享骨干网络来提取多级特征。然后使用基于RNN的字幕模型对字幕中的每个单词进行编码。然后，使用注意力机制将每个单词的潜在特征合并，以获得标题嵌入向量（CEV）。将字幕嵌入向量和多层次特征结合到局部-全局感知网络中，实现了对局部和全局显著目标的预测。最后，我们通过融合来自局部和全局感知模块的显著图Sl和Sg来获得最终的显著图S提出了显著对象检测的语义特征学习方法。CapSal模型由两个具有共享主干的子网络组成，它们是图像字幕网络（ICN）和局部-全局感知网络（LGPN），分别用于字幕生成和显著性预测我们的CapSal模型的框架如图2所示ICN是一种CNN+LSTM架构，它将图像作为输入并生成标题。为了从字幕中捕获对象级语义知识，我们使用LSTM的隐藏向量来表示每个生成单词的编码特征。考虑到字幕中并非每个词都与描述显著对象相关，我们提出了一种文本注意机制来衡量每个词的重要性。然后，可以通过LSTM隐藏向量的加权池化来获得字幕嵌入特征向量。另一个子网络LGPN用于将字幕嵌入向量与用于识别显著对象的多上下文视觉特征相结合。它由三个部分组成：局部感知模块（LPM）、全局感知模块（GPM）和融合模块（FM）。在LPM中，字幕嵌入向量与局部视图中的视觉特征聚合而GPM利用上下文在一个更全球的观点，以提供一个整体的估计显着的区域。LPM和GPM在检测不同大小的目标时具有互补性，并通过FM融合它们的显著性图以生成最终的显著性图。LPM和GPM都利用ICN生成的字幕嵌入功能来捕获场景的更高级别的语义信息。ICN和LGPN在训练期间使用上限进行联合优化，和显着性监督分别。为了训练和评估所提出的方法，我们构建了一个新的显着性数据集COCO-CapSal，其中包含每个图像的地面真实显着性图以及相应的标题。数据集中的图像来自MSCOCO [22]数据集，并且具有来自80个类别的多个显著对象，背景杂乱。我们的实验验证了图像字幕在提高显著目标检测性能方面的有效性。特别是，我们的模型在几个具有挑战性的数据集上的表现显着优于最先进的方法，例如我们的COCO-CapSal测试集，PASCAL-S [19]和最近的数据集SOC [6]专注于混乱的场景。我们的贡献总结如下。• 据我们所知，这是第一个工作，探讨字幕的有用性显着对象检测。我们建立了一个新的数据集，提供显著区域的注释和相应的标题。• 我们提出了一个新的深度神经网络模型，Cap-Sal，以共同利用字幕信息利用局部和全局视觉上下文来预测显著区域。• 大量的实验结果表明，字幕确实有效地促进了表演，显著目标检测的重要性，特别是在一些复杂的场景中。2. 相关工作显著目标检测。在CNN的巨大成功的推动下，许多深度学习模型被提出用于显著对象检测。早期的方法[31，16，15]利用CNN特征和全连接层来预测图像块的显着性分数。例如，Li等人。 [17]建议为每个超像素提取多尺度上下文CNN特征，以制定其显着概率。在[31]中，Wang等人提出了两种用于局部估计显着超像素和全局搜索显着建议的网络。这些方法显著地突破了传统显着性方法的瓶颈[3，45，38，39]。然而，网络中的全连接层大大降低了计算效率。为了解决这个问题，已经进行了许多尝试[24，4，34]来使用FCN[25]来生成逐像素的显著性预测。 Wang等人[33]在递归地引导最终显着图的生成之前获取显着性。在[23]中，Liu et al. 首先产生粗略的全局显著性预测，并通过逐渐合并来自较低级别特征的精细细节来对其进行细化。在[41]中，Zhang等人建立了一个双向消息传递模型，用于集成多级CNN特征。虽然已经取得了令人印象深刻的结果，但仅在显著性注释上训练的网络可能无法学习足够的语义知识用于处理6026I=22我2我特别复杂的场景为了解决这个问题，我们提出了一个CapSal模型，该模型利用字幕中的高级对象知识来提高显著对象检测的语义特征学习。图像字幕。图像字幕的目的是生成一个语法合理的句子来描述图像内容。大多数现有的图像标题模型都受益于CNN+RNN架构[37，26，30，8]，其中CNN用于编码图像内容信息，RNN用于将其转换为字幕。基于CNN+RNN架构，自上而下的视觉注意力（a）（b）（c）（d）其他事项机制被引入到图像字幕中，其鼓励模型选择性地聚焦于字幕中描述的相关在[37]中，Xu等人利用上次的LSTM隐藏状态来制定空间注意力，这将进一步用于下一个单词预测。最近，一些作品[1，28]试图利用视觉显著性来提高图像captioning模型的性能。他们使用显着性预测来帮助模型更好地专注于感兴趣的对象。受这些工作成功的启发，我们建议利用图像字幕作为辅助任务，以促进显着性预测在复杂的场景。3. 数据集构建为了训练和评估我们提出的模型，我们建立了一个COCO-CapSal数据集，该数据集提供了显著对象的真实掩码和相应的图像标题。我们利用两个现有的数据集，MSCOCO注释[22][13]，以建立我们的数据集。MSCOCO是一个具有挑战性的真实世界数据集，它为80个类别的对象提供图像标题和实例级注释。我们把它作为一个源基准，为我们的COCO-CapSal数据集收集图像，字幕和显着对象掩码。SALICON利用鼠标点击来近似眼睛注视数据，并为MSCOCO的15k图像我们进行两个阶段的工作来建立我们的数据集，这是图像选择和显着性地面真理生成。我们利用来自SALICON的在第一阶段中，如果图像的字幕描述与显著区域一致，并且（2）显著对象的类别包含在80类MSCOCO中，则图像将被选择在这个阶段之后，我们收集了5265张图像用于训练，1459张用于测试。在第二阶段，我们的目标是为收集到的图像生成显著对象注释。第一阶段的图像选择策略保证了显著目标的掩模可以从MSCOCO数据集中提取。这促使我们直接图3：建议的COCO-CapSal数据集的示例。从左至右：（a）输入图像，（b）来自SALICON [13]的人类注视地面实况，（c）我们的COCO-CapSal数据集的显著对象地面实况，（d）来自MSCOCO [22]的相应图像captions。带有来自SALICON的相应人类凝视注释的IoU。IoU大于图像的平均IoU 1.5倍的实例将被选为显著对象。然后，它们对应的实例掩码被合并以生成显著性地面实况。通过上述两个阶段，我们构建了COCO-CapSal数据集，其中包含来自真实世界的6724张具有挑战性的图像，具有定义明确的显着性基础事实和标题表达式（参见图3中的示例）。4. CapSal模型在本文中，我们提出了一个CapSal模型，它需要高层次的字幕信息引导学习的语义显着对象检测。我们的CapSal网络由三个部分组成，共享骨干网络，图像字幕网络（ICN）和本地-全球感知网络（LGPN）。三个子网络的详细架构如图4所示。4.1. 共享骨干网我们使用Resnet101 [10]作为特征提取器，并删除最后一个平均池和全连接层，使其适合我们的任务。对于尺寸为 W×H 的输入图像 I ，我们使用修正的Resnet101从Res2 x到Res 5x，它们被表示为F={fi}5，大小为W× H。多层次特征包含了关于显著对象的各种信息。来自更深层次的特征层可以捕获一些高级语义知识，这对于识别显著区域是有益的。较浅的层可以提供关于对象边界的更多空间细节。为了有效地利用多级特性，我们建议以自顶向下的方式集成它们：.使用MSCOCO中的实例级注释生成-吃了显著性基本事实对于每个图像，我们从MSCOCO获得其对象实例掩码，并计算其Pi=ReLU（Wf，ifi+ bf，i）+ Up（Pi+1），i=2，3，4ReLU（Wf，ifi+ bf，i），i= 5（一）1. 一个留着浓密胡子、打着绿色领带的男人。2. 戴着绿色领带的男子微笑着靠近人群。1. 一对狗躺在沙发上。2. 白色的狗和棕色的狗休息在床单覆盖的沙发上。1. 一只棕色和白色的猫坐在一只棕色和白色的泰迪熊旁边。2. 一只猫在一只毛绒玩具熊旁边休息。6027t=1t=1图4：网络概述。(a)共享骨干网的详细信息。(b)图像字幕网络（ICN）SAT模型构建在与[37]相同的架构CEV和TA分别代表标题嵌入向量和文本注意力。（c）地方-全球感知网络三个单元的详细情况。GF是GPM中的全局特征映射，UGA是FM中的联合引导注意力。Sl、Sg、SU和S分别是局部感知显著图、全局感知显著图、联合显著图和最终显著图其中Wf，i和bf，i是卷积层的参数。 Up（）表示上采样操作。共享骨干网络中的功能将分别用于随后的ICN和LGPN，用于图像字幕生成和显著对象检测。4.2. 图像字幕网络我们利用图像字幕任务的最新进展，从字幕中嵌入对象级别的信息。我们利用CNN+LSTM字幕网络，SAT[37]模型，从输入图像生成字幕嵌入向量（CEV）。我们取Res5 x（即，f5）作为我们的图像字幕网络的输入，并使用LSTM在T步{ht}T，hi∈Rn的隐藏向量来表示生成的单词的嵌入特征。考虑到并非标题中的每个单词都同样重要，为了描述对象，我们提出了一种文本注意机制（TA），对字幕进行提取，以获得更多的本质信息。具体来说，我们使用两个完全连接的层来计算T生成的单词的注意力得分{αt}Tut= Wu（tanh（Wh ht））+bu（2）反映了对应词t的重要性，通过隐藏状态的加权和得到字幕嵌入向量ΣTc =αtht（4）t=1字幕嵌入特征向量c∈Rn能够对显著对象的整体语义知识进行编码。我们利用它来增强视觉特征的语义，从复杂的杂波中定位显著的对象。4.3. 地方全球感知网络上下文信息在显著对象检测中显示出其有效性[31，18，17]。更大的上下文可以捕获对象的全局结构，并提供对显著区域的整体估计。而较小的背景则聚焦于物体的局部，能够保留更多的空间细节。我们提出了一个局部-全局感知网络（LGPN），它结合了多上下文视觉特征的显着性预测的cap-tion嵌入向量。LGPN由局部感知模块（LPM）、全局感知模块（GPM）和融合模块（FM）组成。详细的AR-exp（ut）t=0.01T（三）每个模块的结构如图4所示。本地感知模块。以前的作品[31，18，17]（t=1ut）倾向于利用超像素来提取局部信息其中，Wu、Wh和dbu是完全一致性的参数突出的物体。当这些片段破坏了连接层和不t=1 α t=1。注意力得分α t显著区域的一致性，使模型无法α6028I=2B，ii=1均匀地突出显示对象内部。为了避免这个问题，我们提出了一个局部感知模块（LPM），它利用边界框来捕获局部上下文，用于局部化和分割显著区域。我们采用Mask-RCNN [9]来实现我们的LPM。给定图像，Mask-RCNN首先使用区域提议网络（RPN）来产生一组候选ROI（即，边界框）。然后设计了两个并行网络，分别用于包围盒识别（记为φrecog）和目标掩模分割（记为φmask）。我们利用Mask RCNN为每个候选框生成显着概率和对象掩码。为了有效地利用多层CNN特征，我们在特征金字塔网络（FPN）之上构建了Mask-RCNN。[21]第20段。具体地，我们将RPN和RoIAlign应用于集成的多级特征{Pi}5以产生candi。（a）（b）（c）（d）（e）图5：在LGPN中生成的显著性图。(a)输入图像，（b）地面实况，（c）-（e）由LPM、GPM和FM生成的显著性图。ing框中，GPM将标题嵌入向量c以逐像素的方式使用视觉特征P2日期框{B}NB以及它们对应的特征图g =ReLU（Wp，c（ Cat（P2， tile（c↓））+bp，c）（6）ii=1{f}NB. 最终分类前的特征向量其中Wp，cbp，c是卷积层用于表示每个绑定的本地上下文ing box（定义为BfB，i）。在LPM中，我们利用高电平层. c↓是256维CEV。tile（）是平铺字幕向量c转换为大小为W×H×256的特征图。的↓2222从字幕语义信息，以提高分类，bounding box的用法我们将字幕嵌入向量c与边界框xb，i集成如下：li=ReLU（WB，c（ Cat（WfB，i，c↑）+bB，c）（5）其中WB，c和bB，c是卷积参数，Cat（）表示交叉信道级联操作。c↑是通过1×1卷积进行维数增加后的CEV。结合了字幕语义和视觉线索的特征向量li进一步用两个完全连接层以产生候选显著性概率和箱回归。然后，类概率大于固定阈值θT的边界框将被选为显著候选。它们对应的对象掩模被映射到图像中的原始位置以生成局部感知显著性图S1。为了获得显著性概率图，我们在这里不像[9]那样对对象掩码进行二值化。通过用边界框捕捉对象的局部外观，LPM能够均匀地突出对象的内部并保留一些精细细节（如图5（c）所示）。然而，由于缺乏足够的全局上下文信息，LPM可能会带来一些错误的检测结果。因此，我们还提出了一个全局感知模块来区分显着区域，考虑更多的全球背景。全局感知模块。全局背景是一个有效的线索，可以对显著反应进行令人信服的估计gions。我们提出了一个全局感知模块（GPM），它将字幕嵌入向量与全局视觉上下文相结合，以精确定位显著性所得到的全局特征图（GF）（记为g）能够集成来自字幕的语义知识我们用卷积层和sigmoid函数处理全局特征图，以生成每个像素的显著概率，Sg=Sigmoid（Wg g + bg）（7）其中Wg和bg是用于预测全局感知显著图Sg的卷积层的参数。融合模块。如上所述，我们提出了LPM和GPM来集成高级字幕嵌入用视觉特征进行显著性推断。通过捕捉显著目标的局部外观，LPM能够均匀地检测显著目标的内部，并保留一些细节。另一方面，GPM能够通过考虑更多的全局上下文来给出显著性局部化的有希望的估计。由LPM和GPM生成的显著性图是互补的（见图5）。我们建议将它们结合起来，以产生最终的显着图。一种直观的融合方法是连接两个显着图，并使用卷积层来学习它们的组合权重。然而，如果没有关于显著对象的先验信息，则两种显著图中的一些常见错误可能无法避免。为了解决这个问题，我们提出了一个有效的融合模块（FM），它利用CNN特征图作为先验信息，以促进组合权重的学习。为了增强显著区域的特征，我们首先提出了一种联合引导注意机制（UGA），其中两个显著图的联合则特征object.我们取特征图P分辨率W×H为地图后，UGA是连接与本地，全球的网络，22222GPM的可视化表示。与LPM不同，使用字幕嵌入来辅助绑定的分类显着性图，以产生最终结果。具体cally，我们将来自GPM的全局特征图g作为输入，6029β2×精确度+召回率所述熔融过程通过以下步骤进行：S =Sigmoid（Ws（ Cat（Sl，Sg，（g<$SU））））+bs）（8）其中Ws和bs是组合卷积层的参数。表示逐元素乘法。SU=Sl+Sg是局部和全局感知显著图的联合。S代表最终的显着图。在训练过程中，我们提出了一个多任务损失，用于联合优化ICN和LGPN：L=LL+LG+LF+λLC（9）LL是LPM的损失，其具有与Mask RCNN相同的定义[9]。 Lg指示GPM的损失，其被定义为全局感知显著性图Sg和地面实况之间的交叉熵损失。类似地，LF被公式化为最终显著性图S与地面实况之间的交叉熵损失。LC是具有与SAT模型相同定义的ICN的损失[37]，λ表示ICN和LGPN的损失之间的权衡。在推理过程中，我们的CapSal模型可以同时为每个输入图像生成字幕和显著性图。5. 实验5.1. 实验装置数据集。我们利用我们提出的COCO-CapSal数据集以及其他五个显着性数据集来评估我们的模型的性能。第3节中介绍的COCO-CapSal数据集有5265张图像用于训练，1459张用于测试。PASCAL-S数据集[19]包含从PASCAL VOC 2009分割数据集中选择的850个具有挑战性的图像。DUTS[32]是一个大规模的数据集，包含10553张用于训练的图像和5019张用于测试的图像。DUTs中的显著对象通常具有不同的位置和尺度。HKU-IS[17]有4447张图像，其中有多个显著对象和低颜色对比度。THUR[2]包括6，232张图片，类别包括蝴蝶，咖啡，狗，长颈鹿和飞机。SOC[6]是一个新构建的数据集，其中包括从MSCOCO [22]中选择的3000张图像和3000张非显著对象图像。我们利用SOC验证集的显着ob-bandage图像来评估我们的方法。评价标准。为了评估我们的CapSal模型以及其他最先进的模型，我们使用四种常见的方法，显著目标检测中的关键词，包括精确-召回（PR）曲线，F-测度，S-测度[7]和平均绝对误差（MAE）。通过使用[0，255]中的阈值对预测的显着性图进行二进制化PR曲线使用数据集在不同阈值下的平均精度和召回率绘制我们还使用F-措施，以获得一个整体的性能评价。它被计算为2Fβ =（1+β）×精度×召回率，其中β2为0。3重量[39]《易经》中的“贵”字，比“贵”字更重要。我们报告的Fβ，这是通过阈值的显着性图，其两倍的平均显着性得分计算。除了PR曲线和F-测量，我们还报告了MAE和S-测量[7]，以提供总体评价。实施详情。我们利用COCO-CapSal数据集的训练集在配备GTX 1080Ti GPU的PC上训练我们提出的模型。共享骨干网络的参数由在MSCOCO上预训练的Resnet101初始化我们的LPM与Mask RCNN共享相同的架构和参数设置[9]。我们设计了一个两阶段的训练策略来促进我们的CapSal模型的收敛。首先，我们使用COCO-CapSal的字幕数据训练ICN。在这个阶段中，共享骨干网和LVPN是固定的，不需要训练。我们使用学习率为0.001的SGD优化器来训练ICN，直到它收敛。在第二阶段，两个子网和共享骨干网联合优化使用的多任务损失定义在Eq.9。折衷λ被设置为0.1。学习率为0.0001的SGD优化器被用于LGPN和ICN的训练。在两个阶段中，重量衰减和动量都设置为1 e-4和0.9在我们的实验中将输入图像调整大小并填充为1024 ×1024。在推断期间，LPM中的阈值θT被设置为0.8。5.2. 与最新技术水平的比较我们将所提出的CapSal模型与11种深度学习方法进行了比较，包括LEGS [31]，ESTA [17]，RFCN [33]，DCL [18]，DHS [23]，NLDF [27]，DSS [11]，[42]，[43]，[44]，[45]，[46]，[47]，[48]，[49]，的不同方法的显著性图由作者公布或通过运行可用代码来实现。定量评价。在PR曲线、F-测度和MAE等方面，我们将CapSal模型与其他11种方法进行了比较.图6和表1中的比较结果一致表明，我们的模型在挑战COCO-CapSal，PASCAL-S [19]和SOC [6]数据集上的性能大大优于其他方法，并且在DUTS-test [32]，THUR [2]和HKU-IS [17]数据集上的性能相当。我们还在Tab中提供了三个数据集的S-度量结果。2，这也验证了我们模型的有效性补充资料中提供了THUR数据集上的PR曲线。该研究[17]使用HKU-IS数据集进行训练，我们没有报告其在该数据集上的结果。定性评价。为了定性地估计我们的CapSal模型的性能，我们在图7中展示了我们的方法和其他11种方法生成的我们可以观察到，我们的方法可以准确地从复杂背景中检测显著目标。5.3. 消融研究在本节中，我们将分析CapSal模型中每个组件的贡献COCO-CapSal的结果6030表1：在六个数据集上与其他最先进技术在F-测量和MAE方面的定量比较最好的三个结果以红色、绿色和蓝色显示。“CapSal(DUTS-train)” and “CapSal(COCO-CapSal)” represent the result of our CapSal model trained on DUTS-train[32] and COCO-CapSal方法COCO-CapSalPascal-SDUT测试HKU-ISThurSOC值FβMaeFβMaeFβMaeFβMaeFβMaeFβMae腿[31]0.5940.1870.6970.1550.5840.1380.7320.1190.6070.1250.4450.216[第17话]0.6650.1520.7090.1460.6730.100--0.6360.1090.4090.168RFCN [33]0.7540.1270.7510.1330.7120.0900.8350.0890.6270.1000.5310.159DCL [18]0.7300.1080.7140.1250.7140.1490.8530.1360.6760.1610.4800.177国土安全部[23]0.7680.0970.7730.0950.7240.0670.8520.0540.6730.0820.5190.135UCF [43]0.6620.1450.7010.1270.6290.1170.8080.0740.6450.1120.4280.238护身符[42]0.7510.1020.7630.0980.6780.0850.8390.0520.6700.0940.4970.169NLDF [27]0.7540.1070.7790.0990.7430.0660.8740.0480.7000.0800.5000.158[第11话]0.7420.1330.8040.0960.7910.0570.8950.0410.7310.0740.4930.151BMPM [41]0.7410.0790.7690.0740.7500.0490.8710.0380.6900.0790.5000.134DGRL [35]0.7800.1180.8250.0720.7680.0510.8820.0370.7160.0770.4950.135CapSal（DUTS-train）CapSal（COCO-CapSal）0.8150.8600.0650.0570.8300.8230.0640.0750.7890.7560.0440.0630.8780.8360.0390.0590.7280.7110.0690.0810.6040.6310.1050.11710.90.80.70.60.50.40.30.2双腿RFCNDCLDHSNLDFUCFAmuletDSSBMPMDGRLCapSal（DUTS-train）CapSal（COCO-CapSal）0 0.2 0.4 0.6 0.81召回COCO-CapSal10.90.80.70.60.50.40.30.2双腿RFCNDCLDHSNLDFUCFAmuletDSSBMPMDGRLCapSal（DUTS-train）CapSal（COCO-CapSal）0 0.2 0.4 0.6 0.81召回Pascal-S10.90.80.70.60.50.40.30.20.1双腿RFCNDCLDHSNLDFUCFAmuletDSSBMPMDGRLCapSal（DUTS-train）CapSal（COCO-CapSal）0 0.2 0.4 0.6 0.81召回DUT测试10.90.80.70.60.50.40.30.20.1腿RFCNDCLDHSNLDFUCFAmuletDSSBMPMDGRLCapSal（DUTS-train）CapSal（COCO-CapSal）0 0.2 0.4 0.6 0.81召回HKU-IS0.80.70.60.50.40.30.20.1双腿RFCNDCLDHSNLDFUCFAmuletDSSBMPMDGRLCapSal（DUTS-train）CapSal（COCO-CapSal）0 0.2 0.4 0.6 0.81召回SoC图6：所提出的方法和11种方法在PR曲线方面对五个数据集的比较输入GT Ours DGRL BMPM DSS Amulet UCF NLDF DHS DCL RFCN密码图7：所提出的方法和最先进的算法的定性比较。我们的显着图是在COCO-CapSal数据集上训练CapSal模型的结果。表2：三个数据集上的S度量结果。COCO-CapSalPascal-SSOC值[第11话]0.7260.7970.602BMPM [41]0.8320.8450.656DGRL [35]0.7400.8360.597CapSal（DUTS-train）0.8460.8570.705CapSal（COCO-CapSal）0.8680.8370.710和DUT测试[32]数据集见表3。LGPN分析。我们只将视觉特征作为LGPN的输入来预测显著图，并将此模型作为我们的基线网络。表3中的比较结果表明，LPM、GPM和FM都有助于显着图的生成从图5中的视觉比较中，我们可以看到LPM和GPM是互补的，使用FM将它们组合可以获得更好的结果。对LGPN字幕的有效性。我们调查我们的CapSal模型的有效性，通过比较它与基线网络。表3中的定量结果验证了字幕在促进LPM、GPM及其最终融合性能方面的功效。从图8中的视觉为了证明ICN中文本注意力的有效性，我们删除了这一部分，并使用最后一个隐藏的精度精度精度精度精度6031一只斑马站在一辆汽车旁边一只狗躺在沙发上，旁边是一只猫。一只狗和一只鸟站在地上。一个小男孩沿着街道滑着滑板一个男人走在街上，旁边是一辆汽车。表3：COCO-CapSal和DUT测试数据集上CapSal网络的消融研究结果[32]。LGPN：本地-全球感知网络，ICN：图像字幕网络，表 4 ： COCO-CapSal 测试集上 ICN 的图像字幕结果“Baseline” and “Joint Training” indicate the captioningLPM：局部感知模块，GPM：全域感知模块，TA：文本注意，JT：联合训练。基线联合训练0.2860.2910.2420.2450.5270.5300.8740.903LGPN分析（我们的基线）LPM0.8130.0670.6980.081GPM0.7860.0710.7010.074LPM+GPM0.8210.0630.7170.072标题对LGPNLPM+ICN（不含JT）0.8300.0640.7130.074GPM+ICN（不含JT）0.8210.0640.7130.070LGPN+ICN（不含JT）0.8430.0620.7200.069LPM+ICN（不含TA）0.8220.0650.7150.075GPM+ICN（不含TA）0.8180.0690.7190.069LGPN+ICN（不含TA）0.8370.0630.7250.067LPM+ICN0.8440.0600.7300.063GPM+ICN0.8340.0600.7310.063LGPN+ICN0.8600.0570.7560.063字幕准确性LPM+GT标题0.8490.056--GPM+GT标题0.8390.057--LGPN+GT字幕0.8660.055--LSTM的状态作为字幕嵌入向量（表示为表3和图8的结果表明，TA可以突出与显著宾语有关的词，并对LGPN的最终结果有贡献我们还验证了我们联合培训战略的有效性我们使用在第一阶段预训练的ICN的隐藏状态来生成固定字幕嵌入向量，并且仅在第二阶段训练中更新LGPN表3中的结果证明了LGPN和ICN的联合训练可以带来更好的性能。对其他显着性训练数据集的有效性。为了证明字幕在其他训练数据上的有效性具有11个最先进技术的组件（参见字幕准确性的影响。为了验证字幕的准确性对显著性检测的影响，我们用嵌入层和LSTM处理地面实况字幕以产生字幕嵌入向量。结果（a）（b）（c）（d）（e）图8：基线和CapSal模型之间的视觉比较。(a)输入图像，（b）地面实况，（c）-（d）基线和CapSal模型的显著性图，（e）由ICN生成的字幕。注意力得分较高的单词用红色表示显著性检测性能。ICN的表现。我们还研究了ICN在图像字幕中的性能。我们在表4中报告了COCO-CapSal数据集的BLEU-4 [14]、METEOR[5]、ROUGE-L [20]和CIDER [29]结果我们使用第一个训练阶段中预先训练的ICN作为基线。比较结果表明，ICN的性能可以提高联合训练LGPM。6. 结论我们提出了一个CapSal模型，它利用图像captioning来提高显著对象检测的语义特征学习。我们首先设计了一个图像字幕网络（ICN）来嵌入字幕的语义知识。然后提出了一个局部-全局感知网络（LGPN），将字幕嵌入与局部和全局上下文的显着性推理。ICN和LGPN联合训练多任务损失。在六个数据集上的实验验证了图像字幕在促进显著目标检测方面的有效性。鸣谢。这项工作得到了Nat-表3中也列出了请注意，其他显着性数据集不包含标题数据，该实验仅在我们的COCO-CapSal数据集上进行。由此可见，使用准确度较高的字幕可以达到更好的效果。国家自然科学基金项目61725202，61751212和61829102以及来自Adobe的礼品。感谢沈晓晖在前期工作中所做的有益讨论方法BLEU-4流星ROUGE-L苹果酒模型设置COCO-CapSalDUT测试FβMaeFβMae6032引用[1] S. Chen和Q.赵提高注意力：利用人类的注意力为图像添加字幕。在欧洲计算机视觉会议论文集，2018年。[2] M. M. Cheng，N. J. Mitra，X. Huang和S. M.胡凸形：图像集合中的组显著性。Visual Computer，30（4）：443[3] M. M. Cheng，G. X. Zhang，N. J. Mitra和X.煌基于全局对比度的显著区域检测。IEEE计算机视觉与模式识别会议论文集，2011年。[4] Z. Deng，X.胡湖，加-地Zhu，X. Xu，J. Qin，G.寒 P. -A.衡R3Net：用于显著性检测的递归残差细化网络.在2018年国际人工智能联合会议上[5] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。EACL 2014年统计机器翻译集，2014年。[6] D.- P. 范，M.-M. 郑智J. 刘氏H. 高角，加-地侯，和A.波吉杂乱中的显著对象：将显著对象检测带到前景。在欧洲计算机视觉会议论文集，2018年。[7] D.- P. Fan，M.- M.郑，Y. Liu，T. Li和A.波吉结构-措施：一种新的方法来评估前景地图。在2017年IEEE计算机视觉国际会议[8] J. Gu，J. Cai，G. Wang和T.尘堆栈标题：图像字幕的从粗到精学习。在AAAI人工智能会议上，2018年。[9] K.他，G.吉基奥萨里山口Dollar和R.娘娘腔。面具R-CNN 。 IEEE Transactions on Pattern Analysis andMachine Intelligence，PP（99）：1[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议论文集，2016年。[11] Q. Hou，M.- M. Cheng，X. Hu，黄毛菊A. Borji，Z. Tu和P. Torr.具有短连接的深度监督显著对象检测。IEEE计算机视觉与模式识别会议论文集，2017年。[12] Z. Huang，X.Wang，J.Wang，W.Liu和J.王. 基于深度种子区域生长的弱监督语义分割网络在IEEE计算机视觉和模式识别会议论文集，2018年6月。[13] M. Jiang，S.黄，J.Duan和Q.赵Salicon：语境中的显著性IEEE计算机视觉与模式识别会议论文集，2015年。[14] P. Koehn，H. Hoang、黄毛菊A.伯奇角Callison-Burch，M. Fed-erico，N.贝尔托尔迪湾Cowan，W.申角莫兰河Zens等人Moses：统计机器翻译的开源工具包。在ACL关于互动海报和演示会议的第45届年会的会议记录中，2007年。[15] G.李，Y。Tai和J. Kim。具有编码的低级距离图和高级特征的深度显著性。在IEEE计算机视觉和模式识别会议论文集，2016年。[16] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。IEEE计算机视觉与模式识别会议论文集，2015年。[17] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。IEEE计算机视觉与模式识别会议论文集，2015年。[18] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。IEEE计算机视觉与模式识别集，2016年。[19] Y. Li，X.侯角，澳-地Koch，J. Baug，and A.尤尔。显着对象分割的秘密在IEEE计算机视觉和模式识别会议论文集，2014年。[20] C.- Y.是林书Rouge：一个自动评估摘要的软件包。在ACL 2004文本摘要分支研讨会论文集，2004年。[21] T. Y. Lin，P.杜拉尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。IEEE计算机视觉与模式识别会议论

下载后可阅读完整内容，剩余1页未读，立即下载