没有合适的资源?快使用搜索试试~ 我知道了~
实例级显著对象分割方法及性能
1实例级显著对象分割李冠斌1、2谢元1梁林1宜州余21中山大学2香港大学摘要由于深度卷积神经网络,图像显著性检测最近取得了快速进展。然而,现有的方法都不能识别对象输入显著区域已过滤的突出对象提案显著实例分割检测到的显著区域中的实例。在本文中,我们提出了一个显着的实例分割方法,产生一个显着性掩模与不同的对象实例标签的输入图像。我们的方法包括三个步骤,估计显著图,检测显著对象轮廓和识别显著对象实例。对于前两步,我们提出了一个多尺度显着性细化网络,它生成高质量的显着区域掩模和显着对象轮廓。一旦与多尺度组合分组和基于MAP的子集优化框架相结合,我们的方法可以产生非常有前途的显著对象实例分割结果。为了促进显著实例分割的进一步研究和评价,我们还构建了一个新的数据库,包含1000幅图像及其逐像素显著实例标注。实验结果表明,我们提出的方法是能够achieev- ing国家的最先进的性能在所有公共基准的显著区域检测,以及我们的新数据集的显著实例分割。1. 介绍显著对象检测试图定位图像中最显著和吸引眼球的对象区域。它是计算机视觉中的一个基本问题,并作为预处理步骤,以促进广泛的视觉应用,包括内容感知图像编辑[4],对象检测[38]和视频摘要[36]。最近,由于深度卷积神经网络的部署,显著对象检测的准确性得到了快速提高[29,30,33,45]。然而,大多数先前的方法仅被设计为检测属于任何显著对象的像素,即,一个密集的显着性图,但不知道显着对象的个体实例。我们将这些方法执行的任务称为通讯作者(电子邮件:yizhouy@acm.org)。图1.实例级显著对象分段的示例第左:输入图像。左中:检测到的显著区域。中间右侧:过滤突出对象建议。右:显著实例分割的结果。不同的颜色指示检测到的显著区域中的不同对象实例。区域检测在本文中,我们解决了一个更具挑战性的任务,即实例级显著对象分割(或简称显著实例分割),其目的是在检测到的显著区域中识别单个对象实例(图1)。①的人。下一代显著对象检测方法需要在检测到的显著区域内执行更详细的解析以实现这一目标,这对于实际应用至关重要,包括图像字幕[25],多标签图像识别[46]以及各种弱监督或无监督学习场景[28,9]。我们建议将突出实例分割任务分解1)估计二进制显着图。在该子任务中,预测像素级显著性掩模,指示输入图像中的显著区域2)检测显著对象轮廓。在这个子任务中,我们对单个显著对象实例执行轮廓检测。这样的轮廓检测预期抑制虚假的边界以外的对象轮廓,并指导显着的对象的建议的生成。3)识别显著对象实例。在该子任务中,生成显著对象提议,并且选择显著对象提议的小子集以最好地覆盖显著区域。最后,基于CRF的细化方法被应用于改善显著对象实例的空间一致性。最近的一些论文已经探索了使用全卷积神经网络来生成显着性掩模[30,33,45]。虽然这些方法是有效的,并能产生良好的效果,但它们都有自己的局限性。这些方法中的大多数通过从单个VGG网络的内部多层结构中学习对比来推断显着性[45,33]。由于它们的输出是从具有统一大小的接收字段中导出的,因此它们的性能可能不佳23862387在多个不同尺度下的显著物体上。虽然Li等人。 [30]结合了多尺度全卷积网络和分段级空间池流来弥补这一缺陷,但其最终显着图的分辨率仅为原始输入图像分辨率的八分之一,因此无法准确检测小显着对象实例的轮廓。鉴于上述显著性实例分割的子任务,我们提出了一种深度多尺度显著性细化网络,它可以为显著区域检测和对象轮廓检测生成非常准确的结果。我们的深度网络由三个并行流组成,处理同一输入图像的缩放版本,以及一个学习的注意力模型,以融合来自三个流的不同尺度的结果。这三个流共享相同的网络架构、改进的VGG网络及其相关参数。这种改进的VGG网络旨在整合原始网络中自下而上和自上而下的信息。这种信息集成对于显著区域检测[6]和轮廓检测[5]都是至关重要的。我们深度网络中的注意力模型与三个流中的精细VGG网络联合训练。给定显著对象实例的检测轮廓,我们应用多尺度组合分组(MCG)[3]来生成许多显著对象提案。虽然生成的对象建议是高质量的,但它们仍然是嘈杂的,往往有严重的重叠。我们进一步过滤掉嘈杂或重叠的建议,并产生一组紧凑的分割显着的对象实例。最后,一个完全连接的CRF模型,以改善空间相干性和轮廓局部化的初始显著实例分割。综上所述,本文有以下贡献:• 我们开发了一个完全卷积的多尺度细化网络,称为MSRNet,用于显著区域检测。MSRNet不仅可以集成自底向上和自顶向下,形成显著性推断,而且还通过查看同一图像的不同缩放版本来注意与以往的方法相比,该网络在显著区域检测方面具有更高的精度• MSRNet可以很好地推广到显著对象轮廓检测,使其能够分离不同的对象,在检测到的显著区域中的姿态。当与对象建议生成和筛选技术相结合时,我们的方法可以生成高质量的分段显着对象实例。• 创建了一个新的具有挑战性的数据集,用于进一步研究和评估显著实例分割。我们有使用MSRNet生成显著轮廓检测和显著实例分割的基准结果。2. 相关工作最近,深度卷积神经网络在图像分类[27,21],对象检测[17,41]和语义分割[35,7]等计算机视觉主题中取得了巨大成功。在本节中,我们将讨论与显著区域检测、对象建议生成和实例感知语义分割相关的工作。2.1. 显著区域检测传统的显著性检测可以分为基于低级特征的自下而上方法[34,39,10]和结合高级知识的自上而下方法[18,31,22]。近年来,深度CNN将显著区域检测的研究推向了一个新的阶段。基于深度CNN的方法可以分为两类,基于分割或补丁的方法[29,45,52]和端到端显著性推断方法[30,33,45]。前一类方法将图像块视为独立的训练和测试样本,并且由于重叠块之间的冗余而通常效率低下。为了克服这一缺陷,已经开发了深度端到端网络[30,33,45最近,递归神经网络也被集成到这样的网络中[33,45]。虽然这些端到端网络提高了准确性和效率,但它们都考虑了输入图像的单个尺度,并且可能在具有多个尺度的对象实例的图像上表现不佳。2.2. 对象提议目标建议生成的目的是用最少数量的目标窗口(或段)假设定位目标对象。以前关于这一专题的工作可分为两种方法。第一个产生一个对象建议窗口的列表,通过对象的度量(包含对象的图像窗口的概率)进行排名[53,11],而另一个通过合并从多个级别的分割产生的图像片段来生成对象建议[3,43]。虽然它们已经被广泛地用作用于对象检测的前述步骤,但是它们不是针对显著对象定位而定制的。虽然Feng等人。 [16]提议生成一个显着对象建议的排名列表,但其结果的整体质量需要很大的改进。最近,Zhang等人。 [51]提出了一种基于MAP的子集优化公式,以在给定一组显著对象提案的情况下优化检测窗口的数量和位置。然而,由于他们使用的粗糙机制,他们的在本文中,我们产生显着的对象建议的基础上,显着的对象轮廓检测结果。2388图2. 实例级显著对象分割的整体框架2.3. 实例感知语义分割实例感知的语义分割被定义为对象检测和语义分割的统一任务。这个问题最早在[20]中提出,近年来得到了广泛的研究。它被公式化为多任务学习问题[20,13]或在端到端集成模型中解决[42,12]。受此启发,我们提出了显著实例分割,它同时检测显著区域并识别其中的对象实例由于显著对象检测与预定义的语义类别集无关,因此它是一个与通用对象检测和分割密切相关的复杂问题。我们认为,解决这些通用问题的方案在实践中是有价值的,因为不可能对所有对象类别进行分类并为每个对象类别准备像素级训练3. 显著实例分割如图2、显著实例分割方法由显著区域检测、显著对象轮廓检测、显著实例生成和显著实例细化四个部分组成。具体来说,我们提出了一个深度多尺度细化网络,并将其应用于显著区域检测和显著对象轮廓检测。接下来,我们根据显著对象轮廓检测的结果生成固定数量的显著对象建议,并应用子集优化方法进一步筛选这些对象建议。最后,将前三步的结果整合到CRF模型中,以生成最终的显著物体分割。3.1. 多尺度精化网络我们制定了显着区域检测和显着对象轮廓检测作为一个二进制像素标记问题。全卷积网络已广泛用于图像标记问题,并在显著区域检测[30,33,45]和对象轮廓检测[47,50]方面取得了巨大成功然而,它们都没有在统一的网络架构中解决这由于显着对象可以有不 同 的 尺 度 , 我 们 提 出 了 一 个 多 尺 度 细 化 网 络(MSRNet)的显着区域检测,特征提取和显著目标轮廓检测。MSRNet由三个具有共享参数的细化VGG网络流和一个用于融合不同尺度结果的学习注意力模型组成。3.1.1优化VGG网络显著区域检测和显著目标轮廓检测是密切相关的,它们都需要低层线索以及高层语义信息。来自输入图像的信息需要在深度网络中从底层向上传递同时,这种高级语义信息也需要从顶层向下传递,并进一步与高分辨率的低级线索(例如颜色和纹理)相结合,以产生高精度的区域和轮廓检测结果。因此,网络应该考虑自下而上和自上而下的信息传播,并输出与输入图像具有相同分辨率的标签映射。我们提出了一种改进的VGG网络架构来实现这一目标。如图3,改进的VGG网络本质上是一个由自顶向下的改进过程增强的VGG网络。我们将原始的VGG16转换为一个完全卷积的网络,作为我们自下而上的骨干网络。VGG16的两个全连接层首先被转换为具有1×1内核的卷积层,如[35]所述。我们还跳过了最后两个池化层,以使自底向上的特征图更密集,并将倒数第二个池化层之后的卷积层替换为atrous卷积,以保留滤波器的原始感受场这样,变换后的VGG网络的输出分辨率为原输入分辨率的1/8为了使用自顶向下的细化流来增强骨干网络,我们首先将一个额外的卷积层附加到VGG16的五个最大池化层中的每一个。每个额外层有3×3的内核和64个通道,起到降维的作用。受[40]启发,我们-集成一个如图3所示,细化流由五个堆叠的细化模块组成,每个模块MSRNet3 haçe we ágh3第一级第二级显著性图规模3fc7fc7fc7TDTDTDCRF池2池2池2TDTDTD等高线图建议池1pool1pool1TDTDTD子集优化关注模块………………2389TDCTD步步TDC步TD规模1规模2规模3关注+最终输出wieghts3重量2输出3output2output1重量1图3.我们的多尺度细化网络的架构其对应于骨干网中的一个池化层。 每个细化模块Ri将自顶向下通道中的前一细化模块的输出特征图Fi以及自底向上通道中附接到对应池化层的前述额外卷积层的输出特征图Fi作为输入。 它学习合并来自这些输入的信息以产生新的特征图Fi+1,即 Fi+1=Ri(Fi,Fi).精炼-图4. 注意力模块的架构。明智的方式,这意味着像素处的概率分数的权重设Fc是c类的融合概率图,Ws是尺度s的权图。通过对每个概率图与其对应的权重图之间的逐元素乘法求和来计算融合图Fc=fs∈{1,0. 75,0。5}WsMs.(一)TD TD巴士分段模块Ri的工作原理是首先将Fi而f我们称W为注意力权重,如[19],因为它反映了然后将它们馈送到另一个具有64个通道的3 ×3 最后,上采样层是可选的-ally增加了两倍的空间分辨率,以保证应该对不同空间位置和图像比例尺的特征给予多少关注。这些空间变化的注意力权重可以是i和Fi空间分辨率相同。具体地说,被视为概率图本身,在对应于自底向上通道中的前三个池化层中的任何一个的每个细化模块中添加上采样层。我们将没有上采样的细化操作表示为RA,将具有上采样的细化操作表示为RB。在完全卷积网络中也是如此。我们通过在MSRNet中添加注意力模块,同时学习注意力权重和显着性图如图4,注意力模块将级联作为输入注意F1是来自倒数第二层的三个输出特征图的关系骨干网的最后一层,用作输入到整个自上而下的细化流程。细化流的最终输出是具有与原始输入图像相同分辨率的概率图3.1.2具有注意权重的由于已被广泛证实,将输入图像的多个尺度馈送到具有共享参数的网络有利于在像素标记问题中准确定位不同尺度的对象[15,8,14,32],因此我们复制了前一节中的改进VGG网络时间,每个人负责一个规模。输入图像被调整大小为三个不同的尺度(s∈ {1,0. 75,0。5})。输入图像的每个尺度s通过三个复制的细化VGG网络之一,并且作为尺度s的分辨率的双通道概率图出来,记为Ms,其中c∈ {0,1}表示用于显著性检测的两个类别。使用双线性插值将这三个概率图的大小调整为与原始输入图像相同的分辨率MSRNet的最终输出计算为像素中三个概率图的加权和在三个自顶向下的细化流中,它包括两个卷积层用于注意力权重推断。第一卷积层有512个通道,3×3内核,第二层有3个通道,1×1内核。输出要素中的三个通道中的每一个地图对应于三个尺度之一的注意力权重。因此,注意力模块学习每个空间位置和每个尺度的软权重。由于我们的注意力模块中的卷积和逐元素乘法是可微的,它们允许损失函数的梯度传播。因此,注意力模块可以在我们的MSRNet中进行联合训练。3.1.3多尺度精化网络训练我们基于相同的多尺度细化网络架构训练两个深度模型来执行两个子任务,即显著区域检测和显著对象轮廓检测。这些子任务有单独的训练集。由于用于显著轮廓检测的训练图像的数量要少得多,在实践中,我们首先训练一个用于显著区域检测的网络该训练网络的副本被进一步微调用于显著轮廓检测。损失函数-尺寸:40 x 40 x 64尺寸:40 x 40 x 64:80 x 80 x 64:80 x 80 x 64尺寸:160 x 160 x 64尺寸:160 x 160 x64尺寸:320 x 320 x 64FC7:40 x 40 x 1024泳池5:40 x 40 x512尺寸:40 x 40 x64泳池4:40 x 40 x512尺寸:40 x 40 x64尺寸:40 x 40 x 64泳池3:40 x 40 x512尺寸:40 x 40 x64泳池2:80 x 80 x 128VGG16输入:320 x 320输出:320 x 320比例尺1共享权重秤2规模3fc7fc7fc7池2池2池2pool1pool1pool1关注模块池1:160 x 160 x 64..................F2390KKk+1k+1αβγ这两个子任务的部分具有不同的权重以用于样本平衡。由于“轮廓”和“非轮廓”像素的数量当训练MSRNet进行显著区域检测时,我们使用在ImageNet上预训练的VGG16网络初始化自下而上的骨干网络,并使用随机值自上而下的细化流。我们联合微调MSRNet中的三个改进的VGG网络,并使用标准随机梯度下降优化它们的共享参数的骨干网的学习速率设为10- 4,其他新增层的学习速率设为10- 3。为了节省内存并增加minibatch大小,我们将训练图像的分辨率固定为320×320。然而,由于MSRNet是一个完全卷积的网络,它可以拍摄任何物体的图像大小作为输入,并在测试期间生成与输入具有相同分辨率的显着图。3.2. 突出实例建议我们选择多尺度组合分组(MCG)算法[3]从检测到的显著对象轮廓生成显著对象建议。MCG是一种自下而上的分层图像分割和对象候选生成的统一方法。我们 简 单 地 将 MCG 中 的 轮 廓 检 测 器 gPb 替 换 为 基 于MSRNet的显著对象轮廓检测器。具体来说,给定一幅输入图像,我们首先生成四个显著对象轮廓图3.3. 显著实例分割由于显著对象建议和显著区域是独立获得的,所以在所有检测到的显著实例的并集和所有检测到的显著区域的并集之间存在差异。在本节中,我们提出了一个完全连接的CRF模型来细化初始显著实例分割结果。假设显著实例的数量为K。 我们将背景视为K+1类,并将显著物体分割视为多类标记问题。最后,使用CRF模型为每个像素分配K +1个标签中的一个。为了实现这一目标,我们首先定义一个概率图与K+1个通道,其中每个通道对应的空间位置的概率被分配与K +1个标签之一。如果显著像素被单个检测到的显著实例覆盖,则具有与该显著实例相关联的标签的像素的概率如果显著像素未被任何检测到的显著实例覆盖,则像素具有任何标签的概率为1。 注意,显著对象提议可以具有重叠,并且一些对象提议可以占据非显著像素。 如果显著像素被k个重叠显著实例覆盖,则像素具有与k个显著实例之一相关联的标签的概率为1。如果背景像素被k个重叠显著实例覆盖,则像素具有与k个显著实例之一相关联的标签的概率为1,并且像素具有背景标签的概率也为1。给定这个初始显著实例概率图,我们采用完全连接的CRF模型[26]进行细化。具体地,像素标签相对于CRF的以下能量函数被优化:(三个来自输入的缩放版本,一个来自融合地图)。这四个等高线图中的每一个都用于生成表示为超度量等高线图(UCM)的不同的分层图像分割。这四E(x)=−∑logP(xi)+我∑i、jθij(xi,xj),(2)层次被对齐并组合成单个层次分割,并且如[3]中那样获得对象提议的分级列表。其中x表示所有pix的完整标签分配。els和P(xi)是像素i被分配有由x规定的标签的概率。θij(xi,xj)是如下定义的成对为了确保显著对象实例的高召回率,我们为任何给定图像生成800个显著对象提议。我们放弃那些只有不到80%突出像素的提案θij=µ(xi,xj)[(ω1exp−pi−pj2σ2)Ii−Ij-2σ2+以保证任何剩余的建议主要存在于在检测到的显著区域内。给定初始筛选的显著对象提议的集合,我们进一步应用[51]中提出的基于MAP的子集优化方法来产生对象提议的紧凑集合。 重新-ω2exp(pi−pj-2σ2)的情况下]、(三)在紧凑集中保留对象提议形成图像中预测的显著对象实例的最终数目。我们将每个剩余的显著对象提案称为检测到的显著实例。我们可以通过用唯一的实例id标记每个显著实例中的像素来容易地获得显著实例分割的初始结果。其中,如果x i = x j,则μ(xi,xj)=1,否则为零。θij包含两个内核。第一个内核依赖于像素po-位置(p)和像素强度(I),并鼓励具有相似颜色的附近像素采取相似的显著实例标记,而第二个内核在强制平滑时仅考虑空间 超参数σα,2391β2·Pre cision+Re callσβ和σγ控制高斯核的尺度。在本文中,我们应用[26]的公开实现本CRF中的参数是通过对下一节介绍的数据集验证集进行交叉验证确定的。w1、w2、σα、σβ和σγ的实际值被设置为4。0,3。0,49。0,五、0和3。0,分别在我们的实验。4. 一种新的显著目标识别数据集由于显著实例分割是一个全新的问题,因此不存在合适的数据集。为了促进这一问题的研究,我们建立了一个新的数据集与pix- elwise显着的实例标签。我们最初收集了1388张图片。为了减少显著区域检测结果中的模糊性,这些图像主要选自用于显著区域检测的实验数据集,包括EC-SSD [48]、DUT-OMRON [49]、HKU-IS [29]和MSO数据集[51]。所选图像的三分之二包含多个被遮挡的显著对象实例,而剩余的三分之一由没有显著区域的图像、单个显著对象实例或没有遮挡的多个显著实例组成为了减少标签的不一致性,我们要求三个人类注释者使用定制设计的交互式分割工具在所有选定的图像中使用不同的实例ID来标记检测到的显著区域。我们只保留其中显著区域被所有三个注释器划分为相同数量的显著对象实例的图像。最后,我们的新显着实例数据集包含1,000张图像,具有高质量的像素显着实例标记以及显着对象轮廓标记。我们随机地将数据集分为三部分,其中500个用于训练,200个用于验证,300个用于测试。5. 实验结果5.1. 执行我们提出的MSRNet已经在公共DeepLab代码库上实现[7],该代码库在Caffe框架中实现[23]。GTX Titan XGPU用于训练和测试。我们将MSRA-B数据集(2500张图像)[34]和HKU-IS数据集(2500张图像)[29]的训练集结合起来作为我们的训练集(5000张图像)用于显著区域检测。上述两个数据集中的验证集也被组合为我们的验证集(1000张图像)。我们通过水平翻转来增强图像数据集在训练过程中,mini-batch大小设置为6,我们选择每5次迭代更新一次loss。我们将两个子 任 务 的 动 量 参 数 设 置 为 0.9 , 权 重 decay 设 置 为0.0005。迭代的总次数设置为20K。我们每500次迭代测试验证集上的softmax损失,并选择验证损失最低的模型作为最佳模型进行测试。如第3.1.3节所述,此训练模型用作初始模型用于显著轮廓检测,并在我们的新数据集的训练集上进一步微调,用于显著实例和轮廓检测。由于我们的新数据集只包含500张训练图像,我们按照[47]中的方法进行数据增强。具体来说,我们将图像旋转到8个不同的方向,并裁剪旋转图像中最大的矩形。通过在每个方向上的水平翻转,训练集被放大了16倍。我们在增强数据集上对MSRNet进行了10K次迭代,并将具有最低验证误差的模型作为我们的最终模型用于显著对象轮廓检测。它需要大约50个小时来训练我们的多尺度细化网络用于显著区域检测,另外20个小时用于显著对象轮廓检测。由于MSRNet是一个完全卷积的网络,因此测试阶段非常有效。在我们的实验中,它需要0.6秒来执行显著区域检测或显著对象轮廓检测上的测试图像与400x300像素。 生成显著实例分割需要20秒,MCG是瓶颈,需要18秒来生成单个图像的显著对象建议。5.2. 显著区域检测方法为了评估我们的MSRNet在显著区域检测方面的性能 , 我 们 对 六 个 基 准 数 据 集 进 行 了 测 试 :[ 34 ][35][36][ 37 ][38][39当我们在MSRA-B和HKU-IS的组合训练集上训练我们的网络时,我们在这两个数据集的测试集以及其他数据集的组合训练集和测试集上评估我们的训练模型。我们采用查准率-查全率曲线(PR)、最大F-测度和平均绝对误差(MAE)作为性能指标。F测度定义为Fβ=2(1+β)·Precision·Recall,其中β2被设置为0.3。我们报告从所有查准率-查全率对. MAE被定义为二进制地面真值和显着图之间的平均像素绝对差[39]。这是一个更有意义的措施,在评估显着性模型的适用性,在显着的实例分割。在补充材料中,我们还使用自适应阈值报告了平均精确度,召回率和F-测量,该阈值设置为每个显着图的平均显着值的两倍,如[1]中所建议的。5.2.1与最新技术水平的比较我们将所提出的MSRNet与其他8种最先进的显著区域检测方法进行了比较,包括GC [10],DRFI[24],LEGS[44],MC[52],DCL[29],DCL+[30],[33]第45话:最后六个是最新的基于深度学习的方法我们使用作者在此比较中提供的原始实现。2392(a) S网(b)GC(c)DRFI(d)LEGS(e)MC(f)CNET(g)RFCN(h)DHSNet(i)DCL+(j)MSRNet(k)GT图5.视觉比较来自最先进方法的显着图,包括我们的MSRNet。地面实况(GT)在最后一列中示出。MSRNet始终生成最接近地面实况的显着图。1.00.90.80.70.60.50.40.30.20.10.00.0 0.2 0.4 0.6 0.81.0召回1.00.90.80.70.60.50.40.30.20.10.00.0 0.2 0.4 0.6 0.81.0召回1.00.90.80.70.60.50.40.30.20.10.00.0 0.2 0.4 0.6 0.8 1.0召回图6. 9种显著区域检测方法在3个数据集上的精确率-召回率曲线比较。我们的MSRNet在所有测试数据集中始终优于其他方法。请注意,DHSNet [33]在其训练数据中包括DUT-OMRON的测试集,因此DHSNet不包括在该数据集的比较中。图中给出了视觉比较。五、正如我们所看到的,我们提出的MSRNet不仅可以准确地检测不同尺度的显著对象,而且可以在各种具有挑战性的情况下生成更精确的显著性图。作为定量评估的一部分,我们在图中显示了PR曲线的比较。六、有关MSRA-B、ECSSD和SOD数据集的性能比较,请参阅补充材料。此外,表1给出了最大F-测度和MAE的定量比较。如图6和表1,我们提出的MSRNet在所有数据集上都以相当大的幅度优 于 现有 方 法 。 具 体而 言 , MSRNet 在 MSRA-B 、HKU-IS、DUT-OMRON、ECSSD、PASCAL-S和SOD上分别将性能最佳的前向算法实现的最大F-测量提高了1.53%、1.33%、3.70%、1.33%、2.4%在MSRA-B、HKU-IS、DUT-OMRON、ECSSD、PASCAL-S和SOD上,它值得注意的是,MSRNet优于所有其他六种基于深度学习的显着性检测方法,而无需重新排序到任何后处理技术,如CRF。5.2.2多尺度精化网络我们提出的MSRNet由三个改进的VGG流和一个用于融合结果的学习注意力模型在不同的尺度。为了证明每个组件的有效性和重要性,我们训练了三个额外的模型进行比较。这三个模型分别是单骨干网络(VGG16)、单尺度细化网络(SSRNet)和具有相同注意模块但没有细化的多尺度VGG网络(MSVGG)。这三个额外的模型使用与MSRNet训练相同的设置进行训练。在HKU-IS数据集的测试部分上得到了四种方法的定量结果。如图7、MSRNet在PR曲线、平均精确度、召回率和F度量方面始终达到最佳性能。SSR-Net和MSVGG的性能都明显优于VGG 16,这分别证明了MSR-Net中的细化模块和基于注意力的多尺度融合此外,这两个组件是相互补充的,这使得MSRNet不仅能够检测更精确的显著区域(具有更高的分辨率),而且还能够在多个尺度上发现显著对象。5.3. 显著性实例分割的评价为了评估我们提出的框架的有效性显著实例分割,以及促进进一步研究这个新问题,我们采用了两种类型的性能指标,并证明了我们的框架的结果,根据这些措施。我们使用与传统相同的绩效衡量标准GCDRFILEGSMCDCL+DHSNetRFCNMSRNetPascal-SGCDRFILEGSMCDCL+RFCNMSRNetDUT-OmronGCDRFILEGSMCDCL+DHSNetRFCNMSRNetHKU-IS精度精度精度2393数据集度量GCDRFI腿MCMDFRFCNDHSNetDCL+MSRNetMSRA-BmaxF0.7190.8450.8700.8940.885--0.9160.930Mae0.1590.1120.0810.0540.066--0.0470.042Pascal-SmaxF0.5390.6900.7520.7400.7640.8320.8240.8220.852Mae0.2660.2100.1570.1450.1450.1180.0940.1080.081DUT-OmronmaxF0.4950.6640.6690.7030.6940.747-0.7570.785Mae0.2180.1500.1330.0880.0920.095-0.0800.069HKU-ISmaxF0.5880.7760.7700.7980.8610.8960.8920.9040.916Mae0.2110.1670.1180.1020.0760.0730.0520.0490.039ECSSDmaxF0.5970.7820.8270.8370.8470.8990.9070.9010.913Mae0.2330.1700.1180.1000.1060.0910.0590.0680.054SODmaxF0.5260.6990.7320.7270.7850.8050.8230.8320.847Mae0.2840.2230.1950.1790.1550.1610.1270.1260.112表1.定量结果的比较,包括最大F测量(越大越好)和MAE(越小越好)。 最好的三每个数据集上的结果分别以红色、蓝色和绿色示出。请注意,DHSNet [33]的训练集包括MSRA-B和Dut-OMRON的测试集,整个MSRA-B数据集用作RFCN [45]训练集的一部分此处排除相应的测试1.00.90.80.70.60.50.40.30.20.5 0.6 0.7 0.8 0.91.0召回0.940.920.900.880.860.840.820.800.780.76接收前FMEAMSRNetSSRNetMSVGGVGG 16图7.所提出的多尺度细化网络的逐点有效性。标准轮廓检测[2,47]来评估显著对象轮廓检测的性能,并采用三个标准输入GroundTruth显著性图显著性轮廓显著实例分割测量:固定轮廓阈值(ODS )、每图像最佳阈值(OIS)和平均精度(AP)。详细定义参见[2]。我们定义的显着的实例分割的性能指标,从实例感知的语义分割的评价借鉴。具体而言,我们采用平均精度,称为mAPr[20]。在本文中,我们使用0.5和0.7的IoU阈值报告mAP r,表示为mAP r@0。5和mAP r@0. 分别为7。我们提出的方法在显著对象轮廓检测和显著实例分割中的基准结果在表2中给出。图8展示了来自我们的测试集上的结果的示例。我们的方法可以处理具有挑战性的情况下,多个显着的对象实例是空间连接到彼此。表2. 在我们的新数据库进行显著对象轮廓检测和显著实例分割的定量基准测试结果显著轮廓检测显著实例分割ODSOISAPMPr@0.5(%)MP r@0.7(%)0.7190.7570.76565.3252.186. 结论在本文中,我们介绍了显著实例分割,一个新的问题,有关显著对象检测,图8.我们的显著实例分割结果示例基于MSRNet的框架。并提出了解决这一问题的框架。我们的框架中最重要的组成部分是一个多尺度显着性细化网络,它生成高质量的显着区域掩模和显着对象轮廓。为了促进显着实例分割的进一步研究和评估,我们还构建了一个新的数据库与像素显着实例注释。实验结果表明,我们提出的方法是能够achieev- ing国家的最先进的性能在所有公共数据集的显著区域检测,以及我们的新数据集的显著实例分割。确认本 工 作 得 到 了 香 港 创 新 科 技 基 金 ( ITP/055/14LP ) 、 国 家 重 点 发 展 计 划 项 目 ( 2016 YFB1001004)、国家自然科学基金项目(61622214)和广东省-国家自然科学基金超级计算应用研究专项(二期)的支持MSVGGVGG 16SSRNetMSRNet精度2394引用[1] R. Achanta,S. Hemami,F. Estrada和S.暂停频率调谐显著区域检测。CVPR,2009。 6[2] P. Arbelaez,M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。TPAMI,33(5):898-916,2011. 8[3] P. Arbel a'ez,J. Pont-T uset,J. T. Barron,F. Marques和J·马利克多尺度组合分组CVPR,2014。二、五[4] S. Avidan和A.沙米尔用于内容感知图像大小调整的接缝雕刻。TOG,26(3):10,2007. 1[5] G. Bertasius,J. Shi和L.托雷萨尼Deepedge:一个多尺度分叉深网络,用于自顶向下的轮廓检测。CVPR,2015。2[6] A.波吉提升自下而上和自上而下的视觉特征以进行显著性估计。CVPR,2012。2[7] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv:1412.7062,2014。二、六[8] L- C. Chen,Y.杨,J.Wang,W.Xu和A.L. 尤尔。注 意比例:尺度感知语义图像分割。arXiv预印本arXiv:1511.03339,2015年。4[9] X. Chen和A.古普塔。卷积网络的Webly监督学习在ICCV,2015年。1[10] M.- M. Cheng,N. J. Mitra,X. Huang,P. H. Torr和S.-M.胡基于全局对比度的显著区域检测。TPAMI,37(3):569-582,2015年。二、六[11] M.- M. 郑,Z.张文--Y. Lin,和P.乇Bing:在300fps下用于对象估计的二进制赋范梯度。CVPR,2014。2[12] J. Dai,K.他,Y. Li,S. Ren和J. Sun. 实例敏感的全卷积网络。arXiv预印本arXiv:1603.08678,2016年。3[13] J. Dai,K. He和J. Sun.通过多任务网络级联的实例感知语义分割。arXiv预印本arXiv:1512.04412,2015。3[14] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV,2015年。4[15] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征TPAMI,35(8):19154[16] J. 冯,Y.韦湖,澳-地陶角,澳-地zhang和J.太阳通过组合进行显著目标见ICCV,2011年。2[17] R.娘娘腔。快速R-CNN。在ICCV,2015年。2[18] S.戈弗曼湖Zelnik-Manor和A.塔尔上下文感知显著性检测。TPAMI,34(10):1915-1926,2012. 2[19] K.格 雷 戈 尔 岛Danihelka , A.格 雷 夫 斯 D.J.Rezeland,以及D.维尔斯特拉Draw:用于图像生成的递归神经网络。arXiv预印本arXiv:1502.04623,2015。4[20] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。2014年,在ECCV。三、八[21] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。2[22] Y. Jia 和 M. 韩 与 类 别 无 关 的 对 象 级 显 著 性 检 测 。InICCV,2013. 2[23] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。在ACM MM,2014中。6[24] H. Jiang,J. Wang,Z. Yuan,Y. Wu,N. Zheng,和S.李显著对象检测:判别式区域特征集成方法。CVPR,2013。6[25] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 CVPR,2015。 1[26] P. Kr aühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理arXiv预印本arXiv:1210.5644,2012年。五、六[27] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。2[28] B. Lai和X.龚用于弱监督图像解析的显著性引导字典学习在CVPR,2016年。1[29] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。CVPR,2015。一、二、六[30] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在CVPR,2016年。一、二、三、六[31] Y. Li,X.侯角,澳-地Koch,J. M. Rehg,和A. L.尤尔。显着对象分割的秘密。CVPR,2014。二、六[32] G.林角,澳-地申岛Reid等人用于语义分割的深度结构化 模 型 的 高 效 分 段 训 练 。 arXiv 预 印 本 arXiv :1504.01013,2015。4[33] N. Liu和J.Han. Dhsnet:用于显著对象检测的深度层次显著性网络。在CVPR,2016
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功