高分辨率显著性目标检测及数据集研究

62 浏览量更新于2023-10-12 收藏 3.24MB PDF 举报

深度神经网络

性能评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7234高分辨率显著目标检测曾毅1，张平平1，张建明2，林哲2，卢沪川11大连理工大学2Adobe Research，美国{dllgzy，jssxzhpp}@ mail.dlut.edu.cn，{jianmzha，zlin}@ adobe.com，lhchuan@dlut.edu.cn摘要基于深度神经网络的方法在显著对象检测方面取得了重大突破。然而，它们通常仅限于低分辨率（400×400像素或更低）的输入图像。几乎没有努力训练神经网络来直接处理salien-测试高分辨率图像中的对象分割。本文推进了高分辨率显著性检测，并提出了一个新的数据集，高分辨率显著性目标检测（HRSOD）。据我们所知，HRSOD是迄今为止第一个高分辨率显着性检测数据集。作为另一个贡献，我们还提出了一种新的方法，它结合了全球语义信息和本地高分辨率的细节，来解决这个具有挑战性的任务。更具体地说，我们的方法包括一个全球语义网络（GSN），一个本地细化网络（LRN）和全球本地融合网络（GLFN）。GSN基于下采样整幅图像提取全局语义信息.在GSN结果的指导下，LRN专注于一些局部区域，并逐步产生高分辨率的预测。进一步提出了GLFN，以加强空间一致性和提高性能。实验表明，我们的方法优于现有的国家的最先进的方法在高分辨率显着性数据集的大幅度，并实现了可比的，甚至更好的性能比他们在一些广泛使用的显着性基准。1. 介绍显著目标检测，旨在准确地检测和分割场景中最具特色的目标区域，近年来引起了越来越多的关注[8，46，47，51，48]。它被认为是一个非常重要的任务，可以促进广泛的应用，如图像理解[20，53，44]，对象分割[18]，图像字幕[10，7，40]和光场3D显示[35]。*通讯作者。我们图1.管道与最先进方法的比较。(a)输入图像。(b)地面真相面具。(c)我们的方法。(d)护身符[49]。最好放大观看。深度神经网络（DNN），例如，VGG [30]，ResNet[13]，在计算机领域取得了显着的成功，视觉任务使用典型的输入尺寸，如224×224，384×384等。对于大多数应用，如图像分类，目标检测和视觉跟踪，典型的输入大小足以获得满意的结果。对于密集预测任务，例如图像分割和显著性检测，基于深度学习的方法也显示出令人印象深刻的性能。但遗传缺陷是非常明显的，即。边界模糊。已经进行了许多研究努力例如，Zhang等人。 [49]采用深度递归监督并集成多级特征以进行准确的边界预测。然而，如图1（d）所示，改善并不显著。此外，由电子产品（例如：智能手机）变得非常高，例如，、720p、1080p和4K。当处理高分辨率图像时，上述缺陷变得更加严重。现有技术的显著性检测方法通常缩小输入以提取语义信息。在这个过程中，许多细节不可避免地丢失了。因此，它们不适合LRNGLFN（一）GSN现有方法（c）第（1）款DNNs（b）第（1）款（d）其他事项7235用于高分辨率显著性检测任务。同时，很少有研究努力训练神经网络直接处理高分辨率图像中的显著对象分割。然而，这一行的工作是非常重要的，因为它可以激发或实现许多实际任务，如图像编辑[31，39，23]，医学图像分析[4]等。具体而言，当作为背景替换和景深的预处理步骤时，高分辨率显著对象检测应尽可能准确，以向用户提供逼真的合成图像[29]。如果预测的边界不准确，则可能存在肯定会影响用户体验的伪像。因此，本文将高分辨率显著目标检测的任务向前推进。据我们所知，我们的方法是用于高分辨率显著对象检测。由于没有高分辨率的训练和测试数据集用于显著性检测，我们贡献了一个新的数据集，高分辨率显著对象检测（HRSOD）。详细了解我们的HRSOD将在第3节中介绍。对于开发高分辨率显著性检测方法，有三种直观的方法。第一种是简单地增加输入大小，以在一系列池化操作之后保持相对高的分辨率和对象细节但是，大的输入大小会导致内存使用量的显著此外，我们是否可以通过反向传播有效地从这样一个深度网络中的较低层提取细节第二种方法是将输入划分为小块并逐块进行预测。然而，这种类型的方法是耗时的，并且容易受到背景噪声的影响。第三种方法包括一些后处理方法，如CRF [19]或图切割[28]，它们可以在一定程度上解决这个问题但很少有研究试图在神经网络训练过程中直接解决这个问题。因此，将DNN应用于高分辨率显著对象检测的问题相当未解决。为了解决上述问题，我们提出了一种新的深度学习方法，用于高分辨率显著对象检测，而无需任何后处理。它具有用于提取语义信息的全局语义网络（ GSN ）和用于优化局部细节的局部细化网络（LRN）S.在GSN到LRN之间引入了全局语义指导，以保证全局一致性。此外，提出了一种有倾向的补丁采样（APS）方案，以迫使LRN关注不确定区域，该方案提供了一个很好的性能和效率之间的权衡。最后，提出了一种全局-局部融合网络（GLFN）来增强空间一致性，并进一步提高高分辨率下的性能。概括起来，我们的贡献如下：• 我们贡献了第一个高分辨率的显着目标检测数据集（HRSOD），具有丰富的边界识别，尾部和精确的像素注释。• 我们提出了一种新的高分辨率显著目标检测方法，该方法首先使用GSN提取语义信息，然后使用引导LRN进行优化局部细节，最后用于预测融合的GLFN。• 我们进行了大量的实验，以证明我们的方法优于其他国家的最先进的方法在高分辨率显着性数据集的大幅度，并且在一些广泛使用的显著性基准上实现了可比较的性能2. 相关工作在过去的几十年中，已经提出了许多方法来解决显著性检测问题。早期的研究主要基于低层特征，如图像对比度[16，6]，纹理[41，42]和背景原色[22，37]。这些模型在简单的场景中是高效和有效的这些方法的详细调查可以在[2]中找到。最近，基于学习的显著性检测方法已经实现了表达性能，并且它们可以粗略地分为两类，即，基于块的显著性和基于模糊控制网络的显著性。2.1. 基于块的显著性现有的基于块的方法对每个图像块进行显著性预测。例如，Wang等人[32]提出了一种结合局部估计和全局搜索的显著性检测算法。然后，Li等人。 [21]提出利用多个通用CNN中的多尺度特征来预测每个超像素的显着程度。为了预测每个超像元的显著程度，Zhao et al. [52]使用多上下文深度CNN来预测考虑全局和局部上下文的显着性图。上述方法包括几个完全连接的层来进行超像素级的预测，导致昂贵的计算成本和空间信息的丢失。更重要的2.2. 基于FCN的显著性Liuet al. [24]设计了一个深度层次显着性网络，并通过整合局部上下文信息逐步恢复图像细节。 Zhang等人 [49]提出一个通用的框架，将多层次的功能集成到不同的分辨率，以获得更精细的显着图。为了更好地集成不同级别的特征，Zhang等人 [45]提出了一种具有门函数的双向消息传递模块，以集成多级特征。Wang等人[36]使用边界细化网络来学习每个空间位置的传播系数。7236i=1为了在最终的预测中恢复图像细节，已经进行了大量的研究工作然而，对于高分辨率图像，所有现有的基于FCN的方法都对输入进行了下采样，从而丢失了高分辨率的细节，并且无法预测细粒度的显著性图。一些研究人员试图通过使用后处理技术进行更精细的预测来解决这个问题。然而，传统的CRF [19]和引导过滤非常耗时，并且其改进非常有限。Wu等人 [38]提出了一种更有效的引导过滤层。然而，它们的性能仅与CRF相当。为了减少这一差距，我们提出了一种方法，结合基于补丁的方法（保持细节和节省内存）和基于FCN的方法（具有丰富的上下文信息）的优点3. 高分辨率显著性检测数据集存在用于显著性检测的几个数据集，但它们中没有一个是专门为高分辨率显著对象检测而设计的。三个主要缺点是显而易见的。首先，当前数据集中的所有图像都具有极其有限的分辨率。具体地，每个图像的最长边缘小于500像素。这些低分辨率图像不代表当今第二，为了减轻用户的负担，在边界区域输出具有极高精度的掩模是必要的。但是现有显著性检测数据集中的图像不足以为训练DNN提供丰富的对象边界细节此外，广泛使用的显著性数据集在注释质量方面也存在一些问题，例如未能覆盖所有显著性区域（图2（c）），包括背景干扰到前景注释（图2（d））或低轮廓准确度（图2（e））。为了解决上述问题，我们提供了一个高分辨率对象检测（HRSOD）数据集，包含1610个训练图像和400个测试图像。2010张图片来自Flickr1的网站，并获得了所有知识共享的许可。像素级的地面实况由40个主题手动注释。在我们的HRSOD中，每个图像的最短边缘超过1200像素。图2显示了我们的HRSOD和现有显著性检测数据集之间的图像大小比较。对于现有数据集，我们仅显示HKU-IS数据集的结果[21]，其他数据集的结果相同此外，还对辅助材料中的形状复杂性进行了分析.与现有的显着性数据集相比，我们的HRSOD避免了低级别的错误vi-超过5个主题的仔细检查（图2（f）中所示的示例）。据我们所知，HRSOD是目前第一个用于显著对象检测的高分辨率数据集。它专门用于训练和评估DNN(a)（b）第（1）款(c)（d）其他事项(e)（f）第（1）款图2. (a)HKU-IS上对角线长度的直方图[21]（最大值小于600。）(b)HRSOD上的对角线长度直方图（最小值超过1000。）（c）-（f）来自各种数据集的样本图像，具有覆盖的地面真实掩模。具体而言，（c）来自HKU-IS [21]。(d)是来自DUTS-测试[33]。(e)[5]《易经》中的五行。（f）是我们的HRSOD的一个例子。最好放大观看。针对高分辨率显著对象检测。w-hole数据集是公开可用的2.4. 我们的方法在本文中，我们提出了一种新的方法来检测显着目标的高分辨率图像有限的G-PU内存。我们的框架包括三个分支，即，全局语义网络（GSN）、局部精化网络（LRN）和全局-局部融合网络（GLFN）。图3示出了所提出的方法的总体图示。GSN的目标是从全局的角度提取语义知识。在GSN的指导下，LRN的目的是细化不确定的子区域。最后，GLN采用高分辨率图像作为输入，并进一步加强GSN和LRN融合预测的空间一致性具体而言，令{Xi=（Ii，Li）}N为训练集，其包含训练图像Ii及其逐像素显著性标签Li。输入图像Ii首先被前馈通过GSN来获得粗略显著性图Fi，表示为1https：//www.flickr.com2https://github.com/yi94code/HRSOD7237M 我M{R}m m=1缩减GSN高档全球指导预测APSLRLRNNGGLLFNN图3.网络体系结构概述。GSN和LRN分别将缩小的整个图像和参与的子图像作为输入。GSN的引导提供了一些语义知识，并确保我们的APS和LRN关注不确定区域。一个GLFN被附加到直接利用高分辨率的信息融合的预测从GSN和LRN。如：Fi=UP（GSN（DS（Ii），θ））（1）其中，DS（·）表示将图像上采样到384×384，而UP（·）表示将预测上采样到原始大小。θ表示GSN中的所有参数然后Ii被放入我们提出的参与补丁采样（APS）方案（Al-我们的模型被训练用于显著性检测，这是一个逐像素的预测任务。因此，我们只需在conv5 3之后放弃所有层，以保持更高的分辨率。为了扩大感受野，我们采用扩张的卷积层[43]来捕获上下文信息。扩张卷积（Dilated convolution），也被称为atrous convolution，具有在不增加参数数量的情况下扩大视场的优越能力。如图4（a）所示，我们在修订后的VGG-16中的conv 3 -3，conv 4 -3和conv 5 -3的顶部添加了四个膨胀卷积层。所有扩张的卷积层具有相同的内核大小和输出通道，即，k=3且c=32。同一块中的四个膨胀卷积层的速率分别设置为膨胀=1，3，5，7为了提高输出分辨率，我们首先通过最后三个块生成三个显著性得分图其次，我们添加三个额外的反卷积层，前两个其中一个具有2×上采样因子，最后一个具有4×上采样因子。第三，受[25]的启发，我们从显着性得分图构建两个跳过连接i）以生成子图像{PIi}M，m m=1注意不确定区域（M是每个输入Ii的子图像的总数）。随后，通过LRN前馈每个P Ii，以得到细化的显著性图R i。硒从GSN向LRN介绍了智能制导（第二节4.2）的情况。最后，GSN和LRN的输出被融合并通过GLFN前馈以用于最终预测Si。这两个阶段可以表述为：由块3和块4生成以组合高级FEA，具有有意义的语义信息的结构和具有大量细节的低级特征（见图4（a））。补充材料中提供了更多细节。4.2.从GSN到LRN的由GSN生成的显着图是基于完整的图像，并嵌入了丰富的上下文信息。IiMm m=1 =LRN（{PIi}M ，φ）（2）然而，由于其384×384的小输入尺寸，丢失了大量的低级细节，特别是当原始S=GLFN（I，Fuse（{RIi}M ，F），N）（3）图像具有非常高的分辨率（例如，，1920×1080）。的i im m=1i其中φ和φ表示LRN和GLFN的参数，关于iv。Fuse（·）表示融合操作（更多细节见第4.4节）。4.1. GSN和LRN的网络结构(a) 网络架构（b）全球指导输入输出卷积层去卷积层扩展卷积层全局信息图4. (a)GSN和LRN的网络架构。(b)仅为LRN纳入全球指南。我们对GSN和LRN采用相同的主干。我们的模型简单地构建在FCN架构上，具有预训练的16层VGG网络[30]。原始的VGG-16网络[30]被训练用于图像分类任务，7238M我MFM也就是说，它几乎没有学会捕捉显着特性，粗糙的比例尺因此，GSN能够给出粗略的显著性预测，但不足以精确地局部化显著对象。相反，LRN将子图像作为输入，避免了导致细节丢失的下采样。然而，由于子图像太局部而不能指示哪个区域更显著，所以LRN可能对哪个区域应该被突出显示感到困惑。此外，单独的LRN可能在一些局部显著区域中具有假警报因此，我们建议将GSN的语义指导引入LRN，以增强全局上下文知识，同时保持高分辨率的细节。具体而言，我们将全球语义指导的解码器部分。如图4（b）所示，给定GSN的粗略结果Fi，首先根据LRN中的块Pi的位置裁剪块Pi。然后，我们将Pi与LRN中相应的特征图连接起来。4.3. 关注不确定区域与以前的基于补丁的方法相比，我们的LRN有一个显着的差异。传统的基于块的方法通常通过滑动窗口来推断图像中的每个块7239局部细节2 …MBlock1Block2block3输出1j=1j=1全球信息1M2RGB图像图5.全球-地方融合网络。算法1参与补丁采样。输入：RGB图像Ii，地面实况标签Li，基本裁剪尺寸D。输出：RGB补丁集{PIi}M，地面实况补丁集LMm m=1(a)(b)（c）第（1）款(d)（e）（f）图6. APS算法产生的部分子图像。(a)原-{Pmi}m=1。1：从Fi生成注意力图Ai，如等式中所示4.第一章2：Nx=Nw/Dn+n3：对于t = l，. . . ，Nx+1 do4：C=D+r5：Xt=min{XL+（t−1）×w/Nx，XR}6： Y={y|Ai（Xt，y）= 1}7：从（X t，Y）中挑选出J个像素（Xt，y（j））J。最终输入图像。（b）-（f）APS产生的典型子图像。8：以C为裁剪尺寸，（Xt，y（j））J为中心IiJLiJ或者超像素，这是非常耗时的。我们注意到GSN已经成功地为大多数像素分配了正确的标签。因此，LRN只需要专注于较难的区域。这种分层预测方式（GSN用于容易区域，LRN用于较难区域）使得像素，裁剪{P} }j=1且{Pj}j=1fromIi andLi，分别。第九章：端T2= 200，在我们所有的实验中，r∈[−D，D]一些6 6我们的方法更有效和准确。有人值守的修补程序针对这一任务提出了一种采样方案（APS）该算法在GSN结果的指导下，生成涉及不确定区域的子图像算法1给出了APS的粗略过程（更多细节可参见补充材料）。我们使用注意力图Ai来指示所有不确定的像素，并且它可以被公式化为：.1T1Fi（x，y）

下载后可阅读完整内容，剩余1页未读，立即下载