金字塔特征注意网络在显著性检测中的应用及其优势

150 浏览量更新于2023-10-18 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13085基于金字塔特征注意网络的显著性检测赵婷，吴湘倩哈尔滨工业大学计算机科学与技术学院17S003073@stu.hit.edu.cnxqwu@hit.edu.cnR摘要显著性检测是计算机视觉中的基本问题之一最近，CNN是最广泛使用的和强大的显著性检测技术，其中来自不同层的特征图总是被集成而没有区别。然而，本能地，CNN的不同特征图和相同图中的不同特征应该在显着性检测中扮演不同的角色为了解决这个问题，提出了一种新的CNN称为金字塔特征注意力网络（PFAN），以增强高层上下文特征和低层空间结构特征。在 PFAN 中，上下文感知的金字塔特征提取（CPFE）模块被设计用于多尺度的高级特征图，以捕获丰富的上下文特征。将通道注意力（CA）模型和空间注意力（SA）模型分别应用于CPFE特征图和低层特征图，然后进行融合以检测显著区域。最后，提出了一种边缘保持损失的方法，以获得显著区域的精确边界。在五个基准数据集上对所提出的PFAN进行了广泛的评估，实验结果表明，在不同的评估指标下，所提出的网络的性能优于最先进的方法。1. 介绍显著性检测的目的是定位自然图像中引起我们注意的重要部分。作为计算机视觉应用的预处理，例如，目标检测[8，35]、视觉跟踪[1，14]、图像检索[10，13]和语义分割[9]，显著性检测吸引了许多研究人员。目前，最有效的显著性检测方法是基于全卷积网络（FCN）。FCN堆叠多个卷积和池化层以逐渐增加感受野并生成高级语义信息，这在显著性检测中起着至关重要的作用。然而，池化层减小了特征图的大小，并且恶化了显著对象的边界。为了解决这个问题，一些作品介绍了图1.应用金字塔特征注意网络的一个例子.(a)以及（b）表示输入图像和相应的地面实况。（c）和（d）是指没有或有空间注意力的低层次特征（e）和（f）是不具有或具有通道方面的关注的高级特征(g)和（h）表示我们的方法的结果和由拉普拉斯算子产生的（g）的边界映射。手工制作的功能，以保持显着的对象的边界[18，28]。[18]提取手工特征以计算超像素的显著值。[28]通过手工特征将图像划分为区域当生成显著性图时，手工特征和CNN高级特征是互补的，但在这些方法中分别提取然而，很难有效地融合单独提取的互补特征。此外，手工特征提取是一个耗时的过程。除了手工特征之外，一些工作发现来自网络的不同层的特征也是互补的，并且集成了用于显著性检测的多尺度特征[15，43，29]。更具体地，深层的特征通常包含全局上下文感知信息，其适合于正确定位显著区域。浅层特征包含空间结构细节，适合于边界定位。这些方法没有考虑不同尺度特征对显著性的不同贡献，对显著性检测不是最优的为了克服这些问题，将注意力模型[45]和门函数[42]引入显着性检测网络。但13086方法忽略了高、低层特征的不同特点，影响了有效特征的提取。本文提出了一种新的显著目标检测方法--金字塔特征注意（PFA）网络.考虑到不同层次特征的不同特性（图1（c，e）），来自低层次特征的显著性图包含许多噪声，而来自高层次特征的显著性图仅得到近似区域。因此，对于高级特征，受SIFT[23]特征提取算法的启发在训练过程中，CA为对显著性检测起重要作用的通道分配大的权重（图1（f））。为了细化显著区域的边界，我们融合了边缘信息和低层特征。但并不是所有的边缘信息都能有效地细化显著性图，我们期望关注显著对象和背景之间的边界。因此，我们使用空间注意力来更好地关注有效的低级别特征，并获得清晰的显着性边界（图1（d））。经过不同注意机制的处理后，高层特征和底层特征具有互补性，适合生成显著图。此外，不同于以往的显著性检测方法，我们提出了一个边缘保护损失，引导网络学习更详细的信息，在边界定位。基于上述考虑，本文提出的方法PFA网络可以产生良好的显著图。简而言之，我们的贡献总结如下：1. 提出了一种金字塔特征注意（PFA）网络用于图像显著性检测.对于高层特征，我们采用了上下文感知的金字塔特征提取模块和通道注意力模块来获取丰富的上下文信息。对于低层特征，我们采用空间注意力模块来过滤掉一些背景细节。2. 我们设计了一种新的边缘保持损失，以指导网络在边界定位中学习更多的细节信息。3. 该模型在几个具有挑战性的数据集上达到了最先进的水平。实验证明了该方法的有效性和优越性。2. 相关作品2.1. 显着物体检测在过去的十年中，有许多方法用于显著性检测。早期的方法[5，38，39，17]基于手工制作的特征来估计显着值。这些方法以类似人类的直觉检测显著对象感觉和启发式先验，如颜色对比度[5]，边界背景[38，39]和中心先验[17]。已知这些直接技术对于保持精细图像结构是友好的。然而，手工制作的功能和先验知识很难捕捉到高层次和全局的语义知识的对象。近年来，各种网络结构在显著性检测方面做了大量的工作.一些实验[15，18，29]表明，深层中的高级特征对语义信息进行编码，以获得对象的抽象描述，而浅层中的低级特征保留空间细节，以重建对象边界（图1（c，e））。相应地，一些工作将多层次特征引入显著性检测。Hou等人[15]提出了一种显着性方法，通过将短连接引入HED架构内的跳跃层结构。Wang等人。[31]提出了一种基于递归全卷积网络（RFCN）的显着性检测方法。Luo等人[24]通过多分辨率网格结构将局部和全局信息结合起来。Zhang等人[43]通过直接连接来自高级别和低级别的特征图来聚合多级别特征。Zhang等人[42]提出了一种双向消息传递模块，其中消息可以通过门函数相互控制进行传输。然而，某些特征可能会在显著性检测中引起干扰。如何提取各种特征并选择有效的特征成为显著性检测中的一个重要问题。2.2. 注意机制注意力机制已成功应用于各种任务，如机器翻译[11]，物体识别[25]，图像字幕[3，36]，视觉问题和[34][41]和姿势估计[6]。Chu等人[6]提出了一种具有多上下文注意机制的网络，将其引入端到端的人体姿态估计框架中。Chen等人。[3]提出了一种SCA-CNN网络，该网络将CNN中的空间和通道注意力用于图像字幕。Zhang等人[45]提出了一种渐进式注意力引导网络，该网络通过通道和空间注意力机制顺序地生成注意特征，用于显著性检测。由于注意机制具有很强的特征选择能力，它非常适合显著性检测。在集成卷积特征时，大多数现有方法不加区别地处理多级特征。一些方法采用了某些有效的策略，如门函数[42]和渐进注意[45]，但这些方法在某个方向上选择特征，忽略了高层和低层特征之间的差异。与之不同的是，对于高层特征，我们采用上下文感知金字塔特征提取（CPFE）模块和通道注意力模块来捕获丰富的上下文13087256x256x1256x256x128Conv 1-2Conv 2-2低级特征256x256x192256x256x64256x256x64Conv 3-3+Conv 4-31×1×64convConv 5-3高级别特征64x64x38464x64x384256x256x64CACPFESA3×3×64conv3×3×1conv上采样X4损失功能图像VGG网络地面实况图2.我们方法的整体架构CPFE表示上下文感知金字塔特征提取。高级功能来自vgg 3 -3、vg 4 -3和vg 5 -3。低级特征来自vgg 1 -2和2-2，它们上采样到vgg 1 -2的大小。信息.在CPFE模块中，我们在VGG网的三个高级块的一侧采用多尺度无环卷积，然后通道级注意机制为对显著性对象响应高的通道对于低层特征，存在一些干扰显著图生成的背景区域。空间注意机制根据高层特征过滤掉部分背景细节，将更多的注意力集中在前台区域，有助于生成有效的显著性预测特征。3. 金字塔特征注意力网络本文提出了一种新的显著性检测方法，该方法包含上下文感知的金字塔特征提取模块和通道注意模块为了捕获上下文感知的多尺度多感受野高级特征，用于低级特征图的空间注意力模块用于细化显著对象细节，并且有效的边缘保持损失用于引导网络在边界定位中学习更详细的信息。图2中示出了总体架构3.1. 上下文感知金字塔特征提取视觉环境对于显著性检测非常重要。现有的CNN模型通过堆叠多个卷积层和池化层来学习对象的特征。然而，显着对象在尺度、形状和位置上具有很大的变化。以前的方法通常直接使用自下而上的卷积和池化层，这可能不能有效地处理这些复杂的变化。受SIFT[23]特征提取的启发，我们尝试设计一个新的模块来提取尺度、形状和位置不变性的特征。尺度不变特征SIFT变换是计算机视觉中的一种特征检测算法，用于检测和描述图像中的局部特征。该算法提出了高斯拉普拉斯表示[23]，其融合了尺度空间表示和金字塔多分辨率表示。用具有相同分辨率的不同高斯核函数处理的尺度空间表示;以及由具有不同分辨率的下采样处理的金字塔多分辨率表示。与SIFT中的高斯函数类似，我们使用了无卷积[4]以获得具有相同尺度但不同感受野的特征。与SIFT中的金字塔多分辨率表示类似，我们采用VGG-16 [27]的conv 3 -3，conv 4 -3和conv 5 -3来提取多尺度特征。具体地，上下文感知金字塔特征提取模块如图3所示我们将VGG-16中的conv 3-3、conv 4-3和conv 5-3作为基本的高级特征。为了使最终提取的高层特征包含尺度和形状不变性的特征，我们采用了不同膨胀率（分别设置为3、5和7）的卷积来捕获多感受野上下文信息。然后我们结合不同的atrous convo的特征图，通过交叉通道级联实现了1×1降维功能。在此之后，我们得到三个不同的-在将尺度特征与上下文感知信息相结合的情况下，我们将两个较小的特征上采样到最大的特征。最后，我们将它们通过跨通道级联作为上下文感知金字塔特征提取模块的输出。3.2. 注意机制我们利用上下文感知的金字塔特征提取得到多尺度多感受野的高层特征。不同的要素有不同的语义值要生成130881x13x33x3r=3 r=53x3r=7我˜Conv5-464x64x32我们将高级特征fh∈RW×H ×C展开为fh=[fh，fh，...，其中fh∈RW×H是fh的第i个切片，x41 2 CiCFE32x32x32X416x16x32X4C是总通道数。首先，我们应用平均池-对每个fh进行处理，以获得逐通道特征向量vh∈RC. 之后，两个连续的全连接（FC）层以完全捕获通道相关性（参见图4）。如[16]所述，为了限制模型复杂性并帮助推广，我们通过在非线性周围形成具有两个FC层的瓶颈来编码通道特征向量。然后，通过使用sigmoid运算，我们对映射到[0，1]的编码的逐通道特征向量采取CA=F（vh，W）=σ1（fc2（δ（fc1（vh，W1）），W2））（1）图3.上下文感知金字塔特征提取的详细结构。上下文感知的特征提取模块从网络的一侧输出中提取一个特征作为输入，它包含三个3×3具有不同膨胀率的卷积层和1×1卷积层，卷积层，每个卷积层的输出通道是32.显着图但现有的方法大多没有区分地综合多尺度特征，导致信息冗余.更重要的是，在某些级别上不准确的信息会导致性能下降甚至错误的预测。对这些特征进行筛选，并进一步挖掘有价值的特征，具有重要的意义.在本小节中，我们将讨论PFA网络中的注意力机制。根据不同层次特征的特点，对高层次特征采用通道注意，对低层次特征采用空间注意，以选择有效的特征。此外，我们不对高级特征使用空间注意力，因为高级特征包含高抽象语义[16，45]，不需要过滤空间信息。而对于低层特征，我们3.2.1通道注意力CNN中的不同特征通道生成对不同语义的响应[16]。从图1中，显着图其中W是指按通道注意力块中的参数，σ1是指sigmoid运算，fc是指FC层，δ是指ReLU函数。块的最终输出fh通过用CA对上下文感知金字塔特征进行加权来获得。fh=CA·fh（2）3.2.2空间注意自然图像通常包含丰富的前景细节和复杂的背景.从图1中可以看出，来自低层特征的显著性图包含了大量的细节，这很容易带来不好的结果。在显著性检测中，我们希望获得显著对象和背景之间的详细边界，而不需要其他纹理，这可能会分散人们的注意力。因此，我们采用空间注意力来更多地关注前景区域，而不是同等地考虑所有空间位置，这有助于生成用于显著性预测的有效特征。我们将低层特征表示为fl∈ RW× H × C。空间位置的集合由R={（x，y）|x= 1，… W; y = l，… H}，其中j =（x，y）是低级特征的空间坐标。增加感受野并且获得全局信息但不增加参数，类似于[26]，我们应用两个卷积层，一个然后，使用sigmoid操作时，对映射到[0，1]的编码空间特征图采取归一化处理措施。C1=conv2（conv1（fh，W1），W2））（3）从高层次的功能只是一个粗略的结果，一些essen-11可以弱化中间区域我们在-上下文感知金字塔后的张力（CA）[16，3]模块C2=conv1（conv2（fh，W1），W2））（4）2 2特征提取加权多尺度多接收-字段高级功能。 CA将分配更大的权重CFECFEConv4-3Conv3-313089对显著物体表现出高反应的通道。SA=F（fh，W）=σ2（C1+C2）（5）13090Σ˜=−（10000000）Σf尺寸（Y）B i ii=0时（十）渠道关注空间注意力+（1−Yi）log（1−Pi））拉普拉斯算子是n维欧氏空间中的一个二阶微分算子，定义为梯度的散度（αf）。由于二阶导数可以用来检测边缘，我们使用拉普拉斯算子来获得显著对象的边界。二维中的拉普拉斯算子由等式8给出，其中x和y是xy平面的标准笛卡尔坐标其实从图4.空间注意力（Spatial Attention）（右）。其中X和X其中W为空间注意块中的参数，σ2为sigmoid运算，conv1和conv2分别为1×k×C和k×1×1对流层，实验中设k=9块的最终输出fl通过用SA对fl加权来获得。fl=SA·fl（6）3.3. 损失函数在机器学习和数学优化中，损失函数表示分类问题中预测不准确所付出的代价。在显著性目标检测中，我们通常使用最终显著性图和地面真实值之间的交叉熵损失损失函数定义为：尺寸（Y）L=−（α Y log（P）拉普拉斯算子使用图像的梯度，它在内部调用卷积运算来执行其计算。然后我们使用绝对操作，然后在等式9中使用tanh激活，最后，我们使用交叉熵损失来监督显著对象边界的生成总损失函数是它们的加权和：L=αLS+（1−α）LB（11）4. 实验4.1. 数据集和评价标准性能评估用于五个标准基准数据集： DUTS-test[30]、ECSSD[37]、HKU-IS [19]、PASCAL-S[21]和DUT-OMRON[40]。DUTs[30]是一个大规模的数据集，包含10553张用于训练的图像和5019张用于测试的图像。ECSSD [37]包含1，000个图像，在其地面真值分割中具有许多语义上有意义和HKU-IS[19]包含4447个具有挑战性的图像，其中包含多个不连接的显著对象，重叠图像边界或低颜色对比度。PASCAL-S [21]包含850个图像，S siii=0时（七）不同的显著对象被标记有不同的显著性。DUT-OMRON [40]拥有5，168张高质量图像。图像+（1−αs）（1−Yi）log（1−Pi））其中Y表示地面真实值，P表示网络输出的显着图，αs表示正负样本的平衡参数，我们设置αs= 0。528，从训练集的地面实况计算。然而，损失函数只是为显着图的生成提供了一般性的指导。我们使用一个更简单的策略，强调生成的显着对象的边界细节。首先，我们使用Laplace算子[12]来获得网络输出的地面真值和显着图的边界，然后我们使用交叉熵损失来监督显着对象边界的生成。具有一个或多个显著对象和相对复杂的背景。与其他最先进的显着对象检测方法相同，三个流行的标准被用于性能评估，即：精确度和召回率曲线（表示为PR曲线）、F-测量、加权F-测量（表示为wFβ）和平均绝对误差（MAE）。通过比较不同阈值下的预测显著图和地面真实值的二值图来计算查准率和召回率wFβ是通过精确度和召回率的加权组合计算的总体评价标准：∆f =2fx22f+y2（八）Fβ=（1 +β2）×精确度×召回率β2×精确度+召回率（12全球集中共用1×1×C加权X'H×W×C乙状1×1×CFC1×1×CReLU1×1×C/4FC1×1×C/4XH×W×CConv 1×k高×宽×高转化率k×1高×宽×高转化率k×1高×宽×1Conv 1×k高×宽×1添加高×宽加权X'H×W×C乙状高×宽×1XH×W×CYH×W×CL13091）13092图像GT我们Amulet DCL DSS NLDF BDMPM PAGRN RFCN SRM UCF图5. 所提出的方法和最先进的算法的视觉比较。其中β2= 0。3、在其他方法中使用。平均绝对误差（MAE）的计算公式为：α来细化显著图的边界，并发现α= 0.7是实验表2中的最佳设置。在此期间，图像大小，批量大小与前一期间相同W HMAE=1宽×高ΣΣ|P（x，y）− Y（x，y）|（十三）x=1y =1但初始学习率是1 e-3。4.3.与最新技术水平的其中Y是地面实况（GT），P是网络输出的显着4.2. 实现细节我们使用在Imagenet[7]上预训练的VGG-16作为基本模型。DUTS-train数据集用于训练我们的模型，其中包含10553张图像。正如[22]中所建议的，我们不使用验证集并训练模型，直到训练损失收敛。为了使模型鲁棒，我们采用了一些数据增强技术：随机旋转、随机裁剪、随机亮度、饱和度和对比度改变以及随机水平翻转。在训练时，我们在开始时设置α= 1.0，以生成粗略的显着图。在此期间，我们的模型使用SGD[2]进行训练，初始学习率为1 e-2，图像大小为256×256，批量大小为22。然后我们调整不同的13093在五个测试数据集上将所提出的方法的性能与十一种最先进的显著对象检测方法进行了比较，包括BDMPM [42] ， GRL [33] ， PAGRN [45] ， Amulet[43]，SRM [32]，UCF [44]，DCL [20]、DHS [22]、ELD [18]、NLDF [24]和RFCN[31]第30段。为了公平的比较，我们使用推荐参数的实现和作者提供的显着图。4.3.1视觉比较图5提供了我们的方法和其他最先进方法的视觉比较从图5，我们的方法得到了最好的检测结果，这是非常接近地面真相在各种具有挑战性的情况下。具体而言，（1）该方法不仅能清晰地突出正确的显著目标区域，而且能很好地抑制背景区域的显著性，从而使显著目标与背景区域之间的对比度更高13094表1.在所有测试数据集上，不同显著对象检测方法的wFβ和MAE最好的三个结果以红色、蓝色和绿色显示。方法DUT测试ECSSDHKU-ISPascal-SDUT-OmronwFβMaewFβMaewFβMaewFβMaewFβMae我们0.87020.04050.93130.03280.92640.03240.89220.06770.85570.0414BDMPM[42]0.85080.04840.92490.04780.92000.03920.88060.07880.77400.0635GRL[33]0.83410.05090.92300.04460.91300.03770.88110.07990.77880.0632PAGRN[45]0.85460.05490.92370.06430.91700.04790.86900.09400.77090.0709护身符[43]0.77730.08410.91380.06040.89680.05110.86190.09800.74280.0976SRM[32]0.82690.05830.91580.05640.90540.04610.86770.08590.76900.0694UCF[44]0.77230.11120.90180.07040.88720.06230.84920.10990.72960.1203DCL[20]0.78570.08120.89590.07980.88990.06390.84570.11150.75670.0863国土安全部[22]0.81140.06540.90460.06220.89010.05320.84560.0960--[第15话]0.81350.06460.89590.06470.90110.04760.85060.09980.76030.0751ELD[18]0.73720.09240.86740.08110.84090.07340.78820.12280.71950.0909NLDF[24]0.81250.06480.90320.06540.90150.04810.85180.10040.75320.0796RFCN[31]0.78260.08930.89690.09720.88690.08060.85540.11590.73810.0945图6.在五个数据集上对所提出的方法和十一种基于CNN的最先进的显着对象检测方法进行了定量比较。第一行和第二行分别是不同方法的PR曲线和F-测量曲线地面比其他方法。(2)在边缘保持损失的帮助下，所提出的方法能够生成具有清晰边界和一致显著性的显著图。（3）当显著对象与背景相似时（图5中的第2、5、7行），显著对象具有特殊语义信息时（图5中的第1、3、4、6、8行），显著性图的效果明显优于其他显著性图4.3.2定量比较图6和表1提供了所提出的方法和11种最先进的显著目标检测方法在PR曲线、F-measure曲线、wFβ和MAE标准方面在5个测试数据集上的定量评估作为从表1可以看出，我们的方法在wFβ和MAE方面在五个测试数据集上得到了最好的结果，这证明了所提出的方法的效率。从图6中可以看出，我们的方法的PR曲线和F-测量曲线明显高于其他方法，这意味着我们的方法即使在可扩展数据集上也比其他方法更鲁棒。具体地说，在DUT-OMRON数据集上，与现有的最佳方法相比，我们的方法得到了较大的改进。 DUT-OMRON数据集是一个困难且具有挑战性的显著性检测数据集，其中存在许多复杂的自然场景图像，并且显著对象的颜色与背景相似。该方法能有效地发现正确的显著对象13095HLCPFECA会SAElMaeC0.1003CC0.0815CCC0.0629CC0.0836CCC0.0800CCCC0.0528CCCCC0.0432CCCCCC0.0405图7.具有和不具有边缘保留损失的显著性检测结果的视觉比较α1.0.90.80.70.6wFβMae0.85280.04320.85760.04270.86020.03930.87020.04050.86190.0428表2.边缘保存的有效性损失。当α被赋予不同值时，我们的方法中wFβ和MAE的得分最佳结果以红色显示。测试数据集是DUTS-test。有效的特征提取能力和适当的注意机制，这使得网络专注于显著对象。4.4. 边缘保持损失在第3.3节中，我们提出了一个有效的边缘保持损失，以指导网络在边界定位中学习更详细的信息。图7显示了从我们的方法中生成的显着性图和由等式9计算的边界图，其中边缘保留损失或没有。这些结果表明，边缘保持损失直接提高了通用性，使我们的方法具有精细的细节。此外，我们还发现不同α的边缘保持损失对最终结果有不同的影响。从表2中可以看出，当α为0.7时，得到的结果最好。4.5. 消融研究为了研究我们方法中不同模块的重要性从表3中可以看出，拟议模型包含所有组件（即上下文感知金字塔特征提取（CPCE）、通道注意（CA）、空间注意（SA）和边缘保持损失（EL））获得了最佳性能，这表明所有组件对于所提出的方法获得最佳显著对象检测结果是必要的。我们采用的模型只使用高层特征作为基本模型，基本 MAE 为 0.1003 。首先，我们在基本模型中加入CPFE，得到了MAE的下降，进一步加入CA，得到了与基本模型相比MAE下降了37%然后将低层特征加入到高层特征中，证明了多尺度特征融合的有效性。在此基础上，我们将SA加入到低层特征中，与基本模型相比，MAE下降了57%Fi-13096表3.使用不同组件组合的消融研究HL意味着使用高级特征，CPFE意味着在高级特征之后使用上下文感知金字塔特征提取，CA意味着在高级特征之后使用逐层注意力，LL意味着使用低级特征，SA意味着在低级特征之后使用空间注意力，EL意味着使用边缘保留损失。最后，我们在模型中加入了EL，得到了最佳的结果，与基本模型相比，MAE下降了60%5. 结论本文提出了一种新的显著目标检测方法--金字塔特征注意力网络。考虑到不同层次特征的不同特点，对于高层特征，我们设计了一个上下文感知的金字塔特征提取模块和一个通道级注意力模块，金字塔特征提取模块包含多个尺度上不同的卷积，通道级注意力模块用于提取语义高层特征;对于低层特征，我们使用空间注意模块来抑制背景中的噪声，并聚焦于显著对象。此外，我们提出了一种新的边缘保持损失，以指导网络在边界定位中学习更多的细节信息。总之，该方法具有很强的特征提取能力和恰当的注意机制，能够准确定位显著性对象，使网络在显著性检测中具有很强的鲁棒性和有效性。在五个数据集上的实验结果表明，我们提出的方法优于国家的最先进的方法在不同的评价指标。致谢：这项工作得到了中国自然科学基金61672194基金、中国国家重点&研发计划2018 YFC 0832304基金、中国黑龙江省杰出青年科学基金JC 2018021基金和机器人与系统国家重点实验室（HIT）SKLRS-2019-KF基金的部分支持。14.引用[1] A. Borji，S. Frintrop，D. N. Sihite和L.伊蒂通过学习背景上下文的自适应目标跟踪。在计算机视觉和模式识别研讨会（CVPRW），2012年13097IEEE计算机学会会议，第23-30页。IEEE，2012。[2] L. 博图大规模机器学习与随机梯度下降。在COMPSTAT’2010的Proceedings施普林格，2010年。[3] L. Chen，H. Zhang，J. Xiao，L. Nie，J. Shao，W. Liu和T.- S.蔡Sca-cnn：图像字幕卷积网络中的空间和通道注意力。第6298- 6306页[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834[5] M.- M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.-M. 胡基于全局对比度的显著区域检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，37（3）：569[6] X.朱，W。杨，W.欧阳C. Ma，A. L. 尤尔，还有X.王.多上下文注意力用于人体姿态估计。arXiv预印本arXiv：1702.07432，1（2），2017。[7] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和L.菲菲.Imagenet：一个大规模的分层图像数据库。第248-255页[8] Y. Ding，J. Xiao，and J. Yu.图像重定向的重要性过滤。在计算机视觉和模式识别（CVPR）中，2011 IEEE会议，第89IEEE，2011年。[9] M. Donoser，M. Urschler，M. Hirzer和H.比肖夫显著性驱动的全变分分割。计算机视觉，2009年IEEE第12届国际会议，第817-824页。IEEE，2009年。[10] Y. Gao，M. Wang，中国山杨D.陶河，巴西-地Ji和Q.戴.基于超图分析的三维物体检索与识别。 IEEETransactions on Image Processing，21（9）：4290[11] J. Gehring，M. Auli，D. Grangier，D. Yarats和Y. N.太子卷积序列到序列学习。 arXiv 预印本 arXiv ：1705.03122，2017。[12] D. Gilbarg和N. S.特鲁丁格二阶椭圆型偏微分方程。2001年[13] J. He ， J. Feng ， X. Liu ， T. Cheng ， T.- H. Lin ， H.Chung和S.- F. 昌移动产品搜索与哈希位袋和边界重新排序。在计算机视觉和模式识别（CVPR），2012 IEEE会议，第3005-3012页中IEEE，2012。[14] S. Hong，T.你S Kwak和B.韩利用卷积神经网络学习判别显著图的在 International Conference on MachineLearning，第597-606页[15] Q. Hou，M.- M. Cheng，X. Hu，黄毛菊A. Borji，Z. Tu和P. Torr.具有短连接的深度监督显著对象检测。2017年IEEE计算机视觉和模式识别会议（CVPR），第5300IEEE，2017年。[16] 胡杰湖，澳-地Shen和G.太阳挤压-激发网络。arXiv预印本arXiv：1709.01507，7，2017。[17] Z. Jiang和L. S.戴维斯次模块显著区域检测。在IEEE计算机视觉和模式识别会议论文集，第2043-2050页[18] G.李，Y.- W. Tai和J. Kim。具有编码的低级距离图和高级特征的深度显著性。在IEEE计算机视觉和模式识别会议论文集，第660-668页，2016年[19] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。在IEEE计算机视觉和模式识别会议论文集，第5455-5463页[20] G. Li和Y.Yu. 用于显著对象检测的深度对比学习在IEEE计算机视觉和模式识别会议论文集，第478-487页[21] Y. Li，X.侯角，澳-地Koch，J. M. Rehg，和A. L.尤尔。显着对象分割的秘密。在 Proceedings of the IEEEConferenceonComputerVisionandPatternAppraisition，第280-287页[22] N. Liu和J.Han. Dhsnet：用于显著对象检测的深度层次显著性网络。在IEEE计算机视觉和模式识别会议论文集，第678-686页[23] D. G.洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91[24] Z. Luo，中国茶条A. K.米什拉A. Achkar，J. A. Eichel，S. Li和P. - M.乔登非局部深度特征用于显著目标检测。在CVPR，第2卷，第7页，2017年。[25] 诉Mnih，N.Heess，A.Graves等人视觉注意的循环模型神经信息处理系统的进展，第2204-2212页，2014年[26] C.彭、X。Zhang，G. Yu，G. Luo和J. Sun.大内核问题-通过全局卷积网络改进语义分割计算机视觉和模式识别，第1743-1751页[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[28] Y. Tang和X.吴结合区域级和像素级预测与cnn的显著性检测欧洲计算机视觉会议，第809-825页。施普林格，2016年。[29] Y.唐，X. Wu，和W.布用于显著性检测的深度监督递归卷积神经网络。在2016年ACM多媒体会议上，第397-401页ACM，2016。[30] L. Wang，H.Lu，Y.Wang，M.Feng，L.王湾，澳-地尹和X.阮。学习使用图像级监督检测显著对象。正在进行IEEE会议Comput.目视模式识别。（CVPR），第136-145页，2017年。[31] L.王湖，加-地Wang，H. Lu，P. Zhang，and X.阮。使用循环全卷积网络进行显著性检测。欧洲计算机视觉会议，第825-841页。施普林格，2016年。[32] T. Wang，中国山核桃A.博尔吉湖Zhang，P. Zhang，and H.陆一种用于图像中显著目标检测的阶段细化模型.在IEEE计算机视觉国际会议论文集，第4019-4028页[33] T.王湖，加-地Zhang，S. Wang，H. Lu，G. Yang，X.阮和A. 波吉全局检测，局部优化：一种新的显着性检测方法InProceedings of the IEEE Conference13098计算机视觉和模式识别，第3127- 3135页[34] H. Xu和K.萨恩科提问、出席并回答：探索视觉问题回答的问题引导空间注意。欧洲计算机视觉会议，第451-466页。施普林格，2016年。[35] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡迪诺夫河 Zemel 和 Y. 本吉奥。 Show ， attend and tell ：Neural image caption generation with visual attention.在机器学习国际会议，第2048-2057页，2015年。[36] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡迪诺夫河 Zemel 和 Y. 本吉奥。 Show ， attend and tell ：Neural image caption generation with visual attention.在机器学习国际会议，第2048-2057页，2015年。[37] Q. 延湖，澳-地徐，J.Shi和J.贾层次显着性检测。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1155-1162页[38] C.扬湖，澳-地Zhang，H. Lu、X.阮和M.- H.杨通过基于图的流形排序的显著性检测在2013年IEEE计算机视觉和模式识别会议的Proceedings，第3166-3173页中[39] C.扬湖，澳-地Zhang，H. Lu、X.阮和M.- H.杨通过基于图的流形排序的显著性检测在2013年IEEE计算机视觉和模式识别会议的Proceedings，第3166-3173页中[40] C.扬湖，澳-地Zhang，H. Lu、X.阮和M.- H.杨通过基于图的流形排序的显著性检测在2013年IEEE计算机视觉和模式识别会议的Proceedings，第3166-3173页中[41] Z. Yang，X. He，J. Gao，L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。在IEEE计算机视觉和模式识别会议的Proceedings中，第21-29页[42] L. 张，J.Dai，H.Lu，Y.他和G.王. 用于显著对象检测的在IEEE计算机视觉和模式识别会议上，第1741-1750页，2018年[43] P.Zhang，D. Wang，H. Lu，H. Wang和X.阮。Amulet：聚合用于显着对象检测的多级卷积特征。在IEEE计算机视觉国际会议论文集，第202-211页[44] P.Zhang，D. Wang，H. Lu，H. Wang和B.尹学习不确定的卷积特征，以实现准确的显着性检测。计算机视觉（ ICCV）， 2017年IEEE国际会议，第 212-221页。IEEE，2017年。[45] X. Zha

下载后可阅读完整内容，剩余1页未读，立即下载