没有合适的资源?快使用搜索试试~ 我知道了~
边界感知显著目标检测及其优势
7479边界感知显著目标检测Qin,Zichen Zhang,Chenyang Huang,Chao Gao,Masood Dehghan和Martin Jagersand加拿大阿尔伯塔大学{xuebin,vincent. zhang,chuang8,cgao3,masood1,mj7}@ualberta.ca摘要深度卷积神经网络已被用于显著对象检测,并实现了最先进的性能。然而,大多数以前的工作集中在区域的准确性,而不是在边界质量。在这篇文章中,我们提出了一个预测细化架构,BASNet,和一个新的混合损失的边界感知显着对象检测。具体来说,该架构由一个密集监督的Encoder-Decoder网络和一个残差细化模块组成混合损失指导网络在三级层次结构中学习输入图像和地面真实值通过配备了混合损失,所提出的预测-细化架构能够有效地分割显著对象区域,并准确地预测具有清晰边界的精细结构。在6个公共数据集上的实验结果表明,该方法在区域和边界评价指标上均优于现有方法我们的方法在单个GPU上以超过25 fps的速度运行。该代码可从以下网址获得:https://github.com/NathanUA/BASNet。1. 介绍人类视觉系统具有有效的注意机制,用于从视觉场景中选择最重要的信息。计算机视觉的目标是在两个研究分支中对这种机制进行建模:注视检测[20] 和显著对象检测[3]。我们的工作集中在第二个分支,旨在准确地分割输入图像中的显著对象的像素。结果在例如。图像分割/编辑[53,25,11,54]和操纵[24,43],视觉跟踪[32,52,55]和用户界面优化[12]。最近,全卷积神经网络(FCN)[63]已被用于显著对象检测。虽然这些方法取得了显着的结果相比,(a) im/GT(b)我们的(c)PiCANetR(d)PiCANetRC图1.我们的方法(BASNet)的样本结果与PiCANetR[39]一致。列(a)分别示出了输入图像、地面实况(GT)的放大视图和边界图。(b)、(c)和(d)是我们的PiCANetR和PiCANetRC(PiCANetR与CRF [27]后处理)的结果。对于每种方法,三行分别显示预测的显著性图、显著性图的放大视图和边界图的放大视图。与传统方法相比,它们预测的显著性图在精细结构和/或边界方面仍然有缺陷(参见图1A和1B)。1(c)-1(d))。在准确的显著对象检测中存在两个主要挑战:(i)显著性主要在整个图像的全局对比度上而不是局部或逐像素特征上定义。为了获得准确的结果,所开发的显著性检测方法必须了解整个图像的全局意义以及对象的详细结构[6]。为了解决这个问题,需要聚合多级深度特征的网络;(ii)大多数显著目标检测方法使用交叉熵(CE)作为其训练损失。但是使用CE损失训练的模型通常在区分边界像素方面具有低置信度其他损失,如交集超过联合(IoU)损失[56,42,47],F-测量损失[78]和骰子分数损失[8]是针对有偏训练集提出的,但它们不是专门为捕获精细而设计的7480结构.为了解决上述挑战,我们提出了一种新的边界感知网络,即BASNet,用于显著对象检测,其实现了具有高质量边界的精确显著对象分割(见图11)。(i)为了捕获全局(粗略)和局部(精细)上下文,提出了一种新的预测-细化网络。它组装了一个类似U-Net [57]的深度监督[31,67]编码器-解码器网络,具有一个新的残差细化模块。编码器-解码器网络将输入图像转移到概率图,而细化模块通过学习粗略显著图和地面真实值之间的残差来细化预测图(参见图2)。2)的情况。与[50,22,6]相比,[50,22,6]在多个尺度上迭代地使用细化模块进行显着性预测或中间特征图,我们的模块仅在原始尺度上使用一次进行显着性预测。(ii)为了获得高置信度的显着性图和清晰的边界,我们提出了一种混合损失,它结合了二进制交叉熵(BCE)[5],结构相似性(SSIM)[66]和IoU损失[42],预计分别从像素,补丁和地图级别的地面真实信息中学习。我们不是使用显式边界损失(NLDF+[41],C2S [36]),而是在混合损失中隐含地注入准确边界预测的目标,考虑到它可能有助于减少交叉传播在边界和图像上的其他区域上学习的信息的虚假误差这项工作的主要贡献是:• 一 种 新 颖 的 边 界 感 知 显 著 对 象 检 测 网 络 :BASNet,它由深度监督的编码器-解码器和残差细化模块组成,• 一种新的混合损失,融合了BCE,SSIM和IoU,以在三个级别上监督准确的显着对象预测的训练过程:像素级、补丁级和地图级,• 对所提出的方法进行了全面的评估,其中包括在六个广泛使用的公共数据集上与15种最先进的方法进行比较我们的方法实现了在区域和边界评价措施方面取得最新成果。2. 相关作品传统方法:早期的方法通过根据基于手工特征计算的预定义显著性度量搜索像素来检测显著性目标[69,80,60,71]。Borji等人提供一个全面的S-在[3]。逐 块 深 度 方 法 : 受 深 度 CNN 图 像 分 类 的 ad-vNavisphere的鼓励[28,59],早期的深度显著对象检测方法通过基于局部特征将图像像素或超像素分类为显著或非显著类来搜索显著对象。从单个或多个尺度提取的校准图像块[33,40,61,79,35]。这些方法通常生成粗糙的输出,因为空间信息在完全连接的层中丢失基于FCN的方法:与分块深度方法相比,基于FCN[34,29]的显著对象检测方法实现了显著改进,这可能是因为FCN能够捕获更丰富的空间和多尺度信息。Zhang等人(UCF)[75]开发了一个重新制定的dropout和一个混合上采样模块,以减少反卷积算子的检查板伪影,并在(Amulet)[74]中聚合多级卷积特征以进行显着性检测。Hu等人[18]提出学习水平集[48]函数以输出准确的边界和紧凑的显着性。 Luo等人[41]设计一个网络(NLDF+),具有4×5网格结构,将局部和全局信息结合起来,并使用融合交叉损失熵和边界IoU灵感来自Mumford-Shah [46]。Hou等人(DSS+)[17]通过引入短连接到其跳过层来进行显着性预测,采用了整体嵌套边缘检测器(HED)[67]Chen等人(RAS)[4]通过使用反向注意力模型迭代地改进其侧输出来采用HED。Zhang等人(LFR)[73]通过提出一个兄弟结构和一个结构损失函数,预测了具有清晰边界Zhang等人(BMPM)[72]提出了在浅层和深层之间的特征的受控双向传递深度循环和注意力方法:Kuen等人[30]提出了一种递归网络来迭代地执行重新对所选图像子区域进行细化。Zhang等人(PA-GRN)[76]开发了一种递归显着性检测模型,该模型通过多路 径 递 归 连 接 将 全 局 信 息 从 深 层 传 输 到 Hu 等 人(RADF+)[19]用于显著性对象检测的递归级联多层Wang等人(RFCN)[63]设计了一个循环的FCN显着性检测迭代校正预测误差。 Liu等(PiCANetR)[39]通过上下文注意力网络预测像素级注意力图,然后将其与U-Net架构相结合来检测显著对象。从粗到细的深度方法:为了捕获更精细的结构和更准确的边界,已经提出了许多细化策略。Liu等[38]提出一个深度层次显着性网络,它首先学习各种全局结构化显着性线索,然后逐步细化显着性图的细节。Wang等人(SRM)[64]提出了利用金字塔池化模块和用于显著图细化的多级细化机制来捕获全局上下文受[50]的启发,Amirulet al.[22]提出了一种编码器-解码器网络,其利用细化单元来从低分辨率到高分辨率递归地细化显著图邓7481图2.我们提出的边界感知显着对象检测网络的架构:BASNet。等人(R3 Net+)[6]开发了一种循环残差细化网络,通过交替地对浅层和深层的特征进行细化来细化显着图。Wang等人(DGRL)[65]提出全局定位突出对象,然后通过局部边界细化模块对其进行细化。虽然这些方法大大提高了显著目标检测的标准,但在精细结构段质量和边界恢复精度方面仍有很大的3. Basnet本节从我们提出的预测-细化模型BASNet的架构概述开始。我们首先在第2节中描述预测模块。3.2其次是我们新设计的剩余细化模块的细节。3.3.我们的新的混合损耗的公式在第二节中给出。三点四分。3.1. 网络体系结构概述所提出的BASNet由两个模块组成,如图所示。2.预测模块是一个类似U-Net的密集监督编码器-解码器网络[57],它学习从输入图像中预测显着图。多尺度残差细化模块(RRM)通过学习显著性图与地面实况之间的残差来细化预测模块的所得显著性图3.2. 预测模块受U-Net [57]和SegNet [2]的启发,我们将显着对象预测模块设计为编码器-解码器网络,因为这种架构能够同时捕获高级全局上下文和低级细节。为了减少过度拟合,每个解码器阶段的最后一层由HED启发的地面真实值监督[67](参见图2)。编码器部分有一个输入卷积层和六个阶段组成的基本res-blocks。输入卷积层和前四个阶段采用ResNet-34 [16]。不同的是我们的输入层有64个卷积滤波器,大小为3×3,步长为1,而不是7×7,步长为2。此外,在输入层之后没有池化操作。这意味第二级之前的特征图具有与输入图像相同的这与原始的ResNet-34不同,ResNet-34在第一个特征图中具有四分之一尺度分辨率。这种适应使网络能够在较早的层中获得更高分辨率的特征图为了实现与ResNet-34相同的感受野[16],我们在ResNet-34的第四阶段之后再增加两个阶段。两个级都由在大小为2的非重叠最大池化层之后具有512个滤波器的三个基本res-block为了进一步捕获全局信息,我们在编码器和解码器之间添加了一个桥接级。它由三个卷积层和512个膨胀(膨胀=2)[70] 3×3滤波器组成。这些卷积层中的每一层后面都有一个批处理归一化[21]和一个ReLU激活函数[13]第10段。我们的解码器与编码器几乎是对称的。每个阶段由三个卷积层组成,然后是批量归一化和ReLU激活函数。每个阶段的输入是来自其前一级和其在编码器中的对应级实现了边输出显著图、多通道输出的桥接级每个解码器级被馈送到一个普通的3×3卷积层,然后是一个双线性上采样和一个S形函数。第因此,给定一个输入图像,我们的预测模块在训练过程中产生七个显着图。 Al-7482(a)(b)(c)(d)图3.一维粗略预测的不同方面的说明:(a)红色:地面实况- GT的概率图,(b)绿色:粗略边界不与GT对齐的概率图,(c)蓝色:概率太低的粗糙区域,(d)紫色:实际的粗略预测通常具有这两个问题。虽然每个显著图都被上采样到与输入图像相同的大小,但是最后一个显著图具有最高的准确度,因此被作为预测模块的最终输出该输出被传递到细化模块。3.3. 优化模块细化模块(RM)[22,6]通常被设计为残差块,其通过学习显著性图与地面真实值之间的残差S残差来细化预测的粗略显著性图S粗略,如下所示:精炼=S粗+S残差。(1)在介绍我们的细化模块之前,我们必须去-(a) LC(b)RRM MS(c)RRM Our图4.不同的残差细化模块(RRM)的图示:(a)局部边界细化模块RRM LC;(b) 多尺度精化模块RRM MS;(c)我们的编码器-解码器细化模块RRM Ours。层每个层有64个大小为3×3的过滤器,然后是批量归一化和ReLU激活函数。桥阶段还有一个卷积层,包含64个大小为3×3的过滤器,然后是批量归一化和ReLUactivation.非重叠的最大池化用于向下-编码器中的采样和双线性内插被用于解码器中的上采样。这个RM模块的输出是我们模型的最终结果显着图。3.4. 混合损耗我们的训练损失被定义为所有对“粗糙”一词进行细化。这里,“粗糙”包括两个方面。一个是模糊和嘈杂的边界(见它的一个-产出:ΣKL=k=1 α k(k)(2)图3(b)中的尺寸(1D)图示另一个是不均匀预测的区域概率(见图1)。3(c))。真实预测的粗糙显着性图通常包含两种粗糙情况(见图1)。3(d))。基于局部上下文的残差细化模块(RRM LC),图12。4(a),最初提出的边界细化[50]。由于它的感受野小,Is-lam等。[22]和Denget al. [6]迭代地或循环地将其用于在不同尺度上细化显著性图。王其中,k(k)是第k个边输出的损失,K表示输出的总数,αk是每个损失的权重。如第3.2和第二节3.3,我们的显著对象检测模型是深度监督的,有八个输出,即K= 8,包括来自预测模型的七个输出和来自细化模块的一个输出。为了获得高质量的区域分割和清晰的边界,我们建议将(k)定义为混合损失:等人[64]采用了[15]中的金字塔池化模块,(k)=+(k)。(三)其中,三个尺度金字塔池化特征是连贯的-公元前SSIMIOU有为了避免池化操作导致的细节丢失其中,n(k),n(k)和(k)表示BCE损失[5],SSIM损失公元前SSIMIOURRM MS(图4(b))使用具有不同ker的卷积-网格大小和膨胀[70,72],以捕获多尺度上下文。然而,这些模块是浅的,因此很难捕捉高层次的信息进行细化。为了改善粗糙显着图中的区域和边界缺陷,我们开发了一种新的残差细化模块。我们的RRM采用残差编码器-解码器架构,RRM Ours(见图1和图2)。2和4(c))。它的主要架构与我们的预测模块相似,但更简单它包含一个输入层,一个编码器,一个桥,一个解码器和一个输出层。与预测模块不同,编码器和解码器都有四个阶段。每个阶段只有一个卷积-7483Σ[66]和[42]分别是IoU损失。BCE [5]损失是二进制分类和分割中最广泛使用的损失其定义为:bce=−[G(r,c)log(S(r,c))+(1−G(r,c))log(1−S(r,c))](4)(r,c)其中,G(r,c)∈ {0,1}是像素的地面真值标签(r,c)和S(r,c)是显著的预测概率object.SSIM最初用于图像质量评估[66]。它捕捉图像中的结构信息。因此,我们将其整合到我们的培训损失学习7484H显著对象地面实况的结构信息令x ={x j :j =1,., N2}和y ={y j:j = 1,., N2}是两个对应的块的像素值(大小:N × N),x和y的SSIM定义为:32.521.510.501.532.521.510.501.532.521.510.501.5奥什西姆= 1−(2µxµy+C1)(2σxy+C2)(µ2+µ2+C1)(σ2+σ2+C2)(五)1 1 1x y x y其中,µx、µy和σx、σy分别为x和y的均值和标准差,σxy为它们的协方差,0.500.500.50C1= 0。012零.C2= 0。032用于避免除以10.90.80.70.610.90.80.70.610.90.80.70.6IoU最初是为了衡量相似性而提出的的两个集合[23],然后用作对象检测和分割的标准评估最近,它已被用作训练损失[56,42]。以确保其不同的-0.50.40.30.20.100.50.40.30.20.100.50.40.30.20.10我们在[42]中采用了IoU损失:ΣH ΣWS(r,c)G(r,c)图5. 损失影响的说明。Pfg和Pbg表示地面的预测概率,背景,分别。1−r=1c=1(六)S(r,c)+G(r,c)−S(r,c)G(r,c)r=1c =1其中,G(r,c)∈ {0,1}是像素的地面真值标签(r,c)和S(r,c)是显著的预测概率object.我们在图中说明了三种损失中的每一种的影响。5.这些热图显示了随着训练的进行,每个像素处的损失的变化。三行分别对应于BCE损失、SSIM损失和IoU损失。三列代表培训过程的不同阶段BCE损失是逐像素的。它不考虑邻域的标签,并且它对前景和背景像素两者同等地加权。它有助于所有像素的收敛SSIM损失是块级度量,其考虑每个像素的局部邻域。它为边界分配更高的权重,即,即使在边界和前景的其余部分上的预测概率相同时,在边界周围的损失也较高在训练开始时,沿边界的损失是最大的(见图2的第二行)。(五)。它有助于优化关注边界。随着训练的进行,前景的SSIM损失减少,并且背景损失成为主导项。然而,背景损失不会对训练有贡献,直到当背景像素的预测变得非常接近地面实况时,其中损失从1迅速下降到0。这是有帮助的,因为预测通常仅在BCE损失变得平坦的训练过程的后期接近零。SSIM损失确保仍然有足够的梯度来驱动学习过程。背景预测看起来更干净,因为概率被推到零。IoU是一个地图级的度量。但我们绘制的每像素IoU以下方程。(6)用于说明目的。随着前景的网络预测的置信度增加,前景的损失最终减少到零。当结合这三个损失时,我们利用BCE来保持所有像素的平滑梯度,同时使用IoU来更多地关注前景。SSIM用于鼓励预测尊重原始图像的结构,通过边界附近的较大损失。4. 实验结果4.1. 数据集我们在六个常用的基准数据集上评估了我们的方法:[2019 - 05 - 15][2019 - 05][2019 - 0 SOD包含300幅图像,最初设计用于图像分割这些图像是非常具有挑战性的,因为它们中的大多数包含多个显著对象,或者具有低对比度,或者与图像边界重叠。ECSSD包含1000个语义有意义但结构复杂的图像。DUT-OMRON有5168张图像,每张图像中有一个或两个物体。大部分的前地物体结构复杂. PASCAL-S由850张背景杂乱、前景物体复杂的图像组成HKU-IS包含4447幅图像。大多数的前地物体都有多个相连或不相连的前地物体.DUTS是目前最大的显着性检测数据集。它由两个子集组成:DUTS-TR和DUTS-TE DUTS-TR包含10553张用于训练的图像,DUTS-TE包含5019张用于测试的图像。7485ββββ=高×4.2. 实施和实验设置我们使用DUTS-TR数据集训练我们的网络,该数据集有10553张图像。在训练之前,通过水平翻转到21106个图像来增强数据集。 期间训练时,每个图像首先被调整为256×256,然后随机裁剪为224×224。部分编码器参数从ResNet-34模型初始化[16]。其他卷积层由Xavier [10]初始化。我们使用Adam优化器[26]来训练我们的网络,其超参数设置为默认值,其中初始学习率lr= 1 e-3,betas=(0.9,0.999),eps= 1 e-8,权重衰减=0。我们训练网络直到损失收敛,而不使用验证集。训练损失在40万次迭代后收敛,批量大小为8,整个培训过程约需125小时。在测试过程中,输入图像被调整为256×256,并输入到网络中以获得其显著性图。然后,显著性图(256×256)的大小被调整回输入图像的原始大小。这两种方法都使用双线性插值,第我们基于公开可用的框架实现我们的网络:Pytorch0.4.0 [49].一台 八核 PC,配 备AMD Ryzen 1800x 3.5GHz CPU(32 GB RAM)和GTX 1080ti GPU(11 GB内存),用于训练和测试。对一幅256×256的图像进行推理仅需0.040s(25 fps)。源代码将被释放。4.3. 评估指标我们使用四个指标来评估我们的方法:精确率-召回率(PR)曲线,F-测度,平均绝对误差(MAE)和边界的松弛F-测度(relaxFb)。PR曲线是评估预测的显著性概率图的标准方式。显著性图的精度和召回率通过比较二值化的显著性图与地面真值掩模来计算。每个二进制化阈值导致数据集中所有显著性图上的一对平均精确度和将阈值从0变化到1产生一系列精确率-召回率对,其被绘制为PR曲线。然后,为了对查准率和查全率进行综合衡量,Fβ基于每对查准率和查全率计算为:消融配置最大Fβ松弛Fbβ Mae架构[57]第57话0.8960.6690.066En-De +Bambce0.9290.7670.047En-De+Sup +Bambce0.9340.8050.040En-De+Sup+RRM LC +Bambce0.9360.8030.040En-De+Sup+RRM MS +Bambce0.9350.8040.042En-De+Sup+RRM Ours +广告0.9370.8060.042损失En-De+Sup+RRM Ours+BUSSSIM0.9240.8080.042En-De+Sup+RRM Ours+Escheriou0.9330.7950.039En-De+Sup+RRM Ours +Bibbs0.9400.8150.040En-De+Sup+RRM Ours +Bibi0.9400.8130.038En-De+Sup+RRM Ours +Bibsi0.9420.8260.037表1.不同结构和损耗的烧蚀研究:En-De:编码器-解码器,Sup:侧输出监视器;bi=其中,S和G分别是显著性概率图及其地面真值,H和W表示显著性图的高度和宽度,并且(r,c)表示像素坐标。对于数据集,其MAE是所有显著性图的平均MAE。此外,我们采用了松弛F-测度relaxFb[7]定量评估边界。给定显著图S,我们首先使用阈值0将其转换为二进制掩码S bw。五、然后,我们通过执行XOR(Sbw,Serd)操作获得其一个像素宽边界的掩模,其中Serd是Sbw的侵蚀二进制掩模[14]。同样的方法被用于获得地面真值掩码的边界。松弛边界精度(松弛精度b)然后被定义为预测的边界像素在距离地面实况边界像素的ρ像素范围内的分数。松弛边界召回率(松弛召回率b)测量在预测边界像素的ρ个像素内的地面实况边界像素的分数。在我们的实验中,我们将松弛参数ρ设置为3,类似于先前的研究[44,58,77]。使用等式(7)来计算每个预测的显著性图的松弛边界F-测量值relaxFb,其中精度和召回率由relax精度b和relax召回率b代替。对于每个数据集,我们报告其所有预测显着性图的平均松弛Fb4.4. 消融研究在本节中,我们将验证每个密钥(1+β2)×精确度 ×召回率ββ2×精确度+召回率(七)我们模型中使用的组件消融研究包括两部分:架构消融和损失消融。那个...其中β2被设置为0.3,以加权精度大于召回率[1]。本文报告了每个数据集的最大Fβ(maxFβ)MAE [51]表示预测的显着图与其地面真实掩码之间的平均绝对每像素差异。给定显著性图,其MAE定义为:ΣHΣW在ECSSD数据集上进行了实验。结构消融:为了证明我们的BASNet的有效性,我们报告了我们的模型与其他相关架构的定量比较结果。我们将U-Net [57]作为我们的基线网络。然后,我们从我们提出的编码器-解码器网络开始,并逐步扩展到密集侧输出监督和不同的MAE=1r=1c=1|S(r,c)−G(r,c)|(八)剩余精炼模块,包括RRM LC、RRM MSF7486ββ图6.五个最大数据集上的PR曲线(第一行)和F测量曲线(第二行)的图示基 于 区 域 的 F- 测 度 ( maxFβ ) 、 松 弛 边 界 F- 测 度(relaxFb)和所有数据集的MAE测度。正如我们所看到的,我们的方法在区域和边界测量方面都优于最先进的方法。第(a) 图像(b)GT(c)图像(d)图像特别地,我们的方法改进了松弛Fb,4.1%,5.1%,(e)阿萨姆邦(女)阿萨姆比(女)阿萨姆布(男)阿萨姆布西图7.使用我们的BASNet对不同损失进行训练的样本结果。RRM我们的表1显示了该消融研究的结果。正如我们所看到的,我们的BASNet架构在这些配置中实现了最佳性能。损失消融:为了证明我们的提出的融合损失,我们进行了一系列实验,基于我们的BASNet架构的不同损失。表1中的结果表明,我们提出的混合扩频损耗大大提高了性能,特别是对于边界质量。为了进一步说明损失的定性影响,我们用不同损失训练的BASNet的结果如图所示。7.很明显,所提出的混合损耗实现了优异的定性结果。4.5. 与最新技术水平的比较我们将我们的方法与15种最先进的模型进行比较,PiCANetR [39],BMPM [72],R3 Net [6],PAGRN[76],[19],[17][18][19][[35].为了公平比较,我们要么使用作者提供的显着图,要么运行他们发布的模型。定量评价:为了评估分割的显著对象的质量,我们给出了精确率-召回率曲线(PR)以及图6中五个最大数据集的F测量曲线。此外,表2总结了对SOD、ECSSD、DUT-OMRON的敏感性分别为6.2%、6.2%、3.4%、5.9%PASCAL-S、HKU-IS和DUTS-TE数据集。定性评价:为了进一步说明我们的方法的优越性能,图。8显示定性与其他前七种方法的结果比较我们可以看到,我们的方法能够在各种具有挑战性的场景下准确地分割显著对象,包括具有低对比度(第1和第2行)、精细结构(第3和第4行)、接触图像边界的大对象(第5和第6行)、复杂对象边界(第7和第8行)、杂乱的前景和背景(最后两行)的图像。我们想强调的是,我们的方法(无CRF)产生的显着概率图比其他方法更此外,我们的结果的对象边界比其他人更清晰,更尖锐。补充材料中提供了更多的定量和定性比较结果5. 结论在本文中,我们提出了一种新的端到端的边界感知模型,BASNet,和一个混合融合损失的精确显着目标检测。所提出的BASNet是一种预测-细化体系结构,由两个部分组成:预测网络和细化模块。结合混合损失,BASNet能够同时捕获大尺度和精细结构,例如:薄区域、孔,并产生具有清晰边界的显著对象检测图。在六个数据集上的实验结果表明,我们的模型在基于区域和边界感知的度量方面优于其他15种最先进的方法。此外,我们提出的网络架构是模块化的。它可以很容易地扩展或适用于其他任务,通过更换的预测网络或细化模块。7487β表2.在6个数据集上比较了该方法与其他15种方法的最大F-测度maxFβ(越大越好)、松弛边界F-测度relaxFb(越大越好)和MAE(越小越好)。红色、绿色和蓝色表示最佳、第二佳和第三佳性能。"+”是指通过CRF后处理获得的结果。方法骨干训练数据[45]第四十五话ECSSD[68]DUT- 欧姆龙 [第六十九话]PASCAL-S [37]第三十七届[33]第三十三话DUTS-TE[62]火车图像数量最大Fβ松弛FbβMae最大Fβ松弛FbβMae最大Fβ 松弛FbβMae最大Fβ 松弛FbβMae最大Fβ 松弛FbβMae最大Fβ 松弛FbβMae我们ResNet-34DT105530.8510.6030.1140.9420.8260.0370.8050.6940.0560.8540.6600.0760.9280.8070.0320.8600.7580.047PiCANetR [39]ResNet-50DT105530.8560.5280.1040.9350.7750.0460.8030.6320.0650.8570.5980.0760.9180.7650.0430.8600.6960.050BMPM [72]VGG-16DT105530.8560.5620.1080.9280.7700.0450.7740.6120.0640.8500.6170.0740.9210.7730.0390.8520.6990.048R3Net+[6]ResNeXtMK100000.8500.4310.1250.9340.7590.0400.7950.5990.0630.8340.5380.0920.9150.7400.0360.8280.6010.058PAGRN [76]VGG-19DT10553---0.9270.7470.0610.7710.5820.0710.8470.5940.08950.9180.7620.0480.8540.6920.055RADF+[19]VGG-16MK100000.8380.4760.1260.9230.7200.0490.7910.5790.0610.8300.5150.0970.9140.7250.0390.8210.6080.061DGRL [65]ResNet-50DT105530.8480.5020.1060.9250.7530.0420.7790.5840.0630.8480.5690.0740.9130.7440.0370.8340.6560.051瑞典皇家科学院[4]VGG-16MB25000.8510.5440.1240.9210.7410.0560.7860.6150.0620.8290.5600.1010.9130.7480.0450.8310.6560.059C2S [36]VGG-16M30K300000.8230.4570.1240.9100.7080.0550.7580.5650.0720.8400.5430.0820.8960.7170.0480.8070.6070.062LFR [73]VGG-16MK100000.8280.4790.1230.9110.6940.0520.7400.5080.1030.8010.4990.1070.9110.7310.0400.7780.5560.083DSS+[17]VGG-16MB25000.8460.4440.1240.9210.6960.0520.7810.5590.0630.8310.4990.0930.9160.7060.0400.8250.6060.056NLDF+[41]VGG-16MB25000.8410.4750.1250.9050.6660.0630.7530.5140.0800.8220.4950.0980.9020.6940.0480.8130.5910.065SRM [64]ResNet-50DT105530.8430.3920.1280.9170.6720.0540.7690.5230.0690.8380.5090.0840.9060.6800.0460.8260.5920.058护身符[74]VGG-16MK100000.7980.4540.1440.9150.7110.0590.7430.5280.0980.8280.5410.1000.8970.7160.0510.7780.5680.084UCF [75]VGG-16MK100000.8080.4710.1480.9030.6690.0690.7300.4800.1200.8140.4930.1150.8880.6790.0620.7730.5180.112[35]第三十五话R-CNN [9]MB25000.7460.3110.1920.8320.4720.1050.6940.4060.0920.7590.3430.1420.8600.5940.1290.7290.4470.099(a)图像(b)GT(c)我们的(d)PiCANetR(e)BMPM(f)R3 Net+(g)PAGRN(h)RADF+(i)DGRL(j)RAS图8.定性比较所提出的方法与其他七种方法。每个样本占据两行。每个样本的第二行是放大视图。鸣谢。该项目得到了艾伯塔省创新研究生奖学金(AITF)的部分支持。我们要感谢Dr.钱一明对他的建设性建议和博士。Dana Cobzas的GPU资源。7488引用[1] Radhakrishna Achanta , Sheila Hemami , FranciscoEstrada,and Sabine Susstrunk.频率调谐显著区域检测。计算机视觉和模式识别,2009年。2009年公民权利和政治权利委员会。IEEE会议,第1597-1604页。IEEE,2009年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEETransactionsonPatternAnal-ysisMachineIntelligence,(12):2481[3] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测:基准。IEEE Trans. Image Processing,24(12):5706[4] Shuhan Chen,Xiuli Tan,Ben Wang,and Xuelong Hu.显著对象检测的反向注意。在计算机视觉- ECCV 2018 -第15届欧洲会议,慕尼黑,德国,2018年9月8日至14日,会议记录,第IX,第236-252页[5] 放大图片作者:Peter Tjerk de Boer,Dirk P. Kroese,Shie Mannor,and Jumven Y.鲁宾斯坦关于交叉熵方法的教程。Annals OR,134(1):19[6] Zijun Deng,Xiaowei Hu,Lei Zhu,Xuemiao Xu,JingQin,Guoqiang Han,and Pheng-Ann Heng. R3net:用于显著性检测的循环残差细化网络。IJCAI,2018。[7] 马克·埃里希和J e'r oEummeEuzenat。本体匹配的相对精度和重在Proc. K-Cap 2005关于集成本体的研讨会中,第25-32页。没有商业编辑,2005年[8] 放 大 图 片 作 者 : Lucas Fidon , Wenqi Li , Luis C.Herrera , JinendraEkanayake , NeilKitchen , Se'bastienOurselin,andTomVe- cauteren.使用整体卷积网络的不平衡多类分割的广义wasserstein骰子得分在脑损伤中:胶质瘤、多发性硬化、中风和创伤性脑损伤-第三届国际研讨会,BrainLes 2017,与MICCAI 2017联合举行,魁北克市,QC,加拿大,第64-76页,2017年。[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 580[10] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计国际会议的筹备会上,AISTATS 2010,意大利撒丁岛Chia La gunaResort,2010年5月13-15日,第249- 256页[11] Stas Goferman、Lihi Zelnik-Manor和Ayellet Tal。上下文感知显著性检测。IEEE transactions on pattern analysisand machine intelligence , 34 ( 10 ) : 1915-1926 ,2012。[12] Prakhar Gupta,Shubh Gupta,Ajaykrishnan Jayagopal,Sourav Sunday,and Ritwik Sinha.移动用户界面的显著性预测在2018年IEEE计算机视觉应用冬季会议上,WACV 2018,美国内华达州太浩湖,2018年3月12日至15日,第1529-1538页[13] Richard HR Hahnloser和H Sebastian Seung。 对称门限线性网络中的允许集和禁止集。神经信息处理系统进展,第217-223页,2001年[14] Robert M Haralick , Stanley R Sternberg , and XinhuaZhuang.使用数学形态学进行图像分析。IEEE模式分析与机器智能学报,(4):532[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上,第346-361页。Springe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功