没有合适的资源?快使用搜索试试~ 我知道了~
准确快速显著性检测的交互式双流解码器及其相关性分析
9141用于准确快速显著性检测的周华军1,谢晓华1,2,3赖建煌1,2,3,陈子轩1,杨凌霄11中山大学数据与计算机科学学院2广东省信息安全技术重点实验室3机器智能与先进计算教育部重点实验室摘要近年来,轮廓信息极大地提高了显著性检测的性能。然而,关于显著性和轮廓之间的相关性的讨论仍然很少。在本文中,我们首先分析了这种相关性,然后提出了一个交互式的双流解码器来探索多个线索,包括显着性,轮廓和它们的相关性。具体来说,我们的解码器由两个分支,显着性分支和轮廓分支。每个分支都被分配来学习不同的特征,以预测核心。- 是 的偶 尔 。我 的 朋友 没 关系 别 担心 你 好PSTN偶尔 。 澫澫澹澻濂濙濨澥澤澬濁我是一个很好的投标人。澩濁濨澽濈电子邮箱:info@crafts.com澷濈激濣濧濧巴什图尼耶澵澺濂濙濨濄澵澻澹澷濄澸我知道了澩濁我不知道澧濁你好你好澦濁濂激澸澺你好,澩濁澷澿濈茯苓粉安全带澩濁 濆濙濕濠澡濈 濝濡濙 澜澧澤澺濄濇澝澤澥澤澦澤澧澤澨澤澩澤澪澤澫澤澺濄濇响应地图 与此同时,被迫通过交互式地将特征从每个分支传输到另一个分支来学习相关性。此外,我们开发了一个自适应的轮廓损失自动判别困难的例子在学习过程中。在六个基准测试上的大量实验很好地证明了我们的网络以大约50 FPS的快速速度此外,我们的基于VGG的模型只包含1708万个参数,这比其他基于VGG的方法要小得多。代码已在以下网址提供:https://github.com/moothes/ITSD-pytorch。1. 介绍显著性检测是分割图像中视觉上最有区别的对象或区域的任务。这项任务的主要挑战是区分显着的对象以及它们的边界。与语义分割、实例分割等分割技术不同,显著性检测通常只关注少数几个主要区域。因此,它通常作为许多研究的第一步,如对象跟踪[20],对象识别[28],动作分类[1]等。* 通 讯 作 者 。 本 项 目 得 到 国 家 自 然 科 学 基 金 ( 61672544 、61876104)、广东省重点领域研发计划(2019B010155003)、广东省重点支持计划尖端科技创新型青年人才(2016TQ03X263)的资助。图1.资讯科技署与AFNet[8],PCA [22],Amulet [45],EGNet [48],CKT [18],CTLoss[4],DUTS-TE上的NLDF [24]、PoolNet [21]、PAGE [35]和CPD [37]数据集[31]。所有方法都基于VGG [29]网络。圆的半径与其模型大小成正比。最近,卷积神经网络(CNN)[16,29,10]已经被引入这项任务,并在许多基准测试中取得了非常有前途的结果。一个代表性的网络-最近,许多研究[18,24,48,26]通过结合轮廓信息进一步改进了U形结构。然而,现有的显着性检测模型仍然有许多问题没有得到很好的解决。首先,得到的显著性图仍然远不能令人满意,特别是在遇到复杂场景时。第二,为了达到良好的性能,大多数现有的工作已经导致了模型参数的数量急剧增加。此外,这种模型的复杂性导致检测速度慢。例如,EGNet [48]提供了最先进的性能,如图1所示。这种方法包含大约1.08亿个可训练参数,并且仅运行大约10 FPS用于推理,这可能会阻碍其在其他应用中的使用,例如实时视频理解。另一方面,一些更小和更快的模型,如CPD [37]和PAGE [35],无法获得可比的结果-S.有趣的是,我们是否可以设计一个轻量级的模型,准确和快速的检测。澺澡濧濗濣濦濙9142在这项工作中,我们的目标是发现的轮廓信息的显着性目标,以提高性能,降低计算成本。请注意,本文中讨论的等高线图是从显著区域的边界计算的,而不是所有对象的边界。接近我们的方法,一些以前的作品[48,24,26,21]也利用轮廓进行显著性检测。然而,轮廓图和显着图之间的相关性很少被探索,这可以进一步用作重要的线索,以改善结果分割图,如我们的实验所示。为了同时利用显著性和轮廓信息,我们提出了一个轻量级的双流模型,使用两个分支来学习显著区域及其轮廓的表示。此外,为了促进网络学习它们之间的相关性,我们提出了一个新的融合模块,可以很好地利用每个分支的信息。此外,我们开发了一个自适应的轮廓损失,以探索位于边界附近的困难的例子突出的区域。大量的实验验证了该方法在六个流行的基准测试上取得了与一些最先进的方法S.此外,我们的模型只有1708万个参数,运行速度约为50 FPS,这在准确性,模型大小和速度之间提供了良好的平衡,如图所示1. 综上所述,我们的主要贡献包括:1) 我们讨论了显着图和相应的等高线图之间的相关性。2) 我 们 提 出 了 一 个 轻 量 级 的 交 互 式 双 流 解 码 器(ITSD)的显着性检测,通过探索多个线索的显着性和轮廓图。我们进一步提出了一个融合模块来学习它们的相关性。3) Wedevelop an Adaptive ConTour(ACT)loss to improvethe representation power of the learned network by tak-ing advantage of hard examples.4) 我们进行了一系列的实验来证明所提出的模型的有效性和效率。2. 相关工作在本节中,我们主要讨论基于深度神经网络的一些工作。有关其他研究,请参阅最近的调查[2,6,34,23,33]了解更多详情。2.1. 高精度显著性检测为了使深度网络适应分割任务,Ronneberger et al.引入了U-Net [27],通过利用编码器-解码器结构将学习的特征映射逐步扩展到输入大小。在U形网络中,来自编码器的特征被跳过连接到解码器中具有相同空间大小的特征,其中这种简单的连接已经在各种像素预测中证明了其能力[14,39,43]。由于U-Net的卓越性能,许多研究都遵循这种结构进行显著性检测。Zhang等人[45]通过改进U-Net中的融合模块,取得了较好的性能。此外,分层监督信号被附加到中间特征。Luo等人[24]通过整合U形网络的局部和全局特征来预测显著区域Li等人[18]开发了一种多任务架构,可以同时预测突出对象及其轮廓。在[22]中,Liu et al.采用多个LSTM [11]通过在四个方向上扫描图像来捕获全局和局部上下文。此外,Zhang etal.[47]集成的空间和信道方面的注意以帮助网络学习更多的区别特征。此外,[44,13,42]引入了各种结构来更好地集成分层表示。2.2. 高效显著性检测在过去的几年里,效率成为一个重要的标准,越来越多的关注,已经提出了多种方法来提高处理速度。例如,Chen等人[3]预测了全局显着图,并通过将反转的显着图集成到学习的特征中,递归地利用它来调整特征分布。通过使用有限数量的参数来学习侧输出残差特征,它们以35 FPS的速度获得了良好的性能。由于许多方法产生模糊的显着性对象的边界,冯等。[8]开发了一个注意反馈模块(AFM)来细化粗略的预测。此外,为了强调对象边界,他们对边界像素使用L2损失,并对其他像素使用Wu et al.[36]仅使用低级功能来加速该过程,使其速度超过100 FPS。然而,缺乏多层次的特征融合导致性能较差。最近,刘等人[21]声称编码器顶部的特征通过融合现有U形网络中的低级特征而逐渐淡化。因此,他们引入了一个全局导航模块来缓解这个问题。由于最底层的功能需要大量的计算成本,吴等。[37]切断这些功能的跳过连接,将网络加速到60 FPS。此外,它们采用级联结构,并取得了显著的检测性能。与上述工作相反,我们通过将通道数量限制为64并采用通道池层来降低特征融合中的计算成本来保持我们2.3. 等高线信息由于现有的方法都是在目标边界上挣扎首先,有几个作品将等高线引入网络,9143GiODWHFRQQHFWiYiW\–呼6DOiHQF\WRFRQWRXU&RQWRXUWRVDOiHQF\图2.显著图和等值线图之间的变换方法分别以绿色和蓝色虚线框示出白色和黑色区域分别表示前景和背景,而彩色图像用于显示不同的区域。提出一个边界感知的目标函数。 Qin等[26]提出了一种用于显著性检测的轮廓感知目标函数,该目标函数是BCE、结构相似性指数(SSIM)和交并(IOU)的混合公式Chen等人[4]声称许多边界像素是硬例子。为了促使网络在训练阶段更多地关注这些像素,他们根据地面实况轮廓开发了加权BCE损失。使用额外的超参数来确定硬示例的范围,以学习更鲁棒的网络。其次,在显著性检测任务中,构造边界感知网络是一种令人印象深刻的方法。Zhao等人。[48]使用轮廓作为另一种监督信号来指导底部特征的学习过程。之后,这些特征被上采样到输入大小,并与高级表示连接。在文献[35]中,提出了一种基于残差结构的显著边缘检测算法(SED),该算法能够同时预测显著目标及其轮廓。此外,Li et al.[18]提出了一种轮廓到显著性的转换方法来整合来自不同分支的特征。然而,由于中间块仅使用从顶层反向传播的损失来训练,因此没有限制它们的特征以推断出更有用的信息。总之,轮廓感知目标函数忽略了显著区域和轮廓图之间的相关性。此外,构造边界感知网络仅利用轮廓线索来改进显著图。 相比之下,我们还采用了显着性监督来提高轮廓表示的独特性,这反过来帮助我们的模型通过我们的新融合模块学习更强大的显着性表示。3. 方法3.1. 相关性分析我们观察到,可以通过计算扩张和侵蚀显着性图之间的差异轻松生成等高线图,如图2中的绿色虚线框所示。到从生成的轮廓中获得显著图,我们采用种子填充算法[15]来找到闭合轮廓内的区域。然而,我们不知道闭合轮廓中的像素是否是前景。因此,轮廓将生成两个相反的显著性图,如图2中的蓝色虚线框所示。总之,显著性图和轮廓图彼此高度关联,除了显著性图精确地定义背景和前景。这些观察促使我们使用两个分支分别表示显着性和轮廓,并考虑到它们的相关性,以提高预测。我们发现,一些研究也将轮廓线索用于显著性检测任务。他们要么将预测轮廓图的底部特征视为互补线索[35,48],要么将轮廓像素与其他像素不同[4,26]。虽然这些方法可以产生良好的显着图,但它们(1)不能确保学习的两个分支彼此互补,(2)忽略了轮廓和显着图之间的高度相关性。与这些工作相反,我们将显着性图,轮廓线索,以及它们的相关性到我们的框架。我们不仅将这些线索添加到目标函数中,而且还融合了两个分支的特征,以利用它们之间的相关性。我们的方法的详细结构在下面的部分中说明。3.2. 拟议的FCF模块正如我们在上一节中的分析,我们需要两个单独的分支来表示显著性和轮廓线索,以及添加一个模块来融合这两种信号之间的相关性图3示出了所提出的融合模块的两个变体在我们的两个模块中,使用两个分支来表示显著性Si和轮廓Ci以及额外的子模块来探索它们的相关性。第一个提出的模块是一种简单的方法,称为朴素特征相关融合(FCF-a),其使用融合块Fi来组合来自两个分支的特征然后将融合后的要素与每个分支连接起来91448&MMM我我我我我我我我9我8 &89我&()-D)从而减小尺寸以更好地集成图像的各种信息。具有不同大小的那些特征图(子采样层之前的输出)被收集作为编码器特征,表示为Ei,i=1,2,3,4,5。基于VGG网络的示例如图4所示。为了减少特征通道和计算负载,我们在每个选定的特征图的顶部附加了一个通道池层,以使信息能够通过不同的通道流动与传统的卷积算子相比,它具有更少的计算量,不需要额外的可学习参数。我们将通道池定义为:Ai=cp(Ei),(1)j×n+k9icp(X)=collectj∈[0,m−1](maxk∈[0,n−1]Xm),(2))i()-E)其中j,k是整数,i∈[1,5]是每个特征的索引。 此外,cp表示通道池操作-tor,Xj×n+k表示第(j×n+k)个通道,M)i特征图X。与Maxout类似[9],该层收集图3.我们的FCF模块的两个变体用于相关融合。作为下一层的输入Fi被实例化为具有两个信道池化层和卷积层。值得注意的是,每个分支都由相应的map-s监督,而没有监督附加到公共块。这个简单的模块不能保证融合的特征可以与每个分支互补。因此,有必要设计一种新的融合方法来提高两个分支的代表能力。为此,我们开发了一个交互式特征相关融合(FCF-b)模块来整合相关性。与上述模块一样,采用了两个分支Si和Ci此外,一些中间连接表示为每n个通道上的最大值,其中n和m分别是特征的输入和输出通道,并且n可被m整除。交互式双流解码器:如图4所示,编码器提供了五个功能,我们应用五个FCF-b模块来相应地集成这些功能,形成我们的交互式双流解码器(ITSD)。在我们的框架中,所有的Si和Ci级联组成的显着性和轮廓流。为了在两个流之间传输学习的特征,我们开发了一些中间连接,其实现以下公式:S′=fs′(Si),Ps=cp(S′),(3)C′=fc′(Ci),Pc=cp(C′),(4)其中f表示卷积运算,下标′ ′因为Si和Ci直接从一个分支f代表其相应的分支。此外,PS和伊如图3所示。Si和Ci含有sever-所有卷积层生成两个输出。一个输出用于预测相应的地图,而另一个被传送到另一个分支。与FCF-a不同的是,这些连接都附加了超级视图,以确保PC代表任务相关的预测,其中附加了中间监督。因为最终目标是预测显著图,所以我们只将编码器特征集成到显著流中。我们的资讯科技署是由下列人员组成:被转移的特征与它们的原始分支相关在这样,融合的特征正好来自两个线索。Si=fsi (上采样(concat(S一期+1′一期+1,Ai),(5)Ci=fc(concat(S′,upsample(Ci+1),(6)我我3.3. 整体网络架构所提出的网络符合大多数显著性检测模型的编码器-解码器模式。我们在下面提供详细的介绍。特征编码器:在这里,标准VGG [29]或ResNet [10],在ImageNet [ 7 ]上预训练,被用作我们的特征提取器,与其他流行的显着性检测方法进行公平比较。对于VGG网络,为了我们的轻量级目的,全连接层被截断。两个网络都包含分层特征图,)i&8Fi得双曲余切值.91450其中,upsample和concat是上采样运算符和连接。对于最终的预测,显着性流中的所有特征被连接以平衡分层信息,其可以被公式化为:S0=fs0(concat([upsample(Si),i= 1,2,3,4,5])),(7)Ps=cp(S0),(8)其中,所有Si在连接之前被上采样到输入大小,并且通过在连接的特征上进行池化来聚合最终预测91469燥9燦9燧9燨9燩9燪9燥A.9燪狣狪狣狪狨狦公司简介狣狪 狣狪狧狣狤KK9燦燰9燧燰9燨燰9燩燰9燪燰)震惊))))震惊狣狦狦狣狦狦狨狦)狩狤狩狤狨狦)狥狨狥狨狨狦)狣狪狣狪狨狦8&8&8&8&&8&8&8&88&)狤狪狪 狤狪狪狨狦)6DOiHQF\VWUHDP(2008年12月28日星期五)&公司简介6XSHUYiViRQ88SVDPSOH图4.提出了基于VGG的网络模型。Ei、Ai、Si和Ci表示编码器、嵌入块、显著性分支和轮廓′ ′分公司分别。交互连接(包括Si和Ci)是由其源分支命名的融合块S0对全部进行上采样将显著性流中的特征转换为用于生成最终预测的输入大小3.4. 目标函数由于我们的网络是基于双流框架,我们使用两个损失来训练我们的模型。对于轮廓分支,由于其在分割任务中的鲁棒性,采用常规BCE损失:lbce(x,y)=ylog(x)+(1−y)log(1−x)(9)1ΣnLc(Pc,Gc)=−lbce(pc,gc)(10)nkKk=1图5.硬例子的说明。很难确定边界附近的一些像素是否是硬示例。其中pcGC是预测(Pc)中的像素,地面真值(Gc)等值线图。k表示每个像素的索引,而n是像素的数量。对于显著性分支,很难正确分类靠近对象边界的许多像素,其中这些像素被称为硬示例。为了改善结果图,轮廓损失[4]增加了它们的权重,以促进网络更多地关注这些像素:1ΣnLs(Ps,Gs,Gc)=−(gc×m+1)lbce(ps,gs)(11)边界是硬还是硬。一个简单的方法是使用一些超参数,这些超参数是从广泛的验证中经验设置的,以控制邻近度。在本文中,我们提供了一种替代方法,并开发了一种自适应轮廓损失的显着分支。具体地,我们在预测的等高线图中发现两个重要性质:(1)对于负像素,较高的预测值意味着网络难以区分这些示例;(2)对于正像素,应nkk=1KK出席了 根据上述观察,我们可以得出结论:预测的等高线图固有地匹配去-其中Ps和Gs分别是预测的显著性图和真实显著性图m是硬例子的因子所有重量加一,以防止之间的比例太不平衡简单和困难的例子。 然而,硬定义并将其用作自适应权重。因此,可以获得整个自适应损失函数:1ΣnLs(Ps,Pc,Gs,Gc)=−(max(pc,gc)×m+1)lbce(ps,gs)示例是模糊的,如图5所示。另一方面-呃就是说,我们不能很容易地确定一些像素附近的KKKKk=1(十二)A.9燦狤狪狪 狤狪狪狨狦公司简介狤狪狪 狤狪狪狨狦A.9燧狣狦狦 狣狦狦狨狦+ aston狣狦狦狣狦狦 狣狤狪A.9燨狩狤狩狤狨狦公司简介狩狤狩狤狤狧狨A.9燩狥狨狥狨狨狦公司简介狥狨狥狨狧狣狤DUGH[DPSOH%RQGDU\+DUG RU HDV\”(DV\H[DPSOHn914700值得注意的是,我们计算的最大值超过Pc和Gc来加权显著性损失。最后[18]《明史》卷122:“明史”、《明史》BMP [44]、PCA [22]、PAGE [35]、DSS [12]、EGNet [48]L l我们模型的总损失是:Σ5和6个实时模型,如RA [3],AFNet [8],BAS-[27][28][29]数量iveL(Ps,Pc,Gs,Gc)=Ls(Ps,Pc,Gs,Gc)+λLc(Pc,Gc) 结果见表1和表&2。i=0时i我我我j=1jJ(十三)在所比较的近实时模型中,EGNet在六个测试集上取得了显著的效果,其中Pc被Pc替代,λ提供平衡每秒019帧。建议的网络达到可比的分数轮廓和显著性损失之间的关系。4. 实验为了验证所提出的方法,我们进行了一组实验上的6个公共基准。DUTS [31]数据集包含10553张用于训练的 图 像 ( DUTS-TR ) 和 5019 张 用 于 测 试 的 图 像(DUTS-TE),分别用于训练和测试。同时,其他数据集,如SOD [25],PASCAL-S [19],ECSSD [40],HKU-IS [17]和DUT-O [41]仅用作测试集,因为它们的尺度相对较小,分别包含300、850、1000、4447和5168张图像。VGG16和ResNet50被用作所提出的网络的骨干。对于训练,我们采用随机翻转,随机裁剪和多尺度训练作为数据增强策略。需要一个GTX1080 Ti GPU来训练我们的网络,批量大小为8。λ和m分别被设置为1和4。S-随机梯度下降(SGD)用于训练我们的模型,总共迭代25 k对于前20k次迭代,学习速率被设置为0.01在此之后,对于接下来的5k次迭代,学习速率衰减0.1倍。为了定量评价性能,Fβ-测度[30]和平均绝对误差(MAE)。Fβ-测量是显著性图的精度和召回值的加权组合,其可以通过以下公式计算:(1+β2)×精确度×召回率Fβ=β2×精确度+召回率(14)其中β2设置为[30]中推荐的0.3。由于不同的阈值导致Fβ-测度的浮点数,我们在0到255的所有阈值上使用最佳得分,称为最大Fβ-测量[24,44]。此外,MAE测量预测与地面实况之间的逐像素平均绝对差:1Σn6倍更小的模型尺寸和5倍更快的速度。在比较的实时模型中,PoolNet提供了最好的结果,速度为32 FPS,而我们的方法优于-在4个数据集中形成PoolNet,处理速度更快。切换到ResNet,我们的ITSD获得了有竞争力的结果,同时仍然以实时速度运行。此外,图六、与其他网络通常丢失对象的某些部分总体而言,我们的网络在处理复杂图像时显示出其鲁棒性和有效性。此外,我们将FLOP和参数数量与表2中的其他流行方法进行了比较。输入大小根据表1中提供性能的公开代码设置。我们的网络使用了最少的参数和更少的计算成本,仍然提供了相当的性能。这清楚显示资讯科技署网络的效率。4.2. 相关分析我们通过对比实验证明了显著性和轮廓线索之间的首先,与Ps和S0类似,附加的Pc和C0也是从装配中产生的从C1到C5 其次,四个条件的内部-中介监督:(1)无监督,(2)仅轮廓,(3)使用表3中所示的最大Fβ测量分数来测试(4)仅显著性和(4)两者。与无中间监督训练的网络相比,加入显著性或轮廓线索可以提高网络的性能。更重要的是,同时使用这两种线索可以为我们的实验提供进一步的改进这些结果清楚地表明,每个预测任务可以从其他监督信号中受益。此外,这两种线索的组合提供了最好的结果。4.3. 信息技术事务司模块的内部比较Mae=n i=1|(十五)|(15)与基本U形模型相比,该网络的主要区别在于轮廓监控其中x和y表示预测和地面实况,n表示像素的总数4.1. 主要结果我们将我们的模型与16个现有的显着性检测模型进行了比较,其中包括10个几乎实时的模型,如和双流结构。因此,我们训练了四个网络,通过逐步消除这些组件来验证它们的有效性。首先,我们训练我们的ITSD与建议的FCF-a和FCF-b模块分别。其次,我们从FCF-b中删除了轮廓分支的中间监督,表示为FCF-NoCS。最后,一个基本的9148β表1.在六个基准数据集上,根据最大Fβ-measure和MAE(标记为Fβ和mae)对不同显着性模型进行定量比较。红色和蓝色文本分别表示最佳和第二佳性能。FPS使用公共代码进行测试。PAGE是在THUS10K上训练的[5]。在基于ResNet的比较中,BasNet使用ResNet34,而其他人使用ResNet50。方法FPSSODPascal-SECSSDHKU-ISDUTS-TEDUT-OF. P.MaeβF. P.MaeβF. P.MaeβF. P.MaeβF. P.MaeβF. P.Maeβ基于VGGRFCN [32]9.807.166.850.132.898.095.898.080.783.090.738.095护身符[45]16.798.145.837.099.915.059.897.051.778.085.743.098UCF [46]23.803.169.846.128.911.078.886.074.771.117.735.132NLDF [24]12.842.125.829.103.905.063.902.048.812.066.753.080[第12话]25.837.127.828.107.908.062.900.050.813.064.760.074[第18话]23.829.119.850.086.910.054.896.048.807.062.757.071BMP [44]22.851.106.859.081.928.044.920.038.850.049.774.064第35页25.796.110.835.078.931.042.930.037.838.051.791.066PCA [22]5.6.855.108.858.081.931.047.921.042.851.054.794.068CTLoss [4]26.861.109.876.079.933.043.927.035.872.042.792.073EGNet [48]9.869.110.863.076.941.044.929.034.880.043.826.056美国[3]35.844.124.834.104.918.059.913.045.826.055.786.062AFNet [8]45.855.110.867.078.935.042.923.036.862.046.797.057CPD [37]66.850.114.866.074.936.040.924.033.864.043.794.057[21]第二十一话32.859.115.857.078.936.047.928.035.876.043.817.058资讯科技署(本署)48.869.100.871.074.939.040.927.035.877.042.813.063基于ResNetBasNet [26]70.851.114.854.076.942.037.928.032.860.047.805.056CPD [37]62.852.110.864.072.939.037.925.034.865.043.797.056[21]第二十一话18.867.100.863.075.940.042.934.032.886.040.830.055EGNet [48]7.8.890.097.869.074.943.041.937.031.893.039.842.052SCRN [38]32.860.111.882.064.950.038.934.034.888.040.812.056资讯科技署(本署)43.880.095.871.071.947.035.934.031.883.041.824.061(a) 图像(b)GT(c)Ours(d)EgNet(e)Page(f)CPD(g)NLDF(h)CTLoss(i)UCF(j)Amulet(k)SRM图6. 分割结果的示例图像。9149表2.我们的方法与一些最先进的网络的参数数量和FLOP比较所有方法都采用VGG作为骨干网络。方法输入大小FLOPs(G)参数(M)EGNet [48]∼380 ×320291.90108.07[21]第二十一话400 ×300117.1052.51第35页224 ×224101.9847.40CPD [37]352 ×35259.4629.23资讯科技署(本署)288 ×28857.4717.08表3. Sal和Con表示显着性和轮廓监督响应,而slc和ctr表示网络预测。监督Pascal-SDUTS-TEHKU-ISSalConSLCCTRSLCCTRSLCCTRC.852.861.541.551.850.857.650.677.915.921.714.730C.869.562.868.672.923.729CC.871.564.877.683.927.734图7.中间层的预测图。前两行分别示出了原始图像、轮廓的地面实况和五个Pc此外,最后两行显示表4.在所提出的网络上进行控制实验。U形和FCF-NoCS是两种受控网络,而FCF-a和FCF-b是所提出的模块的两种变体。模块ECSSDDUTS-TEHKU-ISFβMaeFβMaeFβMaeu形.919.052.842.0620.913 .048FCF-NoCS.929.043.868.0450.921 .035FCF-a.930.041.865.0460.919 .036FCF-b.939.040.877.0420.927 .033表5.使用不同的目标函数的建议网络的实验结果。损失ECSSDDUTS-TEHKU-ISFβMaeFβMaeFβMaeF-score.929.043.845.0500.915.045公元前.931.040.861.0460.921.040CTLoss.935.040.872.0450.925.036法.939.039.877.0420.927.035我们的双流解码器可以逐渐细化轮廓和显着性预测。4.4.目标函数除了传统的BCE损失外,最近提出了其他损失来训练显着性模型。为了评估这些损失的有效性,在显着性分支中使用了四种不同的损失来训练我们的模型,包括BCE损失,F分数损失[49],轮廓损失(CTLoss)[4]和拟议的ACT损失。结果示于表5中。当精度高时,F分数损失与小梯度斗争,这导致我们实验中的最差性能。在比较的方法中,轮廓损失表现出最好的性能。我们提出的方法,ACT损失,优于CTLoss,因为它使用预测的轮廓图自动加权像素。此外,值得注意的是,轮廓损失中的大多数超参数在我们的ACT损失中被放弃,这在很大程度上减少了为寻找最佳参数所作的显著性的地面真值和6个Pi(从0到5)。在FCF-b模块中,通过截断整个轮廓分支,构造U形网络作为基线。所有结果如表4所示。与U型网络相比,FCF-NoCS具有更好的性能,说明了轮廓分支的重要性。此外,通过FCF-NoCS和FCF-b的比较,验证了轮廓监督对显著性网络的重要性。对于所提出的两个模块,FCF-b在所有测试数据集上都取得了更好的性能。在图7中,我们可视化了所提出的网络的中间输出的一个示例。可以看到,生成的轮廓和显著性图显示了从粗到细的预测以及解码过程。它明确地指出,5. 结论在本文中,我们首先观察到显着性图和轮廓图彼此高度相关,但在前景和背景定义上有在此基础上,我们提出了一种交互式双流解码器(ITSD),它由两个独立的分支和一个新的特征相关融合(FCF)模块组成,分别用于表示显著性和轮廓流的恢复,并用于它们的相关组合。此外,我们发现预测轮廓图可以作为一个权重函数来自动加权硬样本,因此提出了一种新的自适应轮廓损失(ACT)的训练。大量的实验很好地证明了所提出的网络的效率9150引用[1] Ashwan Abdulmunem,Yu-Kun Lai,and Xianfang Sun.显著性引导的局部和全局描述符,用于有效的动作识别。Computational Visual Media,2(1):97[2] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测:一个调查。计算视觉媒体,第1-34页[3] Shuhan Chen,Xiuli Tan,Ben Wang,and Xuelong Hu.显著对象检测的反向注意在欧洲计算机视觉会议论文集,第234- 250页[4] Zixuan Chen , Huajun Zhou , Xiaohua Xie , andJianhuang Lai.轮廓损失:用于显著对象分割的边界感知学习。arXiv预印本arXiv:1908.01975,2019。[5] Ming-Ming Cheng , Niloy J Mitra , Xiaolei Huang ,Philip HS Torr,and Shi-Min Hu.基于全局对比度的显著区域 检测 。IEEE Transactions on Pattern Analysis andMachine Intelligence,37(3):569[6] Runmin Cong , Jianjun Lei , Huazhu Fu , Ming-MingCheng,Weisi Lin,and Qingming Huang.综合信息的视觉显著性检测综述。IEEE Trans- actions on Circuits andSystems for Video Technology,29(10):2941[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 IEEE Conference on Computer Vision andPattern Recognition,第248-255页[8] 冯梦阳,卢沪川,丁二瑞。用于边界感知显著对象检测的注意反馈网络。在IEEE计算机视觉和模式识别会议论文集,第1623-1632页[9] Ian J Goodfellow,David Warde-Farley,Mehdi Mirza,Aaron Courville , and Yoonne Bengio.Maxout 网 络 。arXiv预印本arXiv:1302.4389,2013。[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页[11] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[12] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , AliBorji,Zhuowen Tu,and Philip Torr.具有短连接的深度监 督 显 著 IEEE Transactions on Pattern Analysis andMachine Intelligence,41(4):815-828,2019。[13] Xiaowei Hu,Chi-Wing Fu,Lei Zhu,and Pheng-AnnHeng. Sac-net:用于显著对象检测的空间衰减上下文。arXiv预印本arXiv:1903.10152,2019。[14] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:Criss-cross attention for semantic segmentation.在IEEE计算机视觉国际会议论文集,第603-612页[15] 周贤斌和蔡明达一种快速三维种子填充算法。TheVisual Computer,19(4):243[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,第1097-1105页,2012年[17] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。IEEE计算机视觉与模式识别会议论文集,2015年。[18] Xin Li , Fan Yang , Hong Cheng , Wei Liu , andDinggang Shen.用于显著对象检测的轮廓知识传递。在欧洲计算机视觉会议论文集,第355-370页[19] 放大图片作者:Yin Li,Xiaodi Hou,Christof Koch,James M. Alberg,and Alan L.尤尔。显着对象分割的秘密。IEEE计算机视觉与模式识别会议论文集,2014年。[20] 梁鹏鹏,庞宇,廖春元,薛梅,凌海滨。用于目标跟踪的自适应目标性。IEEE Signal Processing Letters,23(7):949[21] Jiang-Jiang Liu,Qibin Hou,Ming-Ming Cheng,JiashiFeng,and Jianmin Jiang.一个简单的基于池的实时显著目标 检测 设计。arXiv预印 本arX- iv :1904.09569,2019。[22] 刘念,韩俊伟,杨明轩。Picanet:Learning pixel-wisecontextual attention for saliency detection.在IEEE计算机视觉和模式识别会议论文集,第3089-3098页[23] Yun Liu , Ming-Ming Cheng , Xiaowei Hu , Jia-WangBian,Le Zhang,Xiang Bai,and Jinhui Tang.更丰富的卷积特征用于边缘检测. IEEE Transactions on PatternAnalysis and Machine Intelligence , 41 ( 8 ) : 1939-1946,2019。[24] Zhiming Luo,Akshaya Mishra,Andrew Achkar,JustinE-ichel,Shaozi Li,and Pierre-Marc Jodoin.用于显著对象检测的非局部深度特征。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功