没有合适的资源?快使用搜索试试~ 我知道了~
common salient objects are unknown. Thus, the designedalgorithm needs to infer such information from the specificcontent of the input image group. Therefore, the co-saliencydetection algorithm design usually focuses on addressing t-wo key challenges: (1) extracting informative image featurerepresentations to robustly describe the image foreground-s; and (2) designing effective computational framework-s to formulate and detect the co-saliency.Conventionalhand-engineered features, such as Gabor filters, color his-tograms and SIFT descriptors [43] have been widely used inmany co-saliency detection methods [12, 41, 69]. Howev-er, hand-crafted shallow features usually lack the ability tofully capture the large variations of common object appear-ances, and complicated background textures [57]. Recent-ly, researchers improve co-saliency detection using deep-learning-based high-level feature representations, and haveshown promising results [75, 73, 76]. Nonetheless, theseapproaches separate the representation extraction from co-saliency detection as two distinct steps, and lose the abilityto tailor the image features towards inferring co-salient re-gions [24]. End-to-end algorithms adopting convolutionalneural networks (CNNs) [24, 57, 64] have been developedto overcome this problem, and demonstrated state-of-the-artperformance. Although CNN is able to extract image rep-resentations in a data-driven way, it is the sub-optimal solu-tion to model long-range dependencies [61]. CNN captureslong-range dependencies by deeply stacking convolution-al operations to enlarge the receptive fields. However, therepeated convolutional operations cause optimization diffi-culties [61, 21], and make multi-hop dependency modeling[61]. Moreover, it becomes even more challenging for theCNN to accurately modeling the inter-image non-local de-pendencies for the co-salient regions in the image group.To address the aforementioned challenges, we develop anovel adaptive graph convolutional network with attentiongraph clustering (GCAGC) for co-saliency detection. Wefirst utilize a CNN encoder to extract multi-scale featurerepresentations from the image group, and generate com-bined dense feature node graphs. We then process the dense190500自适应图卷积网络与注意力图聚类用于共同显著性检测0Kaihua Zhang 1,Tengpeng Li 1,Shiwen Shen 2,Bo Liu 2 �,Jin Chen 1,Qingshan Liu 101 B-DAT和CICAEET,南京信息科技大学,南京,中国2 JD Digits,Mountain View,CA,USA0{ zhkhua,kfliubo } @gmail.com0摘要0共同显著性检测旨在从一组相关图像中发现共同和显著的前景。为了完成这个任务,我们提出了一种新颖的自适应图卷积网络与注意力图聚类(GCAGC)。我们做出了三个主要贡献,并通过实验证明它们具有实际价值。首先,我们提出了一种图卷积网络设计,用于提取信息线索以描述图像内部和图像之间的对应关系。其次,我们开发了一种注意力图聚类算法,以无监督的方式区分所有显著前景对象中的共同对象。第三,我们提出了一个具有编码器-解码器结构的统一框架,以端到端的方式联合训练和优化图卷积网络、注意力图聚类和共同显著性检测解码器。我们在三个共同显著性检测基准数据集(iCoseg、Cosal2015和COCO-SEG)上评估了我们提出的GCAGC方法。我们的GCAGC方法在大多数数据集上都取得了显著的改进。01. 引言0人类能够通过视觉注视来关注有吸引力和有趣的区域和物体,以供将来处理[7]。共同显著性检测模型模拟人类视觉系统来感知场景,并在图像组中搜索共同和显著的前景。共同显著性已被应用于各种应用中,以改善对图像/视频内容的理解,例如图像/视频共分割[55, 13, 14, 59],对象共定位[25, 53]和图像检索[47,68]。在共同显著性检测中,共同显著对象的语义类别是未知的。因此,设计的算法需要从输入图像组的具体内容中推断出这些信息。因此,共同显著性检测算法设计通常集中在解决两个关键挑战上:(1)提取信息丰富的图像特征表示,以鲁棒地描述图像前景;(2)设计有效的计算框架来表达和检测共同显著性。传统的手工设计特征,如Gabor滤波器、颜色直方图和SIFT描述符[43]已被广泛应用于许多共同显著性检测方法[12, 41,69]。然而,手工设计的浅层特征通常缺乏充分捕捉共同对象外观的大变化和复杂的背景纹理[57]。最近,研究人员使用基于深度学习的高级特征表示改进了共同显著性检测,并取得了有希望的结果[75, 73,76]。然而,这些方法将表示提取与共同显著性检测分开作为两个不同的步骤,并丧失了将图像特征定制为推断共同显著区域的能力[24]。采用卷积神经网络(CNNs)[24, 57,64]的端到端算法已被开发出来解决这个问题,并展示了最先进的性能。尽管CNN能够以数据驱动的方式提取图像表示,但它是模拟长程依赖性的次优解决方案[61]。CNN通过深度堆叠卷积操作来捕捉长程依赖性。然而,重复的卷积操作会导致优化困难[61,21],并使多跳依赖建模[61]变得困难。此外,对于CNN来说,准确建模图像组中共同显著区域的图像间非局部依赖性更具挑战性。为了解决上述挑战,我们开发了一种新颖的自适应图卷积网络与注意力图聚类(GCAGC)用于共同显著性检测。我们首先利用CNN编码器从图像组中提取多尺度特征表示,并生成组合的密集特征节点图。然后,我们处理密集的0� 通讯作者。本工作得到中国新一代人工智能国家重大项目(No.2018AAA0100400)的部分支持,国家自然科学基金(61876088,61825601)的部分支持,江苏省自然科学基金(BK20170040)的部分支持。90510使用提出的自适应图卷积网络(AGCN)对图进行聚类。与仅依赖CNN的渐进行为相比,AGCN能够通过计算图像组中任意两个位置之间的相互作用来直接捕获非局部和长距离的对应关系,而不考虑它们的图像内部和图像间的位置距离。AGCN的输出通过注意力图聚类模块(AGCM)进一步细化,通过生成的共同注意力图。最后,使用CNN解码器输出最终预测的共显著图。设计了一个统一的框架来共同优化所有组件。本文的主要贡献有三个方面:0•我们提供了一种自适应图卷积网络设计,同时捕获图像组的图像内部和图像间对应关系。与传统方法相比,这个AGCN直接计算任意两个图像位置之间的长距离相互作用,从而提供更准确的测量结果。0•我们开发了一个注意力图聚类模块,用于区分共同对象和显著前景。这个AGCM是以无监督的方式进行训练的,并生成共同注意力图以进一步细化估计的共显著前景。0•我们提出了一个端到端的计算框架,具有编码器-解码器CNN结构,可以同时优化图聚类任务和共显著检测目标,同时学习自适应图依赖关系。02. 相关工作0图像共显著性检测。这个任务识别出多个图像中的共同独特前景并将它们分割出来。针对这个任务已经开发了各种策略。自下而上的方法首先对图像组中的每个像素/子区域进行评分,然后以自下而上的方式组合相似区域。通常使用手工制作的特征[12, 15, 35, 41, 69]或基于深度学习的特征[75,74]来评分这些子区域。Fu等人[12]在一个基于聚类的框架中利用三个视觉注意先验。Liu等人[41]定义了背景和前景线索来捕捉图像内部和图像间的相似性。在[75]和[74]中分别使用预训练的CNN和受限玻尔兹曼机提取信息线索来检测共显著对象。相反,基于融合的算法[54, 5,26]旨在从几个现有的显著性或共显著性检测方法生成的预测结果中发现有用的信息。这些方法通过区域方式融合检测到的区域提案。0自适应融合[26]、自适应权重融合[5]或堆叠自编码器启用融合[54]。基于学习的方法是共同显著性检测算法的第三类,旨在直接从图像组中学习共同显著模式。在[24]中,提出了一种带有两个基于图的无监督CNN,分别用于学习图像内显著性和图像间并发性。张等人[76]设计了一个分层框架,通过掩模引导的完全CNN捕获共显著区域。魏等人[64]设计了一个多分支架构,同时发现图像间的交互作用和单个图像中的显著区域。在[57]中,提出了一种语义引导的特征聚合架构,用于捕获并发和细粒度信息。尽管已经开发了许多方法,但这个领域仍然缺乏对于解决CNN捕获长距离图像内部和图像间依赖性的局限性的研究。0图神经网络(GNNs)。GNNs [18, 49]是通过在图的节点之间传递消息来捕获图依赖关系的模型。与标准神经网络不同,GNNs保留了一个状态,可以表示来自其任意深度邻域的信息[78]。卷积图神经网络(GCNs)[4, 8, 29, 31, 1, 45, 16]是GNNs的一种变体,旨在将卷积推广到图领域。这个方向上的算法通常被归类为基于谱的方法[4, 8, 29,31]和基于空间的方法[1, 45,16]。前者使用图的谱表示,后者直接在图上定义操作,并从空间上连接的邻居组中提取信息。最近,GNN和GCN在各种计算机视觉任务中展示了有希望的结果,包括场景图生成[67, 36, 19]、点云分类和分割[30, 63]、语义分割[58,48]、动作识别[66]和视觉推理和问题回答[6,44]。关于GNN的更全面的综述可以在[78, 65]中找到。0图聚类。该任务将图的节点划分为相关的组。早期的工作[17,52]开发了浅层的图聚类方法。Girvan等人[17]使用中心性指数来发现不同节点组的边界。Wang等人[60]开发了一种模块化的非负矩阵分解方法,将社区结构纳入图嵌入中,然后在嵌入特征上执行传统的聚类方法。这些工作的局限性在于它们只处理部分图结构或内容与结构数据之间的浅层关系[56]。相比之下,基于深度学习的方法[46,56]最近被开发出来以改进图聚类。Pan等人[46]提出了一个对抗正则化的框架,用于提取图表示以执行图聚类。Wang等人[56]开发了一种目标导向的深度学习方法,共同学习图嵌入和图聚类。90520图2.GCAGC用于共同显著性检测的流程。给定一组图像作为输入,我们首先使用骨干CNN作为编码器(a)来提取每个图像的多尺度特征,然后采用特征金字塔网络(FPN)[38]将所有图像特征从上到下融合。接下来,将侧输出特征作为节点表示输入到AGCN(b)中。通过两层GCN的AGCN的输出特征然后输入到AGCM(c),生成一组对象共同注意力图。最后,将共同注意力图和AGCN的输出特征进行连接并输入到解码器(d),生成相应的共同显著图。+ �:逐元素相加;c �:连接;G(V,E,A):节点V,边E和邻接矩阵A的图;P k 1,P k2:用于图学习的可学习投影矩阵;W k 1和W k 2:在采用的两层GCN中的可学习权重矩阵。0将嵌入和图聚类结合在一起。关于图聚类的更详细的回顾请参考[2]。03. 提出的方法03.1. 方法概述0给定一组N个相关图像I = {In}Nn =1,共同显著性检测的任务旨在突出显示背景中的共享显著前景,并预测相应的响应图M = {Mn}Nn =1。为了实现这个目标,我们学习一个深度GCAGC模型以端到端的方式预测M。图1展示了我们方法的流程,包括四个关键组件:(a)编码器,(b)AGCN,(c)AGCM和(d)解码器。具体而言,给定输入I,我们首先采用VGG16骨干网络[51]作为编码器,通过去除全连接层和softmax层来提取它们的特征。然后,我们采用FPN[38]来融合pool3、pool4和pool5层的特征,生成三个侧输出的中间特征图X ={Xk}3k = 1作为I的多尺度特征表示。然后,对于每个Xk ∈X,我们设计一个子图Gk,其具有适应我们共同显著性检测任务的可学习结构,能够很好地捕捉长距离的图内和图间对应关系,同时保持显著性的空间一致性。同时,为了充分捕捉特征增强的多尺度信息,将子图组合成一个多图G =∪kGk。然后,将G集成到简单的两层GCNs Fgcn[29]中,生成投影的GC滤波特征Fgcn(X) = {Fgcn(Xk)}3k =1。最近的工作[32, 33]表明,GCNs[29]的GC滤波是一个拉普拉斯平滑过程,因此它可以0使同一类别的显著前景特征相似,从而很好地保持前景显著性的空间一致性,有助于后续的图像内部和图像间对应关系。然后,将 F gcn ( X ) 输入到图聚类模块 F gcm中,产生一组共同注意力图 M catt,这有助于进一步细化预测的共同显著前景并抑制噪声背景。最后,将连接特征 M catt c �F gcn ( X )输入到解码器层,生成最终预测的共同显著图。03.2. 自适应图卷积网络0如前所述,AGCN将特征处理为拉普拉斯平滑[32],可以在保持空间一致性的同时受益于长距离的图内和图间对应关系。许多基于图的共同显著性检测方法[24, 55, 77, 23, 27,37]已经被开发出来更好地保持空间一致性,但它们独立地执行图内显著性检测和图间对应关系,不能很好地捕捉跨图像的共同显著区域之间的相互作用,这对于共同显著性检测是至关重要的,从而导致次优性能。与之不同的是,我们的AGCN构建了一个密集图,将所有输入图像特征作为节点表示。同时,图的每条边模拟了任意两个节点之间的相互作用,无论它们的位置距离如何,从而很好地捕捉了长距离的依赖关系。因此,图内显著性检测和图间对应关系可以通过在图上进行特征传播在一个统一的框架下共同实现,而无需任何后处理,从而比那些单独处理每个部分的方法[24, 55, 77,23, 27, 37]更准确地估计共同显著性。Ak = σ(XkPk1(XkPk2)⊤),(1)A = A1 + A2 + A3.(2)tions asZk = Fgcn(Xk)= Fsoftmax(ˆAReLU(Fgcf(ˆA, Xk)Wk1)Wk2),(3)Fgcf(ˆA, Xk) = ˆAXk,(4)u = FgGAP (Z) =1Nwh90530图2. GC滤波效果的示意图。GC滤波后的信号投影 Z k保持了显著前景的空间一致性,而输入图信号 X k更突出了更多的噪声背景。随后,我们AGCM在§3.3中生成的共同注意力图 M catt 进一步减少了 Z k中存在的噪声背景。0图的符号。我们构建一个多图 G ( V , E , A ) = ∪ 3 k =1G k ( V k , E k , A k ) ,由三个子图 G k0k A k , V k = { v k i } 表示 G k 的节点集合,其中节点v k i , E k = { e k ij } 表示其边集合,其中边 e k ij , Ak 表示其邻接矩阵,其条目 A k ( i, j ) 表示边 e k ij的权重。 X k = [ x k 1 , . . . , x k Nwh ] � 表示特征矩阵0G k ,其中 x k i ∈ R d k 是节点 v k i 的特征,维度为 d k。邻接矩阵 A。传统的GCNs[29]构建了一个固定的图,无法保证最适合特定任务[22]。最近,一些研究[22, 34,27]通过学习一个参数化的邻接矩阵来适应特定任务,探索了自适应图学习技术。受此启发和[61]中的自注意机制,对于子图 k,为了学习一个任务特定的图结构,我们定义一个可学习的邻接矩阵:0其中 σ ( x ) = 101+ e − x 表示sigmoid函数,0P k 1 , P k 2 ∈ R d k × r是两个可学习的投影矩阵,将节点特征的维度从 d k 降低到r < d k。为了在GCNs中组合多个图,如[62]所示,我们简单地对所有 G k 的邻接矩阵进行逐元素相加,以构建 G的邻接矩阵。0图卷积滤波。我们采用[29]提出的两层图卷积网络(GCNs)来执行图卷积。0图3. 我们AGCM F gcm 的示意图。详情请参考正文部分。0其中GC滤波函数定义为[33]0W k 1 ∈ R d k × c k 1 , W k 2 ∈ R c k 1 × c k是两个全连接层的可学习权重矩阵,用于特征投影。02 ,其中 ˜ A = A + I , A 由(2)定义, I0j ˜ A ( i, j ) 是 ˜ A的度矩阵,是对角矩阵。最近的研究[33]表明,GC滤波器 Fgcf (4) 是低通的,因此它可以使同一聚类中的输出信号投影Z k变得更平滑,从而很好地保持显著前景的空间一致性,如图2所示。然而,一些内部一致但非显著的区域也被突出显示。为了解决这个问题,在接下来的部分中,我们将介绍一种注意力图聚类技术,进一步改进 Z k,以便关注共同显著区域。03.3. 注意力图聚类模块0图3显示了我们的AGCM F gcm的示意图。具体而言,给定GC滤波器的投影 Z k ∈ R Nwh× c k ,k = 1 , 2 , 3(见(3)),我们通过将它们连接起来得到一个多尺度特0k c k 。接下来,我们将 Z 重塑为张量 Z ∈ R N × w × h × d ,作为F gcm 的输入。然后,我们定义了一个组全局平均池化(gGAP)函数F gGAP ,如下所示0n,i,j Z ( n, i, j, :) ,(5)0它输出一个全局统计特征 u ∈ R d,作为多尺度语义显著性表示,编码全局有用的组上下文信息。然后,我们将 u 与 Z相关联,生成一组能够完全突出内部显著性的注意力图0M att = u � Z ,(6)Lgc =�zi∈πfwi∥zi − mf∥2 +z�Lgc = −�y⊤Kyy⊤y + (1 − y)⊤K(1 − y)�.(10)(13)90540其中 M att ∈ R N × w × h ,�表示相关运算符。然后,我们使用sigmoid函数 σ 将 M att的值重新缩放到 [0 , 1] ,得到 W = σ ( M att ) ,(7)0从图3中,我们可以观察到 M att发现了保持空间一致性的内部显著性,但也突出了一些嘈杂的非共同显著前景。为了缓解这个问题,我们利用一种注意力图聚类技术进一步改进了注意力图,能够更好地区分共同对象和显著前景。受[10]中加权核k-means方法的启发,我们定义了AGCM的目标函数0z i ∈ π b w i ∥ z i − mb ∥ 2 ,(8)0其中 π f 和 π b 分别表示前景和背景的聚类0分别表示前景和背景, m f =0z i ∈ πf w i ,背景类似0m b ,其中 w i 表示(7)中 W 的第 i个元素。根据[10],我们可以很容易地证明目标函数(8)中的 L gc 的最小化等价于0min Y {L gc = − trace( Y � KY ) } ,(9)0其中 K = D 1 2 ZZ � D 1 2 , D = diag( w 1 , . . . , wNwh ) , Y ∈ R Nwh × 2 满足 Y � Y = I 。令 y ∈ { 0 ,1 } Nwh 表示聚类的指示向量,如果 i ∈ π f ,则 y ( i ) =1 ,否则 y ( i ) = 0 。我们选择 Y = [ y / �0找到一个满足 Y � Y = I 的正交矩阵 Y,并将其代入(9)中,得到我们AGCM的损失函数0( 1 − y ) � ( 1 − y )0现在,我们展示了上述损失函数 L gc与图聚类之间的关系。我们首先构建GC的图 G gc ( V gc ,E gc , K ) ,它由节点集 V gc = V f ∪V b 组成,其中 Vf 是前景节点集,V b 是背景节点集, E gc表示边集,使得节点 i 与节点 j 之间的边的权重等于 K ( i, j ),其中 K 是其在(9)中定义的邻接矩阵。我们将 links( V l0i ∈V l,j ∈V l K(i, j), l = f, b,那么很容易证明最小化Lgc(10)等价于最大化图聚类任务的比率关联目标[50]0max0� �0�0�0l = f,g0links(V l, V l)0|V l|0� �0�.(11)0其中|V l|表示集合V l的基数。直接优化Lgc(10)得到其连续松弛解ˆy。然后,将ˆy重塑为一组0N个共同注意力图M catt ∈ R N × w ×h。最后,将学习到的共同注意力图Mcatt和AGCM的输入特征Z ∈ R N × w × h ×d进行连接,得到增强的特征F ∈ R N × w × h × (d+1):0F = M catt c � Z,(12)0其中c �表示连接运算符,作为以下解码器网络的输入。03.4. 解码器网络0我们的解码器网络具有一个上采样模块,由一个3×3卷积层、一个ReLU层和一个步长为2的反卷积层组成,用于增加分辨率。然后,我们重复这个模块三次,直到达到最精细的分辨率,以便准确地估计共同显著性地图,接着使用一个1×1卷积层和一个sigmoid层生成一组共同显著性地图估计。给定由(12)计算得到的特征F作为输入,解码器网络生成一组共同显著性地图M = {M n ∈ R w × h}N n =1。然后,我们使用加权交叉熵损失进行逐像素分类。0L cls = −10P × N0N �0n = 10i = 1{ρ n M n(i) log(M ngt(i))0− (1 − ρ n)(1 − M n(i)) log(1 − M n gt(i))},0其中M n gt表示图像I n ∈ I的真实掩膜,P表示图像In的像素数,ρ n表示图像In中所有正像素占所有像素的比例。所有网络参数通过最小化以下多任务损失函数进行联合学习。0L = L cls + λ L gc,(14)0其中L gc是由(10)定义的注意力图聚类损失,λ >0是一个权衡参数。我们通过最小化L来以端到端的方式训练网络,学到的GCAGC模型直接应用于处理输入图像组,预测相应的共同显著性地图,无需任何后处理。04. 结果与分析04.1. 实现细节0我们的GCAGC模型的训练包括两个阶段:第一阶段。为了公平比较,我们采用VGG16网络[51]作为骨干网络,该网络在ImageNet分类任务[9]上进行了预训练。按照[64,57]中的输入设置,我们随机选择N=5个图像作为一个组,从COCO数据集[39]的所有类别中选择一批组,这些组在训练期间同时输入到网络中。90550图4. 我们的GCAGC方法与其他最新方法(包括CBCS [12],ESMG [35],CSMG [76]和RCGS [57])的视觉比较。0所有图像都被调整为相同的尺寸224×224以便于处理。模型使用Adam算法[28]进行优化,权重衰减为5e-4,初始学习率为1e-4,每25000次迭代减半一次,训练过程收敛直到100000次迭代。第二阶段,我们使用MSRA-B数据集[40]进一步微调模型,以更好地关注显著区域。所有参数设置与第一阶段相同,除了训练迭代次数为10000。注意,在训练时,为了匹配输入组的大小,我们使用仿射变换、水平翻转和左右翻转将单个显著图像增强为N=5个不同的图像组。在测试时,我们将所有图像分成几个小组,生成最终的共同显著性地图估计。网络在PyTorch中实现,使用RTX 2080TiGPU进行加速。04.2. 数据集和评估指标0我们在三个流行数据集上进行了广泛评估,包括iCoseg[3]、Cosal2015 [72]和COCO-SEG0SEG[57]。其中,iCoseg是最常用的数据集,共有38组643张图像,其中一组中的共同对象具有相似的外观或语义特征,但姿势或颜色变化各异。Cosal2015是一个大规模数据集,包含50个类别的2015张图像,每个组都面临各种挑战因素,如复杂环境、遮挡问题、目标外观变化和背景杂乱等。所有这些都增加了准确的共同显著性检测的难度。最近,为了满足基于深度学习的共同显著性检测方法对大规模训练集的迫切需求,提出了COCO-SEG,它们是从COCO2017数据集[39]中选择的,其中有200,000张图像用于训练,8,000张用于测试,涵盖了所有78个类别。0我们将我们的GCAGC方法与现有的最先进算法进行比较,涉及6个指标,包括精确度-召回率(PR)曲线[70]、接收操作特性(ROC)曲线[70]、平均精度(AP)分数[70]、F-度量分数F β [70]、S-度量分数90560图5. 在三个基准数据集上根据PR和ROC曲线与最先进方法进行比较0表1. 我们的GCAGC与其他最先进方法的统计比较。红色和蓝色粗体字分别表示最佳和次佳性能。0方法 iCoseg Cosal2015 COCO-SEG0AP ↑ F β ↑ S m ↑ MAE ↓ AP ↑ F β ↑ S m ↑ MAE ↓ AP ↑ F β ↑ S m ↑ MAE ↓0CBCS [12] 0.7965 0.7408 0.6580 0.1659 0.5859 0.5579 0.5439 0.2329 0.3043 0.3050 0.4710 0.25850CSHS [42] 0.8454 0.7549 0.7502 0.1774 0.6198 0.6210 0.5909 0.3108 - - - -0ESMG [35] 0.8336 0.7773 0.7677 0.1261 0.5116 0.5120 0.5446 0.2581 0.3387 0.3592 0.4931 0.23490SACS [5] 0.8399 0.7978 0.7523 0.1516 0.7076 0.6927 0.6938 0.1920 0.4176 0.4234 0.5229 0.32710CODW [72] 0.8766 0.7990 0.7500 0.1782 0.7437 0.7051 0.6473 0.2733 - - - -0DIM [71] 0.8773 0.7919 0.7583 0.1739 0.6305 0.6162 0.5907 0.3123 0.3043 0.3353 0.4572 0.38710UMLF [20] 0.7881 0.7148 0.7033 0.2389 0.7444 0.7016 0.6604 0.2687 0.4347 0.4309 0.4872 0.39530UCSG [24] 0.9112 0.8503 0.8200 0.1182 0.8149 0.7589 0.7506 0.1581 - - - -0RCGS [57] 0.8269 0.7730 0.7810 0.0976 0.8573 0.8097 0.7959 0.0999 0.7309 0.6814 0.7185 0.12390CSMG [76] 0.9097 0.8517 0.8208 0.1050 0.8569 0.8216 0.7738 0.1292 0.6309 0.6208 0.6517 0.14610GCAGC 0.8867 0.8532 0.8205 0.0757 0.8799 0.8428 0.8224 0.0890 0.7323 0.7092 0.7294 0.10970S m [11]和平均绝对误差(MAE)[57]。04.3. 与最先进方法的比较0我们将我们的GCAGC方法与包括CBCS [12]、C-SHS[42]、ESMG [35]、SACS [5]、CODW [72]、DIM[71]、UMLF [20]、UCSG [24]、RCGS [57]、CSMG[76]在内的10种最先进的共同显著性检测方法进行比较。为了公平比较,我们直接报告了作者发布的可用结果,或者通过每种比较方法的公共源代码重现了实验结果。定性结果。图4显示了一些视觉共同显著性检测结果。0与CBCS [12]、ESMG [35]、CSMG [76]和RCGS[57]等4种最先进方法进行比较的结果。当共同显著目标遭受显著的外观变化、强烈的语义干扰和复杂的背景杂乱时,我们的GCAGC可以获得比其他方法更好的共同显著性检测结果。在图4中,左侧的两组图像选自iCoseg。其中,对于“Red SoxPlayers”组,背景中的观众与前景的共同显著性玩家具有相同的语义,这使得准确区分它们非常困难。尽管如此,我们的GCAGC可以实现准确的区分。AP↑0.87990.86060.87960.8867iCosegFβ↑0.85040.81230.84630.8532Sm↑0.81750.82030.81220.8205MAE↓0.08310.07960.07900.0757AP↑0.85770.87790.87370.8799Cosal2015Fβ↑0.81560.83730.83750.8428Sm↑0.81670.81450.81560.8224MAE↓0.09670.09010.08510.08905. ConclusionThis paper has presented an adaptive graph convolution-al network with attention graph clustering for co-saliencydetection, mainly including two key designs: an AGC-N and an AGCM. The AGCN has been developed to ex-tract long-range dependency cues to characterize the intra-and inter-image correspondence. Meanwhile, to further re-fine the results of the AGCN, the AGCM has been de-signed to discriminate the co-objects from all the salientforeground objects in an unsupervised fashion. Finally, aunified framework with encoder-decoder structure has beenimplemented to jointly optimize the AGCN and the AGCMin an end-to-end manner. Extensive evaluations on threelargest and most challenging benchmark datasets includingiCoseg, Cosal2015 and COCO-SEG have demonstrated su-perior performance of the proposed method over the state-of-the-art methods in terms of most metrics.90570表2.我们模型在iCoseg和Cosal2015上的离析研究。这里GCAGC-N,GCAGC-M,GCAGC-P分别表示我们的GCAGC在没有AGCN,AGCM和投影矩阵P(1)的情况下。红色粗体字表示最佳性能。0数据集 GCAGC-N GCAGC-M GCAGC-P GCAGC0由于其从GC过滤到图聚类的两步过滤处理,可以很好地保持空间一致性,同时有效地减少噪声背景,因此我们的GCAGC可以准确地突出显示共同显著的参与者。然而,其他比较的方法无法达到令人满意的结果,其中包含一些噪声背景(请参见RCGS、ESMG、CBCS的中间列)或包括非共同显著区域的整个内部显著区域(请参见RCGS的最左列,ESMG和CBCS的最左四列)。中间组(苹果和猴子)中的共同显著性图是从Cos-al2015中选择的图像组生成的。苹果组受到其他前景语义对象(如手和柠檬)的干扰,而猴子组则经历了复杂的背景杂乱。显然,我们的GCAGC可以生成比其他方法更好的空间一致的共同显著性图(请参见ESMG和CBCS的底部两行,RCGS和CSMG的最左列)。最右边的两组选自COCO-SEG,其中包含各种具有不同类别干扰和复杂背景杂乱的挑战性图像。尽管如此,我们的GCAGC可以准确地发现共同显著的目标,即使它们受到极其复杂的背景杂乱的干扰(请参见西兰花组)。实验结果表明,我们的GCAGC可以在各种具有挑战性的因素下取得良好的性能,验证了我们的GCAGC模型的有效性,可以很好地适应各种复杂情景。定量结果。图5显示了三个基准数据集上所有比较方法的PR和ROC曲线。我们可以观察到我们的GCAGC在三个数据集上优于其他最先进的方法。特别是,在最大和最具挑战性的Cosal2015和COCO-SEG上的所有曲线都比其他方法高得多。同时,表1列出了统计分析结果,其中RCGS是一种代表性的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功