没有合适的资源?快使用搜索试试~ 我知道了~
13703DeepACG:通过语义感知对比度Gromov-Wasserstein距离的张凯华1,董明亮2,刘波3,袁晓彤1,刘青山11计算机与软件学院,2自动化学院南京信息工程大学,南京,中国3JD Digits,Mountain View,CA,美国{zhkhua,kfliubo}@ gmail.com摘要共显著性检测的目标是分割出一组图像中的共现显著对象。为了解决这个问题,我们通过语义感知对比Gromov-Wasserstein距离(DeepACG)引入了一种新的深 度 网 络 架 构 。 我 们 首 先 采 用 Gromov-Wasserstein(GW)距离来为图像组内的所有图像像素对构建密集的4D相关体积这些密集的相关体积使网络能够准确地发现常见显著对象之间的结构化成对像素相似性。其次 , 我 们 开 发 了 一 个 语 义 感 知 的 共 同 注 意 模 块(SCAM),通过预测类别信息来增强前置共显度。具体地说,SCAM识别的前景共同对象的语义类,然后将此信息调制到深表示本地化的相关像素。第三,我们设计了一个对比度边缘增强模块(EEM),以捕获更丰富的上下文和保留细粒度的空间信息。我们使用三个最大和最具挑战性的基准数据集(Cosal2015,CoCA和CoSOD3k)来验证我们模型的有效性。大量的实验表明,每个模块的实质性的实用合并与现有的工作相比,Deep-ACG显示出显着的改进,并达到最先进的性能。1. 介绍显著对象检测模仿人类视觉系统来识别单个图像中最具视觉特征的区域。 共同显着性检测(CoSD)*通讯作者。这项工作得到了中国新一代人工智能国家重大项目(No. 2018AAA0100400)的部分支持江苏省333高层次人才培养工程图1.不同模块变体的结果。 (a)输入图像;(b) 地面实况;(c)DeepACG w/o SCAM EEM;(d)DeepACG w/o EEM;(e)拟议的DeepACG。在图像组中发现共同的显著前景对象由于其有用的潜力,它已越来越多地应用于各种视觉应用,包括图像/视频分割[12,44,56,14],对象协同定位[41]和弱监督语义分割[40]。CoSD传统上被制定为两步程序。首先,使用手工设计的特征描述视觉表示,包括:1)低级特征,如SIFT [2],颜色特征[29]和纹理特征[21]; 2)中级属性[27];和3)多线索融合[1]。第二,这些特征然后被馈送到子模型模块中以识别共显著性。尽管如此,手工设计的特征本质上是浅的,并且不能适应对象外观的大变化[58]和复杂的背景纹理[43]。最近的研究首先通过开发基于深度学习的方法[57,46]来改进CoSD,以提取强大且更丰富的视觉表示并探索图像之间的语义相关性。 这些方法已被证明是传统方法的一种有前途的替代方法。后来,端到端深度学习框架[17,43]被提出来整合特征学习和显著性图预测的过程深度图神经网络也被用来对非局部和远程的去中心化进行建模13704[58]第58话虽然这些研究取得了显著的进展,并显示出最先进的性能,但仍存在挑战,进一步研究。第一个关键问题是如何设计有效的架构来捕获更准确的像素对对应,同时结合结构化信息。第二,共现显著对象的语义类别通常是第三,现有的CoSD算法主要关注区域精度,而忽略了边界的细粒度信息。为了解决上述挑战,我们通过用于CoSD的语义感知对比Gromov-Wasserstein距离(DeepACG)提出了一种新的深度网络架构。图1说明了Deep-ACG的有效性. Gromov-Wasserstein(GW)距离是度量测度空间之间距离的一种表示[32,31,39]。GW距离主要与地球移动器距离(EMD)[ 35 ]相关,该EMD是在同一几何域上的分布之间构造的,它度量了结构相似性。因此,GW距离是在不同的几何域之间建立的[37]。它能够测量每个域内节点对之间的距离,以及测量这些距离与对应域中的距离的比较[3]。GW距离可以额外-t在不同几何结构存在下的软匹配[37]。在2D和3D设置中发现具有共享(语义)结构的源域和目标域之间的对应关系方面取得了巨大成功[37]。我们采用GW距离来捕获组中目标图像和源图像之间每个像素特征的成对对应(图1(c))。然后,我们利用共显对象的语义分类信息来增强像素的定位(图1(d))。最后,使用对比度边缘感知设计来保留边界信息,并进一步提高分割精度(图1(e))。我们的主要贡献概述如下:(1) 我们建议采用GW距离提取密集的4D相关体积的所有对图像像素,并找到它们之间的对应关系的目标和源图像域。通过GW距离,网络能够最小化长距离和短距离的失真,并找到概率匹配。GW距离匹配层可以嵌入到网络中进行端到端训练。(2) 我 们 提 出 了 一 个 语 义 感 知 的 共 同 注 意 模 块(SCAM),以提高共同出现的显着区域。S-CAM首先预测共显对象的语义类别然后,将这些信息调制到特征表示中,以细化局部语义区域。(3) 我 们 引 入 了 一 个 对 比 度 边 缘 增 强 模 块(EEM),以生成细粒度的分割边界,共显物体的种类。据我们所知,这是CoSD任务中的第一个边缘感知设计。(4) 已经进行了广泛的实验来验证我们的DeepACG在三个最大和最具挑战性的数据集上的有效性,包括Cosal 2015 [54],Co-CA [59]和CoSOD 3 k [9]。我们的DeepACG显著优于基准模型,并实现了最先进的性能。2. 相关工作2.1. 图像共显著性检测早期的CoSD方法提取图像的低层特征,如Gabor和SIFT特征,然后通过测试图像之间的低层特征一致性来检测图像的共显著性[2]。中间级特征的使用,如单图像显著性检测结果和过分割结果,可参考文献[21,27,1,16]。利用提取的特征,通过自下而上或自上而下的方法检测图像间显著性[52]。自上而下的方法通常使用手工制作的共同显着性线索对图像像素或超像素进行评分[20,54,38]。自顶向下的方法通过适当的学习机制设计从图像特征中发现共显著性典型的例子包括自定进度的多实例学习模型[55]和统一度量学习模型[13]。最近,基于深度学习的图像CoSD模型激增,这些模型全面学习特征提取和预测器[10]。在[15]中,通过将测试图像视为图形模型节点,将单图像显著性检测和跨图像共现区域发现公式化为全连接条件随机场模型的一元项Zhang等人[59]提出了一种梯度诱导模型,该模型利用图像梯度信息来诱导对区分性共显特征的更多关注。在[57]中,提出了一种用于CoSD的分层框架,其中通过标记平滑来细化由神经网络模型生成的初始CoSD结果在[58]中,提出了一种深度图神经网络模型来表征CoSD的图像内和图像间区域对应性。2.2. 图像匹配图像匹配,即在图像之间建立对象或区域对应,是计算机视觉中的一个长期研究领域[30]。图像匹配技术具有广泛的应用,包括SLAM [5]、图像拼接[25]和运动恢复结构[6]。图匹配是图像匹配的主要方法之一。图匹配将图像像素或一幅图像的关键点表示为图节点,并且匹配任务是估计两个图之间的节点边连接S. 边缘估计任务13705n=1图2.拟议的DeepACG的管道。首先,输入图像I通过编码器子网络,产生相应的多尺度特征表示。顶层特征X被馈送到GW匹配层,GW匹配层找到I中任何一对局部区域之间的密集对应,然后将匹配的特征信息从源图像域传递到目标图像域。之后,输出的增强特征Y被馈送到SCAM中,其中我们利用共类别标签信息作为指导来学习语义共显对象嵌入γ和突出语义感知共显区域的一组共注意力图M然后,γ和M被馈送到解码器子网络中,这类似于特征金字塔网络(FPN)[24],其沿着从右到左的路径和自上而下的连接融合多尺度特征。最后,将左层融合特征传递到EEM中,然后是1 × 1卷积层和Sigmoid层,以产生边界感知的共显着性图S。是二次分配问题[19,28],对于精确解来说是NP困难的。一种常见的做法是用适当的松弛来解决这个问题,比如凸松弛[4]、凸到凹松弛[50]或连续松弛[42]。在我们的工作中,提出的GW匹配层的动机是[37]。在这项工作中,所罗门等人。[37]提出了一种概率匹配算法,通过优化形状对应的熵正则化GW目标。3. 该方法给定一组N个相关图像I={I n}N作为输入,我们的目标是学习DeepACG模型,该模型可以突出具有相同类别的常见对象。图2显示了DeepACG的架构,主要由四个组件组成:利用VGG 16网络[36]作为主干来提取特征的编码器;对齐共显区域特征的GW匹配层;通过预测分类信息增强前景共显性的SCAM;以及包括EEM以产生边界感知共显性图的解码器。我们的关键设计是在后面的三个组件上,这将在下面的部分中详细介绍图3. GW匹配示意图。对于目标图像中的特征向量,我们将所有对本身与内积相乘,并生成一个4DW×H×W×H相关体积,其中每个像素产生一个2D响应图。在这里,我们将反射体积重塑为WH×WH相关图Ct。我们对源图像采用类似的策略,产生一个NWH×NWH(这里N= 2)的相关图Cs。最后,我们使用两个相关映射构造GW距离进行结构匹配。3.1. GW匹配层I中的每个图像被馈送到编码器子网络中,产生其对应的特征表示X=13706.ΣΣ⊤2Σ+不不不ijkl[x]。. . ; x]∈RWH×C,其中W,H表示宽度算法1GW求解器1白色和特征图的高度,C是通道号,xi∈RC表示第i个特征向量.我们依次选择一个图像作为目标图像,I中的其他N-1个图像作为源图像。 然后,我们使用它们的功能进行GW之间的目标图像和源图像的匹配具体地,如图3所示,给定目标图像特征Xt=输入:Ct,Cs,α,η = 0。5输出:P1:P←1(WH,(N-1)WH)2:对于i = 1,2,3,. . . 做3:K←expCt PCs <$/α4:P←Sinkhorn-投影(K<$η<$P<$(1−η)),其中<$η[xt,. . . ,x t]n∈ RWH×C,源图像表示表示矩阵η的元素方幂,1白色语句X s=[x s,. . . ,x s][]] ∈ R(N−1)WH×C,表示逐元素乘法。1(N−1)WH我们首先计算它们相应的相关图,Ct=XtX t,Cs=Xs Xs,其中,Ct和Cs的第(k,l)个元素被公式化为:Ct(i,j)=xt<$xt,Cs(k,l)=xs<$xs,(1)它们是位置i,j处的特征对的内积在目标域上以及在源域上的位置k、l处,测量任何位置对之间的依赖性。如果目标域和源域之间存在匹配对,即i<$→k和j<$→l,目标域上位置i和j处的特征对之间的距离应该与源域上位置k和l处的特征对之间的距离基于这一假设,我们利用规则化的2-GW距离[37]进行最佳结构匹配,其定义为GW2(Cs, Ct)=min {(Ct(i,j)-Cs(k,l))2P(i,k)P(j,l)-αH(P)},P∈P艾克尔(二)其中H(P)=−ikP(i,k)ln(P(i,k))是最优匹配流P ∈ RWH×(N−1)WH的熵,集合P ={P:P1(N−1)WH =1WH,P=1WH =1(N−1)WH},1D是D维全1向量。因图伊什匹配流P(i,k)表示目标域中的第i个位置对应于源域中的第k个位置的概率。在实现最佳匹配流P之后,我们通过以下方式将对齐的特征信息从源域传输到目标域:第五章: 端算法2Sinkhorn-投影输入:K输出:diag(v)Kdiag(w)1:v, w←12:对于j = 1,2,3,. . . 做3:v←1<$(Kw),其中<$表示按元素划分4:w←1(K v)第五章: 端图4.学习的匹配流P的行为的图示。箭头的起点表示目标图像中的锚点位置,并且终点表示它们在源图像中的对应匹配位置。包含矩阵向量乘法和逐元素除法,可以很容易地插入到vanilla deep神经网络中进行端到端训练。GW匹配层可以很容易地在PyTorch中实现自动差分[33]。图4可视化了所学习的匹配流P的行为的两个示例,其中它已经发现了跨源图像的有意义的关系线索。X轴 =PX s。(三)3.2. 语义感知协同注意模块最后,我们将所有对齐的特征Xi,i=1,. . . ,N,产生强特征Y=GW匹配通过结构化地学习I中所有特征对之间的密集对应关系,有效地增强了共显著区域。然而,在一些chal-c在(X)处1,. . .,XN)∈RN×C×W×H 有效地在模拟场景中,存在具有相似性的干扰物,增强I.如算法1所列,我们直接使用[37]提出的GW求解器来解决问题(2),其在闭型指数公式和到dou的圆锥上的Sinkhorn投影(参考算法2 bly随机矩阵GW数学层是不同的,因为它的操作仅在算法1和2中13707最大的外观共同突出的目标(见香蕉与。图5中的花生酱罐),干扰物和共显目标之间的误导性匹配流可能导致对齐的特征突出干扰物(参见图5中的左二列,其中突出了干扰物花生酱罐)。为了解决这个问题,我们进一步提出了SCAM引导功能告诉13708ΣΣΣn=1L图5.骗局对干扰物(即花生酱罐)的影响。从左到右:输入,特征Y的响应,嵌入γ和特征Y的相关响应,共同注意响应M。从具有预测语义共类别信息的干扰物中提取共显目标如图2所示,给定SCAM的输入Y∈RN×C×W×H,我们首先将其馈送到3×3卷积层,产生特征Z= Conv3×3(Y),然后是GAP层以产生语义共显对象嵌入γ∈RC1NWHγ= NWHZ(n,:,w,h).(四)n=1w=1h=1然后,嵌入γ通过具有权重W∈RL×C的FC层,其中L表示类别的数量,Gories,遵循ReLU和Sigmoid层,产生预测的共类别标签l = Sigmoid(ReLU(W γ))∈ RL。然后,我们将共享的FC权重W作为线性分类器来分类特征Z,得到类证明了M∈RNWH×L.最后,我们使用预测的共类别标签能够融合分类结果,产生语义引导的共注意反应M=reshape(Ml)∈RN×W×H.由于分类器更关注最不明显的特征,由于用于语义分类的犯罪特征,学习到的共同注意响应M可能省略一些对于突出共同突出区域至关重要的有用信息为了解决这个问题,我们设计了一个残差模块,该模块使用1×1卷积层和Sigmoid层从输入特征X中完整地学习另一个空间注意力图3.3. 解码器子网解码器子网络具有与FPN [24]类似的架构,其通过从右到左的路径和自上而下的连接将低分辨率、语义强的特征与高分辨率、语义弱的特征组合到相应的编码器层。此外,(4)中的嵌入γ和(5)中的共同注意力映射M被馈送到解码器子网络中以调制每层特征。最后,左层特征通过边缘增强模块进行共显对象边界增强,随后是1×1卷积层和Sigmoid层,产生预测的共显图S={Sn}N.边缘增强模块(EEM):由于输入图像的下采样,它们的高级语义特征图更关注物体的内部而不是它们的边界。特别是在使用共同注意力图M进一步空间调制特征之后,对象边界信息显著丢失,导致不准确的预测结果,特别是在对象边界上。为了解决这个问题,我们进一步设计了边界增强的EEM,它可以有效地融合来自高层特征的丰富上下文和来自低层特征的细粒度空间细节我们首先调整高层特征图的大小,使其与低层特征图的大小相同,然后计算两个特征图之间的差异为了进一步增强边界特征,我们利用残差模块来学习残差以对边界特征进行加权。最后将增强后的边界特征与右路径的输入特征进行融合,生成EEM的输出。损失:使用损失函数对整个网络参数进行端到端优化L=Lcls+LIoU+LWBCE,(6)其中Lcls是语义分类的交叉熵损失,定义为LM = M<$ Sigmoid(Conv1×1(Y))、(5)Lcls =−1<$l(l)log(<$l(l))−(1−l(l))log(1−<$l(l)),(7)其中,n表示逐元素求和算子。图5显示了γ和M的效果,其中我们可以观察到γ可以削弱干扰项的影响,同时增强共显著性特征,M可以进一步过滤掉干扰项。最后,(4)中的学习的γ和(5)中的M被馈送到解码器子网络,其被使用l=1其中l∈RL表示地面真值共范畴标签。LIoU是IoU损失,是广泛用于评估分割准确性的Jaccard距离的松弛[23]i,jmin(S(i,j),S(i,j))以调制多尺度特征,使得γ用作所述信道级缩放参数调整LIoU=1−1i、jmax(S(i,j),Smax(i,j)),(8)特征图中的不同通道,并且M被用作在调制特征之前注入空间共同关注的元素偏差参数[48]。其中S∈ {0,1}W×H是共显着图的地面真实掩模。LWBCE 是 用 于 逐 像 素 分 类 的 加 权 二 进 制 交 叉 熵13709(WBCE)损失,13710WH定义为H W用于比较的四个评价指标,包括平均绝对误差MAE[43],F-测量Fβ[52],E-测量LWBCE =−1wS(i,j)log(S(i,j))i=1i=1(九)[8]和S-测度S m[7]。-(1−w)(1−S(i,j))log(1−S(i,j)),其中权重w是负像素数与一个图像中所有像素的比率,其平衡了损失中正像素和负像素的重要性4. 实验4.1. 实现细节我们使用与最近提出的CoS-D框架[43]类似的设置来配置系统:输入图像组I包含N = 5个具有相同类别的图像作为一个批次,并且来自所有类别的6 × I图像的小批次同时发送到网络中。 所有图像的大小调整为224 × 224 × 3像素作为输入,预测的共显图的大小调整为预期的大小作为输出。S.在训练过程中,我们使用Adam算法[18]对整个网络进行端到端优化,并将动量的第一次和第二次衰减率设置为0。九比零。999,回复。我们将权重衰减设置为1 e-6。我们将网络的所有参数的学习率设置为1 e-4,并将学习率设置为每25,000次迭代的一半,直到收敛。我们的DeepACG在PyTorch中实现[33],并采用NVIDIA RTX2080Ti GPU进行加速,总共需要140,000个训练步骤。我们使用[43]发布的COCO-SEG数据集进行训练,其中包含200,000张图像,我们删除其中包含小对象的图像。数据集包括L=78个类别,并且每个图像具有带有共类别标签l的手动标记的二进制掩码。培训过程大约需要30个小时。4.2. 数据集和评估deepACG模型在三个最大和最具挑战性的基准数据集上进行评估,包括Cos-al 2015 [54],CoCA [59]和CoSOD 3 k [9]。其中,Cosal 2015是CoS广泛使用的基准数据集D.它拥有50个类别的2015张图片。对于某些类别的目标,例如菠萝,存在许多具有相似外观的非共显目标,这对于准确地检测共显目标是非常具有CoCA包含80个类,总共1,297幅图像。 该数据集的特征在于比Cosal 2015中的背景干扰更复杂CoSOD3k是目前最大的电子估值基准。 共有160只猫--egories与3316图像. 与Cosal2015不同,CoSOD 3 k中的大量图像具有两个或三个in-要突出显示的姿态,它跨越了广泛的类别、形状、对象大小和背景。 我们使用4.3. 与最新技术我们利用Fan等人 [9]发布的评估代码与几种最先进的方法进行比较,s, 包括BASNet [34], PoolNet[26], EGNet [60],CBCD [11],欧洲安全监测小组[22],CODR [49],DIM [53],C-[2019-05- 17][2019 - 05][2019 - 05 - 17][2019 - 05][2019 -05 - 05][2019 - 05][2019 - 05 - 05][2019 - 05][2019 - 05 -05][2019 -05][2019- 05- 05][58]《明史》:其中,BASNet [34]、Pool- Net [26]和EGNet [60]是最先进的显着对象检测方法,在CoSD任务上取得了良好的定性结果。 图6显示了我们的DeepACG与三种代表性的最先进方法(包括GICD [59]、GCAGC [58]和CSMG[57])相比的一些可视化结果。DeepACG在具有挑战性的场景下表现良好,所述具有挑战性的场景是共显目标遭受复杂背景杂波、小尺寸、大尺度外观或形状变化、严重遮挡等。在闹钟和烧杯组中,共显对象遭受大规模形状和外观变化(参见闹钟中最右边一列的闹钟和烧杯中第三和第四列的两个烧杯),使得在没有语义指导的情况下难以准确提取共显目标。我们的DeepACG实现了比其他人更好的视觉结果,由于使用预测的语义信息作为SCAM中的指导在Globe组中,共同显着的球体经历了显著的外观变化- s(第二列)和背景杂波(右两列),使得仅使用外观信息无法很好地对共同显着的目标进行分组(参见GCAGC和CSMG的结果)。DeepACG利用相关图来进行GW匹配,这自然地对相关图中的形状拓扑信息进行编码,以帮助更好地对具有不同外观纹理但形状相似的如左两列所示,由GICD生成的共显著图包含大量背景噪声。原因是它使用共识嵌入作为学习的指导,这是由背景干扰污染GICD对闹钟和烧杯组产生了类似的我们的DeepACG可以通过使用SCAM中的共同注意力掩码有效地过滤掉干扰物。在青蛙和菠萝组中,共同突出的目标的某些部分-它们有着脆弱而复杂的边界(见青蛙的脚和菠萝的树冠)。由于使用EEM来增强边界信息,我们的DeepACG可以产生具有精细边界细节的令人满意的共显着图,而通过比较方法生成的共显着图更粗糙。13711图6.我们的DeepACG结果与其他最先进的方法相比图7.在三个基准数据集的PR和F测量曲线方面与最先进的方法进行比较定性结果。图7显示了三个基准数据集上所有比较方法的PR和F-测量曲线。可以观察到,DeepACG在其他最先进的技术中实现了最佳性能,其中DeepACG的所有曲线都位于其他比较方法生成的曲线的顶部同时,表1列出了所有比较方法的统计比较结果,其中GICD和GCAGC是最近提出的最先进的方法。DeepACG实现了最佳性能-在三个基准数据集的所有评价指标方面进行了比较。具体而言,在COCA数据集上,Deep- ACG达到最佳分数0。552,0。771,0。688,分别在F-测量、E-测量和S-测量方面,增益为2。9%,1. 7%,1. 7%,相比之下,第二个表现最好的GCAGC得分为0。523,0。754,0。669、分别此外,在其他两个基准测试中,DeepACG也在所有指标中取得了最好的成绩,进一步证明了其在大规模上的13712表1.我们的DeepACG与其他最先进技术的统计比较。红色和蓝色粗体字体分别表示最佳和次佳性能。* 单图像显著性目标检测方法。基准没有提供结果方法Cosal2015CoSOD3k古柯MAE↓ Sm↑ Em↑ Fβ↑ MAE↓ Sm↑ Em↑Fβ↑ MAE↓ Sm↑ Em↑Fβ↑BASNet网络安全(CVPR2019)[34]0.097 0.820 0.846 0.784 0.122 0.753 0.791 0.696 0.195 0.589 0.623 0.397EGNet论坛(ICCV2019)[60]0.099 0.818 0.842 0.782 0.119 0.762 0.796 0.703 0.179 0.594 0.637 0.389[26]第二十六话0.094 0.820 0.851 0.785 0.120 0.763 0.797 0.704 0.179 0.599 0.631 0.401[47]第47话0.097 0.814 0.854 0.789 0.118 0.773 0.806 0.717 0.166 0.610 0.658 0.416CBCD(TIP2013)[1]0.233 0.544 0.656 0.503 0.228 0.528 0.589 0.363 0.172 0.526 0.659 0.313[22]第二十二话0.247 0.552 0.653 0.470 0.239 0.532 0.615 0.364----CODR(SPL2015)0.204 0.689 0.723 0.608 0.229 0.630 0.645 0.458----DIM(TNNLS 2016)[53]0.312 0.593 0.697 0.559 0.327 0.559 0.610 0.420----GW(IJCAI2017)0.147 0.743 0.793 0.697----0.171 0.603 0.666 0.398CSMG(CVPR 2019)[57] 0.130 0.774 0.818 0.777 0.157 0.711 0.723 0.645 0.124 0.632 0.734 0.503SSNM(AAAI2020)[56]0.102 0.788 0.843 0.794 0.120 0.726 0.756 0.675 0.116 0.628 0.741 0.482GCAGC(CVPR2020)[58]0.085 0.817 0.866 0.813 0.100 0.785 0.816 0.740 0.111 0.669 0.754 0.523GICD(ECCV2020)[59]0.071 0.842 0.884 0.834 0.089 0.778 0.831 0.743 0.125 0.658 0.701 0.504DeepACG0.064 0.854 0.892 0.842 0.089 0.792 0.838 0.756 0.102 0.688 0.771 0.552表2.我们模型在CoCA上的消融。NLA是非本地注意力的缩写。EMD是推土机距离的缩写。红色粗体字体表示最佳性能。模型MAE↓Sm↑Em↑Fβ↑无导丝0.1070.6760.7560.529无SCAM0.1040.6780.7640.529无GW SCAM0.1300.6320.7150.443不带EEM0.1050.6790.7670.532关于NLA0.1050.6760.7560.532关于EMD0.1040.6780.7600.535DeepACG0.1020.6880.7710.552挑战数据集4.4. 消融研究为了验证DeepACG中关键模块设计的效果,我们进一步对CoCA数据集进行了广泛的消融研究。表2列出了所有指标的相应实验结果。我们可以观察到,在没有GW匹配的情况下,Fβ评分从0. 552以0的情况。529人23%,Em评分降低1。5%来自0 的 情 况 。 771 比 0 756 , 验 证 GW 匹 配 在 我 们 的DeepACG中起着至关重要的作用。此外,如果没有骗局,DeepACG的性能在所有指标方面都显著下降,特别是对于从0. 552以0的情况。529人2百分之三 如果我们进一步移除两个模块G-W和SCAM,我们的模型的性能显着下降了10。9%和5.6%的F-措施和S-措施,分别。然后,我们测试了没有EEM的 DeepACG,它在F-测量方面的下降分数为2%,这证明了EEM处理复杂对象边界的有效性,这对支持13713产生高质量的共显图。最后,我们用N-LA模块[45]替换GW匹配层,该模块通过考虑所有成对位置交互来增强特征。使用N-LA的DeepACG的Fβ评分为0。532,比Deep-ACG低2%。这是由于NLA模块为所有成对位置生成非零权重,这可能引入使模型降级的噪声相互作用。然而,deepACG基于GW距离学习最佳匹配流,仅将非零权重分配给最稳定的位置(参见图4),从而实现更好的性能。具有EMD的DeepACG [51]也是如此,其性能优于NLA,但比DeepACG差1。Fβ评分7% 这是因为EMD匹配直接学习两个语义特征点之间的结构相似性,其对对象拓扑变化的鲁棒性不如GW匹配。5. 结论本文提出了一种新的深度网络架构DeepACG,用于共显着性检测,其中包括三个新颖的模块设计。首先,设计了一种新的GW距离匹配层,该层建立在图像组内所有图像像素对的密集4D相关体积上,能够准确地发现共显对象之间的结构化成对像素相似性。其次,语义感知的共同注意模块已经开发,以提高前景的共同显着性,通过预测的类别信息。第三,设计了一个对三个基准的广泛评估表明,我们的方法优于最先进的方法。13714引用[1] 曹晓春、陶志强、张宝、傅华珠和冯伟。基于秩约束的自适应加权共显著性检测。TIP,2014年。一、二[2] 张凯月,刘丁禄,尚红来。从共同显着性到共同分割:一个有效的和完全不受监督的能量最小化模型。 在CVPR,2011年。 一、二[3] 陈立群,甘哲,程宇,李林杰,劳伦斯·卡林,刘晶晶。图跨域对齐的最佳传输。arXiv预印本arXiv:2006.14744,2020。2[4] Qifeng Chen和Vladlen Koltun。基于凸优化的鲁棒非刚性配准。InICCV,2015. 3[5] 菲利克斯·恩德雷斯、尤尔根·赫斯、尼克·格拉斯·恩格尔哈德、尤尔根·斯特姆、丹尼尔·克雷默斯和沃尔夫勒姆·伯加德。rgb-d slam系统的评估InICRA,2012. 2[6] Bin Fan , Qingqun Kong , Xinchao Wang , ZhihengWang,Shiming Xiang,Chunhong Pan,and Pascal Fua.基于图像的三维重建中局部特征的性能评价。TIP,2019年。2[7] 邓 平 凡 , 程 明 明 , 刘 云 , 李 涛 , 阿 里 · 博 尔 吉 。Structure-measure:一种评估前景图的新方法在ICCV,2017年。6[8] 范登平,龚成,曹扬,任波,程明明,阿里·博尔吉。用于二值前景图评估的增强对齐措施。arXiv预印本arX-iv:1805.10421,2018。6[9] Deng-Ping Fan,Tengpeng Li,Zheng Lin,Ge-Peng Ji,D- ingwen Zhang,Ming-Ming Cheng,Huazhu Fu,andJianbing Shen.重新思考共同显着对象检测。arXiv预印本arXiv:2007.03380,2020。第二、六条[10] 范登平,郑林,纪戈鹏,张定文,傅华珠,程明明。深入了解共同显着对象检测。在CVPR,2020年。2[11] 傅华珠,曹晓春,涂卓文。基于统计的共显著性检测。TIP,2013年。六、八[12] 傅华珠,徐东,张宝,林志颖。基于对象的多前景视频联合分割。在CVPR,2014年。1[13] 韩俊伟,龚诚,李振鹏,张鼎文。基于统一度量学习的共显性检测框架。TCSVT,2017年。2[14] 许光瑞,林燕玉,庄永玉。Deep-co 3:通过共峰搜索和共显著性检测进行深度实例共分割。在CVPR,2019年。1[15] 许光瑞,蔡中奇,林燕玉,钱小宁,庄永玉。基于无监督cnn的图形优化协同显著性检测。在ECCV,2018年。2[16] 江波,江星月,唐锦,罗斌通过通用优化模型和自适应图学习的共显着性检测。TMM,2020年。2[17] 姜波,姜星月,周阿健,唐金,罗斌一个统一的多图学习和卷积网络模型用于协显着性估计。在MM,2019年。1[18] 迪德里克·P·金马和吉米·巴。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014年。6[19] 尤金·劳勒。二次分配问题。人文科学,1963年。3[20] Hongliang Li,Fanman Meng,and King Ngi Ngan.多幅图像中的共显目标检测。TMM,2013年。2[21] 李宏亮和王义银。图像对的共显著性模型。TIP,2011年。一、二[22] Yijun Li,Keren Fu,Zhi Liu,and Jie Yang.有效的显着性-模型引导的视觉共显着性检测。SPL,2014年。六、八[23] Zhuwen Li,Qifeng Chen,and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR,2018年。5[24] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络.在CVPR。三,五[25] Wen-Yan Lin,Siying Liu,Yasuyuki Matsushita,Tian-Tsong Ng,and Loong-Fah Cheong.平滑变化的仿射缝合。在CVPR,2011年。2[26] 刘江江,侯启斌,程明明,冯佳世,姜建民。一个简单的基于池的实时显著目标检测设计。在CVPR,2020年。六、八[27] Zhi Liu , Wenbin Zou , Lina Li , Liquan Shen , andOlivier Le Meur.基于分层分割的共显著性检测。SPL,2013年。一、二[28] Eliane Maria Loiola、Nair Maria Maia de Abreu、PauloOs-waldoBoaventura-Netto 、 PeterHahn 和 TaniaQuerido。二次指派问题研究综述。EJOR,2007年。3[29] 大卫·G·洛从尺度不变的关键点中提取独特的图像特征。IJCV,2004年。1[30] Jiayi Ma,Xingyu Jiang,Aoxiang Fan,Junjun Jiang,and Junchi Yan.从手工到深层特征的图像匹配:综述。IJCV,2020年。2[31] 我来了。Gromo v-wAxioms,2014. 2[32] 在我的肋骨上。多尺度最优传输方法。CGF,2011年。2[33] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga , et al. Pytorch : An imperative style , high-performance deep learning library. 2019年在NeurIPS上发表。四、六[34] Qin,Zichen Zhang,Chenyang Huang,Chao Gao,andMartin Jagersand. Basnet:边界感知显着对象检测。在CVPR,2019年。六、八[35] Yossi Rubner,Carlo Tomasi,and Leonidas J Guibas.推土机IJCV,2000年。2[36] 凯伦·西蒙尼扬和安德鲁·齐瑟曼用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014年。3[37] 就在所罗门,加布里埃尔Pe yre',弗拉基米尔G金,和苏弗里特Sra。对应问题的熵度量对齐TOG。二、三、四13715[38] Hangke Song,Zhi Liu,Yufeng Xie,Lishan Wu,andMengke Huang.基于装袋聚类的Rgbd共显著性检测。SPL,2016. 2[39] 卡尔·西奥多·斯特姆空间的空间:度量测度空间上的曲率界和梯度流数学,2012年。2[40] Guolei Sun,Wenguan Wang,Jifeng Dai,and Luc VanGool.挖掘弱监督语义分割的交叉图像语义arXiv预印本arXiv:2007.01947,2020。1[41] Kevin Tang,Armand Joulin,Li Jia Li,and Li Fei-Fei.真实世界图像中的共定位。在CVPR,2014年。1[42] Yu Tian , Junchi Yan , Hequan Zhang , Ya Zhang ,Xiaokang Yang ,and Hongyuan Zha. 关于 图匹 配的 收敛:毕业作业重温。在ECCV,2012年。3[43] Chong Wang,Zheng-Jun Zha,Do
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功