没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文SESS:通过缩放和滑动Osman Tursun、Simon Denman、Sridha Sridharan和Clinton Fookes澳大利亚昆士兰科技大学SAIVT实验室{osman.tursun,s.denman,s.sridharan,c.fookes} @ qut.edu.au抽象的。高质量的显着图在几个机器学习应用领域中是必不可少的,包括可解释的AI和弱监督的对象检测和分割。许多技术已经被改进以使用神经网络产生更好的显著性。然而,它们通常限于特定的显着性可视化方法或显着性问题。我们提出了一种新的显着性增强方法,称为SESS (显着性增强与S缩放和Sliding)。它是对现有显着图生成方法的方法和模型不可知扩展。使用SESS,现有的显着性方法对于尺度变化、目标对象的多次出现、干扰物的存在变得鲁棒,并且生成噪声更小且更具区分性的显着性图。SESS通过融合从不同区域的多个不同尺度的斑块中提取的显著性图来提高显著性,并使用一种新的融合方案将这些单独的图结合起来,该融合方案结合了通道权重和空间加权平均。为了提高效率,我们引入了一个预过滤步骤,可以排除无信息的显着图,以提高效率,同时仍然增强整体结果。我们评估SESS的对象识别和检测基准,它取得了显着的改善。代码公开发布,使研究人员能够验证性能和进一步开发。代码可在:https://github.com/neouyghur/SESS1介绍基于深度神经网络(DNN)的决策生成显着性或重要性图的方法在几个机器学习应用领域中至关重要,包括可解释的AI和弱监督对象检测和语义分割。高质量的显着图提高了DNN决策过程的理解和可解释性自从DNN的发展以来,已经提出了许多方法来有效地生成高质量的显着性图。然而,大多数方法具有有限的可移植性和通用性。现有方法是针对具有特定结构(即全局平均池化层)的DNN模型设计的,用于某些类型的可视化(有关详细信息,请参见第(2)、具体限制。例如,CAM[24]需要一个具有全局平均池的网络引导反向传播(Guided-BP)[18]仅限于基于梯度的arXiv:2207.01769v1 [cs.CV] 2022年7+v:mala2255获取更多论文2O. Tursun等人方法。Score-CAM [20]旨在减少方法在这项工作中,我们提出了显着性增强与缩放和滑动(SESS),一个模型和方法不可知的黑盒扩展到现有的显着性可视化方法。SESS仅应用于输入和输出空间,因此不需要访问DNN的内部结构和特征,并且对基础显着性方法的设计不敏感它还解决了困扰现有显着性方法的多重限制。例如,在图1中,SESS显示了应用于三种不同显着性方法时的改进用基于梯度的方法(Guided-BP)提取的显著性图是区分的,但有噪声。由基于激活的方法Grad-CAM[14]和基于扰动的方法RISE[12]生成的显着性图生成平滑的显着性图,但缺乏目标对象周围的细节,并且无法精确地将目标对象与场景分离。与SESS,所有三种方法的结果变得更少的噪音和更有区别的边界周围的目标得到。输入SESS引导反向探测GradCAM RISEImageNet Class ID:444(bicycle-built-for-two)(基于干扰)(基于激活)(基于扰动)图1:使用和不使用SESS的三种众所周知的深度神经网络可视化方法的示例结果。这些方法中的每一个都代表一种类型显着图提取技术。有了SESS,所有方法都能生成噪音更少、更具区分力的显着性图 。 使 用 ResNet 50 提 取 结 果 , 并 将 layer 4 用 于 Grad-CAM 。 目 标ImageNet类ID为444(两人自行车)。SESS解决了现有方法的以下局限性– 弱尺度不变性:一些研究声称,当存在尺度差异时,生成的显着性图是不一致的[7,21],我们还观察到,当目标对象相对较小时,生成的显着性图的区分力较低(见图1和图2)。( 八)。– 无法检测多个事件:一些深度可视化方法(即,Grad-CAM)无法捕获场景中多次出现的同一对象[1,11]。(见图)( 八)。–受干扰因素影响:提取的显著性图经常不正确存在干扰项时突出显示区域尤其是当+v:mala2255获取更多论文×简要文件标题3类返回高置信度分数,或者与目标类相关。– 噪声结果:使用基于梯度的可视化方法[15,19]提取的显着图在视觉上出现噪声,如图1所示。– 较少区别的结果:基于激活的方法(例如,Grad-CAM)倾向于较少区分,经常突出显示目标周围的大区域,使得背景区域经常被错误地捕获为显著的。– 固定输入大小要求:具有全连接层的神经网络,如VGG-16[16],需要固定的输入大小。此外,当推理时的输入大小与训练期间的输入大小相同时,模型表现得更好。因此,大多数可视化方法将输入调整为固定大小。这会影响分辨率和纵横比,并可能导致不良的可视化结果[21]。社会就业支助系统是对上述所有限制的补救办法。SESS提取多个相等大小的(即,224 224)通过缩放和滑动窗口操作从输入图像的多个缩放版本的不同区域获得补丁。此步骤确保它对尺度方差和多次出现具有鲁棒性。此外,由于每个提取的补丁在大小上等于默认输入大小在该模型中,SESS利用高分辨率输入并尊重输入图像的纵横比。每个提取的块将有助于最终的显着性图,最终的显着性图是从块中提取的显着性图的融合。在融合步骤中,SESS考虑置信度得分每个补丁,这有助于减少噪音和干扰的影响,同时增加SESSSESS的性能提高抵消了由于使用多个补丁而导致的效率降低定量消融研究表明,使用更多的尺度和更密集的滑动窗口是有益的,但会增加计算成本。为了降低此成本,SESS使用预过滤步骤来过滤掉具有低目标类激活分数的背景区域与显著性提取相比,推理步骤是有效的,因为它只需要一个单一的正向传递,可以利用并行计算和批处理。因此,SESS获得了改进的显着性掩模,在运行时的要求有一个小的增加。消融研究表明,所提出的方法优于其基本的显着性方法时,使用高预滤波比预滤波在一个指向游戏实验中[22],所有使用SESS的方法都取得了显着的改进,尽管99%的预过滤率排除了显着性生成中提取的大多数补丁。我们对SESS进行定量和定性评估,并进行多尺度、预滤波和融合方面的消融研究。所有的实验结果表明,SESS是一个有用的和通用的扩展,现有的显着性方法。概括起来,这项工作的主要贡献如下:– 我们提出,SESS,一个模型和方法不可知的黑箱扩展现有的显着性方法,这是简单而有效的。+v:mala2255获取更多论文4 O. Tursun等人–2相关工作深度显着性方法:近年来开发了许多基于深度神经根据显着图的提取方式,它们可以大致分为三类:基于梯度的[15,17,19],基于类激活的[24,14,23,20]和基于扰动的[5,12,2]方法。基于梯度的方法将相对于输入图像的梯度解释为显著性图。它们是高效的,因为它们只需要单个向前和向后传播操作。然而,从原始梯度生成的显著性图在视觉上是嘈杂的。基于激活的方法聚合选定网络层的目标类激活以生成显著性图。与基于梯度的方法相比,基于激活的方法噪声较少,但也较少区分,并且通常会在附近的背景区域中错误地显示强激活基于扰动的方法通过测量输入被扰动时输出的变化来生成显着图与大多数基于梯度和基于激活的方法相比,基于扰动的方法是缓慢的,因为它们需要多个查询。方法也可以根据它们是否访问模型架构和参数分为黑盒和白盒。 除了一些基于扰动的方法[12,5]之外,显着性方法本质上都是白盒[15,17,19,24,14]。白盒方法通常比黑盒方法计算效率更高,并且需要通过网络进行单次向前和向后传递。然而,黑盒方法是与模型无关的,而白盒方法可能只适用于具有特定架构特性的模型。方法在本质上也可以是一次或多次拍摄单次进近需要一次向前和向后传球。大多数基于梯度和然而,多镜头变体被开发以获得进一步的改进。例如,SmoothGrad[17]通过多次通过输入图像的噪声样本生成更清晰的可视化。积分梯度(IG)[19]通过对多个插值图像的梯度进行平均来解决Augmented Grad-CAM[10]通过从输入的增强变体中提取的多个低分辨率显着图生成高分辨率显着图Smooth Grad-CAM++[11]利用SmoothGrad中提出的相同思想来生成更清晰的显着图。据我们所知,所有的扰动方法本质上都是多次的,因为它们需要对模型进行多次查询,每次查询都有不同的扰动。已经尝试使多次激发方法更有效。大多数这样的方法寻求以有效的方式创建扰动掩模Dabkowski等人。[2]用第二个神经网络生成扰动掩模。Score- CAM[20]使用类别激活图(CAM)作为掩码;和Group-CAM[23]+v:mala2255获取更多论文简要文件标题5遵循类似的想法,但通过合并相邻贴图进一步减少了掩码的数量。所提出的SESS是一种方法和模型无关的显着性扩展。它可以是任何显着性方法的“即然而,像扰动方法一样,它需要多个查询。因此,为了效率起见,单次激发和有效的多次激发方法最适合与SESS一起使用增强深度显着性可视化:已经进行了许多尝试来生成有区别的和低噪声的显着性图。早期的基于递归的方法在视觉上是有噪声的,已经提出了几种方法来解决这个问题。Guided-BP[18]在反向传播过程中通过使用一个BNUU作为激活单元来忽略零梯度。SmoothGrad[18]采用平均梯度噪声样本[17]以生成更清晰的结果。第一种基于激活的方法CAM是模型敏感的。它要求模型在分类层之前立即在卷积特征映射通道上应用全局平均池化[12]。 后来的变体(如Grad-CAM)通过使用平均通道梯度作为权重来放松此限制。然而,Grad-CAM[14]也不太具有区分力,并且无法定位多次出现的目标对象。Grad-CAM++ [1]使用特征映射的正偏导数作为权重。SmoothGrad-CAM++[11]结合了Grad-CAM++和SmoothGrad的技术,以生成更清晰的可视化。扰动方法是低效的,因为它们向模型发送多个查询。例如,RISE[12]向模型发送8000个查询,以评估由8000个随机选择的掩码覆盖的区域的重要性最近的作品减少了掩模的数量,通过使用CAM中的通道作为掩模。例如,Score-CAM使用CAM中的所有通道,而Group-CAM通过对CAM的通道进行分组来进一步最小化所有上述方法都成功地改善了与显著性方法相关的某些问题,但具有有限的可移植性和通用性。相比之下,SESS是一个与模型和方法无关的扩展,它可以应用于任何现有的显着性方法(尽管我们注意到单通道或有效的多通道方法是最合适的)。此外,SESS是强大的规模变化,噪声,多次出现和干扰。SESS可以生成清晰和集中的显着性图,并显着提高图像识别和检测任务的显着性方法的性能3显着性增强与缩放和滑动(SESS)在本节中,我们将介绍SESS。系统图如图2所示,算法1中描述了主要步骤。SESS算法实现简单,包括六个步骤:多尺度、滑动窗口、预滤波、显著性提取、显著性融合和平滑。前四步应用于输入空间,后两步应用于输出空间。SESS+v:mala2255获取更多论文通过缩放和滑动的提取的图像块过滤器膜片计 算目 标 C分类scor提取显著性选定面片输出将面片显著性放回平滑CNNsess文件sess最大化esFC0.50.1...0.20.30.50.60.30.40.50.10.16 O. Tursun等人选定的补丁和相应的分类分数图2:SESS过程:SESS包括六个主要步骤:多尺度,滑动窗口,预滤波,显著性提取,显著性融合和平滑。因此,它是一个黑盒扩展,也是一种与模型和方法无关的方法。本节将详细讨论这些步骤中的每一个。算法1SESS输入:图像I、模型f、目标类c、比例n、窗口大小(w,h)、预滤波比r输出:显著性图Lc1:M,P←[]2:对于i ∈ [1,. . . ,n] dod缩放3:M.append(resize(I,224 + 64×(i−1)4:结束5:对于m∈ M,做d提取面片6:P.append(sliding-window(m,w,h))8:B←batchify(P)9:Sc←f(B,c)dSc作为类别cc文件 、P文件。 ←预过滤(S c,P,r) d过滤出其类c激活的补丁分数低于最高(100 −r)%图11:A←显著性提取(P文件。,f,c)d得到预滤波后的块的显著性图12:L←校准(P文件,A)d L是形状为n × w × h的张量13:L′←LScd应用通道加权csess=加权平均值(L′)d应用二进制权重以获得非零值15:返回LcCNN10:S14:L+v:mala2255获取更多论文{−|联 系我们i=1×−填充简要文件标题7多尺度:生成输入图像I的多个尺度版本是SESS的第一步。在这项研究中,尺度的数量,n,范围从1到12。 所有尺度的大小的集合等于224+64(i 1)i 1,2,. . .,n.最小的大小等于预训练模型的默认大小,最大的尺寸大约是最小尺寸的四倍。I的小边被调整到给定的比例,同时尊重原始的纵横比。M表示不同尺度下所有I的集合多尺度的好处包括:– 大多数显著性提取方法是尺度变化的。因此,在不同尺度下生成的显着性图是不一致的。通过使用多个尺度并结合这些尺度的显著性结果,可以实现尺度不变性– 缩放后,小对象将在显着图中清晰可见滑动窗口:为了提高效率,滑动窗口步骤发生在多尺度之后,这调用了n次操作。将滑动窗口应用于M中的每个图像以提取补丁。滑动窗口的宽度w和高度h因此,补丁大小等于PyTorch1中预训练模型的默认输入大小。滑动操作从给定图像的左上角开始,从上到下,从左到右滑动默认情况下,为了提高效率,滑动窗口的步长设置为224,换句话说,相邻窗口之间没有重叠然而,允许图像边界处的块与其相邻块重叠,以确保整个图像是采样的。生成的修补程序的最小数量为100n [0。25 i +0。75|二、当I具有相等的宽度和高度并且n= 1时,只有一个大小为224 224的将被提取,SESS将返回与其基本显着性可视化方法相同的结果。因此,SESS可以被看作是现有的显着性提取方法的概括。预过滤:为了提高SESS的效率,引入了预过滤步骤。为每个提取的补丁生成显着图是计算上昂贵的。通常,仅提取包含属于目标类的对象的少数块,并且它们具有相对大的目标类激活分数。计算目标类激活分数只需要一个for-ward传递,并且可以通过利用批处理操作来加速。在基于激活分数对补丁进行排序之后,仅选择具有在补丁的前(100r)%中的分数的补丁来生成显著性图。这里,我们将r表示为预滤波器比率。当r= 0时,不应用预滤波器。如图3所示,当r增加时,仅保留覆盖目标对象的区域,并且补丁的数量大大减少。例如,在应用r= 99的预滤波器之后,来自303个块的初始集合的仅四个块被保留,并且这些块专门聚焦在目标对象上。当然,大的预滤波器比率,即,r>50将降低所生成的显著性的质量地图如图所示3. 注意我们用符号S c代表C类过滤后剩余贴片的激活分数显著性提取:使用基础显著性提取方法提取预滤波后保留的块的显著性图。任何显著性1https://pytorch.org+v:mala2255获取更多论文填充填充Σi=1、(二)σ(L′(n,i,j))8 O. Tursun等人ID282虎猫r=0,#patches=303 r=50,#patches=152r=90,#patches=31r=99,#patches=4243斗牛獒图3:当计算目标类别“老虎猫”(顶行)和“公牛猫”(底行)的显著性图时,预过滤后区域和显著性图的可视化。所有与红色区域重叠的补丁在预过滤后被移除。提取方法适宜;然而,实时显著性提取方法包括Grad-CAM、Guided-BP和Group-CAM被推荐用于效率。每个提取的显着性图用Min-Max归一化进行归一化。显著性融合:由于每个块是从不同的位置或I的缩放版本中提取的,因此在融合之前应用校准步骤。每个显著性图被覆盖在零掩模图像上,该零掩模图像具有与从中提取它的缩放I相同的尺寸。然后,所有的面具大小调整为相同的大小,因为我。这里,符号L表示所有掩码的逐通道级联L具有n个大小为w × h的通道。在融合之前,应用信道加权SC,The将滤波后的补丁的激活分数用作权重。加权然后使用以下公式获得L′L′=LSc .(一)最后,在每个空间位置处应用排除非零值的加权平均值以进行融合。在均匀平均上使用修改的加权平均以忽略在校准步骤期间引入的零显著性值因此,最终显著性图的(i,j)处的显著性值变为,<$n L′(n,i,j)<$σ(L′(n,i,j))ni=1其中,如果x> θ,则σ(x)= 1,否则σ(x)= 0,并且θ= 0。融合后应用最小-最大平滑:视觉伪影通常在融合后保留在补丁之间,如图4所示。应用高斯滤波来消除这些伪影。 本文将核大小设置为11,σ=5。4个实验在本节中,我们首先进行一系列消融研究,以找到最佳超参数,并显示我们方法中步骤的重要性。然后,Lsess(i,j)=+v:mala2255获取更多论文−简要文件标题9(a) 输入(b)平滑前(c)平滑后图4:平滑步骤的效果示例在平滑步骤之后,边缘伪影被去除,并且所生成的显著性在视觉上更令人愉悦。我们定性和定量评估SESS的效率和有效性相比,其他广泛使用的显着性方法。4.1实验装置所有实验都是在三个公开可用的数据集的验证分割上进行的:ImageNet-1 k [13],PASCAL VOC 07 [3]和MSCOCO 2014 [9]。预训练的VGG-16(layer:layer.29)[16]和ResNet-50(layer:layer 4)[6]网络在我们的实验中用作骨干。我们使用Grad-CAM[14], Guided-BP[18]和Group-CAM[23]作为基础显着性提取方法。选择Grad-CAM和Guided-BP作为基于激活和基于梯度的方法的广泛使用的表示。我们选择Group-CAM作为一个代表性的扰动为基础的方法,它的 效 率 。在定性实验中,尺度数和预滤波器比率设置为12和0,并应用平滑。在定量实验中,我们采用更少的尺度和更高的预滤波比,并省略了平滑步骤。4.2消融研究我们对从ImageNet-1 k的验证分割中选择的2000张随机图像进行了消融研究[13]。在消融研究期间使用ImageNet预训练的VGG-16和ResNet-50网络,并使用Grad-CAM作为基础显着性方法。插入和删除分数[12]被用作评估指标。这个度量背后的直觉是,删除/插入具有高显着性的像素将导致目标类的分类得分急剧下降/增加。分类评分曲线下面积(AUC)用作插入/缺失评分的定量指标。较低的删除分数和较高的插入分数指示高质量的显著性图。我们还报告了[23]中的总体评分,其中总体评分定义为AUC(插入)AUC(缺失)。 其实现方式与[23]相同。 3. 在删除测试中,从原始图像中逐渐删除6%的像素,而+v:mala2255获取更多论文10 O. Tursun等人3.6 %的像素在插入测试中从原始图像的高度模糊版本恢复。尺度:为了研究多尺度输入的作用,我们用插入和删除测试测试了不同数量的尺度。如图5所示,对于VGG-16和ResNet-50,当尺度数量增加时,插入分数增加,删除分数减少。一旦使用五个尺度,改进就开始稳定总的来说,即使使用ImageNet数据集中的图像,这种改进也是明显的,其中主要对象通常覆盖了图像的大部分,缩放的作用不太明显。预过滤比率:为了找到一个高的预过滤比率,在保持高性能的同时提高效率,我们测试了10个不同的全局过滤器,从0到0.9。插入分数随着预过滤比率的增加而降低,而删除分数仅略微波动,直到预过滤比率达到0.6,之后它们急剧增加。这表明预过滤器比率可以设置为0.5,以实现高质量和高效率。然而,我们在定量实验中使用了大于0.9的预过滤比逐通道权重:在SESS的融合步骤中,应用逐通道权重。图9定性地显示了通道权重的作用利用通道权重,提取的显著性图更具区分性,更好地突出相关图像区域。在没有通道权重的情况下,背景区域更有可能被检测为显著的。(a) 插入曲线(b)删除曲线(c)总体曲线图5:考虑删除比例因子的消融研究(较低AUC更好),插入(更高的AUC更好),以及ImageNet-1 k验证分割(随机选择的2k图像集)的总体得分(更高的AUC更好)。4.3图像识别评估在这里,我们还使用插入和删除度量来评估所提出的SESS的性能我们使用三种基本显着性提取方法(Grad-CAM,Guided-BP和Group-CAM)和两种骨干(VGG- 16和ResNet-50)对ImageNet-1 k中的5000张随机选择的图像进行了SESS+v:mala2255获取更多论文简要文件标题11(a) 插入曲线(b)删除曲线(c)总体曲线图6:消融研究,考虑了ImageNet-1 k验证分割(随机选择的2k图像集)上的删除(越低越好)、插入(越高越好)和总体(越高越好)评分方面的预过滤操作ID270白狼243斗牛獒输入SESS(w/oweights)+GBPSESS(含重量)+GBPSESS(无砝码)+GradCAMSESS(w/weights)+GradCAM图7:通道权重的影响:通道权重的使用抑制了背景区域中的激活,并导致更集中的显着性图。验证分割。考虑到效率,尺度数和预滤波器比率被设置为10和0.9。使用SESS,具有两种不同骨干的所有三种方法都实现了改善,特别是Guided-BP,其总体评分增加了近5%。4.4定性结果本节定性地说明了SESS相对于基本可视化方法(如Grad-CAM [14]和Guided- BP [18])带来的视觉改善程度。作为基线,我们选择了五种可视化方法:Guided-BP,SmoothGrad[17], RISE[12], Score-CAM[20]和Grad-CAM。ResNet-50被选为所有方法的主干我们选择了具有挑战性的情况下进行查询,包括多次出现的目标类的实例,存在干扰物,小目标和弯曲的形状。+v:mala2255获取更多论文12 O. Tursun等人方法模型/层SESS插入(↑)删除(↓)总体(↑)Grad-CAM[14]ResNet-5068.112.156.0C68.611.357.3VGG-1660.69.151.5C60.38.152.2[18]第十八话ResNet-5047.811.036.8C53.012.041.0VGG-1638.86.832.0C44.36.937.4[23]第二十三话ResNet-5068.212.156.2C68.811.357.4VGG-1661.18.852.3C61.18.153.1表一:从ImageNet-1 k验证分割中随机选择的5000张图像的删除(越低越好)、插入(越高越好)和整体(越高越好)分数进行比较。如图8所示,SESS的可视化结果更具辨别力,并且包含更少的噪声。SESS减少了噪音,抑制了显着性图中的干扰物,同时使Grad-CAM图对小尺度和多次出现更具鉴别力和鲁棒性。4.5运行时间我们计算了Grad-CAM、Guided-BP和Group-CAM在有/没有SESS的情况下对ImageNet-1 k验证分割中随机选择的5000张图像的平均运行时间。由于SESS 为了比较,我们还计算了RISE [12]、Score-CAM [20]和XRAI[8]的平均运行时间。这些实验使用NVIDIA T4 Tensor Core GPU和四个Intel Xeon 6140 CPU进行。结果在表2中给出。使用SESS,平均计算时间增加,但通过使用更高的预滤波器比率和更少的尺度数,与基于扰动的方法相比例如,在最坏的情况下,SESS需要16.66秒,这仍然是RISE和XRAI的两倍多4.6本地化评估在本节中,我们使用[ 22]中介绍的指向游戏来评估SESS。这使我们能够评估生成的显着性图在弱监督对象定位任务上的性能。使用Acc=#Hits/(#Hits+ #Misses)计算每个类别的定位准确度。#点击量增加+v:mala2255获取更多论文简要文件标题13ID输入图像引导-BPSmoothGradRISEScore-CAMGrad-CAMGrad-CAM+SESS引导BP +SESS21风筝232边境牧羊犬339sorrel1金鱼270白狼56王蛇图8:与SOTA显着性方法的定性比较。目标类ID和输入图像显示在前两列中。后面的列显示了(从左到右)Guided-BP、SmoothGrad、RISE、Score- CAM、Grad-CAM、Grad-CAM with SESS和Guided-BP withSESS的显著性图。方法无SESS关于SESS预过滤器=0%比例=6/12预过滤器=50%比例=6/12预过滤器=99%比例=6/12Grad-CAM[14]0.031.23/3.960.84/2.360.42/0.70[18]第十八话0.041.29/4.090.86/2.370.41/0.73[23]第二十三话0.134.42/16.662.54/8.540.51/0.92[第12话]38.25---[20]第二十话2.47---X射线照相[8]42.17---表2:从ImageNet-1 K验证分割中随机选择的5000个图像如果最高显著点在目标类的地面实况边界框内,则递增1,否则#Misses递增。通过计算不同类别的平均准确度来衡量整体性能更高的准确度表示更好的定位性能。我们在PASCAL VOC07的测试拆分上进行了指点游戏,MSCOCO2014的验证部分。VGG16和ResNet50网络被用作骨干,并使用[22] 提 供的预训练权重进行初始化。+v:mala2255获取更多论文14O. Tursun等人为了实现,我们采用了TorchRay2库。选择Grad-CAM、Guided-BP和Group-CAM作为基本显著性方法。为了效率和公平比较,我们将预过滤比率设置为99%,尺度数设置为10。根据[22],报告了“所有”和“困难”集的结果。“困难”集包括具有小物体(覆盖不到图像的1/4 )和干扰物的图像。结果示于表3中。使用SESS,所有三种方法都取得了显著的改进,特别是在“困难”集。所有病例的平均改善为11。2%,疑难病例平均改善19. 8%。使用SESS的Grad-CAM实现了SOTA结果。结果进一步表明,多尺度和滑动窗口步骤的SESS是有益的尺度方差和干扰项存在时。方法SESS VOC 07测试(所有/差异)可可谷(全部/差异)VGG16ResNet50VGG16ResNet50Grad-CAM[14]86.6/74.090.4/82.354.2/49.057.3/52.3C90.4/80.893.0/86.162.0/57.867.0/63.2[18]第十八话75.9/53.077.2/59.439.1/31.442.1/35.3C79.4/64.286.0/75.739.5/34.544.0/39.4[23]第二十三话80.2/64.984.2/71.047.4/41.148.6/42.4C89.5/79.892.4/85.361.2/56.966.2/62.3[第12话]86.9/75.186.4/78.850.8/45.354.7/50.0[22]第二十二话77.1/56.684.5/70.839.8/32.849.6/43.9欧洲议会[4]88.0/76.188.9/78.751.5/45.956.5/51.5表3:对指向游戏的比较评估[22]。5结论在这项工作中,我们提出了SESS,一种新的模型和方法不可知扩展显着性可视化方法。定性结果表明,与SESS,生成的显着性图是更令人愉快的视觉和歧视。改进的目标识别和检测任务的定量实验结果表明,SESS是有益的弱监督目标检测和识别任务。引用1. Chattopadhay,A.,Sarkar,A.,Howlader,P.,Balasubramanian,V.N.:Grad- cam++:深度卷积网络的广义梯度视觉解释。2018年IEEE计算机视觉应用冬季会议(WACV)pp. 839-847. IEEE(2018)2https://facebookresearch.github.io/TorchRay+v:mala2255获取更多论文简要文件标题152. Dabkowski,P.,Gal,Y.:黑盒分类器的实时图像显著性。神经信息处理系统的进展30(2017)3. Everingham,M.,凡古尔湖,威廉姆斯,C.K.,Winn,J.,Zisserman,A. : pascal visual object classes ( pascal visual object classes ) InternationalJournal of Computer Vision88(2),3034. 方河,Patrick,M.,Vedaldi,A.:通过极值扰动和平滑掩码理解深度网络。在:IEEE/CVF计算机视觉国际会议论文集。pp. 29505. Fong,R.C.,Vedaldi,A.:用有意义的扰动对黑盒的可解释性解释。在:IEEE计算机视觉国际会议论文集。pp. 34296. 他,K.,张,X.,Ren,S.,Sun,J.:深度残差学习用于图像识别。在:IEEE计算机视觉和模式识别会议论文集。pp. 7707. Jo,S.,Yu,I.J.:Puzzle-cam:通过匹配部分和完整特征改进定位。2021IEEE International Conference on Image Processing(ICIP)pp. 639-643. IEEE(2021)8. Kapish ni kov,A.,Bolukbasi,T., V i'egas,F., Terr y,M.:Xrai:通过区域更好的属性。IEEE/CVF计算机视觉国际会议论文集。pp. 49489. Lin,T.Y.,Maire,M.,Belongie,S., 嗨,杰,P.,Ramanan,D., 多尔拉尔山口,Zitnick,C.L.:Microsoft Coco:上下文中的通用对象。在:欧洲计算机视觉会议pp. 740-755. Springer(2014)10. Morbidelli,P.,Carrera,D.,Rossi,B.,Fragneto,P.,Boracchi,G.:增强型梯度摄像头:通过增强功能实现超分辨率热图。ICASSP 2020- 2020IEEE声学,语音和信号处理国际会议(ICASSP)。pp. 4067-4071. IEEE(2020)11. Omeiza,D.,Speakman,S.,辛塔斯角,Weldermariam,K.:Smooth grad-cam++:用于深度卷积神经网络模型的增强推理级可视化技术。arXiv预印本arXiv:1908.01224(2019)12. Petsiuk,V.,Das,A.,Saenko,K.:Rise:用于解释黑盒模型的随机输入抽样。arXiv预印本arXiv:1806.07421(2018)13. Russakovsky,O.,邓,J.,苏,H.,Krause,J.,Satheesh,S.,妈,S.,黄志,Karpathy,A.,Khosla,A.,伯恩斯坦,M.,等:Imagenet大规模视觉识别挑战。International Journal of Computer Vision115(3),21114. Selvaraju,R.R.,Cogswell,M.,Das,A.,韦丹塔姆河,Parikh,D.,巴特拉,D.:Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。在:IEEE计算机视觉国际会议pp. 61815. Simonyan,K.,Vedaldi,A.,Zisserman,A.:深入卷积网络:可视化图像分类模型和显着图。ArXiv预印本arXiv:1312.6034(2013)16. Simonyan,K.,Zisserman,A.:用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv:1409.1556(2014)17. Smil kov,D.,Thorat,N.,Kim,B., V i'egas,F., Watten nberg,M.: 平滑渐变:通过增加噪声来消除噪声. arXiv预印本arXiv:1706.03825(2017)18. Springenberg,J.,Dosovitskiy,A.,Brox,T.,Riedmiller,M.:追求简单:全卷积网络。In:ICLR(workshop track)(2015)19. Sundararajan,M.,Taly,A.,Yan,Q.:深度网络的公理化属性。上一篇:机器学习国际会议pp. 3319-3328. PMLR(2017)+v:mala2255获取更多论文16 O. Tursun等人20. 王,H.,王志,杜,M.,杨,F.,张志,丁,S.,Mardalle,P.,胡主席,X.:Score-cam:卷积神经网络的分数加权视觉解释。在:IEEE/CVF计算机视觉和模式识别研讨会会议记录。pp. 2421. 王玉,张杰,Kan,M.,Shan,S.,Chen,X.:弱监督语义分割的自监督同变注意机制。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1227522. 张杰,Bargal,S.A.,林芝,Brandt,J.,Shen,X.,Scaroff,S.:自上而下的神经注意力通过激励反向传播。国际计算机视觉杂志126(10),108423. 张,Q,拉奥湖,Yang,Y.:Group-cam:用于深度卷积网络的组分数加权视觉算法。arXiv预印本arXiv:2103.13859(2021)24. Zhou,B.,(1991年),中国地质大学,Khosla,A.,Lapedriza,A.,Oliva,A.,Torralba,A.:学习深度特征进行区分定位。在:IEEE计算机视觉和模式识别会议论文集。pp. 29216补充材料6.1更多定性结果本节提供了与步长和加权平均值有关的定性结果。加权平均在融合步骤中,应用加权平均以忽略由校准步骤引入的零显著性值。如图9所示,在没有加权平均的情况下,目标对象的某些部分将被欠激活。例如,在蛇和猫的故事附近,激活区域下的显著性值随着加权平均值而增加步长在SESS的默认实现中,为了提高效率,步长设置为224。然而,较小的步长对于生成准确的显著性图是有益的。如图10所示,步长越小,目标物体的边界越准确。6.2应用SESS还可用于分析DNN模型和显着性可视化方法。这可以通过在L '中可视化所有提取的显著性图来完成,如图11所示。该可视化显示:与VGG-16[16]相比,ResNet 50[6]对尺度和遮挡更稳健,与Grad-CAM相比,ScoreCAM+v:mala2255获取更多论文简要文件标题17ID输入W/O加权平均W/加权平均404客机282虎猫56王蛇图9:加权平均值的影响:加权平均值增加了欠激活区域的显着值。ID1金鱼56王蛇404航空公司输入步长= 56步长= 112步长= 224图10:步长的影响:较大的步长减少了物体边界附近的过度激活区域。+v:mala2255获取更多论文18 O. Tursun等人(a) ResNet50 + Grad-CAM(b) VGG-16 + Grad-CAM(c) VGG-16 + Score-CAM图11:使用SESS分析DNN模型和显着性可视化方法在这个例子中,SESS的尺度数被设置为5。红色边界框表示从中提取显著性的区域。目标类ID为243(Bull Mastiff)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功