注意力分离：改进分类准确率的新方法

160 浏览量更新于2023-10-12 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

512注意力分离锐化焦点：注意力分离和一致性的学习Lezi Wang1，Ziyan Wu2，Srikrishna Karanam2，Kuan-ChuanPeng2，Rajat Vikram Singh2，Bo Liu1，and Dimitris N.Metaxas11Rutgers University，新不伦瑞克NJ2Siemens Corporate Technology，Princeton NJ{lw462，lb507，dnm} @ cs.rutgers.edu，{ziyan.wu，srikrishna.karanam，kuanchuan.peng，singh.rajat} @siemens.com摘要基于梯度的注意力建模的最新发展已经看到注意力地图成为解释卷积神经网络的强大工具。尽管对于感兴趣的单个类别具有良好的定位，但是这些技术产生在不同类别之间具有基本上重叠的响应的注意力图，导致视觉混乱的问题和对辨别注意力的需要。在本文中，我们解决这个问题的一个新的框架，使类歧视性的注意学习过程中的原则性的一部分。我们的主要创新包括新的学习目标，1.00.80.60.40.20.01.00.80.60.40.20.0跑步机篮球三脚架改进的分类跑步机篮球三脚架可分离性和跨层一致性，这导致改善注意力辨别能力并减少视觉混乱。在图像分类基准上进行的大量实验表明，我们的方法在提高分类准确率方面是有效的，包括CIFAR-100（+3.33%），Caltech-256（+1.64%），ILSVRC 2012（+0.92%），CUB-200-2011 （ +4.8% ）和 PASCALVOC2012（+5.73%）。1. 介绍视觉识别在过去几年中取得了巨大的进步，这得益于卷积神经网络（CNN）的最新进展[13，17]。理解他们的预测可以帮助解释模型，并为设计改进的算法提供线索。最近，特定类别的注意力已经成为解释CNN的强大工具[5，31，45]。驱动这些技术的大画面直觉是回答以下问题-目标物体在图像中的位置？最近的一些扩展[20]使注意力端到端可训练，产生具有更好局部化能力的注意力地图。虽然这些方法考虑了定位问题，但这对于图像分类是不够的，因为模型需要能够区分各种对象类别。具体地，现有方法产生对应于感兴趣的单个类别的注意力图，图1.基线CNN关注类似的区域，即。中心区域，当涉及到相关像素的类“跑步机”，“篮球框”和“三脚架”。具有我们提出的框架的CNN能够区分这三个类，并且有很高的信心将输入分类为在不同的类别之间可能没有区别。如图1所示，我们的直觉是，这种可分离的注意力映射可以提高分类性能。此外，我们认为错误的分类源于混淆模型的跨类模式，消除这些混淆可以导致更好的模型区分能力。为了说明这一点，考虑图2（a），其中我们使用VGG-19模型[33]对ILSVRC 2012 [30]数据集进行分类，我们收集失败案例并通过Grad-CAM [31]生成注意力图，我们显示了前5个预测。图2（a）描绘了，虽然最后一个特征层的注意力图被合理地很好地定位，但是在地面实况类的注意力（由红色边界框标记）和误报之间存在大的重叠区域，这证明了问题以及对区分性注意力的需要。为了克服上述注意力地图的局限性，我们需要解决两个关键问题：（a）我们能否减少视觉混乱，即，制作班级专用注意力地图训练阶段图像标签：篮球架三脚架篮球架跑步机测试阶段图像标签：篮球架概率概率跑步机篮球架三脚架513（一）（b）第（1）款输入图像Top-1 Top-2 Top-3 Top-4 Top-5• 我们提出了通道加权注意力Ach，它具有更好的定位性，并避免了高阶导数计算，相比现有的注意力驱动学习的方法。• 我们提出注意力分离损失洛杉矶，第一个学习目标是执行模型，产生类别区分注意力地图，从而提高注意力的可分离性。• 我们提出了注意一致性损失LAC，第一个学习目标，以加强不同层之间的注意一致性，从而改善本地化。tion with “inner-layer” attention图2.Grad-CAM [31] VGG-19 [33]前5名预测的注意力地图带有红色边界框的预测对应于地面实况类。(a)来自最后一层（Conv5）的地面实况类注意力地图与假阳性（前1个预测）有很大的重叠。(b)内层注意力图（Conv4）比最后一层注意力图更容易分离。在不同的阶级之间是可分离的和有区别的吗？得双曲正弦值.(b) 我们能否以端到端的方式将注意力区分纳入学习过程？我们以原则性的方式回答这些问题，提出第一个框架，使注意力地图类歧视。此外，我们提出了一种新的注意力机制来引导模型训练实现注意力的可区分性，该机制通过明确强制各类注意力图可分离来提供端到端的监督信号注意力可分离性和定位性是我们提出的图像分类学习框架的关键方面。来自最后一层的不可分离的注意力地图，如图2（a）所示，促使我们“进一步深入这张图显示了这些内层注意力地图比最后一层的注意力地图更容易分离然而，内层注意力地图并不像最后一层那样定位良好。所以，我们要问的另一个问题是--我们能同时得到内层注意力的可分性和最后一层注意力的局部化吗？解决这个问题将产生一个“两全其美”的注意力地图，它是可分离的和局部的，这是我们的目标。为此，我们的框架还包括一个明确的机制，强制地面实况类的注意力是跨层一致的。我们对五个竞争性基准进行了广泛的实验（CIFAR-100 [19]， [12]第十二话ILSVRC 2012 [30]， CUB-200-2011 [36]和PASCALVOC 2012 [10] ），显示性能分别提高了 3.33% 、1.64%、0.92%、4.8%和5.73%。总之，我们做出以下贡献：• 我们提出了传统学习过程中的跨层注意一致性。ICASC是灵活的，可与现有的注意机制，即使用。Grad-CAM[31]和Ach，为训练CNN提供了具有区别性和一致性注意力的学习目标，这导致改进的分类性能。2. 相关工作可视化CNN。最近的很多努力都花在了CNN内部表示的可视化上，以更好地解释模型。Erhan等人[9]合成图像以最大限度地激活网络单元。Mahendran等人[24]和Dosovitskiyet al.[8]分析了视觉编码以反转潜在表示，通过使用上卷积神经网络的特征反转来执行图像重建。在[32，34，41]中，预测的梯度是用w.r.t.特定的CNN单元以高亮重要像素为单位。这些方法在[25，31]中进行了比较。可视化是细粒度的，但不是特定于类的，其中不同类的可视化几乎相同[31]。我们的框架受到最近的作品的启发[5，31，45]解决类特定的注意力。CAM [45]通过用卷积和全局平均池化替换全连接层，生成了突出任务相关区域的类激活图。Grad-CAM [31]解决了CAM的可扩展性，其中在不改变模型架构和重新训练参数的情况下，通过最终预测w.r.t.特征图中的像素。然而，我们观察到，在Grad-CAM [31]中直接平均梯度Grad-CAM++ [5]提出引入高阶导数来捕获像素重要性，而其在计算二阶导数时的高计算成本Conv5Conv5Conv4Conv4514图4.Grad-CAM [31]注意“tench”类的不同VGG-19 [33]特征层在这两行中，目标都是鱼，而模型的注意力则在各层之间转移。图 3. 提出了基于注意力分离和一致性的改进分类算法（ICASC）.并且三阶导数使得在训练期间使用它不切实际。注意力引导的网络训练。最近的几种方法[14，17，38，40]试图结合注意力机制来提高CNN在图像分类中的性能Wang等人[38]提出了剩余注意力网络，通过将沙漏网络[26]添加到跳过连接来修改ResNet [13Hu等人[14]介绍了一个挤压和激励（SE）模块，该模块使用全局平均池特征来计算通道注意力。CBAM [27，40]修改了SE模块，以利用空间和通道方面的注意力。Jetley等人[17]通过考虑CNN中各层的特征图来估计关注度，为每个图生成一个2D得分矩阵。然后将输出分数的集合用于类别预测。虽然这些方法将注意力用于下游分类，但它们没有明确地将类特定注意力用作图像分类的模型训练的一部分据我们所知，我们的工作是第一个使用类特定的注意力来产生监督信号，用于具有注意力分离性和跨层一致性的端到端模型训练。此外，与其他方法不同，我们提出的方法可以被视为现有图像分类架构的附加模块，而无需任何架构更改[14，17，38，40]。虽然类特定注意力在过去已经用于弱监督对象定位和语义分割任务[6，20，39，43]，但我们对注意力进行了不同的建模。这些方法的目标是单一的-使注意力很好地定位地面实况类，而我们的目标是双重的-良好的注意力定位性以及可辨别性。为此，我们设计了新的目标函数来指导模型训练对不同类别的区分性注意，从而提高分类性能，如我们在实验部分所示。3. 方法在图3中，我们提出了其主要思想是在不同的类别中产生可分离的注意力，为学习过程提供监督信号动机来自于我们从图2中观察到的结果，即通过现有方法（如Grad-CAM [31]）计算的最后一层注意力地图不是可分类的，尽管它们被合理地很好地定位。为了解决这个问题，我们提出了注意力分离损失LAS，一个新的注意力驱动的学习目标，以加强注意力的可辨别性。此外，我们从图2中观察到，较高分辨率下的内层注意力有可能是可分离的，这表明我们同时考虑中间层和最后一层注意力以实现可分离性和局部化性。为此，我们提出了注意一致性损失LAC，一个新的跨层注意一致性学习目标，以加强内部和最后一层注意力地图之间的一致性。这两个学习目标都要求我们从内层获得合理的注意力图。然而，Grad-CAM [31]未能直观地产生令人满意的内层注意力地图。为了说明这一点，我们在图4中描述了两个Grad-CAM [31]示例，其中我们看到需要更好的内部层注意。为此，我们提出了一种新的通道加权注意力机制Ach，以生成改进的注意力地图（在第2节中解释）。第3.1节）。然后，我们将讨论如何使用它们来产生监督信号，以加强注意力的可分离性和跨层一致性。3.1. 加权注意力Ach在给定类别标签的情况下，计算基于梯度的注意力图的常用技术包括CAM [45]、Grad- CAM [31]和Grad-CAM ++ [5]。我们不使用CAM，因为（a）它不灵活，需要修改网络架构和重新训练模型，（b）它只适用于最后一个功能层。[45]与[46]相比，[47]与[48]相比，“椅子”“人”掩模“人”“椅子”阈值注意力分离损失损失注意力一致性损失损失注意力分离损失损失分类损失率…………类标签“分离一致性分离515KIJIJIJZFIJKK-ω AT-σCAM++ [5]都是灵活的，因为它们只需要计算类预测分数的梯度w.r.t. 特征映射以测量像素重要性。具体而言，给定类c的类得分Yc和第k个通道中的特征图Fk，通过计算偏导数（λYc）/（λFk）。P注意力地图生成为A=ReLU（kαcFk），其中αcK这表明，重要的是，图5.不同VGG的注意力图的比较-19 [33]层。我们的注意力转移比Grad-CAM少[31]。F的比例权重αc在第k个频道。在Grad-CAM [31]中，是像素重要性的全局平均值，在标记区域，我们注意到目标对象，即。小鸟（2007年）kc）/（kF）k）：αc=1X X<$Yck<$ki jij（一）而Grad-CAM [31]倾向于突出背景像素。我们的注意力不需要像Grad-CAM++[5]中那样计算高阶导数，同时还可以得到其中Z是Fk中的像素数。Grad-CAM++ [5]进一步引入高阶导数来计算αc，以便对像素重要性进行建模。尽管Grad-CAM [31]和Grad-CAM++ [5]比CAM [45]更灵活，但它们有几个缺点，这些缺点阻碍了它们的使用，因为我们的目的是为图像分类提供可分离和一致的注意力指导。首先，Grad-CAM [31]中不同特征层的注意力图之间存在较大的注意力转移我们提出的框架ICASC的一个关键方面是利用分离性，我们观察到在内层的注意，除了良好的本地化从最后一层的注意。虽然我们观察到Grad-CAM++的注意力转移相对较少[5]，但高计算量与Grad-CAM [31]不同，在定位良好的注意力地图中，注意力转移相对较少，如图5所示。3.2. 注意力分离损失我们使用注意分离的概念作为我们的学习过程的一个原则部分，并提出了一个新的学习目标LAS。从本质上讲，考虑到地面实况类AT和最令人困惑的类AConf的注意力地图，其中，AConf来自非地面实况类，最高的分类概率，我们强制两个注意力是可分离的。我们在训练过程中通过量化AT和AConf之间的重叠区域并将其最小化来反映这一点。为此，我们提出LAS，其定义为：P（min（AT，AConf）·Mask）计算高阶导数的成本排除了L=2·ijijij ijPIJ 、（3）AS（AT+AConf）它在ICASC中的使用，因为我们使用来自多个层来指导每次迭代中的模型训练。为了解决这些问题，我们提出了通道加权注意力Ach，突出显示梯度为正的像素。在我们的探索性实验中，我们观察到如上所述的Grad-CAM [31]的跨层不一致性是由于背景像素的负梯度在Grad-CAM [31]中，梯度图的所有像素对通道权重的贡献相等（等式2）。①的人。因此，在背景梯度占主导地位的情况下，模型往往只关注目标对象的小区域，忽略对类别区分重要的区域。我们受到先前工作的激励[5，34，41]，该工作观察到正梯度w.r.t.特征图Fk中的每个像素与某个类别的重要性强相关。在特定位置处的正梯度意味着增加Fk中的像素强度将对预测得分Yc具有积极影响。为此，通过正梯度，我们提出了一种新的通道加权注意力机制Ach：ij ij ij ij其中·运算符指示标量积，并且AT和AConf分别表示注意力图A T和A Conf中的第（i，j）个像素。所提出的LAS是可微的，可用于模型训练。此外，为了减少来自背景像素的噪声，我们应用掩模来聚焦于目标对象区域内的像素以用于LAS计算。由方程式3，Mask表示通过对来自最后一层的注意力图AT进行阈值化而生成的目标对象区域1掩码ij=，（4）1+exp（（））其中我们根据经验选择σ和ω的值为0。55⇥max（AT）和100。洛杉矶的直觉如图6所示。如果该模型关注不同类别的相同或重叠区域，这导致视觉混乱。我们通过显式减少Ach=1 ReLU（ZX xXReLU（YcFk（2）目标和最令人困惑的类的注意力地图具体来说，我们最小化LAs，它是可微的，值范围从0到1。吉吉吉516作为作为作为作为作为3.4. 总体框架我们将注意力可分离性和跨层一致性的约束联合应用为监督信号，以指导端到端的模型训练，如图3所示。首先，我们计算损失L的内层注意力，目的是加强内层注意力分离性。例如，对于ResNet，我们使用倒数第二个块中的最后一个卷积层。我们凭经验用它来计算L，考虑到低-图6.顶行比底行显示出更高的视觉混淆。顶行中的两个注意力地图在鸟的头部具有高响应建议的LAS可以被认为是一个附加模块，用于在不改变网络体系结构的情况下训练模型。除了对最后一个特征层应用LAS之外，我们还可以计算任何其他层的LAS，这使得我们可以在各种尺度上分析模型注意力。虽然拟议的法律援助制度有助于加强注意力分离，层次模式和语义信息由内层注意力处理。在图5中，该内层注意力具有最后一层的两倍分辨率，突出显示更细粒度的模式，同时仍然保留语义信息，从而定位目标对象。我们还将LAs约束应用于最后一层的注意力图，得到Lla。其次，我们在这两层的注意力图之间应用跨层一致性约束LAC最后，对于分类损失LC，我们分别使用交叉熵和多标签软边缘损失进行单标签和多标签图像分类。国际会计师协会的总体培训目标是：能力，它是不够的图像分类，因为内部L=LC+LinLa+LAC（6）层注意力图不像最后一层那样在空间上被很好地定位。我们开始实现注意力地图是本地化和类歧视，为此，我们提出了一个新的跨层注意力一致性目标LAC，强制执行目标注意力地图从内层到最后一层是类似的。3.3. 注意一致性损失在更高层（更接近输出的层）中，模型注意力捕获更多的语义信息，覆盖大部分目标对象[5，31，45]。对于具有卷积核的较小感受野的中间层，模型关注更细粒度的模式，如图4和图5所示。与高层注意力相比，低层注意力包含更多噪声，突出背景像素。为了解决这些问题，我们提出了注意一致性损失LAC来纠正模型注意力，以便突出显示的细粒度注意力主要集中在目标区域：ICASC 可与包括 Grad-CAM [31] 和 Ach. 我们使用ICASCGrad−CAM和ICASCAch来指代我们分别使用Grad-CAM [31]和Ach作为注意力机制的框架。4. 实验我们的实验包括两个部分，（a）评估各种注意机制的类别区分，(b)通过与相应的基线模型（具有相同的结构）进行比较，证明了所提出的ICASC的有效性我们在各种数据集上进行图像分类实验，包括三个部分：CIFAR-100（DCI）[19]、Caltech- 256（DCa）[12]和ILSVRC2012（DI）[30]上的通用图像分类，CUB-200-2011（ DCU ） [36] 上的细粒度图像分类，以及最后，PASCAL VOC 2012（DP）[10]上的多标签图像分类。为简单起见，我们使用LAC =θ-P（Ain·Mask）IJ PijijA在、（五）在上面的数据集名称后插入括号，以引用每个数据集及其相关任务，并总结所有经验。ij ij其中，Ain指示来自内部特征层的注意力图，Maskij（在等式1中定义）4）表示目标区域，并且θ根据经验被设置为0.8如可以指出从等式5、LAC的直观性在于，利用最后一层注意这个指导LAC有助于保持跨层注意力的一致性。表1中使用的心理参数。我们执行所有的实验-使用PyTorch [28]和NVIDIA Titan X GPU。我们使用与相应论文作者提出的基线相同的训练参数进行公平比较。4.1. 评估类别区分度我们首先评估我们提出的注意力机制Ach的类区分度，通过测量本地化和+L517Exp. [13][12][30][35][10]表1.实验（失效）本文中使用的设置。VGG、RN-18、RN-50和RN-101表示VGG-19 [32]，ResNet-18 [13]，ResNet-50和ResNet-101。我们使用与最后一行中的参考相同的参数，除非另有说明，将更多细节放在补充材料中。缩略语：BNA：基础网络体系结构; WD：重量衰减;：动量; LR：初始学习率; BS：批量大小; OPM：优化器;SGD：随机梯度下降[3]; CCA：循环余弦退火[15]。（识别目标对象）和可辨别性（区分不同类别）。我们在PASCAL VOC 2012数据集上进行实验具体来说，使用仅使用类别标签（没有像素级分割注释）训练的VGG-19模型，我们从最后一个特征层生成三种类型的注意力图：Grad-CAM、Grad-CAM++和一个ch。然后将注意力图与DeepLab [7]一起使用，以生成分割图，用于报告定性（图7和8）和定量结果（表2），其中我们以与SEC [18]在[21]中训练相同的方式训练Deeplab1我们在这里评估的重点是针对展示类的可辨别性，而分割只是用作此目的的代理任务。图7显示了A图7.多类注意力地图图8.由DeepLab [7]从注意力地图生成的分割掩码（最佳彩色视图，放大）。从左至右：输入图像，地面实况，Grad-CAM，Grad-CAM++和我们的。注意力机制评分Grad-CAM [31] 56.65[5]第五届中国国际汽车工业展览会Ach（our）57.97表2.Pascal VOC 2012分割验证集的结果作为ch （ ours ）与 Grad-CAM 和Grad-CAM++相比，对“Bird”和“Person”这两个类具有更好的本地化在“鸟”中一个ch。图8定性地展示了使用Ach的更好的类别区分分割图。在图8的顶行中，正如对单个对象所预期的那样，所有方法（包括Ach）都显示出定位绵羊的良好性能。第二行显示Grad-CAM覆盖了更多的草地噪声像素，而Ach产生与Grad-CAM++类似的结果，两者都优于Grad-CAM识别同一类的多个实例。最后，对于最后一行中的多类图像，与Grad- CAM和Grad-CAM ++相比，Ach展示了更好的结果具体来说，Ach能够分辨出1https://github.com/tensorflow/models/tree/master/research/deeplab作为为AS表3. CUB-200-2011上的消融研究（CIB =性能改进;“前 1位”：前1位准确度（%））。摩托车、人和汽车在最后一排分开我们还获得了定量结果，并在表2中报告了Pascal VOC评估服务器的分数，其中Ach优于Grad-CAM和Grad-CAM++。的定性和定量的结果表明，Ach定位于并且比基线更好地分离目标对象，这促使我们在ICASC中使用Ach，我们接下来将对其进行评估。4.2. 用于图像分类的LAS和LAC的4.2.1消融研究表3显示了使用CUB-200-2011数据集的消融研究，鉴于其细粒度性质，该数据集提供了一个具有挑战性的测试集。我们使用最后一个卷积层，任务DCIDCaDIDCUDPBNA RN-18VGGRN-18RN-50RN-18WD 5e−4RN-181e−31e−4RN-1015e−41e−30.9级0.90.90.90.9LR 1e−11e−21e−11e−31e−2BS 128162561016OPM SGDCCASGDSGDCCA#epoch 16020909020方法Top-1∆ResNet-5081.70-+Lin85.15 3.45+ Lin+LAC85.77 4.07+ L的 + Lla +LAC86.20 4.50518作为 +L作为作为作为海豚：0.28狼：0.20豹：0.11山：0.09 蜥蜴：0.07输入图像标签：leopard图9. CUB-200-2011测试集上的KS图表。豹：0.63狼：0.10蜥蜴：0.08乌龟：0.03鳄鱼：0.02图10. CIFAR-100的定性结果。我们显示了ResNet-110给出的前5个预测和分类分数（顶部代表ResNet-50 +L + LAC在表3中。ResNet-50的倒数第二个块，用于在和作为la最后一层的注意力地图。我们可以看到， +la +LAC实现最佳性能。结果显示来自两个不同层的注意力地图是互补的：最后一层注意力具有更多的语义信息，很好地定位目标对象，而具有更高分辨率的内层注意力提供细粒度的细节。虽然内层注意力比最后一层更可能是有噪声的，但是LAC提供约束以引导内层注意力与最后一层的注意力一致并且集中在目标区域内。我们定量地衡量我们提出的学习框架的视觉混乱减少的程度具体-[13]第十三话76.77 92.48-80.01 94.12 - -一种RN-18 + ICASCAch78.01 92.87 1.2481.32 94.571.31VGG-19 [33]74.52 90.05-78.16 92.17 - -一种VGG-19 + ICASCAch 75.60 90.85 1.0879.80 93.251.64表5.加州理工256的结果。“前5名”：前5名准确度（%）。“RN-18”：ResNet-18。“N”：每个类别的训练图像数量。我们遵循[12]，每个类随机选择30或60个训练图像。如图9所示，我们计算Kolmogorov-Smirnov（KS）统计量[1]在CUB-200-2011测试集上，测量地面实况（目标）类和最混乱（混淆）类分布之间的分离程度[23]。我们根据分类概率将非地面真值类按降序排列，并将最易混淆的类确定为排名最高。在图9中，对于基线模型，分类概率为0.51时的最大边际为0.64，而我们提出的模型在分类概率为0.55时的KS边际为0.74这表明，与基线相比，我们的模型能够以更高的置信度识别10%以上4.2.2通用图像分类表4-6（在所有表中，4表示我们的方法相对于基线的性能改进）表明，使用我们提出的监督原则训练的模型优于形成相应的基线模型，并具有显著的优势。表4中的CIFAR-100数据集观察到了最显著的性能改进，这表明，在不改变网络架构的情况下，表6. ILSVRC 2012上的结果使用我们提出的监督的ResNet-110的top-1准确度比基线模型高出3.33%。我们的监督ResNet-110也优于具有随机深度的模型，甚至是具有164层的更深模型。从图10中的定性结果可以看出，ICASCAch为模型配备了区分性注意力，其中地面实况类注意力可与混淆类分离，从而改善了预测。4.2.3细粒度图像识别对于细粒度图像识别，我们在CUB-200-2011数据集上评估了我们的方法[36]，Lrow）和ResNet-110 + ICASC Ach （底行）。方法Top-14ResNet-110 [16]72.78-ResNet-110与随机深度[16]75.42-ResNet-164（预激活）[16]75.63-ResNet-110 + ICASCGrad−CAM74.02 1.24ResNet-110 + ICASCAch76.11 3.33表4.CIFAR-100图像分类结果方法N=30前五名N=60前五名方法Top-1Top-54ResNet-18 [13]69.5188.91-ResNet-18 + ICASCAch69.9089.710.39ResNet-18 + tenCrop72.1290.58-ResNet-18 + tenCrop + ICASCAch73.0490.650.92519方法没有额外的Anno。1级Top-1 ∆方法AUC分数AP（%）4ResNet-50 [35]3381.7-ResNet-18 [13]0.97677.44-ResNet-101 [35]3382.50.8ResNet-18 + ICASCAch0.98183.175.73MG-CNN [37]8883.01.3表8.Pascal VOC 2012。CNN [4]8885.43.7Pascal VOC 2012Top-1加州理工学院-256Top-1RAM [22]3886.04.3ResNet-1877.44ResNet-1880.01MACNN +2部分[44]3385.43.7+ ICASCGrad−CAM82.12+ ICASCGrad−CAM80.28ResNet-50 + MAMC [35]3386.24.5+ICASC83.17+ICASC81.32ResNet-101 + MAMC [35]333386.54.8Cub-200-2011Top-1ILSVRC2012Top-1表7.关于CUB-200-2011的结果。“没有额外的烦恼”意味着在训练中不使用额外的注释（边界框或部分）。ResNet-50 81.70+ ICASCGrad−CAM85.45+ ICASCAch86.20ResNet-18 69.51+ ICASCGrad−CAM69.84+ ICASCAch69.90阶段包含200种鸟类的11788张图像（5994/5794用于训练/测试）。我们在表7中示出了结果。我们观察到，使用我们的学习机制进行训练，基线ResNet-50和ResNet-101的准确率分别提高了4.8%和4.0%。我们的方法实现了最佳的整体性能对国家的最先进的。此外，使用ResNet-50，我们的方法甚至比使用额外注释的方法（PN-CNN）的性能高出0.8%。与表7中的其他方法相比，ICASCAch具有更好的灵活性。现有的方法是具体的-专门为细粒度图像识别而设计，其中，根据细粒度物种的先验知识，修改基本网络架构（BNA）以提取不同对象部分的特征[35，42，44]。相比之下，ICASCAch不需要先验知识，并且在不改变BNA的情况下适用于通用图像分类4.2.4多类图像分类我们在PASCAL VOC 2012数据集上进行多类图像分类，该数据集包含20个类。不同于其中每个图像与一个类别标签相关联的上述通用和细粒度图像分类，对于20个类别中的每一个，模型预测在测试图像中存在该类别的实例的概率。由于我们的注意力是类特定的，因此我们可以无缝地将我们的管道从单标签分类调整到多标签分类。具体来说，我们将独热编码应用于预测得分向量中的相应维度，并计算梯度以生成多个类别的注意力对于最易混淆的类，我们始终将其确定为具有最高分类概率的非地面真值类。对于评估，我们报告PASCAL评估服务器[10]的平均精度（AP）。我们还通过scikit-learn python模块[29]计算AUC得分，表9.比较基线，ICASC Grad−CAM和ICASC Ach.额外的评价指标[2]。表8显示，具有Ach的ResNet- 18 [13]的性能优于基线5.73%。4.2.5比较注意力机制我们比较了ICASC使用Grad-CAM [31]和Ach训练时的图像分类性能。从表4和表9中的结果可以看出，ICASCAch的Top-1准确度较高，表明我们的注意力机制为模型训练提供了比Grad-CAM更好的监督信号[31]。此外，即使ICASC与Grad- CAM仍然优于基线，进一步验证了我们的注意力驱动学习对减少视觉混乱的关键贡献。建议ICASC是灵活的，可以与任何现有的注意机制，以及，同时导致改进的分类性能。5. 结论我们提出了一个新的框架ICASC，它使类别区分注意力成为训练CNN进行图像分类的原则部分。我们提出的注意力分离损失和注意力一致性损失在训练过程中提供了监督信号，从而提高了模型的可辨别性并减少了视觉混乱。此外，我们提出的通道加权注意力具有更好的类区分度和跨层一致性比现有的方法（例如。Grad-CAM [31]）。ICASC适用于任何可训练的网络，而无需更改架构，提供端到端解决方案，以减少视觉混乱。ICASC在各种中等规模、大规模、细粒度和多类分类任务上实现了性能改进。虽然我们选择最后两个包含最多语义信息的特征层来生成注意力地图，但ICASC具有灵活的w.r.t.层选择的注意力生成，我们计划在未来研究各种层选择的影响。[42]第四十二话8385.13.4美国有线电视新闻网[11]3385.33.6ResNet-50 + ICASCAch86.24.5ResNet-101 + ICASCAch3386.54.8520引用[1] Kolmogorov–Smirnov TestSpringer New York ， NewYork，NY，2008. 7[2] Ale xanderBinder、Klaus-RobertMüller和Motoaki川锅多类图像分类的分类法 International Journal ofComputer Vision，99（3）：281- 301，2012. 8[3] 我在博图。随机大规模机器学习梯度下降在COMPSTAT’2010的Proceedings施普林格，2010年。6[4] Steve Branson，Grant Van Horn，Serge Belongie和Pietro佩洛娜使用姿势归一化深度卷积网络进行鸟类分类。在英国机器视觉会议上，2014年。8[5] AdityaChattopadhay，AnirbanSarkar，PrantikHowlader，和Vineeth N. Balasubramanian Grad-CAM++：对深度卷积网络的基于梯度的通用视觉解释。在2018年IEEE计算机视觉应用冬季会议（WACV），第839-847页。IEEE，2018年。一、二、三、四、五、六[6] Arslan Chaudhry，Puneet K. Dokania，and Philip H. S.乇发现类特定的像素，用于弱监督语义分割。BMVC，2017年。3[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy和Alan L.尤尔。DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。TPAMI，40（4）：8346[8] Alexey Dosovitskiy和Thomas Brox反转视觉用卷积网络表示。在Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition中，第4829-4837页，2016年。2[9] Dumitru Erhan、Yoshua Bengio、Aaron Courville和Pascal文森特可视化深度网络的高层功能蒙特利尔大学，1341（3）：1，2009。2[10] 马克·埃弗林汉姆卢克·范古尔克里斯威廉姆斯，约翰温和安德鲁齐瑟曼。帕斯卡视觉对象类挑战2012（VOC2012）结果http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊二五六八[11] 傅建龙，郑和良，陶梅。仔细看看更好：用于细粒度图像识别的递归注意力卷积神经网络。在CVPR，第2卷，第3页，2017年。8[12] 格里高利·格里芬亚历克斯·霍卢布和皮埃特罗·裴罗纳。加州理工学院-256对象类别数据集。2007. 二五六七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、三、六、七、八[14] 杰虎，李申，孙刚。挤压激振网络.在IEEE计算机视觉和模式识别会议论文集，第7132- 7141页，2018年。3[15] 高煌，李义轩，杰夫·普利斯，刘壮，约翰·E.Hopcroft和Kilian Q.温伯格快照集合：一号列车，免费送米。ICLR，2017年。6[16] 郜荒：孙瑜：庄柳：丹尼尔·塞德拉，基利安Q温伯格深度随机的深度网络。欧洲计算机视觉会议，第646- 661页。施普林格，2016年。7[17] 放大图片作者：Nicholas A.李南勋和菲利普H. S.乇学会注意。在2018年国际学习表征会议上。第1、3条[18] Alexander Kolesnikov和Christoph H. 蓝伯特种子展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议，第695-711页施普林格，2016年。6[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿学习多个从微小的图像中提取特征层。技术报告，Cite- seer，2009年。二、五[20] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and云福。告诉我去哪里看：引导注意推理网络。CVPR，2018年。第1、3条[21] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and云福。引导注意推理网络。 IEEE Trans- actions onPattern Analysis and Machine Intelligence，第1-1页6[22] Zhichao Li ， Yi Yang ， Xiao Liu ， Feng Zhou ， ShileiWen，and魏旭。视觉注意力的动态计算时间InICCV，2017. 8[23] David Lopez-Paz和Maxime Oquab重新审视分类器双样本检验。ICLR，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载