图像分类中的位置特定注意力输出层

10 浏览量更新于2023-10-23 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于图像分类的金一斗、白云赫、金胜雄韩国城南{ildoo.kim，wbaek，swkim}@ kakaobrain.com摘要大多数用于图像分类的卷积神经网络（CNN）使用全局平均池（GAP），然后使用全连接（FC）层输出logits。然而，这种空间聚合过程固有地限制了在输出层处对位置特定信息的利用在本文中，我们在现有卷积特征映射的基础上提出了一种新的空间输出层，以显式地利用特定于位置的输出信息。具体而言，给定空间特征图，我们通过在空间logits上采用注意掩模来用空间注意输出层（SAOL）替换先前的GAP-FC层。所提出的位置特定的注意力选择性地聚集目标区域内的空间逻辑，这不仅导致性能的提高，而且空间可解释的输出。此外，建议的SAOL还允许充分利用特定位置的自我监督以及自我升华，以提高在训练过程中的泛化能力。具有自监督和自蒸馏的SAOL可以很容易地插入到现有的CNN中。在具有代表性的体系结构的各种分类任务上的实验结果表明，SAOL在几乎相同的计算成本下表现出一致的性能改善。1. 介绍深度卷积神经网络（CNN）在各种计算机视觉任务中取得了很大进展，包括图像分类[23，16]，对象检测[13，31，27]和语义分割[28，2]。特别是，已经有很多关于修改卷积块及其连接的研究，例如dependency 可分离卷积 [5] ，可变形 ConvNet [7] ，ResNet [16]和NAS-Net [48]，以改进特征表示。然而，与用于（多尺度）空间特征提取的成熟的卷积架构相比，输出模块贡献均等。图1：（a）传统的基于GAP- FC的输出层与（b）建议的输出层SAOL之间的比较。SAOL分别获得空间注意力图和空间逻辑（每个空间位置的分类输出）。然后，空间Logits通过空间注意力地图进行加权平均，以获得最终输出。从特征图中生成分类logit的标准模块几乎没有改变，该标准模块由全局平均池化（GAP ）层和全连接（FC）层组成。尽管已经表明，具有这种特征聚合的CNN可以在一定程度上保留其定位能力[26，46，47]，但原则上，这些CNN在充分利用图像分类的输出logits的显式定位的好处方面存在限制最近，使用局部类特定响应引起了越来越多的关注图像分类，这允许采取以下三个主要优点：(1)它可以帮助解释CNN的决策，95339534通过视觉解释[47，33，1];（2）空间注意机制可以通过仅关注与所考虑的标签语义相关的区域来用于性能改进[21，38，36，10];和（3）它使得能够利用辅助的自我监督损失或基于空间变换的任务，这导致增强的泛化能力[25、11、45、15、19、37]。然而，大多数先前的方法已经通过传统的类激活映射技术（例如类激活映射（CAM）[47]和梯度加权类激活映射（Grad-CAM）[33]）获得了空间逻辑或注意力图。他们仍然利用GAP进行图像级预测，因此仅定位目标对象的一小部分[25]或跨类参与不可分割的区域[37]。虽然这种不准确的注意力映射阻碍了其用于提高分类准确性，但它也限制了关于空间标记的自我监督的应用，以在简单的空间变换（例如旋转和翻转[15]或朴素注意力裁剪和丢弃[19]）下保持注意力一致性。因此，我们建议通过采用一种新的输出模块（称为空间注意输出层（SAOL））来产生明确和更精确的空间逻辑和注意图，并应用有用的自我监督具体而言，从特征图中，我们分别获得空间logits（位置特定类反应）和空间注意图。然后，注意力权重用于空间logits的加权和以产生分类结果。图1示出了与传统输出层相比，所提出的输出层的整体结构。所提出的输出过程可以被认为是在空间logits上的加权平均池化，以选择性地聚焦于目标类区域。为了更准确的空间对数，我们聚合多尺度空间对数，其灵感来自用于语义分割的解码器模块[28，32，3]。注意，SAOL可以直接生成空间可解释的注意输出，并在前向传播期间生成目标对象位置，而无需任何后处理。此外，所提出的SAOL的计算成本和参数的数量几乎与以前的基于GAP-FC的输出层相同此外，我们基于CutMix [41]应用了两种新的位置特定的自监督损失来提高泛化能力。我们注意到，不同的CutMix，它混合地面真值图像标签的面积成比例的组合输入补丁，建议的自我监督利用剪切和粘贴的自标注的空间标签根据混合输入。提出的损失使我们的空间逻辑和注意力地图更加完整和准确。我们还探索了一种自蒸馏附加传统的GAP-FC以及SAOL和蒸馏SAOL logits的GAP-FC。这种技术可以在测试时不改变现有CNN的架构的情况下提高其性能。我们对CIFAR-10/100[22] 和ImageNet [8]分类任务与各种最先进的CNN，并观察到所提出的具有自我监督和自我蒸馏的SAOL始终提高了性能，并生成目标对象的更我们的主要贡献可概括如下：• SAOL是在现有CNN的基础上提出的一种新的分类方法，通过对显式空间的空间注意机制特定位置的类响应。• 在SAOL中，分别获得归一化的空间注意图，以执行加权平均聚集。gation在详细的空间logits，这使得有可能产生可解释的注意输出和对象定位结果的前向传播。• 新的特定位置的自监督损失和自蒸馏损失被应用于提高SAOL在图像级监督中的泛化能力。学习• 在具有不同基准数据集和网络架构的图像分类任务和弱监督对象定位（WSOL）任务上，所提出的具有自我监督的SAOL一致地改善了性能。此外，消融实验显示了更准确的空间注意力以及更复杂的位置特异性自我监督的好处。2. 相关工作类激活映射。类激活映射方法已被广泛用于（1）可视化空间类激活以解释最终分类输出的决策制定，（2）基于它并入辅助正则化以提高分类性能，或（3）用于执行WSOL。具体来说，CAM [47]可以通过将最后一个卷积特征图与最后一个FC层中与该类别相关的权重进行线性组合来获得每个类别的激活图。然而，CAM需要用卷积和GAP替换FC层，以产生最终的分类输出。另一方面，提出了引导反向传播[34]，去卷积[43]和Grad-CAM [33]，用于通过在反向传播中使用梯度来生成类注意力图Grad-CAM++ [1]修改了Grad-CAM，使用高阶导数更准确地定位同一类的多个实例。这些方法仍然使GAP适应于图像级预测，这通常导致仅在目标对象的可区分但不完整的部分上突出显示注意力机制。最近已经有几项工作探索了将注意力机制用于图像分类和WSOL [21，38，36，10]。残留衰减-9535=1间隙ΣC图2：拟议的SAOL的详细结构。它产生的空间注意地图和空间逻辑，分别。请注意，我们使用额外的自注释空间标签来进一步利用我们的架构我们还可以使用自蒸馏来联合训练传统的tion Network [36]通过堆叠多个软注意力模块来修改ResNet [16]，这些模块逐渐细化特征图。Jetley等人[21]提出了一个可训练的模块，用于生成注意力权重，以关注与当前分类任务相关的Woo等人[38]介绍了一种卷积块注意力模块，其顺序地应用信道和空间注意力模块来细化中间特征图。注意力分支网络（ABN）[10]基于CAM设计了一个单独的注意力分支来生成注意力权重，并使用它们来关注重要的特征区域。虽然所有这些注意力方法都细化了中间特征图，但我们在输出层应用注意力机制来直接改进空间输出逻辑。Girdhar等人[12]介绍了一种基于空间注意力的更密切相关的方法，用于汇集动作识别任务的空间逻辑尽管如此，他们只使用了最后一个特征图的简单线性映射CutMix和注意力引导的自我监督。CutMix作为一种高效、强大的数据扩充方法，[41]是最近开发的，它显著优于以前的数据增强方法，如Cutout [9]和Mixup [17]。然而，CutMix不能保证随机裁剪的面片总是具有相应目标对象的一部分，该部分具有用于标签混合的相同比例。最近的几项工作使用注意力图导出了辅助的自监督损失。例如，Guoet al.[15]建议提高注意力一致性利用CAM发现的互补对象区域来发现整个对象。Wang等人[37]提出了新的学习目标，以提高注意力的可分离性和跨层的注意力一致性。与这些注意力引导的自监督学习方法不同，我们利用CutMix设计了一个更复杂的位置特定的自监督。3. 方法在本节中，我们详细描述了所提出的名为SAOL的输出层架构以及特定于位置的自监督损失和自蒸馏损失。3.1. 空间关注输出层令x和y分别表示输入图像及其独热编码的基础事实标签。对于基于CNN的图像分类，输入X0=x首先被馈送到连续的图像分类器中。siv eLconnvolutionblocks{θ（·）}L，其中计算块θ的中间由X=θ（X−1）。在这里，H、W和C是第1个块的通道的高度、宽度和数量然后，通过输出层O（·）得到最终的归一化输出logitsy∈[0，1]K，它可以被认为是K类上的输出概率分布，使得y∈=O（XL）. 具体地，常规的基于GAP-FC的输出层OGAP-FC（·）可以被公式化为：在简单的空间变换下，和Huet al. [19]将注意力裁剪和丢弃应用于数据扩充。Li等[25]引导注意推理（GuidedAttention Inference）y=OGAP-FC（XL）=softmax.（xL）TWFCΣ、（1）探索自我引导监督的网络，以优化其中x<$L∈RCL×1表示空间聚集的特征，注意力地图特别是，他们注意到利用图像裁剪完成的采矿技术间隙通过GAP和WFC∈RCL×K是重量（XL）输出FC层r的矩阵。这里，（x′L）=i，jcij，地图;然而，这些地图是基于梯度获得的，间隙cHW凸轮Zhang等人[45]引入了对抗式学习，其中（XL）ij是第c个特征图的第（i，j）个元素9536C最后一个街区的XL 我们的方法不是在最后一个特征图上进行聚合，而是在每个空间位置上显式地生成输出logits，然后通过空间注意机制选择性地聚合它们具体地说，所提出的SAOL，OSAOL（·），首先分别产生空间注意图A ∈ [0，1]Ho× Wo和空间日志Y∈[0，1]K× Ho× Wo. 这里，注意，我们默认设置 Ho=HL 和Wo=WL。注意力值通过softmax在空间上进行归一化当我们对空间对数进行软处理时，类：i，jAij=1，k（Yk）ij=1，k（Y k）i，j。然后，我们通过空间加权的空间logit的总和如下：Σy=0SAOL，k（XL）=i、j一个ij（Yk）ij（2）第一章其中y=k是kth类的输出logit。这些注意力权重指示关于分类结果的每个空间位置的相对重要性。SAOL中的体系结构在图中详细描述二、首先，为了获得空间注意力图A，我们将最后的卷积特征图XL馈送到两层卷积中，然后是softmax函数。同时，为了精确的空间逻辑，我们结合了多尺度空间逻辑，这是由先前的解码器模块激发的，用于语义分割[28，32，3]。具体地，在每个所选择的块处，特征图在被调整大小为输出空间分辨率之后通过卷积被映射到中间空间对数。然后，一组中间空间对数被连接并通过另一个卷积层和softmax函数重新映射到最终空间对数Y请注意，与CAM [47]和Grad-CAM [33]相比，该SAOL可以以前馈方式使用A和Y直接生成空间可解释的注意力输出或目标对象位置这使得在训练过程中使用特定于位置的正则化器成为可能，如下一小节所述。3.2. 自我监督损失图3：基于SAOL的Cut- Mix提出的两个自我监督：（a）LSS1和（b）LSS2。其中M表示用于裁剪和粘贴矩形区域的二进制掩码，并且λ是使用贝塔分布采样的组合比率这种标签混合策略意味着剪切区域在其标签的上下文中应该具有与裁剪区域的大小一样多的含义。然而，这种假设通常是不正确的，因为随机裁剪的补丁可能无法捕获相应目标对象的一部分，特别是当目标对象很小时。具体来说，我们使用两个额外的自注释空间标签和自监督损失，如图所示3. 给定一个CutMixed输入图像，第一个自监督损失LSS1使用M作为Ho×Wo之后的附加地面真值标签。我们添加一个类似于注意层预测M∈[0，1]Ho×Wo。由于m建议的SAOL在训练时表现良好，即使仅以一般交叉熵损失LCE作为我们的监督损失，使得LSL=LCE（y≤S A OL，y）1。然而，为了充分利用特定于位置的输出信息，为了提高分类性能，我们增加了两个受CutMix [41]和自监督学习方法[11，24]启发的新空间损失。CutMix通过混合某个样本（xB，yB）和从另一个样本（xA，yA）中提取的随机块来生成新的训练样本（x ′，y′）x′ = M< $xA+（1− M）<$xB，二进制掩码，二进制交叉熵损失被用作LSS1=LBCE（M，M）。（四）我们提出的第二个自监督损失LSS2是将混合输入的粘贴区域中的空间逻辑与原始输入数据如下：LSS2=DKL（MY′，MYA），（5）2y′ =λ yA+（1−λ）yB，（三）其中DKL表示YA表示xA的空间对数。由于这些自-1我们令y_GAP-FC和y_SAOL分别表示来自基于GAP-FC的输出层的最终输出逻辑比特和来自SAOL的最终输出逻辑比特。[2]它实际上是空间位置上的平均9537监督使网络规则化，以识别特定粘贴位置或在粘贴区域中产生相同的空间日志，这些可以导致空间一致的特征表示，并因此改善性能。请注意，我们通过仅从MY′开始梯度。3.3.自蒸馏损失由于可以在现有的CNN中插入建议的SAOL，因此我们在训练期间利用先前的基于GAP-FC的输出层和SAOL，如图2具体来说，我们提出了从SAOL到现有输出层的知识转移为此，我们设计了一个自我-蒸馏损失LSD，两个最终输出logit分别由两个输出层从给定输入中图片如下：最广泛研究的分类任务之一我们对AutoAugment [6]中的 Wide-ResNet [42] 使用了相同的超参数 ResNet 和DenseNet模型使用相同的ABN设置进行训练[10]以比较其他模型。 F 或 PyramidNet 200 （加宽因子α<$=240），我们使用了与CutMix [41]相同的超参数，除了学习率及其衰减时间表。我们使用0.1作为余弦退火时间表的初始学习率[29]。虽然我们的基线并没有获得更好的结果与这个轻微的变化，建议的SAOL实现了显着的性能改进。每个实验进行五次以报告其平均性能。表1和表2分别比较了CIFAR-10和CIFAR-100的基线和拟定方法除DenseNet-100外，所有模型的拟议SAOL均一致优于基线。此外-LSD=DKL（y）SAOL，yGAP-FC）+βLCE（yGAP-FC、（y）、（6）在大多数情况下，对于CIFAR-10，SAOL比自蒸馏GAP-FC有明显的改善。然而，我们的自我-其中β是两个损失项之间的相对权重，这是类似地用于其他自蒸馏方法[44，24]。我们设置β=0。五、在测试时，我们只使用两个输出模块中的一个来产生分类结果。如果我们选择基于GAP-FC的输出层，我们可以提高现有CNN的分类性能，而不会在测试时产生计算负担，尽管它可以忽略不计。最后，我们在训练过程中使用的最终损失L定义为L=LSL+LSS1+LSS2+LSD，（7）其中使用不同的损耗比可以有进一步的改进4. 实验与以前的方法相比，我们用自我监督和自我升华来评估我们的SAOL。我们首先研究了我们提出的方法对第4.1节中的几个分类任务的影响。然后，为了对所获得的注意力图进行定量评价，在第4.2节中进行了WSOL实验。所有实验都是在PyTorch中实现的[30]，通过修改官方的CutMix源代码3。为了公平起见，我们尽量不改变CutMix [41]和ABN [10]等基线的超参数。我们同时通过提出的自蒸馏损失以端到端的方式训练SAOL和基于GAP-FC的输出层。在测试时，我们得到的分类结果，无论是SAOL或基于GAP-FC的输出层。4.1. 图像分类任务4.1.1CIFAR-10、CIFAR-100分类图像分类的第一次性能评估是在CIFAR-10和CIFAR-100基准上进行的[22]，3https://github.com/clovaai/CutMix-PyTorch网站蒸馏的GAP-FC也始终优于基线。这意味着，即使没有空间监督，如对象定位标签，SAOL可以适当地学习空间注意力，并最终表现得比平均功能更好。当我们在训练过程中额外使用CutMix时，这种持续的改善也得到了保持。我们还将SAOL与最近提出的ABN进行了比较[10]。这两种方法在使用注意地图方面有相似之处。然而，SAOL使用注意力地图来聚合空间输出逻辑。相比之下，ABN仅在最后一个特征图上使用注意力机制，并适应先前的GAP-FC层。对于ResNet-110和DenseNet-100，我们使用ABN中使用的相同超参数训练模型。ResNet- 110和DenseNet-100在CIFAR-10上分别达到了95.09%、95.83%和77.19%、78.37%CIFAR-100上。这些结果表明，SAOL模型的表现比ABN模型好得多。我们强调ABN还需要更多的计算。具体来说，带有ABN的ResNet-110需要5.7 GFLOPs，而带有SAOL的ResNet-110只需要2.1 GFLOPs。由于原始的ResNet-110计算量与1.7 GFLOPs，SAOL不仅比ABN更有效和高效，而且它提供了一种通过自蒸馏保持计算量不变的方法4.1.2ImageNet分类我们还在ILSVRC 2012分类基准（ImageNet）[8]上评估了SAOL，其中包括120万张用于训练的自然图像和50，000张用于验证1，000个类的图像。我们在CutMix中使用了相同的超参数[41]。为了更快的训练，我们只是将批量大小改为4，096，并使用线性重新缩放的学习速率和渐进的预热时间表，如[14]所述。我们还将SAOL中的所有卷积替换为dependence-9538模型基线GAP-FC我们SAOL自蒸馏 GAP-FC模型基线GAP-FC我们SAOL自蒸馏气隙燃料电池Wide-ResNet 40-294.8095.33（+0.53）95.31（+0.51）Wide-ResNet 40-2 + CutMix [41]96.1196.44（+0.33）96.44（+0.33）[42]第四十二话95.8396.44（+0.61）96.42（+0.59）Wide-ResNet 28-10 + CutMix [41]97.0897.37（+0.29）97.36（+0.28）ResNet-110 [16]93.57美元 *95.18（+1.61）95.06（+1.49）ResNet-110 + CutMix [41]95.7796.21（+0.44）96.17（+0.40）[20]第二十话95.49*95.31（-0.18）95.35（-0.14）[41]第四十一话95.8396.27（+0.44）96.19（+0.36）[40]第四十话97.1397.33（+0.20）97.31（+0.18）PyramidNet200 + ShakeDrop + CutMix [41]97.5797.93（+0.36）97.92（+0.35）表1：CIFAR-10上的分类前1准确度（%）原始论文的结果用 * 表示模型基线GAP-FC我们SAOL自蒸馏气隙燃料电池Wide-ResNet 40-274.7376.50（+1.77）76.18（+1.45）Wide-ResNet 40-2 + CutMix [41]78.2179.53（+1.32）79.04（+0.83）[42]第四十二话80.1380.89（+0.76）81.16（+1.03）Wide-ResNet 28-10 + CutMix [41]82.4183.71（+1.30）83.71（+1.30）ResNet-110 [16]75.86美元 *77.15（+1.29）77.23（+1.37）ResNet-110 + CutMix [41]77.9478.02（+0.08）77.94（+0.00）[20]第二十话77.73*76.84（-0.89）76.25（-1.48）[41]第四十一话78.5579.25（+0.70）78.90（+0.35）[40]第四十话84.4384.72（+0.29）84.95（+0.52）PyramidNet200 + ShakeDrop + CutMix [41]86.1986.95（+0.76）87.03（+0.84）表2：CIFAR-100上的分类前1准确度（%）原始论文的结果用 * 表示ResNet-50 [16]76.32 /92.95*77.11 /93.5976.66 /93.25ResNet-50 + CutMix [41]78.60 /94.10*78.85 /94.2478.09 /94.00ResNet-101 [16]78.13 /93.71*78.59 /94.2578.22 /93.82ResNet-101 + CutMix [41]79.83 /94.7680.49 /94.9680.24 /94.84[39]第三十九话78.82 /94.4379.23 /95.0379.23 /94.979539[41]第四十一话80.53 /94.9781.01 /95.1580.81 /95.03ResNet-200 [16]78.50 /94.2079.31 /94.5478.92 /94.37ResNet-200 + CutMix [41]80.70 /95.2080.82 /95.1980.73 /95.21表3：ImageNet分类Top-1/Top-5准确率（%）。原始论文的结果用 * 表示可分离卷积[18]以减少计算。我们发现，在许多情况下，这种卷积变化对性能的影响很小。表3显示了不同架构的性能。我们引用了CutMix论文中的结果，除了ResNet-200，它没有被CutMix测试过。我们用相同的超参数训练所有模型，以获得公平的计算结果。我们的研究结果表明，SAOL模型的表现始终优于GAP-FC模型。例如，使用CutMix regu训练的ResNet-101架构，结果表明，在没有CutMix的情况下，larization的top-1准确率为 78.13% ，而在没有 CutMix 的情况下，larization的top-1准确率为79.83%。对于这两种情况，SAOL分别在不使用和使用CutMix的情况下进一步改善了模型0.46%和0.66%。我们注意到，添加我们的SAOL 只需要 6% 的计算量（从 7.8 GFLOPs 到 8.3GFLOPs），这与以前的方法相比是有效的如图4所示，SAOL的表现优于剩余注意力网络[36]和ABN [10]，特别是在计算成本小得多9540WResNet 40-2WResNet 28-10SAOL间隙-FC SAOL间隙-FCCIFAR-10C-100图4：不同注意力模型在ImageNet上的比较注意层被添加在相同的ResNet-200主干上。我们的模型（SAOL）优于以前的方法[10，36]，使用可忽略的计算开销。WResNet 40-2WResNet 28-10Conv Block 375.6879.99Conv Block 2+376.1880.70Conv Block 1+2+376.5080.89表4：根据用于产生空间对数的特征块的不同组合，WResNet是Wide-ResNet的缩写Wide-ResNet有三个卷积块，我们将第i个块表示为Conv Blocki。4.1.3消融研究在本节中，我们对SAOL中的许多因素进行了消融实验，以测量它们对我们优于结果的贡献空间Logits多层次特征聚合的有效性。SAOL不仅使用来自最后一个卷积块的特征，还使用来自多个中间块的特征来产生空间对数。在检测和分割任务中，大多数作品[3][32][2][27]类似地在解码器中使用多个特征层以更具尺寸不变性。表5：CutMix及其对于Wide-ResNet 40-2的附加自监督损失对CIFAR-10/100的影响。SS1联合因此，使用LSS1并没有改善基线的性能。我们推测SAOL与LSS1一起工作得很好，因为它试图同时学习分类输出的注意力图。我们离开更详细的调查，以供今后的工作。自我升华的效果。我们还对CIFAR-100进行了实验，以测量自我升华在训练期间，标准交叉熵（CE）损失仅应用于GAP-FC辅助层，而不是从SAOL提取输出结果示于表6中。无论在测试时选择的输出层如何，与使用我们的自蒸馏损失相比，LSD，即使它仍然优于基线。这表明，从健壮的SAOL到传统的基于自蒸馏的GAP-FC输出层有利于性能的提高。我们在CIFAR-100上进行了实验，以验证根据要组合以生成SAOL的空间对数的不同数量的特征的性能变化，并且表4示出了所获得的结果。性能往往会随着空间对数的更多特征层而提高。自我监督的有效性。为了验证所提出的两种自监督损失的好处，我们使用Wide-ResNet 40-2在CIFAR-10和CIFAR-100（C-100）上进行了实验，结果如表所示5. 与基线模型类似，SAOL也通过原始的CutMix正则化得到了改进。然而，添加LSS1或LSS2的广告进一步提高了性能。使用两个自我监督损失与SAOL导致最好的性能。请注意，我们还尝试在基线上使用LSS1为此，我们在最后一个卷积块上附加了一个辅助层，以产生一个预测CutMix重新生成的空间图gion和训练的原始图像分类损失和基线N/A74.73N/A80.13CE75.7575.2880.3680.21LSD76.5076.1880.8981.16表6：自蒸馏有效性评价4.2.弱监督对象定位任务为了用 SAOL 定量评价空间注意图，我们使用ResNet-50模型对WSOL任务进行了实验我们遵循现有WSOL方法的评估策略[47]。WSOL中的一个常见做法是使用最小-最大归一化将分数图归一化为0和1之间的值可以通过阈值对归一化的输出分数图进行二值化，然后选择二值掩码中的最大连通区域我们模型的空间分辨率由7×7提高到14×14，并对ImageNet训练模型进行了微调所获得基线（GAP-FC）基线+CutMix基线+ CutMix +LSS194.8096.1196.0474.7378.2178.14SAOL95.3376.50SAOL + CutMix96.2178.44SAOL + CutMix +LSS196.1978.92SAOL + CutMix +LSS296.3078.60SAOL + CutMix +LSS1+LSS296.4479.539541模型方法GFLOPS反向传播CUB200-2011本地接入（%）ImageNet本地接入（%）ResNet-50 [16][47]第四十七话4.09O49.41美元*46.30美元 *[41]第四十一话：一个人的世界[47]第四十七话4.09O54.81美元*47.25美元 *ResNet-50 [16]荷兰银行[10]7.62X56.9144.65[41]第四十一话：一个人的世界SAOL（我们的）4.62X52.3945.01表7：CUB 200 -2011测试集和ImageNet验证集上的弱监督对象定位结果星号 * 表示分数来自原始论文。图5：使用ResNet-50对SAOL的注意力地图进行定性分析从左起：剪切混合图像，空间注意力图，前2类的空间输出logit的热图。(a)先前的CutMix模型[41]未能正确预测具有前2个类得分的对象（b）以前的CutMix模型过于自信地预测小物体的例子将空间注意力图和空间logit组合为元素级乘积，以产生类级空间注意力图。如表7所示，与之前表现良好的方法相比，我们的方法在ImageNet和CUB 200 -2011 [35]上实现了具有竞争力的定位精度[4，41]。值得注意的是，我们的竞争方法需要更少的计算来生成用于对象定位的注意力图。虽然是常见的使用CAM [47]，繁琐的向后传递计算是不可避免的。最近提出的ABN[10]可以产生一个注意力地图与单一的for-ward通行证;然而，它修改了骨干网络与计算昂贵的注意力机制。SAOL增加了更少的计算税，而它的执行竞争力。我们还强调，我们的结果是在没有任何复杂的后处理的情况下获得的，这是许多WSOL方法所需要的。利用复杂的后处理以及使用更大的注意力地图进行训练可以进一步改善结果。图5可视化了空间注意力图和通过SAOL在CutMix-ed图像上获得的空间逻辑。我们的空间注意力地图侧重于与一般概念的对象相对应的区域。另一方面，空间输出logits显示类特异性激活图其在各自的目标对象区域上具有高分数。在两个目标混合的情况下，SAOL的注意力图能够很好地定位每个目标，并且其得分能够更准确地反映每个目标的相对重要性5. 结论本文提出了一种新的图像分类输出层，空间注意输出层（SAOL）。空间注意图和空间逻辑图这两个新分支的输出所提出的SAOL提高了各种任务的代表性架构的性能此外，专门为SAOL设计的额外的自我监督损失也进一步提高了性能。SAOL产生的注意图和空间logits 可用于弱监督目标定位（ WSOL ），不仅对WSOL任务而且对可解释网络都显示出良好的效果。我们将继续这项研究，为图像分类任务开发更好的类似解码器的输出结构，并探索更巧妙地使用自标注的空间信息，而无需人工劳动。9542引用[1] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。2018年2[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：8341、7[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。二四七[4] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第2219-2228页，2019年。8[5] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在IEEE计算机视觉和模式识别（CVPR）会议录中，第1251-1258页，2017年。1[6] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在 IEEE 计算机视觉和模式识别会议（CVPR）论文集，第113-123页，2019年。5[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第764-773页，2017年。1[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第248- 255页。Ieee，2009年。二、五[9] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。3[10] HiroshiFukui，TsubasaHirakawa，TakayoshiYamashita，and Hironobu Fujiyoshi.注意分支网络：视觉解释的注意机制学习。在IEEE计算机视觉和模式识别会议（CVPR）的集中，第10705-10714页，2019年二、三、五、六、七、八[11] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在2018年学习代表国际会议上。二、四[12] Rohit Girdhar和Deva Ramanan动作识别的注意力集中。神经信息处理系统的进展，第34-45页，2017年。3[13] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构可实现精确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2014年。1[14] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。5[15] 郭浩，郑康，范小川，于宏凯，王松。图像变换下多标签图像分类的视觉注意一致性在IEEE计算机视觉和模式识别会议（CVPR）论文集，第729-739页二、三[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition（CVPR），第770-778页，2016中。一、三、六、八[17] 扬 N.DauphinDavidLopez-PazHongyiZhang ，Moustapha Cisse. mixup：超越经验风险最小化。2018年国际学习代表大会。3[18] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。6[19] 胡涛、齐红刚、黄清明、陆燕。在看得更近之前看得更清楚：用于细粒度视觉分类的弱监督数据增强网络。arXiv预印本arXiv：1901.09891，2019。二、三[20] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第4700-4708页，2017年。6[21] 放大图片作者：Nicholas A. Lord，Namhoon Lee，andPhilip H.S.乇学会注意。在2018年国际学习代表会议上。二、三[22] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，20

下载后可阅读完整内容，剩余1页未读，立即下载