卷积块注意模块的设计与应用

160 浏览量更新于2023-10-15 收藏 1.73MB PDF 举报

Inc.

物体识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

卷积块注意模块Sanghyun Woo*1、JongchanPark*†2、Joon-Young Lee3和In So Kweon11韩国科学技术高等研究院，韩国{shwoo93，iskweon77}@kaist.ac.kr2Lunit Inc.，韩国首尔jcpark@lunit.io3Adobe Research，San Jose，CA，美国jolee@adobe.com抽象。我们提出卷积块注意力模块（CBAM），一个简单而有效的前馈卷积神经网络注意力模块。给定一个中间特征图，我们的模块沿两个单独的维度（通道和空间）顺序地推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征细化。因为CBAM是轻量级和通用的模块，所以它可以无缝地集成到任何CNN架构中，开销可以忽略不计，并且与基础CNN一起是端到端可训练的。我们通过对ImageNet-1 K、MS COCO检测和VOC 2007检测数据集的大量实验来验证我们的CBAM。我们的实验表明，在分类和检测性能与各种模型的一致改善，证明了广泛的适用性CBAM。代码和模型将公开提供。关键词：物体识别，注意机制，门控卷积1介绍卷积神经网络（CNN）基于其丰富的表示能力，显着推动了视觉任务的性能[1，2，3]。为了提高CNN的性能，最近的研究主要研究了网络的三个重要因素：深度、宽度和基数。到目前为止，从LeNet架构[4]到残差式网络[5，6，7，8VGGNet [9]表明，堆叠具有相同形状的块会得到公平的结果。遵循相同的精神，ResNet [5]将残差块的相同拓扑与跳过连接堆叠在一起，以构建一个非常深入的架构。GoogLeNet [10]表明，宽度是提高模型性能的另一个重要因素。Zagoruyko和Komodakis [6]建议增加基于ResNet架构的网络宽度。他们已经表明，具有增加的28层ResNet* 两位作者贡献相同。[2]这部作品是作者在韩国科学技术研究院工作时完成的2吴朴李权在CI-FAR基准测试中，宽度可以超过具有1001层的极深ResNet。Xception [11]和ResNeXt [7]提出了增加网络基数的方法。他们经验表明，基数不仅节省了参数的总数，而且比其他两个因素产生更强的表示能力：深度和宽度。除了这些因素，我们调查了建筑的另一个方面-真设计，注意。注意力的重要性在以前的文献中已经被广泛研究[12，13，14，15，16，17]。注意力不仅能告诉我们该关注的地方，还能提高利益的代表性。我们的目标是通过使用注意力机制来提高代表性：集中于重要特征并抑制不必要的特征。本文提出了一种新的网络模块- 由于解决方案操作通过将跨通道和空间信息混合在一起来提取信息特征，因此我们采用我们的模块来强调沿着这两个主要维度的有意义的特征：通道和空间轴。为了实现这一点，我们顺序地应用通道和空间注意力模块（如图所示）。1）、从而每个分支可以学习分别在信道和空间轴中参与“什么”和“哪里"。因此，我们的模块通过学习哪些信息强调或抑制，有效地帮助网络内的信息流动。在ImageNet-1 K数据集中，我们通过插入我们的小模块，从各种基线网络中获得了准确性的提高，揭示了CBAM的有效性我们使用grad-CAM [18]可视化训练模型，并观察到CBAM增强的网络比其基线网络更正确地关注目标对象。然后，我们进行用户研究，定量评估模型的可解释性的改进。我们表明，更好的性能和更好的可解释性是可能的，在同一时间通过使用CBAM。考虑到这一点，我们推测，性能提升来自准确的atten- tion和噪声减少不相关的杂波。最后，我们验证了MS COCO和VOC 2007数据集上的对象检测的性能改进，证明了CBAM的广泛适用性由于我们精心设计了我们的模块是轻量级的，在大多数情况下，参数和计算的开销可以忽略不计。贡献我们的主要贡献有三方面。1. 我们提出了一个简单而有效的注意模块（CBAM），可以广泛应用于提高CNN的表示能力。2. 我们通过广泛的消融研究验证了我们的注意力模块的有效性3. 我们验证了各种网络的性能大大提高了多个基准测试（ImageNet-1K，MS COCO和VOC 2007）通过插入我们的轻量级模块。卷积块注意模块3卷积块注意模块输入要素通道注意模块空间注意力模块精细化特征图1：CBAM概述。该模块有两个顺序子模块：通道和空间。中间特征映射通过我们的模块（CBAM）在深度网络的每个卷积块处自适应地细化2相关工作网络工程。“网络工程”已经成为最重要的视觉研究之一，因为设计良好的网络确保在各种应用中显着的性能改善。自从成功实现大规模CNN以来，已经提出了广泛的架构[19]。一种直观而简单的扩展方法是增加神经网络的深度[9]。Szegedy等人[10]引入一个使用多分支架构的深度Inception网络，其中每个分支都经过仔细定制。由于梯度传播的困难，深度的天真增加会达到饱和，ResNet [5]提出了一种简单的身份跳过连接来缓解深度网络的优化问题。基于 ResNet 架构，已经开发了各种模型，如WideResNet [6]、Inception-ResNet [8]和ResNeXt [7]WideResNet [6]提出了一种具有更多卷积滤波器和减少深度的残差网络。PyramidNet [20]是WideResNet的严格推广，其中网络的宽度逐渐增加。ResNeXt [7]建议使用分组卷积，并表明增加基数会导致更好的分类准确性。最近，Huangetal. [21]提出了一个新的体系结构，DenseNet。它迭代地连接输入特征与输出特征，使每个卷积块能够从所有先前块接收原始信息。虽然大多数最近的网络工程方法主要针对三个因素深度[19，9，10，5]、宽度[10，22，6，8]和基数[7，11]，但我们关注另一个方面，“ 注意力 ” ，人类视觉系统的好奇方面之一。注意力机制。众所周知，注意力在人类感知中起着重要作用[23，24，25]。人类视觉系统的一个重要特性是不试图一次处理整个场景。相反，人类利用一系列局部瞥见，并选择性地聚焦于显著部分，以便更好地捕捉视觉结构[26]。最近，已经有几次尝试[27，28]将注意力处理结合起来，以提高CNN在大规模分类任务中的性能。4吴朴李权CSWang等人[27]提出了使用编码器-解码器风格的注意力模块的剩余注意力网络。通过细化特征图，网络不仅表现良好，而且对噪声输入也具有鲁棒性。而不是直接计算的3D注意力地图，我们分解的过程，学习通道注意力和空间注意力分开。用于3D特征图的单独注意力生成过程具有少得多的计算和参数开销，并且因此可以用作用于预先存在的基础CNN架构的即插即用模块更接近我们的工作，胡等人。[28]引入一个紧凑模块来利用通道间关系。在他们的挤压和激励模块中，他们使用全局平均池化特征来计算信道注意力。然而，我们表明，这些是次优的功能，以推断精细通道的注意力，我们建议使用最大池功能以及。他们也错过了空间注意力，空间注意力在决定“哪里”聚焦方面起着重要作用，如[ 29 ]所示。在我们的CBAM中，我们基于有效的架构利用空间和通道注意力，并通过经验验证利用两者优于仅使用通道注意力[28]。此外，我们的经验表明，我们的模块是有效的检测任务（MS-COCO和VOC）。特别是，我们仅通过将我们的模块放在VOC2007测试集中现有的单次探测器[30]之上，就可以实现最先进的性能。同时，BAM[31]采用了类似的方法，将3D注意力图推理分解为通道和空间。他们在网络的每个瓶颈处放置BAM模块，而我们在每个卷积块上插入。3卷积块注意模块给定中间特征图F∈RC×H×W作为输入，CBAM顺序地推断出1D通道注意力图Mc∈RC×1×1和2D空间注意力图Ms∈R1×H×W，如图所示。1.一、整体关注过程可以概括为：F′=M（F）<$F，F′′=M（F′）F′，（1）其中表示逐元素乘法。在乘法期间，相应地广播（复制）注意力值：信道关注值沿着空间维度广播，反之亦然。F′′是最终的细化输出。图2描绘了每个注意力图的计算过程。下文描述了每个注意力模块的细节。频道注意模块。我们通过利用特征的通道间关系来产生通道注意力图。作为特征图的每个通道，被认为是一个特征检测器[32]，通道注意力集中在给定输入图像的“什么”是有意义的。为了有效地计算通道注意力，我们压缩输入特征图的空间维度。对于聚集空间信息，迄今为止，通常采用平均池化Zhou等卷积块注意模块5avgMaxPool通道注意模块AvgPool共享MLP频道关注MC输入特征F空间注意力模块conv层通道细化[MaxPool，AvgPool]特征F空间注意MS图2：每个关注子模块的示意图。如图所示，信道子模块利用最大池化输出和平均池化输出两者，其中共享网络;空间子模块利用沿着信道轴汇集的类似的两个输出并将它们转发到卷积层。[33]建议使用它来有效地学习目标对象的范围和Hu等人。[28]在他们注意力模块中采用它来计算空间统计。除了以前的工作，我们认为，最大池收集另一个重要的线索，独特的对象的功能推断更精细的通道明智的注意。因此，我们同时使用平均池和最大池功能。我们经验证实，利用这两个功能大大提高了网络的表示能力，而不是单独使用每一个（见第二节）。4.1），显示了我们设计选择的有效性我们在下面描述详细操作我们首先通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成两个不同的空间上下文解压缩。脚本程序：FcFCMax，表示平均池化要素和最大池化要素特征分别。然后，这两个描述符被转发到共享网络，以产生我们的信道注意力图Mc∈RC×1×1。共享网络由多层感知器（MLP）和一个隐层组成。为了减少参数开销，隐藏激活大小被设置为RC/r×1×1，其中r是缩减比率。共享网络应用于每个描述符后，我们使用元素求和合并输出特征向量。简而言之，信道关注度计算为：MC（F）=σ（MLP（AvgPool（ F））+MLP（MaxPool（ F））=σ（W1 （W0FCavg））+W1（W0FCMax（二）），其中σ表示sigmoid函数，W0∈RC/r×C，W1∈RC×C/r。注意，MLP权重W0和W1对于两个输入是共享的，并且ReLU激活函数后面是W0。和（（6吴朴李权MaxavgSavg空间注意模块。我们生成一个空间注意力地图，利用空间间的关系的特征。与渠道关注度不同，空间注意力集中在“哪里”是信息部分，这是对通道注意力的补充。为了计算空间注意力，我们首先沿着通道轴应用平均池化和最大池化操作，并将它们串联以生成高效的特征描述符。沿通道轴应用池化操作被证明在突出信息区域方面是有效的[34]。在级联的特征描述符上，我们应用卷积层来生成空间注意力图Ms（F）∈RH×W，其编码在哪里强调或抑制。我们在下面描述详细操作我们通过使用两个池来聚合特征图的通道信息操作，生成两个2D贴图：Fs∈R1×H×W 和Fs∈R1×H×W.每一个都表示整个变化中的平均池化特征和最大池化特征内尔然后通过标准卷积层对这些进行级联和卷积，生成我们的简而言之，空间注意力计算为：M（F）=σ（f7×7（[AvgPool（F）;MaxPool（F）]））=σ（f7×7（[FsFsMax（三）]）），其中σ表示sigmoid函数，f7×7表示滤波器大小为7 ×7的卷积运算。注意力模块的布置。给定输入图像，两个注意力模块，通道和空间，计算互补的注意力，分别集中在“什么”和“哪里”。考虑到这一点，两个模块可以以并行或顺序的方式放置。我们发现，顺序布置给出了比平行布置更好的结果。对于顺序处理的安排，我们的实验结果表明，通道优先顺序略优于空间优先顺序。我们将在第二节讨论网络工程的实验结果。4.1.4实验我们根据标准基准评估CBAM：用于图像分类的ImageNet-1 K MSCOCO和VOC 2007用于物体检测。为了进行更好的苹果对苹果的比较，我们在PyTorch框架[36]中复制了所有评估的网络[5，6，7，35，28]，并在整个实验中报告了我们的复制结果。为了彻底评估我们的最终模块的有效性，我们首先进行广泛的消融实验。然后，我们验证了CBAM优于所有的基线，没有花里胡哨，展示了CBAM在不同的架构以及不同的任务的普遍适用性。可以在任何CNN架构中无缝集成CBAM，并联合训练组合的CBAM增强网络。图3显示了与ResNet [5]中的ResBlock集成的CBAM的图作为示例。;卷积块注意模块7上一个conv块下一个转换块ResBlock+CBAM图3：CBAM与ResNet中的ResBlock集成[5]。该图显示了我们的模块在集成到ResBlock中时的确切位置。我们将CBAM应用于每个块中的卷积输出4.1消融研究在这一小节中，我们将以实证方式展示我们设计选择的有效性对于这项消融研究，我们使用ImageNet-1 K数据集，并采用ResNet-50 [5]作为基础架构。ImageNet-1 K分类数据集[1]由120万张用于训练的图像和50，000张用于验证的图像组成，其中我们采用与[5，37]相同的数据增强方案进行训练，并在测试时应用大小为224×224的单作物评估学习速率从0.1开始，每30个epoch下降一次我们训练网络90个纪元。在[5，37，38]之后，我们报告了验证集上的分类错误。我们的模块设计过程分为三个部分。我们首先寻找有效的方法来计算通道的注意，然后空间的注意。最后，我们考虑如何结合通道和空间注意模块。我们在下面解释每个实验的细节。频道关注我们的实验验证，使用平均池和最大池的功能，使更精细的注意力推断。我们比较了3种渠道关注度：平均池化、最大池化以及两个池化的联合使用。注意，具有平均池化的信道注意模块与SE [28]模块相同。此外，当使用这两个池，我们使用一个共享的MLP的注意力推断，以节省参数，因为这两个聚合的通道特征在于在相同的语义嵌入空间。在这个实验中，我们只使用通道注意模块，并且我们将减少比率固定为16。描述参数GFLOPS前1位误差（%）前5名误差（%）ResNet50（基线）ResNet50 + AvgPool（SE[28]）25.56M25.92M3.863.9424.5623.147.506.70ResNet50 + MaxPoolResNet50 + AvgPool MaxPool25.92M25.92M3.944.0223.2022.806.836.52表1：不同信道注意方法的比较。我们观察到，使用我们提出的方法优于最近建议的挤压和激励方法[28]。空间注意频道关注FconvMCF8吴朴李权描述参数 GFLOPS前1位误差（%）前5名误差（%）ResNet50+通道（SE [28]）28.09M3.86023.146.70ResNet50 +通道28.09M3.86022.806.52ResNet50+通道+空间（1x1 conv，k=3）28.10M3.86222.966.64ResNet50+通道+空间（1x1 conv，k=7）28.10M3.86922.906.47ResNet50+通道+空间（平均最大值，k=3）28.09M3.86322.686.41ResNet50+通道+空间（平均最大值，k=7）28.09M3.86422.666.31表2：不同空间注意方法的比较。使用所提出的信道池化（i. e.沿信道轴的平均和最大池化）以及用于随后的卷积操作的大核大小7执行得最好。描述前1位误差（%）前5名误差（%）ResNet50+通道（SE [28]）23.146.70ResNet50+通道+空间22.666.31ResNet50+空间+通道22.786.42ResNet50 +通道空间并行22.956.59表3：通道和空间注意力的组合方法。使用这两种注意力是至关重要的，而最佳组合策略（即。e.顺序的、信道优先的）进一步提高了精度。各种合并方法的实验结果示于表1中。我们观察到，最大池化特征与平均池化特征一样有意义，比较了从基线的准确性改进。然而，在SE[28]的工作中，他们只利用了平均池化的特性，忽略了重要性最大池化特征。我们认为，最大池的功能，编码的程度最显着的一部分，可以补偿平均池的功能，编码的全局统计软。因此，我们建议同时使用这两个功能，并将共享网络应用于这些功能。共享网络的输出然后通过逐元素求和来合并。我们经验表明，我们的通道注意力方法是一种有效的方式，可以进一步推动性能从SE [28]，而无需额外的可学习参数。作为一个简短的结论，我们使用平均和最大池功能在我们的通道注意力模块与减少率16在下面的实验。空间关注给出了通道细化特征，我们探索了一种有效的方法来计算空间注意力。设计哲学与渠道注意力分支是对称的。为了生成2D空间注意力图，我们首先计算2D描述符，该2D描述符编码所有空间位置上的每个像素处的通道信息然后，我们将一个卷积层应用于2D描述符，获得原始注意力图。最终的注意力图由sigmoid函数归一化。我们比较了生成2D描述符的两种方法：通道池化使用通道轴上的平均值和最大值池化以及标准1×1con卷积块注意模块9卷积将通道尺寸减小到1。此外，我们研究了以下卷积层的内核大小的影响：内核大小为3和7。在实验中，我们将空间注意模块放置在先前设计的通道注意模块之后，因为最终的目标是将两个模块一起使用。表2示出了实验结果。我们可以观察到通道池产生更好的准确性，表明显式建模的池化导致更精细的注意力推断，而不是可学习的加权通道池化（实现为1×1卷积）。在不同卷积核大小的比较中，我们发现，采用较大的核大小产生更好的精度在两种情况下。这意味着一个广泛的观点（i。e.大的感受野）需要用于决定空间上重要的区域。考虑到这一点，我们采用通道池方法和具有大核大小的卷积层来计算空间注意力。在一个简短的结论中，我们使用跨通道轴的平均和最大池化特征，卷积核大小为7作为我们的空间注意力模块。渠道的安排和空间的注意。在这个实验中，我们比较了三种不同的排列通道和空间注意力子模块的方式：顺序通道-空间、顺序空间-通道以及两个注意力模块的并行使用。由于每个模块具有不同的功能，顺序可能会影响整体性能。例如，从空间的角度来看，通道注意力是全局应用的，而空间注意力是局部工作的。此外，很自然地认为我们可以组合两个注意力输出来构建3D注意力图。在这种情况下，两个注意力可以并行应用，然后两个注意力模块的输出相加和归一化的sigmoid函数。表3总结了不同注意力安排方法的实验结果。从结果中，我们可以发现，顺序生成注意力地图比并行生成更精细的注意力地图。此外，通道优先顺序比空间优先顺序执行得稍好。请注意，所有的安排方法优于单独使用通道注意力，这表明利用两种注意力是至关重要的，而最佳安排策略进一步推动性能。4.2ImageNet-1 K图像分类我们执行ImageNet-1 K分类实验来严格评估我们的模块。我们遵循与第2.2节中规定的相同方案。4.1并在各种网络架构中评估我们的模块，包括ResNet [5]，WideResNet [6]和ResNext [7]。表4总结了实验结果。与CBAM网络显着优于所有基线，表明CBAM可以很好地推广大规模数据集的各种模型。此外，CBAM模型提高了最强方法之一SE [ 28 ]的准确性10吴朴李权架构参数GFLOPS前1位误差（%）前5名误差（%）ResNet18 [5]11.69M1.81429.6010.55[28]第28届中国国际汽车工业展览会 11.78M1.81429.4110.22ResNet18 [5]+CBAM11.78M1.81529.2710.09ResNet34 [5]21.80M3.66426.698.60[28]第28话我的世界21.96M3.66426.138.35ResNet34 [5]+CBAM21.96M3.66525.998.24ResNet50 [5]25.56M3.85824.567.50[28]第28话28.09M3.86023.146.70ResNet50 [5]+CBAM28.09M3.86422.666.31ResNet101 [5]44.55M7.57023.386.88[28]第28届中国国际汽车工业展览会49.33M7.57522.356.19ResNet101 [5]+CBAM49.33M7.58121.515.69WideResNet18 [6]（wide =1.5）25.88M3.86626.858.88WideResNet18 [6]（wide =1.5）+SE[28]26.07M3.86726.218.47WideResNet18 [6]（wide =1.5）+CBAM26.08M3.86826.108.43WideResNet18 [6]（wide =2.0）45.62M6.69625.638.20WideResNet18 [6]（wide =2.0）+SE[28]45.97M6.69624.937.65WideResNet18 [6]（wide =2.0）+CBAM45.97M6.69724.847.63ResNeXt50 [7]（32x4d）25.03M3.76822.856.48ResNeXt50 [7]（32x4d）+SE [28]27.56M3.77121.916.04ResNeXt50 [7]（32x4d）+CBAM27.56M3.77421.925.91ResNeXt101 [7]（32x4d）44.18M7.50821.545.75[28]第28届中国国际汽车工业展览会48.96M7.51221.175.66ResNeXt101 [7]（32x4d）+CBAM48.96M7.51921.075.59*所有结果都在PyTorch框架中重现。表4：ImageNet-1 K上的分类结果。单作物验证误差的报告。这是ILSVRC 2017分类任务的获胜方法。这意味着我们提出的方法是强大的，显示新的池化方法，产生更丰富的描述符和空间的注意，有效地补充了通道的注意力的功效。我们还发现，CBAM的总体开销是相当小的参数和计算。这促使我们将我们提出的模块CBAM应用于轻量级网络MobileNet [35]。表5总结了我们基于MobileNet架构进行的实验结果。我们将CBAM分为两个模型，基本模型和容量缩减模型（即。e.将宽度乘数（α）调整为0.7）。我们观察到类似的现象，如表4所示。CBAM不仅显著提高了基线的准确性，而且有利地提高了SE的性能[28]。这显示了CBAM在低端设备上应用的巨大潜力。4.3使用Grad-CAM进行网络可视化[18]对于定性分析，我们使用来自ImageNet验证集的图像将Grad-CAM [18]应用于不同的网络Grad-CAM是最近提出的一种可视化方法，它使用梯度来计算卷积层中空间位置当计算梯度时卷积块注意模块11架构参数GFLOPS前1位误差（%）前5名误差（%）MobileNet [35]α= 0。72.30M0.28334.8613.69MobileNet[35] α = 0。7+SE[28]2.71M0.28332.5012.49MobileNet[35] α = 0。7+CBAM2.71M0.28931.5111.48[35]第三十五话4.23M0.56931.3911.51[28]第28话我的世界5.07M0.57029.9710.63[35]第三十五话5.07M0.57629.019.99*所有结果都在PyTorch框架中重现。表5：使用轻量级网络MobileNet在ImageNet-1 K上的分类结果[35]。报告单作物验证错误。对于一个独特的班级，Grad-CAM结果清楚地显示了关注区域通过观察网络认为对预测类很重要的区域，我们试图看看这个网络是如何很好地利用功能的我们比较了CBAM集成网络（ResNet50 + CBAM）与基线（ResNet50）和SE集成网络（ResNet50 + SE）的可视化结果图4示出了可视化结果。图中还显示了目标类的softmax分数在图4中，我们可以清楚地看到，CBAM集成网络的Grad-CAM掩模比其他方法更好地覆盖目标对象区域。也就是说，CBAM集成网络很好地学习利用目标对象区域中的信息并从它们中聚合特征。注意，目标班级分数也相应增加。调查选择图5：用户研究的问题图像的示例。表6：用户研究结果。4.4提高可解释性在Grad-CAM论文第5.1节之后，我们基于Grad-CAM可视化进行了用户研究。我们随机选择了50个图像，这是正确的分类与两种方法（即。即基线和CBAM）。用户研究在Google Forms平台上进行。对于每个问题，随机洗牌的可视化被显示给受访者。对于可视化，示出了具有0.6或更大的Grad-CAM值的图像区域在实践中，受访者获得了完整的输入图像、地面实况标签和来自每种方法的两个图像区域（见图5）。比较标准是“在类别标签中，哪个区域看起来更具有类别区分性？“的。回答者可以选择其中一个更好，或者两者都相似。有50看起来是一样的295基线更好288CBAM更好66712吴朴李权输入图像ResNet50尾蛙卫生纸喇叭蜘蛛网美国白鹭坦克海堤空间加热器P=0.80736P=0.11857P=0.65681P=0.22357P=0.64185P=0.14763P=0.92236P=0.01176ResNet50+ SEP=0.87240P=0.14643P=0.77550P=0.25093P=0.70827P=0.15367P=0.97166P=0.26611ResNet50+ CBAMP =0.96340P =0.19994P =0.93707P =0.35248P =0.87490P =0.53005P =0.99085P = 0.59662门球鳗鱼锤头爱斯基摩犬雪豹船桨成年长腿校车输入图像ResNet50P=0.58732P=0.08126P=0.67128P=0.56834P=0.85873P=0.62856P=0.68065P=0.07429ResNet50+ SEP=0.89962P=0.14804P=0.72659P=0.61595P=0.96575P=0.79829P=0.73723P=0.92250ResNet50+ CBAMP =0.96039P =0.59790P =0.84387P =0.71000P =0.98482P =0.90806P =0.78636P = 0.98567图 4： Grad-CAM [18] 可视化结果。我们比较了 CBAM 集成网络（ResNet50 + CBAM）与基线（ResNet50）和SE集成网络（ResNet50 +SE）的可视化结果。针对最后的卷积输出计算梯度CAM可视化。地面实况标签显示在每个输入图像的顶部，P表示地面实况类别的每个网络的softmax分数卷积块注意模块13问题集的图像和25个回答者，产生了总共1250票。结果示于表6中。我们可以清楚地看到CBAM优于基线，显示出改进的可解释性。4.5MS COCO目标检测我们在Microsoft COCO数据集上进行对象检测[3]。该数据集涉及80k个训练图像（“2014 train”）和40k个验证图像（“2014 val”）。使用从0.5到0.95的不同IoU阈值上的平均mAP进行评估。根据[39，40]，我们使用所有训练图像以及验证图像的子集来训练我们的模型，并提供了5，000个用于验证的示例。我们的训练代码基于[41]，我们训练网络进行490K次迭代，以实现快速性能验证。我们采用Faster-RCNN[42]作为我们的检测方法，ImageNet预训练的ResNet 50和ResNet 101 [5]作为我们的基线网络。在这里，我们感兴趣的是通过插入-将CBAM与基线网络连接。由于我们使用相同的检测方法，所有的模型，增益只能归因于增强的表示能力，由我们的模块CBAM给出。如表7所示，我们观察到从基线的显著改进，证明了CBAM在其他识别任务上的泛化性能。4.6VOC 2007目标检测我们进一步在PASCAL VOC 2007测试集上进行实验。在本实验中，我们将CBAM应用于检测器，而之前的实验（表7）将我们的模块应用于基础网络。我们采用StairNet [30]框架，这是基于SSD [40]的最强多尺度方法之一。在实验中，我们在PyTorch平台中重现了SSD和StairNet为了准确地估计CBAM的性能改进，分别达到77.8%和78.9%的mAP@.5，这高于原始文献中报道的原始准确度。然后，我们将SE [28]和CBAM置于每个分类器之前，在预测之前细化由上采样的全局特征和相应的局部特征组成的最终特征，强制模型仅自适应地选择有意义的特征。我们在VOC2007 trainval和VOC 2012 trainval的联合集（训练时期的总数是250。我们使用0.0005的重量衰减和0.9的动量。在所有实验中，为了简单起见，输入图像的大小固定为300实验结果总结于表8中。我们可以清楚地看到，CBAM提高了所有强基线的准确性与两个骨干网络。注意，CBAM的准确性改进伴随着可忽略的参数开销，指示增强不是由于天真的容量增量而是由于我们的有效特征细化。此外，使用轻量级骨干网络[35]的结果再次表明，CBAM可以是低端设备的一种有趣的方法。14吴朴李权骨干检测器mAP@.5 mAP@.75 mAP@[.5，.95]ResNet50 [5]ResNet50 [5]+ CBAM[42]第四十二话[42]第四十二话46.248.228.129.227.028.1ResNet101 [5]ResNet101 [5]+ CBAM[42]第四十二话[42]第四十二话48.450.530.732.629.130.8* 所有结果都在PyTorch框架中再现。表7：MS COCO验证集上的目标检测mAP（%）。我们采用Faster R-CNN[42]检测框架，并将我们的模块应用于基础网络。CBAM将两个基线网络的mAP@[.5，.95]提高0.9骨干检测器mAP@.5参数（M）VGG16 [9]SSD [40]77.826.5VGG16 [9]楼梯网[30]78.932.0VGG16 [9][28] 2018年10月28日79.132.1VGG16 [9]StairNet [30] + CBAM79.332.1[35]第三十五话SSD [40]68.15.81[35]第三十五话楼梯网[30]70.15.98[35]第三十五话[28] 2018年10月28日70.05.99[35]第三十五话StairNet [30] + CBAM70.56.00* 所有结果都在PyTorch框架中再现。表8：VOC 2007测试集上的物体检测mAP（%）。我们采用StairNet[30]检测框架，并将SE和CBAM应用于检测器。CBAM有利地改善了所有强基线，具有可忽略的附加参数。5结论我们已经提出了卷积块注意模块（CBAM），这是一种提高CNN网络表示能力的我们应用基于注意力的特征细化与两个独特的模块，通道和空间，并取得了相当大的性能改善，同时保持开销小。对于通道注意力，我们建议使用最大池化特征和平均池化特征，从而产生比SE更精细的注意力[28]。我们进一步推动性能利用空间注意。我们的最后一个模块（CBAM）学习什么和哪里强调或抑制，并有效地细化中间特征。为了验证其有效性，我们使用各种最先进的模型进行了广泛的实验，并证实CBAM在三个不同的基准数据集上优于所有基线：ImageNet- 1K、MS COCO和VOC 2007。此外，我们可视化了模块如何精确推断给定输入图像。有趣的是，我们观察到，我们的模块诱导网络正确地专注于目标对象。我们希望CBAM成为各种网络体系结构的重要组成部分。确认这项工作得到了技术创新计划（第1996号）的支持10048320），由贸易、工业能源部（MI，韩国）资助。卷积块注意模块15引用1. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。计算机视觉和模式识别（CVPR）。（2009年）1、72. Krizhevsky，A.，Hinton，G.：从微小图像中学习多层特征13. Lin，T.Y.，Maire，M.，Belongie，S.，Hays，J.，Perona，P.，Ramanan，D.Dollár，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV）。（2014）1、134. LeCun，Y.，博图湖Bengio，Y.，Haffner，P.：基于梯度的学习应用于文档识别。IEEE会议录86（11）（1998）22785. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉和模式识别（CVPR）。（2016）1、3、6、7、9、10、13、146. Zagoruyko，S.，Komodakis，N.：广残的关系网。arXiv预印本arXiv：1605.07146（2016）1，3，6，9，107. Xie，S.，格尔希克河Dollár，P.，Tu，Z.，He，K.：深度神经网络的聚合残差变换arXiv预印本arXiv：1611.05431（2016）1，2，3，6，9，108. 塞格迪角Ioffe，S.，Vanhoucke，V.，Alemi，A.A.：起始-v4，起始-resnet和剩余连接对学习的影响。人工智能促进协会（AAAI）。（2017）1，39. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556（2014）1，3，1410. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。计算机视觉和模式识别（CVPR）。（2015）1、311. Chollet，F.：Xception：使用深度可分离卷积的深度学习。arXiv预印本arXiv：1610.02357（2016）2，312. Mnih，V.，Heess，N.格雷夫斯，A.，等：视觉注意的循环模型。神经信息处理系统的进展神经信息处理系统（NIPS）。（2014年）213. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。（2014年）214. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译（2014年）215. 徐，K.，Ba，J.，基罗斯河周，K.，Courville，A. Salakhudinov河泽梅尔河Bengio，Y.：显示、出席和讲述：具有视觉注意的神经图像字幕生成。（2015年）216. Gregor，K.，达尼赫尔卡岛格雷夫斯，A.，Rezende，D.J.，Wierstra，D.：Draw：一个用于图像生成的递归神经网络.（2015年）217. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。神经信息处理系统（NIPS）。（2015年）218. Selvaraju，R.R.，Cogswell，M. Das，A.，韦丹塔姆河Parikh，D. Batra，D.：Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。IEEE计算机视觉和模式识别会议论文集。（2017）61819. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。神经信息处理系统（NIPS）。（2012年）316吴朴李权20. 汉，D.，金，J.，Kim，J.：深层金字塔残余网络。计算机视觉和模式识别（CVPR）。（2017年）321. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。arXiv预印本arXiv：1608.06993（

下载后可阅读完整内容，剩余1页未读，立即下载