ECA-Net：深度卷积神经网络中的信道消耗模型

77 浏览量更新于2023-10-25 收藏 732KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11534--ECA-Net：深度卷积神经网络王启龙1，吴邦谷1，朱鹏飞1，李培华2，左王猛3，胡清华1，刘伟1天津大学智能与计算学院天津市机器学习重点实验室2大连理工大学3哈尔滨工业大学摘要最近，通道注意力机制已被证明在提高深度卷积神经网络（CNN）的性能方面具有巨大潜力。然而，大多数现有方法都致力于开发更复杂的注意力模块以获得更好的性能，这不可避免地增加了模型的复杂度。为了克服性能和复杂度之间的矛盾，本文提出了一种有效的信道消耗（ECA）模型，它只涉及少量的参数，同时带来明显的性能增益。通过剖析SENet中的通道注意模块，我们经验性地表明，避免降维对于学习通道注意是重要的，并且适当的跨通道交互可以在显著降低模型复杂度的同时保持性能。因此，我们提出了一种不降维的局部跨通道交互策略，该策略可以通过一维卷积有效地实现。此外，我们开发了一种自适应选择一维卷积核大小的方法建议的ECA模块是高效的，但也是有效的，例如，针对ResNet 50的主干网，我们的模块的参数和计算是80与. 2437万与470万-4GFLOPs对比3.86 GFLOPs，分别，和性能提升超过2%的前1级精度。我们广泛地评估了我们的ECA模块在图像分类，对象检测和实例分割与ResNets和MobileNetV2的骨干实验结果表明，我们的模块是更有效的，同时表现良好，对它的同行。1. 介绍深度卷积神经网络（CNN）已经广泛应用于计算机视觉领域，并且已经胡清华为通讯作者。电邮地址： qlwang，wubanggu，huqinghua@tju.edu.cn. 工作是超级-国家自然科学基金（批准号：61806140、61876127、61925602、61971086、U19A2073、61732011），Ma-浙江省实验室重大科研项目（2019DB0ZX01）。Q. 王先生获国家博士后创新人才计划资助图1.各种注意力模块的比较（即，SENet [14]，CBAM [33]，A2-Nets [4]和ECA-Net）使用ResNets [11]作为骨干模型，在分类准确性，网络参数和FLOP方面，由圆圈的半径表示。请注意，我们的ECA-Net获得了更高的准确性，同时具有更低的模型复杂性。在广泛的任务中取得了很大的进展，例如，图像分类、目标检测和语义分割。从开创性的AlexNet [17]开始，许多研究被持续研究以进一步提高深度CNN的性能[29，30，11，15，19，20，32]。最近，将通道注意力合并到卷积块中引起了很多兴趣，显示出在性能改进方面的巨大潜力[14，33，13，4，9，18，7]。其中一种代表性方法是挤压和激励网络（SENet）[14]，它学习每个卷积块的信道注意力，为各种深度CNN架构带来明显的性能增益在设定挤压（即，特征聚集）和激励（即，特征重新校准），一些研究通过捕获更复杂的通道依赖性[33，4，9，7]或通过与额外的空间注意力[33，13，7]相结合来改进SE块。虽然这些方法已经取得了11535模型没有DR跨渠道互动轻量级SENet [14]CBAM [33]GE-θ−[13]GE-θ[13]GE-θ+[13][4]第四届全国政协委员GSoP-Net [9]×√×√××√×√√×√×√√√–√××××√×ECA-Net（我们的）图2.我们的高效通道注意力（ECA）模块图。给定通过全局平均池化（GAP）获得的聚合特征，ECA通过执行大小为k的快速1D卷积来生成信道权重，其中k经由信道维度C的映射自适应地确定。精度越高，模型复杂度越高，计算负担越重与上述以更高的模型复杂度为代价来获得更好的性能的方法不同，本文关注的是一个问题：人们能否以更有效的方式学习有效的通道注意力？为了回答这个问题，我们首先重新审视SENet中的通道注意力模块。具体而言，给定输入特征，SE块首先独立地对每个通道采用全局平均池化，然后使用两个具有非线性的全连接两个FC层被设计为捕获非线性跨信道交互，其涉及用于控制模型复杂性的降维虽然这种策略在后续的通道注意力模块中被广泛使用[33，13，9]，但我们的实证研究表明，降维对通道注意力预测带来了副作用，并且捕获所有通道之间的依赖关系是低效的因此，本文提出了一种用于深度CNN的高效信道注意力（ECA）模块，该模块避免了维数降低，并以有效的方式捕获跨信道交互如图2所示，在没有降维的信道全局平均池化之后，我们的ECA通过考虑每个信道及其k个邻居来捕获局部跨信道交互。这种方法被证明是保证效率和效果。注意，我们的ECA可以通过大小为k的快速1D卷积来有效地实现，其中内核大小k表示局部跨通道交互的覆盖，即，有多少邻居参与一个信道的注意力预测为了避免通过交叉验证手动调整k，我们开发了一种自适应确定k的方法，其中交互的覆盖率（即，内核大小k）与信道尺寸成比例。如图1和表3所示，与骨干模型[11]相反，具有ECA的深度CNN表1.比较现有的注意力模块是否没有通道降维（无DR），跨通道交互和比SE更少的参数（由轻量级表示）。模块（称为ECA-Net）引入了很少的附加参数和可忽略的计算，同时带来了不可表的性能增益。例如，对于24.37M参数和3.86GFLOPs的ResNet-50，ECA-Net50的附加参数和计算分别为80和4.7e-4GFLOPs;同时，ECA-Net 50 在 Top-1 准确度方面比 ResNet-50 高出2.28%。表 1 总结了现有的注意力模块是否通道降维（DR），跨通道交互和轻量级模型，其中我们可以看到，我们的ECA模块通过避免通道降维同时以极其轻量级的方式捕获跨通道交互来学习有效的通道注意力。为了评估我们的方法，我们在ImageNet-1 K [6]和MS COCO [23]上使用不同的深度CNN架构在各种任务中进行了实验。本文的主要贡献如下：(1)我们剖析了SE块，并实证证明了避免降维和适当的跨渠道互动对学习有效和高效的渠道注意力分别是重要的。(2)基于上述分析，我们尝试通过提出高效通道注意力（ECA）来为深度CNN开发一个(3)在ImageNet-1 K和MS COCO上的实验结果表明，我们的方法具有较低的模型复杂度，同时实现了非常有竞争力的性能。2. 相关工作注意机制已被证明是增强深层CNN的潜在SE-Net[14]首次提出了一种学习信道注意力的有效机制，并取得了令人满意的性能。随后，注意力模块的发展可以大致分为两个方向：（1）增强特征聚合;（2）渠道关注与空间关注相结合。具体而言，CBAM [33]采用平均和最大池化来ag-自适应选择内核大小：（C）k5~CGAPC×HHW100000000000W100000000000元素级乘积11536⊙2WHRr聚合特征。GSoP [9]引入了二阶池，以实现更有效的特征聚合。GE [13]使用深度卷积[5]探索空间扩展，方法关注#. Param.Top-1Top-5香草N/A075.2092.25SEσ（f{W1，W2}（y））2×C2/r 76.71 93.38SE-Var1σ（y）076.00 92.90聚合特征。 [33]第27话：一个人的幸福注意使用核大小为k×k的二维卷积，SE-Var2σ（w y）CSE-Var3σ（Wy）C77.07 93.3177.42 93.64然后将其与频道关注度相结合。与非本地（NL）神经网络[32]共享类似双注意力网络（A2-Nets）[4]为图像或视频识别的NL块引入了一种新的关系函数。双注意力网络（DAN）[7]同时考虑了基于NL的通道和空间注意力用于语义分割。然而，由于其高模型复杂度，大多数基于NL的注意力模块只能在单个或几个卷积块显然，上述所有方法都集中在开发复杂的注意力模块，以更好地SE-GC 1σ（GC 16（y））C2/1676.95九十三点四十七分SE-GC 2σ（GCC/16（y））16×C76.98九十三点三一SE-GC3σ（GCC/8（y））8×C76.96 93.38 ECA-NSσ（ω），公式（七）k×C77.3593.61非洲经委会（我国）σ（C1D k（y））k=377.43 九十三点六五表2.在ImageNet上使用ResNet-50作为骨干模型的各种频道注意力模块的比较。#. Param.表示信道注意模块的参数数量; GC和C1 D分别表示群卷积和1D卷积;k是C1 D的核大小。y=g（X），f{W1，W2}的形式f{W，W}（y）=W2ReLU（W1 y），（2）性能与他们不同的是，我们的ECA旨在学习12以低模型复杂度获得有效的信道注意力我们的工作还涉及高效卷积，这是为轻量级CNN设计的。两个广泛使用的有效卷积是群卷积[36，34，16]和深度方向可分离卷积[5，28，37，24]。如表2所示，虽然这些有效的卷积涉及较少的参数，但它们在注意力模块中几乎没有效果。我们的ECA模块旨在捕获局部跨通道交互，这与通道局部卷积[35]和通道卷积[8]有一些相似之处;与之不同的是，本文提出了一种具有自适应核大小的一维卷积来代替通道注意模块中的FC层。与组卷积和深度可分卷积相比，该方法在降低模型复杂度的同时，获得了更好的性能.3. 该方法在本节中，我们首先回顾SENet [14]中的信道注意力SE块）。然后，我们通过分析降维和跨通道相互作用的影响，对SE阻滞进行了实证诊断。这促使我们提出我们的ECA模块。此外，我们开发了一种自适应确定ECA参数的方法，并最终展示了如何将其用于深度CNN。3.1. 在SE块设一个卷积块的输出为X ∈RW×H×C，其中W、H和C是宽度、高度和通道尺寸（即，过滤器数量）。因此SE块中的信道的权重可以被计算为ω=σ（f{W1，W2}（g（X），（1） H.W.，H其中g（X）=1i=1，j=1Xij是通道全局其中ReLU指示整流线性单元[25]。为了避免高模型复杂度，W1和W2的大小分别设置为C×（C）和（C）×C可以看出，f{W1，W2}包含了信道注意块的所有参数.而方程中的降（2）可以减少模型的复杂性，它破坏了通道和它的权重之间的直接对应关系例如，一个单个FC层使用所有通道的线性组合来预测每个通道的权重。但是Eq. (2)首先将信道特征投影到低维空间中，然后将它们映射回来，使得信道与其权重之间的对应是间接的。3.2. 高效渠道注意（ECA）模块在重新审视SE模块的基础上，我们对通道维度缩减和跨通道交互作用对通道注意学习的影响在此基础上，我们提出了有效的渠道注意力（ECA）模型.3.2.1避免降如上所述，方程中的维数降低。(2)使得信道与其权重之间的对应关系是间接的。为了验证其效果，我们将原始SE块与其三个变体（即，SE-Var 1、SE-Var 2和SE-Var 3），所有这些都不执行降维。如表2所示，没有参数的SE-Var 1仍然优于原始网络，这表明信道注意力具有提高深度CNN性能的能力同时，SE-Var 2独立地学习每个通道的权重，这略优于SE块，同时涉及较少的参数。这可能表明，渠道和平均池化（GAP），σ是Sigmoid函数。使其权重需要直接对应，同时避免二次映射。11537我W=G。.........好吧..重要性降低比非线性信道相关性的消除更重要。此外，采用一个FC层的SE-Var 3在SE块中具有降维的情况下比两个FC层执行得更好。所有这些结果都清楚地表明，避免降维有助于学习有效的信道注意力。因此，我们开发我们的ECA模块，没有渠道降维。在SE-Var 2上没有带来增益，指示其不是捕获局部跨信道交互的有效方案。其原因可能是SE-GC完全抛弃了不同群体之间的依赖性。在本文中，我们探索另一种方法来捕捉本地跨渠道的互动，旨在保证效率和效果。具体地，我们采用频带矩阵Wk来学习信道注意力，并且Wk具有w1，1···w1，k 0 0······03.2.2局部跨渠道相互作用0.0W2，2···W2，k+10·····0W.给定聚合特征y∈RC无量纲的。........减少，可以通过以下方式ω=σ（Wy），（3）其中W是C×C参数矩阵。特别地，对于SE-Var 2和SE-Var 3，我们有1、1···0Wvar2=.........................................0.....................wC，C0···0 0···wC，C−k+1···wC，C（六）显然，在Eq.(6)涉及k×C参数，其通常小于等式。（五）、此外，Eq. (6)避免了不同群体之间的完全独立，当量（五）、如在表2中所比较，等式中的方法。(6)（S 卩，ECA-NS）优于等式的SE-GC。（五）、对于Eq。(6)通过仅考虑yi与其k个邻居之间的相互作用来计算yi的权重，即，W=W1， 1···W 1，C好吧..（四）ω=σ . ΣkΣwjyj ，yj∈k，（7）Wvar3=...........................................我我j=1Chelw1、C . - 是的- 是的wC，C其中，SE-Var 2的Wvar2是对角矩阵，涉及C参数; SE-Var 3的Wvar3是全矩阵，包括其中k表示yi的k个相邻信道的集合。更有效的方式是使所有信道共享相同的学习参数，即，C×C参数。如等式1所示（4）、关键区别在于SE-Var 3考虑了跨通道交互，而SE-ω=σ . ΣkwjyjΣ，yj∈k.（八）Var 2没有，因此SE-Var 3实现了更好的性能这一结果表明，跨通道互动有利于学习通道注意。然而，SE-Var 3需要大量的参数，导致高模型复杂度，特别是对于大通道数。SE-Var 2和SE-Var 3之间可能的折衷是将Wvar2扩展到块对角矩阵，即，我我我j=1注意，这种策略可以通过快速的具有k核大小的一维卷积，即，ω=σ（C1Dk（y）），（9）其中C1D表示1D卷积。这里，第1章···0当量(9)有效信道注意力（ECA）G。G.. -是的-是的.,(5)Ule，它只涉及k个参数。如Ta中所示-表2中，我们的ECA模块与k= 3实现了类似的结果0的情况。- 是的- 是的WG其中Eq. (5)将通道划分为G组，每组包括C/G通道，并独立学习每组中的通道注意力，以局部方式捕获跨通道因此，它涉及到C2/G参数。从卷积的角度来看，SE-Var 2、SE-Var 3和Eq. (5)可以被认为是一个深度方向的可分离卷积，FC层和群卷积，分别。这里，具有群卷积的 SE 块（ SE-GC ）由 σ （ GCG （ y ）） =σ（WGy）指示。然而，如[24]所示，过多的群卷积将增加存储器访问成本，从而降低计算效率。毛皮，如表2所示，具有不同基团的SE-GC......11538与SE-var 3，同时具有低得多的模型复杂性，这保证了效率和有效性，通过适当地捕捉本地跨通道的相互作用。3.2.3本地跨渠道互动的覆盖由于我们的ECA模块（9）旨在适当地捕获局部跨通道交互，因此交互的覆盖（即，1D卷积的核大小k可以针对各种CNN架构中具有不同通道编号的卷积块手动调整交互的优化覆盖。然而，通过交叉验证进行手动调优将耗费大量计算资源。群卷积已经成功地11539.B.图3.我们的ECA模块的PyTorch代码。采用改进CNN架构[36，34，16]，其中高维（低维）通道涉及给定固定数量的组的长范围（短范围）卷积。共享类似的哲学，合理的是，交互的覆盖范围（即，1D卷积的核大小k）与通道尺寸C成比例。换句话说，在k和C之间可能存在映射Φ：C= φ（k）。（十）最简单的映射是线性函数，即， φ（k）=γk−b。然而，线性函数所表征的关系过于有限。另一方面，众所周知，通道尺寸C（即，滤波器的数量）通常被设置为2的幂。因此，我们通过将线性函数φ（k）=γk−b扩展到非线性函数引入一个可能的解决方案，即，C=φ（k）= 2（γk−b）。（十一）然后，给定信道维度C，核大小k可以由下式自适应地确定：将我们的ECA应用于深度CNN，我们按照[14]中相同的配置用我们的ECA模块替换SE块。由此产生的网络被命名为ECA-Net。图3给出了ECA的PyTorch代码。4. 实验在本节中，我们分别使用ImageNet [6]和MS COCO[23]评估了所提出的大规模图像分类、对象检测和实例分割的方法。具体来说，我们首先评估内核大小对ECA模块的影响，并与ImageNet上最先进的同类模块进行比较然后，我们使用Faster R-CNN [26]，Mask R-CNN [10]和RetinaNet [22]在MS COCO上验证了我们的ECA-Net的有效性。4.1. 实现细节为了在ImageNet分类上评估我们的ECA-Net，我们采用了四种广泛使用的CNN作为骨干模型，包括ResNet-50 [11]，ResNet-101 [11]，ResNet-512 [11]和MobileNetV 2 [28]。对于使用ECA训练ResNets，我们采用完全相同的数据增强，超参数设置[11，14]。具体而言，输入图像被随机裁剪为224×224，并带有随机水平翻转。网络的参数优化的随机梯度下降（SGD）的重量衰减为1 e-4，动量为0.9和小批量大小为256。所有通过将初始学习率设置为0.1，在100个时期内训练模型，该初始学习率每30个时期减少10倍。为了使用ECA训练MobileNetV 2，我们遵循[28]中的设置，其中使用SGD在400个epoch内训练网络，权重衰减为4 e-5，动量为0.9，minibatch大小为96。初始学习速率被设置为0.045，并且通过线性衰减速率0.98减小。为了在验证集上进行测试，首先将输入图像的短边调整为256，采用224× 224的中心裁剪进行评价。所有型号... log2（C）。k=（C）=+、（十二）由PyTorch Toolkit1实现。我们进一步评估我们的方法在MS COCO上使用.γ γ。奇怪哪里|不|odd表示t的最近奇数。在本文中，我们在所有实验中将γ和b分别设为2和1。很明显，通过映射，高-通过使用非线性映射，维通道具有较长范围的相互作用，而低维通道经历较短范围的相互作用。3.3.用于深度CNN的图2展示了ECA模块的概述在使用GAP聚合卷积特征而不降低维度之后，ECA模块首先自适应地确定更快的 R-CNN [26] ， Mask R-CNN [10] 和 RetinaNet[22]，其中ResNet-50和ResNet-101以及FPN [21]用作骨干模型。我们使用MMDetection工具包[3]实现所有检测器，并使用默认设置。具体来说，将输入图像的短边重新调整为800，然后使用SGD优化所有模型，权重衰减为1 e-4，动量为0.9，小批量大小为8（4个GPU，每个GPU 2个图像）。学习率被初始化为0.01，并分别在8和11个时期后减少10倍。我们在COCO的train2017上训练了12个epoch内的所有检测器，并在val2017上报告结果以供比较。所有程序都在配备四个RTX 2080TiGPU和英特尔（R）挖掘内核大小k，然后执行1D卷积，11540通过Sigmoid函数来学习通道注意力。对于1https://github.com/BangguWu/ECANet11541方法骨干模型#. Param.FLOPs培训推理Top-1Top-5ResNet [11]24.37M3.86G1024 FPS1855 FPS75.2092.52SENet [14]26.77M3.87G759 FPS1620 FPS76.7193.38CBAM [33]26.77M3.87G472 FPS1213 FPS77.3493.69A2-Nets [4]†GCNet [2]ResNet-5033.00M28.08M6.50G3.87GN/AN/AN/AN/A77.0077.7093.5093.66GSoP-Net1 [9]28.05M6.18G596 FPS1383 FPS77.6893.98AA-Net [1]25.80M4.15GN/AN/A77.7093.80ECA-Net（我们的）24.37M3.86G785 FPS1805 FPS77.4893.68ResNet [11]42.49M7.34G386 FPS1174 FPS76.8393.48SENet [14]47.01M7.35G367 FPS1044 FPS77.6293.93CBAM [33]ResNet-10147.01M7.35G270 FPS635 FPS78.4994.31AA-Net [1]45.40M8.05GN/AN/A78.7094.40ECA-Net（我们的）42.49M7.35G380 FPS1089 FPS78.6594.34ResNet [11]57.40M10.82G281 FPS815 FPS77.5893.66SENet [14]ResNet-15263.68M10.85G268 FPS761 FPS78.4394.27ECA-Net（我们的）57.40M10.83G279 FPS785 FPS78.9294.55[28]第二十八话3.34M319.4M711 FPS小行星208671.6490.20SenetMobileNetV23.40M320.1M671 FPS2000 FPS72.4290.67ECA-Net（我们的）3.34M319.9M676 FPS小行星201072.5690.81表3. ImageNet上不同注意力方法在网络参数方面的比较（#. Param.）每秒浮点运算（FLOPs）、训练或推断速度（每秒帧，FPS）和Top-1/Top-5准确度（以%计）。†：由于A2-Nets和AA-Net的源代码和模型是公开的，我们不比较它们的运行时间。图：AA-Net使用Inception数据进行训练增强和不同的学习率设置。Xeon Silver 4112CPU@2.60GHz。4.2. 基于ImageNet 1K的在这里，我们首先评估内核大小对ECA模块的影响，并验证我们的方法自适应确定内核大小的有效性，然后我们使用ResNet-50，ResNet-101，ResNet-152和MobileNetV 2与最先进的同行和CNN模型进行比较。78.878.678.478.278.077.877.677.44.2.1核尺寸（k）对ECA模的影响如等式1所示。(9)我们的ECA模块涉及参数k，即，1D卷积的核大小这一部分77.277.076.83 5 7 9k个评估其对ECA模块的影响，并验证其有效性，我们的方法用于自适应选择核大小的有效性。为此，我们采用ResNet-50和ResNet-101作为骨干模型，并通过将k设置为3到9与ECA模块训练它们。结果如图4所示，从中我们有以下观察结果。首先，当k在所有卷积块中固定时，ECA模块分别针对ResNet-50和ResNet-101在k= 9和k= 5处获得最佳结果。由于ResNet- 101具有更多的中间层，这些中间层主导了ResNet-101的性能，因此它可能更喜欢小的内核大小。此外，这些结果表明，不同的深度CNN具有不同的最优k，k对ECA网络的性能有明显的影响。此外，ResNet-101的准确性波动（± 0.5%）大于ResNet- 50的准确性波动（± 0.15%），我们推测原因是更深的网络-ECA-Net50ECA-Net101ECA 50-自适应ECA 101-自适应前1精度11542图4.使用ResNet-50和ResNet-101作为主干模型的具有不同k数的ECA模块的结果在这里，我们也给出了ECA模块的结果与自适应选择的内核大小，并与SENet作为基线进行比较。作品对固定核尺寸比浅的更敏感。另外，由等式1自适应地确定的内核大小。(12)通常优于固定的，同时它可以避免通过交叉验证手动调整参数k上述结果表明，我们的自适应核大小选择在获得更好的和稳定的结果的有效性。最后，ECA模块与不同数量的k一致优于SE块，验证了避免降维和局部跨通道交互对学习通道注意力有积极影响。115434.2.2使用不同深度CNN的比较ResNet-50我们将我们的ECA模块与ImageNet上使用ResNet-50的几种最先进的注意力方法进行了比较，包括SENet [14]，CBAM [33]，A2-Nets [4]，AA-Net [1]、GSoP-Net1 [9]和GCNet [2]。评估度量包括效率（即，网络参数、每秒浮点运算（FLOP）和训练/推理速度）和有效性（即，Top-1/Top- 5精度）。为了比较，我们复制了[14]中的ResNet和SENet的结果，并在其原始论文中报告了其他比较方法的结果为了测试各种模型的训练/推理速度，我们采用了比较CNN的公开模型，并在同一计算平台上运行它们。结果在表3中给出，其中我们可以看到我们的ECA-Net具有几乎相同的模型复杂度（即，网络参数，FLOP和速度）与原始ResNet-50相比，同时在Top-1准确度方面实现了2.28%的增益。与现有技术的对应物（即，SENet、CBAM、A2-Nets、AA-Net、GSoP-Net 1和GCNet），ECA-Net在降低模型复杂度的同时，获得了更好的或有竞争力的结果。ResNet-101使用ResNet-101作为主干模型，我们将我们的ECA-Net与SENet [14]，CBAM [33]和AA-Net [1].从表3中我们可以看到，ECA-Net在几乎相同的模型复杂度下，比原始ResNet-101的性能高出1.8% 。 ECA-Net 在 ResNet-50 上的表现与 SENet 和CBAM相似，但在模型复杂度方面与AA-Net相比具有很强的竞争力。请注意，AA-Net使用Inception数据增强和不同的学习速率设置进行训练ResNet-152使用ResNet-152作为主干模型，我们将我们的ECA-Net与SENet [14]进行了比较。从表3中我们可以看到，ECA-Net在Top-1准确度方面将原始ResNet-152提高了约1.3%，相同的模型复杂度。与SENet相比，ECA-Net在模型复杂度较低的情况下，在Top-1方面获得了0.5%的增益针对ResNet-50、ResNet- 101和ResNet-152的结果证明了我们的ECA模块在广泛使用的ResNet架构上的有效性。MobileNetV2除了ResNet架构，我们还验证了我们的ECA模块在轻量级CNN架构上的有效性。为此，我们采用MobileNetV2 [28]作为骨干模型，并将我们的ECA模块与SE进行块特别地，我们在残留连接位于MobileNetV2的每个所有模型都使用完全相同的设置进行训练。表3中的结果显示，我们的ECA-Net在Top-1准确度方面分别将原始MobileNetV 2和SENet提高了约此外，我们的ECA-Net比SENet具有更小的模型大小和更快的训练/推理速度。以上结果再次验证了ECA模块的高效性和有效性CNN模型#. Param.FLOPsTop-1Top-5ResNet-20074.45M14.10G78.2094.00inception-V325.90M5.36G77.4593.56ResNeXt-10146.66M7.53G78.8094.40DenseNet-264（k=32）31.79M5.52G77.8593.78DenseNet-161（k=48）27.35M7.34G77.6593.80ECA-Net 50（我们的）24.37M3.86G77.4893.68ECA-Net 101（我们的）42.49M7.35G78.6594.34表4.与ImageNet上最先进的CNN的比较4.2.3与其他CNN模型的比较在本部分的最后，我们将我们的ECA-Net 50和ECA-Net 101与其他最先进的CNN模型进行了比较，包括ResNet-200 [12] ， Inception-v3 [31] ， ResNeXt [34] ，DenseNet [15]。这些CNN模型具有更深更广的结构，其结果都是从原始论文中复制的。如表4所示，ECA-Net 101优于ResNet-200，表明我们的ECA-Net可以使用更少的计算成本来提高深度CNN的性能同时，我们的ECA-Net 101是非常竞争的ResNeXt-101，而后者采用更多的卷积滤波器和昂贵的群卷积。此外，ECA-Net 50 与 DenseNet-264 （ k=32 ）， DenseNet-161（k=48）和Inception-v3相当，但它具有较低的模型复杂度。所有上述结果表明，我们的ECA-Net与最先进的CNN相比表现良好请注意，我们的ECA也有很大的潜力进一步提高比较CNN模型的性能。4.3. 基于MS COCO的在本小节中，我们使用Faster R-CNN [26]，Mask R-CNN [10]和RetinaNet [22]评估我们的ECA-Net在对象检测任务上的表现我们主要比较ECA-Net与ResNet和SENet。所有CNN模型都在ImageNet上进行预训练，然后通过微调转移到MS COCO。4.3.1使用更快的R-CNN进行比较使用Faster R-CNN作为基本检测器，我们采用50层和101层的ResNet以及FPN [21]作为骨干模型。如表5所示，SE块或ECA模块的集成可以显著提高对象检测的性能。与此同时，我们的ECA 在使用 ResNet-50 和ResNet-101的AP方面分别优于SE块0.3%和0.7%。4.3.2使用Mask R-CNN的我们进一步利用Mask R-CNN来验证我们的ECA-Net在对象检测任务上的有效性。如表5所示，在以下设置下，我们的ECA模块在AP方面优于原始ResNet1.8%和1.9%。11544方法检测器#. Param.GFLOPSAPAP50AP75APSAPMAPLResNet-5041.53百万207.0736.458.239.221.840.046.2+ SE块44.02个月207.1837.760.140.922.941.948.2+ 非洲经委会（我们的）Faster R-CNN41.53百万207.1838.060.640.923.442.148.0ResNet-10160.52百万283.1438.760.641.922.743.250.4+ SE块65.24百万283.3339.662.043.123.744.051.4+ 非洲经委会（我们的）60.52百万283.3240.362.944.024.544.751.3ResNet-5044.18个月275.5837.258.940.322.240.748.0+ SE块46.67个月275.6938.760.942.123.442.750.0+ 1 NL46.50个月288.7038.059.841.0N/AN/AN/A+ GC块+ 非洲经委会（我们的）Mask R-CNN46.90个月44.18个月279.60275.6939.439.061.661.342.442.1N/A24.2N/A42.8N/A49.9ResNet-10163.17个月351.6539.460.943.323.043.751.4+ SE块67.89百万351.8440.762.544.323.945.252.8+ 非洲经委会（我们的）63.17个月351.8341.363.144.825.145.852.9ResNet-5037.74个月239.3235.655.538.220.039.646.8+ SE块40.23个月239.4337.157.239.921.240.749.3+ 非洲经委会（我们的）RetinaNet37.74个月239.4337.357.739.621.941.348.9ResNet-10156.74个月315.3937.757.540.421.142.249.5+ SE块61.45百万315.5838.759.141.622.143.150.9+ 非洲经委会（我们的）56.74个月315.5739.159.941.822.843.450.6表5.COCO val2017上不同方法的物体检测结果分别为50层和101层。同时，ECA模块使用ResNet- 50和ResNet-101作为骨干模型分别比SE块获得0.3%和0.6%的增益使用ResNet-50，ECA优于一个NL [32]，并且可与GC块[2]进行比较，使用较低的模型复杂度。4.3.3使用RetinaNet的此外，我们验证了我们的ECA-Net在对象检测使用一级检测器，即，视网膜网。如表5所示，我们的ECA-Net在50层和101层网络的AP方面分别优于与此同时，ECA-Net将ResNet-50和ResNet-101的SE-Net分别提高了0.2%和0.4%。总之，表5中的结果表明，我们的ECA-Net可以很好地推广到对象检测任务。具体来说，ECA模块比原始ResNet带来了明显的改进，同时使用较低的模型复杂度来形成SE块。特别是，我们的ECA模块实现了更多的增益为小ob-bundles，这通常是更难以检测。4.4. 基于MS COCO的实例分段方法APAP50AP75APSAPMAPLResNet-5034.155.536.216.136.750.0+ SE块35.457.437.817.138.651.8+ 1 NL34.756.736.6N/AN/AN/A+ GC块35.758.437.6N/AN/AN/A+ 非洲经委会（我们的）35.658.137.717.639.051.8ResNet-10135.957.738.416.839.153.6+ SE块36.859.339.217.240.353.6+ 非洲经委会37.459.939.818.141.154.111545表6.在COCO val 2017上使用Mask R-CNN的不同方法的实例分割结果。5. 结论在本文中，我们专注于学习具有低模型复杂度的深度CNN的有效信道注意力。为此，我们提出了一个有效的通道注意力（ECA）模块，它通过一个快速的一维卷积产生通道注意力，其内核大小可以自适应地确定一个非线性映射的通道尺寸。实验结果表明，我们的ECA是一个非常然后，我们给出了我们的ECA模块使用Mask R-CNN在MS COCO上的实例分割结果如表6所示，ECA模块在原始ResNet上实现了显著的增益，同时在模型复杂度较低的情况下比SE块表现更好对于ResNet-50作为骨干，具有较低模型复杂度的ECA优于NL [32]，并且与GC块[2]相当。这些结果验证了我们的ECA模块对各种任务具有良好的泛化能力。轻量级的即插即用模块，用于提高各种深度CNN架构的性能，包括广泛使用的 ResNets 和轻量级的MobileNetV2。此外，我们的ECA网络表现出良好的泛化能力，在目标检测和实例分割任务。将来，我们将把 ECA 模块应用到更多的 CNN 架构中（例如，ResNeXt和Inception [31]），并进一步研究ECA与空间注意模块的结合。11546引用[1] IrwanBello ， Barret Zoph ， Ashish Vaswani ， JonathonShlens，and Quoc V.乐注意力增强卷积网络。arXiv：1904.09925，2019。[2] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。在ICCV研讨会，2019年。[3] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu ， Zheng Zhang ， Daizhi Ch

下载后可阅读完整内容，剩余1页未读，立即下载