FcaNet:频率通道注意力网络

4 浏览量更新于2023-10-16 收藏 12.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10607073747576777879808174.8377.8679.1979.8475.0278.5779.6380.0274.5877.2778.7279.397830FcaNet: 频率通道注意力网络0秦泽群1，张鹏翼1，吴飞1，2，李曦1，2*01浙江大学计算机科学学院，2浙江大学上海高级研究院0zequnqin@gmail.com, pyzhang@zju.edu.cn, wufei@cs.zju.edu.cn, xilizju@zju.edu.cn0摘要0注意机制，尤其是通道注意力，在计算机视觉领域取得了巨大的成功。许多工作关注如何设计高效的通道注意力机制，而忽视了一个基本问题，即通道注意力机制使用标量来表示通道，这是由于大量信息丢失而困难的。在这项工作中，我们从不同的角度出发，将通道表示问题视为使用频率分析进行压缩的过程。基于频率分析，我们在数学上证明了传统的全局平均池化是频域特征分解的一种特殊情况。在这个证明的基础上，我们自然地推广了频域中通道注意力机制的压缩，并提出了我们的多光谱通道注意力方法，称为FcaNet。FcaNet简单而有效。我们可以在计算中改变几行代码，以在现有的通道注意力方法中实现我们的方法。此外，与其他通道注意力方法相比，所提出的方法在图像分类、目标检测和实例分割任务上取得了最先进的结果。我们的方法在参数数量和计算成本相同的情况下，始终优于基线SENet。我们的代码和模型可以在https://github.com/cfzd/FcaNet上公开获取。01.引言0作为特征建模中的一个重要且具有挑战性的问题，卷积神经网络（CNN）的注意机制最近引起了广泛关注，并在计算机视觉[40]和自然语言处理[34]等许多领域得到了广泛应用。原则上，它们旨在有选择地集中注意力于一些重要信息，并具有许多类型的变体（例如，空间注意力、通道注意力和自注意力），对应于0*通讯作者。0参数数量（百万）0Top-1准确率034层 50层 101层 152层0我们的SENetResNet0图1.在ImageNet上的分类准确率比较。在参数数量和计算成本相同的情况下，我们的方法始终优于基线SENet。0对于不同的特征维度，由于特征建模的简单性和有效性，通道注意力直接学习将不同通道的重要性权重附加到通道上，成为深度学习社区中流行且强大的工具。通常，通道注意力方法的核心步骤是使用标量来对每个通道进行计算，以便于受限的计算开销，全局平均池化（GAP）成为深度学习社区中的事实标准选择，因为它简单高效。然而，每朵玫瑰都有刺。GAP的简单性使其难以捕捉各种输入的复杂信息。一些方法，如CBAM [39]和SRM[23]进一步使用全局最大池化和全局标准差池化来增强GAP的性能。与以往的工作不同，我们将通道的标量表示视为一种压缩问题。也就是说，通道的信息应该由一个标量紧凑地编码，同时尽可能保持整个通道的表示能力。通过这种方式，如何有效地压缩通道与标量由一个7840标量由于受限的计算开销是一个主要困难，对于通道注意力至关重要。基于上述动机，我们提出使用离散余弦变换（DCT）来压缩通道中的信息，原因如下：1）DCT是信号处理中广泛使用的数据压缩方法，特别是在数字图像和视频中。许多广泛使用的图像和视频格式，如JPEG、HEIF、MPEG和H.26x，使用DCT来实现数据压缩。DCT具有很强的能量压缩特性[1,30]，因此可以实现高质量的数据压缩比[2,22]。这个特性满足了通道注意力的需求，即用标量表示通道。2）DCT可以通过逐元素乘法实现，并且是可微分的。这样，它可以轻松地集成到CNN中。3）令人惊讶的是，DCT可以被视为GAP的一种推广。从数学上讲，GAP（在SENet[21]中显示了其有效性）只等价于DCT的最低频率分量，留下了许多其他潜在有用的频率分量未被探索。这极大地激发了我们将DCT量身定制为通道注意力机制的动机。在本文中，我们进一步提出了一种简单、新颖但有效的多光谱通道注意力（MSCA）框架，基于上述讨论。为了更好地压缩通道并探索GAP遗漏的分量，我们提出了量身定制的DCT，并使用DCT的多个但有限的频率分量来进行通道注意力机制。需要注意的是，尽管我们使用了多光谱通道注意力，但每个通道仍然由一个标量表示。随着MSCA框架的发展，如何为每个通道选择DCT的频率分量是重要的。因此，我们提出了三种频率分量选择准则来实现和验证MSCA框架，它们是LF（基于低频的选择）、TS（两步选择）和NAS（神经架构搜索选择）。通过这些选择准则，我们的方法在与其他通道注意力方法的比较中取得了最先进的性能。总之，本工作的主要贡献可以总结如下。0•我们将通道注意力视为一种压缩问题，并在通道注意力中引入了DCT。然后，我们证明了传统的GAP是DCT的一个特例。基于这个证明，我们在频域中推广了通道注意力，并提出了我们的方法，即多光谱通道注意力框架（FcaNet）。0•我们提出了三种频率分量选择准则，以配合所提出的多光谱通道注意力框架实现FcaNet。0• 大量实验证明了所提出的方法0该方法在ImageNet和COCO数据集上取得了最先进的结果，与SENet具有相同的计算成本。ImageNet上的结果如图1所示。02. 相关工作0CNN中的注意力机制在[40]中，首次提出了一种视觉注意力方法来模拟图像字幕任务中特征的重要性。然后，许多方法开始关注注意力机制。残差注意力网络[35]通过下采样和上采样使用空间注意力机制。此外，SENet[21]提出了通道注意力机制。它对通道进行GAP，然后使用全连接层计算每个通道的权重。此外，GE[20]使用空间注意力更好地利用特征上下文，A2-Net[7]为图像或视频识别构建了一个关系函数。受到这些工作的启发，一系列工作如BAM [28]，DAN [9]，CBAM[39]，scSE [32]和CoordAttention[19]被提出来融合空间注意力[45]和通道注意力。其中，CBAM声称由于信息的丢失，GAP只能得到次优的特征。为了解决这个问题，它同时使用GAP和全局最大池化，并取得了显著的性能提升。类似地，SRM[23]还提出使用GAP与全局标准差池化。受CBAM的启发，GSoP [11]引入了一种二阶池化方法进行下采样。NonLocal[37]提出构建密集的空间特征图。AANet[3]提出将带有位置信息的注意力图嵌入到特征中。SkNet[24]引入了选择性通道聚合和注意力机制，ResNeSt[42]提出了类似的分割注意力方法。由于复杂的注意力操作，这些方法相对较大。为了提高效率，GCNet[4]提出使用简单的空间注意力模块替代原始的空间下采样过程。ECANet[36]引入一维卷积层来减少全连接层的冗余，并获得更高效的结果。除了这些工作，许多方法尝试将注意力机制扩展到特定任务，如多标签分类[14]，显著性检测[44]，视觉解释[10]和超分辨率[43]。0频域学习频率分析一直是信号处理领域中的强大工具。近年来，一些将频率分析引入深度学习领域的应用出现了。在[8,13]中，通过JPEG编码将频率分析引入了CNNs。然后，在[41]中引入了DCT以减少通信带宽。还有一些应用于模型压缩和修剪任务的方法，如[6, 27, 38]。Bi,jh,w = cos(πhH (i + 12)) cos(πwW (j + 12)).(1)f 2dh,w =x2di,jBi,jh,w(2)x2di,j =f 2dh,wBi,jh,w,(3)�f 2d0,0 =x2di,j cos( 0H (i + 12)) cos( 0W (j + 12))=x2di,j78503. 方法0在本节中，我们首先重新审视DCT和通道注意力的公式。然后，基于这些工作，我们详细阐述了我们的多光谱通道注意力框架的推导过程。同时，除了多光谱通道注意力框架，我们还提出了三种频率分量选择方法。03.1. 重新审视DCT和通道注意力0我们首先详细阐述离散余弦变换和通道注意力机制的定义。0离散余弦变换（DCT）通常，二维（2D）DCT[1]的基函数是：0那么2D DCT可以写成：0H −10W− 10s.t. h ∈ {0, 1, ∙ ∙ ∙ , H − 1}, w ∈ {0, 1, ∙ ∙ ∙ , W − 1},0其中，f 2 d ∈ R H × W是2D DCT频谱，x 2 d ∈ R H ×W是输入，H是x 2 d 的高度，W是x 2 d的宽度。相应地，逆2D DCT可以写成：0H −10W− 10s.t. i ∈ {0, 1, ∙ ∙ ∙ , H − 1}, j ∈ {0, 1, ∙ ∙ ∙ , W − 1}.0请注意，在方程2和3中，为了简化，一些常数归一化因子被移除，但这不会影响本工作的结果。0通道注意通道注意机制广泛应用于CNN中。它使用标量来表示和评估每个通道的重要性。假设X ∈ R C × H ×W是网络中的图像特征张量，C是通道数，H是特征的高度，W是特征的宽度。如第1节所讨论的，我们将通道注意中的标量表示视为一个压缩问题，因为它必须表示整个通道，但只能使用一个标量。这样，注意机制可以写成：0att = sigmoid(fc(compress(X))), (4)0其中，att ∈ R C是注意向量，sigmoid是Sigmoid函数，fc表示映射函数，如全连接层或一维卷积，而0压缩: R C × H × W → R C是一种压缩方法。在获得所有C个通道的注意向量之后，将输入X的每个通道按照相应的注意值进行缩放：0� X: ,i,:,: = att i X: ,i,:,: , s.t. i ∈ {0, 1, ∙ ∙ ∙ , C − 1}, (5)0其中，X是注意机制的输出，atti是注意向量的第i个元素，X:，i,:,:是输入的第i个通道。通常，全局平均池化是事实上的压缩方法[21,36]，因为它简单而有效。还有一些压缩方法，如全局最大池化[39]和全局标准差池化[23]。03.2. 多光谱通道注意0在本节中，我们首先从理论上讨论现有通道注意机制的问题。基于理论分析，我们进一步阐述了所提出方法的网络设计。0通道注意的理论分析如第3.1节所讨论，DCT可以看作是输入的加权和。我们进一步证明了GAP实际上是2DDCT的一个特殊情况。0定理 1. GAP是2D DCT的特殊情况，其结果与2DDCT的最低频率分量成比例。0证明。假设方程2中的h和w都为0，我们有：0H −10W− 10H −10W− 10= 间隙 ( x 2 d ) HW.0(6) 在方程6中，f 2 d 0,0表示2DDCT的最低频率分量，它与GAP成比例。这样，定理1得到了证明。■0基于理论分析和定理1，我们可以看到，在通道注意力机制中使用GAP意味着只保留最低频率信息。而来自其他频率的所有分量都被丢弃，这也编码了表示通道中有用信息模式的信息，并且不应该被遗漏。为了更好地压缩通道并引入更多信息，我们提出将GAP推广到更多频率CWHFreq0FCCWHGAP(DCT0)wn-1C'w1C'wCWHDCT0Freq0 Freq1Freqn-1FC0C'WHDCT1DCTn-1CWHn-110C'DCT0DCT1DCTn-1(LF, TS, NAS)Freqi = 2DDCTui,vi(Xi),=H−1�h=0W −1�w=0Xi:,h,wBui,vih,ws.t. i ∈ {0, 1, · · · , n − 1},(7)=cat([Freq0, Freq1, · · · , Freqn−1]),(8)ms att = sigmoid(fc(Freq)).(9)7860比例0(a) 原始SENet0分割0比例0DCT基0逐元素乘法0和0选择的0基0选择标准0(b) 多光谱通道注意力0图2. 现有通道注意力和多光谱通道注意力的示意图。为简单起见，2DDCT索引以一维格式表示。我们可以看到，我们的方法使用了多个频率分量和选择的DCT基，而SENet只在通道注意力中使用了GAP。最好以彩色查看。02DDCT的分量和压缩更多的信息，包括最低频率分量，即GAP。首先，输入X沿通道维度被分成多个部分。将 [ X 0 , X 1 ,∙ ∙ ∙ , X n − 1 ] 表示为这些部分，在0n , 且 C 应该被 n整除。对于每个部分，分配一个相应的2DDCT频率分量，并且2DDCT结果可以用作通道注意力的压缩结果。这样，我们有：0其中 [ u i , v i ] 是与 X i 对应的频率分量2D索引，而Freq i ∈ R C ′ 是压缩后的 C ′ 维向量。整个0通过连接可以获得压缩向量：0Freq = 压缩 ( X )0其中 Freq ∈ R C是得到的多光谱向量。整个多光谱通道注意力框架可以写成：0从公式8和9可以看出，我们的方法将原始的GAP方法推广到了一个具有多个频率分量的框架中。通过这样做，压缩后的通道信息得到了有效丰富的表示。我们的方法的整体示意图如图2所示。0选择频率分量的标准存在一个重要问题，即如何选择频率7870每个部分X i 的频率分量索引 [ u i , v i ]。为了实现多光谱通道注意力，我们提出了三种选择标准，分别是FcaNet-LF（低频率），FcaNet-TS（两步选择）和FcaNet-NAS（神经架构搜索）。FcaNet-LF表示具有低频率分量的FcaNet。众所周知，许多压缩方法使用DCT的低频信息来压缩信息。此外，一些方法[21，41]已经表明CNN更喜欢低频信息。因此，选择频率分量的第一个标准是仅选择低频分量。FcaNet-TS表示FcaNet在两步选择方案中选择分量。其主要思想是首先确定每个频率分量的重要性，然后研究使用不同数量的频率分量的效果。也就是说，我们单独评估通道注意力中每个频率分量的结果。最后，我们根据评估结果选择Top-k性能最高的频率分量。FcaNet-NAS表示具有搜索分量的FcaNet。对于这个标准，我们使用神经架构搜索来搜索最佳的频率分量。对于每个部分X i，一组连续变量 α = { α (u,v) }被分配给搜索分量。这部分的频率分量可以写成：0Freq i nas = �0ex0(u′,v′)∈O exp(α(u′,v′)) 2DDCT u,v(X0其中O是包含所有2D DCT频率分量索引的集合。训练后，Xi 的频率分量由(u�i,v�i)=argmax(u,v)∈O{α(u,v)}得到。关于这些准则的消融研究可以在第4.2节中看到。04.实验0在本节中，我们首先详细介绍了我们的实验细节。其次，我们展示了关于FcaNet的消融研究。然后，我们对我们的框架中的信息压缩、复杂度和代码实现进行了讨论。最后，我们研究了我们的方法在图像分类、目标检测和实例分割任务上的有效性。04.1.实现细节0为了评估所提出的FcaNet在ImageNet[33]上的结果，我们使用四个广泛使用的CNN作为骨干模型，包括ResNet-34、ResNet-50、ResNet-101和ResNet-152。我们遵循[16]和[17]中的数据增强和超参数设置。具体来说，输入图像被随机裁剪为224×224，并进行随机水平翻转。我们使用SGD优化器进行训练，动量为0.9，权重衰减为1e-4，每个GPU的批量大小为128。对于ResNet-101和ResNet-152这样的大模型，批量大小设置为64。学习率设置为0.1，批量大小为256，使用线性缩放规则[12]。所有模型在100个epoch内进行训练，使用余弦学习率衰减和标签平滑。值得注意的是，为了训练效率，我们使用了NvidiaAPEX混合精度训练工具包。为了在MS COCO[26]上使用Faster R-CNN[31]和MaskR-CNN[15]评估我们的方法，我们使用MMDetection[5]工具包中的检测器实现，并使用其默认设置。在训练过程中，输入图像的较短边被调整为800。所有模型都使用SGD进行优化，权重衰减为1e-4，动量为0.9，每个GPU的批量大小为2，训练12个epoch。学习率初始化为0.01，并在第8和第11个epoch时分别减小10倍。所有模型都使用PyTorch[29]框架实现，并使用八个Nvidia RTX 2080Ti GPU。0训练时，我们使用动量为0.9，权重衰减为1e-4，每个GPU的批量大小为128。对于ResNet-101和ResNet-152这样的大模型，批量大小设置为64。学习率设置为0.1，批量大小为256，使用线性缩放规则[12]。所有模型在100个epoch内进行训练，使用余弦学习率衰减和标签平滑。值得注意的是，为了训练效率，我们使用了NvidiaAPEX混合精度训练工具包。为了在MSCOCO[26]上使用Faster R-CNN[31]和MaskR-CNN[15]评估我们的方法，我们使用MMDetection[5]工具包中的检测器实现，并使用其默认设置。在训练过程中，输入图像的较短边被调整为800。所有模型都使用SGD进行优化，权重衰减为1e-4，动量为0.9，每个GPU的批量大小为2，训练12个epoch。学习率初始化为0.01，并在第8和第11个epoch时分别减小10倍。所有模型都使用PyTorch[29]框架实现，并使用八个Nvidia RTX 2080Ti GPU。04.2.消融研究0如第3.2节所讨论的，我们提出了三种准则，包括FcaNet-LF（低频率）、FcaNet-TS（两步选择）和FcaNet-NAS（神经架构搜索）。在本节中，我们首先展示了关于这些变体的消融研究。然后我们讨论了FcaNet与完全可学习的通道注意力之间的关系。0对于FcaNet-TS，第一步是确定每个频率分量的重要性。为了研究不同频率分量在通道注意力中的效果，我们一次只使用一个频率分量。我们将整个2DDCT频率空间分为7×7个部分，因为最小的特征图大小在ImageNet上是7×7。这样，总共有49个实验。为了加快实验速度，我们首先训练一个标准的ResNet-50网络，训练100个epoch作为基准模型。然后我们在基准模型上添加不同频率分量的通道注意力来验证效果。所有添加的模型都在20个epoch内训练，使用与第4.1节相似的优化设置，学习率设置为0.02。如图3所示，我们可以看到使用较低的频率可以获得更好的性能，这是直观的，并且验证了SENet的成功。这也验证了结论[41]，即深度网络更喜欢低频信息。然而，有趣的是，我们可以看到几乎所有的频率分量（除了最高分量）与最低分量之间的差距非常小（<=0.5%的Top-1准确率）。这表明其他频率分量也能很好地适应通道注意力机制，并且在频率域中泛化通道注意力是有效的。76.6976.5576.4976.3776.3976.5176.3876.4876.2676.4776.3076.1976.2876.4076.3076.3276.3676.3076.2676.2876.2176.3976.3176.3176.3476.1976.3676.2176.4476.3176.2876.2276.2776.2776.3476.4476.2876.3176.3376.3176.3376.2776.5376.3276.2876.3476.2876.3075.72263277.878.078.278.478.677.677.878.078.278.478.677.8678.3578.577880低频高频0高频低频0图3. 在通道注意力中使用不同频率分量的ImageNetTop-1准确率。0不同频率分量数量的影响对于FcaNet-LF，我们验证了使用K个最低频率分量的结果。对于FcaNet-TS，我们选择图3中性能最好的Top-K个频率分量。为简单起见，K可以是1、2、4、8、16或32。0分量数量 (K)0Top1准确率0FcaNet-TS FcaNet-LF K=1基线 (SENet)0图4.使用不同分量数量的Top1准确率。由于FcaNet-NAS自动搜索和确定频率分量，因此不包括在此实验中。0如图4所示，我们可以观察到两个现象。1）所有使用多光谱注意力的实验与仅使用通道注意力中的GAP相比都有显著的性能提升。这验证了我们在通道注意力中使用多个频率分量的想法。2）对于FcaNet-LF和FcaNet-TS，分别使用2个和16个频率分量的设置获得了最佳性能。因此，我们在我们的方法和所有其他实验中使用这些设置。0与完全可学习的通道注意力的比较如公式7所示，我们使用2D DCT基函数来计算0压缩通道。2D DCT基函数Bui, vihi,w可以简单地看作是包含DCT系数的张量。因此，一个自然的问题是如何直接学习一个张量来压缩通道。我们将我们的方法与三种不同类型的张量进行比较，它们是具有随机初始化的固定张量（FR），具有随机初始化的可学习张量（LR）和具有DCT初始化的可学习张量（LD）。在这种情况下，我们的方法可以被视为具有DCT初始化的固定张量（FD）。0SENet FR LR LD FD (我们的方法)0Top1准确率0± 0.120± 0.010图5.与完全可学习的通道注意力方法的比较。FR表示具有随机初始化的固定张量，LR表示具有随机初始化的可学习张量，LD表示具有DCT初始化的可学习张量，FD表示具有DCT初始化的固定张量，即我们的方法。对于使用随机初始化的设置，显示了误差线。0比较结果如图5所示。我们可以看到所有具有DCT初始化（LD，FD）的设置都优于没有DCT的设置（FR，LR）。此外，具有固定DCT初始化的设置（我们的方法）甚至优于完全可学习的通道注意力方法（LR，LD），这表明使用DCT来压缩通道的有效性。04.3. 讨论0多光谱框架如何压缩和嵌入更多信息在第3.2节中，我们展示了仅使用通道注意力中的GAP实际上是丢弃了除最低频率分量之外的所有其他频率分量的信息。通过在频率域中推广通道注意力并使用多光谱框架，可以自然地在通道注意力机制中嵌入更多信息。除了上述推导，我们还进行了一个思想实验来展示可以嵌入更多信息。众所周知，深度网络是冗余的[18，46]。如果两个通道对彼此来说是冗余的，那么我们只能使用GAP获得相同的信息。然而，在我们的多光谱框架中，可以从冗余通道中提取更多信息，因为不同的频率分量包含不同的信息。因此，7890表1. 在ImageNet上不同注意力方法的比较。除了AANet没有官方代码外，所有结果都是在相同的训练设置下复现和训练的。0方法年份骨干网络参数数量 FLOPS 训练FPS 测试FPS Top-1准确率 Top-5准确率021.80 M 3.68 G 2898 3840 74.58 92.05 SENet [ 21 ] CVPR18 21.95 M 3.68 G 2729 3489 74.83 92.23 ECANet [36 ] CVPR20 21.80 M 3.68 G 2703 3682 74.65 92.210FcaNet-LF 21.95 M 3.68 G 2717 3356 74.95 92.160FcaNet-TS 21.95 M 3.68 G 2717 3356 75.02 92.070FcaNet-NAS 21.95 M 3.68 G 2717 3356 74.97 92.34025.56 M 4.12 G 1644 3622 77.27 93.52 SENet [ 21 ] CVPR18 28.07 M 4.13 G 1457 3417 77.86 93.87 CBAM [ 39] ECCV18 28.07 M 4.14 G 1132 3319 78.24 93.81 GSoPNet1 * [ 11 ] CVPR19 28.29 M 6.41 G 1095 3029 79.0194.35 GCNet [ 4 ] ICCVW19 28.11 M 4.13 G 1477 3315 77.70 93.66 AANet [ 3 ] ICCV19 25.80 M 4.15 G - -77.70 93.80 ECANet [ 36 ] CVPR20 25.56 M 4.13 G 1468 3435 77.99 93.850FcaNet-LF 28.07 M 4.13 G 1430 3331 78.43 94.150FcaNet-TS 28.07 M 4.13 G 1430 3331 78.57 94.100FcaNet-NAS 28.07 M 4.13 G 1430 3331 78.46 94.09044.55 M 7.85 G 816 3187 78.72 94.30 SENet [ 21 ] CVPR18 49.29 M 7.86 G 716 2944 79.19 94.50 AANet [ 3 ]ICCV19 45.40 M 8.05 G - - 78.70 94.40 ECANet [ 36 ] CVPR20 44.55 M 7.86 G 721 3000 79.09 94.380FcaNet-LF 49.29 M 7.86 G 705 2936 79.46 94.600FcaNet-TS 49.29 M 7.86 G 705 2936 79.63 94.630FcaNet-NAS 49.29 M 7.86 G 705 2936 79.53 94.64060.19 M 11.58 G 559 2721 79.39 94.74 SENet [ 21 ] CVPR18 66.77 M 11.60 G 508 2566 79.84 94.82 AANet [ 3 ]ICCV19 61.60 M 11.90 G - - 79.10 94.60 ECANet [ 36 ] CVPR20 60.19 M 11.59 G 515 2619 79.86 94.800FcaNet-LF 66.77 M 11.60 G 502 2387 80.13 94.900FcaNet-TS 66.77 M 11.60 G 502 2387 80.02 94.890FcaNet-NAS 66.77 M 11.60 G 502 2387 79.96 94.940请注意，尽管GSoPNet1的性能更高，但计算成本比我们的大1.5倍。0提出的多光谱框架可以在通道注意力机制中嵌入更多信息。0复杂度分析我们从两个方面分析了我们方法的复杂度：参数数量和计算成本。对于参数数量，我们的方法与基线相比没有额外的参数，因为DCT的权重是预定义的常数。对于计算成本，我们的方法具有可忽略的额外成本，并且可以视为与SENet具有相同的计算成本。对于ResNet-34、ResNet-50、ResNet-101和ResNet-152骨干网络，与SENet相比，我们方法的相对计算成本增加分别为0.04%、0.13%、0.11%和0.11%。更多结果可以在表1中找到。0几行代码的改变提出的多光谱框架的另一个重要特性是它可以很容易地与现有的通道注意力实现一起使用。0我们的方法与SENet的唯一区别在于通道压缩方法（GAP vs. 多光谱2DDCT）。如第3.1节和第7式所述，2DDCT可以看作是输入的加权和。它可以通过逐元素乘法和求和来简单实现。通过这种方式，我们的方法可以轻松地集成到任意通道注意力方法中。4.4.在ImageNet上的图像分类0我们使用ResNet-34、ResNet-50、ResNet-101和ResNet-152骨干网络在ImageNet上将我们的FcaNet与最先进的方法进行了比较，包括SENet [ 21 ]、CBAM [ 39]、GSoP-Net1 [ 11 ]、GCNet [ 4 ]、AANet [ 3]和ECANet [ 36]。评估指标包括效率（即网络参数、每秒浮点运算次数（FLOPs）和每秒帧数（FPS））和有效性（即Top-1/Top-5准确率）。如表1所示，我们的方法在几乎所有实验设置中都取得了最佳性能。ResNet-50Faster-RCNN41.53 M215.51 G36.458.239.221.840.046.2SENet44.02 M215.63 G37.760.140.922.941.948.2ECANet41.53 M215.63 G38.060.640.923.442.148.0FcaNet-LF44.02 M215.63 G39.061.341.923.442.549.7FcaNet-TS44.02 M215.63 G39.061.142.323.742.849.6FcaNet-NAS44.02 M215.63 G39.060.942.323.042.949.9ResNet-101Faster-RCNN60.52 M295.39 G38.760.641.922.743.250.4SENet65.24 M295.58 G39.662.043.123.744.051.4ECANet60.52 M295.58 G40.362.944.024.544.751.3FcaNet-LF65.24 M295.58 G41.363.444.924.645.653.6FcaNet-TS65.24 M295.58 G41.263.344.623.845.253.1FcaNet-NAS65.24 M295.58 G41.263.344.924.745.253.0ResNet-50Mask-RCNN44.17 M261.81 G37.258.940.322.240.748.0SENet46.66 M261.93 G38.760.942.123.442.750.0GCNet46.69 M261.94 G39.461.642.4---ECANet44.17 M261.93 G39.061.342.124.242.849.9FcaNet-LF46.66 M261.93 G40.361.943.924.943.652.2FcaNet-TS46.66 M261.93 G40.362.044.125.243.952.0FcaNet-NAS46.66 M261.93 G40.361.943.924.943.652.2ResNet-5034.155.536.2SENet35.457.437.8GCNet35.758.437.6ECANet35.658.137.7FcaNet-LF36.358.338.6FcaNet-TS36.258.638.1FcaNet-NAS36.358.338.67900表2. 在COCO val 2017上使用不同方法的目标检测结果。0方法检测器参数 FLOPs AP AP 50 AP 75 AP S AP M AP L04.5. 在MS COCO上的目标检测0除了在ImageNet上的分类任务外，我们还在目标检测任务上评估了我们的方法，以验证其有效性和泛化能力。我们使用带有FPN [ 25 ]的FcaNet作为Faster R-CNN和MaskR-CNN的骨干网络（ResNet-50和ResNet-101），并在MSCOCO数据集上测试它们的性能。我们使用SENet、CBAM、GCNet和ECANet进行比较。如表2所示，我们的方法在Faster-RCNN和Mask-RCNN框架下也能取得最佳性能。与ImageNet上的分类任务一样，FcaNet在相同数量的参数和计算成本下也能大幅优于SENet。与SOTA方法ECANet相比，FcaNet在AP方面能提高0.9-1.3%。04.6. 在MS COCO上的实例分割0除了目标检测，我们还在实例分割任务上测试了我们的方法。如表3所示，我们的方法在各种方法中表现出更大的优势。具体而言，FcaNet的AP比GCNet高出0.5%，而其他方法之间的差距大约为0.1-0.2%。这些结果验证了我们方法的有效性。05. 结论0在本文中，我们研究了通道注意的一个基本问题，即如何表示通道，并将这个问题视为一种压缩过程。我们已经证明了GAP是DCT的一个特例，并提出了具有多光谱注意模块的FcaNet，它推广了0表3. 在COCO val 2017上使用MaskR-CNN的不同方法的实例分割结果。0方法 AP AP 50 AP 750频域中现有的通道注意机制。同时，我们在多光谱框架中探索了不同频率分量的组合，并提出了三个频率分量选择的标准。在相同数量的参数和计算成本下，我们的方法始终优于SENet。与其他通道注意方法相比，我们在图像分类、目标检测和实例分割方面也取得了最先进的性能。此外，FcaNet简单而有效。我们的方法只需改变几行代码即可实现。0致谢0这项工作得到了中国国家重点研发计划（编号2020AAA0107400）、浙江省自然科学基金（编号LR19F020004）、教育部重点科技创新研究项目以及国家自然科学基金（编号U20A20222）的部分支持。7910参考文献0[1] Nasir Ahmed, T Natarajan, and Kamisetty R Rao.离散余弦变换. IEEE Trans. Comput. , 100(1):90–93, 1974. 2 ,30[2] Mario Barbero, H Hofmann, and ND Wells.DCT源编码和当前HDTV实现. EBU Technical Review ,(251):22–33, 1992. 20[3] Irwan Bello, Barret Zoph, Ashish Vaswani, JonathonShlens, and Quoc V Le. 注意力增强的卷积网络. In Int. Conf.Comput. Vis. , pages 3286–3295, 2019. 2 , 70[4] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and HanHu. GCNet: 非局部网络与Squeeze-Excitation网络相遇及更多.In IEEE Conf. Comput. Vis. Worksh. , pages 0–0, 2019. 2 , 70[5] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, YuXiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu,Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tian-heng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu,Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang,Chen Change Loy, and Dahua Lin. MMDetection: Openmmlab检测工具箱和基准. arXiv preprint arXiv:1906.07155 ,2019. 50[6] Wenlin Chen, James Wilson, Stephen Tyree, Kilian QWein- berger, and Yixin Chen. 在频域中压缩卷积神经网络. InSIGKDD , pages 1475– 1484, 2016. 20[7] Yunpeng Chen, Yannis Kalantidis, Jianshu Li, ShuichengYan, and Jiashi Feng. Aˆ 2-nets: 双注意力网络. In Adv. NeuralInform. Process. Syst. , pages 352–361, 2018. 20[8] Max Ehrlich and Larry S Davis.深度残差学习在JPEG变换域中. In Int. Conf. Comput. Vis. ,pages 3484–3493, 2019. 20[9

下载后可阅读完整内容，剩余1页未读，立即下载