自注意与卷积整合的优化模型

106 浏览量更新于2023-10-25 收藏 1.12MB PDF 举报

卷积

混合模型

身份认证购VIP最低享 7 折!

30元优惠券

815××××论自注意与卷积的整合徐然磐1春江阁1瑞路1号Shiji Song1 Guanfu Chen2Zeyi Huang2Gao Huang1，3*1清华大学自动化系，北京，中国2华为技术有限公司中国3北京人工智能研究院，中国{pxr18，gecj20，r-lu21} @ mails.tsinghua.edu.cn{chenguanfu 1，huangzeyi 2}@ huawei.com，{shijis，gaohuang}@ tsinghua.edu.cn摘要卷积和自注意是表征学习的两种强有力的技术，它们通常被认为是两种不同的对等方法。在本文中，我们表明，它们之间存在着很强的潜在关系，在这个意义上，这两种范式的大部分计算实际上是(a) 卷积(b) Self-Attention(c) 我们的-ACmix做同样的手术。具体来说，我们首先证明了一个传统的卷积与内核大小k k可以被分解为k2个单独的1 1个卷积，随后是移位和求和运算。然后，我们将自注意模块中的查询、键和值的投影解释为多个11卷积，随后是注意权重的计算和值的聚合。因此，两个模块的第一级包括类似的操作。更重要的是，与第二阶段相比，第一阶段贡献了占主导地位的计算这种观察自然导致这两种看似不同的范例的优雅整合，即，一种混合模型，它同时具有自注意和卷积（ACmix）的优点，同时与纯卷积或自注意对应物相比具有最小的计算开销大量的实验表明，我们的模型在图像识别和下游任务的竞争基线上取得了一致的改进结果代码和预训练模型将在https://github.com/LeapLabTHU/ACmix和https://gitee.com/mindspore/models 上发布。1. 介绍近年来，卷积和自注意在计算机视觉中得到了广泛的发展。卷积神经网络（CNN）在图像处理*通讯作者。图1.ACmix的草图我们探索更紧密的关系在卷积和自注意之间，在共享相同的计算开销（11个卷积）的意义上，并与剩余的轻量级聚合操作相结合。我们显示了每个块的计算复杂度w.r.t特征通道。识别[19，23]，语义分割[9]和对象检测[38]，并在各种基准上实现最先进的性能另一方面，自注意力首先被引入自然语言处理[1，42]，并且在图像生成和超分辨率[10，34]领域也显示出巨大的潜力。最近，随着视觉转换器的出现[7，15，37]，基于注意力的模块在许多视觉任务上实现了与CNN对应物相当甚至更好尽管这两种方法都取得了巨大的成功，卷积和自我注意模块通常遵循不同的设计范式。传统卷积根据卷积滤波器权重在局部化感受野上利用聚合函数图像的固有特性给图像处理带来了至关重要的归纳偏差。类似地，自注意模块基于输入特征的上下文应用加权平均操作，其中经由相关像素对之间的相似性函数动态地计算注意权重。灵活性使注意力模块能够自适应地聚焦于不同的区域，并捕获更多的信息特征。考虑到卷积和自注意的不同和互补的性质，存在一种潜在的816××通过集成这些模块，可以从两种模式中受益。以前的工作已经从几个不同的角度探讨了自我注意和卷积的结合。早期阶段的研究，例如，SENet [22]，CBAM[46]表明自注意机制可以作为卷积模块的增强。最近，自注意模块被提出作为单独的块来替代CNN模型中的传统卷积，例如，SAN [53]、BoTNet [40]。另一个研究方向集中在将自我注意力和卷积组合在单个块中，例如，AA-ResNet [3]，Container [16]，而该架构在为每个模块设计独立路径方面受到限制。因此，现有的方法仍然把自我注意和卷积作为不同的部分，它们之间的潜在关系没有得到充分的利用。在本文中，我们试图挖掘自我注意和卷积之间更密切的关系通过分解这两个模块的操作，我们表明，它们严重依赖于相同的11卷积运算。基于这一观察，我们开发了一个混合模型，命名为ACmix，并将自注意力和卷积优雅地与最小的计算开销相结合。具体来说，我们首先用1 1卷积并获得丰富的中间特征集。然后，中间特征被重用，并按照不同的范例，即在自注意和卷积方式聚集。通过这种方式，ACmix可以同时利用这两个模块的优势，并有效避免进行两次昂贵的投影操作。总而言之，我们的贡献有两个方面：(1) 自我注意力和卷积之间的一个强大的潜在关系揭示，提供了新的角度来理解两个模块之间的连接和设计新的学习范式的灵感。(2) 一个优雅的自我注意和卷积模块的集成，享受两个世界的好处，提出。实证证据表明，混合模型优于其纯卷积或自我注意对应一致。2. 相关工作卷积神经网络[26，27]使用卷积内核来提取局部特征，已成为各种视觉任务的最强大和最传统的技术[19，24，39]。与此同时，自我注意也在BERT和GPT3等广泛的语言任务中表现出普遍的表现[4，13，36]。理论分析[11]表明，当配备足够大的容量时，自注意力可以表示任何卷积层的函数类。因此，最近的一系列研究探索了将自我注意机制引入视觉任务的可能性[15，22]。有两种主流的方法，一种是使用自我注意作为积木在网络中[7，32，54]，另一个将自我注意力和卷积视为互补部分[6，28，44]。2.1. 仅自我注意受自我注意力在长距离依赖关系中的表达能力的启发一些作品[37，53]表明，自我注意力可以成为视觉模型的独立原语，完全取代卷积运算。最近，VisionTrans- former [15]表明，如果有足够的数据，我们可以将图像视为256个令牌的序列，并利用Trans- former模型[42]在图像识别中实现有竞争力的结果。此外，在检测[2，7，56]、分割[45，52，54]、点云识别[17，32]和其他视觉任务[8，34]。2.2. 注意力增强卷积多个先前提出的图像注意机制表明，它可以克服卷积网络的局部性限制因此，许多研究者探索使用注意模块或利用更多的关系信息来增强卷积网络功能的可能性。特别是，挤压和激发（SE）[22]和聚集激发（GE）[21]为每个通道重新加权地图。BAM [33]和CBAM [46]独立地重新加权通道和空间位置，以更好地细化特征图。AA-Resnet [3]通过连接来自另一个独立的自注意力管道的注意力映射来增强某些卷积层。僵尸网络[40]在模型的后期阶段用自我注意模块代替卷积。一些工作旨在通过聚合来自更宽范围的像素的信息来设计更灵活的特征提取器。Hu等人[20]提出了一种局部关系方法，以基于局部像素的组成关系自适应地确定Wang等人提出了非局部网络[44]，它通过引入非局部块来比较全局像素之间的相似性来增加感受野2.3. 卷积增强注意力随着Vision Transformer [15]的出现，已经提出了许多基于transformer的变体，并在计算机视觉任务上取得了重大改进。其中存在的研究集中在用卷积运算来补充Transformer模型以引入额外的电感偏置。CvT [47]在标记化过程中采用卷积，并利用步长卷积来降低自注意的计算复杂度。具有卷积干的ViT [49]建议在早期阶段添加CSwin Transformer [14]采用基于卷积的位置环境，817××××Σg =g，（2）ijΣ∈R∈{−}IJIJ∈R∈R查询查询Conv 1x1关关相似性匹配Conv 1x1注意力权重值值Conv 1x1特征投影第一阶段第二移位&求和第一阶段第二注意力聚集S（-S（-S（-Conv 1x1正+ +S（0，-S（0，S（0，Conv 1x1+正+ +S（1，-S（1，S（1，Conv 1x1正+ ++3x3滤波(a) 卷积（3x3）第一阶段第二(b) 自我关注（c）我们的-ACmix图2.所提出的混合模块的图示。左图显示了传统卷积和自注意模块的流水线。（a）卷积。3× 3卷积的输出可以被分解为移位的特征图的总和，其中每个特征图是通过从某个位置执行关于内核权重的1 × 1s（x，y）对应于在Sec.第3.1条（二）自我关注。输入特征图首先被投影为具有11卷积的查询、键和值通过查询和关键字计算的注意力权重被采用来聚合值。右图显示了我们模块的流水线（c）ACmix。在阶段I，用三个11卷积来投影输入特征图在阶段II，中间特征分别按照两个范例使用来自两个路径的特征被加在一起并作为最终输出。每个操作块的计算复杂度在上角标记。编码技术，并显示对下游任务的改进。Conformer [35]将Transformer与独立的CNN模型相结合，以集成这两种功能。3. 再论卷积和自注意卷积和自我注意力以其当前的形式已经广为人知。为了更好地捕捉这两个模块之间的关系，我们重新审视他们从一个新的角度分解成单独的阶段的操作标准卷积可以公式化为：gij=Kp，qfi+p−k/2 <$，j+q−k/2 <$，（1）p，q其中K p，qCout×Cin，p，q0、1、. . .，k1表示关于核位置（p，q）的索引的核权重。为了方便起见，我们可以重写Eq。（1）作为来自不同核位置的特征图的总和：（p，q）IJp，q3.1. 卷积卷积是现代数学中最重要的部分之一，与g（p，q）=Kp，qfi+p−k/2，j+q−k/2.（三）ConvNets我们首先回顾标准卷积运算，并从不同的角度重新表述它。图示如图所示。第2段（a）分段。为了简单起见，我们假设卷积的步长为1。考虑一个标准卷积，其核为K∈RCout×Cin×k×k，其中k是核大小，Cin，Cout为了进一步简化公式，我们将移位运算fShift（f，x，y）定义为：f∈i ， j=fi+ f ∈x ， j+ f ∈y， f ∈i，j，（4）其中f ∈x，f ∈y对应于水平和垂直位移。然后，Eq.（3）可以改写为：是输入和输出通道的大小。给定张量F ∈RCin×H×W，G∈ RCout×H×W作为输入和输出fea，g（p，q）=Kp，qfi+p−k/2，j+q−k/2真映射，其中H，W表示高度和宽度，我们将f ijCin，g ijCout分别表示为对应于F和G的像素（i，j）的特征张量。然后，=移位（Kp，qfi j，p −k/2，q−k/2）。（五）Conv 1x1Conv 1x1Conv 1x1查询关键值级联级联Self-Attention移位操作完全连接818因此，标准卷积可以总结为819Q×||IJn=g。（八）××∈R∈R∈R∈R一||Ngij=l=1A（qij，kab）vaba，b∈Nk（i，j）QKv对于[20，37]中广泛采用的自注意力模块，注意力权重计算为：.（W （l）f）T（W （l）f）（l）（l）qijkABA（Wqfij，Wkfab）=softmaxNk（i，j）其中d是W（l）f的特征维数√di j.、（十）表1. 两个不同模块的FLOP和参数此外，多头自我注意力可以分解为两个阶段，并重新表述为：阶段I：q（l）=W（l）fij，k（l）=W（l）fij，v（l）=W（l）fij，（11）阶段C：输入和输出通道。 h，w：特征图的长度和宽度。kc：卷积的核大小。ka：内核大小自我关注。N：自我关注的头。红色数字对应于ACmix引入的额外FLOP/参数第二阶段：IjqIjkN（l）ijv（l）（l）（十二）括号内的百分比是整个模块的分数两个阶段：类似于SEC中的传统卷积。3.1，11卷积首先在阶段I中进行，以将输入特征投影为查询、键和值。另一方面，在一项研究中，第一阶段：g（p，q）=Kp，qfij，（6）第二阶段包括计算注意力权重和聚合价值矩阵，价值矩阵指的是收集-第二阶段：g（p，q）=移位（g（p，q），p−k/2，q−k/2），（7）地方特色。相应的计算成本IJ吉吉IJ（p，q）IJp，q也被证明是次要的相比，第一阶段，遵循相同的模式卷积。3.3.计算成本在第一阶段，输入特征图被线性地投影相对于。从某个位置，即，（p，q）。这与标准的11卷积相同。而在第二阶段中，投影的特征图根据核位置移动，并最终聚集在一起。可以容易地观察到，大部分计算成本在11卷积中执行，而下面的移位和聚合是轻量级的。3.2. Self-Attention注意机制在视觉任务中也被广泛采用与传统的卷积相比，atten- tion允许模型在更大尺寸的上下文中关注重要区域。我们在图1中显示了这幅插图。第2段（b）分段。考虑一个有 N 个头的标准自我注意模块设 FCin×H×W，GCout×H×W表示输入和输出特性。设f ijCin，g ijC_out表示像素（i，j）的对应张量。然后，注意力模块的输出被计算为：为了充分理解卷积和自注意模块的计算瓶颈，我们分析了每个阶段的浮点运算（FLOPs）和参数数量，并在Tab中进行了总结。1.一、它表明，理论的FLOP和参数在第一阶段的卷积有二次复杂度关于信道大小C，而计算成本的第二阶段是线性的C和没有额外的训练参数是必需的。对于自注意模块也发现了类似的趋势，其中所有训练参数在阶段I被保留。至于理论FLOP，我们考虑类似ResNet的模型中的正常情况，其中对于各种层深度，ka= 7和C= 64，128，256，512 当3C2>2k2C时，第一阶段的运算量较大，且随着信道尺寸的增大，这种差异更加明显.为了进一步验证我们分析的有效性，我们还总结了ResNet50模型中卷积和自注意模块的实际计算成本，选项卡. 1.一、我们实际上把所有3×3卷积的成本加起来-N（l）（l）（l）注意力（或自我注意力）模块，从模型的角度反映趋势结果表明，99%的计算gij=l=1A（Wq f ij，Wk fab）Wvfab，（9）a，b∈Nk（i，j）的卷积和83%的自我注意力是在哪里||是N个注意力头部的输出的级联，W（1）、W（1）、W（1）是查询、键和值的投影矩阵。 k（i，j）表示具有以（i，j）为中心的空间范围k的像素的局部区域，以及理论ResNet 50模块StgFLOPs（×hw）Params FLOPs（G）Params（M）.ConvI IIk2C2Ck2CCk2C2C01 .一、9人（99%）0的情况。1（1%）11个国家。3（100%）0（0%）赛尔夫岛注意事项二3C22k2c一3C201 .一、0（83%）0的情况。2个（17%）3 .第三章。8（100%）0（0%）我3C2+（3kc+k4）CC3C23k2N +k4CC c1 .一、03 .第三820QK第一阶段，这与我们的理论分析是一致的。4. 方法4.1. 自我注意与卷积的A（W（l）fij，W（l）fab ）是对应的关注权重自我注意和卷积关于Nk（i，j）内的特征。模块在SEC。3揭示了更深层次的关系，821x N组I. 冷冻玉米粒2。可学习的内核III.全群卷积（移位核）（初始化为移位核）（初始化为移位核）*000*10*000001...×××××××- −100000100000+00000010000000 00*000++000000000001(a) 张量移位（b）具有固定组卷积核的（c）具有可学习群卷积核的移位原始特征（来自1x1 conv）卷积核移位特征*卷积组S（i，j）移位方向图3.轮班操作的实际改进（a）张量移位的简单实现（b）使用精心设计的组卷积核快速实现(c)进一步适应可学习的内核和多个卷积组。视角首先，这两个阶段扮演着非常相似的角色。阶段I是特征学习模块，其中两种方法通过执行11个卷积以将特征投影到更深的空间中来共享相同的操作。另一方面，第二阶段对应于特征聚合的过程，尽管它们的学习范式不同。从计算的角度来看，在卷积和自注意模块的阶段I进行的11个卷积需要关于信道大小C的理论FLOP和参数的二次复杂度.相比之下，在阶段II，两个模块都是轻量级的或几乎免费的计算。作为结论，上述分析表明：（1）卷积和自注意实际上共享通过11次卷积投影输入特征图的相同操作，这也是两个模块的计算开销。(2)虽然至关重要的捕捉语义特征，在第二阶段的聚合操作是轻量级的，不获取额外的学习参数。4.2. 自我注意与卷积上述观察结果自然会导致卷积和自我注意力的出色整合。由于两个模块共享相同的11卷积操作，因此我们只能执行一次投影，并且分别将这些我们提出的混合模块ACmix的说明如图所示。第2段（c）分段。具体地，ACmix还包括两个阶段。在阶段I，输入特征通过三个11卷积投影并分别整形为N个片段因此，我们获得了一组丰富的中间特征，包含3N个特征图。在第二阶段，它们按照不同的范例使用对于自注意路径，我们将中间特征聚集到N个组中，其中每个组包含三个特征，每个11卷积一个。相应的三个特征图用作查询、键和值，遵循传统的多头自注意模块（等式10）。（12））。对于核大小为k的卷积路径，我们采用轻的全连通层，生成k2特征映射。因此，通过移位和聚合所生成的特征（等式 1 ）。（7），（8）），我们以卷积方式处理输入特征，并像传统的那样从局部感受野收集信息。最后，两条路径的输出相加，强度由两个可学习的标量控制：Fout=αFatt+ βFconv.（十三）4.3. 改进的移位和求和如图所示。4.2和图2.卷积路径中的中间特征遵循如在传统卷积模块中进行的移位和求和操作。尽管它们在理论上是轻量级的，但将十个变量向各个方向移动实际上打破了数据局部性，并且难以实现矢量化实现。这可能会极大地损害我们模块在推理时的实际效率。作为一种补救措施，我们诉诸于应用具有固定内核的dependency作为低效张量移位的替代，如图所示。3（b）款。 Take Shift（f，1，1）作为示例，移位特征被计算为：fc，i，j=fc，i−1，j−1，fc，i，j（14）其中c表示输入特征的每个通道另一方面，如果我们表示卷积核（ker-），S（-1，-1）+++S（1，1）...822∀×WW··−KIJ单元大小k= 3）为：100在这种情况下，值得注意的是，我们提出的ACmix是独立于自我注意公式的，并且可以很容易地采用上述变体。Kc= 0 0 0，c，（15）00 0相应的输出可以用公式表示为：具体地，注意力权重可以总结为：f（dwc）=Kc，p，q f−⌊⌋中国（16）（P偶联）A（qij，kab）=N（[qij，[kab]a，b∈Nk（i，j）]），（18）c，i，jp，q∈{0，1，2}c，i+pk/2，j+qK/2（Window）A（qij，kab）=softmaxa，b∈W（i，j）.ab/d（19）=fc，i −1，j −1 = f<$c，i，j，<$c，i，j.（十七）（全球）.Tqijkab/D（二十）在特定的移位方向上，卷积输出等价于简单的张量移位（等式2）。（14））。为了进一步结合来自不同方向的特征的求和，我们分别连接所有输入特征和卷积核，并将移位操作公式化为单个组卷积，如图所示3（c.一）。这一修改使我们的模块具有更高的计算效率。在此基础上，我们还引入了几种自适应方法，以增强模块的灵活性。如图3（c.II），我们将卷积核作为可学习的权重释放，并将移位核作为初始化。这提高了模型的容量，同时保持了原来的换档操作的能力我们还使用多组卷积核来匹配卷积的输出通道维度，和自我关注的路径，如图所示。3（c.III）。4.4. ACmix的计算成本为了更好地进行比较，我们在Tab中总结了ACmix的FLOP和1.一、阶段I的计算成本和训练参数与自注意相同，并且比传统卷积（例如，3 3conv）。在第二阶段，ACmix引入了额外的计算开销与光全连接层和一个组卷积，在第二节中描述4.3，其计算复杂度关于通道大小C和具有阶段I的最小值是线性的。ResNet50模型中的实际成本显示出与理论分析相似的趋势。4.5. 对其他注意力模式的随着自我注意机制的发展，许多研究都集中在探索注意算子的变化，以进一步提高模型的性能。[53]提出的分段注意力将局部区域中所有特征的信息作为注意力权重，以取代原始的 softmax 操作。 Swin-Transformer [31]采用的窗口注意力在同一局部窗口中保持相同的令牌接受域，以节省计算成本并实现快速推理速度。另一方面，ViT和DeiT [15，41]考虑了在单个层内保持长期依赖性的全局注意力这些修改被证明是有效的，在特定的模型架构。其中[ ]指的是特征连接，k（）表示具有中间非线性激活的两个线性投影层，k（i，j）是每个查询标记的专用感受野，并且表示整个特征图（请参考原始论文以获得更多细节）。然后，可以将计算出的注意力权重应用于等式（1）。（12）并符合一般公式。5. 实验在本节中，我们将在Ima-geNet分类、语义分割和对象检测任务上对ACmix进行经验验证，并与最先进的模型进行比较有关数据集和训练配置的详细信息，请参见附录。5.1. ImageNet分类实施. 我们实际上在4个基准模型上实现了ACmix，包括ResNet [19]，SAN [53]，PVT[43]和Swin-Transformer [31]。我们还将我们的模型与竞争基线进行比较，即，[2019-05- 17][2019 -05][ 2019 - 0结果我们在图中显示了分类结果。4.第一章对于ResNet-ACmix模型，我们的模型优于具有可比FLOP或参数的所有基线。例如，ResNet-ACmix 26实现了与SASA-ResNet 50相同的top-1精度，具有80%的FLOP。在相似的FLOP下，我们的模型优于SASA0。百分之三十五百分之八相对于其他基线的优势甚至更大。对于SAN-ACmix、PVT-ACmix和Swin-ACmix，我们的模型实现了一致的改进。作为展示，SAN-ACmix 15以80%的FLOP优于SAN 19。PVT-ACmix-T显示出与PVT-Large相当的性能，仅具有40%的FLOP。Swin-ACmix-S比Swin-B具有更高的精度，FLOP为60%5.2. 下游任务语义分割我们在具有挑战性的场景解析数据集ADE 20K [55]上评估了我们的模型的有效性，并在两种分割方法Semantic-FPN [25]和UperNet [48]上显示了结果。因此，通过精心设计的核权重，A（qij，kab）=softmaxa，b∈W、823×PVT-TPVT-ACmix-TPVT-SPVT-ACmix-S13M 1.9G13M 2.0G25M 3.8G25M 3.9G75.178.0（+2.9）79.881.7（+1.9）(a) ResNet（b）SAN(c)PVT（d）Swin-Transformer图4.FLOPS和参数与ImageNet分类任务准确性的比较（a）中的方法采用传统注意力从ResNet-50适应，（b）中的方法采用分片注意力从SAN适应，（c）中的方法采用全局注意力从PVT适应，（d）中的方法采用窗口注意力从Swin-Transformer适应。主干在ImageNet-1 K上进行预训练它示出ACmix在所有设置下都实现了改进目标检测我们还在COCO基准上进行实验[30]。选项卡.3和Tab。4显示基于ResNet的模型和基于Transformer的模型的结果，PVT-T 40k 17M 158G 37.1语义FPNACmix40k 17M 160G42.7（+5.6）PVT-S40k28M225G 42.4ACmix40k29M228G 46.4（+4.0）具有各种检测头的EL，包括RetinaNet [29]，Mask R-CNN [18]和Cascade Mask R-CNN [5]。我们可以观察到，ACmix始终优于具有类似参数或FLOP的基线这进一步验证了EF-UperNetSwin-T 160k 60M 945G 44.5ACmix160k 60M 950G45.3（+0.8）ACmix在转移到下游任务时的效率5.3. 实际推理速度我们进一步研究了我们的方法在Ascend 910环境下的实际推理速度，Mind- Spore是一种用于移动，边缘和云场景的深度学习计算框架。我们在Tab中总结了结果。五、与PVT-S相比，我们的模型实现了1.3x fps，具有可比的mAP。当涉及到更大的模型时，优势更加明显。ACmix以1.8倍fps的速度超越5.4. 消融研究为了评价ACmix不同组件的有效性，我们进行了一系列消融研究。合并两条路径的输出。我们探讨了卷积和自我注意输出的不同组合我们用多种组合方法进行了实验，并将结果总结在表1中。六、我们还显示了模型的性能，采用只有一个路径，Swin-T的自我注意，和Conv-Swin-T的卷积通过更换窗口表2.ADE20K分段，基于Transformer模型。方法骨干SCHDFlops mAP mAP50 mAP75RetinaNetResNet 50SasaACmix1x1x1x250G226G230G三十六756039036.8 54.6 39.3三十八岁。356240 0RetinaNetSAN 19ACmix1x1x229G233G38.2 56.0 41.139岁一百五十八。九点四十一6表3. COCO基于ResNet模型的对象检测。注意传统的33卷积。正如我们所观察到的，卷积和自我注意模块的组合始终优于具有单一路径的模型。固定所有运算符的卷积和自我注意的比率也会导致更差的性能。相比之下，使用学习参数为ACmix提供了更高的灵活性，并且可以根据滤波器在整个网络中的位置自适应地调整卷积和自注意路径的强度。群卷积核。我们还对组卷积核的选择进行了消融，正如我们所做的方法参数触发器Top-1ResNet 26ResNet-ACmix 26ResNet 38ResNet-ACmix 38ResNet 50ResNet-ACmix 5013.7M 2.4G10.6M 2.3G19.6M 3.2G14.6M 2.9G25.6M 4.1G18.6M 3.6G73.676.1（+2.5）76.077.4（+1.4）76.977.8（+0.9）San 10SAN-ACmix 10SAN 15SAN-ACmix 15SAN 19SAN-ACmix 1911.8M 1.9G12.1M 1.9G16.2M 2.6G16.6M 2.7G20.5M 3.3G21.2M 3.4G77.177.6（+0.5）78.078.4（+0.4）78.278.7（+0.5）Swin-TSwin-ACmix-TSwin-SSwin-ACmix-S29M 4.5G30M 4.6G50M 8.7G51M 9.0G81.381.9（+0.6）83.083.5（+0.5）方法骨干SCHD参数触发器val mIoUSwin-S160k81M1038G 47.6ACmix160k81M1043G 48.7（+1.1）824| |||||×(a) SAN-ACmix 19表4.COCO基于transformer模型的对象检测RetinaNet方法主干mAPFPSPVT-S42.2 50.3AC混合42.0 67.7（x1.3PVT-L 43.4ACmix 45.3 43.9（x1.8）表5. COCO上的实际推理速度。FPS在单个Ascend 910上测试，输入图像大小为（3，576，576）。方法α β参数触发器top-1Swin-T1-29M4.5G81.3Conv-Swin-T-139M4.5G80.51 1 30M 4.6G 81.5(b) Swin-ACmix微型图5.来自SAN-ACmix和Swin-ACmix的不同层的α、β和log（α/β）同一图中的线对应于平行实验。最终输出计算为Fout = α·Fatt+β·Fconv。来自SAN-ACmix和Swin-ACmix模型的不同层的参数α、β。五、左边和中间的图分别示出了自我注意和卷积路径的速率的变化趋势。在不同的实验中的速率的变化是相对较小的，特别是当层更深。这一观察结果显示了深度模型对不同设计模式的稳定偏好。右图显示了更明显的趋势，其中明确显示了两条路径之间的比率。我们可以看到Swin-ACmix-Tα1α1-α30M 4.6G 81.630M 4.6G 81.5卷积可以作为很好的特征提取器，Transformer模型的早期阶段中期的α β 30 M 4.6G81.9表6.两种路径结合方法的消融研究最终输出计算为F_out= α·F_att + β·F_conv。移位模块触发器Top-1 FPS张量位移（图3a）4.6G81.4313随机初始化（图3c.II w/o init） 4.7G81.5419组转换（完整）4.7G81.9 419固定内核（图3c.一）4.7 G表7.基于Swin-Transformer-T的移位模块实现的消融研究。FPS在单个RTX2080Ti GPU上进行测试，具有最大批量。在第一节中显示。4.3和图3 .第三章。我们经验性地显示了每种适应的有效性，以及它对Tab中实际推理速度的影响。7 .第一次会议。通过用群卷积代替张量移位，推理速度大大提高。此外，使用可学习的卷积核和精心设计的初始化增强了模型的灵活性，并有助于最终性能。5.5. 偏向不同的道路。还值得注意的是，ACmix引入了两个可学习的标量α，β来组合来自两个路径的输出（等式10）。第14段）。这导致了我们的模块的副产品，其中α和β实际上反映了模型我们进行平行实验，并显示学习由于网络的复杂性，该模型倾向于利用两条路径的混合，并越来越倾向于卷积。在最后一个阶段，自我注意表现出优越性。这也与之前作品中的设计模式一致，其中在最后阶段大多采用自注意来取代原始的3 3卷积[3，40]，并且早期阶段的卷积被证明对视觉变换器更有效[49]。6. 结论在本文中，我们探讨了两个强大的技术，卷积和自我注意力之间的密切关系。通过分解这两个模块的操作，我们表明，他们共享相同的计算开销投影输入特征图。在此基础上，我们进一步提出了一种混合算子，通过共享相同的重操作来集成自注意和卷积模块。大量的图像分类和目标检测基准的结果表明，该算子的有效性和确认这项工作得到了中国科学技术部国家科技重大专项基金2018AAA0100701，国家自然科学基金61906106和62022048以及华为技术有限公司的部分支持。RetinaNet方法骨干SCHDFlops mAP mAP50 mAP75RetinaNetPVT-TACmix1x1x230G232G36.7 56.9 38.9四十561242 7RetinaNetPVT-TACmix3x3x230G232G39.4 59.8 42.0四十二062 八点四十四。6掩模Swin-T3x 272G 46.067.850.4R-CNNACmix3x 275G 四十七069岁。051岁8级联Swin-T3x 750G 50.569.354.9Mask R-CNN ACmix3x 754G 51岁169岁。855. 6825引用[1] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[2] 放大图片作者：Josh Beal，Eric Kim，E. Tzeng，DongHuk Park，Andrew Zhai，and Dmitry Kislyuk.基于变换器的目标检测。ArXiv，abs/2012.09958，2020。[3] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在IEEE/CVF计算机视觉国际会议论文集，第3286-3295页[4] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Balcan 和 H.Lin ， editors ， Advances in NeuralInformation Processing Systems ， Volume 33 ， pages1877Curran Associates，Inc. 2020年。[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：Delv- inginto high quality object detection.在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[6] 曹跃，徐杰，林晓，魏芳云，H。胡Gcnet：非局域网络满足挤压激励网络和超越。2019 IEEE/CVF计算机视觉国际会议研讨会（ICCVW），第1971- 1980页[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[8] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的Proceedings中，第12299-12310页[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[10] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever. 用稀疏变换器生成长序列。 arXiv 预印本arXiv：1904.10509，2019。[11] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在2020年国际学习代表会议上[12] 阿斯科利Convit：改善具有软卷积电感偏置的视觉变换器arXiv预印本arXiv：2103.10697，2021。[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在Jill Burstein，Christy Doran和Thamar Solorio，编辑，2019年计算语言学协会北美分会会议论文集：人类语言技术，NAACL-HLT 2019，明尼阿波利斯，MN，美国，2019年6月2日至7日，第1卷（长论文和短论文），第4171- 4186页计算语言学协会，2019年。[14] 董晓义，鲍建民，陈东

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

自注意与卷积整合的优化模型

论文研究-基于视觉注意模型和卷积神经网络的交通视频车牌识别 .pdf

轻量融合多任务卷积神经网络模型

那CNN当中自注意力机制应该放在哪里

脑肿瘤放射基因组分类卷积

循环卷积神经网络的优缺点

多模态大模型构建与应用技术路线图

ecapatdnn模型代码

你如何理解多模态大模型

halcon分類匯入預訓練模型

卷积神经网络可以实现回归吗？

对于人物行为分析，深度学习图卷积神经网络，复杂大量图像数据处理，使用的控制器

ECA-Net的创新点

VGG16和VGG19进行风格图像迁移，如何进行模型训练，400字

如何实现基于深度神经网络的中医药辅助医疗系统

大模型ui设计技术路线

基于机器学习的日晒伤害检测装置的改进

DNF yolo模型

使用python,利用AI技术写一个影像自动识别功能

最新资源