MSG-Transformer：跨区域信息交换的多尺度神经网络设计

6 浏览量更新于2023-10-26 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12063MSG-Transformer：通过操纵信使令牌方杰民1，2，谢玲喜3，王兴刚2<$，张晓鹏3，刘文宇2，田琦31华中科技大学人工智能研究所2华中科技大学三电学院3华为公司{jaminfong，xgwang，liuwy} @ hust.edu.cn{198808xc，zxphistory} @ gmail.comhuawei.com摘要变形金刚为视觉识别提供了一种新的神经网络设计方法.与卷积网络相比，Transformers具有在每个阶段都能引用全局特征的能力，但注意力模块带来了更高的计算开销，阻碍了Transformers处理高分辨率视觉数据的应用。本文旨在缓解效率和灵活性之间的冲突，为此，我们提出了一个专门的令牌，为每个地区，作为信使（MSG）。因此，通过操纵这些MSG到- kens，可以灵活地跨区域交换视觉信息，并且降低了计算复杂度。然后，我们将MSG令牌集成到一个多尺度架构中，名为MSG-Transformer。在标准的图像分类和目标检测中，MSG-Transformer实现了具有竞争力的性能，并加速了GPU和CPU上的推理。代码可从https：//github.com/hustvl/MSG-Transformer网站。1. 介绍在过去的十年里，卷积神经网络（CNN）在计算机视觉领域占据主导地位。作为深度学习中最流行的模型之一，CNN构建了一个分层结构来学习视觉特征，在每一层中，使用卷积聚合局部特征以产生下一层的特征。虽然简单且有效，但是该机制阻碍了彼此相对远离的特征之间的通信。为了提供这样的能力，研究人员建议用Transformer代替卷积，这是一个在自然语言处理领域首次引入的模块[50]。它表明，变形金刚有潜力†通讯作者。这项工作是方洁敏在华为公司实习期间完成的学习视觉表示并在广泛的视觉识别问题中取得了显着的成功，包括图像分类[13，39]，对象检测[4]，语义分段[61]等。Transformer模块的工作原理是使用一个标记来计算每个空间位置的特征。然后，这些特征被输入到自我注意力计算中，根据香草设计，每一个目标都可以在每一层与所有其他目标交换信息。这种设计有助于视觉信息更快地交换，但也增加了计算复杂度，因为计算复杂度随着令牌的数量呈二次方增长-相比之下为了降低计算成本，研究人员提出在2D视觉特征的局部窗口中计算注意力。然而，在重叠区域内构造局部注意力使不同位置之间的通信成为可能，但会造成不可避免的内存浪费和计算成本;在非重叠区域内计算注意力会阻碍信息通信。作为两种典型的局部注意力视觉Transformer方法，HaloNet [49]通过略微增加窗口边界来划分查询特征而不重叠，但重叠键和值特征; SwinTransformer [31]通过交替改变不同层中的分区样式来建立窗口之间的隐式连接，即，移动拆分窗口。这些方法实现了与vanilla Transformers相比具有竞争力的性能，但HaloNet仍然浪费内存，并在键和值方面引入了额外的成本; Swin Transformer依赖于频繁的1D-2D特征转换，这增加了实现难度和额外的延迟。为了减轻负担，本文提出了一种新的方法，以更有效地交换信息。这是通过在每个本地窗口中构造一个消息（MSG）来实现的.每个MSG令牌负责汇总相应窗口12064并与其他MSG代币交换。换句话说，所有常规令牌都没有明确连接到其他区域，MSG令牌充当信息交换的枢纽。这带来了双重好处。首先，我们的设计对实现是友好的，因为它不会像[39，49，60]那样创建数据的冗余副本。其次，更重要的是，设计的灵活性大大提高。通过简单地操纵MSG令牌（例如，调整每个信使令牌的覆盖范围或编程它们如何交换信息），可以容易地构造用于各种目的的许多不同将Transformer与MSG令牌集成到多尺度设计中，我们得到了一个强大的架构MSG-Transformer，该架构具有多层次特征提取和计算效率的优点。我们将MSG-Transformer 实例化为一个简单的案例，即MSG令牌的特征通过来自不同位置的拆分进行混洗和重构该算法能够有效地交换局部区域的信息，并在下一次注意力计算中相互传递，实现简单而高效。我们评估模型的图像分类和目标检测，取得了可喜的成绩。我们希望我们的研究成果能进一步促进多尺度/局部注意变换器在视觉识别中的研究和应用。我们将我们的贡献总结如下。• 我们提出了一种新的基于局部注意力的视觉变换器，它具有分层分辨率，在非重叠窗口中计算注意力。窗口之间的通信通过提出的MSG令牌来实现，避免了频繁的特征维转换，保持了较高的简洁性和效率。所提出的混洗操作有效地交换来自不同MSG令牌的信息，而成本可以忽略不计。• 在实验中，MSG-Transformers在ImageNet [10]分类上显示出有希望的结果，即，84.0%的Top-1准确度和MS-COCO [28]对象检测，即，52.8 mAP，始终优于最新的Swin Transformer [31]。同时，由于特征处理的简洁性，MSG- Transformer比SwinTransformer显示出速度优势，特别是在CPU设备上。• 我们不直接对巨大的补丁令牌进行操作，而是使用轻量级的MSG令牌来交换信息。所提出的MSG令牌有效地从局部区域提取特征，并且可能对其他场景产生影响。我们相信，我们的工作将启发未来的探索视觉变形金刚。2. 相关作品卷积神经网络是一种流行的和成功的算法，在广泛的计算机视觉问题。由于AlexNet [26]在ImageNet [10]分类上表现出强大的性能，开始了CNN的蓬勃发展。随后出现了一系列方法[17，21，42，44，45]，并坚持促进CNN在视觉任务上的表现。受益于骨干网络的发展，CNN极大地提高了各种视觉识别场景的性能，包括对象检测[3，29，30，40，41]，语义/实例分割[6，7，16]等。由于现实生活场景通常涉及资源受限的硬件平台（例如，对于移动和边缘设备），CNN被设计为采用更少的计算成本[19，34，46]。特别是，与NAS AP-应用的方法[2，14，53，62]，CNN以极低的成本实现了高性能，例如，参数数、FLOP和硬件延迟。CNN的一个明显缺点是，它可能需要许多层才能让遥远的特征相互通信，从而限制了视觉表示的能力。Transformer就是要解决这个问题。视觉Transformer网络Transformers由[50]首次提出，已广泛用于自然语言处理（NLP）。变形金刚的变体，以及改进的框架和模块[1，11]，在NLP中具有最先进的（SOTA）性能《变形金刚》的核心思想在于自我注意机制，旨在建立局部特征之间的关系。一些初步的工作[20，23，39，52，60]探索将自我注意力应用于视觉任务的网络，并取得了可喜的效果。最近，ViT[13]提出将纯Transformer应用于图像补丁序列，其在图像分类上匹配甚至优于并发CNN模型。受ViT的启发，一系列后续作品[9，15，47，48，58]探索了视觉变形金刚的更好设计，并取得了很好的推广效果。一些作品[27，43，54，56]将CNN的模块集成到视觉Transformer网络中，也取得了很大的成果。为了在图像分类上实现强有力的结果，许多上述基于ViT的方法在恒定分辨率下处理特征并在全局区域内计算attentions。这使得将视觉转换器应用于下游任务变得棘手，例如，对象检测和语义分割，因为多尺度对象难以在恒定分辨率下表示，并且增加的输入分辨率导致用于注意力计算的过载计算/存储器成本。为了将视觉转换器应用于下游任务，需要解决两个关键问题，即，涉及分级分辨率以捕获精细的多尺度特征并降低成本12065∈H2W×∈∈MSGRWHW∈2图1. MSG-Transformer块的结构。2D特征被分割成局部窗口（由绿线表示），几个窗口组成一个随机区域（红色区域）。每个本地窗口都附带一个MSG令牌。MSG令牌被混洗以在每个Transformer块中交换信息，并将获得的信息传递到下一个自注意中的补丁令牌。是由全局注意力计算带来的。PVT [51]专业组成一个洗牌区（图中红线1）、HW2 2提出了在多分辨率阶段下处理特征和下采样键和值特征以降低计算成本的方法。 HaloNet [49] 和 SwinTransformer [31]提出在局部窗口中计算注意力。为了克服非重叠窗口缺乏通信而重叠窗口引入广告内存/计算成本的矛盾，HaloNet提出在键和值令牌中略微重叠特征，即特征被分割为XrRRw×Rw×R ×w ×C，其中R表示混洗区域。在视觉变换器[13，47]中，图像特征通常由输入层投影到补丁令牌中。除了补丁令牌，它代表的内在信息的图像，我们引入了一个额外的令牌，名为信使（MSG）-肯，在本地窗口中的补丁令牌的抽象信息。每个本地窗口都附有一个消息，以便-HW2 2保持查询不重叠; Swin Transformer alterna-动态更改窗口分区样式，以隐式地在非重叠窗口之间建立连接。随后的一系列作品[8，12，22，57]探索了建立局部-全局关系或连接局部区域的新方法。kenasXw′RRw×Rw×R×（w+1）×C. 然后是一层没有-将malization应用于所有令牌。多头自在补丁和MSG令牌之间的每个局部窗口内执行注意。MSG令牌可以从相应的窗口中捕获信息。我们新提出了MSG令牌来提取信息之后，所有的MSG令牌T∈× ×R ×C本地窗口，并使用轻量级方法，即，洗牌，在MSG令牌之间交换信息。这种简洁的方式避免了直接对繁琐的补丁令牌进行操作，具有很高的灵活性.3. MSG变压器本节详细阐述了拟议的方法，MSG-来自相同局部区域R的信息被混洗以交换来自不同局部窗口的信息。我们命名一个区域与味精令牌洗牌作为洗牌区。最后，通过层归一化和两层MLP处理MSG-变压器块的整个计算过程可以总结如下。Transformer。核心部分是Sec。3.1我们介绍Xw′ =[TMSG;Xw]（1）MSG令牌，并解释它如何简化信息-信息交换然后，我们构建了整体架构，Xw′ =局部-MSA（LN（Xw′））+Xw′（二）真实（即，MSG变压器）。3.2分析TMSG=shuffle（TMSG）（3）在SEC的复杂性。三点三Xw′ =MLP（LN（Xw′））+Xw′（四）3.1. 将MSG令牌添加到Transformer块MSG-Transformer 架构是通过堆叠一系列 MSG-Transformer块来构建的，通过各种空间分辨率。如图1所示，MSG- Transformer块主要由几个模块组成，即，层规范化（layer norm）、局部多头自注意（local-MSA）、MSG令牌混洗和MLP。图1呈现了如何处理来自局部空间区域的特征。首先，将2D特征XRH×W ×C划分为不重叠的窗口（通过图中的绿线）。图1）表示为X wRw×w× w × C，其中（H，W）表示特征的2D分辨率，C表示通道尺寸，w表示窗口大小。那么R×R赢了-MSG令牌补丁令牌MLP图层规范MSG令牌洗牌本地-MSA图层规范RRW12066×≤≤∈局部多头自注意力与沿着全局区域执行注意力计算的视觉变换器[13，47]不同，我们在每个局部窗口内计算以 w w 的窗口为例，在 X= [tMSG;x1;.] 的token序列上计算注意力。其中t_MSG表示与该窗口相关联的MSG令牌，并且我W2）表示窗口内的每个小块到Ken。注意力（Q，K，V）=softmax（Q·KT/T+B）·V，（5）其中Q，K，VR（w2+ 1）×d分别表示从序列X投影的查询矩阵、键矩阵和值矩阵，d12067×R2∈阿夫林b×××∈×H×W××图2. MSG-Transformer的整体架构。从输入图像的补丁被投影到令牌，令牌功能划分成窗口。然后，每个窗口被附加一个MSG令牌，该MSG令牌将与每个层中的本地窗口内的所有其他补丁令牌一起参与后续的注意力计算。分组在执行下一个注意力计算的情况下，来自其他局部窗口的空间信息经由MSG令牌被递送到当前窗口中的补丁令牌。指示洗牌R R洗牌区域中的MSG令牌为T混洗过程可以公式化为MSG ∈RR2×d，图3.打乱MSG标记，其中我们继承了TM′SG =reshape（TMSG），TM′SG∈RR2×R2×d图1用于说明。TM′SG =transpose（TM′SG，dim0=0，dim1=1），（7）2表示通道尺寸，B表示相对位置偏差。根据之前的Transformer工作[20，31，38]，根据相对标记距离，从偏置参数b relR（2w−1）×（2w−1）中获取B中补丁标记之间的相对位置偏置。补丁令牌和MSG令牌tMSG之间的位置偏差都设置为相等，这与[24]中处理[CLS]令牌的方式相同。具体地，矩阵B被计算为TMSG=reshape（TM′SG），TMSG∈RR×d其中d表示MSG令牌的信道维度，其保证可被组号R2整除。虽然洗牌操作与在卷积网络ShuffleNet [34，59]中，效果完全不同。ShuffleNet执行shuffle操作，以融合由reli′，j′i0，j=0分组11卷积，而我们的MSG-变压器将所提议的MSG令牌混洗以交换空间信息，B=θ1i=0i=0，j=0、（6）从不同的本地窗口。扩展还有其他的构造方法，其中 i′=imodw−jmodw+w−1 ， j′=i//w−j//w+w−1，θ1，θ2是两个可学习的参数。通过打乱MSG令牌交换信息MSG令牌允许我们灵活地交换视觉信息。在这里，我们使用shuffling操作实例化一个示例，同时我们强调该框架很容易应用于其他操作（见下一段）。在每个MSG-Transformer块中，相同混洗区域中的MSG假设混洗区域具有R R的大小，这意味着在该区域中存在R R个MSG令牌，并且每个MSG令牌与w w局部窗口相关联。如图3所示，每个MSG令牌的通道首先被划分为RR基团。然后，R RMSG令牌被重新组合。洗牌完成后，每个MSG令牌从所有其他令牌获得信息操纵MSG令牌。例如，可以扩展框架，使得相邻MSG令牌可以重叠，或者对传播规则进行编程，使得MSG令牌彼此不完全连接。此外，当交换MSG令牌的特征时，可以自由地注入复杂运算符，而不是基于混洗的身份映射请注意，如果不将MSG令牌作为显式中心，这些函数中的一些很难我们将在未来研究这些扩展。3.2. 整体架构图2示出了MSG- Transformer的总体架构。首先将输入图像投影成块令牌TpR4×4× C乘A 77卷积，其中C表示信道维度。重叠投影用于在补丁标记之间建立更好的关系。类似的方式也被采用在高×宽×34周 4周_H×_W×（w2+ 1）×C_H×_W×（w2+ 1）×2C_H×_W×（w2+ 1）×4C_H×_W×（w2+1）× 8 C8w 8w16w 16w32W 32WMSG代币附着阶段4阶段3阶段2阶段1MSG-变压器块×N4令牌合并MSG-变压器块×N3令牌合并MSG-变压器块×N2令牌合并MSG-变压器块×N1...线性投影窗分割12068××·∼∼∈294C+74pw×w ×w ×C表1.MSG-Transformer架构变体的详细设置阶段补丁令牌决议洗牌大小MSG-变压器-TMSG-变压器-SMSG变压器BCLSdet昏暗头数区块数昏暗头数区块数昏暗头数区块数1H W4× 4446422963296322H W8× 8441284419264192643H W16× 1628256812384121238412284H W32× 3214512164768244768244以前的方法[8，54]。然后，代币被分割成胜利-总FLOP计算为形状为ww的窗口，每个窗口附有一个MSG令牌，该令牌与补丁令牌具有相等的通道号。建筑的其余部分是con-FLOPs= FLOPsMSA+ FLOPsMLP=HW×（4w2C2+2w4C）+2HWw2·4C2。（八）由一系列MSG-T转换器块按w2w2堆叠而成定义在Sec. 第3.1条为了获得各种空间分辨率下的特征，我们通过合并补丁和MSG令牌来对特征进行下采样。相同分辨率下的块形成一个阶段。对于补丁和MSG令牌，我们使用重叠的3 - 3卷积与步幅2来执行到肯合并，并在下一阶段1中将通道维度加倍。对于图像分类，最后合并的MSG到- kens被投影以产生分类分数。对于对象检测等下游任务，仅需要补丁令牌被传递到头部结构中，而MSG令牌仅应用MSG标记后，总FLOP将变为FLOPs′=HW（4（w2+1）C2+2（w2+1）2C）w2+2HW（w2+1）4C2。w2FLOPs增加比例计算为FLOPs′− FLOPsFLOPsHW（4C2+2（w2+1）C）+2HW·4C2（九）用于在骨干网中交换信息。=w2第二章（10）HW×（4w2C2+ 2w4C）+2HW ×w2 ×4C2在我们的实现中，我们建立了三个不同规模的体系结构变量。如Tab.所示。MSG- Transformer-T、-S和-B表示具有不同通道数、注意头数和层数的微小、小型和基本窗口大小设置为7、所有建筑随机播放区域大小设置为4、4、2、1四个阶段分别进行图像分类4，4，8，4用于目标检测。如后续研究所示（第4.3），我们的MSG变压器更喜欢更深，更窄的架构规模比Swin跨-前[31]。3.3. 复杂性分析虽然在每个局部窗口中引入了一个MSG令牌基于局部注意力的Transformer块包括两个主要部分，即，局部MSA和两层MLP。将输入的补丁令牌特性表示为TRHW2、凡H、W表示2D空间分辨率，w表示局部窗口大小，并且C表示通道号，1用于合并令牌的卷积参数在补丁令牌和MSG令牌之间共享。w2w26C+w2+ 1=6w2C+w4。当窗口大小w在我们的实现中被设置为7时，FLOP增加比例变为6C+50。以通道数为384为例，增加的FLOP仅占2。04%，这对总复杂度来说是微不足道的。对于参数的数量，所有的线性投影参数在补丁和MSG令牌之间共享只有输入MSG令牌引入了附加参数，但是它们在洗牌区域之间共享，仅取42C=16C，即，0的情况。0015M，用于96个输入通道尺寸。在实验中，我们证明，即使输入MSG令牌没有学习，MSG变压器仍然可以实现高性能。由此，可以放弃来自输入MSG令牌的参数。值得注意的是，由于局部区域通信是通过混洗MSG令牌来实现的，如果输入图像具有规则的大小，则在一个阶段中仅需要对补丁令牌的巨大特征矩阵进行一次窗口划分利用MSG令牌辅助，可以节省来自补丁令牌的频繁2D到1D矩阵转换的成本，这导致额外的延迟，特别是在计算有限的设备上，12069××表2. ImageNet-1 K上的图像分类性能比较[10]。方法输入大小 Params FLOPs Imgs/sCPU延迟Top-1（%）卷积网络[37]第三十七话224221M4.0G930.1138毫秒80.0[37]第三十七话224239M8.0G545.5250ms81.7RegY-16G [37]224284M16.0G324.6424ms82.9[46]第四十六话380219M4.2G345315ms82.9[46]第四十六话456230M9.9G168.5768ms83.6[46]第四十六话528243M19.0G96.41317毫秒84.0Transformer网络[47]第四十七话224222M4.6G898.3118ms79.8T2T-ViTt-14[58]224222M5.2G559.3225ms80.7小型PVT [51]224225M3.8G749.0146ms79.8TNT-S [15]224224M5.2G387.1215ms81.3[56]第五十六话224220M4.0G--81.9Swin-T [31]224228M4.5G692.1189毫秒81.3MSG-T224225M3.8G726.5157毫秒82.4[47]第四十七话224287M17.5G278.9393ms81.8T2T-ViTt-19[58]224239M8.4G377.3314ms81.4T2T-ViTt-24[58]224264M13.2G268.2436ms82.2[51]第五十一话224261M9.8G337.1338ms81.7TNT-B [15]224266M14.1G231.1414ms82.8Swin-S [31]224250M8.7G396.6346ms83.0公司简介224256M8.4G422.5272ms83.4[13]第十三话384287M55.4G81.11218毫秒77.9[13]第十三话3842307M190.7G26.34420毫秒76.5[47]第四十七话384287M55.4G81.11213ms83.1Swin-B [31]224288M15.4G257.6547ms83.3MSG-B224284M14.2G267.6424ms84.0*注意，我们实验中使用的32 G-V100的吞吐量略低于其他一些论文中使用的16 G-V100。*CPU延迟是使用英特尔®至强® Gold 6151 CPU@3.00 GHz的一个内核测量的。例如，CPU和移动设备，但在大多数以前的基于本地注意力的[31，39]或CNN注意力混合变压器[9，27，54]中是不可避免的。4. 实验在实验中，我们首先在第二节的ImageNet [10]分类上评估我们的MSG-Transformer模型。4.1.然后在Sec。4.2，我们在MS- COCO [28]对象检测和实例分割上评估了MSG-变换器。最后，我们进行了一系列的消融研究和分析。四点三。此外，我们还提供了 MSG-Transformer的MindSpore [35]实现。4.1. 图像分类表3. MS-COCO [28]与Cascade Mask R-CNN [3，16]的对象检测和实例分割性能比较。“X101-32” and “X101-64” denoteResNeXt101-32和-64× 4d。方法AP盒AP盒AP盒50 75AP掩码AP掩码50 75参数FLOPs FPSDeiT-S48.067.251.741.464.244.380M889G-ResNet-50 46.364.350.540.161.743.482M739G 10.5Swin-T50.569.354.943.766.647.186M745G9.4MSG-T51.470.156.044.667.448.183M小行星731G9.1X101-3248.166.552.441.663.945.2101M819G7.5Swin-S51.870.456.344.767.948.5107M838G7.5公司简介52.571.157.245.568.449.5113M831G7.5X101-6448.366.452.341.764.045.1140M972G6.0Swin-B51.970.956.545.068.448.7145M982G6.3MSG-B52.871.357.345.768.949.9142M956G6.1*FPS是在批量为1的32 G-V100上测量的。AdamW[25]优化器使用0. 重量衰减。训练过程总共需要300个epoch，具有余弦退火衰减学习率计划[33]和20epoch线性预热。总批量大小设置为1024，初始学习率为 0 。 001 。重复增强 [18] 和 EMA [36] 不像 SwinTransformer [31]那样使用。我们在Tab中提供ImageNet分类结果并与其它卷积网络和Transformer网络进行了比较与DeiT [32]相比，MSG变压器在准确性和计算预算之间实现了更好的权衡MSG-Transformer-T实现了2. 6 Top-1精度提升超过DeiT-S，0. 8 G更小的FLOPs; MSG-Transformer-S将精度提高1. 6只48只0% FLOPs; MSG-变压器-B实现了84.0% Top-1精度，比更高分辨率的DeiT-B高0. 9，只有25 。 6%FLOPS 。与最新的最先进的方法 SwinTransformer [31]相比，我们的MSG-Transformer在具有相似参数和FLOP的情况下实现了具有竞争力的精度。值得注意的是，由于避免了频繁的1D-2D特征转换和分区，MSG变压器显示出比Swin变压器更有前途的速度优势特别是在CPU设备上，延迟的改善更为明显。MSG-Transformer-T 是 16 。比 Swin-T 快 9%; MSG-Transformer-S快21. 比Swin-S快4%; MSG-Transformer-B快22. 比Swin-B快5%4.2. 对象检测我们使用Cascade Mask R-CNN [3，16]框架评估了MS-COCO [28]对象检测上的MSG-Transformer网络。培训和评估是基于MMDetection [5]工具包进行的。对于训练，我们使用AdamW [25]优化器，0。05重量我们评估我们的MSG-Transformer网络，常用的图像分类数据集ImageNet-1 K [10]，并报告验证集的准确性在选项卡中。二、大多数训练设置遵循DeiT [47]。的衰减，1 10−4初始学习率和总批量大小为16.学习率衰减0。1在27和33的时代。培训采取3个时间表，即，总共36个时期多尺度训练与较短的一侧的im-12070××表4.关于MSG令牌的消融研究和ImageNet分类上的洗牌行MSG代币洗牌操作图像/秒前一名（%）MSG-变压器-T （深度=12）表5.输入MSG/CLS令牌参数对ImageNet分类的影响行培训评价前一名（%）MSG-Transformer-T（MSGToken）1✗✗720.380.223✓✓✗✓702.2696.780.5 ↑0. 381.1 ↑0. 91可学习了解到80.923可学习随机随机的80.8 ↓0. 180.8 ↓0. 1MSG-变压器-S（深度=24）了1. 8Deit-S（CLS代币）把两个模块都拆了，1 .一、1与年龄大小在480和800之间，并且还使用不超过1333的较长边。由于输入图像大小对于对象检测是不固定的，所以用0填充补丁令牌以保证它们可以被给定的窗口大小分割以用于注意力计算。并且随机区域在层之间的左上和右下位置处交替改变以覆盖更多窗口。如Tab.所示。3、MSG-变换器实现了比基于CNN的模型显著更好的性能，即，五、1 AP盒优于ResNet-50 [17]，4. 4 AP盒优于ResNeXt101 -32 4d [55]，以及 4. 5AP盒优于ResNeXt 101 -644d。尽管Swin Transformers在目标检测方面取得了极高的性能，我们的MSG-变压器仍然实现了0. 九比零。七比零。9个AP盒和0. 九比零。八比零。7个AP掩码分别用于T、S、B标度4.3. 消融研究在本节中，我们在ImageNet-1 K上进行了一系列关于洗牌操作、MSG令牌、网络规模和洗牌区域大小的消融研究。为了更好地理解MSG标记的工作机制，我们进一步可视化了MSG标记的注意力图MSG令牌洗牌操作的影响我们研究了MSG令牌和洗牌操作的影响，并在Tab. 4.第一章如第1行所示，删除MSG令牌和洗牌操作后，性能下降0。9 .第九条。在第2行中应用MSG令牌的情况下，每一个都提升0。三是没有两者。虽然没有shuffle操作，但MSG令牌仍然可以在每个令牌合并（下采样）层中交换信息然而，仅在标记合并层中交换信息对于扩大感受野来说太有限了。在更深的网络MSG-Transformer-S上应用相同的消融后，性能差距变得很大。Top-1精度下降2在没有指定的情况下，消融研究的实验去除了重叠的下采样，并遵循Swin- Transformer [31]中的网络尺度，以进行清晰和公平的比较。shuffle删除值得注意的是，MSG令牌和洗牌操作都足够轻，不会导致明显的吞吐量衰减。MSG 令牌的输入参数为了进一步了解 MSG 令牌在Transformer中的作用，我们研究了输入MSG令牌的参数所造成的影响如表2第2行所示。5.我们随机重新初始化输入MSG令牌的参数进行评估，这些参数在训练过程中是可学习的，有趣的是准确率只下降了0。百分之一。然后在第3行中，我们随机初始化输入MSG令牌，并在训练期间保持固定。当输入MSG令牌参数也被随机重新初始化以进行评估时，它仍然会导致可忽略的准确度下降。这意味着输入的MSG令牌参数不需要学习。我们推测，如果需要学习传统变压器中CLSto- kens的输入参数，并在Deit-S上执行相同的实验[47]。然后，我们发现随机重新参数化输入CLS令牌以进行评估会导致准确性严重下降，即，2.2%在第5行。上述实验表明，所提出的MSG令牌扮演着与传统CLS令牌不同的角色，传统CLS令牌作为信使从不同的本地窗口携带信息并相互交换信息。由于它们通过注意力计算逐层吸收局部特征，因此其自身的输入参数对后续信息传递的换句话说，在不间断的自我注意和信息交换的情况下，补丁令牌构成了MSG令牌，而MSG令牌只负责汇总本地补丁令牌并将消息传递到其他位置。因此，MSG令牌的输入参数网络规模考虑到不同类型的架构适合不同的网络规模，我们研究了Swin-和MSG-Transformer的规模如下。如Tab.所示。6，评价了两个尺度，其中一个是浅的和宽的，每个阶段有96个输入维度和[2，2，6，2]块，而另一个是深的和窄的，每个阶段有64个维度和[2，4，12，4]块。我们观察到MSG-Transformer在计算成本和性能之间实现了更好的权衡。4可学习了解到79.95可学习随机77.7 ↓2. 24✗✗412.981.256✓✓✗✓403.9401.081.9 ↑0. 783.0 ↑1. 812071输入图像Block-2 Block-4 Block-7 Block-10 Block-12图4.在不同块中的本地窗口内的每个MSG标记和补丁标记之间计算的注意力映射的可视化表6.Swin变压器和MSG变压器的网络规模研究模型昏暗块数ParamsFLOPs前一名（%）Swin96[二、二、六、二]28M4.5G81.364[二、四、十二、四]24M3.6G81.3MSG96[二、二、六、二]28M4.6G81.164[二、四、十二、四]24M3.7G82.1表7.图像分类中洗牌区域大小的消融研究。随机区域大小图像/秒前一名（%）二一695.180.6四二二一696.180.8四，四，二，一696.780.9精确度与更深更窄的尺度。我们分析原因如下。在Swin Transformer中，每个补丁都涉及到层之间的两个不同窗口，这需要更宽的通道尺寸和更多的atten- tion头来支持多样性。相反，MSG- Transformer使用MSG令牌来提取窗口级信息并传输到补丁令牌。这降低了补丁令牌从其他窗口提取信息因此，MSG-变压器需要一个较小的通道容量，以支持在一个窗口的品种。更深更窄的架构为MSG- Transformer带来了更好的折衷随机区大小我们研究了随机区大小对最终性能的影响。如Tab.所示。7、随着洗牌区域的扩大，最终的准确性提高。合理的是，较大的洗牌区域大小导致较大的感受野，并且有利于令牌捕获大量的空间信息。此外，吞吐量/延迟不受混洗大小改变的影响MSG令牌的注意力地图可视化为了理解MSG令牌的工作机制，我们在不同块中的本地窗口内可视化每个MSG令牌及其相关补丁令牌如图4、注意力地图中的局部窗口虽然局部窗口的大小是恒定的，即对肯特征。7在我们的设置，与令牌合并后，当反射到原始图像上时，真实的感受野被放大。在较浅的块中，MSG标记的注意力是分散的，其倾向于捕获轮廓信息;在较深的层中，尽管在每个局部窗口内计算注意力，但MSG标记仍然可以关注与对象密切相关的位置。5. 讨论和结论本文提出了MSG-变压器，一种新的trans-former架构，使有效和灵活的信息交换。其核心创新是引入了味精令牌，作为信息收集和传播的枢纽。我们实例化的味精变压器洗牌味精令牌，但该框架是自由扩展，只需改变操纵味精令牌的方式。我们的方法在标准图像分类和目标检测任务上取得了有竞争力的性能，降低了实现难度和更快的推理速度。限制我们将从MSG令牌的操纵类型的角度分析限制。虽然混洗是一种有效的通信操作，但混洗令牌的特异性并不好，因为混洗在信道维度上平等地整合了来自不同局部窗口的令牌段另一方面，探索具有更好的效率-特异性权衡的其他操作类型是有价值的，这可能进一步激发MSG-Transformer的潜力。未来的工作我们的设计提出了一个开放的问题：由于信息交换是深度网络的共同需求，如何在架构设计中满足所有容量，灵活性MSG令牌提供了一个初步的解决方案，但我们期待验证其性能，并在视觉识别任务及其他任务中进一步改进它。确认我们感谢方宇新、廖本成、宋良臣本研究得到了国家自然科学基金（No.61876212和No.61733007）和中国农业科学院-华为MindSpore开放基金的部分资助。12072引用[1] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS，2020年。2[2] 韩才、朱立庚、宋涵。ProxylessNAS：在目标任务和硬件上直接搜索神经架构。2019年，在ICLR。2[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。二、六[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。1[5] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi ， Xin Lu ， Rui Zhu ， Yue Wu ， and DahuaLin.Mmdetection：打开mmlab检测工具箱和基准测试。arXiv：1906.07155，2019。6[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。2[7] Liang

下载后可阅读完整内容，剩余1页未读，立即下载