基于层次重排的VisionMLP：Hire-MLP在计算机视觉任务中的有效性

32 浏览量更新于2023-10-25 收藏 658KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

826∈›→›→Hire-MLP：基于层次重排的Vision MLP顾家元1，3*，唐业辉1，2*，韩凯1，陈兴浩1，韩武3，徐超2，徐昌3<$，王云鹤1<$1华为诺亚2北京大学人工智能学院3悉尼大学工程学院计算机科学学院{jianyuan.guo，kai.han，yunhe.wang} @ huawei.com，yhtang@pku.edu.cn，c. sydney.edu.au摘要以前的视觉MLP（如MLP-Mixer和ResMLP）接受线性展平的图像块作为输入，这使得它们对于不同的输入大小不灵活，并且难以捕获空间信息。这种方法阻止了MLP获得与基于Transformer的MLP相当的性能，并阻止它们成为计算机视觉的通用骨干。Hire-MLP是一种简单而有竞争力的基于层次重排的视觉MLP结构具体地说，提出了区域内重排以捕获空间区域内的局部信息，提出了跨区域重排以实现不同区域之间的信息通信，并通过沿空间方向循环移动所有标记来捕获全局上下文大量的实验证明了Hire-MLP作为各种视觉任务的通用骨干的有效性。特别是，Hire-MLP在图像分类、对象检测和语义分割任务上取得了有竞争力的结果，例如：ImageNet上的top- 1准确率为83.8%，COCO val 2017 上的 box AP 为 51.7% ， mask AP 为44.8%，ADE 20 K上的mIoU为49.9%，超过了之前基于transformer和基于MLP的模型，在准确性和吞吐量方面取得了更好的平衡。1. 介绍近年来，基于注意机制的转换器在自然语言处理领域显示出巨大的优势。ViT [11]和DeiT [49]等几项工作提出将变压器转换为视觉识别任务[15]，并取得了与传统卷积神经网络（CNN）相当的令人然而，繁重的计算*同等贡献。†通讯作者。[24]第二十四话：我的世界https://gitee.com/mindspore/models/tree/master/research/cv/HireMLPPytorch [37]代码：https://github.com/huawei-noah/CV-Backbones。由变换器中的自注意模块引起的负担阻止了模型在准确性和等待时间之间进行更好的权衡。最近，仅由多层感知器（MLP）组成的模型已成为视觉社区的新趋势[47，48]。这些基于MLP的模型可以实现与CNN相当的结果，同时放弃了沉重的自我注意模块。例如，MLP混合器[47]通过应用于每个图像块的MLP提取每个位置的信息，并通过跨块应用的MLP捕获长距离信息。虽然MLP-Mixer可以获得全局感受野，但有两个棘手的缺陷阻止了模型成为视觉任务的更通用的骨干(i)补丁（令牌）的数量将随着输入大小的变化而变化，这意味着它不能直接在与预训练阶段中使用的分辨率不同的其他分辨率下进行微调，使得MLP-Mixer无法转移到下游视觉任务中，例如检测和分割。(ii)MLP混合器很少探索本地信息，这在CNN和基于变压器的架构中被证明是有用的感应偏置[18，55]。上述挑战自然促使我们探索一种高效的基于MLP的架构，该架构可以对局部和全局信息进行编码，同时与灵活的输入分辨率兼容为了解决上述两个问题，我们提出了Hire-MLP，它通过使用层次重排操作来创新现有的基于MLP的模型。考虑到第一个挑战，MLP混合器[47]中的令牌序列表示为XRHW×C，其中HW和C分别表示令牌和通道的数量。MLP混合器首先使用作用于X的列的令牌混合MLP来映射RHWRHW，然后使用作用于X的行的通道混合MLP来映射RCRC。令牌混合MLP的参数由令牌HW的数量配置，令牌HW的数量取决于输入图像的分辨率并导致第一挑战。为此，我们仅通过在827∈×贴片嵌入阶段1Hire-MLP块×2补丁嵌入阶段2租用-MLP块×2贴片嵌入阶段3租用-MLP块×4贴片嵌入阶段4租用-MLP块×2Hire-MLP块招聘模块跨区域重排高度方向区域内重排FCFCBatchNorm区域内跨区域恢复恢复招聘模块跨区域重排宽度方向区域内重排FCFC区域内恢复跨地域恢复BatchNorm信道MLPFC图1.所提出的Hire-MLP-Tiny的整体架构Hire-MLP的更多细节和其他变体可参见补充材料中的表A.1租用模块中的重排层和恢复层如图2所示。渠道维度对于第二个挑战，我们构建了基于分层重排和通道混合MLP的Hire-MLP块。层次重排操作由区域内重排和跨区域重排组成，在高度和宽度方向上都能很容易地捕获局部和全局信息。我们首先将输入标记沿高度/宽度方向分成多个区域，并利用区域内重排操作将属于同一区域的所有相邻标记混洗到一维向量中，然后是两个完全连接的层以捕获这些特征内的局部信息。之后，将该一维矢量恢复回初始排列，如图1所示。对于来自不同区域的令牌之间的通信，通过沿特定方向移动所有令牌来实现跨区域重排操作，如图2（c）（d）所示。这种层次重排操作使我们的模型能够同时获得局部和全局信息，并且可以很容易地处理灵活的输入分辨率。具体来说，我们的Hire-MLP具有类似于传统CNN[18]和最近提出的转换器[35，52]的分层架构，以生成下游视觉任务的金字塔特征表示整体架构如图1所示。在第一投影层之后，所得到的特征XRH×W ×C然后被馈送到Hire-MLP块的序列中。Hire模块是Hire-MLP模块中的一个关键模块，它由三个独立的分支组成。前两个分支由跨区域重排层、区域内重排层、两个通道混合全连接（FC）层、区域内恢复层和跨区域恢复层组成，以沿特定方向捕获局部和全局信息，即，高度和宽度方向。最后一个分支建立在一个简单的通道混合FC层上，以捕获通道信息。与现有的基于MLP的模型相比，这些模型在空间上沿不同方向移动特征[31，57]或利用新的循环完全连接的操作，对于[5]，我们的Hire-MLP只需要通道混合MLP和重排操作。此外，重排操作可以通过Pytorch/Tensorflow中常用的整形和填充操作我们的Hire-MLP完全能够作为各种计算机视觉任务的通用骨干。实验表明，Hire-MLP在图像分类、目标检测、实例分割和语义分割等方面都能显著提高现有MLP模型的性能。例如， Hire-MLP-Small 在 ImageNet 上达到了82.1%的top-1准确率，显著优于Swin-T [35]，具有更高的吞吐量。将模型放大到更大的尺寸，我们可以进一步获得83.2%和83.8%的top- 1准确率。使用Hire-MLP-Small 作为骨干， Cascade Mask R-CNN 在 COCO val2017上实现了50.7%的框AP和44.2%的掩码此外，Hire-MLP-Small 在 ADE 20 K 上获得了 46.1% 的单尺度mIoU，比Swin-T提高了+1.6% mIoU，表明Hire-MLP可以实现比先前基于MLP和基于变压器的架构更好的精度-延迟权衡。2. 相关工作基于CNN的模型LeCun等人在20世纪90年代提出了经典的LeNet [29]，它包含了现代CNN的大部分基本组件（例如：卷积和池化）。在ILSVRC 2012竞赛中，AlexNet [28]取得了比其他人更高的性能，并引起了CNN的关注。VGGNet [41]通过仅堆叠内核大小为3 3的卷积层构建了一个普通模型。GoogLeNet [42]设计了一个包含多个分支的初始模块，以融合来自不同感受野的特征。为了训练一个非常深的模型以获得更好的性能，ResNet [18，19]跳过了具有恒等投影的多个层，以减轻梯度消失或爆炸。除了准确性之外，效率在基于CNN的模型的实际实施中也起着至关重要的作用，特别是在资源有限的设备上，例如移动设备。828∈区域内重排HH/2W区域内恢复H2C证明了输入图像的标记化过程，并提出了一种递归聚集相邻标记的分层标记到标记转换信息-C可以更充分地保存图像的信息。W（a）高度方向内部区域重排和恢复W简化为单层的简单标记化。考虑到自我注意机制的高计算成本区域内重排HHCWW/2区域内恢复H2CCWSwin Transformer [35]计算了移位局部窗口中不同令牌之间的注意力，将计算成本从二次复杂度降低到线性复杂度。然而，自我注意机制仍然是计算的，在GPU之类的设备上，价格昂贵，速度相对较慢(b) 宽度方向内区域重排和恢复基于MLP的模型考虑到大型计算-跨区域重排HCW跨地域恢复在变压器中注意力模块的常规成本中，提出了仅由多层谐振器（MLP）组成的简单且有效的模型[47，48]。例如，MLP-混合器[47]使用令牌混合MLP和通道混合(c) 高度方向跨区域重排还原MLP分别捕获令牌和通道之间的关系。与此同时，perfor-跨地域重新排列H跨地域恢复通过设计新的体系结构进一步提高了基于MLP的模型的效率[21，30，31，45，56]。CycleMLP [5]引入了一个循环全连接层来捕获spa-W（d）宽度方向跨区域重排还原图2.租用模块中区域内和跨区域后方管理操作说明。手机. MobileNet [22]采用深度卷积来聚合空间信息。ShuffleNet [63]引入了shuffle操作，以弥补群卷积造成的信息损失。这种操作可以在不同的组之间交换信息这些精心设计的CNN已广泛用于各种任务，如图像识别[18]，对象检测[40]，语义分割[4]和视频分析[26]。基于转换器的模型。经典的Transformer模型[50]最初设计用于处理自然语言处理（NLP）任务，如机器翻译和英语选区解析。最近，Dosovitskiy等人 [11]将其引入视觉社区，将图像分割为多个补丁，并将每个补丁作为NLP中的to- ken。视觉转换器可以容纳更多的训练数据，并实现更高的性能，当数据集足够大时，将其转换为CNN。图夫龙和[49]探索了如何训练数据高效的视觉转换器，并提出了一种新的蒸馏策略。提出了大量工作[6，12，14，16，35，46，52，53，58，59]来设计变压器的架构。例如，PVT [52]设计了一个类似于T-S的结构，其中特征图的空间大小被逐阶段减小，并验证了transformer在密集预测任务（如对象检测和语义分割）上的效率TNT [16]在原始模块中嵌入小型Transformer块来捕获本地信息。T2T-ViT [60] im-tial信息，它取代了[47]中的令牌混合MLPAS-MLP [31]沿垂直和水平方向移动标记以获得轴向感受野。S2-MLP [57]也使用移位操作来实现跨补丁通信，选项。与它们不同的是，我们的方法可以同时捕获局部和全局的空间信息，通过一个层次的重排操作，即。在局部区域中/跨局部区域重新排列令牌，这也实现了高性能和计算效率之间的更好3. 方法3.1. Hire-MLP块所提出的Hire-MLP架构是通过堆叠多个Hire-MLP块来构建的，如图1所示。类似于ViT [11]和MLP混合器[47]，每个Hire-MLP块由两个子块组成，即，[47]中提出的租用模块和信道MLP，分别聚合空间信息和信道信息。给定具有高度H、宽度W和通道数C的输入特征XRH×W ×C，Hire-MLP块可以公式化为：Y= Hire-Module（BN（X））+X，（1）Z=信道-MLP（BN（Y））+Y，其中Y和Z分别是块BN表示批次归一化[25]。整个Hire-MLP架构是通过迭代地堆叠Hire-MLP块（等式1）来构造的。1）。与MLP-Mixer [47]相比，主要区别在于我们将MLP-Mixer中的令牌混合MLP替换为提议的雇用模块，并成功地有效捕获了不同令牌之间的关系。CC829∈我···∈我××××2×我××我WHC考虑具有三个分支（高度，H23.2. 分层重排模块在MLP混合器[47]中，令牌混合MLP将线性扁平化令牌作为输入，并使用完全连接的层来捕获交叉位置信息。由于全连接层的维度是固定的，因此在密集预测任务（如对象检测和语义分割）中，它与可变长度的序列不此外，每个标记混合操作捕获和聚集全局信息，而一些关键的局部信息可能被忽略。在本节中，我们提出了分层重组（租用）模块来取代[47]中的令牌混合MLP，并相应地解决这些挑战简而言之，租用模块中的区域内重排操作可以帮助捕获预定义区域中的令牌的局部信息，而全局信息可以通过跨区域重排操作来捕获并且归功于所提出的区域划分，当采用不同大小的输入时，每个区域的大小保持相同。因此，我们的hire模块可以自然地处理可变长度的序列，并且具有相对于输入大小的线性计算复杂度。在下文中，我们将详细介绍区域划分、区域内重排和跨区域重排区域划分。我们首先将输入特征分割成多个区域，并对每个区域中的标记执行区域内重排。特征可以沿宽度和高度方向拆分以高度方向区域内重排为例，C将被划分为g个区域，即，X=[X1，X2，，Xg]。每个区域X iRh× W × C沿高度方向包含h个表征，其中h=H/g.区域内重排。给定沿高度方向的第i个区域的输入特征XiRh× W × C，不同的令牌将通过区域内重排操作充分交换信息。具体地说，我们沿着通道维度连接Xi中的所有标记，并获得具有形状的重排特征Xc的W×hC（图2（a）中h = 2）。然后将Xc发送到MLP模块F以沿着最后一个维度混合信息并产生输出特征Xo∈ RW × hC。为了效率重排使得局部区域中的令牌之间能够进行通信，输出特征的接收场受到每个区域的大小的限制。在这里，我们引入了跨区域重排操作，该操作通过沿高度/宽度方向移动令牌来在不同区域之间交换信息，并反过来使模型能够聚合全局空间信息。跨区域重新排列通过以给定步长s沿着特定方向重新移动所有标记来实现，如图2（c）（s=1沿高度方向）和图2（d）（s=1，沿宽度方向）。在转移之后，包括在lo中的tokens-按区域分区划分的cal区域将改变。值得注意的是，这个操作可以通过Pytorch/Tensorflow中的“循环填充”轻松完成为了得到一个全局的感受野，跨区域重排操作插入之前的区域内重排操作，每两个块。在内部区域恢复操作之后，还恢复移位的标记的位置，以保持不同标记之间的相对位置这种恢复可以进一步提高我们的Hire- MLP的准确性，如表5所示。请注意，Zhang等人。 [63]使用通道混洗操作跨不同的组进行通信，这将通道完全分解。相比之下，我们提出的跨区域重排保留了不同标记之间的相对位置。我们认为，相对位置对于实现高表征能力至关重要，表6中研究了这两种策略的相关消融研究。我们还在补充材料中可视化了两种跨区域重排方式（ShuffleNet [63]方式与我们的移位方式）后的特征图。Hire Module. 考虑大小为H W C的输入特征X，空间信息通信在两个分支内进行，即，沿着高度方向和宽度方向。受ResNet [18]和ViP [21]中的快捷连接的启发，还添加了一个没有空间通信的额外分支，其中只有一个完全连接的层用于沿通道维度编码信息。输入X被发送到上述三个分支，以分别获得特征X′、X′和X′。然后，出-MLP F由两个具有瓶颈的线性投影实现，即，，特征首先被简化为W×C，通过对这些特征进行放置特征X′I. e. ，X′=XW′ +XH′ +XC′，如图1所示。然后恢复到WhC.非线性激活函数（例如：，ReLU [13]和GeLU [20]）和归一化层（例如，，BN [25]和LN [1]）也可以插入线性投影，以增强表示能力和稳定训练。最后，重新构造了输出特征Xo∈RW×hC，复杂性分析。在租用模块中，全连接层（FC）消耗了主要的内存和计算成本。考虑图1中的高度方向分支，给定输入特征X∈RH×W ×C，我们首先将其拆分为H/h形状为h×W×C的区域。和形状存储到下一个模块的原始形状，即，它是分裂的沿着最后一个维度分成多个令牌，以获得特征Xi′∈Rh×W×C. 这样，每个地区的不同代币内部区域重排后的特征是H/h W hC。我们根据经验将瓶颈中的渠道维度设置为C/2，因此该分支占据hC×C×2=hC2pa-可以充分混合以生成输出特征。跨区域重组。2和H×W×hC×C×2=HWC2失败。虽然内部区域8304--43232宽度和通道），总参数和FLOP为（2hC2+C2）和3HWC2。3.3. 整体架构Hire-MLP-Tiny体系结构的概述如图1所示，更多详细信息和Hire-MLP的其他变体如补充材料中的表A.1所示我们采用类似于Hire-MLP的架构，遵循CNN [18，41]和视觉变换器[35，52]的常用设计。它首先通过补丁嵌入层[51]将输入图像分割为补丁（令牌）然后，将被称为“阶段1”的两个租用MLP块随着网络的深入，通过另一个补丁嵌入层减少了到kens的数量特别是，整个体系结构包括四个阶段，分辨率从H×W降低到H×W，基于cnn基于transformer基于MLP尺寸相应增加。金字塔结构聚集空间特征提取语义信息，可应用于图像分类、目标检测和语义分割。我们开发了不同的变体Hire-MLP架构具有不同的内存和计算成本。The“微小”和“小型”变体具有较少的层以实现高效的实现，而“大型”变体具有较大的表示容量以实现更高的性能。详细的配置也可以在补充材料中找到。4. 实验在本节中，我们通过对几个视觉任务进行实验来研究Hire-MLP架构的有效性。我们首先将所提出的Hire-MLP与ImageNet-1 K上先前最先进的图像分类模型进行比较[10]，然后我们消除了Hire-MLP的重要设计元素。我们还分别在COCO [33]和ADE 20K [65]上展示了对象检测和语义分割的结果。4.1. 基于ImageNet的实验设置。我们在具有挑战性的ImageNet-1 K [10]上进行了实验，ImageNet-1 K是一个图像分类基准，包含 1.28M 训练图像和 1000 个类的 50 K 验证图像。ImageNet-1 K还用于进行消融研究。为了与最近的作品进行公平比较，我们采用与DeiT [ 49 ]中相同的训练和增强策略，即。，使用AdamW [36]优化器对模型进行300个epoch的训练1AS-MLP [31]报告了混合精度训练模式下的吞吐量，这里我们复制它并报告纯精度训练模式下的吞吐量，以便与其他方法进行公平比较。[第48话]15M3.0G1415.176.6[21]第二十一话25M-719.081.5[31]第三十一话28M4.4G863.6米81.3循环MLP-B2 [5]27M3.9G640.6米81.6Hire-MLP-Small（我们的）33M4.2G807.682.1混合机-B/16 [47]59M12.7G-76.4[57]第57话51M10.5G-80.7[第48话]116M23.0G231.381.0[21]第二十一话55M-418.082.7循环MLP-B4 [5]52M10.1G320.8米83.0[31]第三十一话50M8.5G478.4万83.1Hire-MLP-Base（我们的）58M8.1G440.683.2[57]第57话71M14.0G-80.0循环MLP-B5 [5]76M12.3G246.9米83.2gMLP-B [34]73M15.8G-81.6[21]第二十一话88M-298.083.2[31]第三十一话88M15.2G312.4米83.3Hire-MLP-Large（我们的）96M13.4G290.183.8表1.不同网络在ImageNet-1 K上的实验结果。吞吐量是指我们在单个V100 GPU上每秒可以处理的图像数量[35，49]。这意味着AS-MLP [31]通过CUDA实现加速AS操作。*表示吞吐量结果由us1再现。重量衰减为0.05，批量为1024。我们在前20个时期使用线性预热，初始学习率设置为1 e-3，并逐渐下降到1e-5。数据增强方法包括随机增强[9]、混合[62]、剪切混合[61]、标签平滑[43]、随机擦除[64]和丢弃路径[23]。所有模型都在8个NVIDIA Tesla V100 GPU上训练，我们报告了单作物top-1精度，参数，FLOPs和吞吐量的实验结果主要结果。我们将所提出的Hire-MLP与Imagenet上以前基于CNN、基于transformer和基于MLP的模型进行了比较，如表1所示。输入图像的分辨率设置为224×224。比如我们网络ParamsFLOPs吞吐量（image/s）Top-1RegNetY-4GF [38]39M4.0G1156.781.0RegNetY-16GF [38]84M16.0G334.782.9[44]第四十四话19M4.2G349.482.9[44]第四十四话43M19.0G96.984.0[49]第四十九话22M4.6G940.479.8Swin-T [35]29M4.5G755.281.3CPVT-S-GAP [7]22M4.6G942.381.5PVT-L [52]61M9.8G358.881.7T2T-ViTt-24 [59]64M15.0G-82.6TNT-B [16]66M14.1G-82.9Swin-B [35]88M15.4G278.183.5gMLP-Ti [34]6M1.4G-72.3循环MLP-B1 [5]15M2.1G1038.4米78.9Hire-MLP-Tiny（我们的）18M2.1G1561.779.7831×∼× ×× ×Num. H和W前1名（%）Num. H和W前1名（%）Num. FC层#参数浮点数前1名（%）（二，二）81.62（二、二、三、三）81.73149.65M5.65G82.15（三、二）81.82（三、三、二、二）81.78233.11M4.24G82.07（三，二）81.87（三，三）81.79332.98M4.23G81.81（四、三、三、二）82.07（四、三）81.86433.26M4.24G81.85（四、四、三、三）81.81（四，四）81.72（5、4、3、3）81.74（6、4、3、3）81.49表2.在区域划分中对每个区域中的令牌数量进行消融研究。给定一个大小为H W C的输入特征，我们沿着高度（宽度）方向将其划分为H/h（W/w）个区域，每个区域的大小为hW C。我们将h=w设置为224的默认值224输入分辨率。例如，（4，3，3，2）表示对于阶段1、阶段2、阶段3，h和w被设置为4、3、3和2，并且阶段4，分别。这里的步长s被设置为（2，2，1，1）。Num.的s前1名（%）Num.的s前1名（%）（0，0，0，0）81.18（1，1，1，1）81.88（二、二、一、一）82.07（二，二）81.71表3.移动标记步长的消融研究跨区域重排例如，（2，2，1，1）表示s是对于阶段1、阶段2、阶段3和阶段4，分别设置为2、2、1和1活泼地（0，0，0，0）表示没有跨区域重排在Hire-MLP。这里的h和w被设置为（4，3，3，2）。填充模式前1名（%）填充模式前1名（%）零填充81.62圆形填充82.07反射填充81.48复制填充81.60表4.不同的填充模式，用于区域内重排。模型前1名（%）Hire-MLP-小型82.07无跨区域恢复81.70无跨区域重新排列和恢复81.18w/o内部区域重新排列和恢复80.17无额外FC分支81.32表5.租用模块中不同组成部分的影响。方式前1名（%）方式前1名（%）移位82.07ShuffleNet [63]80.90表6.跨区域通信方式不同。Hire-MLP-Small仅以4.2G FLOP实现了82.1%的top-1精度，优于所有其他现有的基于MLP的模型。与最近提出的AS-MLP [31]和CycleMLP [5]相比，我们的 Hire-MLP可以获得更好的性能（+0.5 0.8），而无需任何复杂的移位操作或全连接层的变体。将我们的模型扩展到8.1G和13.1G可以实现83.2%832×表7. Hire模块中前两个分支的中间FC层数量的烧蚀研究和83.8%的top-1准确率。Hire-MLP的优越性表明，所提出的租用模块可以更好地捕捉局部和全局信息，这是分类的关键。此外，我们显示了与传统的基于CNN和基于变压器的模型的比较。与基于变压器的模型（如 DeiT [49]，Swin Transformer [35]和PVT [16]）相比与基于CNN的架构（如Reg- NetY[38]）相比，我们的Hire-MLP可以以更小的模型大小和更低的计算成本实现更好的结果。然而，我们的模型和最先进的EfficientNet-B6之间仍然存在一个小差距我们认为，基于MLP的架构有其独特的优势，简单和更快的推理速度（290.1比96.9），仍然有机会进一步增强基于MLP的模型。4.2. 消融研究Hire-MLP中的核心组件是分层重新排列模块（Sec.3.2）。对区域划分中每个区域的标记数、跨区域重排的移位区域数和不同重排方式、区域内重排的填充方式以及hire模块中FC层数进行了消融研究。所有消融实验均基于Hire-MLP-Small进行。区域分区中每个区域的令牌数表2研究了区域划分如何影响基于Hire-MLP-Small的最终性能，其中h和w表示每个区域的大小。假设输入图像的分辨率为224在ImageNet中，如果没有指定，我们设置h=w。小的区域大小意味着很少的相邻标记通过区域内重排操作混合，其更强调局部信息。我们的经验发现，在较低的层中需要更大的区域大小来处理具有更多标记的特征图并获得更大的感受野。当区域尺寸进一步增大时，性能将略有下降。我们推测，随着区域大小的增加，瓶颈结构中可能会有一些信息丢失。跨区域重排中标记移位的步长s。跨区域重排通过以给定步长s移位令牌来实现，其833××F骨干RetinaNet1×掩码R-CNN1×参数/FLOPsAPAPS APM APL参数/FLOPsAPbAPb50 75APm APm50 75[52]第五十二话循环MLP-B1 [5]雇用-MLP-微小23.0M /189.5G24.9M /195.0G27.8M /195.3G36.738.638.922.621.924.938.841.842.750.050.750.732.9M /208.1G34.8M /213.6G37.7M /213.8G36.739.439.659.261.461.739.343.043.135.136.837.056.758.659.137.339.139.6ResNet50 [18]循环MLP-B2 [5][35]第三十五话：37.7M /239.3G36.5M /230.9G38.5M /244.8G42.8M /237.6G36.340.941.541.719.323.425.125.340.044.744.945.448.853.455.554.644.2M /260.1G46.5M /249.5G47.8M /264.0G52.7M /256.2G38.041.742.242.858.663.664.665.041.445.846.246.734.438.239.139.355.160.461.662.036.741.042.042.1[18]第十八话PVT-中等[52]循环MLP-B4 [5][35]第三十五话：56.7M /315.4G53.9M /283.1G61.5M /356.6G59.8M /334.8G68.0M /316.5G38.541.943.244.544.321.425.026.627.428.042.644.946.548.048.451.157.657.459.958.063.2M /336.4G63.9M /301.7G71.5M /375.2G69.1M /353.8G77.8M /334.9G40.442.044.144.845.261.164.465.766.666.944.245.648.148.949.336.439.040.240.941.057.761.662.763.464.038.842.143.544.244.2[52]第五十二话循环MLP-B5 [5]Hire-MLP-大型71.1M /345.7G85.9M /402.2G105.8M /424.5G42.642.744.925.824.128.946.046.348.958.457.457.581.0M /364.3G95.3M /421.1G115.2M /443.5G42.944.145.965.065.567.246.648.450.439.540.141.761.962.864.742.543.045.3表8. COCO val2017上的对象检测和实例分割结果。我们将Hire-MLP与其他基于RetinaNet和Mask R-CNN框架的主干进行了比较，所有模型都是在“1x”时间表中训练的。FLOPS是在1280× 800输入上计算的。掩码R-CNN 3ResNet50 [18]260.1G41.046.046.046.261.767.568.268.244.950.750.250.937.141.541.642.058.464.665.165.640.144.544.845.3738.7G46.350.150.550.764.368.869.369.450.554.354.955.140.143.543.744.261.766.366.666.943.446.947.148.1AS-MLP-T [31]260.1G739.0GSwin-T [35]264.0G742.4GHire-MLP-小型256.2G734.6GSwin-S [35]353.8G48.547.848.170.268.969.653.552.552.743.367.346.6832.4G51.851.151.770.469.870.256.355.656.144.767.948.5AS-MLP-S [31]346.0G42.966.446.3823.8G44.267.348.1Hire-MLP-Base334.9G43.166.846.7813.2G44.867.848.5表9.COCO val2017实例分割结果Mask R-CNN和Cascade Mask R-CNN在“3x”时间表中训练表3中研究了影响。当令牌不移位时，即，，s=（0，0，0，0），则不同区域之间没有通信（没有跨区域重排操作）。显然，缺乏全局信息会导致性能不佳。不同填充方法的影响。来自ImageNet [10]的输入图像的分辨率为224224，因此级4中的输出特征的形状是7 × 7，其不能被任何h和w整除。因此，我们需要填充特征图。表4评价了不同填充方法的影响。通过分析，我们发现租用模块中不同组件的影响表5消除了租用模块中不同组件的影响（第3.2）。我们可以发现，区域内测距是获取局部信息的重要组成部分。跨区域恢复操作可以使top-1精度提高0.3%如果去掉跨区域重排（包括重排），模型就不能进行跨区域的信息区域分布不均匀，业绩下降到81.18%。而删除图1中的第三个分支将使top-1的准确率降低0.7%。跨区域传播的不同策略我们在表6中比较了两种不同的跨区域通信策略。与ShuffleNet方式相比，移位方式取得了更好的这两种战略的更多细节和相应的可视化可以在补充材料中找到。租用模块中FC层的数量。Hire模块中MLP的瓶颈设计（Sec. 3.2）可以帮助消除信道增加带来的FLOP的沉重负担。表7中报告了关于FC层数量的消融研究。虽然使用一个FC层可以实现最佳性能，但参数和FLOP都大于其他对应层。具有两个FC层的瓶颈可以在精度和计算成本之间获得更好的折衷。此外，增加更多的FC层并不能带来更多的好处，这表明改进来自我们的分层重排操作，骨干级联掩码R-CNN3×FLOPsAPB APB50APB75公司简介APm50APm75FLOPsAPB APB50APB75APm APm50APm75834×∼∼∼语义FPNUperNet骨干ParamFLOPsFPSSS mIoU骨干ParamFLOPsFPSSS mIoUMS mIoU小型PVT [52]28M163G43.9米39.8Swin-T [35]60M945G18.544.546.1循环MLP-B2 [5]31M167G44.5公斤42.4AS-MLP-T [31]60M小行星937G17.7米-46.5Hire-MLP-小型37M174G47.344.3Hire-MLP-小型63M930G19.346.147.1循环MLP-B3 [5][39]第三十九话循环MLP-B4 [5]Hire-MLP-Base42M75M56M62M229G261G296G255G31.0米-23.6磅31.844.544.845.146.2ResNet-101 [18]Swin-S [35]AS-MLP-S [31]Hire-MLP-Base86M81M81M88M1029G1038G1024G1011G20.115.214.4分16.043.847.6-48.344.949.549.249.6Swin-B [5]53M274G23.4米45.2†Swin-B [35]121M1188G13.3.148.149.7循环MLP-B5 [5]79M343G22.9米45.6AS-MLP-B [31]121M小行星116611.0米-49.5Hire-MLP-大型99M366G24.546.6Hire-MLP-大型127M1125G13.748.849.9表10. ADE 20K验证集上的语义分割结果。FLOPs是用2048 512的输入大小计算的。FPS使用32G Tesla V100 GPU进行测量。†表示结果来自GFNet [39]。这表明结果是由我们测量的而不是FC层数的增加。4.3. 基于COCO的实验设置。我们在COCO 2017基准测试[33]上进行了对象检测和实例分割实验，其中包含118K训练图像和5K验证图像。在PVT [52]和Swin Trans- former [35]之后，我们考虑了三个典型的对象检测框架：RetinaNet[32]，Mask R-CNN [17]和Cascade Mask R-CNN [2]。我们分别针对“1x”和“3x”时间表使用单尺度训练和多尺度训练。补充材料中介绍了更多细节。结果我们分别在表8和表9中报告了不同框架和训练时间表下的对象检测和物体分割结果。如表8所示，基于Hire-MLP的RetinaNet和Mask R-CNN在类似的FLOPs约束下始终优于基于CNN的ResNet [18]，基于transformer的PVT [52]和基于MLP的CycleMLP [5考虑RetinaNet[32]作为基本框架，我们的Hire-MLP带来了一致的+5.8 7.1 AP增益超过ResNets [18]，并带来+0.3 2.2 AP增益超过CycleMLP [5]，模型大小和FLOP略大。结果表明，Hire-MLP可以作为一个优秀的骨干对象检测。此外，如表9所示，基于Hire-MLP的级联掩码R-CNN在框AP和掩码AP两者中以较少的FLOP超过AS-MLP对应物0.6 ± 0.7。4.4. 基于ADE20K的实验设置。我们在ADE 20K基准测试[65]上进行语义分割实验，其中包含20，210张训练图像和2，000张验证图像。在[5，35，52]之后，我们考虑了两个典型的框架：语义 FPN [27] 和 mmsegementation [8] 中的UperNet [54详见补充资料。结果表10列出了基于两个典型框架的不同骨干的参数、FLOP、FPS、单尺度（SS）和多尺度（MS）mIoU。我们首先选择Se-mantic FPN [27]作为[5，52]之后的基本框架。可以看出，Hire-MLP在类似FLOP和更高 FPS 的情况下以较大幅度（ 44.3 vs. 42.4 ）优于CycleM

下载后可阅读完整内容，剩余1页未读，立即下载