图像补丁：面向相位的视觉MLP

68 浏览量更新于2023-10-25 收藏 12.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5202577789018283WaveMLPViPCycleMLPResMLPSwinPVT2004140076808284WaveMLPViPCycleMLPResMLPSwinPVT109350图像补丁是一种波动：面向相位的视觉MLP0Yehui Tang 1,2，Kai Han 2，Jianyuan Guo 2,3，Chang Xu 3，Yanxi Li2,3，Chao Xu 1，Yunhe Wang 2�01北京大学人工智能学院。2华为诺亚方舟实验室。3悉尼大学计算机科学学院。yhtang@pku.edu.cn，{kai.han，yunhe.wang}@huawei.com。0摘要0在计算机视觉领域，最近的研究表明，由全连接层堆叠的纯MLP架构可以与CNN和Transformer实现竞争性能。视觉MLP的输入图像通常被分割成多个令牌（补丁），而现有的MLP模型直接使用固定权重聚合它们，忽略了来自不同图像的令牌的变化语义信息。为了动态聚合令牌，我们提出将每个令牌表示为具有两个部分（振幅和相位）的波函数。振幅是原始特征，相位项是根据输入图像的语义内容动态变化的复数值。引入相位项可以动态调节MLP中令牌与固定权重之间的关系。基于波状令牌表示，我们建立了一种新颖的Wave-MLP架构用于视觉任务。大量实验证明，所提出的Wave-MLP在图像分类、目标检测和语义分割等各种视觉任务上优于最先进的MLP架构。源代码可在https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch和https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp获得。01. 引言0在计算机视觉领域，卷积神经网络（CNN）长期以来一直是主流架构[19, 26, 36]。它受到最近的工作[9, 33,47]的挑战，在这些工作中，标准的Transformer[46]模型也可以在各种计算机视觉任务上表现良好，例如图像分类、目标检测和语义分割[16]。考虑到视觉Transformer中自注意模块的高复杂性，更简单的架构0�通讯作者。0仅由多层感知机（MLP）堆叠而成的特征（例如MLP-Mixer[43]，ResMLP[44]）引起了很多关注。与CNN和Transformer相比，这些视觉MLP架构涉及较少的归纳偏差，并且有潜力应用于更多样化的任务。0准确率（%）0（a）准确率与FLOPs的关系。0吞吐量（图像/秒）0准确率（%）0（b）吞吐量相关的准确率。0图1.提出的Wave-MLP与现有架构的性能比较。报告在ImageNet上的Top-1准确率。0将一系列图像补丁（令牌）作为输入，类似MLP的模型[43,44]主要包含两个可分离的块，即通道混合MLP和令牌混合MLP，两者都由全连接层和激活函数组成。通道混合MLP转换每个令牌的特征，而令牌混合MLP试图从不同的令牌中聚合信息。通过交替堆叠这两种类型的MLP块，简单的MLP架构可以具有足够的容量来提取特征并在视觉任务上取得良好的性能。然而，MLP架构的性能仍然不及SOTATransformer和CNN架构。我们指出，视觉MLP的瓶颈之一在于聚合不同令牌的方式，即使用全连接层的固定权重混合不同令牌。回想一下，Transformer [9,46]通过注意机制动态调整令牌的权重来聚合令牌。计算不同令牌之间的内积，并且具有更高相似性的令牌往往具有++++++++++++++++++++++++++++++++++++++++………109360相位感知标记混合0混合0实部0虚部0振幅相位输出输入0规范化0标记混合0规范化0通道MLP0通道全连接0PATM0PATM0图2. Wave-MLP架构中一个块的图示。0在每个其他聚合过程中，更大的权重。然而，现有的视觉MLP模型使用固定权重聚合不同的标记。相同的权重用于来自不同输入图像的标记，忽略了各种标记的语义信息的差异，这可能无法很好地聚合所有输入图像的标记。与精心设计注意机制的Transformer不同，我们旨在改进标记的表示方式，根据其语义内容动态聚合它们。实际上，在量子力学中，一个实体（例如电子，光子）通常由包含振幅和相位的波函数（例如德布罗意波）表示[1, 11,20]。振幅部分测量波的最大强度，相位部分通过指示波周期中点的位置来调制强度。受量子力学的启发，我们将每个标记描述为一种波，以实现标记的动态聚合过程。在本文中，我们提出了一种新颖的视觉MLP架构（称为Wave-MLP），它将每个标记都视为具有振幅和相位的波。振幅是表示每个标记内容的实值特征，而相位项是调制MLP中标记与固定权重之间关系的单位复值。这些类似波的标记之间的相位差影响它们的聚合输出，并且相位接近的标记倾向于增强彼此。考虑到来自不同输入图像的标记包含不同的语义内容，我们使用一个简单的模块来动态估计每个标记的相位。通过为标记配备振幅和相位信息，我们引入了一个相位感知的标记混合模块（在图2中的PATM）来聚合这些标记。整个Wave-MLP架构通过交替堆叠PATM模块和通道混合MLP来构建。所提出的Wave-MLP架构在现有架构上显示出很大的优势（如图1所示）。例如，提出的Wave-MLP-S模型在ImageNet上以4.5GFLOPs获得82.6％的top-1准确率，这显著超过了81.3％准确率和4.5G FLOPs的Swin-T[33]。此外，Wave-MLP在目标检测和语义分割等密集预测任务上也取得了强大的性能。本文的组织如下：第2节简要回顾了关于设计模型架构的现有工作，第3节详细讨论了提出的Wave-MLP架构。在第4节中，我们从实证角度研究了该方法在多个视觉任务上的有效性，并在第5节中得出结论。0在ImageNet上以4.5GFLOPs获得82.6％的top-1准确率，这显著超过了81.3％准确率和4.5G FLOPs的Swin-T[33]。此外，Wave-MLP在目标检测和语义分割等密集预测任务上也取得了强大的性能。本文的组织如下：第2节简要回顾了关于设计模型架构的现有工作，第3节详细讨论了提出的Wave-MLP架构。在第4节中，我们从实证角度研究了该方法在多个视觉任务上的有效性，并在第5节中得出结论。02. 相关工作0基于CNN的架构。卷积神经网络（CNN）长期以来一直是计算机视觉领域的主流。CNN模型的原型在文档识别任务中提出[27]，其中卷积是核心操作。从AlexNet [26]在ILSVRC2012中取得巨大成功开始，出现了各种架构，如GoogleNet [40]，VGGNet [38]，ResNet [19]，RegNet[36]。尽管为追求高性能，模型架构变得更加复杂，但核心操作始终是卷积及其变种。新的计算范式（如VisionTransformer [46]，Vision MLP[43]）的出现为计算机视觉中的架构设计带来了新的活力。基于Transformer的架构。Transformer[46]最初是为自然语言处理（NLP）任务（如语言建模和机器翻译）提出的。Dosovitskiy等人[9]将其引入计算机视觉，并在图像分类任务上取得了出色的性能，特别是在训练数据非常充足的情况下。Touvron等人[45]改进了训练方法，并提出了一种针对Transformer的教师-学生策略，从头开始训练在ImageNet上获得竞争力的Transformer模型。然后，许多研究探索了视觉Transformer的架构设计[5, 12, 15,17, 41, 42, 48,49]。例如，Han等人[17]提出了一种嵌套Transformer架构，同时捕捉全局和局部信息。为了与目标检测和语义分割等密集预测任务兼容，[9, 21,47]采用了分层架构，将整个架构分为多个阶段，并逐渐降低空间分辨率。Swin Transformer[33]使用移位窗口提取表示，并限制局部区域内的自注意力。与[9]中连接层中的所有标记的自注意力相比，移位窗口操作更高效。基于MLP的架构。最近，由全连接层和非线性激活函数组成的类似MLP的架构引起了广泛关注[6, 13, 28,43]。尽管它们具有更简单的架构并引入较少的归纳偏差，但它们的性能仍然很好。109370与SOTA模型相比，MLP-Mixer模型[43]使用了两种类型的MLP层，即通道混合MLP和令牌混合MLP。通道MLP为每个令牌提取特征，而令牌混合MLP则捕捉空间信息。Touvron等人[44]提出了类似的架构，并用更简单的仿射变换替换了层归一化[2]。Liu等人[32]经验证明，带有门控的MLP架构在语言和视觉任务中可以达到与Transformer相似的性能。为了保留输入图像的位置信息，Hou等人[22]保持输入图像的2D形状，并通过分别沿宽度和高度进行排列来提取特征。基于MLP-Mixer，Yu等人[50]将令牌混合MLP替换为用于捕捉局部空间信息的空间平移操作，这也具有计算效率。目前，Lian等人[29]提出了沿两个正交方向移动令牌以获得轴向感受野的方法。Chen等人[6]提出了一个循环全连接层，可以同时混合空间和通道维度的信息，并且可以处理可变输入图像尺度。与它们不同，我们探索了如何在视觉MLP中表示令牌，并将每个令牌视为具有振幅和相位的波。经验证明，我们的Wave-MLP架构在准确性和计算成本之间取得了更好的平衡，相比现有的架构。03. 方法0在本节中，我们详细讨论了提出的Wave-MLP模型。在简要介绍视觉MLP架构之后，我们提出了相位感知的令牌混合模块（PATM），它将每个令牌表示为波，并通过同时考虑振幅和相位来聚合它们。最后，我们描述了Wave-MLP中的块以及具有不同计算成本的架构变体。03.1. 预备知识0MLP-like模型是一种主要由全连接层和非线性激活函数组成的神经架构。对于视觉MLP，它首先将图像分成多个块（也称为令牌），然后使用两个组件提取它们的特征，即通道全连接（Channel-FC）和令牌全连接（Token-FC），具体描述如下。将包含n个令牌的中间特征表示为Z = [z1, z2, ...,zn]，其中每个令牌zj是一个d维向量。通道全连接（Channel-FC）的公式如下：0通道全连接（Channel-FC）(zj, Wc) = Wc zj，j = 1, 2, ...,0其中，Wc是具有可学习参数的权重。通道全连接（Channel-FC）独立地对每个令牌进行操作以提取它们的特征。为了增强变换能力，通常会将多个通道全连接层堆叠在一起，使用非线性激活函数进行处理。0x0i0x0i0x0i0(a) 一般情况。0(b) 两个波具有相同的相位。0(c) 两个波具有相反的相位。0图3.具有不同相位的两个波之间的相互作用。左边是复数域中两个波的叠加，右边显示了它们沿实轴的投影如何随相位变化而变化。虚线表示具有不同初始相位的两个波，实线是它们的叠加波。0非线性激活函数，构建了一个通道混合MLP。为了聚合来自不同令牌的信息，需要进行令牌全连接（Token-FC）操作，即0令牌全连接（Token-FC(Z, Wt)j = �0k Wt jk ⊙ zk，j = 1, 2, ...,n，(2)0其中，Wt是令牌混合权重，⊙表示逐元素乘法，下标j表示第j个输出令牌。令牌全连接（Token-FC）操作通过混合来自不同令牌的特征来捕捉空间信息。在现有的类似MLP的模型中，如MLP-Mixer [43]、ResMLP[44]，也通过堆叠令牌全连接层和激活函数来构建令牌混合的MLP。这样一个简单的令牌混合MLP使用固定权重忽略了来自不同输入图像的令牌的不同语义内容，这是限制MLP-like架构表示能力的瓶颈。0˜zj = |zj| ⊙ e iθj, j = 1, 2, ∙ ∙ ∙ , n, (3)0为了动态调节MLP中令牌和固定权重之间的关系，更好地聚合令牌，我们将每个令牌视为具有幅度和相位的波。首先讨论令牌的波状表示，然后介绍相位感知的令牌混合模块（PATM）用于聚合令牌。波状表示。在Wave-MLP中，令牌以幅度和相位信息表示为波˜zj，即0其中i是满足i2 =−1的虚数单位。|∙|表示绝对值操作，⊙表示逐元素乘法。zj = Channel-FC(xj, W c), j = 1, 2, · · · , n.(6)(9)109380|zi|2 + |zj|2 + 2|zi| ⊙ |zj| ⊙ cos(θj − θi), (4)0|zr| = �0|zi| + |zj| ⊙ cos(θj − θi)) , (5)0θr = θi + atan2(|z0zj = Channel-FC(xj, Wc), j = 1, 2, ∙ ∙ ∙, n. (6)0其中atan2(x,y)是双参数反正切函数。如上述方程所示，两个令牌之间的相位差θj−θi对聚合结果zr的幅度有很大影响。图3直观地展示了这一点。左边是复数域中两个波的叠加，右边展示了它们在实轴上的投影随相位变化的情况。当两个令牌具有相同的相位（θj = θi + 2π�m，m∈[0, ±2, ±4, ∙ ∙∙]）时，它们将相互增强，即|zr| = |zi| +|zj|（图3（b））。对于相反的相位（θj = θi +π�m，m∈[±1, ±3, ∙ ∙ ∙]），结果波将被削弱（|zr| =||zi|−|zj||）。在其他情况下，它们的相互作用更加复杂，但它们是否增强或削弱也取决于相位差异（图3（a））。注意，只有实值特征的经典表示策略是公式3的特例，其中相位θj只是π的整数倍。幅度。为了得到公式3中的波状令牌，需要同时具备幅度和相位信息。幅度|zi|类似于传统模型中的实值特征，除了绝对值操作。实际上，逐元素的绝对值操作可以吸收到相位项中，即|zj,t|e iθj,t = zj,t e iθj,t if zj,t >0，而|zj,t|e iθj,t = zj,t e i (θj,t + π)otherwise，其中zj,t和θj,t分别表示zj和θj中的第t个元素。因此，为了简化起见，我们在实际实现中去掉了绝对值操作。将X = [x1, x2, . . . ,xn]表示为一个块的输入，我们通过一个简单的通道全连接操作得到令牌的幅度zj，即0相位。回顾相位表示令牌在波的一个周期内的当前位置，我们讨论生成相位的不同策略如下。最简单的策略01为了简化，不影响结论，聚合权重设置为1。0（'静态相位'）是用固定参数表示每个令牌的相位θj，这些参数可以在训练过程中学习到。虽然静态相位可以区分不同的令牌，但它忽略了不同输入图像的多样性。为了分别捕捉每个输入的特定属性，我们使用一个估计模块Θ根据输入特征xj生成相位信息，即θj = Θ(xj,Wθ)，其中Wθ表示可学习参数。考虑到MLP-like架构的简单性是一个重要特征，复杂的操作是不可取的。因此，我们还采用了简单的通道全连接作为相位估计模块。估计模块也可以用其他公式构建，其对模型性能的影响在第4.4节的表6中经验性地进行了调查。令牌聚合。在公式3中，波状令牌在复数域中表示。为了将其嵌入到通用的MLP-like架构中，我们使用欧拉公式展开它，并用实部和虚部表示，即0˜zj=|zj|⊙cosθj+i|zj|⊙sinθj，j=1，2，∙∙∙，n。（7）0在上述方程中，复值令牌表示为两个实值向量，分别表示实部和虚部。然后，使用令牌-FC操作（公式2）对不同的令牌˜zj进行聚合，即0˜oj=Token-FC（˜Z，Wt）j，j=1，2，∙∙∙，n，（8）0其中˜Z=[˜z1，˜z2，∙∙∙，˜zn]表示层中所有波状令牌。在公式8中，不同的令牌在考虑振幅和相位信息时相互作用。输出˜oj是聚合特征的复值表示。根据常见的量子测量方法[3，24]，将具有复值表示的量子态投影到实值可观测量，我们通过加权求和˜oj的实部和虚部得到实值输出oj。结合公式8，可以得到输出oj：0oj=�0kWtjkzk⊙cosθk+Wi jkzk⊙sinθk，0j=1，2，∙∙∙，n，0其中Wt，Wi都是可学习的权重。在上述方程中，相位θk根据输入数据的语义内容动态调整。除了固定权重外，相位还调节不同令牌的聚合过程。在视觉MLP中，我们构建了一个相位感知的令牌混合模块（PATM），用于进行上述令牌聚合过程，如图2所示。给定输入特征xj，振幅zj和相位θj通过以下方式生成EAMLP-14 [14]30M-77178.9EAMLP-19 [14]55M-46479.4Mixer-B/16 [43]59M12.7G-76.4ResMLP-S12 [44]15M3.0G141576.6ResMLP-S24 [44]30M6.0G71579.4ResMLP-B24 [44]116M23.0G23181.0gMLP-S [32]20M4.5G-79.6gMLP-B [32]73M15.8G-81.6S2-MLP-wide [50]71M14.0G-80.0S2-MLP-deep [50]51M10.5G-80.7ViP-Small/7 [22]25M6.9G71981.5ViP-Medium/7 [22]55M16.3G41882.7ViP-Large/7 [22]88M24.4G29883.2AS-MLP-T [29]28M4.4G86281.3AS-MLP-S [29]50M8.5G47383.1AS-MLP-B [29]88M15.2G30883.3CycleMLP-B1 [6]15M2.1G104078.9CycleMLP-B2 [6]27M3.9G63581.6CycleMLP-B3 [6]38M6.9G37182.4CycleMLP-B4 [6]52M10.1G25983.0CycleMLP-B5 [6]76M12.3G25383.2109390分别是通道-FC和相位估计模块。然后，使用公式7展开波状令牌˜zj，并聚合以获得输出特征oj（公式9）。最终模块输出通过使用另一个通道-FC对oj进行转换以增强表示能力。03.3. Wave-MLP块0Wave-MLP中的基本单元主要包含两个块，通道混合MLP和相位感知的令牌混合块（图2）。通道混合MLP由两个通道-FC层（公式1）和非线性激活函数堆叠而成，用于提取每个令牌的特征。令牌混合块由提出的PATM模块组成，通过考虑振幅和相位信息聚合不同的令牌。为了更好地适应计算机视觉任务，我们通过使用具有形状H×W×C的特征图来保留输入图像的二维空间形状，其中H，W，C分别表示高度、宽度和通道数。这是最近广泛使用的一种成功实践，例如PVT [47]，Swin-Transformer[33]。有两个并行的PATM模块，它们分别沿高度和宽度维度聚合空间信息。与[6，22]类似，不同的分支通过重新加权模块求和。在传统的MLP-Mixer[43]中，每个令牌-FC层将所有令牌连接在一起，其维度取决于特定的输入大小。因此，它与具有不同输入图像大小的密集预测任务（例如目标检测和语义分割）不兼容。为了解决这个问题，我们使用了一种简单的策略，即限制FC层仅连接局部窗口内的令牌。窗口大小的经验研究见第4.4节的表7。除了PATM模块，还使用连接输入和输出的另一个通道-FC来保留原始信息。块的最终输出是这三个分支的总和。整个模型通过交替堆叠相位感知的令牌混合块、通道混合MLP和归一化层来构建。为了产生分层特征，我们将架构分为4个阶段，逐渐减小特征图的大小并增加通道数。通过改变模型的宽度和深度，我们开发了4个具有不同参数和计算成本的模型，依次称为Wave-MLP-T，Wave-MLP-S，Wave-MLP-M，Wave-MLP-B。这些模型的详细配置可以在补充材料中找到。04. 实验0在本节中，我们对提出的Wave-MLP架构在多个任务上进行了实证研究，包括图像分类、目标检测和语义分割。0表1. Wave-MLP架构与现有视觉MLP模型在ImageNet上的比较。0模型参数量 FLOPs 吞吐量 Top-10（图像/秒）准确率（%）0Wave-MLP-T* (我们的) 15M 2.1G 1257 80.1 Wave-MLP-T(我们的) 17M 2.4G 1208 80.6 Wave-MLP-S (我们的) 30M4.5G 720 82.6 Wave-MLP-M (我们的) 44M 7.9G 413 83.4Wave-MLP-B (我们的) 63M 10.2G 341 83.60tion。我们首先将Wave-MLP与现有的视觉MLP、视觉Transformer和CNN在ImageNet [ 8]上进行图像分类比较。然后，我们将其作为两个检测器（RetinaNet [ 30 ]和Mask R-CNN [ 18 ]）在COCO数据集 [31]上进行目标检测和实例分割的骨干网络。至于语义分割，我们采用ADE20K [ 54 ]上广泛使用的语义FPN [ 25]。最后，我们进行消融实验，验证每个组件的有效性。04.1. ImageNet上的图像分类0设置。我们在基准数据集ImageNet [ 8]上进行图像分类实验，该数据集包含来自1000个类别的128万张训练图像和5万张验证图像。为了公平比较，我们采用与[ 45 ]相同的训练策略。具体而言，模型使用AdamW [34]优化器进行300个epoch的训练，学习率初始化为0.001，并采用余弦衰减策略进行衰减。批大小和权重衰减分别设置为1024和0.05。我们采用[ 45]中的常见数据增强策略，包括Mixup [ 53 ]，CutMix [ 52]和Rand-Augment [ 7]。在推理阶段，报告单个裁剪的top-1准确率。为了进行比较ResNet18 [19]CNN12M1.8G-69.8ResNet50 [19]CNN26M4.1G-78.5ResNet101 [19]CNN45M7.9G-79.8RegNetY-4G [36]CNN21M4.0G115780.0RegNetY-8G [36]CNN39M8.0G59281.7RegNetY-16G [36]CNN84M16.0G33582.9GFNet-H-S [37]FFT32M4.5G-81.5GFNet-H-B [37]FFT54M8.4G-82.9BoT-S1-50 [39]Hybrid21M4.3G-79.1BoT-S1-59 [39]Hybrid34M7.3G-81.7DeiT-S [45]Trans22M4.6G94079.8DeiT-B [45]Trans86M17.5G29281.8PVT-Small [47]Trans25M3.8G82079.8PVT-Medium [47]Trans44M6.7G52681.2PVT-Large [47]Trans61M9.8G36781.7T2T-ViT-14 [51]Trans22M5.2G76481.5T2T-ViT-19 [51]Trans39M8.9G46481.9T2T-ViT-24 [51]Trans64M14.1G31282.3TNT-S [17]Trans24M5.2G42881.5TNT-B [17]Trans66M14.1G24682.9iRPE-K [49]Trans87M17.7G-82.4iRPE-QKV [49]Trans22M4.9G-81.4GLiT-Small [4]Trans25M4.4G-80.5GLiT-Base [4]Trans96M17.0G-82.3Swin-T [33]Trans29M4.5G75581.3Swin-S [33]Trans50M8.7G43783.0Swin-B [33]Trans88M15.4G27883.5Wave-MLP-T*MLP15M2.1G125780.1Wave-MLP-TMLP17M2.4G120880.6Wave-MLP-SMLP30M4.5G72082.6Wave-MLP-MMLP44M7.9G41383.4Wave-MLP-BMLP63M10.2G34183.6109400表2. Wave-MLP架构与SOTA模型在ImageNet上的比较。0模型系列参数量 FLOPs 吞吐量 Top-10（图像/秒）准确率（%）0为了与下游任务兼容，我们在标记-FC中使用了一个局部窗口，并经验性地将窗口大小设置为7。通过调整架构配置，我们开发了四个具有不同参数和计算成本的模型（T，S，M，B）。此外，通过用深度卷积替换相位估计模块的FC层，我们开发了一种更高效的架构，称为Wave-MLP-T*。所有实验都在NVIDIA V100 GPU上使用PyTorch[35]和MindSpore[23]进行。与现有的MLP-like架构进行比较。表1比较了最近或目前提出的Wave-MLP与现有的视觉MLP模型。吞吐量是在V100GPU上按照[33，45]进行测量的。Wave-MLP系列在计算成本和准确性之间取得了比现有模型更好的平衡。02 注意，AS-MLP[29]报告的吞吐量是在混合精度模式（混合FP16和FP32）下测量的。为了与现有模型进行公平比较，我们按照[33，45]重新测量了纯FP32模式下的吞吐量。0方法。例如，我们的Wave-MLP-M模型仅使用7.9GFLOPs就达到了83.4%的Top-1准确率，这显示出与ResMLP-B24 [44]（23.0GFLOPs，81.0%准确率）相比的巨大优势。与SOTAMLP架构CycleMLP[6]相比，Wave-MLP在相似的参数和FLOPs下也实现了更高的准确性，例如Wave-MLP-T的准确率达到了80.6%，远高于CycleMLP-B1的78.9%准确率。这表明为每个标记加上相位信息可以很好地捕捉变化标记和固定权重之间的关系，从而提高MLP架构的性能。与ImageNet上的SOTA模型的比较。我们进一步在表2中将提出的Wave-MLP与典型的CNN和Transformer架构在ImageNet上进行了比较。与SwinTransformer[33]相比，我们的Wave-MLP在更少的参数和计算成本下实现了更高的性能。例如，Wave-MLP-S在4.5GFLOPs下实现了82.6%的Top-1准确率，明显优于81.3%的Swin-T准确率。它在计算成本和准确性之间的权衡也压制了典型的CNN架构，如RegNetY和ResNet18。Wave-MLP的优越性表明简单的MLP架构具有巨大的潜力，并且用相位项调制标记聚合过程可以充分利用它。04.2. COCO上的目标检测0在目标检测和实例分割任务上，我们进一步研究了提出的Wave-MLP架构。实验在COCO2017数据集[31]上进行，该数据集包含118k个训练图像和5k个验证图像。Wave-MLP被用作主干网络，并嵌入到两个常见的检测器RetinaNet [30]和Mask R-CNN[18]中。为了公平比较，我们遵循[47]中的训练方法，并使用AdamW[34]优化器对模型进行12个epoch（1×训练计划）的训练。批量大小设置为16，初始学习率设置为0.0001。主干网络使用在ImageNet上预训练的权重进行初始化，而其他层使用Xavier[10]进行初始化。结果。表3比较了不同架构作为主干网络的目标检测结果。对于RetinaNet和MaskR-CNN，提出的Wave-MLP相比现有模型明显提高了性能。例如，使用RetinaNet1×，Wave-MLP-T仅使用25.3M参数和196.3GFlOPs就达到了40.4%的AP，比具有类似模型大小的CycleMLP-B1（38.6 AP）高出了1.8 AP。当使用MaskR-CNN作为检测器时，性能提升也非常显著。与具有47.8M参数和264.0GFLOPs的Swin-T的42.2框AP和39.1掩膜AP相比，我们的Wave-MLP-S在更少的参数（47.0M）和较低的计算成本（250.3G）下实现了显著更高的性能（44.0框AP和40.0掩膜AP）。ResNet50 [19]37.7M / 239.3G36.355.338.619.340.048.844.2M / 260.1G38.058.641.434.455.136.7Swin-T [33]38.5M / 244.8G41.562.144.225.144.955.547.8M / 264.0G42.264.646.239.161.642.0PVT-Small [47]34.2M /226.5G40.461.343.025.042.955.744.1M / 245.1G40.462.943.837.860.140.3CycleMLP-B2 [6]36.5M / 230.9G40.961.843.423.444.753.446.5M /249.5G41.763.645.838.260.441.0Wave-MLP-S37.1M / 231.3G43.464.446.526.647.157.147.0M /250.3G44.065.848.240.063.142.9PVT-Large [47]71.1M / 345.7G42.663.745.425.846.058.481.0M / 364.3G42.965.046.639.561.942.5CycleMLP-B4 [6]61.5M / 356.6G43.263.946.226.646.557.471.5M / 375.2G44.165.748.140.262.743.5CycleMLP-B5 [6]85.9M / 402.2G42.763.345.324.146.357.495.3M / 421.1G44.165.548.440.162.843.0Wave-MLP-B66.1M / 333.9G44.265.147.127.147.858.975.1M / 353.2G45.767.550.127.849.259.7109410表3. COCO val2017上的目标检测和实例分割结果。0骨干网络 RetinaNet 1 × Mask R-CNN 1 ×0参数 / FLOPs AP AP 50 AP 75 AP S AP M AP L 参数 / FLOPs AP b AP b 50 AP b 75 AP m AP m 50 AP m 750ResNet18 [ 19 ] 21.3M / 188.7G 31.8 49.6 33.6 16.3 34.3 43.2 31.2M / 207.3G 34.0 54.0 36.7 31.2 51.0 32.7 PVT-Tiny [ 47 ] 23.0M /189.5G 36.7 56.9 38.9 22.6 38.8 50.0 32.9M / 208.1G 36.7 59.2 39.3 35.1 56.7 37.3 CycleMLP-B1 [ 6 ] 24.9M / 195.0G 38.6 59.1 40.821.9 41.8 50.7 34.8M / 213.6G 39.4 61.4 43.0 36.8 58.6 39.1 Wave-MLP-T 25.3M / 196.3G 40.4 61.0 43.4 24.9 43.7 51.7 35.2M /214.6G 41.5 63.7 45.4 38.2 60.9 40.70ResNet101 [ 19 ] 56.7M / 315.4G 38.5 57.8 41.2 21.4 42.6 51.1 63.2M / 336.4G 40.4 61.1 44.2 36.4 57.7 38.8 Swin-S [ 33 ] 59.8M /334.8G 44.5 65.7 47.5 27.4 48.0 59.9 69.1M / 353.8G 44.8 66.6 48.9 40.9 63.4 44.2 PVT-Medium [ 47 ] 53.9M / 283.1G 41.9 63.1 44.325.0 44.9 57.6 63.9M / 301.7G 42.0 64.4 45.6 39.0 61.6 42.1 CycleMLP-B3 [ 6 ] 48.1M / 291.3G 42.5 63.2 45.3 25.2 45.5 56.2 58.0M /309.9G 43.4 65.0 47.7 39.5 62.0 42.4 Wave-MLP-M 49.4M / 291.3G 44.8 65.8 47.8 28.0 48.2 59.1 59.6M / 311.5G 45.3 67.0 49.5 41.064.1 44.10表4. ADE20K验证集上不同骨干网络的语义分割结果。†结果来自GFNet [ 37 ]。0骨干网络语义FPN0参数 FLOPs mIoU（%）0ResNet18 [ 19 ] 15.5M 127G 32.9 PVT-Tiny [ 47 ]17.0M 123G 35.7 CycleMLP-B1 [ 6 ] 18.9M 130G39.5 Wave-MLP-T (我们的) 19.3M 131G 41.20ResNet50 [ 19 ] 28.5M 183G 36.7 PVT-Small [ 47 ]28.2M 163G 39.8 Swin-S † [ 33 ] 31.9M 182G 41.5GFNet-H-Ti [ 37 ] 26.6M 126G 41.0 CycleMLP-B2 [6 ] 30.6M 167G 42.4 Wave-MLP-S (我们的) 31.2M168G 44.40ResNet101 [ 19 ] 47.5M 260G 38.8 PVT-Medium [47 ] 48.0M 219G 41.6 GFNet-H-S [ 37 ] 47.5M179G 42.5 Swin-B † [ 33 ] 53.2M 274G 45.2GFNet-H-B [ 37 ] 74.7M 261G 44.8 CycleMLP-B3 [6 ] 42.1M 229G 44.5 CycleMLP-B4 [ 6 ] 55.6M296G 45.1 CycleMLP-B5 [ 6 ] 79.4M 343G 45.6Wave-MLP-M (我们的) 43.3M 231G 46.804.3. ADE20K上的语义分割0设置。语义分割任务的实验在具有挑战性的ADE20K数据集[54]上进行，该数据集包含来自150个语义类别的25k张图像，其中20k用于训练，2k用于验证，3k用于测试。我们将提出的Wave-MLP架构与广泛使用的语义FPN [ 25 ]相结合，如[47 ]所述。0表5. 相位信息的有效性。0模式参数 FLOPs Top-1准确率（%）0无相位 15M 2.1G 78.8 静态相位 15M 2.1G 79.3动态相位 15M 2.1G 80.10表6. 相位估计模块的公式。0尺寸参数 FLOPs Top-1准确率（%）0基线 15M 2.1G 78.8 恒等投影 15M 2.1G 79.3深度卷积 15M 2.1G 80.1 通道全连接 17M 2.4G80.60表7. 聚合令牌的窗口大小。0大小参数 FLOPs top-1准确率（%）03 15M 2.1G 79.7 5 15M 2.1G 79.8 715M 2.1G 80.1 All 16M 2.3G 80.00方法。使用在ImageNet上预训练的权重，模型使用AdamW[34]优化器进行40k次微调迭代，批量大小设置为32。初始学习率为0.0001，并按照多项式调度（幂为0.9）进行衰减。训练时，图像被随机调整大小并裁剪为512×512，测试时将其重新缩放为较短边为512。FLOPs是使用2048×512输入进行测试的。结果。不同模型在语义分割任务上的结果如表4所示。在不同的配置下，模型都取得了令人满意的性能。00.40.8-0.200.40.8-0.2109420在参数和计算成本方面，Wave-MLP始终优于现有模型。与基于Transfo

下载后可阅读完整内容，剩余1页未读，立即下载