MaxViT:多轴视觉Transformer 7
表1:MaxViT
架构变体。
B和C表示每级的块数和通道数。我们将所有注意
力层的每个注意力头设置为32。对于MBConv,我们始终在SE [36]中使用膨
胀率4和收缩率 0.25,遵循[19,79,80]。我们在茎中使用两个Conv层
尺寸
MaxViT-T MaxViT-S MaxViT-B MaxViT-L
S1:
MaxViT-Block
1
/4 B=2 C=64 B=2 C=96 B=2
S2:MaxViT-Block
1
/8 B=2 C=128 B=2 C=192 B=6
C=64 B=2 C=128 B=2 C=192
C=96 B=2 C=128 B=2 C=192 C=
192 B=6 C=256 B=6 C=384
S3:
MaxViT-Block
1
/16 B=5 C=256 B=5 C=384 B=14 C=384 B=14 C=512 B=14 C=768
S4:MaxViT-Block
1
/32 B=2 C=512 B=2 C=768 B=2 C=768 B=2 C=1024 B=2 C=1536
3.3
架构变体
我们设计了一系列非常简单的架构变体来探索我们提出的MaxViT块的有
效性,如图2所示。我们使用类似于常见ConvNet实践的分层骨干[19,
29,57,80],其中输入首先在stem阶段(S0)使用Conv3x3层进行下采
样。的 网络的主体包含四级(S1-S4),每级具有一半 分辨率的前一
个与通道数的两倍(隐藏维度)。在我们的网络中,我们在整个骨干网
中 使 用
相 同的
MaxViT 块 。 我 们 在每 个阶 段 中 的 第一 个MBConv块 的
Dependency Conv3x3层中应用下采样。反向瓶颈[35]和挤压激发(SE)[36]
的膨胀率和收缩率默认为4和0.25。我们将所有注意力块的注意力头部大
小设置为32。我们通过增加每个阶段B
的
块数和通道维度C
来
放大模型。
我们在表1中总结了MaxViT变体的架构配置。
4
实验
我们验证了我们提出的模型对各种视觉任务的有效性:ImageNet分类
[48],图像对象检测和实例分割[53],图像美学/质量评估[61]和无条件
图像生成[26]。更多的实验细节可以在附录中找到。
4.1
基于ImageNet-1 K的图像分类
ImageNet-1K
。
我们在表2中显示了ImageNet-1 K分类的性能比较。
在基本的224 224设置下,MaxViT在整个FLOP谱中的表现远远优于最
新的强混合模型CoAtNet,如图1a所示。MaxViT-L模型在没有额外训
练策略的情况下,在224224次训练中创造了85.17%的新的性能记录,
比CoAtNet-3高出0.67%。关于在224
2处的
吞吐量-准确度权衡,MaxViT-S
获得84.45%的前1准确度,比CSWin-B高0.25%,比具有可比吞吐量的
CoAtNet-2高0.35%。