MaxViT：融合卷积的高效可扩展视觉Transformer

75 浏览量更新于2024-06-19 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

“MaxViT：高效的可扩展注意力模型与混合卷积的视觉骨干” MaxViT是一种创新的视觉Transformer模型，旨在克服Transformer在计算机视觉应用中的局限性，特别是其对图像大小的可扩展性问题。该模型的核心在于其提出的多轴注意力模型，它结合了阻塞的局部注意力和扩张的全局注意力机制。这种设计使得模型能在任意输入分辨率上实现全局-局部空间交互，并且保持线性复杂度，提高了效率。局部注意力机制专注于图像的局部区域，有助于捕捉细节和局部特征，而全局注意力机制则允许模型理解整个图像的上下文信息。通过这两种注意力机制的混合，MaxViT能够在早期高分辨率阶段就具备全局视野，这对于图像理解和复杂场景的处理至关重要。为了进一步提升模型的性能，MaxViT引入了一个新的架构元素，即混合了提出的注意力模型与传统的卷积操作。这种混合策略不仅保留了Transformer的优势，如长距离依赖的学习能力，同时也利用了卷积的平移等变性和参数效率。由此构建的分层视觉骨干网络，即MaxViT，展现出强大的泛化能力和适应性。实验结果显示，MaxViT在图像分类任务上表现出色。在ImageNet-1K数据集上未经额外数据预训练时，它可以达到86.5%的top-1准确率；而在ImageNet-21K预训练后，这个准确率提高到88.7%。此外，MaxViT在目标检测和视觉美学评估等下游任务中也展现出良好的性能，证明了其作为通用视觉模块的潜力。 MaxViT的另一个亮点是其在ImageNet上的强大生成建模能力，这表明模型能够学习到丰富的视觉表示。这一特性使得MaxViT适用于更广泛的计算机视觉任务。研究人员已经开源了MaxViT的源代码和训练模型，可在指定链接（此处应为实际链接，但示例中未提供）获取，促进社区对模型的进一步研究和应用。关键词：Transformer，图像分类，多轴注意，卷积神经网络，目标检测，视觉美学评估。

资源详情

资源推荐

+v：mala2255获取更多论

文

MaxViT：多轴视觉Transformer 7

表1：MaxViT

架构变体。

B和C表示每级的块数和通道数。我们将所有注意

力层的每个注意力头设置为32。对于MBConv，我们始终在SE [36]中使用膨

胀率4和收缩率 0.25，遵循[19，79，80]。我们在茎中使用两个Conv层

阶段

S0：Conv股骨

柄

尺寸

MaxViT-T MaxViT-S MaxViT-B MaxViT-L

MaxViT-XL

/2B=2 C=64 B=2 C=64 B=2

S1：

MaxViT-Block

/4 B=2 C=64 B=2 C=96 B=2

S2：MaxViT-Block

/8 B=2 C=128 B=2 C=192 B=6

C=64 B=2 C=128 B=2 C=192

C=96 B=2 C=128 B=2 C=192 C=

192 B=6 C=256 B=6 C=384

S3：

MaxViT-Block

/16 B=5 C=256 B=5 C=384 B=14 C=384 B=14 C=512 B=14 C=768

S4：MaxViT-Block

/32 B=2 C=512 B=2 C=768 B=2 C=768 B=2 C=1024 B=2 C=1536

3.3

架构变体

我们设计了一系列非常简单的架构变体来探索我们提出的MaxViT块的有

效性，如图2所示。我们使用类似于常见ConvNet实践的分层骨干[19，

29，57，80]，其中输入首先在stem阶段（S0）使用Conv3x3层进行下采

样。的网络的主体包含四级（S1-S4），每级具有一半分辨率的前一

个与通道数的两倍（隐藏维度）。在我们的网络中，我们在整个骨干网

中使用

相同的

MaxViT 块。我们在每个阶段中的第一个MBConv块的

Dependency Conv3x3层中应用下采样。反向瓶颈[35]和挤压激发（SE）[36]

的膨胀率和收缩率默认为4和0.25。我们将所有注意力块的注意力头部大

小设置为32。我们通过增加每个阶段B

的

块数和通道维度C

来

放大模型。

我们在表1中总结了MaxViT变体的架构配置。

实验

我们验证了我们提出的模型对各种视觉任务的有效性：ImageNet分类

[48]，图像对象检测和实例分割[53]，图像美学/质量评估[61]和无条件

图像生成[26]。更多的实验细节可以在附录中找到。

4.1

基于ImageNet-1 K的图像分类

ImageNet-1K

。

我们在表2中显示了ImageNet-1 K分类的性能比较。

在基本的224 224设置下，MaxViT在整个FLOP谱中的表现远远优于最

新的强混合模型CoAtNet，如图1a所示。MaxViT-L模型在没有额外训

练策略的情况下，在224224次训练中创造了85.17%的新的性能记录，

比CoAtNet-3高出0.67%。关于在224

2处的

吞吐量-准确度权衡，MaxViT-S

获得84.45%的前1准确度，比CSWin-B高0.25%，比具有可比吞吐量的

CoAtNet-2高0.35%。

剩余34页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MaxViT：融合卷积的高效可扩展视觉Transformer

MaxViT : 多轴Vision Transformer

MaxViT:多轴视觉Transformer

注意力机制相比于卷积神经网络的优势

指定导联分组混合卷积

高效多尺度注意力机制和CBAM注意力机制的区别

注意力机制卷积神经网络模型

混合卷积神经网络与支持向量机

基于transformer的注意力机制和基于卷积神经网络的注意力机制区别在哪里

基于多头注意力机制的卷积神经网路

注意力机制卷积神经网络

在注意力机制中加入空洞卷积

基于卷积神经网络和注意力模型的文本情感分析[j]. 计算机应用研究,2018,35(5):143

通道注意力机制，两者混用的注意力机制模型

自注意力机制有卷积核吗

具有注意力机制的卷积

2019以来新出的空间注意力机制和混合空间注意力机制

mbconv卷积注意力

融合卷积与多头自注意力机制

卷积神经网络中的注意力机制

最新资源