多尺度视觉变换器：融合多通道与层次结构的高效视觉识别

114 浏览量更新于2024-06-20 收藏 971KB PDF 举报

本文主要探讨了一种创新的多尺度视觉识别方法，即多尺度视觉变换器（MViT）。该模型结合了多尺度特征层次结构与变压器模型的特点，旨在通过逐层扩展通道容量并降低空间分辨率，形成一个多通道分辨率尺度级的视觉特征金字塔。这种设计灵感来源于计算机视觉领域对视觉皮层研究，特别是Hubel和Wiesel的工作，他们发现视觉处理层次结构中，随着层次的上升，空间分辨率下降，而通道（或特征）的数量逐渐增加，表现出从简单到复杂的特性。 MViT在设计上借鉴了Neocognitron和卷积神经网络的卷积结构，同时引入了Transformer模型的自注意力机制，允许模型在不同尺度间进行有效的信息交换。与传统的视觉变压器模型相比，MViT在处理视频和图像识别任务时，显示出更强的性能，即使不依赖大规模外部预训练也能达到较高的准确度。此外，通过阶段性的通道扩展和空间分辨率降低，MViT能够在保持模型效率的同时，捕捉到不同层次的视觉信息，包括早期层的低级视觉细节和深层的抽象特征。在实验部分，作者展示了MViT在各种视频识别任务上的优势，如超越了那些需要大量预训练数据和计算资源的竞争对手，证明了其在效率和性能上的优越性。对于图像分类任务，MViT同样表现出色，优于先前的视觉变换器模型。为了便于研究者和开发者进一步探索和利用这一模型，作者提供了GitHub代码库，链接为：<https://github.com/facebookresearch/SlowFast>。多尺度视觉变换器是一种高效、灵活的视觉模型，通过创新的架构设计，实现了对视觉信号的多层次、多尺度理解，为计算机视觉领域的图像和视频识别任务带来了新的可能。

6827

× ×

联系我们

不

× ×

∈

× ×

个

× × ×

阶段

运营商

输出尺寸

数据层

步长

贴片

，

步幅

Σ Σ

H W

秤

MHA

（

）

MLP（4

）

H W

表1. 视觉变换器（ViT）基础模型从数据层开始，该数据层

以速率

τ11

对视觉输入采样到

T H W

分辨率，其中

是帧

高

度和W宽度的数量

第一层，片块

投射片块（形状

1 16 16

）

以形成

由

个

Transformer

块的堆叠（阶段

）

以均匀的通道尺寸

（

）和分辨率（

T×

）处理的序列。

十六

个

表2.多尺度视觉变换器（MViT）基础模型。

层立方体

，将密集的时空立方体（形状

为

）投影

到

通道，以将时空分辨率降低到

。

通过考虑h

个

头来实现，其中每个头正在D维输入张量

X的D/h

个

通道的非重叠子集上执行集中注意力。

计算分析。由于注意力计算的尺度是w.r.t.序列长度、

池化键、查询和值张量对多尺度Transformer模型的基

本计算和存储器要求具有显著的用f

、

和f

表示序列

长度缩减因子，我们有：

，

∈

{

，

}

考虑到（

）的输入张量具有维度

D T H W

，

MHPA

的运行时间复杂度为每个头

（

THWD/h

（

THW/f

）），并且存储器复杂度为

（

THWh

（

D/h

THW/f

））。

在通道D

和

D的数量之间的这种折衷是可实现的。

序列长度项THW/

fQfK

通知我们关于结构参数的设计选

择，例如头的数量和层的宽度。关于运行时-内存复杂

度权衡的详细分析和讨论，我们请读者参阅§C

3.2.

多尺度

Transformer

网络

建立在多头集中注意力（第二节）3.1），我们描述

了专门使用MHPA和MLP层进行视觉表示学习的多尺

度Transformer模型。首先，我们提出了一个简短的审

查的视觉转换器模型，通知我们的设计。

准备工作： Vision Transformer （ ViT ）。视觉

Transformer（ViT）架构[28]开始于将分辨率为T H W

的输入视频切割成每个大小为11616的非重叠块，其中

T是帧的数量H是高度，W是宽度，然后在平坦化的图

像块上逐点应用线性层以将它们投影到变换器的潜在

维度D这

相当于

具有相等核大小和步长11616的卷积，

并且在表1中的模型定义中被示出为补丁

阶段。

接下来，将位置嵌入

L×D

添加到长度为L的投

影序列的每个元素，其中

随后的阶段用MHPA逐渐下采样该分辨率（在阶段的开始

处），同时在MLP层中增加通道尺寸（在阶段的结束处）。

每一级由

* 个

Transformer

块组成，在

[

括号

]

中表示。

维度D以编码位置信息并破坏置换不变性。一个可学

习的类嵌入被附加到投影的图像块。

然后，由N个Transformer块的堆栈顺序地处理所得

到的长度为 L

的序列，每个变换器块执行注意

（ MHA[104] ）、多层感知器（ MLP ）和层归一化

（LN[3]）操作。将X视为块的输入，单个Transformer

块的输出Block（X）由下式计算：

= MHA（LN（X））+X

Block

（X）

= MLP

（

））

。

N个连续块之后的结果序列被层归一化，并且类嵌入被

提取并通过线性层以预测期望的输出（

例如

，类）。

默认情况下，MLP的隐藏尺寸为4D。我们建议读者参

考[28，104]以了解详细信息。

在本文的上下文中，值得注意的是，ViT在所有块

中保持恒定的信道容量和空间分辨率（参见表1）。

多尺度视觉变换器（MViT）。我们的关键概念是逐步

增加通道

分辨率（即尺寸），同时

降低时空

分辨率

（

即

，序列长度）。通过设计，我们的MViT架构在早

期层中具有

精细

时空（和

粗

信道）分辨率，其在后期

层中被上采样/下采样到粗时空（和

精细

MViT示于表2

中。

缩放阶段。

缩放级

被定义为一组N个变换器块，其在相

同的

尺度

上以跨通道和时空维度D T H W

的

相同分辨

率操作。在输入端（表2中的立方体

），我们将面片

（或者立方体，如果它们有时间范围的话）投影到较

小的通道维度（例如8比典型的ViT模型小），但是长

序列（

例如

，4 4

16比典型的ViT模型更密集;

参见

表

1）。

多个头。如[104]中所示，计算可以是并行的。

阶段

运营商

输出尺寸

数据层

步长

魔方

，

步幅

Σ Σ

不

秤

MHPA（

）

MLP

（4

）

Σ Σ

不

规模

MHPA

（2

）

MLP

（8

）

Σ Σ

不

秤

MHPA

（4

）

MLP

（16

）

Σ Σ

不

H W

秤

MHPA

（8

）

MLP

（32

）

三十

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

多尺度视觉变换器：融合多通道与层次结构的高效视觉识别

基于小波变换多尺度边缘检测

提升小波变换多尺度积融合算法：抑制噪声与优化视觉效果

自适应图像增强：基于多尺度Retinex的方法

实时人脸表情识别：多尺度核特征CNN提升精度与速度

人体步伐周期与数量识别的多尺度小波变换与MATLAB仿真研究

DSST算法详解：多尺度视觉跟踪的精准尺度估计

LLC谐振变换器：软开关技术与L6599芯片解析

设计高效正激变换器：MATLAB仿真与电力电子优化

Ridgelet变换：解决小波局限的新型多尺度分析方法

MATLAB源代码：基于KL变换的人脸识别GUI实现

最新资源