并且在每个级内保持特征分辨率。在两个相邻的级之
间插入一个级过渡,这增加了通道的数量并降低了空
间分辨率。这样,来自最后一个阶段的令牌的数量是
HWT
。最后,将生成的令牌沿空间和时间维度进行平
均,然后是用于类预测的全连接层。
3.2.
MLP-3D模块
所提出的MLP-3D块源自MLP混合器[54]中的基于
MLP的块,其通过令牌混合MLP来替换Transformer中
的多头自注意模块。详细地,基于MLP的块由两个组
件 组 成 : 信 道 MLP 和 令 牌 混 合 MLP 。 MLP 利 用 了
Transformer [60]中前馈层的类似结构,其中包含两个
线性层以及其间的GELU [15]非线性。标记混合MLP
混合来自不同空间/时间位置的标记的信息,并表征各
种基于MLP的模型之间的主要差异[6,17,54,70]。
具体地,给定输入令牌X,基于MLP的块的函数可以
被公式化为:
Y
=
令牌混合
-MLP
(
LN
(
X
))
+
X
,
(
1
)
Z=MLP
(
LN
(
Y
))
+Y
,
其中LN表示层范数[2]。输出Z用作下一个块的输入,
直到最后一个块。
分解令牌混合。令牌混合MLP的目标是通过混合不
同令牌的信息来捕获空间/时间模式。受视觉变换器[17]
的启发,MLP-3D块分解令牌混合MLP并一次沿一个
轴编码信息。通过这样做,令牌混合MLP可以捕获沿
一个维度的长程依赖性,同时保留沿其他维度的精确
位置信息。与[ 17 ]不同,[17 ]通过图像
其中X
H
、X
W
和X
T
分别是高度、宽度和时间混合的输
出。FC表示全连接层。在这里,我们利用[17]中提出
的加权求和来聚合不同混合操作的输出。对于高度/宽
度混合操作,我们选择[6]中的循环FC,这已被证明对
捕获空间上下文是
3.3.
分组时间混合(GTM)
为了进一步提高令牌混合MLP的效率,我们提出了
一种新的分组时间混合(GTM)操作,以产生方程中
的
X
T
(2)在时间维度上对令牌间形式上,我们从分
析最简单的时间混合开始,它线性映射不同时间点的
所有标记的特征更具体地说,
给定
kens
的重新
整形输
入为
X
R
H
W
×
T C
,全
时混频的输出计算为
X
T
=
X
·
W
,
(
3
)
其中WR
TC×TC
是投影矩阵。 虽然 该操作可以捕获沿
时 间 轴 的 大 范 围 相 关 性 , 它 要 求 计 算 复 杂 度
(HWT
2C2
)和参数数目(
T2C2
)随剪辑长度T的增加
呈几何级数增长。
为了缓解这一限制,我们设计了分组时间混合操
作,它将输入令牌分成几个时间组,并将每组中的令
牌与共享的投影参数进行映射。因此,计算的复杂性
和参数的数量减少,因为组的大小通常比剪辑长度小
得多。为了实现这一想法,我们推导出四种不同的
GTM操作,如图3所示,它们对应于令牌组的不同构
造。我们详细比较了以下操作:
(1)
短程GTM 第一种设计将令牌均匀地分成
T
个组,
其中S是组大小(即,的