MLP-3D网络：无卷积的视频识别新方法

128 浏览量更新于2024-06-20 收藏 970KB PDF 举报

"本文介绍了一种名为MLP-3D的新型三维视频识别网络，它采用了无卷积的多层感知器（MLP）结构，旨在处理视频数据的复杂性和变化性。MLP-3D网络由MLP-3D块构成，每个块包括令牌混合MLP和信道MLP，通过引入分组时间混合（GTM）操作来增强时间序列的建模能力。GTM将输入令牌按时间分组，并用共享投影矩阵进行线性映射。研究者设计了不同分组策略的GTM变体，并通过结构搜索将它们集成到MLP-3D网络的不同块中。尽管计算效率较高，但该网络在Something-SomethingV2和Kinetics-400数据集上的性能与广泛采用的3DCNN和视频变压器相当，实现了68.5%和81.4%的top-1准确率。" 在计算机视觉领域，卷积神经网络（CNN）长期被视为图像和视频识别的主流模型，因其在多个任务上的优异表现以及硬件优化的实现。然而，随着注意力模型在自然语言处理中的成功，视觉转换器（如Transformer）也开始在视觉领域受到关注。MLP-3D网络则是结合了这两种思想，特别是在处理视频数据时，它试图克服CNN和Transformer的局限性。 MLP-3D网络的设计灵感来源于MLP混合器层，但进行了改进，将其分解为沿高度、宽度和时间三个维度的子模块。核心创新在于令牌混合MLP的改进，通过GTM操作，它能够捕捉到视频数据的时间动态。GTM不仅分组了输入令牌，还引入了线性投影，使得每个时间组内的令牌可以进行交互，从而增强网络对时间序列的理解。为了进一步优化网络性能，研究者探索了多种GTM的分组策略，并利用贪婪结构搜索方法来确定最佳组合，将这些变体整合到MLP-3D的不同块中。这使得网络能够在保持高效计算的同时，仍然能够有效地学习和捕获视频数据的时空特征。实验结果显示，MLP-3D网络在Something-SomethingV2和Kinetics-400这两个标准视频识别数据集上取得了与当前最先进的3DCNN和Transformer相当的性能。这表明，即使没有依赖传统的卷积或注意力机制，MLP-3D网络也能有效处理视频识别任务，为视频理解和分析提供了新的视角和可能。

3064

× ×

∈

视频

小块

阶段

MLP-3D

阶段

MLP-3D

阶段

MLP-3D

阶段

MLP-3D

平均

夹

嵌入

块x L

区块x

Block x

池化

类数

图2.我们提出的MLP-3D网络的概述。

和

分别

表示第i级中的输出声道的数量和

MLP-3D块

的重复数量

。输出特征图的大小也

为每个块给出。

宽度和剪辑长度，我们的模型首先嵌入重叠tubelets与

窗口大小

7 7 4

和步幅

4 4 4

。通过使用共享的线性嵌入

层，每个tubelet被映射到具有更高维度

因此，整个小

块嵌入模块产生具有

形状的特征。

MLP-3D块在视频识别中选择沿时间轴而不是通道轴混

合。这种设计与3D卷积分解[46，59，68]和时空分割

注意力[1，3]具有相似的精神。

具体地，分解到

ken

混合

的

输出

通过线性投影token

多级架构。然后，沿着三个维度的顺序MLP

图2中所示的3D块被应用于小块令牌。整个MLP-3D网

络包括四个阶段，

（

）

、

（

）

并且在每个级内保持特征分辨率。在两个相邻的级之

间插入一个级过渡，这增加了通道的数量并降低了空

间分辨率。这样，来自最后一个阶段的令牌的数量是

HWT

。最后，将生成的令牌沿空间和时间维度进行平

均，然后是用于类预测的全连接层。

3.2.

MLP-3D模块

所提出的MLP-3D块源自MLP混合器[54]中的基于

MLP的块，其通过令牌混合MLP来替换Transformer中

的多头自注意模块。详细地，基于MLP的块由两个组

件组成：信道 MLP 和令牌混合 MLP 。 MLP 利用了

Transformer [60]中前馈层的类似结构，其中包含两个

线性层以及其间的GELU [15]非线性。标记混合MLP

混合来自不同空间/时间位置的标记的信息，并表征各

种基于MLP的模型之间的主要差异[6，17，54，70]。

具体地，给定输入令牌X，基于MLP的块的函数可以

被公式化为：

令牌混合

-MLP

（

））

，

（

）

Z=MLP

（

））

，

其中LN表示层范数[2]。输出Z用作下一个块的输入，

直到最后一个块。

分解令牌混合。令牌混合MLP的目标是通过混合不

同令牌的信息来捕获空间/时间模式。受视觉变换器[17]

的启发，MLP-3D块分解令牌混合MLP并一次沿一个

轴编码信息。通过这样做，令牌混合MLP可以捕获沿

一个维度的长程依赖性，同时保留沿其他维度的精确

位置信息。与[ 17 ]不同，[17 ]通过图像

其中X

、X

和X

分别是高度、宽度和时间混合的输

出。FC表示全连接层。在这里，我们利用[17]中提出

的加权求和来聚合不同混合操作的输出。对于高度/宽

度混合操作，我们选择[6]中的循环FC，这已被证明对

捕获空间上下文是

3.3.

分组时间混合（GTM）

为了进一步提高令牌混合MLP的效率，我们提出了

一种新的分组时间混合（GTM）操作，以产生方程中

的

（2）在时间维度上对令牌间形式上，我们从分

析最简单的时间混合开始，它线性映射不同时间点的

所有标记的特征更具体地说，

给定

kens

的重新

整形输

入为

T C

，全

时混频的输出计算为

，

（

）

其中WR

TC×TC

是投影矩阵。虽然该操作可以捕获沿

时间轴的大范围相关性，它要求计算复杂度

（HWT

2C2

）和参数数目（

T2C2

）随剪辑长度T的增加

呈几何级数增长。

为了缓解这一限制，我们设计了分组时间混合操

作，它将输入令牌分成几个时间组，并将每组中的令

牌与共享的投影参数进行映射。因此，计算的复杂性

和参数的数量减少，因为组的大小通常比剪辑长度小

得多。为了实现这一想法，我们推导出四种不同的

GTM操作，如图3所示，它们对应于令牌组的不同构

造。我们详细比较了以下操作：

(1)

短程GTM 第一种设计将令牌均匀地分成

个组，

其中S是组大小（即，的

线性

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MLP-3D网络：无卷积的视频识别新方法

三维视频融合.[点卯.时空克隆]

Probabilistic3DCNN:3D CNN中的时空融合

基于matlab语音处理-代码说明.txt

Python实现机器学习算法详解：从KMeans到随机森林

Halcon机器视觉函数库中文速查：关键操作与说明

【MATLAB信号检测与分类】：如何识别信号中的模式

【CNN革命：图像识别的终极指南】：掌握卷积神经网络在图像处理中的精妙艺术

推荐系统核心精讲 - 第4篇：矩阵分解在推荐系统中的应用

【神经网络结构分析】：深度比较不同网络架构的性能表现

深度学习在连续语音识别中的应用

最新资源