MLP-3D网络:无卷积的视频识别新方法

0 下载量 128 浏览量 更新于2024-06-20 收藏 970KB PDF 举报
"本文介绍了一种名为MLP-3D的新型三维视频识别网络,它采用了无卷积的多层感知器(MLP)结构,旨在处理视频数据的复杂性和变化性。MLP-3D网络由MLP-3D块构成,每个块包括令牌混合MLP和信道MLP,通过引入分组时间混合(GTM)操作来增强时间序列的建模能力。GTM将输入令牌按时间分组,并用共享投影矩阵进行线性映射。研究者设计了不同分组策略的GTM变体,并通过结构搜索将它们集成到MLP-3D网络的不同块中。尽管计算效率较高,但该网络在Something-SomethingV2和Kinetics-400数据集上的性能与广泛采用的3DCNN和视频变压器相当,实现了68.5%和81.4%的top-1准确率。" 在计算机视觉领域,卷积神经网络(CNN)长期被视为图像和视频识别的主流模型,因其在多个任务上的优异表现以及硬件优化的实现。然而,随着注意力模型在自然语言处理中的成功,视觉转换器(如Transformer)也开始在视觉领域受到关注。MLP-3D网络则是结合了这两种思想,特别是在处理视频数据时,它试图克服CNN和Transformer的局限性。 MLP-3D网络的设计灵感来源于MLP混合器层,但进行了改进,将其分解为沿高度、宽度和时间三个维度的子模块。核心创新在于令牌混合MLP的改进,通过GTM操作,它能够捕捉到视频数据的时间动态。GTM不仅分组了输入令牌,还引入了线性投影,使得每个时间组内的令牌可以进行交互,从而增强网络对时间序列的理解。 为了进一步优化网络性能,研究者探索了多种GTM的分组策略,并利用贪婪结构搜索方法来确定最佳组合,将这些变体整合到MLP-3D的不同块中。这使得网络能够在保持高效计算的同时,仍然能够有效地学习和捕获视频数据的时空特征。 实验结果显示,MLP-3D网络在Something-SomethingV2和Kinetics-400这两个标准视频识别数据集上取得了与当前最先进的3DCNN和Transformer相当的性能。这表明,即使没有依赖传统的卷积或注意力机制,MLP-3D网络也能有效处理视频识别任务,为视频理解和分析提供了新的视角和可能。