MLP-3D:时间混合的类MLP三维视频识别网络

10 浏览量更新于2023-10-25 收藏 970KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3062MLP-3D：一种具有分组时间混合的类MLP三维结构Zhaofan Qiu< $，Ting Yao< $，Chong-Wah NgoYu和Tao Mei<$†JD Explore Academy，Beijing，China新加坡管理大学，新加坡{zhaofanqiu，tingyao.ustc} @ gmail.com，cwngo@smu.edu.sg，tmei@jd.com摘要卷积神经网络（CNN）已被视为视觉识别的首选模型最近，基于多头自注意（MSA）或多层感知器（MLP）的无卷积网络变得越来越流行。然而，由于视频数据的巨大变化和复杂性，在利用这些新出现的网络进行视频在本文中，我们提出了MLP-3D网络，一种新的MLP-类三维结构的视频识别。具体地，该架构由MLP-3D块组成，其中每个块包含跨令牌应用的一个MLP（即，令牌混合MLP）和一个独立地应用于每个令牌的MLP（即，信道MLP）。通过推导新的分组时间混合（GTM）操作，我们配备了基本的令牌混合MLP的时间建模能力。GTM将输入的标记分成几个时间组，并将每组中的标记与共享投影矩阵进行线性映射。此外，我们设计了几种具有不同分组策略的GTM变体，并通过贪婪结构搜索将每个变体组合到MLP-3D网络的不同块中。在不依赖卷积或注意力机制的情况下，我们的MLP-3D网络在Something-Something V2和Kinetics-400数据集上分别达到了68.5%/81.4%的top-1准确率。尽管计算量更少，但结果与最先进的广泛使用的3D CNN和视频变换器相当1. 介绍在过去的十年中，卷积神经网络（CNN）的进步已经成功地推动了图像和视频理解的限制并改进了最先进的技术[5，11，12，14，19，25，28，30，45，46，48除了实现跨任务的最佳性能外，卷积在各种硬件上的高度优化实现使CNN继续主导计算机视觉研究。然而，由于注意力模型在自然语言处理（NLP）[60]中的成功，视觉转换器[9，21，33，38，55，63]+信道MLP线性投影层规范+加权和+令牌混合MLP高度宽度分组搅拌搅拌时间混合层规范图1. MLP-3D模块示意图。该块源自[54]中的MLP混合器层，并将原始令牌混合MLP分解为分别沿高度，宽度和时间维度的三个子操作对于时间维，利用新的分组时间混合操作。通过使用多头自注意（ MSA ）和多层感知器（MLP），成为图像识别的替代选择。最近，仅使用MLP的模型（即，没有卷积或自注意层的MLP类网络也能够在ImageNet分类上表现良好，并且对于训练和推理都更有效[6，17，54，70]。尽管在图像识别方面取得了令人印象深刻的进展，但在视频数据上设计MLP式架构很少被研究，并且仍然具有挑战性。由于运动的大变化和视觉细节的从这样的信息密集型媒体捕获有用的信息需要穷尽的计算资源。这一特性从两个方面给开发MLP类3D架构带来了固有的1）如何通过MLP类操作捕获视频中复杂的时间动态2)如何减少时空建模的昂贵计算？为了解决这些问题，在这项工作中，我们从设计基本的MLP风格的操作来建模时间序列开始，然后研究如何利用这些操作来构建一个高效的MLP风格的体系结构。3063选项。为此，我们提出了MLP-3D网络-一种新型的MLP-类似的3D架构，以模拟视频中的时空依赖性。在MLP-3D网络中，输入视频剪辑被划分为重叠的小块（tubelet）（即，跨时间的关联帧片的序列），并且每个小块通过小块嵌入层被映射到可视令牌。然后，这些令牌被馈送到几个堆叠的MLP- 3D块中，其中每个块通过令牌混合MLP和通道MLP的令牌内信息来抽象令牌间信息，如图1所示。与Transformer [60]中的前馈层共享类似结构的信道MLP独立地应用于每个令牌。标记混合MLP是分别沿高度、宽度和时间维度跨不同标记应用的三个子操作的加权和空间维度（高度和宽度）上的子操作遵循[6]中的循环全连接层（循环FC）的配方。对于时间维度，我们设计了一种新的分组时间混合（GTM）操作，即，在不同时间点跨令牌的基于组的令牌混合操作。通过仅独立地混合每个组内的信息，有效地降低了计算复杂度和参数数量此外，基于不同的分组策略，我们推导出GTM操作的四种变体，并通过贪婪结构搜索将每种变体组合在不同的MLP-3D块中。总结了本文的主要工作如下首先，GTM是一种新颖的MLP式操作，以经济有效的方式对时间动态进行建模。第二，MLP-3D网络是一种新的MLP类3D结构，它在分解的令牌混合MLP中利用GTM操作。在Something-Something和Kinetics数据集上进行的广泛实验表明，MLP-3D网络实现了优于或相当于广泛使用的3D CNN的性能（例如，SlowFast网络[12]）和计算昂贵的视频变换器（例如，时间变换器[3]）。此外，MLP-3D网络在开发用于视频理解的MLP类架构方面显示出巨大的潜力2. 相关工作我们将相关工作分为两类：用于图像识别和视频识别的深度神经网络。第一类回顾了图像分类网络设计的研究，第二类调查了各种视频识别模型。图像识别已经得到了广泛的研究关注，特别是由于CNN在几个基准上取得了显着的性能。大量的努力致力于通过手动调整来优化CNN架构[14，18，19，22，25，51，53，67，72]。后来，为了自动化CNN架构的设计，减少人工干预，研究人员提出了各种方法，各种网络架构搜索（NAS）方法，包括强化学习[35，44，75]、架构进化[36，40]和可区分架构搜索[7，29，37]的建议受注意机制[60]在自然语言处理领域，Transformer在计算机视觉领域取得了一系列突破。纯变换器架构[9，21，38，63]以及卷积和变换器的组合[27，33，52，56，66]成为CNN的强大竞争对手。最近，基于MLP的模型[6，17，54，70]在没有卷积或注意力机制的情况下构建。相反，利用MLP层来聚合补丁上的空间上下文。目前视频识别的事实标准是3D CNN，具有跨空间和时间维度的3D卷积。在早期的作品之一[23]中，设计了直接从基于图像的2D CNN扩展的3D CNN，以通过3D卷积识别视频剪辑中的动作。后来，有几次尝试改进3D CNN。例如，C3D [57]通过堆叠几个3D卷积和3D池，展示了当时用于视频理解的最先进的预训练模型I3D [5]在大规模数据集上预训练Inception风格的网络[53]，在小数据集上实现了极高的微调慢快网络[12]构建了一个双路径架构，由高采样率的慢路径和低采样率的快路径组成。与这些架构设计工作并行，3DCNN的模型复杂度已经通过3D内核分解[46，59，68]和深度3D卷积[11，58]降低。最近，基于变换器的架构成为视频数据上无卷积网络的新趋势[1，3，10，39，41，43，71，73]。我们的工作也属于无卷积视频识别架构的范畴与具有注意力机制的转换器不同，MLP- 3D网络中的令牌交互由全连接层更有效地完成。此外，MLP-3D网络将MLP类网络的研究视野扩展到视频识别领域，独特地研究了MLP类体系结构中时态建模的有效途径。3. 我们的方法3.1. 整体架构图2描绘了所提出的MLP-3D网络的概述。基本架构遵循CNN的哲学[14，51]，其中通道维度增加，而空间分辨率随着层的加深而缩小。类似的设计也用于分层变压器[38，63]和基于MLP的模型[6，70]。小管嵌入。给定一个大小为H×W×T×3，其中H、W和T表示高度，3064× ×××∈OO4S4432324××∈视频小块阶段1MLP-3D阶段2MLP-3D阶段3MLP-3D阶段4MLP-3D平均夹嵌入块x L1区块xL2Block xL3Block xL4池化类数图2.我们提出的MLP-3D网络的概述。Ci和Li分别表示第i级中的输出声道的数量和MLP-3D块的重复数量。输出特征图的大小也为每个块给出。宽度和剪辑长度，我们的模型首先嵌入重叠tubelets与窗口大小7 7 4和步幅4 4 4。通过使用共享的线性嵌入层，每个tubelet被映射到具有更高维度C1因此，整个小块嵌入模块产生具有H×W×T×C1形状的特征。MLP-3D块在视频识别中选择沿时间轴而不是通道轴混合。这种设计与3D卷积分解[46，59，68]和时空分割注意力[1，3]具有相似的精神。具体地，分解到ken混合的输出Y通过线性投影token多级架构。然后，沿着三个维度的顺序MLP图2中所示的3D块被应用于小块令牌。整个MLP-3D网络包括四个阶段，Y=FC（XH +XW +XT ）、（2）并且在每个级内保持特征分辨率。在两个相邻的级之间插入一个级过渡，这增加了通道的数量并降低了空间分辨率。这样，来自最后一个阶段的令牌的数量是HWT。最后，将生成的令牌沿空间和时间维度进行平均，然后是用于类预测的全连接层。3.2. MLP-3D模块所提出的MLP-3D块源自MLP混合器[54]中的基于MLP的块，其通过令牌混合MLP来替换Transformer中的多头自注意模块。详细地，基于MLP的块由两个组件组成：信道MLP 和令牌混合MLP。MLP利用了Transformer [60]中前馈层的类似结构，其中包含两个线性层以及其间的GELU [15]非线性。标记混合MLP混合来自不同空间/时间位置的标记的信息，并表征各种基于MLP的模型之间的主要差异[6，17，54，70]。具体地，给定输入令牌X，基于MLP的块的函数可以被公式化为：Y=令牌混合-MLP（ LN（X））+X，（1）Z=MLP（ LN（Y））+Y，其中LN表示层范数[2]。输出Z用作下一个块的输入，直到最后一个块。分解令牌混合。令牌混合MLP的目标是通过混合不同令牌的信息来捕获空间/时间模式。受视觉变换器[17]的启发，MLP-3D块分解令牌混合MLP并一次沿一个轴编码信息。通过这样做，令牌混合MLP可以捕获沿一个维度的长程依赖性，同时保留沿其他维度的精确位置信息。与[ 17 ]不同，[17 ]通过图像其中XH、XW和XT分别是高度、宽度和时间混合的输出。FC表示全连接层。在这里，我们利用[17]中提出的加权求和来聚合不同混合操作的输出。对于高度/宽度混合操作，我们选择[6]中的循环FC，这已被证明对捕获空间上下文是3.3. 分组时间混合（GTM）为了进一步提高令牌混合MLP的效率，我们提出了一种新的分组时间混合（GTM）操作，以产生方程中的XT（2）在时间维度上对令牌间形式上，我们从分析最简单的时间混合开始，它线性映射不同时间点的所有标记的特征更具体地说，给定kens的重新整形输入为XRHW×TC，全时混频的输出计算为XT=X·W，（3）其中WRTC×TC是投影矩阵。虽然该操作可以捕获沿时间轴的大范围相关性，它要求计算复杂度（HWT2C2）和参数数目（T2C2）随剪辑长度T的增加呈几何级数增长。为了缓解这一限制，我们设计了分组时间混合操作，它将输入令牌分成几个时间组，并将每组中的令牌与共享的投影参数进行映射。因此，计算的复杂性和参数的数量减少，因为组的大小通常比剪辑长度小得多。为了实现这一想法，我们推导出四种不同的GTM操作，如图3所示，它们对应于令牌组的不同构造。我们详细比较了以下操作：(1) 短程GTM 第一种设计将令牌均匀地分成T个组，其中S是组大小（即，的线性306553355∈OOOOS2X1X2y1y2X1X2X1X4y1y4y1y2X3y3X3重新排序X2y2重新排序y3X4y4X4X5y5y4XyXXyy5X6y6X6X6y6y6(a) 短程GTM（b）远程GTMX1x2x3x4x5x6y1年2年3年4y6X1X2令牌x3移位x4x5x6X1x2x3x4x5x6X6x1x2x3x4y1年2年3年x5y 6(c)移位窗口GTM（d）移位令牌GTM图3.四个分组时间混合（GTM）操作的图示。每个矩形表示在时间点i的输入（xi）或输出（yi）令牌。例如，组大小设置为2每组中的令牌数）。对于每一个组，连续的S个符号由一个共享矩阵WSRSC×SC线性映射.换句话说，短程GTM等效于使等式中的矩阵W。（3）稀疏：算法1分组时间混合代码（类似PyTorch）# x：形状为（H，W，T，C）的输入张量# ty：混合类型，S：组大小如果ty==self.linear= nn.Linear（S* C，C）否则：self.linear= nn.Linear（S* C，S* C）defgrouped_time_mixing（x）：如果ty==x= self.linear（x. reform（H，W，-1，S*C））x= x。整形（H，W，T，C）elifty==x= x。reform（H，W，S，-1，C）.transpose（2，3）x= self.linear（x.reform（H，W，-1，S* C））x= x。reform（H，W，-1，S，C）.transpose（2，3）x= x。整形（H，W，T，C）elifty==x= self.linear（x. shape（H，W，-1，S*C））x= shift（x.整形（H，W，T，C），-S//2）elifty==x= [ shift（x，i）foriin range（S）]x= self.linear（torch.cat（x，dim= 3））returnxWS0···0100WS···0mm..通过移动1，2，...， S-1时间步长W=.。.. -是的-是的.、（四）以循环的方式。图3（d）展示了一个示例0 0·· ·WS其中只有对角块中的值是非零的。其结果是，计算量和参数数目减少到（ HWTSC2 ）和（ S2C2 ）， re-quickly.这种操作在理想情况下类似于基于窗口的自注意[21，38]，但针对时间混合进行了改造(2) 远程GTM 第二种设计扩展了对于线性映射，移动一个时间步长请注意，移位令牌GTM的参数数量为（SC2），这比其他GTM操作少。通过权重共享减少参数。根据我们上面的讨论，前三个GTM操作的参数的数量是（S2C2），其随着组大小的增加而快速增长。在此，我们建议进一步减少第一个是间隔T两个之间的时间步长通过共享投影权重的参数数量每个组中的连续令牌。这样的组捕获视频中的长期依赖性，同时忽略相邻帧上的局部模式，这是对短距离GTM的补充。远程GTM可以简单地通过重新排序之前和之后短程GTM，如图3（b）所示。在相同时间间隔的令牌之间。形式上，等式中的矩阵WS（4）带权重分担的可重写为w0w 1· · ·wS−1w−1w0· · ·wS−2..(3) 移动窗口GTM。第三个设计是一个COM-WS=.。.. -是的-是的.、（五）短距离GTM的补充操作，即换档-窗口GTM。仅使用短程GTM的缺点受最近成功的转移窗口自我注意力[38]的启发，我们将短程GTM中的组划分转移了S的偏移量。因此，跨网络中的不同块交替地应用短程GTM和移位窗口GTM提供了跨组交互的有效方式。(4) 移位令牌GTM。与其他GTM不同的是，最后一种移位令牌GTM的设计是通过移位令牌形成群组。具体地，对于组大小S，每个令牌与另外S-1个令牌分组，每个令牌达到3066∈w−S+1w−S+2···w0其中，wtRC×C是时间间隔为t的因此，参数的数量减少到O（（S×2−1）C2）。实施. 建议的GTM操作可以是很容易用Python中的几行代码实现。我们提供了基于PyTorch [42]平台的算法1中的代码示例。我们通过调用默认的reshape、transpose、cat和预定义的shift函数来构造to-kens组。我们通过默认的线性层执行线性映射。3067×××{|}3.4. MLP-3D网络为了验证四种GTM操作的优点，我们首先开发了几种基于10层CycleMLP（CycleMLP-B1）[6]的MLP-3D网络变体，将所有基本块替换为涉及一种特定类型或两种互补类型的GTM操作的MLP-3D块具体地，MLP-3D网络变体具有单一类型的GTM操作，即，MLP-3D-SR、MLP- 3D-LR和MLP-3D-ST分别仅利用短程、长程和移位令牌GTM操作。请6261605958575612 14 16 1820 22 24 26注意，当使用单一类型的GTM时，移位窗口GTM理论上等同于短程GTM对于具有两种混合GTM操作的变体，我们针对不同的块依次使用短程GTM和长程/移位窗口GTM，分别称为MLP-3D-SR-LR/MLP- 3D-SR-SW基本CycleMLP-B1和五个MLP-3D变体之间的性能和计算成本的比较进行了讨论。然后，基于这些比较的观察结果，提出了一个Oracle版本的MLP-3D网络，用于通过贪婪搜索来优化GTM操作的安排。MLP-3D网络变体之间的比较。比较是在与人-物体交互场景相关的Something-Something V2（SS-V2）[13]数据集上进行的，需要对时间演化进行精确建模。输入视频剪辑的尺寸设置为64 128 128，其中包含随机裁剪的来自均匀采样的64帧的128个补丁。对于小于64帧的视频，直到获得足够的帧。对于每个架构，权重都使用ImageNet-1 K预训练的CycleMLP-B1模型进行初始化，并在最终的全连接层之前添加一个具有0.5 dropout率的额外dropout层。在训练阶段，遵循[10，39]，我们利用标签平滑，随机增强[8]，随机时代[74]和丢弃路径[20]来减少过度拟合效应。我们将每个小批量设置为512个片段，这些片段是用多个GPU并行实现的。网络参数采用AdamW优化器进行优化，基本学习率为0.0005，权值衰减为0.05。学习速率具有一个时期的预热，然后在余弦衰减之后的32个时期之后退火到零。图4比较了SS-V2上MLP-3D网络变体的性能和计算。总体而言，所有MLP-3D网络变体都表现出比在每个帧上独立使用2D CycleMLP-B1更高的性能。具体地，在具有单一类型的GTM操作的变体中，具有移位标记GTM的MLP-3D-ST在不同的组大小S上实现了最佳的前1准确度。对于具有两种混合类型GTM操作的变体，MLP-3D-SR-LR和MLP-3D-SR-SW都比单独使用短程GTM（MLP-3D-SR）或远程GTM（MLP-3D-LR）具有更高的精度。再-计算成本（GFlops）图4.不同MLP-3D网络变体在计算成本和SS-V2数据集上的前1精度结果基本表明了不同类型GTM组合的优势。此外，对于每个MLP-3D网络变体，当S从1变化到16时，精度曲线类似于“Λ”形。这意味着更大的组规模并不总是会导致更高的性能，GTM中适当的稀疏性约束可能有利于网络学习。MLP-3D网络架构。基于经验发现，MLP-3D架构可以通过以下方式提升：1)不同块中的不同GTM操作; 2）仔细选择用于GTM操作的组大小; 3）准确度和计算复杂度之间的适当权衡。为了优化这些设计，我们提出了一种有效的贪婪搜索算法来确定MLP-3D网络架构，即，每个块中的GTM操作的类型和相应的组大小。特别地，受权重共享NAS [4，40，44]的高效率的启发，我们将架构搜索分为两个步骤：1）用随机分配的类型和组大小预训练共享权重; 2）逐渐搜索具有关于预训练权重的最佳评估准确度的架构对于第一步，我们在每次迭代时随机分配GTM的类型和组大小，以及一组基于时间间隔的矩阵wt− Smax+1≤t≤Smax−1使用由方程式（5）是共享的，其中Smax是最大可能组大小。对于第二步，使用预先训练的权重来评估每个架构，而无需额外的训练。换句话说，给定一个架构，性能可以通过仅推断具有共享权重的验证集来近似估计。然而，评估所有候选架构仍然是耗时的。为了进一步减少架构搜索的时间成本，我们建议逐步确定每个块的GTM操作。图5给出了贪婪搜索过程的一个示例。在体系结构搜索开始时，所有的操作都是随机分配的。然后，通过选择性能最好的操作来依次决定每个块的操作。我们重复搜索过程三次，以获得更一致的结果。此外，在比较不同架构的性能时，我们进一步考虑了计算复杂度，S=1S=2 S=4S=8S=16循环MLP-B1 MLP-3D-SR-LRMLP-3D-SR MLP-3D-SR-SWMLP-3D-LR MLP-3D MLP-3D-STTop-1准确度（%）3068V·C步骤1步骤2步骤3步骤4............表1.MLP-具有各种复杂度的3D网络网络C1， C2， C3， C4L1， L2， L3，L4MLP-3D-XS二二四二MLP-3D-S64、128、320、512二、三、十、三MLP-3D-M三，四，十八，三图5.确定MLP-3D网络架构的贪婪搜索过程的示例。以达到良好的平衡。具体而言，给定架构θ，计算简化的修正性能由下式给出：V（θ）−αC（θ），（6）其中（）和（）分别表示验证精度和计算复杂度我们将权衡超参数α默认设置为5e−3请注意，图4中非常具体的MLP-3D网络是通过该算法来搜索的。4. 实验我们在三个具有挑战性的动作识别基准上对我们的MLP-3D网络进行了经验评估：Something- SomethingV1V2 [13]和Kinetics-400 [5]。4.1. 数据集Something-Something 是一个大规模的视频数据集，专注于人机交互场景。平均视频长度为4.0秒，所有视频都是从以对象为中心的视图捕获的，背景相当干净。该数据集包含174个细粒度类别的人-物体交互。相似交互之间的区分是非常具有挑战性的，这需要理解视频中的因果关系，例如，“Pushing第一个版本（SS-V1）包含108 K视频，分为86 K，11 K和11 K分别用于训练，验证和测试集。扩展版本（SS-V2）进一步将视频数量增加到220 K，分别划分为170 K，25 K和25 K用于训练，验证和测试集Kinetics-400（K-400）是一个标准的大规模视频识别基准，覆盖400个动作类。它包括246K培训视频，20K验证视频和40K测试视频。数据集中的每个视频都是从原始YouTube视频中修剪出来的10秒短剪辑。K-400特别强调对象和背景的视觉细节，而不是时间演化，通常被视为Something-Something数据集的补充。请注意，测试集的标签不可公开使用，因此SS-V1、SS-V2和Kinetics-400的性能均在验证集上报告。4.2. 实现细节MLP-3D网络。我们建立了一个家庭的MLP-3D网络与各种模型的复杂性，如表1中详细说明。Ci和Li表示输出通道的数量和第i级中MLP-3D块的重复数量，re-random。这些设置被认为是自由参数，使网络结构适合视频识别问题的规模本文利用文献[ 6 ]中 CycleMLP-B1 、 CycleMLP-B2 、 CycleMLP-B3 和CycleMLP-B5的自由参数，分别建立了MLP-3D-XS、MLP-3D-S、MLP-3D-M和MLP-3D-L系列MLP-3D网络。训练阶段。搜索和评估MLP-3D网络变体的训练策略已在第3.4节中描述。在确定架构后，我们使用类似的策略重新训练MLP-3D网络，除了更大的输入分辨率和批量增强[16]，这导致更长的训练时间和更高的性能。此外，考虑到不同的GTM操作可以共享相同的权重，我们提出了一种新的正则化，随机改变GTM的类型和组大小，以提高MLP-3D网络的泛化能力。权重初始化。如第3.4节所述，MLP-3D网络的权重使用ImageNet-1 K预训练的CycleMLP模型初始化。为了保持预训练模型的语义信息，利用[1]中的中心初始化。其思想是将预训练的2D补丁嵌入的权重复制到3Dtubelet嵌入矩阵的中心。类似地，通过CycleMLP中的通道混合操作来初始化在相同时间点处的输入令牌与输出令牌之间的投影矩阵w0，并且将其他矩阵wt设置为零。这样的初始化使得MLP-3D网络在训练进行时像2D网络一样执行。推理阶段。在推理过程中，我们分别从Something-Something/Kinetics-400的每个测试视频中均匀地抽取一个/四个剪辑。我们通过使用[12]中的三次裁剪策略提取每个剪辑的预测，该策略裁剪三个正方形补丁。视频级预测是通过对所有片段的分数求平均来获得的。？随机块随机块随机块移位窗口S=2？随机块随机块移动窗口远程S=2 S=8？随机块移动窗口远程短程S=2 S=8 S=2？MLP-3D-L96，192，384，768三，四，二十四，三3069626160595857565559.5 60.0 61.0 61.5 62.0实际准确度（%）表2.MLP-3D网络中每个设计的性能贡献分别在SS-V2和Kinetics-400验证集上报告了前1个准确度网络输入大小1282 2242双路SS-V2K-400MLP-3D-XSJJJJJJ64.665.665.466.075.076.276.577.2图6. MLP-3D-XS网络变体的真实精度和估计精度的可视化。给出了两种精度的拟合线及其置信区间JMLP-3D-MJJJJ J65.766.967.268.078.078.879.981.0短距离移位令牌短距离长距离移位窗口S=1 S=2 S=2 S=4 S=2Short-range Shift-window Shift-window长距离Shift-tokenS=4 S=4 S=2 S=4 S=2MLP-3D-LJJJJJJ66.066.767.668.578.378.980.481.3(a) SS-V2数据集上的MLP-3D-XS网络（14.89 GFLOP）。短程转移令牌短程S=1 S=2 S=1 S = 2 S=1Shift-token Short-range Long-range Shift-windowLong-range S=2 S = 2 S = 2 S=2(b) Kinetics-400数据集上的MLP-3D-XS网络（14.11 GFLOPS）。图7. MLP-3D-XS 网络分别在（a）SS-V2数据集和（b）Kinetics-400数据集上进行了搜索。具有不同组大小的块具有不同的颜色。4.3. MLP-3D网络本文首先分析了MLP-3D网络的贪婪搜索问题。图6显示了使用第3.4节中的MLP- 3D-XS网络变体的共享权重的实际准确度和估计准确度之间的相关性。真正的准确性是通过单独训练每个架构来实现的。通过直接利用预先训练的共享权重，无需训练即可获得估计精度。如图所示，在这两个精度之间确定了正向误差结果基本上验证了使用估计精度作为架构搜索中的真实精度的有效近似。图7描述了分别在SS-V2和Kinetics-400数据集上搜索的MLP-3D-XS网络。给出了每个块的最佳GTM类型和组大小一个有趣的观察是，与相同的（6）在Kinetics-400数据集上搜索的网络复杂度小于SS-V2数据集。这合理地满足了我们的期望，因为已知SS-V2中的视频在时间动态方面比Kinetics-400数据集中的视频更复杂接下来，我们研究MLP-3D网络中的每个设计如何影响整体性能。在这里，我们重新训练了最受欢迎的MLP-3D网络，即，从MLP-3D-XS到MLP-3D-L，具有不同的输入大小（1282或2242）。在为了探索双路径网络的有效性，我们进一步将MLP-3D网络扩展为双路径网络，增加了一条额外的路径。为了最大化路径之间的互补性，我们通过减去随时间的平均帧来删除表2详细说明了MLP-3D网络中不同设计对SS-V2和Kinetics-400数据集的准确性改进当利用MLP-3D-XS作为骨架时，较大的输入大小（2242）成功地将SS-V2上的top-1准确度从64.6%提高到65.4%，并将Kinetics-400上的top这证明了在视频识别的更大分辨率上训练的有效性。扩展到双路径网络，探索跨路径的互补性，进一步导致SS-V2和Kinetics- 400的性能分别提高了0.6%和0.7%。此外，在不同的MLP-3D网络中，较深的网络比较浅的网络表现出更好的性能。具体而言，通过用MLP-3D-L替换MLP-3D-XS，SS-V2的总体性能从66.0%提高到68.5%，Kinetics-400的总体性能从77.2%提高到81.3%。实验结果表明，越深的网络具有越大的学习能力。4.4. 与最新型号的我们在SS-V2数据集上比较了几种最先进的技术。表 3 总结了性能比较。基线在 ImageNet-1 K （ IN-1K），ImageNet-21 K（IN-21 K），Kinetics-400（K-400）或Kinetics-600（K-600）数据集。“视图”表示在推断期间从完整视频采样的剪辑的数量。总体而言，小型MLP-3D-S网络在ImageNet-1 K上预训练的方法中达到了最高的top-1准确率，为67.2%。更重要的是，MLP-3D-S仅花费108 G FLOP，节省了18%MLP-3D网络置信区间拟合直线组大小=1估计准确度（%）MLP-3D-SJJJJJJ65.566.766.767.277.278.079.280.03070表3.与SS-V2上最先进的方法进行比较方法预训练GFLOPS 查看Params 前5名TSM-RGB [34]622× 31× 110× 32× 31× 110× 310× 31× 142.963.488.5[65]第六十五话6928.064.089.3STM [24]6624.064.289.8[31]第三十一话[26]第二十六话IN-1K15767–24.664.564.789.189.4茶[32]70–65.189.9DG-P3D [47]123–65.590.3TDN [62]132–66.990.9[3]第三章IN-21K17031×121.462.5ViViT-L/16×2[1]903352.165.4八十九点八[12]第十二话MViT-B，64×3[10][39]第三十九话K-4001064553211× 31× 31× 353.336.688.863.1八十七点六67.7九十点九69.6九十二点七MViT-B-24，32×3 [10]K-6002361×353.268.7九十一点五MLP-3D-XSMLP-3D-SMLP-3D-M MLP-3D-LIN-1K601081833361× 31× 31× 31× 355.174.188.3149.466.090.467.2九十一点三68.0九十一点七68.592.0表4.与SS-V1上的最新方法进行比较方法预训练GFLOPS查看Params前5名TSM-RGB [34]622× 310× 32× 31× 110× 310× 31× 142.947.277.1STM [24]6624.050.780.4[31]第三十一话157–51.480.7[26]第二十六话IN-1K6724.652.182.3茶[32]70–52.381.9DG-P3D [47]123–52.881.8TDN [62]132–55.383.3MLP-3D-XSMLP-3D-SMLP-3D-M MLP-3D-LIN-1K601081833361× 31× 31× 31× 355.174.188.3149.454.4 82.555.2 83.256.2 83.556.5 83.5而不是TDN。通过更深的MLP-3D-L网络，top-1准确率进一步提高到68.5%，这使得性能比最佳竞争对手TDN提高了1.6%。请注意，大多数基于transformer的模型都在较大的数据集上进行预训练。尽管如此，MLP-3D-L网络仍然分别比TimeSformer-HR使用更多视频数据预训练的MViT-B和Video Swin-B预期获得更高的表4显示了SS-V1数据集的比较。在这个比较中，我们只转移了在SS-V2上搜索到的架构，但在SS-V1上训练了权重，以验证可转移性。在SS-V1上观察到类似的性能趋势。具体而言，MLP-3D-L达到56.5%的top-1准确度，比TDN方法的性能领先1.2%。结果验证了搜索的MLP-3D网络对具有相似目标类别的数据集的使用。然后，我们转向在大规模Kinetics-400数据集上评估MLP-3D网络。性能比较报告见表5。具体来说，通过ImageNet-1 K预训练，MLP-3D-L网络达到了81.4%的top- 1准确率，比最近的方法Video Swin-B，DG-P3D，TDN和LGD-3D分别提高了0.8%，0.9%，2.0%和2.0%。此外，具有更少FLOPs的MLP-3D-L令人印象深刻地优于sev-D。表5.与K-400上的最新方法进行比较方法预训练GFLOPS 查看Params 前5名（2+1）D [59]7510×110×310×310×310×31× 53× 361.872.090.0IP-CSN-152 [58]10932.877.892.8[61]第六十一话224–79.893.9[12]第十二话没有一23459.979.893.9[11]第十一话14420.380.494.6MViT-B，32×3[10]MViT-B，64×3[10]17045536.636.680.281.294.495.1I3D [5]108–10×34×10×310×34× 34× 34× 325.072.190.3[64]第六十四话35961.877.793.3[31]第三十一话475–78.793.7LGD-3D [48]195–79.494.4TDN [62]IN-1K198–79.494.4DG-P3D [47]218–80.594.6[39]第三十九话8828.278.893.6[39]第三十九话16649.880.694.5[39]第三十九话28288.180.694.6[41]第四十一话42181× 110×31× 34× 34× 34× 310×511.078.693.7[71]第七十一话2096303.480.494.4TimeSformer-L [3]2380121.480.794.7ViViT-L/16×2[1]ViViT-L/16×2320 [1][39]第三十九话IN-21K14463992282310.8310.888.180.681.382.794.794.795.5视频Swin-L（384↑）[39]2107200.084.996.7MLP-3D-XSMLP-3D-SMLP-3D-M MLP-3D-LIN-1K571021703084× 34× 34× 34× 350.168.580.5135.677.2九十三点一80.2九十三点八81.0九十四点九81.4九十五点二在ImageNet-21 K上预先训练的所有视频转换器，例如，ViT-VTN、TokShift、TimeSformer-L和ViViT-L，它们的FLOP开销大约是前者的10倍。5. 结论与讨论我们提出了一个新的家庭的MLP-3D网络的视频识别MLP-类的3D archi- tectures。特别是，我们调查的令牌交互跨时间的MLP类架构，通过设计MLP-3D块与令牌混合MLP分解的高度，宽度和时间维度。对于时间维度，我们设计了新的分组时间混合（GTM）操作的变体，用于令牌之间基于组的交互。GTM的类型和每个块的组大小由一个有效的贪婪结构搜索确定。在三个数据集上进行的实验，即Something-Something V1V2和Kinetics-400验证了MLP-3D网络在相同的预训练方案下比其他视频识别技术实现了竞争性的表现也显示了MLP类架构在视频分析中的巨大潜力。更值得注意的是，网络更容易训练，消耗更少的FLOP。更广泛的影响。我们的MLP-3D显示了一个巨大的潜力的MLP类架构的视频分析，这是很容易开发，计算量少。这可能会增加视频理解模型或其输出被错误使用的风险，例如用于未经授权的监控。致谢。本工作得到了国家重点研发计划项目（项目307

下载后可阅读完整内容，剩余1页未读，立即下载