基于时空表示的循环视觉Transformer框架实现视频动作识别任务

84 浏览量更新于2023-10-25 收藏 14.94MB PDF 举报

视频动作识别

时间特征

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

140630为视频动作识别而循环Transformer0Jiewen Yang 1 Xingbo Dong 1,2* Liujun Liu 1* Chao Zhang 10Jiajun Shen 1 Dahai Yu 101 TCL企业研究（香港）有限公司，2 韩国延世大学，首尔0{jiewen.yang,liujun.liu,chao46.zhang,sjj,dahai.yu}@tcl.com, xingbo.dong@yonsei.ac.kr0图1. 循环Transformer工作流程的概述。输入帧x(t)和隐藏状态h(t-1)共同确定当前隐藏状态h(t)和输出O(t)。隐藏状态包含注意力信息，可以传递到下一帧。0摘要0现有的视频理解方法，如3D卷积神经网络和基于Transformer的方法，通常以片段方式处理视频；因此需要大量的GPU内存，并且通常需要固定长度的视频片段。为了缓解这些问题，我们引入了一种基于时空表示学习的新型循环视觉Transformer（RViT）框架，以实现视频动作识别任务。具体而言，所提出的RViT配备了一个注意力门，用于在当前帧输入和先前隐藏状态之间建立交互，从而通过时间上的隐藏状态聚合全局级别的帧间特征。RViT通过给出当前帧和先前隐藏状态来循环执行以处理视频。由于注意力门和循环执行，RViT可以捕捉到空间和时间特征。此外，由于逐帧处理流程，所提出的RViT可以适当地处理不同长度的视频片段，而无需大量的GPU内存。我们的实验结果表明，RViT在各种数据集上都可以实现最先进的视频识别性能。具体而言，RViT在Kinetics-400上可以达到81.5%的top-1准确率，在Jester上可以达到92.31%的准确率，在Something-Something-V2上可以达到67.9%的准确率，在Charades上可以达到66.1%的mAP准确率。0* 在TCL企业研究（香港）有限公司实习期间完成的工作，贡献相同01. 引言0现有的视频理解方法，如[6, 17, 18,021, 27,57]通常利用3D-CNN网络来实现时空特征提取。随着Visual Transformer[11]在视觉任务中的成功应用，基于Transformer的方法成为视频理解任务的热门话题。TimeSformer [3]、ViViT[1]、VTN [40]、Mformer [41]和MViT[15]是典型代表。尽管基于Transformer的方法在计算机视觉任务上可以取得显著的性能，但这些方法需要大量的计算内存，这阻碍了这些方案的部署。另一方面，一些研究[23,42,59]表明，人类对视频的视觉注意力是由先验知识驱动的。例如，[59]指出，人类通常关注视频中感兴趣的区域，突出的动作在初始视觉中比周围邻居更受关注。在人类的视频理解流程中，通常来自前一帧的信息可以帮助确定后续帧中的注意力，以循环的方式。从人类的注意力角度来看，我们推测视频中包含两类信息：（一）空间（单帧），（二）时间（帧间）。当前帧的空间特征和从先前帧聚合的时间特征在视频理解任务中起着关键作用。同时，相邻帧的时间特征通常具有高度的相似性。140640然而，现有的逐帧方法通常在每个处理批次中提取时间特征，导致时间特征中包含非感兴趣的信息。此外，时间特征通常是从固定长度的片段中提取的，而不是从长度自适应的片段中提取的。在上述讨论的基础上，我们提出了一种新颖的循环处理流程，即循环视觉Transformer（RViT），以实现本工作中的视频动作识别任务。具体而言，所提出的RViT框架基于启用了注意力门的RViT单元，给定当前输入帧x(t)和来自前一帧的隐藏状态h(t-1)，输出O(t)和隐藏状态h(t)。0将从当前RViT单元生成。为了实现自适应长度的时间特征提取，设计了一个注意力门，通过隐藏状态而不是通过批处理从每个帧中提取时间特征来传递时间（帧间）特征。通过隐藏状态聚合的时间特征用于在后续处理流程中关注空间特征。我们的贡献是：（i）提出了一种端到端的循环视觉Transformer，用于处理视频序列进行动作识别。由于帧流处理，所提出的模型占用较少的GPU内存，并同时实现了最先进的性能；（ii）将一种新颖的注意力门纳入RViT单元中，通过隐藏状态保留帧间注意力信息；从而可以建立聚合的时间特征与当前空间特征之间的交互。（iii）我们的大量实验证明，可以实现动作识别任务的最先进性能。我们的方法在Kinetics-400上可以达到81.5%的top-1准确率，在Jester上可以达到92.31%的准确率，在Something-Something-V2上可以达到67.9%的准确率，在Charades上可以达到66.1%的mAP准确率。此外，还可视化地展示了时间注意力。02. 相关工作0基于卷积的方法和自注意力卷积神经网络（CNN）在计算机视觉任务中取得了显著的性能[22, 32, 35,47-49]。对于视频理解任务，CNN方法通常可以分为两类：（i）通过使用两流网络在时间维度上扩展2DCNN模型[6, 18, 19, 46, 51]；（ii）3D卷积[16, 21, 28, 33,43,54]。自注意力和CNN的混合方法在图像和视频任务上取得了巨大的成功。例如，Non-LocalNetwork[54]采用了与transformer[52]中的自注意力类似的注意力方法来实现视觉任务。0Vision TransformerTransformer最初是为自然语言处理任务提出的[9,52]。最近，基于Transformer的网络也被应用于计算机视觉任务。例如，基于Transformer的0在DETR[5]中设计了一个网络，通过组合卷积特征图。Dosovitskiy等人[11]提出了VisualTransformer（ViT），并证明了不带卷积层的transformer框架也可以在图像处理任务上取得良好的性能。基于transformer的模型也被应用于视频任务[1, 3, 15, 40,41]。具体而言，ViViT[1]使用两个transformer编码器分别处理空间和时间信息。TimeSformer[3]是一种无卷积的方法，将仅空间自注意力扩展到联合空间-时间注意力。VTN[40]使用基于时间注意力的编码器的2D空间特征提取模型，构建了一个高效的视频理解架构。MViT[15]提出了具有特定空间-时间分辨率的多头池化注意力，并取得了令人鼓舞的性能。大多数现有的基于transformer的方法都是以并行处理的方式设计的，以一次处理一批帧的视频任务。这种方法通常需要大量的GPU内存，并且在批处理中提取时间特征，因此时间特征中包含的信息有限。为了解决上述问题，递归方法可能是一个不错的选择。递归方法已经成功地应用于视频任务，例如ConvLSTM[58]和ConvGRU[2]。此外，一些研究工作[8, 29,34]表明，transformer机制与RNN相似。transformer块之间的参数共享也可以带来更好的性能[8,34]。另一方面，为视频任务设计的自注意力表明，基于transformer的方法可以建立空间和时间域之间的交互[1, 3, 15,40]。根据以上文献综述，我们注意到目前没有任何方法将递归机制引入transformer以实现视频动作识别任务。递归机制的使用可能有助于性能提升并减轻昂贵的GPU内存成本。我们提出了RViT框架，通过重复标准的ViT设计来处理变长视频剪辑，以解决上述问题。03.基于循环的Transformer0以前的研究[4, 36,59]表明，人类视觉系统（HVS）具有将注意力集中在视觉场景中最具信息的区域的能力。具有显著空间和时间信息的视频帧将吸引更多的注意力。受到这些研究的启发，我们提出了一种基于注意力门的RViT框架。注意力门被设计用于建立空间和时间特征之间的相互作用，并通过隐藏状态传递时间信息。在下一小节中，我们首先讨论(3)(t)(t)(t) T(t)(t)140650(a) RViT单元0(b) 注意力门0(c) RViT框架0图2.RViT。图（2a）显示了我们框架中的一个循环单元。图（2b）说明了注意力门如何处理当前输入x(t)和隐藏状态h(t−1)。图（2c）说明了RViT框架的概述，并以两层RViT作为示例，其中空间和时间信息在垂直和水平方向上聚合。0RViT的预处理阶段中每个帧的补丁嵌入。然后引入了特别设计的注意力门。接下来讨论了RViT单元的处理流程，然后是令牌设计。最后将介绍整个框架。03.1. 帧的补丁嵌入0在RViT的预处理阶段，当前帧的输入图像X(t)∈RH×W×C将被分解为P×P个不重叠的补丁，并被展平为向量x(t)p∈RP2×D和D=H0P∙C。随后，在修补向量x(t)p上应用嵌入层，并在其后附加位置编码向量以生成RViT单元的输入向量x(t)∈RP2×D：0x(t) = ℓ(x(t)p) + Posp(1)0其中ℓ是一个嵌入函数（我们的工作中是一个卷积层），Posp∈RP2×D是一个可学习的位置编码向量，用于对帧中每个补丁进行空间位置编码，每个帧共享相同的位置编码参数。注意，在输入到RViT单元之前，将在x(t)之前添加一个令牌，如第3.4节所讨论的。03.2. 注意力门0给定当前帧x(t)和来自前一帧的隐藏状态h(t−1)∈RP2×D作为输入，在-0注意力门被设计用于建立它们之间的相互作用，并生成关注向量a(t)∈RP2×D，如下所示：0a(t) = (σ(Q(t)) + 1)(σ(K(t))T + 1)V(t)(2)0其中σ(∙)表示激活函数elu(∙)，Q(t)，K(t)，V(t)是定义为：0Q(t) = x(t)WQx + h(t−1)WQh K(t) =x(t)WKx + h(t−1)WKh V(t) = x(t)WVx +h(t−1)WVh0本工作还采用了多头注意力[52]。我们通过将q个注意力头连接在一起进一步扩展了公式2：0A(t) = Concat(a(t)1, ∙ ∙ ∙ , a(t)q)Wproj(4)0q。采用线性层Wproj∈RD×D来投影关注向量。注意，我们在这项工作中使用线性注意力而不是SoftMax注意力，以避免梯度消失。注意力门的示意图如图2b所示。03.3. RViT单元0图2a显示了单个RViT单元的概述图。RViT单元由三个步骤组成。首先，x(t)̸140660图3.分类令牌的设计。该图显示了空间（垂直）和时间（水平）方向上[class]令牌传输的完整示意图。每一层的输出Tt令牌和上一时刻的Ts令牌将被连接起来进行分类目的。0然后，h(t-1)通过层归一化层传递并传递给注意力门。接下来，注意力门有选择地保留先前的注意力并附加当前帧的新信息。最后，当前帧的隐藏状态h(t) ∈ R P 2 ×D可以以残差方式生成：0h(t) = h(t-1) + A(t), (5)0当前单元的输出O(t) ∈ R P 2 ×D由具有残差连接的前馈网络（FFN）产生，定义为：0O(t) = f(o(t)) + o(t), (6)0其中o(t)是中间输出，定义为o(t) = x(t) +A(t)，其中f(∙)表示FFN。03.4. [class]令牌的设计0与[11]类似，我们还加入了一个额外的可学习令牌，用于表示分类目的。此外，可学习令牌还用于在空间和时间特征域之间建立交互，因为它被添加到RViT单元的输入之前。如图3所示，我们使用Ts ∈ R D和Tt ∈ R D0为了表示空间和时间方向上的可学习令牌，分别使用Ts和Tt。如图3所示，每个输入帧x(t)前面添加了Ts个令牌，每层的初始隐藏状态前面添加了Tt个令牌，然后将聚合的Tt令牌和最后一帧输出的Ts连接在一起，然后通过线性层Wclass对连接的令牌进行分类操作（见图3）：0result = Wclass(Concat(Tt(t)0, ..., Tt(t)n, Ts(t)n)). (7)03.5. RViT框架0基于上述RViT单元和注意力门，可以将一种新颖的递归视觉变换器表示为算法1。0算法1 RViT：递归视觉变换器0输入0X(t)：当前输入h(t-1)l：来自第l层前一个单元的隐藏状态h(0)l：第l层的初始隐藏状态 Ts,Tt：用于空间和时间的可学习令牌 L,T：RViT的总层数和输入帧数 ℓ,pos：补丁到嵌入，位置编码 α：注意力门 ln,f：层归一化，多层感知机0输出：0h(t)l：第t个时刻在第l层的状态O(t)l：第t个时刻在第l层的输出01: 对于 t = 1 到 T 进行循环 2: [x(t)1 ∙ ∙ ∙x(t)p] ← X(t)03: x(t) ← Concat(Ts, [ℓx(t)1 ∙ ∙ ∙ ℓx(t)p])05: h(t-1)l ← Concat(Tt, h(0)l) if t = 107: A(t) ← α × ln(x(t) + pos), ln(h(t-1)l + pos)08: h(t)l ← A(t) + h(t-1)l09: O(t)l ← f(ln(A(t) + x(t))) + (A(t) + x(t))010: 结束循环011: 结束循环0请注意，与其他方法相比，我们有一些独特的区别：(i)现有方法通常处理一批帧。例如，3D-ResNet和TimeSformer需要相对较长的视频序列140670推理和训练。虽然我们的方法使用递归单元逐帧处理视频；(ii)我们将注意力门与隐藏状态结合到RViT中，以便在不考虑视频长度的情况下循环聚合时间注意力；(iii)由于帧流处理，我们的方法可以在固定长度和可变长度的视频剪辑上工作，而不需要大量的GPU内存。04. 实验和结果04.1. 实现细节0数据集为了评估所提出的方法，采用了三个用于人体动作识别任务的公共基准数据集，包括Kinetics-400（K400）[6,30]（400个人体动作类别中的�240K训练视频和�20K验证视频），Jester[39]（27个人类手势的�120K训练视频），Something-SomethingV2（SSv2）[20]（174个类别中的�168.9K训练视频和24.7K验证视频）和Charades[45]（157个类别中的7985个训练视频和1863个测试视频）。0训练对于Kinetics-400，我们首先将每个视频调整为256×256，然后从完整长度的视频中采样一个剪辑。最后，随机裁剪一个224×224的剪辑，并随机水平翻转。由于我们的架构基于视觉变换器，我们使用ImageNet-21K预训练的ViT模型对Kinetics-400进行实验。SSv2数据集遵循与上述相同的预处理流程，只是使用了在Kinetics-400上预训练的RViT模型。对于Jester数据集，视频的长度可能不足以采样到32帧。因此，我们通过随机重复帧来填充短视频。我们将所有帧调整为（112×112），不进行其他转换，并从头开始在Jester数据集上训练模型。训练中采用标签平滑和交叉熵损失。在每个验证数据集上采用Top-1和Top-5准确率（％）进行评估。后续实验还包括单视图推理的总模型参数、计算成本（Flops）和内存消耗。值得注意的是，当验证其他方法时，我们使用官方代码[1, 7, 13, 14, 16, 38, 41,50]（如果有的话）。设计了具有不同设置的模型来验证我们的框架在不同情况下的性能。不同数据集的每个配置的详细信息列在表1中。0推理（i）对于Kinetics-400和Something-somethingV2，按照[15]的流程，我们从单个视频中均匀采样T个随机帧。在空间上，将较短的空间边缘缩放为256像素，并采取3个大小为224×224的裁剪来覆盖较长的空间轴。在时间上，我们均匀地将长视频采样为N个剪辑，并在评估时从最后1/3帧中平均得分。每个测试样本的得分使用这3×N个预测的平均得分，并取最高得分作为最终预测。在我们的工作中，我们将每个预测视为单个“视图”。（ii）对于Jester数据集，我们填充了短视频，并随机采样了与相同长度（T）的长视频。在空间上，我们将每个帧调整为112×112像素，不进行其他转换。将从最后10帧中评估的最高预测分数作为最终预测。请注意，表2中报告的RViT-XL（64×3×3）的推理时间使用了3个时序剪辑和3个空间裁剪（总共9个视图）。0模型帧大小（H×W）0补丁大小（H×W）深度隐藏头参数（M）0RViT-S ◦ 112×112 8×8 1 768 8 0.60 RViT ◦ 112×112 8×8 2 768 81.15 RViT-L ◦ 112×112 8×8 4 768 8 2.270RViT 224×224 16×16 4 3072 12 36.8 RViT-L 224×224 16×16 83072 12 72.0 RViT-XL 224×224 16×16 12 3072 12 107.70表1.模型变体。对于Jaster数据集，由于输入帧大小为112×112，使用了三种8×8补丁大小的模型（用（◦）标记）。对于K400和SSv2数据集，帧大小扩展为224×224。0推理（i）对于Kinetics-400和Something-somethingV2，按照[15]的流程，我们从单个视频中均匀采样T个随机帧。在空间上，将较短的空间边缘缩放为256像素，并采取3个大小为224×224的裁剪来覆盖较长的空间轴。在时间上，我们均匀地将长视频采样为N个剪辑，并在评估时从最后1/3帧中平均得分。每个测试样本的得分使用这3×N个预测的平均得分，并取最高得分作为最终预测。在我们的工作中，我们将每个预测视为单个“视图”。（ii）对于Jester数据集，我们填充了短视频，并随机采样了与相同长度（T）的长视频。在空间上，我们将每个帧调整为112×112像素，不进行其他转换。将从最后10帧中评估的最高预测分数作为最终预测。请注意，表2中报告的RViT-XL（64×3×3）的推理时间使用了3个时序剪辑和3个空间裁剪（总共9个视图）。04.2. 性能评估0Kinetics-400Kinetics-400的性能结果如表2所示。与基于CNN和基于Transformer的方法相比，我们的方法可以达到最先进的性能。具体来说：0• 与基于CNN的方法相比，我们的最佳模型（RViT-XL,64×3×3）表现更好（提高1.7%�9.5%），RViT-XL(32×3×1)模型的Top-1准确率达到80.3%，而Flops比SlowFast+NL少3.49倍。与此同时，我们的方法在Top-1上比X3D-XL提高了2.1%，但Flops只增加了1.38倍。与基于CNN的方法相比，我们的最佳模型在单视角推理中只使用了2.33GB的内存（减少了2倍�10倍）。0• 与基于VisionTransformer的方法相比，我们的最佳模型在Top-1准确率上达到了最先进的水平（81.5%），超过了VIVIT（81.3%）和MViT-B（81.3%）。与ViViT相比，我们的模型在参数方面轻了3倍，Top-1准确率提高了0.2%。与MViT-B相比，我们的模型在Top-1准确率上提高了0.2%，但参数和Flops更重。在内存消耗方面，我们的模型占用的内存明显更少。即使是我们最大的模型在单视角推理中也只使用了2.33GB（减少了3倍�10倍）。由于推理是从空间和时间两个方面进行采样，我们的方法需要大量计算（11.96Tflops），这比ViViT和MViT-B分别多了2.49倍和2.91倍。Top-1(%)Top-5(%)Flops(T)R(2+1)D∗ [51]-72.090.063.617.511.8I3D∗ [6]IN-1K72.190.325.00.117.44TSM [38]IN-1K74.1N/A24.30.655.98S3D-G∗ [38]-74.793.4N/AN/A6.75NL I3D-101∗ [6]IN-1K77.793.325.00.367.73ip-CSN-152∗ [50]-77.892.832.83.278.82X3D-XL∗ [17]-79.193.911.01.45>24SlowFast+NL∗ [18]-79.893.959.97.024.25TimeSformer∗ [3]IN-21K78.093.7121.40.596.87VTN∗ [40]IN-21K78.693.7114.04.22N/AMformer-B∗ [41]IN-21K79.794.2114.011.07.3MViT-B∗, 32×3 [15]-80.294.436.60.8510.7En-VidTr-L∗ [60]-80.594.6N/AN/AN/ATimeSformer-L∗ [3]IN-21K80.794.7121.47.14>24ViViT∗ [1]IN-21K81.394.7310.84.79>24MViT-B∗, 64×3 [15]-81.395.136.64.10>24RViT, 32×3×1IN-21K78.193.536.80.691.94RViT-L, 32×3×1IN-21K78.993.672.01.342.12RViT-XL, 32×3×1IN-21K80.394.4107.72.012.33RViT-XL, 64×3×3IN-21K81.595.0107.711.92.33Top-1(%)Top-5(%)Flops(T)SlowFast R50∗ [18]K40061.987.034.10.193.35SlowFast R101∗ [18]K40063.187.653.30.324.20TSM [38]K40063.388.242.90.195.98MSNet∗ [33]IN-21K64.789.454.60.076.54TEA∗ [37]IN-21K65.189.954.62.10N/AblVNet∗ [16]-65.190.354.60.125.92TimeSformer-L∗ [3]IN-21K62.4N/A121.45.1>24VidTr-L∗ [60]-63.0N/AN/A10.5N/AViViT-L∗ [1]-65.489.8310.8N/A>24Mformer-B∗ [41]IN-21K66.590.1114.01.107.3MViT-B∗, 32×3 [15]K40067.190.836.60.5110.7MViT-B∗, 64×3 [15]K40067.790.936.61.36>24140680方法预训练0参数(M)0内存(G)0表2.K400上的性能比较。在这个表格中，我们将这些方法分为基于CNN和基于ViT的方法。我们报告了总Flops的推理成本。我们评估了单个“视图”中的内存消耗（以GB为单位）。需要一次处理所有帧的模型用(�)标记。0Something-something V2表3列出了在SSv2数据集上CNN-based方法、Vision-Transformer-based方法和我们的模型的性能。我们提出的RViT模型可以达到65.3%的Top-1准确率，优于所有CNN-based方法，并且计算成本更低（比blVNet低0.93倍，比TEA低0.17倍）。与MViT相比，我们的最佳模型在Top-1和Top-5准确率上分别提高了0.2%和0.3%，但参数重量增加了3倍，Flops增加了9倍。0方法预训练0参数(M)0内存(G)0MViT-B-24 � , 32×3 [ 15 ] K600 68.7 90.9 36.6 1.36 > 240RViT, 32×3×1 K400 65.3 89.4 36.8 0.69 1.94 RViT-L, 32×3×1 K40066.1 90.2 72.0 1.34 2.12 RViT-XL, 64×3×1 K400 67.9 91.2 107.73.99 2.330表3.Something-Something-V2上的性能比较。我们在一个“视图”中评估了占用的千兆字节内存。由于Charades数据集中的视频平均长度为30秒，我们采用Charades进行长序列视频动作识别。0序列视频动作识别评估。如表4所示，RViT在Charades上的准确率达到了66.1%，明显优于MoViNet（63.2%）。Charades上的结果证明了RViT也能够进行长序列视频动作理解。这归因于视频中相邻动作之间的明确阶段边界，例如坐下和喝杯子之间的边界。由于相邻动作之间的依赖性较小，忘记坐下动作不会影响对喝杯子动作的识别。这也证明了RViT中聚合的时间特征优于基于全局注意力的时间特征的使用。0方法预训练 mAP( % ) 参数(M) Flops(T)0NonLocal [ 54 ] IN-1K+K400 37.5 54.3 16.3 STRG+NL [ 55 ]IN-1K+K400 39.7 58.3 18.90Timeception [ 26 ] K400 41.1 N/A N/A LFB+NL [ 56 ] K400 42.5122 15.9 SlowFast R101+NL [ 18 ] K400 42.5 59.9 7.02 X3D-XL [ 17] K400 43.4 11.0 1.45 MViT-B, 64 × 3 [ 15 ] K400 46.3 36.4 13.7AssembleNet-101 [ 44 ] K400 58.6 53.3 1.200X3D-XL [ 17 ] K600 47.1 11.0 1.45 MViT-B-24, 32 × 3 [ 15 ] K60047.7 53.0 7.08 MoViNet-A6 [ 31 ] K600 63.2 31.4 0.310RViT-L,N × 3 K400 64.3 72.0 N × 0 . 042 RViT-XL,N × 3 K400 66.1107.7 N × 0 . 0630表4.Charades上的性能比较。N表示视频片段的长度。Charades上的N的均值约为30秒。0Jester表5显示了在Jester数据集上与基准方法的性能比较。结果表明，我们的最佳方法在Top-1准确率方面可以达到92.31%，同时参数（2.27M）和计算消耗（0.44Gflops）较少，而TimeSformer和最佳CNN模型的准确率分别为89.94%（下降2.37%）和90.75%（下降1.56%），参数分别为46.6 M和4.8 M，计算消耗分别为1.568G和1.346G。需要注意的是，所有模型都是从头开始训练的。0方法 ( 32 × 112 × 112 )0Top-1( % )0Top-5( % )0参数(M)0Flops (G)0内存(G)0ConvLSTM [ 58 ] 82.76 94.23 7.6 59.2 2.37 TSN [ 53 ] 83.9099.60 10.7 16 N/A MobileNet-Small † [ 24 ] 84.69 98.70 2.300.42 1.90 ResNet3D-10 � [ 21 ] 88.81 99.01 14.4 18.2 1.96R(2+1)D-RGB � [ 51 ] 89.08 98.76 63.6 16.9 1.93MobileNet-Large † [ 24 ] 89.40 99.11 15.8 1.98 1.92TimeSformer � [ 3 ] 89.94 99.52 4.8 43.1 13.1 ResNet3D-18 � [21 ] 89.96 99.76 33.3 34.6 2.08 ResNet3D-50 � [ 21 ] 90.7599.52 46.6 50.2 2.59 SE-ResNet3D � [ 21 , 25 ] 90.64 99.84 48.752.3 2.680RViT-S ◦ ,32×3×1 89.47 98.73 0.60 3.84 1.70 RViT ◦ ,32×3×191.26 99.17 1.15 7.04 1.74 RViT-L ◦ ,32×3×1 92.31 99.87 2.2714.1 1.760表5.Jester上的性能比较。我们在一个“视图”中评估了占用的千兆字节内存。 (†) 表示MobileNet与LSTM单元配套使用。3.4, by default, Tt and Ts are designed in the spatial andtemporal direction, respectively. They serve as the repre-sentation for classification purposes and establish an inter-action between spatial and temporal feature domains. In theablation study for the classification token, we adopt differ-ent designs of the classification token to explore the impactof different token designs in terms of accuracy, convergencespeed and stability.Specifically, three different token designs are explored:(i) the spatial-only token, which only uses Ts from the out-put of the last layer in the final moment as the basis of clas-sification; (ii) the temporal-only token, which only uses theTt token; (iii) Both Ts and Tt are used (default).According to table 6, spatial-only token leads to the low-est accuracy, while the combination of spatial Ts and tem-poral Tt tokens achieve the highest accuracy.However,only using the Ts token from the temporal layer leads toaround 4% lower performance than the combination one.140690分类令牌类型准确率(%)0仅时域 88.16 仅空间域 79.94空间和时域都有 92.310表6. JesterVal中不同方法的准确率比较。在这个实验中，训练使用标准的RViT模型和不同的度量。04.3. 消融研究0我们在本节中使用Jeste数据集进行了广泛的消融研究。消融研究的目的是证明以下假设：( i )RViT中设计的分类令牌可以表示时空信息。我们比较了不同的指标，并通过实验选择了最佳设计，以研究Ts令牌对结果的影响。 ( ii )引入线性注意力可以防止梯度消失/爆炸*在训练过程中，并提高收敛的稳定性。 ( iii )可视化每个视频帧上的注意力图，并展示随时间动态变化的注意力。0梯度消失/爆炸：在本文中，我们提出将标准ViT改造为具有类似原始循环神经网络[12]的机制的RViT。由于RNN的设计可能会产生梯度消失，因此已经探索了几种方法来避免RViT上的梯度消失。0•线性注意力：[29]使用基于核的自注意力和矩阵乘法运算来计算0* 为简单起见，我们只讨论梯度消失。0剩余连接0Softmax注意力0线性注意力准确率(%)时间(s)/Epoch0- � - N/A 1386 - - � 88.7 1187 � � - 87.9 1424 � - � 91.311910表7.关于剩余连接和softmax/线性注意力的消融研究。该表显示了在Jester-V1数据集上设计的具有不同组件的RViT◦模型的评估结果。时间(s)/Epoch表示单个epoch的总训练时间。我们进行了10个epoch的训练，并呈现了平均时间。0(a) 损失0(b) 准确率0图4.变体设置的损失和准确率曲线。该图展示了不同组件对训练速度和准确率的影响。0自注意力权重。它揭示了变压器中也存在梯度消失。在我们的情况下，相邻帧中动作对象的位置可能只会稍微改变。因此，梯度可能在一个固定的区域位置聚集，并导致梯度消失/爆炸。此外，RNN中softmax的特性也会导致局部梯度消失和高计算复杂性。为了避免梯度消失，我们使用线性注意力替代softmax注意力作为其中一种补救措施。0• 隐藏状态传输的剩余连接：受到相关研究的启发[10,22]，我们在每个RViT单元的隐藏状态之间添加了一个剩余连接。如图2a所示，当前注意力门的当前隐藏状态h(t)将与h(t-1)相加，形成最终的隐藏状态h(t)。0表7显示了上述不同设置的模型。根据结果的建议，剩余连接可以防止Softmax注意力和线性注意力上的梯度消失。引入线性注意力不仅可以避免梯度消失，还可以减少计算量并显著提高准确率（91.3%）。根据图4a，仅使用SoftMax设置无法实现收敛训练，而引入剩余连接和SoftMax注意力可以在RViT中良好运行。图4b说明了140700图5. 注意力的动态变化. 该图包含两个视频片段示例，并直观地显示了我们框架中注意力传输的过程. 每个视频包含30个帧.帧从左到右，从上到下显示.0在不同设置下的准确性表现.结果表明，具有线性注意力的残差连接可以实现最佳性能.0注意力的动态变化.我们还探索了验证我们的框架在建模动态视频的时空特征方面的有效性.在推理阶段，我们使用Transformer的注意力可视化来验证帧之间的注意力图之间的关系.图5和6显示了在前几个帧中具有轻微运动的注意力位置相对分散，这是由于分类置信度较低.随着手势在后续帧中出现，注意力逐渐集中在手的运动上，受到前几帧的加重注意力信息的驱动.05. 结论0在这项工作中，考虑到现有方法通常以片段方式处理视频，并且通常需要固定长度的视频片段，我们提出了RViT用于视频理解任务.具体而言，我们将注意力门集成到RViT单元中，通过隐藏状态传递空间信息，而不是从每个帧中提取.视频序列通过以循环方式执行RViT单元进行处理.提出的RViT在理论上可以适用于固定长度和可变长度的视频片段，而不需要大量的GPU内存.我们还在各种公共基准数据集上评估了我们的方法.结果表明，在视频动作识别任务上可以以较少的GPU内存实现最先进的性能.尽管需要较少的GPU内存，但为了实现可观的性能仍然需要大量计算.0对于我们的方法，由于RViT使用ViT结构作为基础.另一方面，提出的RViT可能在长视频片段上经历信息丢失.采用一些经典的RNN设计，如LSTM和GRU，来改进RViT将成为我们未来的方向.还将基于提出的方法探索视频预测和视频生成任务.0图6. 注意力可视化.该图显示了我们网络中用于移动物体的动态注意力传输.我们可视化了每个帧的注意力图，以解释Transformer的工作原理.140710参考文献0[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun,Mario Luˇci´c, and Cordelia Schmid. Vivit:一种视频视觉Transformer.在IEEE/CVF国际计算机视觉会议上的论文集，2021年. 1 , 2 , 5 , 60[2] Nicolas Ballas, Li Yao, Chris Pal, and Aaron Courville.深入研究卷积网络用于学习视频表示.在第4届国际学习表示会议(ICLR

下载后可阅读完整内容，剩余1页未读，立即下载