对象区域视频变换器：将对象纳入视频变换器以改进性能的模型

53 浏览量更新于2023-10-25 收藏 13.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31480对象区域视频变换器0Roei Herzig 1 Elad Ben-Avraham 1 Karttikeya Mangalam 2 Amir Bar 1 Gal Chechik 30Anna Rohrbach 2 Trevor Darrell 2 Amir Globerson 101以色列特拉维夫大学，2加州大学伯克利分校，3巴尔干大学，NVIDIA研究0� � − � � + �0图1。我们的ORViT模型将对象信息纳入视频变换器层。图中显示了标准（均匀间隔）的变换器补丁令牌（蓝色）和与之对应的对象区域（橙色）的对象区域。在ORViT中，任何时间补丁令牌（例如，时间T处的黑色补丁）都会关注所有补丁令牌（蓝色）和区域令牌（橙色）。这使得新的补丁表示可以受到对象的影响。我们的方法在多个视频理解任务和数据集上展示了强大的性能改进，证明了将对象表示纳入变压器架构的模型的价值。0摘要0最近，视频变换器在视频理解方面取得了巨大的成功，超过了CNN的性能；然而，现有的视频变换器模型并没有明确地建模对象，尽管对象对于识别动作可能是必不可少的。在这项工作中，我们提出了一种以对象为中心的方法，即对象区域视频变换器（ORViT），它通过直接将对象表示纳入变换器层来扩展视频变换器层。关键思想是从早期层开始融合以对象为中心的表示，并将其传播到变换器层，从而影响整个网络的时空表示。我们的ORViT块由两个对象级流组成：外观和动态。在外观流中，“对象区域注意”模块对补丁和对象区域进行自注意。通过这种方式，视觉对象区域与均匀补丁令牌进行交互，并用上下文化的对象信息丰富它们。我们还通过单独的“对象动态模块”对对象动态进行建模，并展示了如何集成这两个流。我们在四个任务和五个数据集上评估了我们的模型：SomethingElse上的组合和少样本动作识别，AVA上的时空动作检测，以及Something-SomethingV2，Diving48和0Epic-Kitchen100。我们在考虑的所有任务和数据集上都展示了强大的性能改进，证明了将对象表示纳入变压器架构的模型的价值。有关代码和预训练模型，请访问项目页面https:// roeiherz.github.io/ORViT/。01. 引言0考虑图1中“拿起咖啡杯”的简单动作。直观上，人类识别这个动作时会识别出手、咖啡杯和杯垫，并感知杯子的向上运动。这突出了识别动作所需的三个重要线索：物体在哪里？它们如何互动？它们如何移动？上述感知过程可以轻松推广到不同组合的动作。例如，“拿起刀子”的过程与“拿起咖啡杯”的过程共享一些组件，即物体和手的运动方式。更广泛地说，使用物体来表示图像语义有助于组合理解，因为当一个物体被另一个物体替换时，许多感知组件保持相似。因此，捕捉这种组合性方面的模型可能需要更少的训练示例。直观上，机器视觉模型应该受益于这种以对象为中心的表示。31490这样的以对象为中心的表示也应该有助于这种对象聚焦的表示，并且事实上，这在过去[29, 69]以及最近的[3, 63,83]中已经得到了探索，他们利用边界框来进行各种视频理解任务。然而，如何处理对象信息的最佳方式仍然是一个核心问题。大多数以对象为中心的视频理解方法采用后处理方法。也就是说，它们使用骨干网络计算对象描述符，然后通过消息传递或图网络基于其他对象重新估计这些描述符，而不将对象信息传播到骨干网络中。与这些方法不同，我们认为对象应该从网络的早期层（即接近输入的层）开始影响场景的时空表示。我们认为，视频变换器中的自注意是实现这一结果的自然架构，因为它使注意力能够同时纳入对象和显著的图像区域。最近，视频变换器被引入为强大的视频理解模型[2, 7, 30, 65]，其动机是变换器在语言[17]和视觉[10,19]中的成功。在这些模型中，每个视频帧被划分为补丁，并且自注意架构为补丁获得了上下文化的表示。然而，这种方法没有明确的对象表示。我们的关键观察是自注意可以同时应用于对象表示和时空表示，从而通过对象增强时空表示的一种简洁而直接的机制。受到上述观察的启发，我们在本文中的主要目标是将以对象为中心的表示明确融入视频变换器架构的时空表示[2]中，并且从较早的层开始做到这一点。我们提出了一种通用的方法，通过将自注意块[19]调整为纳入对象信息来实现这一目标。构建这样的架构的挑战在于它应该具有建模对象的外观随着它们的移动而变化、对象之间的相互作用以及对象的动态（与其视觉外观无关）的组件。另一个期望是不应丢弃对象之外的视频内容，因为它包含重要的上下文信息。接下来，我们将展示自注意架构可以扩展以解决这些方面。我们的关键思想是可以以类似于常规补丁的方式将对象区域引入到变换器中，并且动态也可以以自然的方式集成到这个框架中。我们将我们的模型称为“对象区域视频变换器”（ORViT）。我们引入了一个新的ORViT块，它以边界框和补丁令牌（也称为时空表示）作为输入，并根据对象信息输出经过改进的补丁令牌。在该块内，信息通过两个独立的对象级流进行处理：外观和动态。在外观流中，“对象区域注意”模块对补丁和对象区域进行自注意。通过这种方式，视觉对象区域与均匀补丁令牌进行交互，并用上下文化的对象信息丰富它们。我们还通过单独的“对象动态模块”对对象动态进行建模，并展示了如何集成这两个流。我们在四个任务和五个数据集上评估了我们的模型：SomethingElse上的组合和少样本动作识别，AVA上的时空动作检测，以及Something-Something V2，Diving48和0“对象区域注意”流对外观进行建模，而“对象动力学模块”流对轨迹进行建模。1外观流首先根据对象坐标和补丁令牌提取每个对象的描述符。接下来，我们将对象描述符附加到补丁令牌上，并对所有这些令牌进行自注意力操作，从而将对象信息合并到补丁令牌中（见图1）。轨迹流仅使用对象坐标来建模运动的几何形状，并对其进行自注意力操作。最后，我们将两个流重新整合成一组经过改进的补丁令牌，其维度与我们的ORViT块的输入相同。这意味着ORViT块可以重复调用。有关可视化，请参见图2和图4。我们在几个具有挑战性的视频理解任务上评估ORViT：在SomethingElse[63]上进行组合和少样本动作识别，其中边界框作为输入的一部分给出；在AVA[28]上进行时空动作检测，其中边界框是通过之前的方法提供的现成检测器获得的；以及在Something-SomethingV2 [26]、Diving48 [54]和Epic-Kitchen100[16]上进行标准动作识别任务，我们使用来自现成检测器的类别不可知边界框。通过广泛的实证研究，我们展示了将ORViT块集成到视频变压器架构中可以在所有任务上获得改进的结果。这些结果验证了我们的假设，即从早期层开始并将对象表示引入到整个网络的时空表示中，可以获得更好的性能。02. 相关工作0以对象为中心的模型。最近，以对象为中心的模型已经成功应用于许多计算机视觉应用中：视觉关系推理[5, 6, 35, 40,49, 66, 89, 95]，表示学习[91]，视频关系检测[55,76]，视觉和语言[13, 52, 53, 77]，人-对象交互[23, 45,87]，甚至图像生成[33,42]。对象为中心的模型在这些领域的进展和成功启发了各种基于视频的任务，例如动作定位[64]，视频合成[4]和动作识别[99]。后者是最近的各种工作的重点，这些工作为卷积模型设计了不同的对象交互方法。一系列的工作[25, 70,75]专注于捕捉空间对象的交互，而忽略了时间上的交互。STRG [83]和ORN[5]使用两个连续帧之间的时空交互，而STAG[34]考虑了长时间范围的时间交互。最后，Unified[3]试图概括所有这些模型并提出长时间01 我们的重点不同于视觉中的两流模型的论文，这些模型不是以对象为中心（见第2节）。31500时空对象交互。尽管所有这些工作都仅关注视觉外观信息的交互，但最近的STIN[63]引入了一种基于对象轨迹的以对象为中心的模型，通过对边界框移动进行建模。我们的ORViT方法直接将对象外观、对象轨迹和整个视频结合起来，通过将所有计算映射到时空补丁令牌中。正如我们在这里展示的那样，在变压器框架中这样做是特别自然的，并且导致了最先进的性能。动作识别中的变压器。从早期使用基于光流的特征[20]的工作到最近的基于变压器的方法[30]，已经提出了各种各样的方法来进行动作识别。总体而言，所提出的方法从使用时间池化提取特征[44]到使用循环网络[18,94]，再到使用3D时空核[11, 41, 56, 78,80-82]，以及捕捉互补信号的两流网络（例如，运动和空间线索[21, 22,73]）。与这些方法不同，我们的工作使用两个单独的对象级流来利用以对象为中心的信息。与视频理解的发展平行的是，Vision Transformers [19,79]提出了一种通过完全舍弃卷积归纳偏差并使用自注意操作来进行图像识别的新方法。专门的视频模型，如TimeSformer [7]，ViViT [2]，Mformer（MF）[65]和MViT[30]，形成了动作识别模型的最新时代。通过通过使用时空注意力将视觉变压器推广到时间领域，所获得的视频变压器在性能和大数据的扩展行为方面与其卷积对应物非常有竞争力。然而，没有任何一个视频变压器模型利用对象线索，这是我们在ORViT中要解决的一个持久的缺点。我们还注意到[85]采用了类似的以对象为中心的视频理解方法。然而，我们的工作在概念上与[85]不同，因为[85]仅对对象部分进行建模，这类似于我们在论文中考虑的STRG基线。另一方面，我们的工作在保持整个时空表示的同时将对象引入到变压器层中。此外，[85]在大型数据集（MovieClips）上以自监督的方式预训练变压器，因此其实证结果不能直接与未以此方式预训练的模型进行比较。时空动作检测。动作检测的任务需要在时间上定位动作的开始和结束时间。已经提出了各种各样的方法来解决这个问题，例如动作建模[1, 61,96]，时间卷积[51, 72]，边界建模[57, 58]，注意力[71,92]，结构利用[93, 98]，基于检测的方法[12,88]，端到端方法[9, 15, 24, 39]，循环神经网络[62, 74,90]，甚至使用语言的方法。0��×� ��×�0�：输出特征 ��×�0�：对象动力学0模块0�：对象区域0注意力0�：对象边界框�×�×40�：输入特征 ��×�0图2.一个ORViT块。输入的补丁令牌X和边界框B被用作“对象区域注意力”和“对象动力学模块”的输入组件。每个组件输出一个THW×d张量，两个张量相加得到新的补丁令牌Y。0语言[68, 100]。最近，新的MViT[30]模型在AVA数据集[27]上显示出有希望的结果。然而，它没有明确地模拟对象，我们展示了MViT的ORViT版本确实提高了性能。03. ORViT模型0接下来，我们介绍显式地在Transformer架构中模拟对象外观和轨迹的对象区域视频Transformer（ORViT）模型。我们首先在第3.1节中回顾了视频Transformer架构，然后在第3.2节中介绍了ORViT。ORViT的高级概述如图2所示，并在图4中详细说明。简而言之，ORViT通过使用关于对象的外观和运动的信息重复精炼补丁令牌表示。03.1. 视频Transformer架构0视频Transformer [2, 7, 30]将VisionTransformer模型扩展到时间域。与视觉Transformer类似，首先对输入进行“patchify”，但使用时间上扩展的3Dpatch而不是2D图像patch，产生大小为T×H×W×d的下采样张量X。然后，添加了时空位置嵌入以提供位置信息。最后，在X中附加了一个分类令牌（CLS），结果是Rd中的THW+1个令牌，对其重复应用自注意力以产生最终的上下文化CLS特征向量。203.2. ORViT块0ORViT块有两个输入。第一个是前一个Transformer块的输出，表示为一组时空令牌 X ∈ RTHW×d。第二个0为简洁起见，以下省略了CLS特征的计数。Y ′ := R(X, B) + D(B) + XY := Y ′ + MLP(LN(X))(1)to extract descriptor vectors per region from the input to-kens, resulting in TO vectors in Rd, which we refer to asobject tokens. These vectors are then concatenated with theTHW patch tokens and serve as the keys and values, whilethe queries are only the patch tokens. Finally, the outputof the block is THW patch tokens. Thus, the key idea isto fuse object-centric information into spatio-temporal rep-resentations. Namely, inject the TO object region tokensinto THW patch tokens. An overview of our approach isdepicted in Figure 4. We provide further details below.Given the patch token features X and the boxes B, ourfirst goal is to obtain vector descriptors in Rd per object andframe. The natural way to do this is via an RoIAlign [31]layer, which uses the patch tokens X and box coordinatesB to obtain object region crops. This is followed by max-pooling and an MLP to obtain the final object representationin Rd:O := MLP(MaxPool(RoIAlign(X, B)))(2)31510“将某物和某物远离彼此”0图3.我们可视化ORViT块中对象令牌分配的注意力（红色、绿色和蓝色）在描述“将两个对象远离彼此”的视频的每一帧中。可以看到两个“遥控器”对象都影响其区域的补丁令牌，而手的影响范围更广。更多可视化请参见补充材料中的第E节。0输入是一组跨时间的对象边界框，用 B ∈ RTO×4表示。ORViT块的输出是一组经过对象中心化信息上下文化的精炼令牌 Y ∈ RT HW ×d。因此，ORViT块可以被视为使用对象级信息的令牌表示精炼机制。正如前面提到的，我们认为识别视频中的动作的关键线索是：场景中的对象、它们的相互作用和它们的运动。为了捕捉这些线索，我们设计了具有以下两个对象级流的ORViT块。第一个流模拟对象的外观和它们的相互作用。我们称之为“对象区域注意力”并用 R表示。第二个“对象动力学模块”流（用 D表示）模拟轨迹之间的相互作用，而与它们的外观无关。重要的是，每个流的输出都是 THW令牌向量，也可以解释为基于每个信息源的精炼补丁表示。D 流仅模拟对象动态，因此仅使用边界框 B作为输入。因此，我们用 D(B) 表示其输出。R流模拟外观，因此依赖于令牌表示 X 和边界框 B，并产生R(X, B)。ORViT块的最终输出 Y简单地由两个流的和和一个输入残差连接形成：0其中LN表示LayerNorm操作。接下来，我们分别详细说明这两个组件。对象区域注意力。该模块的目标是提取关于每个对象的信息，并用它来改进补丁令牌。这是通过使用对象区域来提取输入令牌的每个区域的描述符向量来完成的，从而得到Rd中的TO个向量，我们将其称为对象令牌。然后，将这些向量与THW补丁令牌连接起来，作为键和值，而查询仅为补丁令牌。最后，块的输出是THW补丁令牌。因此，关键思想是将以对象为中心的信息融合到时空表示中。即，将TO对象区域令牌注入到THW补丁令牌中。我们在图4中概述了我们的方法。我们在下面提供更多细节。给定补丁令牌特征X和盒子B，我们的第一个目标是获得每个对象和帧的Rd向量描述符。这样做的自然方式是通过RoIAlign[31]层，它使用补丁令牌X和盒子坐标B来获取对象区域裁剪。然后通过最大池化和MLP来获得Rd中的最终对象表示：03 O 代表训练集中对象的最大数量。如果一个剪辑中的盒子少于O个，我们用零填充剩余的嵌入。0由于这是针对每个对象和每个帧执行的，结果是Rd中的OT个向量（即O∈RTO×d）。重要的是，这个提取过程在每个ORViT块的每个实例中执行，因此它将在每个层产生不同的对象令牌。我们还添加了位置嵌入，但将细节留给附录B.1。此时，我们希望允许对象令牌改进补丁令牌。我们将对象令牌O与补丁令牌X连接起来，得到C∈RT(HW+O)×d。接下来，使用C和X来获得查询、键和值，如下所示：0其中Wq，Wk，Wv∈Rd×d（3）0最后，有几种方法可以执行时空自注意力（例如，对空间和时间的联合和分割注意力，或最近引入的轨迹注意力[65]）。我们使用轨迹注意力，因为它在实证上表现良好。我们在附录的表5c中比较了不同的自注意力版本。图3还可视化了我们模型学习到的“对象区域注意力”。对象动力学模块。为了建模对象动力学，我们引入了一个仅考虑盒子B的组件。我们首先通过其中心坐标、高度和宽度对每个盒子进行编码，并对该向量应用MLP，以获得Rd中的一个向量。将此应用于所有盒子将得到L∈RTO×d。接下来，我们添加一个可学习的对象时间位置嵌入P∈RTO×d，得到B:=L+P。我们将其称为图4中的“坐标嵌入”步骤。它的输出可以被视为Rd中的TO个令牌，并且我们对这些令牌应用自注意力，如下所示：注意力D(�Q，�K，�V):=0� � V，其中：� Q := � BW � q，� K := � BW � k，� V := � BW � v，W� q，W � k，W � v∈Rd×d。自注意力𝑂!𝑇𝐻𝑊×𝑑𝑂"𝑇𝐻𝑊×𝑑𝑇𝐻𝑊×𝑑𝑇×𝑂×4𝑇×𝑂×𝑑Q K/V 𝑇×(𝐻𝑊 + 𝑂)×𝑑𝑇×𝐻𝑊×𝑑𝑂!𝑂#𝑂"121231520ROI对齐0注意力�0注意力�0坐标嵌入0盒子位置编码器0补丁对象0补丁0盒子位置编码器0�：输入补丁标记 ��×�0采样器0� # ��×�0�0��×� ��×�0对象区域注意力对象动力学模块0精炼的补丁标记 ��×�0�：对象框 �×�×40输出为RTO×d。接下来，我们希望将具有T×d向量的对象转换为THW×d的空间体积。这是通过下面描述的框位置编码器完成的。框位置编码器。ORViT模型的返回特征应具有与输入相同的维度，即THW×d。因此，我们的主要挑战是将对象嵌入投影到空间维度，即TO×d投影到THW×d。朴素的方法是通过将每个对象扩展为T×d向量来忽略框。然而，由于对象轨迹包含其时空位置，更好的方法是考虑对象位置。因此，对于每个具有相应的T×d标记的对象，我们使用双线性插值采样器操作[38，42]根据匹配的边界框坐标将对象表示向量放置在HW×d中生成空间特征。0图4.ORViT块架构。该块由两个对象级流组成：模拟外观的“对象区域注意力”和模拟轨迹的“对象动力学模块”。两者结合起来产生新的补丁标记。“框位置编码器”将轨迹流的输出映射到补丁标记的维度。03.3. ORViT模型0最后，输出在HW×d中是所有帧的所有对象的总和，表示对象在空间维度上的粗略轨迹。该过程如图4（右）所示。我们通过实验证明，这种方法比上述的朴素方法更好。04.对象区域外的特征设置为零。0我们可以利用任何视频transformer预训练模型，无需预训练ORViT。我们尝试了三个视频transformer模型：TimeSformer [7]，Mformer（MF）[65]和MViT[30]。我们表明，对于这些模型，使用ORViT层可以提高性能。唯一的设计选择是在哪些层应用ORViT，而训练方法保持不变。我们发现，在早期层应用它非常重要，而重复应用会在整个网络中传播信息。由于RoIAlign从每个ORViT层中提取时空表示的对象表示，多个ORViT层使模型能够在整个网络中考虑不同的对象表示。在我们的实验中，我们将其应用于第2层，第7层，第11层，替换原始层而不增加基线模型的深度。04.实验0我们在几个视频理解基准上评估了我们的ORVIT模型。具体来说，我们考虑了以下任务：组合动作识别（第4.1节），时空动作检测（第4.2节）和动作识别（第4.3节）。数据集。我们使用了以下数据集：（1）Something-Somethingv2（SSv2）[26]是一个包含174个常见人物-物体交互动作类别的数据集。（2）SomethingElse[63]利用了SSv2的组合结构，其中动作由动词和名词的组合定义。我们遵循[63]的官方组合拆分，该拆分假设训练时可用的名词-动词对集合与测试时给定的集合不相交。（3）原子视觉动作（AVA）[28]是一个用于人体动作检测的基准。我们在AVA-V2.2上报告平均精度（mAP）。（4）EpicKitchens 100（EK100）[16]31530模型盒子组合基准少样本 Top-1 Top-5 Top-1 Top-5 5样本 10样本0I3D [11] � 42.8 71.3 73.6 92.2 21.8 26.7 SlowFast [21] � 45.2 73.4 76.193.4 22.4 29.2 TimeSformer [7] � 44.2 76.8 79.5 95.6 24.6 33.8 MF [65] �60.2 85.8 82.8 96.2 28.9 33.80STRG（带SF）[83] � 52.3 78.3 75.4 92.7 24.8 29.9 STIN（带SF）[63] �54.6 79.4 77.4 95.0 23.0 33.4 MF+STRG+STIN � 62.3 86.0 83.7 96.8 29.836.50ORViT MF（我们的）� 69.7 91.0 87.1 97.6 33.3 40.20表1. “SomethingElse”数据集上的组合和少样本动作识别。0包含700个厨房活动的视角视频。该数据集包括名词和动词类别，并报告动词、名词和动作准确性，其中得分最高的动词和名词对构成一个动作标签。（5）Diving48[54]包含48个细粒度的潜水活动类别。基线。在实验中，我们将ORViT与先前工作中报告的几个模型进行比较，这些模型适用于相应的数据集。这些模型包括非Transformer方法（例如I3D [11]和SlowFast[21]）以及最先进的Transformer（TimeSformer，Mformer（MF）和MViT）。我们还引用了两个以物体为中心的模型的结果：STIN [63]使用框信息，Space-Time RegionGraph（STRG）模型[83]从对象中提取I3D特征，并在其上运行图神经网络。STIN和STRG使用与ORViT相同的输入信息。最后，我们实现了一个以物体为中心的Transformer基线，将STRG和STIN组合在一起：我们将MF的最终补丁标记作为输入传递给STRG模型，得到STRG特征向量，并将其与STIN特征向量和MF的CLS标记连接起来。我们将其称为MF+STRG+STIN。实施细节。ORViT使用PyTorch实现，代码将在我们的项目页面上发布。我们的训练配方和代码基于作者发布的MViT、MF和TimeSformer代码。对于所有任务和数据集，我们使用SORT[8,43]进行多对象跟踪，以找到不同帧中对象之间的对应关系（不需要训练数据），请参见补充材料中的第A.1节。我们在SSv2和EK100中将对象数量设置为4，在AVA中设置为6，在Diving48中设置为10。这些数字是通过在训练集中的所有视频中选择每个视频的最大对象数（由跟踪器引起）而选择的。04.1. 组合和少样本动作识别0几个视频数据集通过动词（动作）和名词（物体）的组合来定义一个动作。在这种情况下，识别在训练过程中没有见过的组合更具挑战性。这种“组合”设置在“SomethingElse”数据集[63]中得到了探索，其中测试数据中的动词-名词组合在训练数据中不存在。该分割包含174个类别，训练/验证视频为54,919/54,876个。这种设置特别重要。0模型盒子预训练 mAP0SlowFast [21]，4×16，R50� K400 21.9 SlowFast[21]，8×8，R50� K400 22.7 SlowFast [21]，8×8，R101�K400 23.80MViT-B [30]，16×4 � K400 25.5 MViT-B [30]，32×3 �K400 27.30ORViT MViT-B，16×4（我们的）� K400 26.6（+1.1）0ORViT MViT-B，32×3（我们的）� K400 28.0（+0.7）0表2. AVA-V2.2上的时空动作检测。0与ORViT等以物体为中心的模型相关，这些模型可以更好地处理组合动作。该数据集包含常用作模型的附加输入的注释边界框；这使我们能够与先前的方法[63]进行公平比较。我们还在[63]中评估了少样本组合动作识别任务（详见补充材料的第A.6节）。表1报告了这些任务的结果。ORViT在组合和少样本任务中均优于所有模型。有趣的是，与先前的方法（STRG和STIN）相比，MF基线相对较强。ORViT在先前方法和基线MF模型上都有很大的改进。我们还包括了以MF为骨干的先前方法的强大组合版本（MF+STRG+STIN）的结果。04.2.时空动作检测0接下来，我们在AVA数据集上评估ORViT在时空动作检测任务上的表现。在文献中，AVA上的动作检测任务被定义为两个阶段的预测过程。第一步是检测边界框，这是通过一个现成的预训练人体检测器获得的。第二步涉及预测在每个检测到的边界框中执行的动作。性能以这些步骤的最终结果为基准，并使用平均精度（MAP）指标进行衡量。通常，为了公平比较，检测到的人体框在各种方法之间保持相同，因此最终性能直接取决于方法利用视频和框信息的能力。我们遵循[21，84]的方法，使用他们提供的边界框对ORViT进行评估。这样可以与所有之前按照这个标准程序的方法进行公平比较。50这个任务是评估ORViT的好处的理想基准，因为所有基线方法以及我们的模型都在相同的边界框上操作。我们在Kinetics-400[46]上训练了MViT-B,16×4和MViT-B,32×3模型，并报告了这些结果。表2显示，相对于MViT-B 16x4和MViT-B32x3，ORViT-MViT分别实现了+1.1、+0.7的MAP改进，展示了我们提出的面向对象的表示融合方案的优势。05边界框是通过在ImageNet和COCO人体关键点图像上预训练FasterRCNN和ResNeXt101-FPN [32，59]获得的，如[21]所述。MF-HR†IN+K40044.567.058.5MF-HR + STRGIN+K40042.565.855.4MF-HR + STININ+K40044.267.057.9MF-HR + STRG + STIN IN+K40044.166.957.8)31540（a）Something–Something V20模型预训练 Top-1 Top-50SlowFast，R101† K400 63.1 87.6 ViViT-L† IN+K400 65.489.8 MViT-B，64† K600 68.7 91.50MF† IN+K400 66.5 90.1 MF+STRG IN+K400 66.1 90.0MF+STIN IN+K400 66.5 89.8 MF+STRG+STIN IN+K40066.6 90.0 MF-L† IN+K400 68.1 91.20ORViT MF（我们的） IN+K400 67.9（+1.4）90.5（+0.4）0ORViT MF-L（我们的） IN+K400 69.5（+1.4）91.5（+0.3）0（b）Diving480模型预训练帧数 Top-10SlowFast，R101† K400 16 77.6 TimeSformer† IN 1674.9 TimeSformer-L† IN 96 81.0 TQN† K400 ALL81.80TimeSformer† IN 32 80.0 TimeSformer+STRG IN 3278.1 TimeSformer+STIN IN 32 81.0TimeSformer+STRG+STIN IN 32 83.50ORViT TimeSformer（我们的） IN 32 88.0（+8.0）0（c）Epic-Kitchens1000方法预训练 A V N0SlowFast，R50† K400 38.5 65.6 50.0 ViViT-L† IN+K40044.0 66.4 56.8 MF† IN+K400 43.1 66.7 56.5 MF-L†IN+K400 44.1 67.1 57.60ORViT MF-HR（我们的） IN+K400 45.7 68.4 58.70表3.与视频动作识别的最新技术进行比较。我们报告了SSv2的top-1（%）和top-5（%）准确率。在Epic-Kitchens100（EK100）上，我们报告了动作（A）、动词（V）和名词（N）的top-1（%）准确率。在Diving48上，我们报告了top-1（%）准确率。ORViT与基线之间的差异用（+X）表示。IN表示IN-21K。我们用†表示不使用边界框的方法。有关其他结果和详细信息，包括模型大小，请参见附录的D.2节。04.3.动作识别0表3报告了几个数据集上标准动作识别任务的结果。与本文中的其他任务相比，动作识别中使用边界框不是任务定义的一部分。因此，在区分非框和基于框的方法时，应该谨慎进行比较。对于基于框的方法，我们考虑在与ORViT相同的主干网络上使用STIN、STRG及其组合。接下来，我们解释如何提取边界框。有关数据集和评估的更多细节，请参见附录的A节。ORViT的框输入。对于SSv2，我们使用[67]中的标注框微调Faster-RCNN，如[63]所述。对于EK100和Diving48，我们使用在MS COCO [60]上预训练的Faster-RCNN[67]。我们只使用检测器的边界框，忽略对象类别。检测器和我们的模型之间没有权重共享。SSv2。表3a显示了ORViT优于最近方法。对于MF和MF-L，改进为1.4％，同时ORViT还优于其他基于框的方法，如MF+STIN，MF+STRG及其组合。我们注意到这些模型在MF上没有改进，这表明在大型数据集上使用边界框是非平凡的。我们还尝试使用手动注释的边界框（而不是由检测器获得的边界框）作为“oracle”上限，以了解使用注释的框输入的潜力。这种oracle评估的结果（见附录的D.2节）相对于MF和MF-L分别提高了7.3％和6.7％。这表明，未来改进对象检测器将有助于面向对象的方法。Diving48。在这里，我们在TimeSformer模型的基础上构建ORViT，该模型先前已在该数据集上报告过（这证明了将ORViT添加到任何transformer模型的简便性）。表3b显示了我们的ORViTTimeSformer模型优于最先进的方法，包括TQN[97]，优势为6.2％。相对于基线TimeSformer，我们获得了8.0％的改进。0再次表明ORViT块的直接改进。我们注意到，ORViT仅使用32帧就取得了这些结果，远远少于之前最好的结果TimeSformer-L使用的96帧。ORViT优于基于框的方法，包括TimeSformer+STIN+STRG（4.5%）、TimeSformer+STIN（7.0%）和TimeSformer+STRG（9.9%）。EK100。表3c报告了在EK100上的结果。在这里，我们将ORViT块添加到MF-HR模型中（这是[65]中在EK100上表现最好的模型）。结果显示，我们的ORViTMF-HR模型提高了所有三个子任务的准确性（名词的改进较小）。我们认为EK100上的改进不如其他数据集令人印象深刻，主要有两个原因：（a）EK100是一个以自我为中心的数据集，使得摄像机运动对我们的方法来说是一个重要挑战，以建模有意义的对象交互。（b）EK100包含2-3秒的短视频，因此时间推理的效果较差。04.4.消融0我们在“SomethingElse”数据集的组合动作识别任务[63]上进行了全面的消融研究，以测试不同ORViT组件的贡献（表4）。我们使用MF作为ORViT的基线架构。有关更多消融，请参见补充材料中的C部分。ORViT模型的组成部分。我们考虑了以下版本的模型。（i）单个ORViT块（无ODM流6）。我们首先考虑应用单个ORViT块，但没有ODM流。我们还比较了在哪个视频变换器层应用我们的ORViT块（即从中提取RoI描述符的视频变换器层）。我们将应用在第X层的模型称为ORViT[L:X]。（ii）单个ORViT块（带有ODM流）。在这里，我们增加了单个ORViT06我们将“对象动力学模块”称为ODM流。31550（a）组件0层次 Top-1 Top-5 GFLOP Param0MF 60.2 85.8 × 1（370）× 1（109）ORViT [L:12] 63.987.6 × 1.01 × 1.01 ORViT [L:2] 66.7 89.2 × 1.01 × 1.01ORViT [L:2]+ODM 68.8 90.5 × 1.03 × 1.12 ORViT[L:2,7,11]+ODM 69.7 91.0 × 1.09 × 1.360（b）目标中心基线0模型 Top-1 Top-50MF 60.2 85.8 MF + RoIAlign59.6 84.5 MF + Boxes 63.7 86.9ORViT（我们的）69.7 91.00（c）边界框0模型 Top-1 Top-50全边界框 60.9 84.5 空边界框 60.484.2 网格边界框 60.9 84.8 随机边界框60.7 85.0 对象区域（我们的）69.791.00（d）ODM维度0维度 Top-1 Top-5 GFLOP Param0MF 60.2 85.8 × 1（370）× 1（109）067.4 89.8 × 1.03 × 1.02 128 68.7 90.3 ×1.03 × 1.03 256 68.9 90.5 × 1.03 × 1.05768 69.7 91.0 × 1.1 × 1.360表4.消融。我们在SomethingElse拆分上报告了顶部1和顶部5的动作准确性。我们展示了（a）ORViT组件的贡献（参数数量以10^6表示，GFLOPS以10^9表示）。（b）其他目标中心基线。（c）具有不同边界框输入的ORViT，以及（d）“对象动力学模块”（ODM）嵌入维度的影响。更多消融请参见补充材料中的C部分。0使用ODM流的块。我们将这些模型称为ORViT[L:X]+ODM。（iii）多个ORViT块（带有ODM流）。这是我们所有实验中使用的ORViT版本。它在多个层次应用ORViT块。我们选择视频变换器模型的第2、7和11层来应用ORViT块。所有消融实验都是在SomethingElse的组合拆分上进行的。在消融表中，我们将其称为O

下载后可阅读完整内容，剩余1页未读，立即下载