基于Transformer的时空视频定位模型TubeDETR

196 浏览量更新于2023-10-24 收藏 19.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

.........164420TubeDETR：基于Transformer的时空视频定位0Antoine Yang 1, 2, Antoine Miech 3, Josef Sivic 4, Ivan Laptev 1, 2, Cordelia Schmid 1, 201 Inria巴黎2巴黎高等师范学院计算机科学系，法国国家科学研究中心，PSL研究大学3 DeepMind4捷克理工大学布拉格CIIRC0https://antoyang.github.io/tubedetr.html0摘要0我们考虑将视频中与给定文本查询相对应的时空管道定位问题。这是一个具有挑战性的任务，需要对时间、空间和多模态交互进行联合和高效建模。为了解决这个任务，我们提出了TubeDETR，这是一种基于Transformer的架构，灵感来自于这类模型在文本条件下的目标检测方面的最新成功。我们的模型主要包括：（i）一个高效的视频和文本编码器，对稀疏采样的帧上的空间多模态交互进行建模；（ii）一个时空解码器，共同执行时空定位。通过广泛的消融研究，我们展示了我们提出的组件的优势。我们还在时空视频定位任务上评估了我们的完整方法，并在具有挑战性的VidSTG和HC-STVG基准上展示了改进。01. 引言0将自然语言与视觉内容关联起来是构建强大且可解释的视觉和语言模型的基本技能。特别是，理解语言与视频中的空间区域和时间边界的关联对于分析和改进多模态视频模型尤为重要。这超越了将全局视觉表示与文本表示关联起来[56,61]，因为它需要推理关于详细的时空视觉表示及其与自然语言的关联，如图1所示。时空视频定位是在视觉定位[33, 58, 72]和时间定位[9, 25,30]的交叉点上的一个有趣且具有挑战性的任务，最近在[100]中引入。给定一个未修剪的视频和一个对象的文本描述，时空视频定位旨在为输入文本描述的目标对象定位一个时空管道（即一系列边界框）。这个任务特别具有挑战性，因为视频是高度多样的，通常呈现出具有相似外观或在一个场景中执行相似动作的不同实体。自然语言处理中基于注意力的模型的成功[21,73]最近启发了将Transformer整合到计算机视觉任务中，例如图像分类[22]、目标检测[8]、语义分割[52]或动作识别[3, 7, 59, 98]。值得注意的是，DETR[8]在目标检测方面表现出了竞争性能，同时消除了多个手工设计的组件对这个任务的先验知识的需求。最近，MDETR[37]将这个框架扩展到了图像领域中各种文本条件下的目标检测任务，如短语定位、指代表达理解和分割。受到这些工作的启发，以及注意力机制在视频中建模多模态和时空上下文关系方面的直观选择，我们开发了一个基于Transformer的编码器-解码器模型，用于时空视频定位，如图2所示。虽然现有的这个任务的方法依赖于预提取的对象提议[100]、管道提议[70]或上采样层[66]，我们的架构只需推理称为“时间查询”的抽象来共同执行时态定位和视觉定位。我们的框架能够为两个子任务使用相同的表示，以学习强大的上下文表示。具体而言，我们的架构包括关键组件来共同建模时态、空间和多模态的交互。04捷克理工大学布拉格的捷克信息学、机器人学和控制论研究所。0输入文本查询：成年人在游乐场里骑什么？0t开始 t结束0输出时空管道：0图1. 时空视频定位需要对空间、时间和语言进行推理。0视频是非常多样的，通常呈现出具有相似外观或在一个场景中执行相似动作的不同实体。注意力机制在自然语言处理[21,73]方面的成功最近启发了将Transformer整合到计算机视觉任务中，例如图像分类[22]、目标检测[8]、语义分割[52]或动作识别[3, 7, 59, 98]。DETR[8]在目标检测方面表现出了竞争性能，同时消除了多个手工设计的组件对这个任务的先验知识的需求。最近，MDETR[37]将这个框架扩展到了图像领域中各种文本条件下的目标检测任务，如短语定位、指代表达理解和分割。受到这些工作的启发，以及注意力机制在视频中建模多模态和时空上下文关系方面的直观选择，我们开发了一个基于Transformer的编码器-解码器模型，用于时空视频定位，如图2所示。虽然现有的这个任务的方法依赖于预提取的对象提议[100]、管道提议[70]或上采样层[66]，我们的架构只需推理称为“时间查询”的抽象来共同执行时态定位和视觉定位。我们的框架能够为两个子任务使用相同的表示，以学习强大的上下文表示。具体而言，我们的架构包括关键组件来共同建模时态、空间和多模态的交互。164430交互。我们的视频文本编码器通过在稀疏采样的帧上计算这些交互来高效编码空间和多模态交互，并通过轻量级快速分支单独恢复时间局部信息。我们的时空解码器使用时间自注意层对时间交互进行建模，并使用时间对齐的交叉注意层对空间和多模态交互进行建模。然后，我们在解码器输出的基础上使用多个头部来处理时空视频定位，这些头部预测对象框和时间起始和结束的概率。我们进行了各种消融研究，其中我们特别展示了我们的视频文本编码器在性能-内存平衡方面的优势，以及我们的时空解码器在时空定位结果方面的效率。最后，我们展示了我们的方法在两个基准测试中明显优于现有方法，VidSTG [100]和HC-STVG[70]。总之，我们的贡献有三个：(i)我们提出了一种新颖的时空视频定位架构，使用时空变换器解码器执行此任务。(ii)我们提出了一种双流编码器，它基于慢多模态流和轻量级快速视觉流高效编码空间和多模态交互。(iii)我们在VidSTG和HC-STVG两个基准测试上进行了全面的实验，展示了我们的框架在时空视频定位任务上的有效性。我们的方法称为TubeDETR，在性能上大大优于所有现有方法。代码和训练模型可在[1]公开获取。02. 相关工作0时空视频定位。视觉定位是指在给定一个指代表达式的情况下，空间定位一个对象，这在图像领域[18, 32, 33, 51, 58,75, 81, 89, 95, 105]和视频领域[35, 65,72]都是一个活跃的研究领域。一个标准的范式是使用预提取的对象提议[48, 49, 76, 82, 84, 85,88]，而一些最近的工作[19, 34, 37, 46, 55, 86,87]提出了一阶段的方法，不依赖于这些提议。我们的工作遵循MDETR的一阶段框架[37]，但将其扩展到具有时间定位损失的时空视频定位（参见方程1），慢-快编码（参见图3）和时空解码（参见图4）。另一方面的工作集中于根据自然语言查询在视频中定位时刻[9, 10, 12, 25, 27, 30, 31, 47,57, 63, 74, 78, 90, 93, 94, 96, 97,99]。这些工作构建了可以推理时间的体系结构，但不保留空间信息。时空视频定位处于时间定位和视觉定位的交叉点上。虽然一些方法[15, 70,82]依赖于预提取的管道提议或对象提议[100]，但我们的方法不需要任何预提取0提议。最近的一项工作[66]提出了STVGBert，这是一种一阶段方法，它将在Conceptual Captions[64]上预训练的VilBERT模型[53]扩展到这个任务。STVG-Bert使用反卷积来执行视觉定位，并对时间和空间交互进行对称建模。相比之下，我们的架构使用变换器解码器执行视觉定位，并分别处理时间和空间维度。视频理解的时间建模。强大的图像理解模型，如ViT [22]或DETR[8]的出现，促进了将这些模型扩展到视频领域的研究[3, 7,29, 41, 59,98]。特别地，Lei等人[41]提出了一种将时刻检索视为直接集合预测问题的架构，但对于视觉定位来说不合适，因为它不保留空间信息。He等人[29]将DETR框架扩展到视频，并提出了一个在Deformable DETR[104]之上顺序添加模块的架构，而我们的架构是在预训练的编码器和解码器的内部修改基础上构建的，并且还涉及语言推理。我们的双分支编码器也与SlowFast网络[23,80]相关，它结合了快速和慢速视频流。相比之下，在我们的情况下，两个流都在从相同的主干提取的特征上操作，我们的双流架构是由于多模态建模的计算复杂性而提出的。视觉和语言。基于变换器的架构已经在各种视觉和语言任务中变得普遍[11, 14, 17, 20, 36, 38, 43, 45, 53, 54, 67, 69,101]。大多数视频文本变换器要么依赖于预提取的对象特征[103]，要么依赖于空间池化特征[24, 26, 44, 68, 83,102]，这些方法不保留详细的空间信息。相比之下，我们的架构旨在保留空间信息以执行视觉定位。一些最近的工作提出了基于变换器的架构，可以保留空间信息[2, 5, 42,92]。然而，这些工作通常旨在学习用于处理视频级预测任务的全局视频表示，而我们专注于学习用于解决需要空间和时间定位的密集预测任务的详细帧级表示。03. 方法0首先，在第3.1节中，我们对我们的模型进行了概述。接下来，我们详细描述了我们模型的两个主要组件，即视频-文本编码器（第3.2节）和时空解码器（第3.3节）。然后，在第3.4节中，我们解释了用于训练我们的模型的损失。最后，在第3.5节中，我们介绍了如何初始化我们的模型权重。03.1. 概述0我们的目标是给定一个视频和一个语言查询，输出一个时空管，即一个具有时间边界的边界框序列，将语言查询进行空间定位。1………………………………………………1………1………{ .𝑏"}"#("!""………1……………………………………………164440视频-文本编码器0时空0解码器0文本特征 � ! � 预测的时空0时间管0时间查询 {� " } "#$ %0预测的起始 & &0预测的0结束 & � '0“成年人在游乐场里骑什么？”0线性0时间0T0k02D0位置编码0线性0视觉0主干网络0帧特征 � ! �0文本0编码器0视频-文本特征 �(�,�)01 T0时间0剪辑 M0时间0T0k0时间0T0k0句子 s0视频 {� " } "#$ %0多层感知机0时间0T0k0视觉0主干网络0视觉0主干网络0视觉0主干网络0线性线性线性02D0位置编码02D0位置编码02D0位置编码0视频-文本编码器0剪辑10图2. TubeDETR模型概述。所有输入视频帧 v t 和句子 s 首先经过视觉主干网络和文本编码器进行处理。得到的文本和视频特征 y 0 ( s ) 和 x0 ( v ) 然后与视频-文本编码器一起进行联合编码，该编码器计算 k 帧（约1秒钟）的 M 个短剪辑的空间和多模态交互。得到的视频-文本特征F ( v, s ) 然后通过时空解码器解码为输出的时空管 ˆ b ，该解码器在整个视频上联合推理时间、空间和文本。0在视频中定位查询是具有挑战性的，因为它需要对语言查询和视频之间的长距离空间和时间交互进行建模，其中视频可能由数百帧组成，每帧由数万个时空视频特征表示。因此，效率是一个主要挑战。为了解决这个问题，我们设计了一个编码器-解码器架构，如图2所示，它能够在整个视频中准确而高效地建模视频-语言的空间和时间交互。具体而言，我们的双流视频-文本编码器（第3.2节）仅对大约1秒钟的短剪辑进行视频-语言交互建模，但允许进行详细的空间定位。然后，我们的时空解码器（第3.3节）对整个视频进行长距离时间交互建模，以产生一个时间上连续的输出和准确的输出时空管的起始和结束时间预测。03.2. 视频-文本编码器0我们的编码器如图3所示，并在下面进行了描述。它的目标是模拟语言查询和视频之间的空间和多模态交互，以在每一帧中准确地将查询进行空间定位。为了实现这一目标，我们利用了自注意力层同时模拟空间和视觉-语言交互的能力[36,37,42]。然而，对于每一帧计算视觉特征和文本特征之间的自注意力是计算上昂贵的。因此，我们建议仅对每第k帧计算空间和多模态交互。我们将得到的流称为“慢速多模态分支”。我们使用一个独立的轻量级“快速视觉分支”，它保留了原始帧率，并允许我们恢复慢速分支中稀疏采样导致的一些高频空时细节。0形式上，我们的编码器将输入视频的所有T帧的2D展平图像特征x0(v) ∈ RT × HW × d与查询句子的L个文本特征y0(s)∈ RL × d一起作为输入，并输出一组视频-文本特征F(v, s)∈ RT × (HW + L) ×d，每个帧对应一个特征。接下来，我们详细介绍慢速分支、快速分支和最终特征聚合模块的细节。0慢速多模态分支。该分支的目标（见图3顶部）是建模视觉和文本表示之间的交互。该分支首先从k个连续帧的短视频剪辑中采样特征。典型的剪辑长度为一秒，即k=5，标准帧率为每秒5帧[100]。形式上，生成的特征图写为xp ∈ RM × HW × d，其中M = �T0k�是剪辑数量，k是剪辑长度，T是整个视频的长度。然后，对于每个剪辑m，我们将其视觉特征xpm与文本特征y0(s)进行拼接，并将其传递给一个N层变压器编码器。输出是上下文化的视觉-文本表示hp(v, s) ∈ RM ×(HW + L) ×d，它有效地结合了输入视频v和查询句子s的信息。0快速仅视觉分支。前面解释的时间稀疏采样方案显著减少了视频-文本编码器的内存需求，但导致了时空细节的丢失，而这些细节对于时空视频定位很重要。为了缓解这个问题，我们引入了模块f（见图3底部），它对所有帧的2D展平图像特征进行操作。形式上，给定特征图x0(v)，该模块输出视觉特征f(v) ∈ RT × HW ×d。这个快速分支保留了特征的空间和时间分辨率，但计算量较小，因为它不计算任何多模态交互。…………164450k×�� 帧特征 � ! �0连接变压器0编码器0f0mk+10 文本特征 � ! �0快速仅视觉分支0时间0�� 采样特征 �"0多模态慢速特征0仅视觉快速0�× �� + �0g0时间采样0时间复制0慢速多模态分支0时间0� # �, � �(�) �(�, �)0mk+k0mk+10mk+k0图3. 视频-文本编码器将查询句子中的一组2D展平图像特征x0(v)和一组文本特征y0(s)作为输入，并输出一组视频-文本特征F(v,s)，每个帧对应一个特征。顶部：慢速多模态分支首先从每k帧中采样视频特征xp m。然后，它使用变压器编码器计算采样特征xpm和文本特征y0之间的多模态交互。时间采样减少了视频特征的数量，以便有效地计算基于注意力的交互。底部：轻量级的“快速仅视觉”分支f处理所有帧的特征，但不使用任何注意力层以提高效率。然后，将两个分支的特征在模块g中组合成最终的每帧特征F(v, s)。0或空间交互。为了进一步提高效率，在训练时，该分支不会将梯度反向传播到视觉主干。此外，我们在第4.2节中展示，当与慢速分支获得的时间稀疏特征结合时，它能够恢复部分在时间采样过程中丢失的时间信息。慢速-快速特征聚合。我们现在描述慢速和快速分支的聚合模块（见图3右侧），它融合了两个分支的信息并输出最终的视频-文本特征。为了匹配快速分支f(v)的时间维度，慢速多模态分支hp(v,s)的输出在每个剪辑中进行了k次时间复制，从而得到视频-文本编码hv(v, s) ∈ RT × (HW + L) ×d。这些编码是文本上下文化的视觉编码hv(v, s) ∈ RT ×HW × d和视觉上下文化的文本编码hs(v, s) ∈ RT × L ×d的串联。文本上下文化的视觉编码hv(v,s)与快速分支的输出通过额外的聚合模块g和残差连接相结合，得到聚合的视觉编码Fv(v, s) = g(hv(v, s), f(v)) + hv(v,s)。我们的视频-文本编码器的最终输出是将这些聚合的视觉编码与视觉上下文化的文本编码进行串联，即F(v, s) =[Fv(v, s), hs(v, s)] ∈ RT × (HW + L) ×d。详细来说，模块g实现为求和后跟一个线性层，即g(hv(v, s), f(v)) = Linear(hv(v, s) + f(v))。03.3. 时空解码器0我们的解码器如图4所示，并在下面进行详细介绍。其目标是对T帧的整个视频进行时间交互建模，并将编码器中的多模态特征解码为具有准确起始和结束时间的时间上连贯的输出管道。这是通过一种高效的解码器架构实现的，该架构交替使用（i）时间自注意力层，用于对整个视频进行时间交互建模，以及（ii）时间对齐的交叉注意力层，用于高效地将视频文本0从编码器获得的各帧特征。具体而言，解码器在T个位置编码{qt}Tt=1上操作，每个位置对应一帧，称为时间查询。每个时间查询的初始编码是通过将所有帧共有的学习对象编码和冻结的正弦时间编码相加得到的。解码器还接受从视频文本编码器输出的T×(HW+L)视频语言嵌入F(v,s)作为输入。解码器是N个解码器块的连续。每个块由时间自注意力、时间对齐的交叉注意力和前馈层组成，交替进行归一化[4]，如图4所示。解码器输出经过改进的时间查询{Qt}Tt=1，这些查询与视频中的所有帧以及编码器生成的视频文本特征进行上下文化。然后，这些改进的时间查询共同用于输出将输入句子与视频中的时空视频管道进行关联。下面详细描述各个层。时间自注意力。T个输入时间查询qt通过时间自注意力层相互关注。这个层位于解码器的N个块中的每个块中，负责对整个视频中的长程时间交互进行建模。这是可能的，因为该层的复杂度相对较低，不依赖于输入视频的空间分辨率。时间对齐的交叉注意力。允许每个时间查询与T×(HW+L)视频文本特征进行交叉注意力可能会非常计算密集，因为视频帧数T很大，视频特征的空间分辨率HW也很大。因此，在我们的交叉注意力模块中，每个时间查询qt只与其在帧t上对应的多模态特征F(v,s)[t]进行交叉注意力。请注意，对于我们的时间对齐的交叉注意力公式，时间编码和时间自注意力层变得更加重要，因为它们负责跨整个视频进行时间建模。如果没有它们，我们的解码器将独立地解码每一帧。它们的重要性在第4.2节中进行了验证。1…̂̂̂̂̂̂̂̂………………………164460时间对齐的交叉注意力0掩码0�×时间1T0L0T0时间0视频文本特征�(�, �)0加和归一化+0时间0编码0时间查询0{�!}!"#0对象查询HW0预测的边界框,0起始和结束概率{�!}!"#0多层感知机+�#��%!��&!0+�!!��%"!!��&"!!+�!"��%""��&""+�$��%#��{/�!}!"'!$0时空0图4.时空解码器。解码器由N个重复的块组成。在每个块中，时间查询qt通过时间自注意力逐个地与其他时间查询qt进行交互，通过时间对齐的交叉注意力与其各自的时间对齐的视频文本特征F(v, s)进行交互。交叉注意力掩码（底部）表示输入HW +L视频语言特征中每个T个输入帧（x轴）和T个时间查询（y轴）之间的非零权重（白色）。交叉注意力掩码确保每个时间查询qt只与对应帧t的视频文本特征F(v,s)进行交叉注意力，这显著提高了解码器的效率，并使其能够解码包含T帧的整个视频。整个视频长度的时间建模由时间自注意力层保证。0预测头。解码器的输出是一组经过改进的时间查询{Qt}Tt=1。它们共同用于视觉定位和时间定位，以同时获得视频的所有帧的预测。具体而言，使用3层MLP预测所有边界框的归一化坐标（2D中心和大小）ˆb ∈ [0,1]T×4。使用2层MLP预测输出视频管道的起始和结束的概率，分别为ˆτs ∈ [0, 1]T和ˆτe ∈ [0,1]T。在推理时，通过选择具有无效组合的最大联合起始和结束概率分布(ˆτs, ˆτe) ∈ [0, 1]T×T，其中ˆte ≤ˆts被屏蔽，计算输出管道的起始和结束时间ˆts和ˆte。在选择的起始和结束时间ˆts和ˆte内预测的时空管道{ˆbt}ˆtet=ˆts由边界框ˆbt组成。03.4. 训练损失0输入训练数据是一组视频，每个视频都带有查询句子s和相应的视频管道b，由一组边界框和相应的起始和结束时间ts和te组成。受[63]启发，我们构造了一个目标起始（分别是结束）分布τs ∈ [0, 1]T（分别是τe），它遵循以ts ∈ [0,T−1]（分别是te）为中心、标准差为1的量化高斯分布。我们使用四个损失的线性组合来训练我们的架构。0L = λL1LL1(ˆb, b) + λgIoULLgIoU(ˆb, b)0+ λKLKL(ˆτs, ˆτe, τs, τe) + λattLatt(A) (1)0其中 b ∈ [0,1]4(te−ts+1)表示归一化的真实边界框坐标，ˆb表示预测的边界框，A ∈ [0,1]T×T表示时间自注意力矩阵。最后，不同的λ•是各个损失的标量权重。L L1 是边界框坐标的L1损失。L gIoU是广义的“交并比”0（IoU）损失[62]用于边界框。L1和LgIoU都用于空间定位。LKL(ˆτs, ˆτe, τs,τe)是Kullback-Leibler散度损失，用于衡量预测的起始分布与目标起始分布之间的距离，以及预测的结束分布与目标结束分布之间的距离[63]。Latt(A)是一种引导注意力损失[63]，鼓励时间查询对应的权重在时间边界之外低于这些边界之内的权重。LKL和Latt(A)都用于时间定位。根据[8]，在解码器的每一层计算损失。03.5. 权重初始化0我们使用在Flickr30k [60]、MS COCO [13]和VisualGenome [40]上预训练的MDETR[37]的权重来初始化我们的架构。具体而言，我们的视频文本编码器的权重是从MDETR多模态编码器初始化的，除了快速和聚合模块。我们还使用MDETR单图多目标解码器的权重来初始化我们的多帧单目标时空解码器，除了时间定位头部。我们通过与在ImageNet上预训练的视觉骨干网络和随机初始化的Transformer进行比较，即使用ImageNet初始化，即在第4.2节中展示了这种初始化的好处。我们还在第4.2节中评估了一个等效的MDETR基线。04. 实验0本节展示了我们架构的有效性，并将我们的方法与现有技术进行了比较。我们首先在第4.1节介绍了数据集、评估指标和实现细节。然后在第4.2节中进行了消融研究。在第4.3节中，我们将与时空视频定位的现有技术进行比较。最后，在第4.4节中展示了定性结果。1.✗-23.918.526.314.547.02.✗Temporal25.219.829.116.347.33.✓-41.727.538.525.246.54.✓Temporal45.930.342.329.847.71.✗✗42.823.533.220.938.52.✓✗43.828.639.827.346.63.✓Temporal45.930.342.329.847.7the1644704.1. 实验设置0数据集。我们在VidSTG [100]和HC-STVG[70]数据集上评估我们的方法。两者都带有与文本查询相对应的时空管道注释。VidSTG包含99,943个句子描述，其中44,808个是陈述句，55,135个是疑问句，描述了10,303个不同视频中出现的79种对象。该数据集分为训练、验证和测试子集，分别具有80,684、8,956和10,303个不同的句子，以及5,436、602和732个不同的视频。HC-STVG包含多人场景中的视频，每个视频都有一个句子与之对应。对于消融实验，我们使用数据集的第二个改进版本HC-STVG2.0，它分为训练和验证子集，分别具有10,131和2,000个视频-句子对。测试集在撰写本文时尚未公开。为了与之前的工作进行比较，我们使用数据集的第一个版本HC-STVG1，它分为训练和测试子集，分别具有4,500和1,160个视频-句子对。0评估指标。我们遵循[100]，将vIoU定义为vIoU = 10t ∈ S i IoU (ˆ b t , b t )，其中 S u （分别为 S i）是真实值（GT）和预测时间戳之间的并集（分别为交集）中的帧的集合。ˆ b t （分别为 b t ）是时间 t的预测（分别为GT）框。为了评估时空视频定位，我们使用m vIoU，它是vIoU的平均值。我们还使用vIoU @R，其中vIoU >R的样本比例。为了独立评估时间定位，我们使用mtIoU，它是GT起始和结束时间与预测起始和结束时间之间的时间IoU的平均值。同样，为了仅评估空间定位，我们使用msIoU，它是使用GT起始和结束时间计算的。对于消融实验，我们报告了所有样本的平均结果。VidSTG中陈述句和疑问句的更详细的消融结果在补充材料中单独报告。我们还报告了训练期间的峰值GPU内存使用情况（Mem.），以衡量替代模型的内存占用。0实现细节。视觉骨干是ResNet-101[28]，文本编码器是RoBERTa[50]，快速模块f是一个线性层。根据[100]的方法，我们每秒采样5帧视频，对于超过200帧的视频，我们均匀采样200帧。我们使用超参数T = 200，N = 6，d = 256，λL1 =5，λgiou = 2，λKL = 10和λatt =1。我们在VidSTG、HC-STVG2.0和HC-STVG1上训练我们的网络分别进行了10、20和40个时期。根据验证集上的最佳时空视频定位性能选择最终模型。对于最大的数据集VidSTG，优化需要在16个Tesla V100GPU上花费2天。更多细节请参见补充材料。0时间编码自注意力 mtIoU mvIoU vIoU @0.3 vIoU @0.5 msIoU0表1.我们的时空解码器中时间编码和时间自注意力对VidSTG验证集的影响。0预训练解码器自注意力传递 mtIoU mvIoU vIoU @0.3 vIoU @0.5msIoU0表2.我们模型在VidSTG验证集上的权重初始化效果。4.2.消融研究0在本节中，我们消除了模型的超参数，并评估了编码器和解码器的替代设计选择。除非另有说明，我们使用空间帧分辨率为224像素和时间步长k =5。时空解码器。我们首先消除了所提出的时空解码器的设计选择。我们将我们的完整解码器模型与没有时间编码、没有时间自注意力和两者都没有的变体进行了比较。没有两者的变体对应于一个仅空间的解码器，类似于独立应用于每个帧的MDETR[37]。表1显示，当同时使用时间编码和时间自注意力时，与仅空间的解码器相比有显著的改进（在行1和4之间的vIoU@0.3上增加了16.0%）。增益主要来自于时间定位（在mtIoU上增加了22.0%），而空间定位适度增加（在msIoU上增加了0.7%）。此外，我们可以观察到时间编码带来了大部分的增益（在行1和3之间的vIoU@0.3上增加了12.2%）。最后，时间自注意力在仅使用时间编码时进一步改进了结果（在行3和4之间的vIoU@0.3上增加了3.8%）。初始化。我们现在消除了使用预训练的MDETR[37]权重初始化我们的模型的重要性。在表2中，我们将此初始化与ImageNet初始化进行了比较，并且不将MDETR解码器中的空间自注意力权重转移到我们的时空解码器中的一个变体。在预训练时，此自注意力用于建模同一图像中不同对象之间的空间关系，而我们解码器中的时间自注意力则用于建模同一视频的不同帧中相同对象之间的时间关系。我们发现预训练非常有益（在行1和3之间的vIoU@0.3上增加了9.1%），特别是对于空间定位性能的提升（在msIoU上增加了9.2%）。此外，我们观察到使用MDETR解码器中的空间自注意力权重来初始化我们解码器中的时间自注意力的好处（在行2和3之间的vIoU@0.3上增加了2.5%）。st set.164480（a）VidSTG0快速分辨率时间步长 m tIoU m vIoU vIoU@0.3 vIoU@0.5 m sIoU内存（GB）01. — 224 1 46.5 31.4 44.2 30.9 49.1 23.9 2. � 224 2 46.0 31.1 44.031.1 49.0 16.2 3. � 224 5 45.9 30.3 42.3 29.8 47.7 11.8 4. � 288 2 46.432.4 45.5 32.3 50.5 23.7 5. � 320 3 46.4 32.1 45.4 32.8 50.7 23.6 6. �352 4 46.9 32.3 45.5 32.7 50.7 24.4 7. � 352 4 46.6 30.7 43.6 30.148.3 18.1 8. � 384 5 46.7 32.0 45.0 32.1 50.2 26.10（b）HC-STVG2.00快速分辨率时间步长 m tIoU m vIoU vIoU@0.3 vIoU@0.5 m sIoU内存（GB）01. — 224 1 52.8 45.0 68.0 46.9 63.9 14.3 2. � 224 2 53.7 46.3 70.549.5 64.3 10.2 3. � 224 5 53.2 45.2 69.0 48.0 63.2 8.0 4. � 288 2 53.946.6 71.3 49.6 65.4 13.9 5. � 320 3 53.6 46.5 70.5 48.8 65.2 13.8 6. �352 4 53.9 46.7 71.3 49.7 64.9 14.3 7. � 352 4 53.1 45.0 69.4 47.363.0 11.3 8. � 384 5 53.6 46.6 71.6 48.9 65.3 15.20表3.在VidSTG验证集（左边，表3a）和HC-STVG2.0验证集（右边，表3b）上，使用不同的时间步长k、空间分辨率（Res.）以及是否使用快速分支进行性能-内存权衡的比较。0方法预训练数据0VidSTG HC-STVG10陈述句疑问句0m tIoU m vIoU vIoU@0.3 vIoU@0.5 m tIoU m vIoU vIoU@0.3 vIoU@0.5 m vIoU vIoU@0.3 vIoU@0.501. STGRN [99] Visual Genome 48.5 19.8 25.8 14.6 47.0 18.3 21.1 12.8 — — —02. STGVT [69] Visual Genome + Conceptual Captions — 21.6 29.8 18.9 — — — — 18.2 26.8 9.503. STVGBert [65] ImageNet + Visual Genome + Conceptual Captions — 24.0 30.9 18.4 — 22.5 26.0 16.0 20.4 29.4 11.304. TubeDETR（我们的模型） ImageNet 43.1 28.0 39.9 26.6 42.3 25.1 35.7 22.4 23.7 36.0 17.205. TubeDETR（我们的模型） ImageNet + Visual Genome + Flickr + COCO 48.1 37.8 53.5 39.9 46.9 31.8 44.9 31.8 43.7 65.0 46.10表4. 在VidSTG测试集和HC-STVG1测试集上与现有技术的比较。0空间分辨率和时间步长k的影响。在本节中，我们分析了帧分辨率和时间步长k对时空视频定位性能的影响。在表3中，我们展示了增加分辨率对VidSTG和HC-STVG2.0数据集的性能的重要影响（见第2行和第4行）。然而，这也导致了显著更高的内存使用（16.2GB vs 23.7GB）。因此，在TeslaV100 32GB GPU上，使用时间步长k =1的变体在分辨率高于224的VidSTG上训练是具有挑战性的。在固定的224分辨率下，将时间步长k增加到2或5可以分别减少7.7GB或12.1GB的内存使用峰值（见第1行与第2行或第3行的比较）。我们提出的视频文本编码器使我们能够在给定内存使用情况下训练更高分辨率的模型。这导致了更好的性能-内存权衡（第4、5、6、8行），优于时间步长k =1的基准变体（第1行）。特别地，最佳的时空视频定位结果（mvIoU和vIoU @ R）在两个数据集上都是在时间步长k =4和分辨率352下获得的（第6行）。我们注意到，随着分辨率的增加，进一步增加的性能收益预计会降低，因为它们受到原始视频分辨率的限制。例如，VidSTG和HCSTVG2.0中的平均视频像素高度分别为440和490像素。快速分支的影响。最后，我们通过将最佳变体（时间步长k =4和分辨率352）的慢-快视频文本编码器与仅慢的变体进行比较，验证了我们快速分支的重要性，后者对应于f = 0和g=0。在这种情况下，视频文本特征是慢速视频文本特征。通过比较表3中的第6行和第7行，我们可以看出我们的快速分支显著提高了时空视频定位的性能（+1.9% vIoU @0.3）。0在VidSTG上，计算内存开销低（+1.3% mIoU@0.5，+1.9% vIoU@0.3），这表明快速分支通过慢速分支中的时间采样操作恢复了有用的时空细节。我们在补充材料中进一步分析了快速和聚合模块f和g的设计。04.3. 与现有技术的比较0在本节中，我们将我们的方法与时空视频定位的最先进方法进行比较。我们报告了在之前的消融研究中获得最佳验证结果的模型的结果，即我们的带有时间编码和时间自注意力的时空解码器，时间步长k=4和分辨率352。我们的工作重点是时空视频定位指标（m vIoU和vIoU @R）。如表4所示，仅使用ImageNet初始化视觉骨干（第4行），我们的TubeDETR相对于最先进的方法（第2行和第3行），包括使用大规模图像-文本预训练的方法，在VidSTG和HC-STVG1上都有显著改进。此外，如果我们使用MDETR初始化（第5行），我们的TubeDETR在两个数据集上都大幅优于所有先前的方法（第1行，第2行和第3行）。STGRN[100]实现了类似的mtIoU（仅测量时间定位），但它定义了一组手工制作的可能窗口宽度来处理时间定位，而我们考虑所有可能的窗口，即任何起始帧i和结束帧j，其中i

下载后可阅读完整内容，剩余1页未读，立即下载