长期视频的时间对齐网络

88 浏览量更新于2023-10-26 收藏 14.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Tengda Han1Weidi Xie1,2Andrew Zisserman11Visual Geometry Group, University of Oxford2Shanghai Jiao Tong Universityhttps://www.robots.ox.ac.uk/˜vgg/research/tan/29060长期视频的时间对齐网络0摘要本文的目标是设计一个时间对齐网络，该网络接收长期视频序列和相关文本句子，以便：(1)确定句子是否与视频对齐；(2)如果对齐，则确定其对齐方式。挑战在于从大规模数据集（如HowTo100M）中训练这样的网络，其中相关文本句子存在显著噪声，并且只有在相关时才会弱对齐。除了提出对齐网络外，我们还做出了四个贡献：(i)我们描述了一种新颖的共同训练方法，可以在不使用手动注释的情况下去噪和训练原始教学视频，尽管存在相当大的噪声；(ii)为了对齐性能进行基准测试，我们手动策划了HowTo100M的10小时子集，共计80个视频，其中包含稀疏的时间描述。我们提出的模型在HowTo100M上训练，相对于强基线（CLIP，MIL-NCE），在这个对齐数据集上取得了显著的优势；(iii)我们在零样本设置中将训练好的模型应用于多个下游视频理解任务，并取得了最先进的结果，包括在YouCook2上的文本-视频检索和在Breakfast-Action上的弱监督视频动作分割；(iv)我们使用自动对齐的HowTo100M注释来对骨干模型进行端到端微调，在下游动作识别任务上获得了改进的性能。01. 引言0最近的CLIP和ALIGN论文[30,53]已经证明，通过大规模配对的图像字幕数据和简单的噪声对比学习损失，可以从头开始学习强大的图像-文本嵌入。图像字幕数据可以从互联网上大规模爬取，例如从图像的alt-text中，得到的嵌入向量表现出强大的“零样本”泛化能力。在视频领域，也存在大规模的文本监督来源，例如解释他们在执行复杂任务时的行动的口述教学视频，如HowTo100M[47]数据集。这些叙述是无约束的且0可以是组合复杂的，包括“什么”，“在哪里”和“何时”的信息，例如行动、物体、人物-物体互动等。0然而，与图像字幕场景相比，这些教学视频面临着额外的基本挑战，因为存在时间对齐问题（如图1所示）：(i)演示者经常发表与视觉信号无关的陈述，例如描述食物口味或解释行动的后果。这些文本无法与视觉对齐。(ii)演示者可能在执行动作之前或之后解释他们的行动，他们的陈述往往不按照相同的顺序进行，导致文本和视觉实体异步。这些文本与视觉信号的时间上不对齐。此外，与图像中的空间分割不同，图像中的对象边界通常是由具有强梯度的区域之间的不连续性形成的，而视频中的时间动作通常是连续的，这使得很难明确定义时间间隔的起点和终点。最后但并非最不重要的是，口述叙述中存在来自不完美的自动语音识别（ASR）系统的额外噪声。请注意，图像字幕数据不会面临这些问题，因为字幕是由人类注释者为该图像提供的；尽管可能不完整，但不存在时间对齐问题。0这些对齐挑战的程度是相当大的[46,47]。在我们为这项工作注释的10小时教学视频（来自HowTo100M）中，只有30%的叙述句与视觉对齐，只有15%的句子自然上对齐。这意味着演示者仅在视频中的15%时间内与视频同步描述他们的动作。如果解决了对齐问题，那么从这样的叙述性教学视频中学习的好处可能是巨大的：通过额外的时间轴对齐，模型可以被训练来处理细粒度任务，并预测时间上的动作定位和分割。0在本文中，我们解决了句子到视频的时间对齐问题，并提出了一种时间对齐网络（TAN），它接收视频序列及其相关的叙述句，关注一个大的时间上下文。0:33.001:20.000:38.000:45.000:51.000:54.001:14.001:18.000:30.0029070�0�0将番茄放在托盘上，撒上一些盐和糖，再加一些橄榄油0因为你想要那种好嚼的口感，好土的味道，这些放入烤箱烘烤90分钟，可以加快干燥过程0时间戳：0可对齐性0图1：原始教学视频中视觉-文本不对齐的示例。演讲者的叙述可能与视觉内容完全不相关，例如描述味道；或者与视觉内容存在时间差异。�和�分别表示可对齐和不可对齐的文本（根据人工判断）。彩色条显示了叙述的起始-结束时间戳。示例来自https://www.youtube.com/watch?v=M8OGXmLTTiI?t=30。0在两者中都存在文本，并且能够：（1）确定一个句子是否与视频对齐；（2）如果对齐，然后确定其时间对齐。鉴于上述所有挑战，对原始教学视频（例如HowTo100M）进行这样的网络训练显然是一项非常困难的任务。为此，我们提出了一种新颖的去噪方法，通过与辅助的双编码器网络共同训练TAN。从设计上看，这两个网络使用互补的架构：TAN从视觉和文本模态中迭代地关注时间上下文，为可对齐的句子建立准确的对齐；而双编码器独立地处理视觉和文本模态，使其能够轻松地发现不可对齐的句子，例如对视频中的所有帧都发出低对齐分数的句子。这两个网络的输出可以被视为对齐的两个不同视角，并且它们的相互一致性被用于共同训练。除了介绍模型和训练方法之外，我们还做出了以下贡献：（1）我们手动注释了HowTo100M的80个视频子集，命名为HTM-Align，将与视觉相关的句子分配给相应的时间戳，并注释了与视觉无关的句子。这个对齐的子集用于评估模型的性能，并公开发布；（2）我们在HowTo100M数据集上训练模型，并在对齐方面相比之前的工作（特别是[46]的MIL-NCE方法）取得了显著的改进；（3）我们将训练好的模型应用于零样本和微调设置，用于多个下游视频任务，并在这两个设置上取得了最先进的结果。这包括在YouCook2[75]上进行文本-视频检索和在Breakfast-Action[34]上进行弱监督视频动作分割；（4）我们使用自动对齐的HowTo100M注释对骨干模型进行微调，并观察到在下游动作分类任务上的性能提升。02. 相关工作0联合视觉-文本学习在计算机视觉领域有着悠久的历史。例如，Mori等人的早期工作[49]探索了图像和文字之间的联系。0在配对的文本文档中，[68]学习了一个联合的图像-文本嵌入，用于类名注释的情况。最近的作品，如CLIP [53]和ALIGN[30]表明，大规模配对的图像-标题数据结合简单的噪声对比学习损失能够学习到强大的视觉表示。在视频领域，这也是正确的，正如MIL-NCE [46]，ALBEF [41]和VideoClip[71]所示。0视觉-文本检索学习了一个联合嵌入空间，既包括视觉又包括语言，可以使用双编码器[2, 19, 23, 24, 30, 33, 47,51-53]，其中视觉和文本输入被独立编码，也可以使用多模态Transformer构建联合编码器[13, 39, 43, 44, 62, 63,74]，其中视觉和文本输入被输入到跨模态注意力中计算相似度。尽管更准确，联合编码器的计算限制了其在大规模检索系统中的使用。在[45]中，作者提出通过仅在重新排序时使用联合编码器来加速该过程。在这项工作中，我们也同时使用联合编码器和双编码器，但目的不同-利用它们的互补信息进行共同训练。0视觉-文本对齐旨在将单词或句子临时分配给相应的视频片段。类似的任务是弱监督动作分割，试图划分与给定动作列表对应的视频片段[5, 6, 9, 18, 29, 36, 40, 54,79]。在转录对齐[15, 56, 57, 64,78]中，给出了描述视频中一系列事件的脚本，目标是将每个脚本文本分配给适当的视频片段（镜头）。与我们的目标更密切相关的是寻求序列之间全局对齐的方法，使用软动态时间规整（DTW）[16]。最近的Drop-DTW[20]提出通过允许对齐过程自动跳过某些步骤来处理序列中的异常值。这与我们识别不可对齐句子的目标类似。然而，由于HowTo100M中可对齐句子的顺序不遵循字幕的原始顺序，这排除了使用DTW类型方法的可能性。3.1. Problem ScenarioGiven an untrimmed instructional video X = {I, S},where I = {I1, I2, . . . , IT } refers to the correspondingvideo with T frames, and S = {S1, . . . , SK} denotes theK given sentences (ordered by time). For each sentence,we also have their timestamps obtained from YouTube ASR(e.g. [tstartk, tendk ] for the k-th sentence). In this paper, ourgoal is to train a temporal alignment network on a videodataset of instructional videos, which takes the videos andsentences as inputs, and outputs a textual-visual similaritymatrix (ˆA), as well as an alignability score for each sen-tence:{ˆy, ˆA} = Φ(X; Θ),ˆA ∈ RK×T(1)where ˆy ∈ RK×2 refers to binary scores for all sentences,indicating whether the sentence is alignable. ˆA denotes thesimilarity matrix between frames and the given sentences,where for any alignable sentence it should emit a higherscore with its corresponding video timestamps than others,and Θ are the parameters of the model.3.2. Temporal Alignment Network (TAN)As shown in Figure 2 (left), the alignment network takesa video sequence and its associated narration / text sen-tences as input, and attends to the long temporal contextsin both, in order to: (i) determine if a sentence is alignablewith the video (ˆy), and (ii) output the alignment matrix (ˆA).Next, we describe the alignment network, consisting ofa visual-textual backbone, Multimodal Transformer, andalignability prediction module.Visual-Textual Backbone.Given a long instructionalvideo (e.g. 64s) with its associated sentences, we first ex-tract the visual and textual features with pre-trained net-works. Specifically, based on MIL-NCE [46], we use theirpre-trained S3D-G backbone to extract video features, and a2-layer MLP with the word2vec embeddings [48] to extractsentence features.v = f(I) ∈ RT ×Cs = g(S) ∈ RK×C(2)v, s refer to the computed video and text features respec-tively, and each is of dimension C, in general, T ≫ K.Multimodal Transformer. This module jointly processesthe visual-textual features (v, s) with a multi-layer Trans-former Encoder, which iteratively attends to both modalitiesto establish the text-to-video correspondence:[ˆv; ˆs] = ΦMT([v + TE; s])(3)where ΦMT refers to the Multimodal Transformer Encoder,TE denotes the learnable temporal embedding, ˆv ∈ RT ×Cand ˆs ∈ RK×C are the output visual and textual embeddingsfrom the Multimodal Transformer, and the “[; ]” symbol de-notes concatenation. The alignment matrix ˆA ∈ RK×T iscomputed via cosine similarity:ˆA[i,j] =ˆsi · ˆvj∥ˆsi∥∥ˆvj∥(4)Alignability Prediction Module.Apart from estimat-ing the alignment matrix, another main functionality of thealignment network is to infer whether a particular sentenceis alignable or not. This is achieved by training a singlelinear layer (ϕ(·)) on the textual features, as shown in Fig-ure 2 (left):ˆy = ϕalign(ˆs)(5)where ˆy ∈ RK×2 refers to the binary predictions for allsentences, deciding if the sentence is alignable or not.29080共同训练和自训练是无监督和弱监督学习的常用技术。共同训练[4]构建了两个模型来学习数据的不同视角，同时使用一个模型扩展另一个模型的训练集。它最近被用于表示学习[26,65]。自训练是指根据模型自身的预测生成伪标签进行训练的过程。它已经被用于图像分类[1, 7, 8,69]、目标检测[14]和机器翻译[27]。我们的工作与这一研究方向相关，其中TAN和辅助网络自我纠正噪声注释，使得两个网络都能通过在更干净的数据上进行训练逐渐提高性能。监督动作分割和检测已经在许多视频数据集上进行了广泛研究，例如Breakfast-Action [34]，YouCook2[75]，Charades [59]，ActivityNet [28]，EPIC-Kitchens[17]。对于分割，目标是将视频的每个时间点密集地分类为预定义的动作类别[3, 5, 12, 21, 22, 34, 37, 38, 55,60]。研究已经着重设计有效的模块来捕捉不同视频块之间的依赖关系[21, 37, 38,60]。对于检测，目标是定位稀疏分布的动作片段，即注释是不连续的。一般来说，有两阶段的方法，包括一个单独的动作提议阶段和一个分类阶段[11, 42, 58, 70,73]，以及将两者结合起来的一阶段方法[50, 72]。03. 方法0我们首先在第3.1节中描述问题场景，然后在第3.2节中介绍了我们提出的对齐网络的架构。在第3.3节中，我们描述了一种原始指导视频的天真训练过程，其中由YouTubeASR提供文本-视频对应关系，尽管存在相当大的噪声。在第3.4节中，我们提出了共同训练方法，利用对齐网络和辅助双编码器之间的相互一致性，能够同时去噪和从嘈杂的叙述性指导视频中学习。T×CVideo TransformerK×CK×TMultimodal Transformer- i sprinkle over with some salt and sugar- extra virgin olive oil- that gives a nice earthy flavour- i sprinkle over with some salt and sugar- extra virgin olive oil- that gives a nice earthy flavourK×T(T+K)×C0/10/10/1K�i∈Pk exp (ˆA[k,i]/τ)iexp (ˆA[k,i]/τ) +jexp (ˆA[k,j]/τ)ˆvd = ΦD(v + TE) ∈ RT ×C(7)29090双编码器0联合编码器0时间对齐0网络0图2：左：时间对齐网络（TAN）以未修剪的长视频作为输入，首先通过预训练的3DConvNet（f（.））和预训练文本模块（g（.））提取视觉和文本特征。将视觉特征和文本特征进行串联，并传入一个多模态Transformer编码器，即联合编码器，其中注意力可以捕捉视觉和文本模态之间的交互。线性头 ϕ对输出文本嵌入的对齐性进行分类。右：为了在嘈杂的教学视频上训练TAN，我们构建了一个辅助的双编码器，它接收相同的视觉和文本特征作为输入，但只使用视频Transformer编码器来处理视频数据的自注意力。对于TAN和双编码器，分别计算输出文本特征和输出视觉特征之间的相似度矩阵 ˆ A ， ˆ A d，这些矩阵在共同训练阶段中使用，如第3.4节所介绍。03.3.训练0在本节中，我们描述了一种简单的训练过程，用于使用对比学习在具有YouTubeASR时间戳的教学视频上训练对齐网络。请注意，在此阶段，所有句子都有其对应的视频时间戳，并被视为可对齐。因此，在这里无法训练对齐性预测模块。时间对应关系。对于一个具有K个句子的视频，我们直接将其YouTubeASR结果转换为1D二进制掩码，其中1表示演示者说话的时间戳，即 Y = { m 1 , . . . , m K }，其中 m i ∈ R 1 ×T。因此，目标是共同优化视觉-文本嵌入，使得句子与其对应的视觉帧之间的相似度得分最大化。训练目标构建如下：0L TC = -0k =10（6）其中 P k ∈ { m k = 1 }，N k ∈ { m k = 0 }分别指代正对和负对的集合。L TC类似于InfoNCE损失的一种变体[66]。0讨论。在具有对齐的地面真值注释的情况下，优化L TC将是简单的。然而，在提供的YouTubeASR时间戳高度不可靠且噪声比例极高的原始教学视频上，朴素地优化L TC会导致次优结果，如第5.2节所示。一般来说，原始教学视频中的噪声源主要可以分为三种类型，如图1所示：首先，给定句子的大部分是与视频内容无关的（不可对齐）；其次，存在对齐偏移，即所说句子的时间间隔很少与其所指的视频片段对齐；第三，演示者经常发表与其行动顺序不一致的陈述，这排除了使用DTW类型方法的可能性。0实际上与视频内容无关（不可对齐），例如问候、聊天；其次，存在对齐偏移，即所说句子的时间间隔很少与其所指的视频片段对齐；第三，演示者经常发表与其行动顺序不一致的陈述，这排除了使用DTW类型方法的可能性。03.4.共同训练在本节中，我们提出了一种新颖的共同训练方法，用于去噪教学视频并训练对齐网络。具体而言，我们引入了一个双编码器（第3.4.1节），可以看作是对齐网络的协作者。该过程的详细步骤如下。03.4.1 双编码器如图2（右）所示，双编码器独立地使用Transformer编码器[67]处理视觉特征。它被设计为与对齐网络互补：例如，双编码器快速且轻量，可以训练大量的视觉-文本对，但它只允许两种模态在最后阶段进行通信，因此无法捕捉文本上下文，并且对于检测不对齐的文本更敏感；而所提出的TAN由多模态Transformer组成，始终可以访问两种模态，并且可以学习在网络内建立视觉-文本对应关系。尽管对于时间对齐任务有益，但TAN速度较慢且计算需求高，限制了其与大规模和多样化的负视觉-文本对进行对比的能力。形式上，对于双编码器，我们有：0:30.001:20.00 0:30.001:20.00✔✘0:30.001:20.00✔✘✘✘✘lay tomatoes on the traythese go into the oven for 90 minutesi sprinkle over with some salt and sugarit speeds up the drying processbecause you want that nice chewy textureextra olive oilnice earthy flavour0:30.001:20.00Pseudo Alignabilitydrops non-alignable textDualTANYouTube timestampsself-labelled timestampsˆAd[i,j] =si · ˆvdj∥si∥∥ˆvdj ∥(8)k(9)ϵk =1ˆm′kˆm′k · (ˆA + ˆAd)[k,:](10)29100双编码器输出 TAN输出0伪标签0一致性0过滤IoU0过滤可对齐性0推断的时间戳0图3：相互一致性去噪的示意图。视频样本与图1中相同。 (a)：TAN在第一阶段训练后的对齐矩阵A。(b)：双编码器在第一阶段训练后的对齐矩阵Ad。 (c)：从两个对齐矩阵中推断出最对齐的时间戳。(d)：通过过滤伪时间戳的IoU和通过�/�标记可对齐/不可对齐的文本，模型动态选择对齐的时间段进行训练，并忽略不可对齐的时间段。对于这个例子，自标注过程纠正了第1和第3个句子的时间戳，并将其余的句子标记为不可对齐。这大致与图1中的对齐的人工判断相匹配。这里显示的对齐矩阵的值是从表1中训练的模型A计算出的。0其中Φ D指的是视频Transformer，TE是可学习的时间嵌入，用于提供时间顺序。从双编码器计算得到的文本-视觉余弦相似性矩阵ˆ A d ∈ R K × T 如下所示：03.4.2 通过相互一致性去噪0为了去噪YouTubeASR注释，我们通过验证对齐网络和双编码器的输出对齐矩阵之间的相互一致性来生成伪标签（包括可对齐性和时间戳）。即ˆ A 和 ˆ A d 的相互一致性验证过程分为三个步骤：(a)推断时间戳。在训练过程中，对于每个句子，我们使用两个输出对齐矩阵ˆ A 和 ˆ A d ∈ R K ×T（图3-a、b）来推断最可信的对齐时间戳。为了避免异常点，对于第k个句子，我们扫描其对应的相似性行，通过在一个与其原始YouTube时间戳标签相同大小的时间窗口内对分数进行平均，该窗口与其原始YouTube时间戳标签的持续时间相同，即由演示者确定的句子。然后，我们通过取argmax来选择最可信的预测。注意，这样的操作最终得到一个与YouTube时间戳持续时间相同的单个时间窗口。也就是说，我们只是将原始YouTube标签的时间位置移动到最可信的预测位置。在这一步骤中，对于第k个句子，我们得到两个“移动后”的时间戳ˆ m k 和 ˆ m d k，一个来自对齐网络，另一个来自双编码器，如图3-c所示。 (b)使用IoU进行对齐重叠。给定句子k的推断时间戳，我们计算一个交并比（IoU）分数来衡量移动后的时间戳之间的一致性：0IoU分数 k = ˆ m k ∩ ˆ m d k0高IoU分数表示句子很可能与推断的时间戳对齐。对于一个批次，我们通过一个正的IoU分数过滤句子，并通过它们推断的时间戳的并集来更新它们的时间戳。0ˆ m k ∪ ˆ m d k。经验上，我们发现这个操作大约更新了30%的句子的时间戳。对于IoU分数为零的句子，我们保持它们的YouTube时间戳不变。这样的操作最终得到一组更新后的时间戳{ ˆ m ′1 , . . . , ˆ m ′ K }，适用于所有句子。此外，为了反映每个句子的可对齐性，我们可以计算落入新时间段的平均余弦相似性分数。形式上，对于第k个句子，0其中 ϵ k是对齐分数。简单来说，如果一个句子具有正的IoU分数，我们在推断的时间戳的并集内计算其对齐分数；如果它的IoU分数为零，我们在其原始的YouTube时间戳内计算其对齐分数。（c）过滤对齐性。为了过滤对齐性分数，即 { ϵ 1 , .. . , ϵ K } ，我们引入一个超参数 α ∈ [0 , 1]，在一个样本批次中，我们将具有前 100 α %的对齐分数的句子视为正样本，将后 100(1 - α) %的句子视为负样本。这为对齐性提供了二进制伪标签，表示为 y pseudo。因此，对齐性预测模块可以进行二分类训练，使用交叉熵损失（如图2所示），即 ˆ L Alignability = CE(ˆ y, ypseudo )。直观地说，这意味着，如果对齐网络和双编码器都认为句子与其相应的时间戳具有很高的相似性，则将该句子视为可对齐。此外，L TC （公式6）仅对前 100 α %的句子进行训练。在我们的实验中，我们在 α ∈ { 0.25 ,0.5 , 0.75 } 范围内进行了调整。03.4.3训练周期总结起来，训练可以分为两个阶段。在第一阶段（S1：初始化）中，使用给定的YouTube时间戳作为标签，同时训练对齐网络和双编码器，使用 L TC进行训练。一旦热身完成，新的伪标签将根据对齐网络和双编码器之间的相互一致性即时生成，并开始第二阶段的训练（S2：协同训练），使用 L total = ˆ L TC + ˆ LAlignability。请注意，不需要迭代S1和S2，因为在S2中，伪标签的质量可以随着训练的进行而改善。29110EMA机制（下面介绍）。在我们的实验中，默认情况下，我们训练S1进行50k次迭代，然后再训练S2进行另外50k次迭代。这相当于在HTM-370K上进行了8个时期的训练。03.4.4带有EMA的自标记使用对齐网络和双编码器之间的相互一致性进行协同训练可能会导致平凡的解决方案，其中对齐网络和双编码器学习“合作”，并为某些固定的时间戳分配高相似性分数。我们通过保持模型的指数移动平均（EMA）来避免这种“崩溃问题”，类似于BYOL[25]。EMA分支仅缓慢更新，并用于生成去噪的一致性，如第3.4.2节所介绍。主分支使用更新后的时间戳和对齐性进行训练。在我们的实验中，我们使用与BYOL相同的动量系数（0.99）。默认情况下，所有的评估都使用主分支。04. 实验0在本文中，我们在HowTo100M数据集的一个子集上训练了提出的时间对齐网络[47]。首先，我们描述了数据准备过程，并提供了用于评估的HowTo100M的注释视觉-文本对齐子集（命名为HTM-Align）。然后，我们描述了对齐任务的实现细节和消融研究。04.1. 数据准备0HowTo100M是一个从YouTube上爬取的大规模教学视频数据集，包含约1.2M个视频及其由语音（ASR）生成的文本转录。每个句子的开始和结束时间戳由ASR提供，但它们通常与视觉场景不是语义对齐的（图1）。04.1.1HTM-370K（训练）我们主要使用原始HowTo100M的一个子集进行训练，其中包含来自“食品与娱乐”类别的370K个视频，占整个HowTo100M数据集的32％。除了对齐问题之外，我们还发现字幕中存在三个其他问题：语言翻译错误，重复文本和不完整的句子片段。作为数据集预处理，我们使用开源的基于BERT的模型进行自动筛选。有关自动筛选的详细信息可以在附录中找到。在自动处理和过滤低质量字幕之后，我们得到了一个包含370K个指导性视频的子集，因此命名为HTM-370K。请注意，所有的清洁步骤都是自动完成的，使用的是通过自监督学习训练的模型。我们将HowTo100M的预处理视为一项小的贡献，并将所有清理后的视频ID和字幕公开提供。04.1.2 HTM-Align（评估）0我们从HTM-370K中随机选择80个视频作为用于评估目的的测试集。这些视频的长度从2到16分钟不等，总计10小时。我们手动为每个句子标记对齐性，即二进制注释。对于那些可对齐的句子，我们进一步将它们与具有起始-结束时间戳的视频片段对齐。总共手动检查了49K个句子，其中13K个句子被手动对齐。平均每个视频包含61个句子，其中17个句子是视觉对齐的。与现有的YouCook2基准不同，那里的注释者只是将固定的食谱步骤重新表述为动作描述，HTM-Align包括没有固定食谱的随机教学视频，并且是从演示者的叙述中采用的，稍作修改，因此在视频和文本上具有很大的多样性。注释和示例的详细信息可以在附录中找到。04.2.实施细节在训练期间，我们采用预训练的S3D（由[46]发布）作为视频编码器。具体而言，当视频以16fps解码时，S3D网络为每16帧输出一个特征向量（1024D），这相当于每秒1个特征，没有时间重叠。对于文本编码器，我们使用基于Word2Vec嵌入的词袋（BoW）。默认情况下，在每个视频中，我们随机采样一个64秒的时间窗口（即64个连续的视觉特征，在消融研究中我们还尝试了32秒和128秒），以及在此时间窗口内的相应字幕。我们使用AdamW优化器和10^-4的学习率训练模型，批量大小为64个视频。有关完整的实施细节，请参见附录。05.对齐结果0在本节中，我们报告了在HTM-Align数据集上进行的我们提出的时间视觉-文本对齐任务的实验结果。具体而言，在推理过程中，给定由演示者提供的视频和一系列句子，我们从我们的对齐网络中获取对齐矩阵ˆA∈RK×T，其中K、T分别表示句子和视频时间戳的数量。05.1.指标0我们为对齐任务测量了两个指标，Recall@1和ROC-AUC值。Recall@1指标是[79]中介绍的“指向游戏”。具体而言，对于考虑的句子，如果其最大匹配的视频时间戳落在真实段内，就计为成功召回。然后，将召回分数在所有文本段上进行平均。对齐性预测是一个二分类问题，如3.1节所介绍，我们使用ROC曲线并报告曲线下面积（ROC-AUC）值。AHTM-370K646-6✓✗–45.873.0∗CHTM-370K646-6✓✓0.2542.579.7DHTM-370K646-6✓✓0.549.482.4EHTM-370K646-6✓✓0.7548.882.2FHTM-370K326-6✓✓0.541.177.5GHTM-370K1286-6✓✓0.548.481.8HHTM-Full646-6✓✓0.549.282.629120基本设置训练阶段阶段2设置对齐-HTM0模型数据集长度（＃秒）＃tfm层数S1：初始化S2：自我阈值α R@1↑ ROC-AUC↑0CLIP（ViT-B/32）[53] YFCC-400M – – – – – 16.8 71.7 �0MIL-NCE [46] HTM-Full（未筛选）– – – – – 31.3 73.1 �0B HTM-370K 64 3-3 � � – 42.3 72.6 �0表1：HTM-Align数据集上的对齐结果。�：由于模型没有用于对齐性的二分类器，对于每个句子，我们将其在时间上的最大logits作为对齐性度量来计算ROC-AUC。对于“＃tfm层数”列，我们显示我们在TAN和双编码器中使用的Transformer编码器层数。5.2.消融研究0在本节中，我们研究了多个设计选择的影响并讨论了结果。与基准比较。在表1中，前两行是来自CLIP（ViT-B/32）[53]和MIL-NCE[46]的基准。具体而言，我们使用它们的文本和视觉编码器计算对齐相似性矩阵，按照它们的预训练范式对分数进行归一化，并在对齐矩阵上计算R@1。请注意，对于ROC-AUC，由于CLIP和MIL-NCE没有特定的二分类器，对于每个文本，我们直接使用其最大相似性分数（在时间轴上）作为对齐性的指标。首先，CLIP[53]在这个对齐任务上表现明显较差。一个可能的原因是CLIP只在图像上进行了训练，因此缺乏视频动态。MIL-NCE是一个强大的基准，具有短期时间建模（长达3.2秒）并在HowTo100M上进行了端到端训练。在我们的模型-A中，我们采用了MIL-NCE的预提取视觉和文本特征，并在HTM-370K数据集上训练Transformer以学习对齐任务的更长时间上下文（例如64秒）。我们的结果（模型-A 45.8 R@1 vsMIL-NCE 31.3R@1）表明，更长的时间上下文对于这个对齐任务是有用的。Transformer深度的影响。对于对齐网络和双编码器，我们默认使用6层Transformer，以在性能和训练成本之间取得平衡。在模型-B中，我们还尝试使用3层Transformer，并发现其性能比6层Transformer差（模型-B vsA）。使用超过6层会占用更多内存并牺牲批量大小。共同训练的影响。在模型-{D,E}中，我们基于模型-A应用了第二阶段的训练（共同训练）。我们观察到共同训练为对齐任务带来了明显的性能提升（模型-{D,E} vs.model-A，在R@1上提升3-4%），验证了去噪过程的有效性。请注意，由于对齐性阈值α的选择不当，模型-C的表现不佳，下面将进行解释。0对齐阈值的影响。对于对齐阈值α的选择（如第3.4节所介绍），它反映了共同训练过程中数据噪声和多样性的平衡，我们的模型-{C,D,E}显示α=0.5和α=0.75对于对齐度量工作效果相似，而α=0.5对于R@1度量略好一些。然而，α=0.25会导致性能大幅下降。我们推测，较低的α值限制了LTC的多样性（即LTC仅从25%的句子中学习）。训练数据的影响。在模型H中，我们在自动策划的HTM-Full数据集上训练了共同训练阶段，该数据集包括与HTM-370K相比的HowTo100M中的所有其他非烹饪类别。将模型H与D在对齐任务上进行比较，添加域外视频不会损害我们策划的子集上的对齐性能。输入视频长度的影响。在表1中，我们改变输入视频的长度，以显示我们的对齐网络是否受益于更长的视频上下文。确实，当将输入视频长度从32秒增加到64秒时（模型D与模型F相比），对齐网络获得更好的性能。我们推测，采样更长的输入视频引入了更多可对齐的句子，有助于减少其他句子的时间模糊性。然而，进一步将输入视频长度增加到128秒会得到类似的对齐性能（模型G与模型D相比），我们推测这是由于训练中的批量大小减小，远离的视觉上下文（即2分钟或更远）对于对齐句子不太相关。6.下游任务除了在HTM-Align上评估对齐任务外，我们还在其他下游任务上测试了我们的对齐网络。具体而言，我们使用双编码器进行基于文本的视频检索（出于速度考虑[45]）。我们还评估了基于骨干特征的线性动作分类，以显示自动对齐数据集的效果。有关完整细节，请参见附录。29130方法在BF上训练 F-Acc ↑ IoU ↑ IoD ↑0MIL-NCE [46] �（ZS）59.3 46.8 65.1我们的（S1+S2）�（ZS）65.1 50.6 68.60D 3 TW [9] � 57.0 - 56.3 CD

下载后可阅读完整内容，剩余1页未读，立即下载