TACo：面向令牌感知级联对比学习的视频-文本对齐

138 浏览量更新于2023-10-13 收藏 12.36MB PDF 举报

对比学习

模型改进

身份认证购VIP最低享 7 折!

30元优惠券

Contrastive Loss(add, tomatoes, pan, stir)𝐿2𝐿1𝐿3……115620TACo：面向令牌感知级联对比学习的视频-文本对齐0Jianwei YangMicrosoft Research0jianwyan@microsoft.com0Yonatan Bisk CarnegieMellon University0ybisk@cs.cmu.edu0Jianfeng GaoMicrosoft Research0jfgao@microsoft.com0摘要0对比学习已广泛应用于训练基于Transformer的视觉语言模型，用于视频文本对齐和多模态表示学习。本文提出了一种名为TACo（Token- Aware Cascade ContrastiveLearning）的新算法，通过两种新技术改进了对比学习。第一种是令牌感知对比损失，它通过考虑词的句法类别来计算。这是基于这样的观察：对于一个视频-文本对，文本中的内容词（如名词和动词）与视频中的视觉内容的对齐更加可能，而功能词则不太可能。第二种是级联采样方法，用于生成一小组硬负例，以便有效估计多模态融合层的损失。为了验证TACo的有效性，我们在实验中微调了预训练模型，包括文本-视频检索（YouCook2、MSR-VTT和ActivityNet）、视频动作步骤定位（CrossTask）、视频动作分割（COIN）等一系列下游任务。结果表明，我们的模型在不同的实验设置下都取得了一致的改进，成为YouCook2、MSR-VTT和ActivityNet三个公共文本-视频检索基准的最新最佳结果。01. 引言0在视觉语言（VL）研究背景下，将语言与视频对齐或关联是一个具有挑战性的主题，因为它要求模型理解视频中呈现的内容、动态和因果关系[3]。受到BERT在自然语言处理中的成功启发，越来越多的研究兴趣集中在应用基于Transformer的多模态模型进行视频文本对齐和表示学习[40, 39, 59,32, 14,27]。这些模型通常使用对比学习在大量的噪声视频文本对上进行预训练[34,33]，然后以零样本方式应用于各种下游任务，如文本-视频检索[51]、视频动作步骤定位[60]、视频动作分割[42]、视频问答等。0语言编码器0多模态融合层0对比损失0对比损失0视频编码器0� ′ 硬负例0� − 1 负例0H0将混合的番茄加入锅中并搅拌。0文本-视频对0对齐0分数0硬负例挖掘0图1：提出的面向令牌感知级联对比学习流程。我们计算三个对比损失：1）句级损失L1，针对所有负例；2）令牌级损失L2，针对所有负例中的内容词（名词、动词）；3）基于L1和L2在线采样的硬负例的句级损失L3。0回答[43,26]和视频字幕生成[57]。本文提出了一种名为TACo（Token- Aware Cascade ContrastiveLearning）的对比学习新变体，旨在改进大规模预训练和下游特定任务的视频-文本对齐。正如其名称所示，TACo对视频-语言领域中常规对比学习进行了两个修改。第一种是令牌感知对比损失，它通过考虑词的句法类别来计算。这是基于这样的观察：对于给定的视频及其对应的文本，与视频中的视觉内容对齐（或基于视觉内容）的内容词（如名词和动词）比功能词更有可能。常规对比学习通常在聚合文本中的所有单词和视频中的所有帧之后计算损失（图1中的L1或L3）。相反，令牌感知对比损失仅使用句法类别属于预定义集合（如名词和动词）的子集单词进行计算，这迫使将单词的基于令牌的对齐（损失L2）到视频中。例如，我们特别关注图1中的“add”、“tomatos”、“pan”和“stir”这些词。115630我们介绍的第二种技术是级联采样方法，用于找到一小组难例，以训练多模态融合层。考虑一个批次的K个视频-文本对。对于每个视频-文本对，理想情况是我们使用剩余的K-1个负面视频或文本来计算多模态融合之后的对比损失。然而，考虑到与多模态融合层耦合时计算对比损失的成本很快变得不可行，因为其复杂度很高，为O(K^2 *L^2)，其中L是视觉和文本标记的总数。解决这个问题的常规方法是使用随机采样来选择一小部分负样本对。在本文中，我们提出了一种级联采样方法，如图1右上所示，以在训练过程中高效地选择一小组难例。它利用在多模态融合层之前计算的L1和L2的视频-文本对齐分数，并且在没有任何额外开销的情况下更有效地学习多模态融合层。我们进行了全面的实证研究，验证了TACo在预训练和数据集特定场景中的有效性。我们将TACo和不同变体的对比损失应用于各种下游任务的训练或预训练和微调，包括文本-视频检索（YouCook2、MSR-VTT和ActivityNet）[57, 51,12]，视频动作步骤定位（CrossTask）[60]和动作分割（COIN）[42]。我们的结果表明，TACo在三个基准测试中提高了文本-视频检索性能，超过了当前最先进的方法。此外，学习到的多模态表示和视频表示可以有效地转移到CrossTask和COIN，并且实现了与当前最先进方法相比更好或可比较的性能。02. 相关工作0视频-语言预训练。围绕视频的现实应用场景促使了各种视频-语言任务的出现，例如文本-视频检索[29, 54,52]，视频问答[20, 26]，视频字幕生成[53,58]等。受到BERT在语言领域大规模预训练的成功启发[10]，transformer已经被应用于视频-语言领域[40, 59, 32,27]以及图像-语言领域[41, 31, 56,28]。结合大规模数据集，例如Howto100M[34]，这种方法在各种下游任务上被证明是有效的。根据感兴趣的任务，一些方法使用多模态transformer结合多种损失进行训练，包括视频-文本对齐[40, 59, 32,27]，掩码标记（单词/帧/对象）预测[40, 59,32]和帧顺序预测[27]等。其他一些方法利用各种对比学习技术直接优化特征空间，而无需多模态融合[34, 33, 30,14]。在先前的大多数研究中，这两种方法是分开探索的。最近，[32]的更新版本在单一框架中使用了两个独立的对齐损失，在多模态融合之前和之后。然而，在本文中，这两个损失在训练过程中密切合作，早期阶段帮助发现困难的负样本，而具有更大容量的多模态层则帮助处理这些困难样本。0在以前的研究中，这两种方法是分开探索的。最近，[32]的更新版本在单一框架中使用了两个独立的对齐损失，在多模态融合之前和之后。然而，在本文中，这两个损失在训练过程中密切合作，早期阶段帮助发现困难的负样本，而具有更大容量的多模态层则帮助处理这些困难样本。0视频文本对齐。将视频与文本对齐需要模型理解运动和时间上的连贯性。一些研究依赖于注意力机制从视频中提取关键信息[44,54]，而其他研究通过使用3D张量来组合成对的联合表示[52]或使用多级视频编码器分别编码空间和时间线索[11]来保留视觉信息。这些模型通常依赖于排序或边缘损失来学习视频-文本对的正确对齐。另一方面，一些研究学习了细粒度或分层对齐[55, 48,6]。在[48]中，作者提出了一种细粒度对齐方法，通过从句子中提取动作短语中的名词和动词，并将它们投影到与视频共享的空间中。另外，在[6]中，作者提取了一个分层的语义图，并应用图推理来实现不同层次的对齐。类似的想法也被提出用于图像-文本对齐，通过将图像和文本分解为子标记[25,49]。迄今为止，尚未研究这些任务特定架构如何集成到大规模预训练中。在本文中，我们首次提出了一种简单而有效的面向预训练和下游任务的细粒度对齐的令牌感知对比损失。0负采样。高效对比训练的关键是获得良好的负样本来源。目前大多数方法在训练视频-文本对齐时使用随机采样策略[59,32]。然而，在图像-文本检索领域，一些工作尝试了困难负采样，选择最难的负样本进行训练。在[2,13]中，作者计算了一个小批次中所有图像-文本对的对齐分数，并使用最难的负样本计算边际损失。然而，这种策略只能在没有多模态融合的情况下应用。在那些具有用于更好表示的多模态融合层的模型中[31,8]，作者们则离线计算匹配分数，然后使用它来采样困难负样本，以微调图像-文本检索模型，但这对于大规模预训练来说计算成本很高。在本文中，我们的级联困难负采样特别设计用于解决这些问题，我们在多模态融合之前高效地在线选择困难负样本，并将它们发送到融合层以计算损失。正如我们将在实验中展示的，这种技术可以无缝地应用于大规模预训练和下游任务。As depicted in Fig. 1, our model has three components:Video encoding module fθv. It is implemented by a stackof self-attention layers parameterized by θv. Here, we as-sume the input video features have been already extractedusing some pre-trained models such as 2D CNN (e.g.,ResNet [18]) or 3D CNN (e.g., I3D [4], S3D [50]). Giventhe input video embeddings, video encoder starts with a lin-ear layer to project them to the same dimension d as fol-lowing self-attention layers. We denote the output of ourvideo encoder for a video clip by a sequence of m features,x = {x1, ..., xm} ∈ Rm×d. The number of features m de-pends on the choice of sampling frame rate and the videofeature extractor, which we will discuss in Sec. 4.Language encoding module fθt. We use pretrained tok-enizer [47] and BERT [10] to tokenize the input texts andextract textual features, respectively. Given a raw sentence,we append a “[CLS]” and “[SEP]” to the beginning andend, respectively. At the top, we can obtain a sequenceof n textual features y = {y1, ..., yn} ∈ Rn×d. We en-sure the output feature dimension of video encoder to beidentical to that of language encoder. During training, weupdate the parameters θt in our language encoder to adaptto the texts in speciﬁc domain, e.g., cooking instructions inYouCook2 [57].Multi-modal fusion module fθm. It also consists of self-attention layers with learnable parameters θm. It takes videofeatures x ∈ Rm×d and text features y ∈ Rn×d from twoseparate modalities as inputs and output the (m + n) fea-tures z = {z1, ..., z(m+n)} ∈ R(m+n)×d. To help it to dis-tinguish the video and language tokens, we use a token typeembedding layer to learn two embeddings and add them tothe visual and textual tokens, separately. Similar to originalTransformer [46], we include a positional embedding layerto encode the absolute token positions in the input sequence.The above three components comprise our video-textalignment model which is then trained with the proposedtoken-aware cascade contrastive loss. We start with a briefreview of conventional contrastive learning and then intro-duce the proposed technique.̸̸p(vj|ti) ∼exps(vj,ti)Nk=1 exps(vk,ti)(1)Lnce =N�i=1− log p(vi|ti)∼N�i=1− log�exps(vi,ti)exps(vi,ti) +k̸=i exps(vk,ti)�(2)̸̸1156403. 方法03.1. 框架03.2. 对比学习：重新审视0给定一组N个视频-文本对{(vi,ti)}Ni=1，我们的目标是学习一个最优的评分函数s，使得配对的视频和文本(vi, ti)的得分高于所有其他不匹配的对(vj,tk)，其中j≠k。从概率的角度来看，将vi与ti对齐等价于最大化条件概率p(vi|ti)，同时最小化所有负样本的概率p(vj|ti)，其中j≠i。0根据 [ 15 , 36 ]， p ( v j | t i ) 可以近似为：0其中 s ( v, t ) 是 v 和 t之间的对齐分数；分母是对所有可能的视频进行求和，这是用于归一化的分区函数。在 p ( v j | t i )上添加交叉熵损失，我们可以推导出 NCE 损失 [ 15 ]：0公式 2中的分母需要对数据集中的所有视频进行求和，在实践中是不可行的。因此，我们通常在从整个数据集中采样的 K ( K� N ) 个视频-文本对的小批量上计算 NCE损失。理想情况下，我们希望学习模型的参数 θ = { θ v ,θ t , θ m } ，以最小化上述 NCE 损失，使得对于所有元组 (t i , v i , v j ) ，j � = i ，∆ = s ( v i , t i ) − s ( v j , t i )最大化。许多先前的工作使用上述公式进行对比学习 [ 33 ,59]。同时，视频-语言表示学习中有一些计算对比损失的变体。例如，[ 27 , 14 ]省略了分母，并引入了一个边界 s.t. s (v i , t i ) > s ( v j , t i ) + δ ，� j � = i ，在一个小批量中。[32 ]通过将 ( v i , t i ) 分配为正标签 (1) ，其他对为负标签(0) ，优化二元交叉熵 (BCE)。03.3. TACo ：我们的方法0先前工作中使用对比学习的方式存在两个问题。首先，通过在句子中使用‘[CLS]’标记 [ 14 ]或在所有标记中取最大值[ 33]，损失是在句子级别计算的。显然，内容词（例如名词、动词）与视频中的视觉内容或概念更有可能对齐，而功能词（例如停用词）不太可能对齐。其次，在多模态融合层中的高计算成本阻碍了使用大批量的负样本，然而这对于对比学习是必要的 [ 33 , 17 , 7]。受到这两个问题的启发，我们引入了 TACo，一种简单而有效的方法来改进对比学习。我们下面详细介绍如何计算这些对比损失。给定一个小批量中的 K个视频-文本对 { ( v i , t i ) } K i =1，我们首先使用我们的视频编码器 f θ v 和语言编码器 f θt 来获取一批视频特征 X = { x 1 , ..., x K } ∈ R K × m ×d 和文本特征 Y = { y 1 , ..., y K } ∈ R K × n × d。然后，我们对视频剪辑 v i 的所有标记取平均值，得到 ¯x i ∈ R 1 × d ，并对每个文本 t i取第一个‘[CLS]’标记，得到 ¯ y i ∈ R 1 × d 。基于L1 = −K�i=1log�exp¯xi·¯yi/τ1exp¯xi·¯yi/τ1 +j̸=i exp¯xj·¯yi/τ1�(3)s(xi,ypi )/τ2̸exps(xj,ypi )/τ2w·zclsi,ij̸=i expw·zclsj,iargminθv,θt,θm115650对于 ¯ x 和 ¯ y ，我们计算句级对比损失：0其中 τ 1 是一个标量温度参数。在公式 3中，计算只是视频和文本特征之间的一系列点积。由于这种效率，我们可以使用一个小批量中的所有 K − 1个负样本来计算损失。通过这样，我们优化 θ v 和 θ t，以便将视频和文本样本投影到对齐的特征空间中。在公式3 中的‘[CLS]’标记和视频标记的平均值0忽略了标记和帧之间的差异，因此可能无法提供将个别标记（例如名词和动词）与特定视频内容对齐的压力。为了鼓励正确对齐，除了句级别损失外，我们引入了标记级别的对比损失：0L2 = -0K个0i=10p∈Pilog0�0exp(s(xi,ypi)/τ^2)+∑0�0� �0(4)其中τ^2是另一个标量温度参数；Pi是第i个文本中感兴趣的标记的索引，ypi是第i个文本中第p个标记的嵌入。s(∙)衡量视频特征和特定标记嵌入ypi之间的相似性。它首先计算ypi∈R1×d和所有m个视频标记x∈Rm×d之间的点积，然后在m个分数中取最大值得到最终的对齐分数。通过公式4，模型使用单个标记作为锚点与视频对齐，这与公式3中的句子级损失互补。类似于公式3，我们可以高效地计算这个标记级对比损失，因此可以使用所有K-1个负样本。总的来说，这两个损失用于以标记感知的方式优化θv和θt。感兴趣的标记。在公式4中，我们需要决定哪些标记应该包含在Pi中。在本文中，我们启发式地选择名词和动词作为目标，考虑到它们在视频中更具“具体性”。实际上，即使它们都是相同类型，名词或动词通常具有不同的区分度。例如，“man”是一个名词，但比“gymnast”信息量较少。为了反映这一点，我们通过计算它们的逆文档频率（idf）[21]来进一步为不同的单词分配不同的权重。较高的idf意味着它在整个语料库中更独特，因此在计算标记级对比损失时将具有更大的权重。计算损失的另一个实际问题是由于BERT分词器，标记通常是子词。因此，对于属于同一个词的所有标记，我们将相应地分配相同的权重。在计算标记感知的对比损失之后，我们将来自不同模态的特征馈送到多模态融合层，以实现它们之间的更多交互。与先前的工作[59]类似，我们采用与(m+n)个输出中的“[CLS]”对应的特征。我们将其视为0将这个作为两种模态的摘要，然后计算对比损失：0L3 = -0i=1 log0�0exp(w∙zclsi,i)+∑0�0�(5)0在公式5中，一个实际的挑战是我们几乎无法在小批量中使用所有(K-1)个负样本，因为多模态融合中的计算和内存成本很高。自注意力层的O(d(m+n)2)复杂度使得将所有K×K对传递到多模态层变得困难。先前的工作通过执行随机采样来减少负样本数量到K'。然而，随机选择负样本可能导致次优的学习，因为这些对是稀缺的。因此，我们引入级联采样策略来找到困难的负样本，而不是随机选择。级联困难负样本采样。为了减少公式5中的计算成本，我们从所有可能的视频-文本对中选择一小部分最困难的对。然而，计算使用公式3和公式4计算的所有对之间的对齐分数，然后选择困难的负样本是一个“先有鸡还是先有蛋”的问题。相反，我们提出使用公式3和公式4计算的所有视频-文本对之间的相似性作为指导。具体来说，对于每个文本-视频对(vj,ti)，我们采用公式3计算的它们的全局相似性¯xj∙¯yi和通过聚合ti中感兴趣的所有标记的s(xj,ypi)的标记级别相似性。然后，我们将这两个相似性求和作为给定对的对齐分数。对于每个文本，我们选择前K'个对齐的负视频，反之亦然。然后，将得到的2K×(K'+1)对输入到多模态融合层。通过这种策略，我们可以在没有额外成本的情况下有效地选择困难的负样本。由于多模态融合层具有更多能力（参数）来区分这些困难的负样本和正样本，我们的采样策略自然地促进了三个对比损失之间的协作。最后，我们在表1中对我们的模型与先前工作在使用的对比学习方法方面进行了全面比较。03.4. 目标0我们方法的训练目标是通过最小化上述三个对比损失的组合来找到最优的θ = {θ v , θ t , θ m }：0i =1 ( L 1 + λ t L 2 + L 3 ) (6)0为了清晰起见，我们在公式中省略了偏置项115660方法 Token-aware Early stage Later stage Cascade Loss0VideoBert [40] � � � � BCE CBT [39] � � � � NCE TJVE [34] � � � � Margin MIL-� � � NCE ActBert [59] � � � � BCE UniVL [32] � � � � NCE MMT [14] � � � � (Ours) � � � � NCE0表1：关于对比学习策略的视频-语言预训练方法的比较。“Early stage”和“Laterstage”分别表示在多模态融合之前和之后计算损失。“Cascade”表示使用级联的难负采样。0其中λ t是标记级别损失的权重（默认为0.5）。在推理过程中，我们通过将所有三个评分函数的对齐分数相加来进行预测。04. 实验设置04.1. 数据集0在我们的实验中，我们在以下已建立的基准数据集上训练和评估我们的模型： • YouCook2[57]包含89个菜谱的2k个关于日常烹饪活动的视频。每个视频包含多个由人工注释的文本描述的视频剪辑。我们按照[34,33]的方法，在训练集上训练我们的模型，并在约3.5k个验证剪辑上报告文本-视频检索性能。 • MSR-VTT[51]包含与20k个句子相关联的10k个视频剪辑。先前的工作使用了两个验证集划分。在[30,14]中，训练集有9k个剪辑-文本对，剩余的1k个对用于评估，我们将其称为split1。在[52, 34,33]中，从测试集的3k个对中随机选择了1k个剪辑-文本对进行评估，而原始的7k个对用于训练。我们将其称为split2。我们使用这两个划分报告文本-视频检索结果。 •ActivityNet[24]。它包含20k个YouTube视频，每个视频都有多个人工注释的标题。按照[55,14]的方法，我们将视频的所有标题连接成一个段落，并在“val1”划分上评估段落-视频检索。 • Howto100M[34]。我们与在Howto100M [34, 33, 59,32]上的先前工作进行比较。该数据集从YouTube上收集，包含超过1.2M个带有自动生成的字幕的叙述性视频。每个视频平均包含100个剪辑。为了进一步验证我们从Howto100M学到的多模态表示的可迁移性，我们还在CrossTask[60]和COIN [42]上评估了动作步骤定位和动作分割。04.2. 设置0以前的工作使用了各种不同的视频和语言表示方法，我们发现这些方法对最终的性能有显著影响。我们总结了以下不同的选择： • 视频表示方法。对于2DCNN，使用Resnet-152[18]提取特征图，然后进行全局池化为2048维[34,32]。对于3D特征，常用的模型有I3D [5]、R(2+1)D[45]和S3D[50]。在[59]中，作者还从视频剪辑中提取了对象。在[30,14]中，作者使用协作专家从音频、场景、OCR、人脸、语音等中提取特征。 • 语言表示方法。主要有四种变体：1)在[30, 34, 33]中使用了预训练的GoogleNews word2vec(w2v) [35]；2) 使用LSTM或双向LSTM [19]；3) 在[40, 59,32, 14]中使用了预训练的BERT [10]；4)在[30]中使用了OpenAI-GPT[37]。在本文中，我们使用了预训练的BERT-base模型作为语言表示，就像在[59,32]中一样。对于视频特征，我们按照[34, 33,32]的方法，使用在ImageNet [9]上预训练的Resnet-152(R-152)提取2D CNN特征。对于3DCNN特征，我们使用在Kinetics-400 [22]上预训练的I3D(使用Resnext-101骨干)和在Howto100M[33]上预训练的S3D[50]。这些现成的预训练权重由[16]和[33]提供。为了简化，我们在下文中将它们分别表示为I3D-X101和S3D-HM。不同方法之间的另一个差异是模型中使用的自注意力层的数量。在[59]中，作者使用了12个多模态自注意力层，而在[32]中使用了6个视频编码层和2个多模态融合层。不同的是，在[14]中使用了4个多模态自注意力层。在本文中，为了进行以下所有的消融研究，我们分别使用了1个和2个自注意力层作为视频编码器和多模态融合层。为了与特定数据集上的先前工作进行比较，我们使用了2个视频编码层。在使用大规模数据集Howto100M[34]进行预训练时，我们将视频编码层增加到4层，以使模型容量与先前的工作[59, 32,14]相当。请注意，这个最大的模型仍然比前面提到的方法要小或者与其相当。04.3. 实现细节0对于YouCook2和MSR-VTT，视频和文本的最大标记数分别设置为48和30。对于ActivityNet上的段落-视频检索，我们将它们都设置为256。2DR-152特征从每秒提取一帧，然后进行全局池化为2048维。对于3DCNN特征，我们按照[34]的方法以24fps采样视频帧，并在每16帧提取一个I3D-X101特征。这样每秒得到1.5个2048维特征。对于方程式3和4，我们将温度τ1和τ2都设置为1。在单独的数据集上训练。在这种设置下，我们分别使用YouCook2、MSR-VTT和ActivityNet提供的训练集从头开始训练模型。我们训练115670YouCook2 MSR-VTT（split1）0视频表示 R1 ↑ R5 ↑ R10 ↑ MR ↓ R1 ↑ R5 ↑ R10 ↑ MR ↓0R-152，基线 4.1 13.2 19.4 81.0 16.4 42.6 55.8 8.0 R-152，我们的模型4.6 14.1 20.4 71.0 18.9 46.2 58.8 7.00I3D-X101，基线 2.1 8.1 12.7 125.0 14.7 40.83 53.2 9.0I3D-X101，我们的模型 2.6 8.9 13.2 115.0 20.6 44.0 56.9 7.00R-152+I3D-X101，基线 4.2 13.5 20.0 75.0 16.6 45.4 58.5 7.0R-152+I3D-X101，我们的模型 4.7 14.3 21.9 68.0 23.1 50.5 64.0 5.00S3D-HM，基线 13.8 37.2 51.1 10.0 18.7 47.2 62.2 6.0S3D-HM，我们的模型 16.1 40.3 52.2 9.0 23.9 51.4 65.0 5.00R-152+S3D-HM，基线 13.3 35.8 48.9 11.0 21.4 48.1 61.5 6.0R-152+S3D-HM，我们的模型 15.8 39.8 52.4 10.0 24.5 52.8 65.5 5.00表2：使用不同特征类型在YouCook2和MSR-VTT上的文本-视频检索性能。在HowTo100M上预训练的S3D模型优于其他模型。0模型进行30k次迭代训练，批量大小为128。对于每个训练样本，我们使用级联采样策略采样8个困难负样本。我们使用Adam[23]作为优化器，初始学习率为1e-4。在进行了5k次热身迭代后，应用线性学习率衰减。权重衰减设置为1e-5。预训练和微调。我们在Howto100M[34]上预训练我们的模型。由于Howto100M中的原始标注视频片段通常很短，只有几秒钟，我们合并相邻的片段，以便生成的文本至少有10个单词。我们使用Adam[23]作为优化器，初始学习率为1e-4。我们训练模型500k次迭代，批量大小为64，并使用级联采样策略为每个样本采样8个困难负样本。预训练后，我们使用相同的设置在不同的数据集上微调预训练模型，除了较低的初始学习率2e-5和较少的微调迭代次数20k。评估指标。对于文本-视频检索，我们使用不同点的召回率（Recall@n或Rn，其中n是特定的数字）和中位数排名（MR）作为指标，遵循之前的工作[59，32]。在所有表格中，↑或↓表示较高或较低更好。05. 结果0我们首先评估文本-视频检索性能，然后研究学习到的表示是否可以迁移到CrossTask和COIN等其他任务上。05.1. 文本-视频检索05.1.1 与基线模型的比较0首先，我们展示了与基线模型的比较，以检查我们模型中不同组件的效果。视频表示。我们使用上述不同的视频表示训练我们的模型，并将其与仅使用 L3训练的基线模型进行比较，其架构相同，如方程式5所示。基线0YouCook2 MSR-VTT（split1）0损失级联 R1 ↑ R5 ↑ R10 ↑ MR ↓ R1 ↑ R5 ↑ R10 ↑ MR ↓0L1 n/a 14.1 35.7 48.8 11.0 22.9 49.7 61.7 6.0 L3 n/a 13.3 35.8 48.911.0 21.4 48.1 61.5 6.0 L1 + L3 13.9 37.4 50.7 10.0 22.5 50.8 64.15.0 L1 + L3 15.0 38.7 51.3 10.0 23.7 51.3 63.9 5.0 L1 + L2 + L315.8 39.8 52.4 10.0 24.5 52.8 65.5 5.00表3：使用不同的技术集合进行文本-视频检索的性能。结果表明，使用我们提出的两种技术可以获得最佳结果。所有实验都使用R-152+S3D-HM视频特征。0YouCook2 MSR-VTT（分割1）0兴趣标记 R1 ↑ R5 ↑ R10 ↑ MR ↓ R1 ↑ R5 ↑ R10 ↑ MR ↓0无 15.0 38.7 51.3 10.0 23.7 51.3 63.9 5.0 det+adp 14.7 38.551.2 10.0 23.3 51.0 63.5 5.0 noun 15.4 39.3 51.8 10.0 24.051.8 65.1 5.0 verb 15.3 39.0 51.4 10.0 23.9 52.1 64.8 5.0noun+verb 15.8 39.8 52.4 10.0 24.5 52.8 65.5 5.00表4：使用不同的兴趣标记计算标记级对比损失的文本-视频检索性能。“det”表示限定词；“adp”表示介词。我们使用与表3中相同的视频特征。0对比学习方法已经在许多先前的工作中采用[ 59 , 32]。这个比较可以验证我们提出的对比学习方法的有效性，因为两个模型具有完全相同的参数数量。从表2中可以看出，我们提出的方法在YouCook2和MSR-VTT上的所有特征类型中都优于基准线。请注意，我们的模型与基准模型使用完全相同的参数数量。这些一致的改进证明了我们提出的方法的有效性和泛化能力。如上所述，我们还观察到文本-视频检索性能在很大程度上取决于特征类型。我们可以发现3D特征（I3D-X101和S3D-HM）通常优于2D特征（R-152），这是预期的，因为2D特征无法捕捉视频中的动作。在所有三种特征类型中，S3D-HM以较大的优势优于其他两种，这表明通过在大规模嘈杂数据集（Howto100M [ 34]）上进行预训练可以学习到良好的视频表示。由于Howto100M主要包含教学视频，它与YouCook2更接近，因此我们在YouCook2上看到了更多的收益。这些比较表明，视频表示对最终性能非常重要。组件分析。在我们的方法中，我们在训练和推理过程中结合了L1、L2和L3。在表2中，我们使用R-152+S3D-HM作为视频特征，并报告了不同损失组合的结果。MRMRheMRet.115680模型语言视频 YouCook20随机 – – 0.0 0.2 0.3 1675 TVJE [ 34 ] w2v R-152+I3D-X101 4.2 13.721.5 65 UniVL(v1) [ 32 ] BERT R-152+I3D-X101 3.4 10.8 17.8 76TACo (我们的) BERT R-152+I3D-X101 4.9 14.7 21.7 630UniVL(v3) [ 32 ] BERT S3D-HM 7.7 23.9 34.7 21 TACo (我们的)BERT S3D-HM 16.6 40.3 53.1 9.00表5：在YouCook2上进行文本-视频检索的比较。0模型语言视频 MSR-VTT0随机 – – 0.1 0.5 1.0 500.0 JSFusion [ 52 ] BiLSTM R-152 10.2 31.2 43.2 13.0JPoSE [ 48 ] w2v TSN+Flow 14.3 38.1 53.0 9.0 TVJE [ 34 ] w2v R-152+I-10112.1 35.0 48.0 12.0 UniVL(v1) � [ 32 ] BERT R-152+I-101 14.6 39.0 52.6 10.0TACo (我们的) BERT R-152+I-101 19.2 44.7 57.2 7.00CE [ 30 ] GPT 协作专家 20.9 48.8 62.4 6.0 MMT [ 14 ] BERT 协作专家 24.654.0 67.1 4.0 TACo (我们的) BERT R-152+S3D-HM 26.7 54.5 68.2 4.00表6：在MSR-VTT上进行文本-视频检索的比较。上半部分和下半部分分别使用split2和split1。我们分别报告它们以进行公平比较。0模型语言视频 ActivityNet0随机 - - 0.02 0.1 1.02 2458 DenseCap [ 24 ] LSTM C3D 14.0 32.0 65.034 FSE [ 55 ] GRU C3D+TSN-Inception 18.2 44.8 89.1 7.0 CE [ 30 ]GPT 协作专家 18.2 47.7 91.4 6.0 MMT [ 14 ] BERT 协作专家 22.7 54.293.2 5.0 TACo (我们的) BERT R-152+S3D-HM 25.8 56.3 93.8 4.00表7：在ActivityNet上进行文本-视频检索的比较。0我们可以看到，仅使用L1（第1行）或L2（第2行）进行对比学习会导致次优的视频文本对齐。将它们简单地结合在一起

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

TACo：面向令牌感知级联对比学习的视频-文本对齐

tacobot:松散的机器人给:taco:

怎么使用TACO数据集

TACO（Trash Annotations in Context）数据集下载

``` cout<<"taco"[2]; ```

yarn add 和yarn install什么区别呢

iClient for Cesium 如何学习

cesium中定位到primitive

超图iClient for Cesium 如何学习

Python实现音频分离

Python语音分离代码实现

用python决定吃什么

做一个食物android studio下拉列表代码

127.0.0.1 - - [29/Mar/2023 13:03:34] "GET /abc HTTP/1.1" 200 -

windows用脚本如何实现从ftp拉去最新时间的软件包

Supermap iDesktop中可以导入哪些类型数据

提供一个python图形界面化自助点餐系统代码

Cesium 如何控制飞行旋转

c# socket 基恩士扫码数据

Cesium如何展示模型三角网数量

最新资源