通过可微弱时序对齐进行视频文本表示学习

142 浏览量更新于2023-10-26 收藏 20.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DiDeMo [3], EPIC-KITCHENS [13]. However, since la-beling videos is expensive and time-consuming, it doesnot scale well for sufﬁciently large datasets which are es-sential to learning generic video-text representations thatare readily applicable to a wide range of downstreamtasks that include text-to-video retrieval or video-text re-trieval [27,50,51,56], text-based action localization [3,11],action segmentation [29, 43] and video question answer-ing [34, 46, 56]. Recent studies suggest that multi-modalself-supervised learning with a huge amount of data is apromising alternative to fully supervised methods [15, 54].To this extent, HowTo100M [36] has been introduced,which is composed of 100 million pairs of video clips andcaptions from 1.22M narrated instructional videos.50160通过可微弱时序对齐进行视频文本表示学习0Dohwan Ko 1 Joonmyung Choi 1 Juyeon Ko 1 Shinyeong Noh 10Kyoung-Woon On 2 Eun-Sol Kim 3 Hyunwoo J. Kim 1*01 韩国大学计算机科学与工程系 2 Kakao Brain 3韩阳大学计算机科学系0{ikodoh, pizard, juyon98, dneirfi, hyunwoojkim}@korea.ac.kr0{kloud.ohn}@kakaobrain.com {eunsolkim}@hanyang.ac.kr0摘要0通过监督方法学习视频和文本的通用联合表示需要大量手动注释的视频数据集，这是不可行的。作为一个实际的替代方案，最近引入了一个大规模但未经筛选和叙述的视频数据集HowTo100M。然而，由于其模糊性和非顺序对齐，以自我监督的方式学习视频和文本的联合嵌入仍然具有挑战。在本文中，我们提出了一种新颖的多模态自我监督框架VT-TWINS，基于可微弱时序对齐的对比学习，以从嘈杂且相关性较弱的数据中捕捉重要信息，使用一种动态时间规整（DTW）的变体。我们观察到标准的DTW本质上无法处理相关性较弱的数据，并且只考虑全局最优的对齐路径。为了解决这些问题，我们开发了一种可微分的DTW，它还反映了具有弱时序对齐的局部信息。此外，我们提出的模型应用了对比学习方案，以在相关性较弱的数据上学习特征表示。我们的广泛实验证明，VT-TWINS在多模态表示学习方面取得了显著的改进，并且在各种具有挑战性的下游任务中表现优于其他方法。代码可在https://github.com/mlvlab/VT-TWINS找到。01. 引言0学习视频文本表示是计算机视觉中的一个重要问题。近年来，由于大量的视频数据和各种应用，它引起了越来越多的关注。以前的工作[32, 52,57]通过学习视频片段和文本之间的映射取得了令人兴奋的结果，但通常需要大量的手动注释，如MSR-VTT [55]、DiDeMo [3]、EPIC-KITCHENS[13]。然而，由于标记视频的成本高昂且耗时，对于足够大的数据集来说，这种方法无法扩展，而这些数据集对于学习通用的视频文本表示非常重要，这些表示可以直接应用于包括文本到视频检索或视频到文本检索[27, 50, 51, 56]、基于文本的动作定位[3, 11]、动作分割[29, 43]和视频问答[34,46,56]在内的各种下游任务。最近的研究表明，使用大量数据的多模态自我监督学习是一种有前途的替代方法[15, 54]。为此，HowTo100M[36]被引入，它由1220万个叙述性教学视频的1亿对视频片段和标题组成。0*为通讯作者。0HowTo100M是最大的视频数据集之一，但它面临着几个挑战。它是未经筛选的，其视频文本对之间的相关性较弱，这意味着在给定一个视频片段时，描述视觉内容的标题可能出现在片段之前/之后，甚至可能不存在（图1）。为了处理相关性较弱的视频文本对，MIL-NCE[35]提出了一种基于多实例学习（MIL）的对比学习方法，采用了噪声对比学习（NCE）损失[19]。MIL-NCE将与一个片段在时间上接近的多个标题视为正样本，允许一对多的对应关系。但是，这种强假设往往导致子优化的表示学习。0在本文中，为了解决这个问题，我们基于动态时间规整（DTW）[41]开发了一种新的弱时序对齐算法。与仅限于顺序对齐的标准DTW相比，我们提出的对齐算法通过跳过不相关的对并从任意时间点开始/结束来提供灵活性。此外，它通过引入局部邻域平滑同时考虑全局最优路径和局部最优路径。更重要的是，我们的对齐算法是可微分的，因此我们将其纳入表示学习中。50170作为距离度量的自监督学习。然后，我们提出了一种新颖的多模态自监督学习框架，用于学习一个名为VT-TWINS的联合视频和文本嵌入模型，该模型自动处理噪声和弱相关的字幕和片段之间的对应关系。我们在五个基准数据集上进行了大量实验，结果表明我们学到的视频和文本表示在各种下游任务中具有很好的泛化能力，包括动作识别、文本到视频检索和动作步骤定位。此外，消融研究和定性分析表明我们的框架能够有效地对齐噪声和弱相关的多模态时间序列数据。我们的贡献有三个方面：0•我们提出了一种新颖的自监督学习框架，其中包含可微弱时序对齐，可以自动处理噪声和弱相关的多模态时间序列数据。0•我们分析了我们的对齐算法中的局部邻域平滑，表明与DTW不同，对齐考虑了局部最优路径和全局最优路径。0•我们的实验证明了所提方法在视频和文本的联合表示上取得了显著改进，并且在各种下游任务上适应良好。02. 相关工作0视频的自监督学习。自监督学习方法因其在学习表示时不需要额外的注释而受到广泛关注。最近，有几种方法被提出以自监督方式学习视频表示。一个研究方向是设计视频特定的预训练任务，例如验证时间顺序[15，30，37，54]，预测视频旋转[24]，在视频中解决拼图问题[26]和密集预测编码[21]。另一条研究线是使用对比学习，使来自同一视频的片段被拉在一起，而来自不同视频的片段被推开[9，10，18，23，40，44，49]。鉴于视频的多模态性，许多工作探索跨模态的相互监督来学习每种模态的表示。例如，他们将视频和音频[8，28]或叙述[1，4，35，36]之间的时间或语义一致性视为自然的监督来源。MIL-NCE[35]引入了对比学习，以学习未标记和未筛选的叙述视频的片段和字幕之间的联合嵌入。另一种方法采用额外的跨模态编码器（例如跨模态变换器）来捕捉模态之间更丰富的交互[17，31，33，44，45，58]。在本文中0在本文中，我们将对比学习扩展到时间上对齐两个时间序列模态，即来自视频的片段和字幕，而无需任何额外的跨模态编码器。序列对齐。由于时间信息的存在，序列对齐在与时间序列数据相关的领域中至关重要。特别是，缺乏手动注释的视频数据集使得片段和字幕的时间对齐更加困难。动态时间规整（DTW）[41]通过在两个序列之间施加强时间约束来测量距离。[7]通过依赖于DTW，将全局序列对齐作为代理任务。[12，20]扩展了DTW，使用可微分的离散操作（例如“min”运算符）的近似来进行端到端学习。Chang等人[6]提出了使用DTW进行弱监督动作对齐的逐帧对齐损失。Drop-DTW[14]提出了DTW算法的一种变体，它自动从成对距离中删除异常元素以处理噪声数据。然而，仅使用DTW可能会导致特征坍缩，使得所有特征嵌入都集中在一个点上。为了解决这个问题，[6]和[22]使用DTW的辅助正则化损失项。03. 预备知识0我们简要总结了动态时间规整的基本概念和未筛选的叙述视频数据集HowTo100M的特点。03.1. 动态时间规整（DTW）0DTW[5]找到两个时间序列数据之间的最优对齐。设X和Y分别表示长度为n和m的两个时间序列数据，即X=[x1,x2,...,xn]和Y=[y1,y2,...,ym]。DTW首先使用距离度量δ计算成对距离矩阵∆(X,Y):=[δ(xi,yj)]ij∈Rn×m。然后，DTW优化以下目标：0DTW(X,Y)=min A∈An,m�A,∆(X,Y)�，(1)0其中An,m�{0,1}n×m是一组（二进制）对齐矩阵。对齐矩阵A表示从∆(X,Y)的(1,1)到(n,m)条目的路径，路径有三种可能的移动方式{↓,↘,→}。为了高效地找到最优路径，DTW[5]使用动态规划递归地解决以下子问题：0ri,j=δi,j+min{ri−1,j,ri,j−1,ri−1,j−1}，(2)0其中ri,j是累积成本矩阵R(X,Y)∈Rn×m的(i,j)元素，∆(X,Y)是两个时间序列数据之间的相似性评估的累积成本。因此，(1)中的DTW(X,Y)等于rn,m，即评估两个时间序列数据之间的相似性的累积成本。m4. MethodIn this section, we present a novel multi-modal self-supervised framework, named as Video-Text TemporallyWeakAlignment-basedContrastiveLearning(VT-TWINS), to learn joint embeddings of video and textfrom uncurated narrated videos. To address the problemsmentioned above and estimate more accurate corre-spondence, we propose a new differentiable variant of50180(a) 顺序对齐的对0(b) 非顺序对齐的对0(c) 部分不相关的对0(d) 完全不相关的对0图1.HowTo100M的示例。HowTo100M数据集包含叙述性教学视频，剪辑和字幕之间的对齐较弱。每个视频由多个剪辑和字幕对组成。阴影字幕与视频中的任何剪辑都不相关。0Soft-DTW[12]提出了DTW的可微分变体，将(2)中的不可微分运算符'min'替换为定义为'soft-min γ'的软最小值：0min γ { a1,a2,...,am } = −γ log0i=1 e−ai/γ，(3)0其中γ∈R+是平滑参数。然后，Soft-DTW的递归关系如下所示：0ri,j=δi,j+min γ {ri−1,j,ri,j−1,ri−1,j−1}. (4)0如果γ为零，soft-min minγ与min运算符相同。随着γ的增加，Soft-DTW(X,Y)更多地考虑次优路径的成本。03.2. HowTo100M数据集0HowTo100M数据集[36]是一个大规模数据集，包含了1.22M个不同视觉任务的136M个视频剪辑和配对的字幕。一个视频有110个剪辑-字幕对，平均持续时间为4秒。字幕是通过自动语音识别（ASR）自动转录的叙述。使用HowTo100M学习联合视频文本嵌入存在两个困难：'未筛选的叙述'和'剪辑-字幕对之间的弱相关性'。如[35]所讨论的，ASR转录的叙述可能存在错误，并且口语表达既不是完整的，也不是语法正确的句子。此外，由于配对的剪辑和字幕之间的弱相关性，计算最佳对应关系以学习联合嵌入需要解决以下挑战，这是本文的主要关注点。歧义性。如前所述，剪辑-字幕对的平均持续时间为4秒。由于一个视频中密集采样了短剪辑，连续的剪辑通常在语义上相似，即剪辑-字幕对的对齐存在固有的歧义性。因此，使用“min γ”算法更有益。0考虑到多对多对应关系，而不是仅考虑标准DTW等只有一个最优路径的算法，可以考虑多个对齐。不相关的对。配对的剪辑和字幕可能包含不相关的内容，原因有几个。当叙述清晰时，人们可能会跳过一些步骤，反之亦然。在图1c中，由于“选择正确的程序”这个叙述非常清晰，对应的剪辑中没有给出演示。此外，一些视频完全包含不相关的剪辑和字幕，如图1d所示。在学习联合视频文本嵌入时，这些不相关的对应关系应该得到适当处理。非顺序对齐。尽管视频和文本在整体上是相关的，但配对的剪辑和字幕通常在时间上没有很好地对齐。例如，视频中的人们在演示之前描述计划或在行动之后解释细节，即字幕可能存在时间上的偏移。为了估计剪辑和字幕之间的对应关系，可以在不改变每个模态中元素顺序的情况下进行对齐，如图1a所示，称为顺序对齐。相反，当一个模态中的元素顺序部分颠倒或一个剪辑/字幕的内容在另一个模态中任意插入时，需要进行非顺序对齐以计算最佳对应关系。我们观察到，非顺序对齐通常发生在视频具有长序列的字幕和剪辑时，如图1b所示。我们将通过一种新的学习策略来解决这些挑战。Figure 2. Overall Architecture. We propose a multi-modal self-supervised learning framework, VT-TWINS, to learn joint embeddingsof video and text from noisy and weakly correlated data. The encoders f and g ﬁrstly extract feature embeddings from input clips Xand input captions Y , respectively. Then, we present a new alignment algorithm based on the DTW, called S2DTW, which can handleweakly correlated data with local neighborhood smoothing (Section 4.1) and weak alignment (Section 4.2). We also apply temporal dataaugmentation (Section 4.3) to learn from the non-sequentially aligned data with the S2DTW. We ﬁnally employ a contrastive learningscheme, which uses the S2DTW as a distance measure between the clip-caption pairs, with negative pairs (Ni) for representation learningwhile preventing feature collapsing (Section 4.4).DTW, called Locally Smoothed Soft-DTW with WeakAlignment (S2DTW). First, we apply local neighborhoodsmoothing and weak alignment. We then adopt temporaldata augmentation for non-sequential alignments that thestandard DTW cannot inherently handle. We ﬁnally applya contrastive learning scheme and present VT-TWINS forrepresentation learning without feature collapsing. Figure 2and Algorithm 1 show our overall algorithm VT-TWINSincluding S2DTW.4.1. Local Neighborhood SmoothingTo address the ambiguity as mentioned in Section 3.2,we smooth the pairwise distance matrix ∆(X, Y ) as:ˆδi,j = δi,j + minγ{δi−1,j, δi,j−1, δi−1,j−1},(5)where δi,j and ˆδi,j are the (i, j)-th elements of ∆(X, Y )and ˆ∆(X, Y ), respectively. This allows many-to-many cor-respondence and encourages the alignment algorithm to fo-cus more on a locally optimal clip (or caption), which hasrelatively smaller distances to others within a small neigh-borhood. ˆδi,j can be viewed as smoothed δi,j with its pre-vious elements δi−1,j, δi,j−1, and δi−1,j−1. Then, similarto (4) we apply dynamic programming to compute the op-timal cost from smoothed distance matrix ˆ∆(X, Y ) insteadof ∆(X, Y ) and as follows:ˆri,j = ˆδi,j + minγ{ˆri−1,j, ˆri,j−1, ˆri−1,j−1}.(6)S2DTW decays the cost of older matches and reﬂects morerecent elements since (6) accumulates the cost from thetop-left element to the bottom-right element, sequentially.Roughly speaking, the proposed S2DTW with ˆ∆(X, Y )considers local optimality by (5) as well as global optimal-ity by (6) since S2DTW can be rewritten as:ˆri,j = δi,j + minγ{ˆri−1,j, ˆri,j−1, ˆri−1,j−1}+ minγ{δi−1,j, δi,j−1, δi−1,j−1}.(7)Differentiation. We compare Soft-DTW [12] and S2DTWvia their derivatives. At the Soft-DTW, they denote a gra-dient matrix M = [µi,j] where µi,j := ∂rn,m∂δi,j= ∂rn,m∂ri,j ·∂ri,j∂δi,j = ∂rn,m∂ri,j · 1 = ∂rn,m∂ri,j by differentiating (4) w.r.t δi,j.In S2DTW case, however, ∂ˆrn,m∂δi,j ̸= ∂ˆrn,m∂ˆri,j due to the localneighborhood smoothing layer, i.e., ∂ˆri,j∂δi,j ̸= 1. We thereforeredeﬁne µi,j := ∂ˆrn,m∂ˆri,j and denote additional ˆµi,j := ∂ˆrn,m∂δi,jfor the gradient matrix for local neighborhood smoothinglayer. µi,j of S2DTW is calculated as follows:∂ˆrn,m∂ˆri,j� �� µi,j= ∂ˆrn,m∂ˆri+1,j� �� µi+1,j·∂ˆri+1,j∂ˆri,j+ ∂ˆrn,m∂ˆri,j+1� �� µi,j+1·∂ˆri,j+1∂ˆri,j+∂ˆrn,m∂ˆri+1,j+1��µi+1,j+1·∂ˆri+1,j+1∂ˆri,j.(8)By differentiating (6) with i + 1 instead of i, the green termof (8) is calculated as:γ log ∂ˆri+1,j∂ˆri,j= minγ{ˆri,j−1, ˆri,j, ˆri+1,j−1} − ˆri,j. (9)∂ˆrn,m∂δi,j� �� ˆµi,j= ∂ˆrn,m∂ˆri+1,j� �� µi+1,j·∂ˆri+1,j∂δi,j+ ∂ˆrn,m∂ˆri,j+1� �� µi,j+1·∂ˆri,j+1∂δi,j+∂ˆrn,m∂ˆri+1,j+1��µi+1,j+1·∂ˆri+1,j+1∂δi,j.(10)γ log ∂ˆri+1,j∂δi,j= minγ{δi,j−1, δi,j, δi+1,j−1} − δi,j, (11)50190在计算完 (8) 中的 µ i,j 后，计算 ˆ µ i,j 如下：0∂ ˆ δ i +1 ,j = 1 。类似于 (9) ，它可以写成：2: L ← − log �i��e−S2DTW( ˜X(i), ˜Y (i))e−S2DTW( ˜X(i), ˜Y (i))+ �j∈Nie−S2DTW( ˜X(i), ˜Y (j))��# S2DTW6:δi,jδi,j + minγ{δi−1,j, δi,j−1, δi−1,j−1}10:ˆri,j ← δi,j + minγ{ˆri−1,j, ˆri,j−1, ˆri−1,j−1}As discussed in Section 3.2, videos often have non-sequential alignments, but the standard DTW cannot re-solve them since it allows only three moves {↓, ↘, →}.To address this problem, we propose a simple data aug-mentation that temporally shufﬂes clips and captions. Letπ denote a permutation and then a clip permuted by π isXπ = [xπ(1), xπ(2), . . . , xπ(n)]. To avoid temporally or se-mantically too extreme augmentations, we consider a subsetof possible permutations. We ﬁrst leave out the cases whena clip is temporally shifted beyond a time window. For ex-ample of ∀j ∈ [1, n], the j-th clip cannot be out of the win-dow of size w, i.e., the range of possible indices after a per-mutation of j-th clip is [max(1, j−w), min(n, j+w)]. Theset of permutations that satisﬁes this temporal constraint is50200算法1 VT-TWINS算法 with S2DTW 输入: clips X ,captions Y 参数: 平滑参数 γ , 虚拟元素 φ0# 时间数据增强01: 对于每个 i, 对于每个 j ∈ mini-batch˜ X ( i ) , ˜ Y ( j ) ← Aug ( X ( i ) ) , Aug (Y ( j ) ) # 应用对比学习方案03: 函数 S2DTW( X, Y ) 4: δ i,j ← ∆( X, Y )[ i, j ] , � i∈ [1 , n ] , � j ∈ [1 , m ] # 局部邻域平滑05: 对于 (i, j) = (1 , 1) 到 (n, m) 做07: 结束循环 # 弱对齐08: ˆ∆ φ ← merge ( ˆ∆ , φ ) # 计算 DTW09: 对于 (i, j) = (1 , 1) 到 (n, m) 做011: 结束循环012: 返回 ˆ r n,m013: 结束函数输出: L0蓝色和红色项的计算方式与 (9) 相同。与 S2DTW不同，Soft-DTW 只需要使用 (8) 中的 r 计算 M矩阵，然后不考虑局部最优性。图3描述了 S2DTW的前向和后向传播过程。04.2. 弱对齐0我们通过允许Soft-DTW的路径不强制对齐不相关的对进行了修改（如图1c和1d所示）。此外，我们的S2DTW可以从任意点开始（或结束）。采用DWSA[42]中用于带有跳过的一对一匹配的技巧，我们通过在剪辑和字幕序列的间隔（以及两端）插入虚拟元素φ来实现弱对齐（例如，X =[x1，x2，...，xn] 变为 X φ =[φ，x1，φ，x2，φ，...，φ，xn，φ]）。在S2DTW中，带有虚拟元素的成对距离矩阵为 ∆ φ (X, Y) ∈ R (2n+1) ×(2m+1)，并且在包含 φ 的对中具有虚拟距离 δ φ。δ φ是一个超参数，可以解释为阈值。通过计算带有虚拟元素的DTW，它使得DTW路径只通过距离小于 δ φ 的对。0图3. 以 (i, j)为中心的局部邻域平滑的前向和后向过程。在前向传播中，首先通过将 δ i,j 与 δ i − 1 ,j ， δ i,j − 1 和 δ i − 1 ,j − 1 进行平滑计算出ˆ δ i,j 。然后，通过 (6) 使用平滑后的 ˆ δ i,j 和 ˆ r i − 1 ,j ， ˆ r i,j− 1 ， ˆ r i − 1 ,j − 1 计算出 ˆ r i,j 。在后向传播中，通过 (8)计算出 µ i,j。它从三个方向获得梯度，梯度大小与每个方向的累积代价 ˆ r的优化程度成比例。然后，根据 (10) 中每个成对代价 δ的优化程度，计算出 ˆ µ i,j 。0如第3.2节所讨论的，视频通常具有非顺序对齐，但标准的DTW无法解决这个问题，因为它只允许三种移动 {↓, ↘,→}。为了解决这个问题，我们提出了一种简单的数据增强方法，即对片段和字幕进行时间上的洗牌。设π表示一个排列，通过π排列的片段为Xπ = [xπ(1), xπ(2), ...,xπ(n)]。为避免过于极端的时间或语义增强，我们考虑可能排列的子集。首先，我们排除了片段在时间窗口之外的情况。例如，对于任意j∈[1,n]，第j个片段不能超出大小为w的窗口，即在对第j个片段进行排列后可能的索引范围是[max(1, j-w), min(n,j+w)]。满足这个时间约束的排列集合为04.3. 时间数据增强�∆(X,X)�� 50210(a) 原始成对距离0(b) 带虚拟元素的成对距离0图4. 弱对齐的示意图。 (a):不带虚拟元素的原始成对距离必须通过片段和字幕不相关的对，例如字幕y3与任何其他片段都不相关。(b):另一方面，距离大于虚拟距离的对可以被跳过。0记为T(n, w)。给定时间约束，我们提出以下目标分布：0p clip π =0τ if π ∈ T(w, n)0否则为0，0(12)其中σ是在T(w,n)中的所有排列上计算的softmax函数，τ是温度参数。∆(X,X)和∆(Xπ,Xπ)是排列前后的自相似矩阵。所提出的目标分布更有可能生成不会过分改变自相似结构的排列。换句话说，所提出的增强方法更不可能生成语义上过强的增强，从而阻碍表示学习。然后，通过从定义在(12)中的分布Pclip中采样，对片段进行时间增强的˜X � Pclip(X;Π)被洗牌成一个序列。字幕˜Y以相同的方式进行增强，最后我们计算成对距离矩阵∆(˜X,˜Y)作为对齐（例如，DTW）的输入。为了简化实现，每个模态都是独立洗牌的。0与标准的DTW或Soft-DTW强制在每个时间戳上至少对齐一对不同，我们提出的S2DTW弱对齐了不相关的片段-字幕对，甚至可以实现多对多的匹配，这是DWSA无法处理的。图4a和4b显示了添加虚拟元素之前/之后的成对距离。这种弱对齐框架后面是局部邻域平滑。因此，最终的成对距离是用于计算DTW的ˆ∆φ(X, Y)，04.4. 使用S2DTW进行对比学习0我们的时间增强鼓励在排列不变特征下进行学习，并允许最小化无法通过顺序对齐算法（如标准DTW）对齐的片段和字幕之间的距离。这对于学习表示非顺序对齐的片段和字幕（如图1b所示）时非常有帮助。0我们最终的损义如下：0L = -log0i0�0� � e − S2DTW(X(i), Y(i))0使用S2DTW进行自监督学习。S2DTW衡量片段和字幕之间的距离。在没有负情况下最小化两个样本之间的距离会导0j ∈Ni e −S2DTW（X（i），Y（j））0（13），其中X（i）和Y（i）是第i个视频的片段和字幕，Ni是第i个视频的负样本集合。这个公式还隐含地挖掘了困难的负样本。在片段-字幕级别上，由于DTW的性质，负样本中距离更近的片段-字幕对将获得比负样本中的其他对更强的负信号来推开。因此，与基线[ 25]不同，对于所提出的方法没有采取额外的困难负样本挖掘策略（例如[ 23 ]）。有关定性结果的进一步讨论在附录中。05. 实验0在本节中，我们通过应用我们预训练的特征嵌入（第5.1节）来评估各种下游任务的性能。我们还描述了每个算法的影响的消融研究，这在第4节中进行了讨论，并最后分析了每个算法在DTW路径方面的定性结果（第5.2节）。除了动作识别任务外，所有下游任务和消融研究都在零样本学习设置中进行，以仅评估学习表示的质量。对于动作识别任务，我们采用了广泛使用的线性评估协议，该协议在冻结表示之上训练线性分类器。实验设置和进一步的消融研究在附录中。05.1. 下游任务05.1.1 动作识别0我们首先在动作识别任务上评估学习到的视频表示，而不使用文本表示，该任务的目标是区分视频级别的动作。在表1中，我们将所提出的方法与其他自监督方法进行了比较。根据线性评估协议，我们的VT-TWINS优于所有自监督学习方法，包括通过微调（Frozen x）进行的基线，如CBT [ 44]和3DRotNet [ 24]。这个结果表明我们的方法提高了视频表示的通用性。特别是对于HMDB，VT-TWINS相比于具有相同骨干模型（S3D）的MIL-NCE获得了约4%的改进。05.1.2 视频和文本检索0我们通过应用文本到视频和视频到文本检索任务来评估视频和文本的联合表示的有效性，这些任务旨在找到给定查询字幕（片段）的对应片段（字幕）。50220方法数据集 MM 模型冻结 HMDB UCF0OPN [ 1 ] UCF � VGG � 23.8 59.6 Shuf�e & Learn [ 37 ]* K600 � S3D � 35.8 68.7Wang等人 [ 48 ] K400 Flow C3D � 33.4 61.2 CMC [ 47 ] UCF Flow CaffeNet �26.7 59.1 Geometry [ 16 ] UCF Flow CaffeNet � 26.7 59.1 Fernanado等人 [15 ] UCF � AlexNet � 32.5 60.3 ClipOrder [ 54 ] UCF � R(2+1)D � 30.9 72.43DRotNet [ 24 ]* K600 � S3D � 40.0 75.3 DPC [ 21 ] K400 � 3D-R34 � 35.7 75.73D ST-puzzle [ 26 ] K400 � 3D-R18 � 33.7 65.8 CBT [ 44 ] K600 � S3D � 29.554.0 CBT [ 44 ] K600 � S3D � 44.6 79.5 AVTS [ 28 ] K600 Audio I3D � 53.083.7 MIL-NCE [ 35 ] HTM Text I3D � 54.8 83.4 MIL-NCE [ 35 ] HTM TextS3D � 53.1 82.70VT-TWINS HTM 文本 S3D � 57.9 850S3D（有监督学习）[ 53 ] S3D � 75.9 96.80表1. 动作识别. Shuf�e & Learn*和3DRotNet*由[ 44]使用S3D重新实现。0方法标记的数据集 R@1 R@5 R@10 MedR0随机初始化无 0.03 0.15 0.3 1675 HGLMM FC CCA [ 27 ]IM，K400，YC2 4.6 14.3 21.6 75 Miech等人 [ 36 ] IM，K400 6.1 17.324.8 46 Miech等人 [ 36 ] IM，K400，YC2 8.2 24.5 35.3 24 COOT [ 17 ]YC2 5.9 16.7 24.8 49.7 ActBERT [ 58 ] YC2 9.6 26.7 38.0 19 MIL-NCE [35 ] 无 8.8 24.3 34.6 230VT-TWINS 无 9.7 27 38.8 190表2. YouCook2上的文本到视频检索。0文本到视频检索。表2和3显示了在YouCook2和MSR-VTT数据集上进行的文本到视频检索的性能。为了与MIL-NCE进行公平比较，我们在HowTo100M数据集上训练了我们的模型，并在测试集上进行了评估，没有任何额外的监督。表2显示，我们的VT-TWINS优于MIL-NCE，甚至优于在YouCook2上微调的其他方法（例如COOT和ActBERT）（表示为YC2）。类似地，在MSR-VTT数据集上，表3显示了所提出的方法优于在HowTo100M上训练的几种多模态自监督方法（MIL-NCE，Amrani等人，SSB）。此外，我们的方法在目标数据集MSR-VTT上微调的ActBert上表现更好或与之相当。0视频到文本检索。我们还将视频到文本检索的性能与MIL-NCE进行比较。表4显示，我们的VT-TWINS在YouCook2和MSR-VTT上均优于MIL-NCE。请注意，MIL-NCE盲目地并且平等地将查询片段周围时间窗口内的所有字幕视为正例。我们认为这种假设通常不成立，并且使用不准确的片段-字幕对进行学习可能会妨碍学习将片段和字幕精确关联的表示。0方法标记数据集 R@1 R@5 R@10 MedR0随机初始化无 0.01 0.05 0.1 500 Miech等人[36] IM，K400 7.521.2 29.6 38 Amra

下载后可阅读完整内容，剩余1页未读，立即下载