基于分层自监督表示学习的电影理解方法

148 浏览量更新于2023-10-25 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9727基于分层自监督表示学习的电影理解Fan yiXiao*，Kausta vKundu，JosephTighe，DavideModoloAWS AI Labs{kaustavk，tighej，dmodolo}@ amazon.com摘要大多数自监督视频表示学习方法都集中在动作识别上。相比之下，在本文中，我们专注于用于电影理解的自监督视频学习，并提出了一种新的分层自监督预训练策略，该策略分别预训练我们的分层电影理解模型的每个级别（基于[37]）。具体来说，我们建议使用对比学习对象来预训练低级视频骨干，同时使用事件掩码预测任务来预训练高级视频上下文化器，这使得能够使用不同的数据源来预训练层次结构的不同我们首先展示了我们的自我监督预-t-3夹t-2夹T-1夹夹片试验任务任务时间培训策略是有效的，并导致在所有任务和VidSitu基准[ 37 ]上的度量的改进的性能（例如，将语义角色预测从47%提高到61%CIDER分数）。我们进一步证明了我们的情境化事件特征在LVU任务上的有效性[54]，无论是单独使用还是与实例特征结合使用，都显示了它们的互补性。1. 介绍大多数关于自我监督视频表示学习（SSL）的最新研究都集中在动作识别任务上[4，9，13，17，32，34，55]。这种优先级在很大程度上影响了这些方法的设计，以及用于学习其表示的数据集例如，他们提出了鼓励学习短期外观和运动线索的模型，因为这些是动作识别的最具信息性的。与此同时，他们主要关注Kinetics [20]数据集的预训练，该数据集由数十万个具有不同运动和语义模式的YouTube短片组成。与这些作品不同，我们感兴趣的是学习自我监督的视频表示来理解电影。然而，电影是非常复杂的，它们需要在许多层面上进行推理：从对低层次动作的简单理解到对高层次语义叙述的解释，这需要对人物的了解，*在亚马逊时完成的工作，现在在Meta AI图1. 分层自我监督预训练。我们在大量YouTube风格的动作片段上使用对比学习目标来预训练低级视频特征骨干;同时在具有丰富时间情节的电影上使用掩码预测来预训练高级特征上下文化器为了建立电影理解的丰富模型，[37]最近提出了一种分层电影理解模型，该模型以完全监督的方式学习。然而，对大规模视频数据集进行注释是极其困难的，即使对于像动作分类这样相对简单的任务也是如此，更不用说复杂的电影任务（例如，标记演员关系图[45]）。为了克服这个瓶颈，我们提出了一种新的分层自监督预训练策略，分别预训练这个分层模型的每个级别。详细地说，[37]的分层电影模型由两个级别组成：低级视频骨干编码器和高级Transformer contextualizer（图1）。我们设计了我们的分层学习策略，顺序预训练骨干和Transformer编码器，因为它们专注于电影理解的不同方面。主干负责繁重的工作，从原始像素中提取因此，它需要高容量，并且可以在大量YouTube视频上进行训练（例如，动力学[21]）。一旦我们从视频主干中获得适当的特征抽象，我们就可以处理这样的代表性，YouTube上的动作片段动作识别动作检测场景检测......视频特征上下文化器电影检索电影问答角色图生成事件关系预测语义角色预测......对比学习掩码预测语义层面movies视频骨干网视频骨干网视频骨干网视频骨干网9728表示作为视觉“单词标记”，并学习将相邻的视觉标记上下文化。上下文化器可以是轻量级的，并且在具有较强语义和时间结构的少量训练数据上训练（即，电影）。具体来说，我们建议使用对比学习目标来预训练视频骨干，这有助于模型从视觉线索中学习实例内不变性。这种预训练范式已被证明对动作识别非常有效[13，17，32，34，55]。此外，我们使用掩码预测任务对更高级别的Transformer模型进行预训练，以产生上下文化的语义表示，这对于预训练语言模型是有效的，这些语言模型接受单词标记进行上下文化[7，25]。这些分层自监督预训练策略带来了两个数据优势：它们允许使用不同的数据源来预训练层次结构的不同级别，并且它们不需要任何注释，这些注释本身就很昂贵。我们评估了我们的预训练对最近发布的VidSitu [37]和LVU [54]数据集的影响。这些是已经为各种任务注释的电影数据集，范围从低级动词预测（即，动作）到高级语义角色预测或事件关系分类（即，我们的研究结果表明，我们的自我监督预训练策略是有效的，并导致所有任务和指标的性能提高。例如，在语义角色预测的任务中，我们将CIDEr [44]指标性能从47%提高到61%，超过了之前的完全监督的最新技术水平[37]。最后，我们还取消了预训练食谱的设计选择2. 相关工作自监督视频表示学习。许多作品已经探索了通过设计利用视频的时间结构的借口任务来学习表征的方法。例如，一些作品试图通过预测视频帧的顺序来学习表示[14，27]，而另一些作品则设计了预测视频的方向[51]和速度[4]其他人试图通过跨帧跟踪补丁[48]，像素[50]，颜色[46]或通过预测视频的时间上下文[9，34，47]来学习视频表示最近的一项工作通过利用对比学习范式克服了对借口任务的需求[13，17，32，55]，即使与完全监督的方法相比，也取得了令人印象深刻的结果虽然蓬勃发展，但上面提到的所有作品都集中在从短的YouTube风格的动作片段中学习视频表示（例如，动力学），并在设计学习对象和架构时将动作识别作为任务相比之下，我们感兴趣的是从电影中学习视频表示，并且对于电影，正如我们将在接下来的部分中详细说明的那样，需要非常不同的学习目标和架构。从这个角度来看，[38，41，54]最接近我们的工作，因为他们也预训练了一个Transformer用于特征上下文化。然而，[41，54]专注于掩蔽空间区域，无论是[54]中的对象框还是[41]中的小块，以学习视频中的空间排列。而[38]依赖于联合视频和语言掩蔽，这需要对齐的视频-叙述对。相比之下，我们证明了我们可以使用简单的事件级表示来直接预训练我们的上下文预测器，而不需要使用框监督或视频文本对训练的任何对象检测器。电影理解研究人员已经探索了许多单独的电影理解任务，包括低级任务，如时空动作检测[16]，场景检测[19]，元数据分类（例如，类型）[54]，以及需要更高级别上下文和推理的任务，如电影描述[35]，电影问题回答[42]，基于故事的检索[2]，语义角色预测[37]和社交图生成[45]。与这些主要集中在单个任务上的工作不同，我们通过将其转移到电影任务的层次结构来展示我们的预训练策略的一般好处。视频的情境化时间建模。电影理解的一个显著特征是相邻场景和事件之间存在很强的语义相关性[29，42]。学习时间情境化的一种有效方法是应用RNN对帧的演变进行建模[10，22，23，30，40]。为了处理较长的时间窗口，建立一个显式特征库来存储随时间变化的有用特征是有帮助的为了对更细粒度的交互进行建模，存在利用预先计算的对象/人建议或检测的作品[3，26，39，49]。虽然相关，但我们的重点是不同的，因为我们3. 用于电影的理解电影是一项复杂的任务，它需要在许多层面上进行推理。为了学习电影的丰富表示，[37]是第一个提出分层模型的工作，该模型由低级CNN视频特征主干和高级Transformer特征上下文化器组成受此启发，本文旨在深入研究电影理解的层次性，并探讨电影预训练具体来说，我们重新评估 [37] 的选择（第二节）。3.1），它在完全监督的动作数据集上预训练了他们的视频骨干，并从头开始训练了contextualizer，并证明我们的预训练策略设计得更好，可以帮助层次结构的每个级别学习对电影理解任务有意义的特征。因为每一层都有责任9729××--将输入标记替换为[MASK][MASK][MASK]视频骨干网视频骨干网用于视频特征上下文化器的视频特征主干掩码预测的对比学习图2.我们的分层预训练方法概述。左图显示了我们如何使用对比学习来预训练视频特征主干-从同一视频的两个片段中产生的特征v锚点和v正被拉到一起，而从另一个视频采样的片段中计算的特征v负被推开。而右边显示了我们如何使用掩码预测来预训练我们的特征上下文化器-在这个5个令牌的序列中，我们将输入令牌v2和v3屏蔽到上下文化器，然后向前推进以获得输出vi。然后，我们设置学习目标，以最小化输出到kens（v2，v3）和屏蔽的输入标记（v2，v3）之间的距离。针对不同的目标，我们提出将视频骨干的预训练和特征上下文化器分开。由于视频主干负责提取低级别的外观和运动线索，我们建议使用自监督对比学习对其进行预训练3.2），它显式地对实例内不变性进行建模。另一方面，视频特征上下文化器负责跨相邻剪辑传播信息（“视觉令牌”）。受NLP文献[8]的启发，我们建议使用事件级掩码预测任务对其进行预训练。3.3），与以前方法中的应用方式有一些关键区别。与计算机视觉中的一些最近的工作相比，这些工作提出应用掩模预测来学习视频补丁或对象的空间排列[41，54]，我们专注于学习事件表示的时间情境化此外，不像[38]，需要联合视频和语言掩蔽，我们表明我们的方法只使用视频剪辑来学习强上下文由于我们的方法不需要任何对象检测器[54]或同步的视频-叙述对[38]，因此它使我们的方法更简单，更具可扩展性。最后，这种训练还使我们能够在不同的数据集上预训练不同的这导致了更好的专业化（因为我们可以为每个级别使用最合适的数据集），并且减少了对目标域的大规模数据集的依赖（即，我们不需要数十万部电影来训练昂贵的视频主干）。与以前的SSL方法相比，这是一个重要的优势，以前的SSL方法主要使用单个任务和数据集对完整模型进行预训练3.1. 电影理解我们遵循[37]并采用他们的分层架构来理解电影（图1）。它使用3D CNN作为低级视频特征骨干，并使用Transformer编码器和解码器分别用于特征上下文化和自然语言生成。视频骨干提取功能vt的短2秒的剪辑。然后，变换器编码器对序列Vt，Vt+1，.，v N的连续剪辑特征，并将它们具体化为v。这些上下文化的特征最终被用作分类器（例如，用于视觉任务，如事件关系预测），或Transformer解码器（TxD），其解码自然语言输出（例如，语义角色预测）。对于主干，我们采用流行的仅慢速网络[12]，但有两个修改[32]：1）而不是8个8输入（8个帧输入间隔8个帧采样），我们对第一conv层使用时间内核为5的更密集的16个4输入，以增加其时间感受野; 2）在第一conv层之后，以时间步长为2对我们将此骨干表示为慢D，因为其输入更密集。对于 Transformer 编码器（ TxE ）和解码器架构（ TxD ），我们主要遵循 [37] 。具体地，对于Transformer编码器，我们使用具有剩余连接的3层多头自注意，每个层具有16个头，并且隐藏维度为1024。对于输入，我们将学习的位置嵌入附加到输入序列中的N个令牌中的每个令牌，我们发现与[37]中使用的正弦嵌入相比，这更好地工作。Transformer解码器也有3层，每一层由一个自最小化掩码之间的距离和视频骨干网视频骨干网视频骨干网视频骨干网视频骨干网视频特征上下文化器视频骨干网击退吸引9730----联系我们∈--联系我们--不不i=1不我注意力模块和交叉注意力模块，其中仅针对文本输入计算自注意力，而针对文本标记添加交叉注意力以查询视觉标记作为键。有关架构的更多详细信息，请参阅我们的supp。材料.3.2. 视频主干：对比预训练我们采用实例区分对比学习，因为它已被证明是非常有效的学习视觉语义模式，通过捕获实例内的方差[6，18，32，34，55]。其中，我们使用两种简单但强大的方法进行实验：CVRL [32]和MoDist [55]。CVRL使用流行的InfoNCE目标进行预训练[31]。他们的目标是将从同一视频中采样的两个剪辑的表示拉在一起，同时将从不同视频中采样的剪辑的表示分开（图2左图）。虽然它产生了令人印象深刻的结果，CVRL没有明确地利用运动线索的表征学习。MoDist [55]通过视觉-运动跨模态对比目标解决了这一问题，其中支持运动网络用于将信息提取到视觉骨干，以便它可以学习运动敏感特征。3.3. Contextualizer：掩码预测预训练预训练Transformer的目标是使其更好地将各个语义标记（在我们的设置中是视频剪辑）置于上下文中。为此，我们使用掩码预测任务，该任务广泛用于NLP中的语言模型训练（例如，BERT [8]）。具体地，如图2（右）所示，给定一组视觉令牌v1，v2，.，v N，我们从集合m中随机选择一个掩码大小m1，2，...，αN，其中α[0，1]确定最大掩码大小相对于序列长度的比率，以及掩码起始位置s1，2，...，Nm+1。通过采样的大小和位置，我们屏蔽了所选的令牌v s，.，v s+m−1，并将它们替换为一个特殊的[MASK]标记。然后，我们通过Transformer编码器转发掩码序列，以获得其L2归一化输出vn1，vn2，.， vN. 理想情况下，通过从相邻剪辑进行适当的语义化，即使输入剪辑被屏蔽，VVT应该仍然能够预测图2中最后两个输入标记的2右，给定前三个令牌作为上下文）。解决这个问题是学习电影丰富的时间动态的关键，我们以一种使输出vt接近其相应输入vt的方式来制定其学习目标：L=−logexp（vt·vt/τ），（1）分散注意力的集合p1，p2，...，在训练过程中，通过保持FIFO队列，请注意，一个更简单的替代方案是直接在vt和vt之间强制执行L2损失，但从经验上讲，我们发现这会产生比Eq.1（表2）。最后，请注意，尽管可能，但我们在这项工作中不研究Transformer解码器的预训练，因为我们主要对预训练可以通用地传输的电影表示感兴趣（即，脊柱+TxE），而TxD是任务依赖的（例如，SRL 的解码器是一个多模式的转换器（Transformer，它接收文本和视频），并且只用于某些任务。4. 实验：VidSitu基准VidSitu [37]是一个全面的电影理解基准，其具有不同的任务，从低级别的、仅视觉的“动词预测”到更高级别的、多模态的“语义角色预测”和“事件关系”分类。该数据集包含来自MovieClips [1]的3k个不同电影的29k个10秒剪辑。该数据集为每个片段提供详细的注释，包括1）以2秒间隔的动词类标签每个10秒剪辑被分成5个事件A是由事件B引起的）。数据集被分成一个23.5k剪辑的训练集和一个1.3k剪辑的val集，我们在此基础上评估我们的模型。最后，为了避免数据污染，我们从VidSitu val中删除了241个与LVU数据集重叠实作详细数据。对于我们的视频骨干的自我监督预训练，我们使用大规模Kinetics-400 [20]（K400，240 k剪辑）的训练集和小得多的我们在K400上对CVRL和MoDist进行了400个epoch的预训练，如果指定，还在VidSitu上进行了200个epoch的预训练我们只对来自VidSitu和LVU [54]的电影剪辑（这是另一个10k电影剪辑的数据集）预训练我们的Transformer编码器，因为我们希望Transformer编码器从电影中学习时间上下文我们使用VidSitu上的100个epoch和LVU上的1000个epoch的掩码预测来预训练 TxE，因为电影剪辑比VidSitu长100倍请注意，我们从不使用任何来自数据集的人类标签进行这些预训练（骨干和TxE）。对于contextualizer超参数，我们设置输入序列长度为N=5，α=0。6，τ=0。1，K=65536。请参阅我们的supp。有关预培训的更多详细信息。4.1. 语义角色预测在本节中，我们研究了自我的有效性mpexp（v·v/τ）+ΔKexp（v·p/τ）其中τ是温度参数，并且pi是一组distractions，我们将通过从上下文预测其语义来识别vt我们构造由于其丰富的输出空间（自由形式的自然语言）和多模态性（视觉和语言），电影理解是一个非常具有挑战性的任务。这项任务用于语义角色预测的监督预训练，9731表1. VidSitu上的语义角色预测结果。上一节的结果来自[37]。最下面一行通过测量注释者之间的一致性显示了人类的性能[37]，这是性能上限。与[37]不同，它只报告单次运行的结果，我们发现运行之间存在很大的差异（可能是由于该任务评估自由形式的自然语言输出），因此我们为每个实验运行10次并报告其平均值和标准误差。是预测每个动词的各种语义角色标签，包括例如动词的施事和受事，以及其他属性，如动词发生的场景，以及关于如何进行的描述（例如“紧急”）。由于人类对某些注释角色的高度分歧，基准只评估代理（例如4.1[37]详细内容接下来[37]，我们使用CIDEr [44]评分指标进行评估（及其变体CIDEr-verb和CIDEr-arg，它们是动词和参数类型的平均CIDEr评分）。此外，为了完整性，我们还报告了ROUGE-L [24]和LEA [28]。最后，由于我们在该任务的运行中观察到较大的方差，因此我们对每个实验运行10次，并报告其平均值和标准误差。自我监督预训练的影响。我们在表1中呈现我们的结果。顶部部分展示了来自[37]的结果：GPT 2是一个视觉盲语言模型基线，仅接受动词类作为输入;I3 D+TxD 直接接受 I3 D [5] 视频特征作为输入，Transformer解码器（TxD），而不使用transformer编码器（TxE）来使特征上下文化; 2I3 D +TxD+TxE向其添加TxE上下文化器。3表的第二部分给出了我们对视频骨干和TxE的不同预训练设置的结果在整个过程中，我们使用从这些结果中产生了几个有趣的观察结果。如[37]中所报告的，TxE情境化器与更简单的I3D+TxD模型相比没有带来任何性能增益（47.06vs.47.14 CIDER）和我们使用 Slow-D 的结果显示了类似的趋势（51.37vs.51.36）。然而，我们并没有得出情境化在这种情况下没有帮助的结论，而是假设这是由于缺乏适当的TxE预训练，我们可以通过使用事件特征的掩码预测的自我监督预训练来解决我们的结果验证了我们的直觉，因为TxE预训练显著优于从头开始训练TxE。最大的改进来自LVU数据集的预训练（比VidSitu大4.6倍，因此性能更好），这将CIDER从54.40到61.18这个大的增益来自于掩码预测任务本质上迫使TxE学习将输入标记上下文化（即，在这种情况下是事件特征）通过在它们之间传播有用的信息。虽然这已经在训练BERT等语言模型中取得了巨大成功，但它仅以预测遮蔽空间区域的形式应用于视觉中，如补丁[41]，对象框[54]或需要视频-叙述对的联合视觉语言预训练[38]。据我们所知，我们是第一个证明这可以推广到仅使用视频学习的简单事件级视频表示的人，并且可以导致对最先进技术的显着改进（61.18vs.47.14）。节中3.我们讨论了将主干和上下文化器的预训练分开的重要性为了量化为每个预训练选择正确数据集的重要性，我们评估了使用K400和VidSitu的所有可能排列（例如，“K400+VS”是指在K400上预训练的CVRL主干，随后是使用VidSitu 上的掩码预测预训练的TxE ）。其中， K400+VS 实现了最高的性能（60.34），这表明了在最大规模数据集上学习主干的重要性，但在域内（即，电影）一。有趣的是，最后，我们还可以看到，以自我监督的方式（CVRL-K400）对主干进行预训练比完全监督的预训练（Sup-K400）更好：54.40比51.36，这可能是由于有监督的预训练任务和下游任务模型预训练骨干TxECIDER [44]CIDER动词CIDEr-arg[24]第二十四话LEA [28]GPT2 [33]--34.6742.9734.4540.0848.08I3D+TxD [37]Sup-K400-47.1451.6141.2940.6737.89I3D+TxE+TxD [37]Sup-K400N47.0651.6742.7642.4148.92慢-D +TxDSup-K400-51.37 ± 1.0659.68 ± 0.8846.10 ± 0.9041.37 ± 0.5936.03 ± 0.70慢-D +TxE+TxDSup-K400N51.36 ± 1.0459.72 ± 0.8747.25 ± 0.9441.72 ± 0.6545.99 ± 0.56慢-D +TxE+TxDCVRL-K400N54.40 ± 0.9663.18 ± 1.2747.63 ± 1.8341.80 ± 1.0146.31 ± 1.13慢-D +TxE+TxDCVRL-K400MaskPred-K40057.48 ± 1.7465.08 ± 1.9251.21 ± 1.8741.65 ± 1.1545.71 ± 0.87慢-D +TxE+TxDCVRL-VSMaskPred-VS44.32 ± 0.5652.07 ± 0.8139.08 ± 0.6440.56 ± 0.3448.87 ± 0.62慢-D +TxE+TxDCVRL-K400MaskPred-VS60.34 ± 0.7569.12 ± 1.4353.87 ± 0.9743.77 ± 0.3846.77 ± 0.61慢-D +TxE+TxDCVRL-K400MaskPred-LVU61.18 ± 1.4869.15 ± 1.5754.99 ± 1.1243.38 ± 0.8747.81 ± 0.90人（上）约束）84.8591.7080.1539.7772.109732----掩模尺寸步幅采样损失苹果酒CIDER动词CIDEr-argROUGE-L莱亚{1}下一页{1，2}{1，2，3}{1，2，3，4}2s2s2s2s均匀均匀均匀均匀对比对比的对比的57.01 ± 2.2159.15 ± 2.0161.18 ± 1.4859.45 ± 1.3163.80 ± 3.0666.79 ± 1.9969.15 ± 1.5764.71 ± 2.0550.85 ± 1.7753.56 ± 1.6155.00 ± 1.1252.94 ± 1.5541.69 ± 1.3442.16 ± 1.1343.38 ± 0.8743.25 ± 0.5649.13 ± 1.2446.33 ± 0.9447.81 ± 0.9048.96 ± 0.61{1，2，3}{1，2，3}{1，2，3}1s2s3s均匀均匀一致对比对比的60.15 ± 1.1361.18 ± 1.4858.38 ± 0.8066.81 ± 1.6469.15 ± 1.5765.69 ± 0.7253.29 ± 1.1755.00 ± 1.1252.15 ± 1.1142.31 ± 0.6843.38 ± 0.8742.50 ± 0.4947.66 ± 0.6947.81 ± 0.9048.02 ± 0.70{1，2，3}{1，2，3}2s2s均匀最大离散度L2距离对比58.88 ± 1.1361.65 ± 0.7966.43 ± 0.8668.44 ± 0.9352.22 ± 1.0155.06 ± 0.9043.05 ± 0.6043.44 ± 0.4548.55 ± 0.8548.25 ± 0.54表2. 用于TxE预训练的模板预测。顶部消除了不同尺寸的敷用面罩的有效性（例如，“1，2”指的是样本掩码大小1和2）。中间部分消除了不同标记步幅（例如，“2s”是指具有两个相邻的令牌作为从相隔2s的事件段计算的特征）。底部部分消除了替代损失函数和掩码采样策略，该策略自适应地选择要屏蔽的令牌。目标任务（动作识别与SRL在这种情况下）。重复TxE预训练。我们现在进行消融实验，以了解我们的设计选择对TxE掩模预测预训练的影响（表2）。我们用表 1 中的最佳模型进行实验： [Slow-D+TxE+TxD，CVRL-K400，MaskPred-LVU]。首先，我们研究表2（顶部）中不同掩码大小的影响。在所有测试的选项中，从1，2，3均匀采样掩码大小实现了最佳性能。使用较高或较低的值会显著降低性能。这是可以理解的，因为从总共5个令牌中预测4个被屏蔽的令牌太具有挑战性，同时当太少的令牌被屏蔽时，这太容易了。接下来，我们研究两个连续标记之间的步幅大小的影响（表2中）。虽然所有条目都实现了竞争结果，但计算相隔2秒的事件的视频特征实现了最佳平衡。最后，我们在表2（底部）中阐述了掩模预测任务的其他两个方面：损失函数和掩模采样策略。首先，我们将损失函数从等式1到标准的L2损失。这降低了准确性，可能是由于L2对表示塌陷问题更敏感[15]。然后，我们比较了简单的均匀采样（在所有实验中使用）与更sophisti- cated采样策略的掩模位置：“最大差异”。我们相信，选择好的标记来屏蔽可以帮助模型更好地学习。作为示例，从概念上讲，与在某人说话的长镜头中间掩蔽相比，模型学习从另一个人用拳头击打的先前上下文事件中“填充”一个人显示痛苦表情的掩蔽事件将更有帮助具体地，给定令牌vi，差异捕获在没有ny掩蔽的情况下计算的vii和在没有ny掩蔽的情况下计算的vii′之间的TxE输出的差异。通过掩蔽vi来计算。高差异表明vi是TxE的一个重要标记，屏蔽它将推动TxE更努力地学习，只使用剩余的标记。为此，估计误差。令人惊讶的是，与简单的均匀采样相比，该采样策略仅实现稍微更好的CIDEr分数。我们假设这可能是由于VidSitu的性质，其包含短电影高光，而不是时间上更连贯的完整电影，因此大多数令牌如果被掩蔽就已经具有挑战性4.2. 事件关系预测我们现在研究自我监督预训练对偶关系预测任务的有效性。该任务被公式化为四种关系类型之间的四向分类问题：“A由B启用”，“A是对B的反应”，“A导致B”和“A与B无关”。注释被提供为（A，B，关系）三元组。为了预测事件A和B之间的关系，我们将这两个事件的特征直接从视频主干慢-D（即， vA和vB）或从缓冲器执行器TxE（即， vA和vB）。我们使用来自不同模型（Slow-D和Slow-D+TxE）的特征和表3中的预训练技术进行了实验。在[37]之后，我们使用提供的验证集上的平均准确度（关系类型的平均值）和top-1准确度来评估我们的结果。我们给出了两种设置的结果：在第一种设置中，我们直接将预训练的特征转移到事件关系预测（vbfinetune 'x'）。而在第二种设置中，我们采用了进一步微调VidSitu动词预测（''）的模型使用这两种方法，自我监督预训练可以与监督预训练一样有效，特别是在使用运动敏感的MoDist特征时（33.29%vs.33.03%，34.66%vs. 34.00%）。有趣的是，我们发现，当天真地添加TxE并使用随机初始化的权重从头开始训练时，它不起作用，在这种情况下，模型不会训练并达到机会性能（平均加速度25%）。这可能是为什么[37]直接使用视频主干的功能，而忽略了TxE的输出。然而，我们的结果表明，通过使用掩码预测进行适当的预训练，可以训练Slow-D+TxE模型9733模型骨干预训练VB微调TxE预训练平均访问量Top1-访问I3D [37]监督✓-34.1339.91慢-D监督-33.03 ± 0.2141.90 ± 0.23慢-DCVRL-32.05 ± 0.2438.68 ± 0.69慢-DMoDist-33.29 ± 0.1540.52 ± 0.58慢-D没有✓-30.66 ± 0.2141.29 ± 0.31慢-D监督✓-34.00 ± 0.1240.65 ± 0.29慢-DCVRL✓-33.89 ± 0.1741.35 ± 0.24慢-DMoDist✓-34.66 ± 0.1841.75 ± 0.47慢-D +TxECVRL✓没有25.00 ± 0.0039.42 ± 0.00慢-D +TxEMoDist✓没有25.00 ± 0.0039.42 ± 0.00慢-D +TxECVRL✓MaskPred34.71 ± 0.0741.16 ± 0.24慢-D +TxEMoDist✓MaskPred35.32 ± 0.1741.62 ± 0.43表3. VidSitu上的事件关系预测。监督：在K400上使用类标签进行预训练。CVRL/MoDist：首先在K400上使用CVRL [32]或MoDist [55]进行预训练，然后在VidSitu上进行预训练，因为我们发现它有助于弥合电影的领域差距。顶部的方法经过预训练，然后直接转移到VidSitu上的事件关系预测在中间部分，方法进一步微调VidSitu动词预测任务（vb finetune''）。最后，底部部分显示了在视频主干之后附加Transformer编码器（TxE）对于每个实验，我们重复10次运行并报告其平均值和标准误差。表4. VidSitu上的动词预测结果。第一行显示了应用[ 37 ]中的仅慢速网络的结果。我们使用前1/5的准确性以及recall@5指标进行评估，遵循[37]。对于预训练设置，我们使用对于这项任务，并实现比单独使用骨干特征更好的准确性：我们的掩码预测预训练提高了CVRL和MoDist的性能，导致最先进的结果为35.32%的平均acc，而之前的最佳结果为34.13%[37]。4.3. 动词预测最后，我们评估了动词预测任务，这是预测短视频片段上的动作类的标准任务数据集中的每个影片剪辑被分成五个2秒的事件片段，每个片段都用动词标签进行注释。该数据集包含1560个动词类，如“看”，“说”，“走”，“跑”，“抓”，“开车”等。我们遵循[37]并使用表4中的前1名和前5名准确率（Acc@1/5）和前5名召回率（Rec@5）评估结果。我们观察到以下情况。(i)使用MoDist预训练的38.29）。这是令人惊讶的，因为这个动词预测任务中的一些标签我们认为这是由于K400中YouTube风格的动作片段和VidSitu中的电影之间的域差距，自我监督的预训练有助于减少。(ii)两图3. 对象Transformer++。给定视频和检测/跟踪的对象，顶部路径将其裁剪的实例特征馈送到对象Transformer中，以对它们的交互进行建模[54]。除此之外，如底部路径所示，我们建议添加一个场景级事件表示，由我们的预训练上下文生成器（Sec.3.3），对检测到的对象之外的场景的上下文进行建模。在SSL方法中，MoDist的性能优于CVRL，这表明其运动敏感特性非常适合于许多具有强烈运动的动词，如(iii)最后，当我们扩展到K400和VidSitu（K400+VS）上进行预训练时，性能进一步提高，因为VidSitu有助于减少域间隙。虽然这是预期的，但应该注意的是，这只可能是由于预训练的自我监督性质。为了使用完全监督的预训练实现类似的好处，必须在新的域中注释视频（例如，VidSitu电影的类型），然而，这是昂贵的和不可扩展的。5. 实验：LVU基准在本节中，我们展示了我们的方法在长格式视频理解（LVU）数据集上的有效性[54]。LVU是一个包含10 k个视频（通常为1-3分钟长）的大规模数据集，具有9个不同的任务，包括用户参与度（YouTube喜欢率，流行度），电影Meta数据分类（导演，流派，作家，电影发行年份）和内容理解分类（场景中演员的关系，说话风格，场景）。轨道实例表示检测场景代表埃森视频骨干网语境化器对象Transformer骨干预训练Acc@1Acc@5召回@5慢[37]Sup-K40029.0558.6919.19慢-D-31.6968.645.68慢-DSup-K40038.2969.2718.70慢-DCVRL-K40032.8461.5713.59慢-DMoDist-K40042.9673.1717.48慢-DCVRL-K400+VS35.2965.9214.41慢-DMoDist-K400+VS44.6774.3818.409734†例如场景关系（↑）说话（↑）场景（↑）导演（↑）作者（↑）年份（↑）类型（↑）喜欢（↓）观点（↓）#top-1 是说OT [54]注50.0034.5732.5637.3826.5525.7349.550.3964.5591/93.22CVRL系列50.9532.8632.5637.7627.2625.3148.170.4444.6000/93.89MoDist49.5233.5730.7040.5623.1026.5749.260.4584.5060/93.89✗Sup52.3834.3726.5123.185.3618.8847.370.5954.0612/94.44✗我们52.3833.0736.9842.4323.9335.2448.110.3754.6533/92.89[第54话]我们50.9534.0744.1940.1931.4329.6551.150.3534.8864/92.33表5.拉斯维加斯大学的任务。前两列显示了我们用于实例和场景表示的预训练设置（'未使用'表示'未使用'）。对于9个任务中的每一个，如果是分类任务，我们显示了前1名的准确率，而回归任务的均方误差。在最后两列中，我们显示了一种方法获得最高排名的任务数量，以及每种方法在所有任务中的平均排名。注意第一行中的OT数量如何低于[54]中报告的数量，因为（a）我们使用R50而不是R101骨干，（b）我们使用Slow-D网络进行时空特征，而不是更昂贵的SlowFast网络，（c）我们在公共存储库中提到的10 k电影上进行预训练，而不是他们论文中使用的30 k电影。对象Transformer++。在[54]中，作者提出了一种称为对象Transformer（OT）的长期时态模型它使用以对象为中心的设计来将每个视频表示为一组时空实例（即，人和物体的tracklet，图3顶部路径）和基于transformer的架构[43]，以模拟视频中跟踪对象的协同作用（蓝色矩形）。我们认为，虽然这种以对象为中心的设计是有用的建模长期的电影理解，它是不够的。仅关于对象和它们之间的交互的推理可能忽略场景的上下文，这对于理解电影是至关重要的（即，演员移出相机视图，但场景继续）。相反，我们建议丰富OT与一个新的场景表示。具体来说，我们建议使用我们的自我监督预训练上下文（TxE，图。3底部路径），以补充实例功能。我们将图3中的增强的完整方法表示为OT++。结果在表5中，我们使用与[54]相同的参数和实验方案报告了LVU数据集中提出的所有9个任务的结果。我们报告了5次运行的平均性能。‘instance’ and ‘scene’ arethe two pathways of Fig. 前者表示OT [54]提出的以对象为中心的特征，而后者表示我们提出作为改进OT的手段的上下文特征。‘OT’, ‘CVRL’ and ‘MoDist’ denotedifferent features ‘CVRL’另一方面，‘Ours’ denotes ourself-supervised hierarchical 虽然w/o图3底部路径中的红色块）。最后，我们使用所有这些前面提到的编码器来嵌入视频剪辑，并将它们馈送到最终的对象Transformer（图3中的蓝框），为9个LVU任务进行了微调在前三行中，我们报告了仅使用实例表示路径的性能，如[54]所示。第一行显示OT基线的结果[54]。正如预期的那样，仅使用对比目标（第2-3行）训练的特征表现不佳[54]，这表明OT对于长期电影理解的有效性。然而，当我们在LVU上使用通过预训练与我们的事件级掩码预测任务产生的上下文化特征时，即使我们的场景表示w/o任何实例特征（图2）。3，仅底部路径）已经优于更复杂的实例模型OT（平均排名2.89vs.3.22）。当我们将其与O

下载后可阅读完整内容，剩余1页未读，立即下载