远程监督识别程序活动中的多步骤任务

33 浏览量更新于2023-10-25 收藏 653KB PDF 举报

时间依赖性

泛化性能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13853学习通过远程监督识别程序活动林旭东1*Fabio Petroni2Gedas Bertasius3Marcus Rohrbach2Shih-Fu Chang1LorenzoTorresani2，41哥伦比亚大学2Facebook AI Research3查珀尔希尔4达特茅斯摘要在本文中，我们考虑分类细粒度的多步骤活动（例如，烹饪不同的食谱，进行不同的家居装修，创造各种形式的艺术和手工艺品）从长达几分钟的视频准确地对这些活动进行分类不仅需要识别组成任务的各个步骤，还需要捕捉它们的时间依赖性。这个问题与传统的动作分类有很大的不同，传统的动作分类模型通常在视频上进行优化，这些视频仅持续几秒钟，并且被手动修剪以包含简单的原子动作。虽然步骤注释可以使模型的训练能够识别程序活动的各个步骤，但是由于手动注释长视频中的时间边界的成本过高，该领域中的现有大规模数据集不为了解决这个问题，我们建议自动识别教学视频中的步骤，通过利用远程监督的文本知识库（wikiHow），其中包括执行各种各样的复杂活动所需的步骤的详细描述。我们的方法使用一个语言模型来匹配嘈杂的，自动转录的语音从视频中的知识库中的步骤描述。我们证明，经过训练以识别这些自动标记步骤（无需人工监督）的视频模型产生的表示在四个下游任务上实现了卓越的泛化性能：程序活动识别，步骤分类，步骤预测和以自我为中心的视频分类。1. 介绍想象一下，在你的厨房里，你正在做一道复杂的菜肴，这道菜需要一系列复杂的幸运的是，你的J.A.R.V.I.S. 1来救你它积极地识别你正在努力完成的任务，并指导你一步一步地成功完成任务。*XL在Facebook AI Research实习时完成的研究。1漫威电影宇宙中的虚构AI助手食谱的执行在过去几年中，活动识别[9，11，51，53]的巨大进步无疑使这些虚构的场景更接近现实。然而，很明显，为了实现这些目标，我们必须扩展现有系统，超越修剪片段中的原子动作分类，以解决更具有挑战性的问题，即理解几分钟长视频中的程序活动此外，为了对过程活动进行分类，系统不仅必须识别长视频中的各个语义步骤，还必须对它们的时间关系进行建模，因为许多复杂活动共享几个步骤，但这些步骤出现或交错的顺序可能不同。例如，近年来，研究界已经参与创建了几个手动注释的视频数据集，用于识别程序性的多步骤活动。然而，为了在片段（步骤标签）和视频（任务标签）这两个级别上进行详细的手动注释，这些数据集被限制为具有窄的范围或相对小的规模。示例包括专注于特定领域的视频基准，例如食谱准备或厨房活动[11，27，40，62]，以及手动标记用于步骤和任务识别的教学视频集合[50，63]。由于手动注释时间边界的成本很高，这些数据集在任务数量（最多大约几百个活动）以及视频示例数量（大约10K个样本，大约400小时的视频）方面都被限制在一个小的尺寸。虽然这些基准推动了这一领域的早期进展，但其规模有限，范围狭窄，无法培训现代大容量视频模型来识别一般程序活动。在规模/范围谱的另一端，HowTo 100 M数据集[34]作为一个特殊的资源脱颖而出。它在多个维度上比该领域的先前基准大3个数量级以上：它包括超过1亿个剪辑，显示人类执行和叙述超过23，000个复杂任务，视频总时长为134K小时。这个巨大13854数据量的一个重要方面是其规模有效地防止了手动注释。事实上，HowTo100M中的所有视频都未经人工注释者验证。虽然该基准明显满足了训练大容量视频模型所需的大小和范围要求，但其缺乏片段注释和视频的未经验证的性质阻碍了准确步骤或任务分类器的训练在本文中，我们提出了一种新的方法，火车-使用模型来识别教学视频中的程序步骤，而无需任何形式的手动注释，从而能够在大规模未标记数据集（如HowTo100M）上进行优化。我们提出了一个远程监督框架，利用文本知识库作为指导，自动识别视频中对应于不同程序步骤的片段。远程监督已用于自然语言处理[35，39，42]，以使用知识库从嘈杂的文本语料库中挖掘关系示例。在我们的设置中，我们还旨在关系提取，尽管是在识别与语义步骤相关的视频片段的特定设置我们使用的知识库是wikiHow [2]-一个众包的多媒体存储库，包含超过230，000篇我们的系统使用语言模型来比较从视频中自动转录的叙述片段匹配的步骤描述作为远程监督来训练视频理解模型以学习步骤级表示。因此，我们的系统使用知识库从嘈杂的大规模未标记视频数据集中挖掘步骤示例。据我们所知，这是第一次尝试学习一步视频表示与远程监督。我们证明，经过训练的视频模型在大量的教学视频语料库中识别这些伪标记步骤，提供了一个通用的视频表示，有效地转移到新数据集上的四个不同的下游任务。具体来说，我们表明，我们可以应用我们的模型来表示一个长视频作为一个序列的步骤嵌入提取的各个部分。然后，在此嵌入序列之上训练一个浅层序列模型（单个Transformer层[52]），以在步骤嵌入上执行时间推理。我们的实验表明，这种方法在标记的COIN数据集上产生了最先进的程序任务分类结果，比文献中报道的最佳数字高出16%以上。此外，我们使用这个测试平台来进行其他有见地的观察：1. 与使用HowTo100M的未经验证的任务标签获得的结果相比，使用我们的远程监督框架分配的步骤标签获得了更好的下游结果。2. 我们的远程监控视频表现优于-形成了在大规模Kinetics-400数据集上使用动作标签训练的全监督视频特征[9]。3. 我们的步骤分配程序产生比通过直接将视频匹配到ASR叙述[33]学习的表示更好的下游结果，从而显示了远程监督框架的价值。我们还评估了我们的系统在早餐数据集上对手术活动进行分类的性能[27]。此外，我们在与用于学习我们的表示（HowTo 100 M）不同的数据集上提供了三个额外下游任务的迁移学习结果：COIN上的步骤分类和步骤预测，以及EPIC-KITCHENS-100上的自我中心视频的分类[10]。在所有这些任务中，我们的远程监督表示比以前的作品实现了更高的准确性，以及我们基于完全监督的训练实现的额外基线。这些结果进一步证明了我们的无监督表示对于理解视频中的复杂程序活动的通用性我们将发布由我们的远程监督2提供的代码和自动注释。2. 相关工作在过去十年中，我们目睹了在行动识别方面取得的巨大进展。然而，该领域的基准测试由简短的视频（通常几秒钟长）组成，这些视频经过修剪以包含要识别的单个原子动作[19，24，28，44]。在这项工作中，我们考虑了更现实的设置，其中视频未经修剪，持续几分钟，并包含定义要识别的复杂程序活动的步骤序列（例如，特定的食谱或特定的家庭改善任务）。了解程序视频。程序性知识是人类知识的重要组成部分[4，37，48]，基本上回答这些知识在长的手术视频中显示[11，27，34，41，50，62，63]，这些视频吸引了对多步活动识别的积极研究[21，23，61]。该领域的早期基准包含视频中步骤的手动注释[50，62，63] ，但范围和大小相对较小。另一方面，HowTo100M数据集[34]不包含任何手动注释，但它大了几个数量级，其“如何”视频的范围一个教学或如何做视频包含一个人类的主题演示和叙述如何完成某项任务。HowTo100M的早期工作集中在利用这个大型集合来学习模型，这些模型可以转移到其他任务中，例如动作识别[3，33，34]，视频字幕[20，32，62]或文本视频检索[6，33，56]。识别任务2请查看https://arxiv.org/abs/2201.10990获取更新。13855步骤知识库wikiHow如何在例假期间做爱• 确定窗口适配器工具包是否可以与您的窗口一起工作。• 将便携式空调附带的排气软管连接到空调单元。• 将排气软管车窗连接固定到位。• 把空调插上电源。如何重置Macbook Pro• 拆下胶带并将车窗降下。• 插入车窗安装螺栓。• 重新安装塑料衬里和内饰板。• 将电源线插入适当的电源插座。• 拧紧螺钉。10588步，1053篇文章时间帧54.6107.1 116.7 124.7ASR步骤长度和附加到窗口会话框架插入通风口面板插入车窗安装螺栓。装置中包含的b型螺钉可能需要多达9个螺钉，请参阅拧紧螺钉。将另一端安装在空调器的后部定位将便携式空调附带的排气软管连接到空调单元。电源插座，您将听到确认空调已关闭的提示音。将电源线插入适当的电源插座。图1.说明我们提出的框架。给定一个很长的教学视频作为输入，我们的方法生成远程监督匹配段视频中的知识库（wikiHow）中描述的步骤匹配是通过使用预先训练的语言模型将自动转录的叙述与步骤描述进行比较来完成的然后使用该远程监督来学习识别这些自动注释的步骤的视频表示。这段视频来自HowTo100M数据集。补充材料中提供了更多的例子Bertasius等人已经考虑了在教学视频中执行的操作。[7]的文件。然而，他们提出的方法并没有模拟教学视频的程序性质。学习视频表示与有限的监督。学习语义视频表示[30，36，45，46，58]是视频理解研究中的一个基本问题从标记数据集预训练的表示因此，已经进行了许多尝试来获得具有较少人类监督的视频表示。在无监督设置中，监督信号通常通过增强视频来构建[16，45，55]。例如，Weiet al. [55]提出预测视频的顺序作为学习顺序感知视频表示的监督。在弱监督设置中，监督信号通常从主题标签[18]，ASR transmittance [34]或从Web [17]中提取的元信息中获得。Miech等人[34]表明从音频中提取的ASR句子可以作为学习视频表示的有价值的信息源。以前的作品[13，14]也研究了学习使用任务标签作为监督来定位关键帧。这与本文的重点不同，本文解决了从未标记的教学视频中学习步骤级表示的问题远程监督。远程监督[35，59]已经在自然语言处理中进行了研究，并且通常是指一种训练方案，其中通过利用干净且信息丰富的知识库从大型噪声语料库中自动挖掘示例来获得监督。它已被证明是非常成功的问题上的关系前，牵引例如，Mintzet al.[35]利用Freebase [8]的知识来获得关系提取的监督。然而，远程监督的概念尚未在视频理解中得到利用。Huang等人. [20]已经提出使用wikiHow作为文本数据集来预训练视频字幕模型，但是知识库不用于监督视频理解模型。3. 技术途径我们的目标是学习一个段级表示来表达一个长的过程视频作为一个序列的步骤嵌入。然后可以使用在该视频表示上应用序列模型（诸如Transformer）来对各个步骤执行时间推理。最重要的是，我们希望在没有手动注释的情况下学习步长级表示，以便能够在大规模未标记数据上进行训练。我们的框架所利用的关键洞察力是知识库，如wikiHow，为各种任务提供了详细的步骤文本描述。在本节中，我们将首先描述如何从wikiHow获得远程监督，然后讨论如何将远程监督用于步骤级表示学习，最后，我们将介绍如何利用我们的步骤级表示来解决几个下游问题。3.1. 从wikiHow中wikiHow存储库包含高质量的文章，描述了完成各种实际任务所需的各个步骤的顺序。为了-…………13856----∈×--∈ΣF−→FSexp（S（a，y））SFP（y） |x）sS∈LSexp（S（a，y（t）LSLSLSL|t，s，sθΣSL|mally，我们将wikiHow称为知识库B使用P（y（t））训练视频模型的好处|x）作为苏-包含T任务的文本步骤描述：B=SL而不是原始的叙述。（一）（一）（T）（T）（吨）y1，...， yS1，. - 是的- 是的，y1，...， yST，其中y s表示任务t的步骤s的基于语言的描述，S t是执行任务t所涉及的步骤数。我们将教学视频x视为L个片段x1，...，xl，..， xL，其中每个片段xl由具有空间分辨率 H W 的 F 个 RGB 帧组成，即，xlRH×W×3×F。每个视频都伴随着成对的文本句子序列a1，...，al，..，通过将ASR应用于音频叙述而获得的L。我们注意到，由于ASR误差，叙事可能相当嘈杂此外，它可以描述仅隐含地执行的步骤，例如，通过提及次要方面。图中给出了一个示例1，其中第二段中的ASR描述了螺钉的类型，而不是拧紧螺钉的动作，而最后一段是指空调被激活的音调确认，而不是将电线插入插座。我们的方法的思想是利用知识库B来对叙述a1去噪，并将其转换成与视频片段中表示的步骤更直接相关的监督信号我们通过远程监督的框架来实现这一目标，我们应用该框架来近似未知条件分布P（y（t）|X）在步骤上3.2. 从未标记的视频中学习步骤嵌入我们使用近似分布P（y（t）x）作为监督来学习视频表示f（x l）Rd。我们考虑三个不同的训练目标来学习视频表示f：（1）步骤分类，（2）分布匹配，和（3）步骤回归。步骤分类。在此学习目标下，我们首先训练一个阶跃分类模型C：RH×W ×3×F[0，1]S，以将每个视频片段分类到知识库B中的S个可能的步骤之一中，其中S=tSt。具体地，设t，s是B中的步骤的索引，根据我们的目标分布最好地描述了段x1，即，t= arg max P（y（t））|x l）。（三）然后，我们使用标准的交叉熵损失来训练C将视频片段xl分类为类（t，s）：min− log。[FC（xl;θ）]（t，s）（4）SL在视频中执行，没有任何形式的手动标记。为了近似这种分布，我们采用y（t）和al之间的文本相似性度量S：其中θ表示视频模型的学习参数该模型在最后一层中使用softmax激活函数来定义步长上的适当分布，使得t，s[FC（xl;θ）]（t，s）=1。尽管我们在这里展示了（吨）P（y（t）|xl）水S.（一）t，sLS仅对于一个段xl，在实践中，我们优化对象。通过对一小批视频片段进行平均，在每次迭代中从整个集合中提取学习后F文本相似度计算为点积语言嵌入S（a，y（t））=e（a）·e（y（t））（2）其中e（a），e（y（t））∈Rd，d是局域网的维数ing，我们使用C（xl）作为特征提取器来捕获步骤-来自新视频片段的级别信息。具体地说，我们使用C（xl）的倒数第二层（在软最大值函数之前）作为阶跃嵌入表示f（xl）分布匹配。根据Distribu的目标，lstion Matching，我们训练阶跃分类模型FC，规范嵌入空间我们潜在的直觉-与嘈杂和非结构化的nar相比，最小化预测分布之间的KL-分歧，（t）分布F（x）和目标分布P（y|x）：比率a，分布P（y（t））|（x）提供了一个更突出的用于训练模型的监督信号，视频中程序活动的实际步骤。最后一排（吨）最小P（y（t）|x）logsL.（五）图1示出了在给定ASR文本的情况下具有最高条件概率的知识库中的步骤我们可以看到θslt，s[FC（xl;θ）]（t，s）与ASR叙述相比，步骤语句提供了对每个分段中执行的步骤的更恰当的描述。我们的关键见解是，我们可以利用现代语言模型，重新分配嘈杂和不精确的语音转换到我们的知识库的清洁和翔实的步骤描述。除了这种定性的说明（加上补充材料中的其他说明），我们的实验还提供了定量的证据，由于大的步长（S=10，588），为了实现为了优化这一目标，我们根据经验发现，它本-只使用P（y（t）x）中的前K步，其他步骤的概率设置为零。逐步回归。在逐步回归下，我们训练视频模型来预测与伪地面实况步骤（t，s）相关联的语言嵌入e（y（t））Rd。因此，在这种情况下，模型是对用于对长视频中的程序性活动进行分类ClSL13857F−→F∈--不+1不FFFF∈e（ys）<$FR（xl;θ）1L′Ls′Σ∈t，ssl语言嵌入空间，即，R：RH×W ×3×FRd. 我们遵循[33]并使用NCE损失作为目标：与从视频中提取的步骤嵌入一起exp.e（y（t））<$F（x;θ）<$θT（f（x′1），e（y（x′1）），f（x′2），e（y（x′2）），.， f（xL′），e（y∈（xL′）.最小对数单位sRl.（吨）（六）（九）因为R（xl）被训练来预测步骤的语言表示，所以我们可以直接使用其输出作为新视频片段的步骤嵌入表示，即，f（xl）=FR（xl）。3.3. 程序活动在本小节中，我们将讨论如何利用我们学习的步骤表示来识别长达几分钟的长视频中的细粒度设x′是由序列对于L′段x′lRH×W×3×F，l=1，. . .，L′. 直觉是，我们可以利用我们预先训练的步骤表示来将视频描述为一系列步骤表示。床上用品由于我们的步骤嵌入经过训练，可以显示在片段中执行的各个步骤的语义信息，因此我们使用Transformer [52]对步骤上的依赖关系进行建模，并对过程进行分类。活度：T（f（x′），. - 是的- 是的，f（x′））。既然我们的目标是从知识库中提取数据，以预测程序性活动。我们将此变体称为3.4. 步骤预测我们注意到，我们可以很容易地修改我们提出的分类模型，以解决需要通过一系列步骤进行长期分析以预测未来活动的预测任务。其中一个问题是我们在实验中考虑的“下一步预测”任务给定跨越M个段的视频作为输入，x1，. - 是的- 是的，xM，目标是预测在未观察到的第（M +1）段中执行的步骤。为了解决这个任务，我们训练transformer上的序列步骤嵌入提取的 M 观察段。在 Transformer w/KBTransfer的情况下，对于每个输入段x′l，我们包括f（x′l），但是e（y）），即，该步骤的嵌入立即在知识库中匹配步骤之后这种效果-主动向Transformer提供有关证明了我们的阶梯表示F的有效性，我们选择包括单个Transformer层，其足以对步骤之间的顺序依赖性进行建模，并避免使分类模型过于复杂。我们将此模型称为我们还证明，我们的步骤嵌入，使进一步有益的信息从知识库B的转移，以提高推理过程中我们的想法是采用一种检索方法-求出每个线段x′的步长yt′B，根据预训练的视频模型（x′l;θ）最好地解释了片段。对于步骤分类和差异匹配的情况，我们学习分类模型C（x′l;θ）[0，1]S，我们简单地选择产生最大分类得分的步骤类：t′，s′=argmax[C（x′l;θ）]（t，s）.（七）t，s在逐步回归的情况下，由于R（x′l;θ）在语言空间中生成输出，因此我们可以选择具有最大语言嵌入相似性的步骤t′，s′= arg max e（y（t））<$FR（x′; θ）.（八）令y（x′l）表示通过该过程分配的步骤描述，即，y∈（x′）=yt′。根据知识库，未来可能采取的步骤。3.5. 模型设计我们使用MPNet [43]作为语言模型，为wikiHow文章中的ASR句子和步骤描述提取768维语言嵌入。MPNet（paraphrase-mpnet-base-v2）在写作时（2021年8月）根据14种语言检索任务的性能[38]，在句子转换器[1]中排名第一。两个嵌入向量之间的相似性被选择为两个向量之间的点积。我们选择TimeTransformer架构[7]作为视频模型。从使用ImageNet-21 K ViT预训练初始化的ViT配置开始[12]，我们使用从8秒时间跨度均匀采样的8帧剪辑在HowTo 100 M上训练TimeS- former。我们的实验中的评估是通过学习HowTo 100 M上的步骤表示（没有手动标签）和通过评估我们的嵌入在其中任务和/或步骤手动注释可用的较小规模下游数据集上的性能来进行的。为了在这些下游数据集上执行多步骤活动的分类，我们使用在我们的固定嵌入之上训练的单个Transformer层[52]。我们使用这个没有微调的浅层长期模型，以便直接测量通过联合国的远程监督学习代表性，升'（t，s）=（t，s）exp表示由视频特征和步骤嵌入-13858然后，我们可以将从B对于提供给Transformer的输入中的每个段标签为教学视频我们建议读者参考补充材料，以了解更多的实施细节。138598382818079787776图2.使用三个不同的远程监督目标对COIN中的程序活动进行分类的准确性。4. 实验4.1. 数据集和评估指标训练前。HowTo100M（HT100M）[34]包括超过100万长的教学视频，分为大约1.2亿个视频剪辑。我们仅在与最先进的最后比较82807876图3.使用通过不同监督学习的视频表示对COIN进行程序活动分类的准确性。标准协议[10]来训练和评估我们的模型。4.2. 消融研究首先，我们使用基本的Transformer作为长期模型，研究框架中不同的设计选择如何影响COIN上任务分类的准确性。（秒）4.3）。在消融中，为了降低计算成本，我们使用与Bertasius等人定义的80K长视频集合对应的较小子集。[7]的文件。程序活动的分类。使用两个标记的数据集来评估该任务的性能：COIN [49，50]和Breakfast[27]。COIN包含约11K的指令视频，表示180个任务（即，过程活动的类别）。早餐[27]包含1，712个视频，用于10个复杂的烹饪任务。在这两个数据集中，每个视频都用表示任务类的标签手动注释我们对这两个数据集使用标准分割[21，50]，并将性能作为任务分类准确性进行衡量。步骤分类。它需要对在单个视频片段（没有历史）中观察到的步骤进行分类，这是评估我们的步骤嵌入的有效性的良好测试平台。为了评估这个问题的方法，我们使用COIN的步骤注释，对应于总共778个代表任务部分的步骤类步骤在每个视频内用时间边界和步骤类标签手动注释。线性分类器（Linear Acc）的分类精度[50]用作度量。步骤预测。我们还使用COIN中提供的步骤注释。我们的目标是预测类的步骤中的下一个段给定作为输入的序列观察到的视频段，直到该步骤（排除）。注意，在最后观察到的片段的结束和要预测的步骤的开始之间存在这使得问题非常具有挑战性，并代表了现实世界的条件。我们将历史记录设置为至少包含一个步骤。我们使用预测步骤的分类精度作为评估指标。自我中心活动识别。 EPIC-KITCHENS- 100 [10]是一个大规模的以自我为中心的视频数据集。它由100小时的第一人称视频组成，展示了人类在厨房中进行的各种程序性活动该数据集包括手动标记的视频片段中的97个动词和300个名词的手动注释。我们遵循4.2.1不同的培训目标图2显示了COIN任务分类的准确性，使用了第二节中提出的三个远程监督目标。3.2.分布匹配和步骤分类实现了类似的性能，而嵌入回归产生的准确性要低得多。基于这些结果，我们选择分布匹配（Top-3）作为我们所有后续实验的学习目标。4.2.2比较不同的监督在图3中，我们比较了不同预训练视频表示的结果，以解决在COIN数据集上对过程活动进行分类的问题。我们将在同一子集上学习的几个表示作为基线的HowTo100M作为我们的步骤嵌入，使用与视频模型相同的TimeTransformer。MIL-NCE [33]在视频和从ASR获得的叙述之间执行对比学习基线（HT 100 M，TaskClassifica- tion ）是一种表示法，它是通过将TimeTransformer训练为分类器而学习的，使用HowTo100 M 中可用的任务 id 作为类。任务 ID 由用于在YouTube上查找视频的关键字定义基线（HT100M，任务标签+远程监控）使用任务ID来缩小远程监督所考虑的潜在步骤（仅考虑与视频的任务 ID 相对应的wikiHow步骤我们还包括通过在完全监督的Kinetics-400数据集上训练TimeSmerer获得的表示[9]。最后，为了显示远距离超视的好处，我们使用与wikiHow中的步骤相同数量的聚类对ASR句子的语言嵌入运行k均值聚类（即，k=S=10，588），然后使用集群id作为监督来训练视频模型。我们在图3中观察到几个重要的结果。首先，我们的远程监控实现了3. 比MIL-NCE高3%，带ASR。这表明，我们的远程监督框架提供了更明确的监督，81.881.280.879.678.7步骤分类分布匹配（前3名）分布匹配（前5名）分布匹配（前9名）嵌入回归0.40.20.00.20.481.880.079.478.578.878.1HT100M，任务标签+远程监控HT100M，MIL-NCE，带ASRHT100M，任务分类动力学，动作分类，ASR聚类HT100M，远程监控（我们的）0.60.40.20.00.20.4前1位准确度（%）前1位准确度（%）13860段模型培训前监督预训练数据集线性加速（%）TSN（RGB+Flow）[50]监督：操作标签动力学36.5*S3D [33]无监督：ASRHT100M37.5*[29]第二十九话监督：字幕COCO +视觉基因组30.8视频剪辑[57]无监督：ASR上的NCEHT100M39.4[第15话]监督：操作标签动力学32.9时间变换器[7]监督：操作标签动力学48.3时间变换器[7]无监督：ASR上的kHT100M46.5TimeSformer无监督：远程监督（我们的）HT100M54.1表1.与COIN数据集上最先进的步骤分类进行比较* 表示对COIN进行微调的结果长期模型段模型培训前监督预训练数据集累积（%）TSN（RGB+Flow）[50][47]第四十七话监督：操作标签动力学73.4*基本TransformerS3D [33]无监督：ASRHT100M70.2*基本Transformer[29]第二十九话监督：字幕COCO +视觉基因组65.4基本Transformer视频剪辑[57]无监督：ASR上的NCEHT100M72.5基本Transformer[第15话]监督：操作标签动力学71.6基本Transformer时间变换器[7]监督：操作标签动力学83.5基本Transformer时间变换器[7]无监督：ASR上的kHT100M85.3基本TransformerTimeSformer无监督：远程监督（我们的）HT100M88.9带KB传输的TransformerTimeSformer无监督：远程监督（我们的）HT100M90.0表2.与COIN数据集上手术活动分类的最新技术水平进行比较与直接使用ASR文本相比，学习步骤级表示。ASR聚类的性能进一步证实了这一点，它是 1 。比利用wikiHow知识库获得的结果低7%此外，我们的步骤级表示优于弱监督任务嵌入（任务分类）3%，甚至更好（2. 4%）比视频表示从大规模动力学数据集的完全监督下学习。这是因为步骤通常涉及多个原子操作。例如，大约85%的步骤由至少两个动词组成因此，我们的步骤嵌入，丁捕获比传统的原子动作标签的基础上更高级别的表示最后，使用任务ID来限制远程监督所考虑的步长标签的空间产生最差的结果。这表明任务ID是非常嘈杂的，我们的方法利用其他任务的相关步骤这些结果进一步证实了远距离监督步骤注释优于现有任务或动作标签的优越性能，以训练用于分类程序活动的表示。4.3. 与最新技术水平的4.3.1步骤分类我们研究的步骤分类的问题，因为它直接衡量是否建议的远程监督框架，工作提供了一个有用的训练信号，在视频中识别为此，我们使用我们的远程监督模型作为一个冻结的特征提取器提取步骤级嵌入每个视频段，然后训练一个线性分类器，以识别输入段中的步骤类。表1显示，我们的远程监督表示实现了最佳性能，并在几个强基线上产生了很大的增益。即使在这项任务中，与在Kinetics上使用完全监督的动作标签训练的视频表示相比，我们的远程监督也会产生更好的结果最大的收益（7。6%），再次证明了使用wikiHow知识的重要性。最后，我们的模型在基于不同骨架的该基准上实现了比先前报告的结果更强的增益，包括通过微调和使用光流作为附加模态获得的结果[50]。4.3.2程序活动表2和表3分别显示了在COIN和Breakfast数据集上对长视频中的流程活动进行分类的准确性。我们的模型在这两个基准上的性能优于所有以前的作品。对于这个问题，COIN上的准确性增益超过了使用Kinetics动作标签学习的表示，并且变得更大（6。5%）与步骤分类（5. 8%）。这表明，远程监督表示确实非常适合识别长程序活动。我们也看到了巨大的收益（8。8%）超过了在早餐数据集中识别复杂烹饪活动的问题的动力学基线。由于GHRM还提供了在Breakfast基准测试中对特征提取器进行微调所获得的结果（89.0%），因此我们测量了通过微调我们的模型所获得的准确度我们还尝试用Timeception替换基本的Transformer作为长期模型。时间感知训练的特点与行动学习13861长期模型段模型培训前监督预训练数据集累积（%）[21]第二十一话3D-ResNet [54]监督：操作标签动力学71.3[22]第二十二话I3D [9]监督：操作标签动力学69.5GHRM [61]I3D [9]监督：操作标签动力学75.5基本TransformerS3D [33]无监督：ASRHT100M74.4基本Transformer[第15话]监督：操作标签动力学76.1基本Transformer时间变换器[7]监督：操作标签动力学81.1基本Transformer时间变换器[7]无监督：ASR上的kHT100M81.4基本TransformerTimeSformer无监督：远程监督（我们的）HT100M88.7带KB传输的TransformerTimeSformer无监督：远程监督（我们的）HT100M89.9表3.与Breakfast数据集上分类程序活动问题的最新技术水平进行比较长期模型段模型培训前监督预训练数据集累积（%）基本TransformerS3D [33]无监督：ASRHT100M28.1基本Transformer[第15话]监督：操作标签动力学25.6基本Transformer时间变换器[7]监督：操作标签动力学34.7基本Transformer时间变换器[7]无监督：ASR上的kHT100M34.0基本TransformerTimeSformer无监督：远程监督（我们的）HT100M38.2带KB传输的TransformerTimeSformer无监督：远程监督（我们的）HT100M39.4表4.使用COIN数据集的步骤预测任务的不同方法的准确性段模型培训前监督预训练数据集行动（%）动词（%）名词（%）TSN [53]--33.260.246.0[60]第六十话--35.365.945.4TBN [25]--36.766.047.2[26]第二十六话--47.772.257.3[31]第三十一话监督：操作标签动力学38.367.949.0[第15话]监督：操作标签动力学38.565.650.0ViViT-L [5]监督：操作标签动力学44.066.456.8时间变换器[7]监督：操作标签动力学42.366.654.4TimeSformer无监督：远程监督（我们的）HT100M44.467.158.1表5.与使用EPIC-KITCHENS-100数据集进行第一人称视频分类的最新技术进行比较来自Kinetics的标签给出了79的准确度。百分之四在我们的步骤嵌入上训练的同一模型达到了83的准确率。9%。大的增益证实了我们在这项任务中表现的优越性，并表明我们的特征可以有效地插入不同的长期模型中。4.3.3步骤预测表4显示，我们学习的表示和浅Transformer可用于非常有效地预测下一步我们的表示比使用Kinetics动作标签学习的功能好3倍。百分之五当通过堆叠可能的后续步骤的嵌入来利用步骤顺序知识时，增益进一步提高到4。百分之七。这再次显示了从wikiHow知识库中整合信息的好处。4.3.4自我中心的视频理解EPIC-KITCHENS-100 [10]中的活动识别是我们模型的相关测试平台，因为该数据集中的第一人称视频捕获了日常人类生活中的各种程序活动。为了证明我们的远程监督方法的通用性，我们对预先训练的模型进行了微调，用于名词，动词和动作识别任务，自我中心的视频出于比较的目的，我们还包括了对Kinetics-400上预训练的相同模型进行微调的结果，这些模型具有手动注释的动作标签。表5显示，我们的远程监督模型的微调优于所有先前的工作，唯一的例外是MoViNet [26]，它对动作和动词实现了更高的准确度，但对名词没有。这提供了关于我们的模型到其他任务的可移植性的5. 结论在本文中，我们介绍了一个远程监督框架，利用文本知识库（wikiHow），有效地学习步骤级的视频表示，从教学视频。我们证明了步骤分类，长程序视频分类，和步骤预测的representation的价值。我们进一步表明，我们的远程监督模型可以很好地推广到以自我为中心的视频理解。致谢感谢Karl Ridgeway、Michael Iuzzolino、Jue Wang、Noureldien Hussein和Effrosyni Mavroudi进行了宝贵的讨论。13862引用[1] 句子变形金刚。https://www.sbert.net/网站。5[2] wikiHow. https://www.wikiHow.com/网站。2[3] Jean-BaptisteAlayrac 、 AdriaRecasens 、 RosaliaSchneider 、 Relja Arandjelovic 、 Jason Ramapuram 、Jeffrey De Fauw 、 Lu-cas Smaira 、 Sander Dieleman 和Andrew Zisserman 。自监督多模态通用网络。NeurIPS，2（6）：7，2020。2[4] 约翰·安德森。认知技能的获得。Psychological review，89（4）：369，1982. 2[5] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL uc i c′，andCorde l iaSchmid. Vivit：一个视频视觉 Transformer 。 arXiv 预印本 arXiv ：2103.15691，2021。8[6] 时间冻结：一个联合视频和图像编码器用于端到端检索。arXiv预印本arXiv：2104.00650，2021。2[7] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？arXiv预印本arXiv：2102.05095，2021。三五六七八[8] Kurt Bollacker ， Colin Evans ， Praveen Paritosh ， TimSturge，and Jamie Taylor. Freebase：一个协作创建的图形数据库，用于构建人类知识。在 2008 年 ACMSIGMOD数据管理国际会议论文集，第1247-1250页，2008年。3[9] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。一、二、六、八[10] Dima Damen ， Hazel Doughty ， Giovanni Farinella ，Sanja Fi- dler，Antonino Furnari，Evangelos Kazakos，Davide Molti- santi ， Jonathan Munro ， Toby Perrett ，Will Price，et al. The epic-kitchen dataset：Collection，challenges and baselines.IEEE Transactions on PatternAnalysis MachineIntelligence ，（ 01 ）： 1-1 ， 2020 。二、六、八[11] DimaDamen 、 HazelDo

下载后可阅读完整内容，剩余1页未读，立即下载