教学视频中的弱监督学习对视觉模型学习的影响和效果

169 浏览量更新于2023-10-18 收藏 13.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…135370从教学视频中进行跨任务弱监督学习0Dimitri Zhukov 1,2 Jean-Baptiste Alayrac 1,3 Ramazan Gokberk Cinbis 4 David Fouhey 50Ivan Laptev 1,2 Josef Sivic 1,2,60摘要0本文通过使用弱监督学习方法，通过教学解说和有序步骤列表而不是强监督学习方法中的时间标注，来研究普通任务步骤的视觉模型学习。我们方法的核心观察是，如果一个模型在学习不同的步骤时共享组件，那么弱监督学习可能会更容易：“倒入鸡蛋”应该与其他涉及“倒入”和“鸡蛋”的任务一起进行训练。我们通过步骤识别的组件模型和一个弱监督学习框架来形式化这一观察，并在解说和步骤列表的时间约束下学习这个模型。过去的数据不允许系统地研究共享，因此我们还收集了一个新的数据集CrossTask，旨在评估跨任务共享。我们的实验表明，跨任务共享可以提高性能，特别是在组件级别进行共享，而且我们的组件模型可以通过其组合性解析以前未见过的任务。01. 引言0假设你买了一台新的咖啡机，想要制作拿铁咖啡。你可能会在阅读说明书后，开始观看YouTube上的教学视频，以了解每个步骤的具体操作，例如如何冲泡咖啡、蒸奶等等。在这个过程中，你会获得每个步骤以及整个任务的良好视觉模型。此外，你还可以利用这个制作拿铁咖啡的视觉模型来帮助理解其他任务的视频，例如制作滤泡咖啡，因为它们有共同的名词和动词。本文的目标是构建能够自动化的系统，可以01 法国Inria 2 法国巴黎高等师范学校计算机系，PSL研究大学 3现在在DeepMind工作 4 土耳其中东技术大学 5 美国密歇根大学 6捷克布拉格捷克技术大学CIIRC – 信息学、机器人学和控制论研究所0制作蛋白饼0倒入鸡蛋加入糖搅拌混合物0制作煎饼0倒入混合物0制作柠檬水0倒入水0图1.我们的方法从一系列任务开始，每个任务包含一个有序的步骤列表和一组来自YouTube的教学视频。它自动发现步骤发生的位置和它们的外观。为了做到这一点，它利用了步骤的顺序、解说和任务之间的外观共性（例如，在制作煎饼和制作蛋白饼中都有倒入的外观）。0类似地，我们从教学视频中学习视觉模型，特别是利用任务之间的共享信息（例如制作拿铁咖啡和制作滤泡咖啡）。构建如何做事情的视觉模型的传统方法[8, 30,31]是首先对每个任务的每个步骤进行时间标注，然后为每个步骤训练一个监督分类器。获取时间步骤的强监督标注是耗时、不可扩展的，而且正如人类从示范中学习的能力所示，也是不必要的。理想情况下，该方法应该是弱监督的（即像[1, 18, 22,29]那样），可以同时学习步骤发生的时间和它们的外观。不幸的是，任何弱监督方法都面临两个重大挑战。为每个任务在输入视频中定位步骤的时间是困难的，因为步骤位置有一组组合的选项；而且，即使步骤被定位，每个视觉模型也是从有限的数据中学习，可能效果不佳。我们展示了如何通过任务间的共享和使用更弱和自然存在的监督形式来克服这些挑战。相关任务使我们能够通过利用步骤之间的共性来学习更好的视觉模型，如图1所示。例如，在学习制作拿铁咖啡中的倒入水时，倒入的模型还依赖于制作煎饼中的倒入牛奶，而水的模型也35380在制作面包和黄油泡菜时，依赖于将蔬菜放入水中。我们假设每个任务都有一个有序的步骤列表，并且视频是教学性的（即有自然语言叙述描述正在进行的事情）。正如在弱监督视频学习中经常发生的情况一样[2, 18,29]，这些假设限制了步骤发生的搜索，有助于解决组合搜索空间的问题。我们在第4节中描述了一个框架，形式化了这些直觉，使其能够在弱监督学习中实现任务之间的组合共享以及时间约束。我们的公式化方法不是将每个步骤作为一个整体的弱监督分类器进行学习，而是学习一个组件模型，将每个步骤的模型表示为其组件的组合，或者每个步骤中的单词（例如在“倒入”中的“倒”和“水”）。这在实践中提高了学习性能，并且这些组件模型可以以新的方式重新组合，以解析未经训练的任务的视频，仅仅通过它们的表示。然而，这个组件模型阻止了在类似设置中先前用于弱监督学习的技术的直接应用（例如[2]中的DIFFRAC[3]）；因此，我们引入了一种新的、更通用的公式化方法，可以处理更任意的目标。现有的教学视频数据集不允许对这种共享进行系统研究。我们收集了一个新的数据集CrossTask，我们在第5节中介绍。该数据集包含83个不同任务的约4.7K个教学视频，涵盖了374小时的镜头。我们使用这个数据集在第6节中描述的一系列实验中将我们的提出的方法与其他方法进行了比较。我们的实验旨在评估以下三个问题：系统在标准的弱监督设置下学习的效果如何；它能否利用相关任务来提高性能；它能否很好地解析以前未见过的任务。本文的贡献包括：（1）一个组件模型，用于从教学视频中进行弱监督学习的步骤之间的信息共享；（2）一个弱监督学习框架，可以处理这样的模型，并结合不同形式的弱监督约束；（3）一个比过去努力更大、更多样化的新数据集，我们使用它来经验性地验证前两个贡献。我们将我们的数据集和代码公开可用[1]。02. 相关工作0从教学视频中学习任务的步骤的视觉外观是一种动作识别。在这个领域的大部分工作，例如[8, 30,31]，都使用直接标签的强监督，包括许多专注于类似目标的工作[9, 11,14]。我们在这个领域的进展[8]的基础上构建了我们的特征表示，但是我们的01 https://github.com/DmZhukov/CrossTask0我们提出的方法不依赖于大量标注数据。我们并不是第一个尝试在视频中使用弱监督学习的人，我们的工作与过去的努力有相似之处。例如，我们使用排序约束来获得监督，就像[5, 18, 22, 26, 6]中所做的那样。我们的工作的目标可能与[1,24,29]最接近，因为他们也在教学视频的背景下使用叙述。与每个独立工作的一些区别中，我们工作的一个重要创新是使用的组合模型，不同于[1,29]中每个步骤独立学习一个整体模型，我们的框架在步骤之间共享组件（例如名词和动词）。这种共享提高了性能，我们通过实验证实，并且使得对未见任务的解析成为可能。为了正确评估共享的重要性，我们收集了一组教学视频数据集。这些数据集最近引起了很大的关注[1, 2, 19, 20, 24, 29,35]，因为演示视觉动作和自然语言的共现使得许多有趣的任务成为可能，从共指消解[19]到学习人物-物体交互[2,10]。然而，现有的数据集要么不够大（例如只有5个任务[2]），要么不够多样化（例如YouCookII[35]只涉及烹饪），要么没有进行密集的时间标注（例如What's Cooking?[24]）。因此，我们收集了一个数据集，它具备以下特点：（i）相对较大（83个任务，4.7K个视频）；（ii）同时具备多样性（包括汽车维护、烹饪、手工制作）以及相关任务的评估能力；（iii）进行了时间定位的标注，以便进行评估。正如我们通过实验证明的那样，规模和相关性都有助于提高视觉模型的性能。我们对这个问题的技术方法主要依赖于判别性聚类的使用，即同时对数据样本进行约束分组和学习组的分类器[3,32]。这个领域的过去工作要么使用复杂的约束和受限的分类器（例如使用线性模型最小化L2损失[3,2]），要么使用无约束的分类器，如深度网络[4,7]。我们的弱监督设置要求能够添加约束以便收敛到一个好的解决方案，而我们的组合模型和期望的损失函数要求能够使用无约束的分类器。因此，我们提出了一种能够同时处理这两种情况的优化方法，使我们能够使用组合模型进行训练，并使用时间约束。最后，我们通过每个步骤的组件（例如名词、动词）的组合来实现任务之间的共享。这类似于过去在动作识别中使用的属性[12,13]，我们的组件是有意义的（例如代表“柠檬”），但也是自动构建的，因此与预定义的语义属性（非自动）和非自动构建的属性不同。35390共享组件0任务0步骤分类器0制作煎饼0制作蛋白霜0...，倒牛奶，...，搅拌混合物，...0倒鸡蛋，...，涂抹混合物，...0"[...]现在我要倒一些牛奶到碗里[...]"0约束0视频0交替优化0叙述0时间0Y0F0... | 倒 | 牛奶 | 搅拌 | 混合物 | 鸡蛋 | 涂抹 | ...0倒牛奶？0图2.我们的方法将每个任务的每个步骤的分类器表示为一个组件模型（例如，将“倒牛奶”表示为“倒”和“牛奶”分类器）。因此，我们将学习步骤的问题转化为学习一组底层组件模型。我们通过在更新这些分类器的标签和分类器本身之间交替使用叙述的约束来学习这些模型。0语义属性（在[12]中定义的非本质意义）以及从其他分类器组合新分类器的方法相关，包括[25，34，15]等。我们的框架是正交的，并展示了如何在弱监督的设置中学习这些内容。03.概述0我们的目标是从教学视频中为一组任务构建视觉模型。每个任务是一个多步骤过程，如制作拿铁，包含多个步骤，如倒牛奶。我们的目标是为每个步骤学习一个视觉模型。我们的方法使用组件模型，将每个步骤表示为其组成部分的组件，而不是一个整体实体，如图2所示。例如，我们不仅仅为制作煎饼中的搅拌混合物构建一个分类器，而是学习每个组件的一组分类器，例如搅拌、涂抹、混合物等，并将搅拌混合物表示为搅拌和混合物的组合，并与涂抹混合物共享混合物。这样可以在步骤之间共享数据，并实现对以前未见过的任务的解析，我们通过实验证实了这一点。我们做出了一些假设。在整个过程中，我们假设我们为每个任务给出了一个有序的步骤列表。这个列表是我们唯一的手动监督来源，每个任务只需进行一次，远比对输入视频进行时间分割进行注释要少时间。在训练时，我们还假设我们的训练视频包含解释正在执行的操作的音频。然而，在测试时，我们不使用音轨：就像观看在线视频的人一样，一旦我们的系统展示了如何制作带有叙述的拿铁，它就可以在没有逐步叙述的情况下跟随操作。04.建模教学视频0我们现在描述了我们的技术方法，使用步骤列表来共同学习一组叙述性教学视频上的标签和视觉模型。这是弱监督的，因为我们只提供步骤列表，而不提供它们在训练视频中的时间位置。0问题表述。我们将叙述性教学视频集合V表示为V。每个视频v∈V包含一系列Nv个视觉特征Xv =(x1,...,xNv)以及我们后来使用的叙述。对于每个任务τ，我们假设给定一组视频Vτ以及一组有序的自然语言步骤Kτ。我们的目标是发现一组可以识别任务步骤的分类器F。换句话说，如果τ是一个任务，k是它的步骤，那么分类器fτk确定视觉特征是否描述了τ的第k步。为了做到这一点，我们还学习了分类器的训练集的标签Y，或者对于描绘任务τ的每个视频v，一个二进制标签矩阵Yv∈{0,1}Nv×Kτ，其中Yvtk =1如果时间t描述了第k步，否则为0。虽然联合学习标签和分类器会导致平凡的解决方案，但我们可以通过约束Y并在F的分类器之间共享信息来消除这些解决方案并取得有意义的进展。04.1.组件分类器0本文的主要关注点之一是步骤分类器f的形式。具体而言，我们提出了一个组件模型，将每个步骤（例如“倒牛奶”）表示为组件（例如“倒”和“牛奶”的组合）。在解释我们如何制定这个模型之前，我们通过介绍一些在学习和制定方式上有所不同的替代方案来将其放置在背景中。最简单的方法是任务特定的步骤模型，即为训练集中的每个步骤学习一个分类器（即为制作煎饼的特定任务中的倒鸡蛋模型）。在这种情况下，模型简单地学习...0τKτ个分类器，每个任务的Kτ个步骤一个，这种方法简单但不允许共享。一种添加共享的方法是使用共享步骤模型，在数据集中为每个唯一的步骤学习一个分类器。例如，倒鸡蛋分类器同时从制作蛋白饼和制作煎饼中学习。然而，这种共享仅限于步骤的完全重复，因此虽然搅拌牛奶和倒牛奶共享一个对象，但它们将被分别学习。我们提出的组件模型解决了这个问题。我们自动地通过获取所有步骤中的词干集合来生成组件的词汇表。这些组件通常是对象、动词和介词，我们为每个组件组合生成分类器以得到我们的步骤。具体而言，对于一个包含M个组件的词汇表，我们定义了一个每个任务的矩阵Aτ∈{0,1}Kτ×M，其中Aτk,m=1表示步骤k涉及组件m，否则为0。然后我们学习M个分类器g1,...,gM，使得步骤fτk的预测是由组件分类器提供的预测的平均值35400通过获取所有步骤中的词干集合，我们自动生成了一个组件词汇表。这些组件通常是对象、动词和介词，我们为每个组件组合生成分类器以得到我们的步骤。具体而言，对于一个包含M个组件的词汇表，我们定义了一个每个任务的矩阵Aτ∈{0,1}Kτ×M，其中Aτk,m=1表示步骤k涉及组件m，否则为0。然后我们学习M个分类器g1,...,gM，使得步骤fτk的预测是由组件分类器提供的预测的平均值0fτk(x)=�0mAτkmgm(x) / 0mAτkm. (1)0例如，倒牛奶的得分是g倒和g牛奶输出的平均值。换句话说，当在函数集合F上进行优化时，我们优化{gi}的参数，以便当它们通过（1）式在步骤模型中组合在一起时，产生期望的结果04.2.目标和约束0在描述设置和分类器之后，我们现在描述我们最小化的目标函数。我们的目标是同时优化所有视频和任务上的步骤位置标签Y和分类器F0minY∈C,F∈F0�0τ0v∈V(τ)h(Xv,Yv;F), (2)0其中C是对Y定义的时间约束集合，F是考虑的分类器族。我们每个视频的目标函数是标准的交叉熵损失0h(Xv,Yv;F)=−��0t，k Yvtklog0� exp(fτk(xvt)) �0�.0�0�0（3）优化（2）可能导致微不足道的解决方案（例如，Yv =0且F输出全部为零）。因此，我们限制了Y的标签，以避免这种情况并确保合理的解决方案。具体而言，我们施加了三个约束条件：至少一次。我们假设每个任务的每个视频v至少一次描绘了每个步骤k，或者...0tYvtk≥1.时间顺序。我们假设步骤按照给定的顺序发生。虽然不总是严格正确，但这大大减少了搜索空间并导致更好的分类器。时间文本定位。我们假设步骤和相应的叙述发生在时间上接近的地方，例如，烤牛排视频的叙述者可能会说“只需将腌制的牛排放在烤架上”。我们自动将每个步骤的文本描述与YouTube自动字幕进行比较。对于具有Kτ个步骤和Nv个帧的任务，我们构建了一个[0,1]Nv×Kτ的矩阵，其中包含步骤和滑动窗口词向量表示之间的余弦相似度（更多细节请参见补充材料[?]）。0由于叙述性视频中包含了任务的虚假提及（例如，“在将牛排放在烧烤架上之前，我们清洁烧烤架”），因此我们不直接使用该矩阵，而是找到一种将步骤分配给位置的方法，该方法最大化了总相似性，同时遵守排序约束。然后，视觉模型必须更准确地识别动作出现的时间。然后，我们施加一个简单的硬约束，不允许任何步骤在基于文本的时间间隔之外（平均长度为9秒）。04.3. 优化和推理0我们通过交替更新分配Y和分类器F的参数来解决问题（2）。更新Y。当F固定时，我们可以独立地为每个视频最小化（2）关于Y的值。特别地，固定F会固定分类器分数，这意味着在满足约束条件的情况下，最小化Yv关于Y的线性成本是一个受约束的最小化问题。我们的补充材料[?]表明，这可以通过动态规划来完成。更新F。当Y固定时，我们的成本函数变为一个标准的监督分类问题。因此，我们可以应用解决这些问题的标准技术，如随机梯度下降。更多细节请参见下文和补充材料[?]。初始化。我们的目标是非凸的，并且存在局部最小值，因此适当的初始化非常重要。我们通过将满足时间文本定位约束的所有分配视为ground-truth，并为F进行30个时期的优化来获得这样的初始化，每次都会绘制满足约束条件的随机样本。推理。一旦模型适应了数据，在任务τ的新视频v上进行推理是很简单的。在提取特征之后，我们在每个时间段上运行每个分类器f，得到一个Nv×Kτ的分数矩阵。为了获得一个硬标签，我们使用动态规划来找到最佳得分的标签，该标签符合给定的步骤顺序。04.4. 实现细节0网络：由于数据规模有限且存在噪声，我们使用带有dropout的线性分类器进行正则化。对于更深的模型，初步实验并没有带来改进。我们使用ADAM [ 21]进行优化，学习率为10^-5。特征：我们使用RGBI3D特征[ 8 ]（1024D），Resnet-152特征[ 16]（2048D）以及从[ 17]提取的音频特征（128D）来表示每个视频段xi，这些特征在每一帧上提取并在一秒的时间窗口内进行平均，组件：我们通过找到所有步骤描述中的唯一词干词集来获得组件的字典。组件的总数为383。超参数：dropout和学习率是在验证数据集上选择的。[2]1507h5✓Windows[29]1.2K+85100h17✓Windows[35]2K176h89✗Windows[24]180K3,000h✗✗RecipesCrossTask4.7K375h83✓WindowsOne goal of this paper is to investigate whether sharingimproves the performance of weakly supervised learningfrom instructional videos. To do this, we need a dataset cov-ering a diverse set of interrelated tasks and annotated withtemporal segments. Existing data fails to satisfy at leastone of these criteria and we therefore collect a new dataset(83 tasks, 4.7K videos) related to cooking, car maintenance,crafting, and home repairs.These tasks and their stepsare derived from wikiHow, a website that describes how tosolve many tasks, and the videos come from YouTube.CrossTask dataset is divided into two sets of tasks to in-vestigate sharing. The ﬁrst is primary tasks, which arethe main focus of our investigation and the backbone of thedataset. These are fully annotated and form the basis forour evaluations. The second is related tasks with videosgathered in a more automatic way to share some, but notall, components with the primary tasks. One goal of our ex-periments is to assess whether these related tasks improvethe learning of primary tasks, and whether one can learn agood model only on related tasks.35410视频数据集0主要任务相关任务0制作面包和黄油泡菜制作番茄酱煮西红柿，去皮，切西红柿，...0制作拿铁0切黄瓜，切洋葱，加盐，倒水，...0制作焦糖玛奇朵0制作简单的浮动搁架0制作一张桌子0图3.我们的新数据集用于研究弱监督学习环境中的共享。它包含主要任务，如制作面包和黄油泡菜，以及相关任务，如制作番茄酱。这使我们能够研究学习多个任务是否提高了性能。0Table 1.CrossTask与现有教学数据集的比较。我们的数据集既大又多样，同时还具有时间标注。0总数未只有可用视频长度任务烹饪注释05. CrossTask数据集05.1. 视频收集过程0如何进入一段感情）；它们的步骤顺序必须是确定的（不同于例如“如何下棋”）；它们必须在YouTube上频繁出现。我们要求注释者在wikiHow的五个部分中查找满足前两个标准的任务，得到大约7,000个候选任务，并手动筛选第三个标准。我们从这7,000个候选任务中选择了18个主要任务和65个相关任务。主要任务涵盖了各种主题（例如汽车维修、烹饪、DIY），包括“建造浮动架子”和“制作拿铁”。我们通过比较wikiHow文章的TF-IDF和词袋表示来为每个主要任务生成潜在的相关任务，这样可以找到具有相似描述的任务。然后，我们通过比较顶部YouTube搜索结果并删除具有重叠部分的候选任务来过滤掉近似重复的任务（例如“如何千斤顶起汽车”和“如何使用汽车千斤顶”），并手动删除了一些不相关的任务。我们通过检查wikiHow文章的摘要和步骤来为每个任务定义步骤及其顺序。仅使用wikiHow摘要是不够的，因为许多文章包含非视觉步骤，而且有些步骤结合了多个物理动作。因此，我们手动校正了列表，得到了平均每个主要任务7.4个步骤和每个相关任务8.8个步骤的任务集。然后，我们通过在YouTube上搜索来获取每个任务的视频。由于相关任务仅用于辅助主要任务，我们从YouTube获取前30个结果。对于主要任务，我们要求注释者在检查视频、步骤和wikiHow插图时筛选更大的结果池，每个任务至少有80个视频。05.2. 注释和统计0任务定位注释。由于我们的重点是主要任务，注释者独立标记每个主要任务步骤的时间范围。我们对我们的18个主要任务进行了这样的标注，并将注释公开可用1。数据集。这样得到了包含2763个视频的数据集。Our experiments aim to address the following three ques-tions about cross-task sharing in the weakly-supervised set-ting: (1) Can the proposed method use related data to im-prove performance? (2) How does the proposed componentmodel compare to sharing alternatives? (3) Can the compo-nent model transfer to previously unseen tasks? Through-out, we evaluate on the large dataset introduced in Section 5that consists of primary tasks and related tasks. We address(1) in Section 6.1 by comparing our proposed approach withmethods that do not share and show that our proposed ap-proach can use related tasks to improve performance onprimary asks. Section 6.2 addresses (2) by analyzing theWe begin by evaluating whether our proposed compo-nent model approach can use sharing to improve perfor-mance on a ﬁxed set of tasks. We ﬁx our evaluation to bethe 18 primary tasks and evaluate whether the model canuse the 65 related tasks to improve performance.Metrics and setup. We evaluate results on 18 primary tasksover the videos that make up the test set. We quantify per-formance via recall, which we deﬁne as the ratio betweenthe number of correct step assignments (deﬁned as fallinginto the correct ground-truth time interval) and the totalnumber of steps over all videos. In other words, to get aperfect score, a method must correctly identify one instanceof each step of the task in each test video. All methodsmake a single prediction per step, which prevents the trivialsolution of assigning all frames to all actions.We run experiments 20 times, each time making a trainset of 30 videos per task and leaving the remaining 1863videos for test. We report the average. Hyperparameters areset for all methods using a ﬁxed validation set of 20 videosper primary task that are never used for training or testing.Baselines. Our goal is to examine whether our sharing ap-proach can leverage related tasks to improve performanceon our primary task. We compare our method to its versionwithout sharing as well as to a number of baselines. (1) Uni-form: simply predict steps at ﬁxed time intervals. Since thispredicts steps in the correct order and steps often break tasksinto roughly equal chunks, this is fairly well-informed prior.(2) Alayrac’16: the weakly supervised learning method forvideos, proposed in [1]. This is similar in spirit to our ap-proach except it does not share and optimizes a L2-criterionvia the DIFFRAC [3] method. (3) Richard’18: the weaklysupervised learning method [27] that does not rely on the35420切割架子组装0剥柠檬0建造架子制作香蕉冰淇淋0对未见过的数据进行预测搅拌混合物倒入鸡蛋0切割柠檬0挤柠檬0制作法式吐司制作柠檬水0图4.对未见数据的预测以及典型的失败模式。我们的方法在具有独特运动和外观的步骤上表现良好。失败模式包括（顶部）无法对例如鸡蛋和香草提取物进行细粒度区分的特征；以及（底部）对特定名词反应过度，更喜欢一个更可见的柠檬，而不是实际被挤压的一个不太可见的柠檬。0由18个主要任务组成的数据集包含213小时的视频；由65个相关任务的1950个视频组成，包含161小时的视频。我们将这个数据集与过去的教学视频数据集进行对比，见表1。我们的数据集同时具有大规模和精确的时间段注释。为了说明数据集，我们报告了一些关于主要任务视频的摘要统计数据。视频非常长，平均长度为4分钟57秒，描述的任务相当复杂，平均有7.4个步骤。较简单的任务包括jack up acar（3个步骤）；更复杂的任务包括picklecucumbers或changetire（每个任务有11个步骤）。挑战。除了长且复杂之外，这些视频还具有挑战性，因为它们没有准确显示我们定义的有序步骤。例如，在add oil tocar中，85%的帧实际上显示的是背景信息，如人们交谈或其他事物。这不是一个异常值：平均而言，数据集的72%是背景。另一方面，由于程序和遗漏的差异，平均有31%的步骤没有被描绘出来（picklecucumber有48%的步骤缺失）。此外，这些步骤不一定按照正确的顺序出现：为了估计顺序一致性，我们使用给定的顺序计算了性能的上限，并发现最佳顺序一致解析数据仍然错过了14%的步骤。06. 实验0模型的性能，并展示它优于基于步骤的替代方法。我们通过仅在相关任务上进行训练来在第6.3节中以实证的方式回答问题（3），并展示我们能够在主要任务上表现良好。06.1. 跨任务学习35430表2。测试集上的弱监督召回率得分（以%表示）。我们的方法在任务之间共享信息，明显且一致地优于非共享基线。报告得分的标准差不超过1%。0制作泡菜饭0腌黄瓜0制作香蕉冰淇淋0烤串，切割食材0给汽车加油0制作拿铁0建造货架0制作玉米沙拉0制作法式吐司0制作爱尔兰咖啡，制作草莓蛋糕0制作煎饼，制作蛋白饼0制作咖喱鱼0平均0监督 19.1 25.3 38.0 37.5 25.7 28.2 54.3 25.8 18.3 31.2 47.7 12.0 39.5 23.4 30.9 41.1 53.4 17.3 31.60均匀基线 4.2 7.1 6.4 7.3 17.4 7.1 14.2 9.8 3.1 10.7 22.1 5.5 9.5 7.5 9.2 9.2 19.5 5.1 9.7 Alayrac'16 [1] 15.6 10.6 7.5 14.2 9.3 11.8 17.313.1 6.4 12.9 27.2 9.2 15.7 8.6 16.3 13.0 23.2 7.4 13.3 Richard'18 [27] 7.6 4.3 3.6 4.6 8.9 5.4 7.5 7.3 3.6 6.2 12.3 3.8 7.4 7.2 6.7 9.612.3 3.1 6.7 任务特定步骤 13.2 17.6 19.3 19.3 9.7 12.6 30.4 16.0 4.5 19.0 29.0 9.1 29.1 14.5 22.9 29.0 32.9 7.3 18.6 提出的方法 13.318.0 23.4 23.1 16.9 16.5 30.7 21.6 4.6 19.5 35.3 10.0 32.3 13.8 29.5 37.6 43.0 13.3 22.40共享增益 0.2 0.4 4.1 3.8 7.2 3.9 0.3 5.6 0.1 0.6 6.3 0.9 3.2 -0.7 6.6 8.7 10.1 6.0 3.70搅拌0切割0真实结果：制作柠檬水，搅拌混合物0制作货架，切割架0预测结果：制作柠檬水，搅拌混合物0制作货架，切割架0相关任务：制作番茄饭，搅拌米饭0烤串，切割食材0图5。共享效果好和效果差的组件：在任务的步骤之间，搅拌共享效果好，而从食物环境转移到家庭改进环境时，切割共享效果差。0已知步骤的顺序。（4）任务特定步骤：我们的方法针对每个任务的每个步骤进行独立训练。换句话说，在制作煎饼和制作蛋白饼的上下文中，倒入鸡蛋的模型是分开的。这与Alayrac的方法不同，后者使用我们提出的优化方法优化交叉熵损失。它与我们的完整方法不同，因为它不进行共享。需要注意的是，[1]中的完整方法包括从叙述中自动发现步骤。在这里，我们只使用[1]的视觉模型，同时提供与我们方法相同的约束。这样可以在[1]和我们的方法之间进行公平比较，因为两者使用相同数量的监督。在测试时，[27]中提出的方法没有关于存在哪些步骤或它们发生顺序的先验知识。为了进行公平比较，我们使用[27]方法中训练好的分类器，并使用与我们方法相同的推理过程。定性结果。我们在图4中展示了我们完整方法的定性结果。我们展示了制作货架和制作香蕉冰淇淋的未见视频的解析结果以及失败模式。我们的方法可以很好地处理各种任务和步骤，但可能难以识别一些细节（例如香草和鸡蛋）或动作。0定量结果。表2显示了各个步骤的总结结果。均匀基线提供了一个强大的下限，平均召回率达到9.7%，优于[27]。然而，需要注意的是，[27]是为了解决不同的问题而设计的，不能与我们设置中的其他方法进行公平比较。虽然[1]在这方面有所改进（13.3%），但与我们的任务特定步骤方法（18.6%）相比，效果要差得多。我们发现，[1]的预测经常有几个得分相似的步骤，导致解析结果不佳，我们将其归因于DIFFRAC使用的凸松弛。过去通过在测试时使用叙述来解决这个问题，而我们的方法不依赖于此。我们的完整方法在任务之间共享，性能大幅提升（22.4%），优于任务特定步骤方法。更重要的是，这种改进是系统性的：在18个任务中，完整方法在17个任务中优于任务特定步骤基线。我们在图5中展示了一些定性示例，说明了共享对步骤的益处和最小益处。通常情况下，如果组件具有独特的外观并且参与多个步骤，共享可以帮助：例如，搅拌步骤的平均召回率比独立训练提高了15%，因为它在30个步骤中频繁出现且独特。当然，并非所有步骤都会受益：切割架受到了伤害（47%独立→28%共享），因为切割主要发生在具有不同上下文的烹饪任务中。在小规模数据上验证优化器。我们现在在[1]的较小的5个任务数据集上评估我们的方法。由于这里没有共同的步骤跨任务，我们只能测试基本的任务特定步骤版本。为了进行公平比较，我们使用与[1]作者提供的相同特征、排序约束以及叙述约束，对每个K进行评估，使用与[1]相同的F1指标。结果是，两种方法相当，[1]与我们的方法在K=10时分别为22.8%和21.8%，在K=15时分别为21.0%和21.1%。尽管与单任务概率模型相比，这些得分稍低，但与[1]的单任务概率模型相比，这些得分稍低。0.100.120.140.160.180.2035440表3.更改共享设置和模型时我们方法在测试集上的平均召回率得分。0未共享共享共享主要任务主要任务主要任务+相关任务0基于步骤的 18.6 18.9 19.8 基于组件的 18.7 20.222.40未见任务：制作法式草莓蛋糕0切割草莓0将草莓添加到蛋糕中0来源步骤来自相关任务0切割牛排切割番茄0添加番茄0将樱桃添加到蛋糕中0图6.一个未见任务的步骤示例。虽然模型没有见过这些步骤和对象，例如草莓，但它对其他组件的了解可以得出合理的预测。0Sener[28]（K=10时为25.4%，K=15时为23.6%），我们无法使用我们的完整跨任务模型在这个数据集上进行比较。总的来说，这些结果验证了我们优化技术的有效性。06.2. 跨任务共享的实验评估0在验证了框架和共享的作用后，我们现在更加精确地评估共享的执行方式，以检查我们提出的组合模型的贡献。我们变化了两个维度。第一个是共享发生的粒度，或者说共享发生的级别。我们提出在组件级别进行共享，但也可以在步骤级别进行共享。第二个是使用的数据，包

下载后可阅读完整内容，剩余1页未读，立即下载