半弱监督学习方法：从教学视频中提取复杂动作

194 浏览量更新于2023-10-25 收藏 12.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

33440从教学任务视频中半弱监督学习复杂动作0Yuhan Shen 东北大学0shen.yuh@northeastern.edu0Ehsan Elhamifar东北大学0e.elhamifar@northeastern.edu0摘要0我们解决了在具有少量弱标记训练视频和大量无标记视频的教学任务视频中进行动作分割的问题，我们将其称为动作的半弱监督学习（SWSL）。我们提出了一个通用的SWSL框架，可以有效地从这两种类型的视频中学习，并可以利用任何现有的弱监督动作分割方法。我们的关键观察是无标记视频的转录与同一任务的弱标记视频的转录之间的距离虽小但通常不为零。因此，我们开发了一种软限制编辑（SRE）损失，以鼓励无标记视频的预测转录与同一任务的弱标记视频的真实转录之间的小变化。为了计算SRE损失，我们开发了一种灵活的转录预测（FTP）方法，该方法使用动作分类器的输出来确定无标记视频中转录的长度和发生的动作序列。我们提出了一种高效的学习方案，其中我们在最小化我们提出的损失和为无标记视频生成伪转录之间交替进行。通过对两个基准数据集的实验，我们证明了我们的方法可以通过使用无标记视频显著提高性能，特别是当弱标记视频的数量很少时。01. 引言0许多人类的日常任务都是程序化的，一个任务由一系列必须遵循的动作组成，以达到期望的目标。因此，网络上出现了大量的教学视频，教授如何执行任务，例如烹饪食谱，修理设备，组装家具，进行紧急急救等等。[1, 10, 15, 23, 38,56, 66,67]。从教学视频中自动学习程序化任务具有重要的应用，例如教导智能代理执行任务。01 代码可在https://github.com/Yuhan-Shen/SWSL找到。0拿杯子倒糖倒咖啡搅拌咖啡倒牛奶用勺子舀糖。0搅拌茶倒油加茶包打蛋倒水煎锅里加黄油。0煎蛋，将蛋放到盘子里，加盐和胡椒，拿起盘子。0冲咖啡...泡茶...煎蛋...0图1. 三个不同任务中每个任务内的转录变异。0复杂任务，构建大型紧凑指令知识库，以及执行任务的自动性能评估。在过去几年中，我们在从指令中学习的不同方面取得了巨大进展。[1, 4, 8, 15, 19, 20, 33, 35-37, 49, 50,56, 66,67]。从教学视频中学习的一个主要挑战是视频很长，有很多动作，因此注释成本高昂且复杂。这对于将学习扩展到大量任务和视频构成了重大挑战。因此，虽然一些完全监督的方法已经研究了从密集注释视频中学习[24, 27, 45, 49, 51,53, 64,66]，但大多数现有的工作都集中在使用较少的监督。具体而言，弱监督方法假设每个训练视频都附带其转录（有序动作列表）[5, 7, 12, 30, 35, 44,67]或动作集（无序动作列表）[16, 31, 32, 36,43]。虽然使用弱监督可以通过消除指定动作的时间边界的需求来降低注释成本，但仍需要注释者观看整个视频。另一方面，无监督方法通过使用无标记视频并利用相同任务的视频的相似性来消除注释的需求。然而，现有的相似性约束，例如遵循相同动作序列或相同的成对动作顺序的视频，在视频中往往受到限制并经常被违反（参见图1）。这导致无监督方法的性能明显落后于弱监督算法。0论文贡献。在上述讨论的基础上，我们研究了一个新的动作分割问题，假设我们可以访问少量弱标记的33450训练视频和大量未注释的多任务视频（仅具有任务标签）。我们将这种设置称为半弱监督学习（SWSL）的动作学习，其目标是使用这两种类型的训练视频学习视频分割模型。使用未标记的视频可以有效地规范从少量弱标记视频中学习，而这对于使用当前方法学习动作分割/分类器来说是不足够的。另一方面，使用弱标记视频可以通过利用每个任务的少量转录来指导从未标记视频中学习。我们提出了一种SWSL方法，通过同时从弱标记和未标记的视频中学习，找到视频特征学习模块和动作分类器的参数。我们的关键观察是未标记视频的转录通常与同一任务的弱标记视频的地面真实转录之间存在小但非零的距离，这解释了任务可能完成的小变化。因此，我们开发了一种可微分的软限制编辑（SRE）损失，它允许我们预测与同一任务的弱标记视频的地面真实转录接近但可能与其不同的未标记视频的转录。为了计算SRE损失，我们开发了一种灵活的转录预测（FTP）方法，该方法使用动作分类器的输出来找到未标记视频中的转录长度和动作序列。受到自我训练的先前工作的启发[28, 62,63]，我们提出了一种学习方案，其中我们在以下两种类型的视频上交替进行：i）在两种类型的视频上最小化我们提出的损失（弱监督和SRE损失的总和）；ii）将一些最有信心的未标记视频及其伪转录添加到弱标记集中。我们方法的一个优点是它可以使用任何现有的弱监督方法。通过对Breakfast [23]和CrossTask[67]这两个基准数据集的实验，我们证明了我们方法的有效性。02. 相关工作0动作分割。根据监督类型，现有的关于教学视频中动作分割的工作可以分为三类。首先，完全监督方法假设视频中的动作具有逐帧注释[24, 27, 45, 49, 51, 53, 64,66]。其次，弱监督方法假设每个训练视频都有一个有序或无序的动作列表[5, 7, 30, 31, 35, 36, 43, 44,67]或其摘要[39,60]。第三，无监督学习方法利用相同任务的视频的共同结构、跨模态一致性或时间信息来发现和定位动作[14, 15, 18,25, 48,50]。在本文中，我们提出了从教学视频中进行半弱监督学习的新设置，这尚未被探索过。0大多数弱监督动作分割方法主要0使用转录来学习从视频特征到逐帧动作类别概率的映射，因此先前工作之间的主要区别在于映射函数和损失函数的选择。在本文中，我们利用了两种现有的弱监督方法[30,54]。具体而言，[30]使用GRU层和全连接层作为映射函数，而[54]使用深度卷积神经网络。至于损失函数，[30]使用约束的判别前向损失（CDFL）来区分有效的帧标签，与地面真实转录一致，与无效的标签区分开。[54]有一个模块来预测片段的类别和长度，并使用相互一致性（MuCon）损失来强制帧级概率和预测片段的一致性。0半监督学习（SSL）方法旨在从有标签和无标签数据中学习[21, 34, 41, 46, 61, 63,65]。在视频理解中，SSL已经用于时间动作提议、人体姿态估计、显著对象检测、动作识别等方面的研究[42, 52, 59,62]。SSL有两个主要方向：自训练和一致性正则化。基于自训练的方法[28, 62,63]首先使用监督方法训练模型，然后为无标签数据预测伪标签。一致性正则化最初由[3]提出，并在几个工作中进行了扩展，包括时间集成[26]和平均教师[57]，它最小化了扰动输入数据的预测之间的差异。0序列对齐。我们的工作与序列对齐有关。动态时间规整（DTW）是一种衡量两个时间序列之间距离的经典算法[47]。DTW的最新变体包括可微近似[9,19]和允许跳过异常值[13]。弱序列对齐算法（WSA）[50]执行一对一对齐，同时允许一些项目不匹配，并扩展为可微分。然而，所有这些工作都要求对齐严格遵守时间顺序。保序瓦砾斯坦距离[55]可以通过最优传输处理局部时间扭曲，但它是多对多或一对多对齐，并且不可微分。我们的工作受到编辑距离的启发，它衡量两个字符串之间的距离。Levenshtein距离[2,29]是一种允许删除、插入和替换的特定类型的编辑距离，可以通过Needleman-Wunsch[40]算法计算。[22]将Needleman-Wunsch算法的输入从字符串扩展到时间序列，并使其可微分，但它不允许相邻转置。受限编辑距离和Damerau-Levenshtein距离[11,17]允许两个相邻字符的转置，但它们都不可微分。我们提出的SRE损失是受限编辑距离的扩展，可以应用于时间序列并且是可微分的。(1)Transcript:ℒ!"#$ℒ)*"Task Label: make coffeeTranscript Settake cuppour sugarpour coffeestir coffeepour milk spoon sugar33460DTW编辑距离/0WSA0受限编辑0距离0在锅里加黄油打蛋0煎蛋加盐和胡椒粉0蛋煮熟0倒油0打蛋0煎蛋0蛋煮熟0倒油0打蛋0煎蛋0蛋煮熟0倒油0打蛋0煎蛋0蛋煮熟0图2.不同方法对两个转录的对齐。0说明性示例：为了更好地突出受限编辑距离与其他序列对齐方法的差异，图2显示了不同方法对两个转录的对齐。DTW严格对齐两个序列中的每个条目，导致许多错误对齐。而编辑距离或WSA可以获得一对一的对齐并跳过一些不匹配的项目，但它们严格遵循时间顺序，无法处理从“打蛋”到“加盐和胡椒粉”的转置。相比之下，受限编辑距离可以处理异常元素和相邻项目的转置。03.问题陈述在半弱监督学习中，我们假设有N个弱标记视频{Xwn}Nn=1和M个无标记视频{Xum}Mm=1。这些视频来自多个任务，每个视频由一系列完成基础任务所需的动作组成。让O表示任务的数量，A表示所有视频中的动作类别数量。我们的目标是学习一个模型，将测试视频分割成不同的动作，并识别每个片段的动作和视频的基础任务。具体而言，对于弱标记的训练视频，我们假设有视频特征、转录和任务标签的三元组{(Xwn, Gwn, ywn)}Nn=1。0Xwn = [xwn,1, xwn,2, ...,0Gwn = [gn,1, gn,2, ..., gn,Ln],0ywn ∈ {1, ..., O},0其中xwn,i ∈Rd是第n个弱标记视频中第i帧的d维特征，Twn是第n个视频的长度。此外，Gwn是视频转录（弱标签），具有one-hot编码gn,l ∈ {0, 1}A。0表示第n个视频中第l个动作，Ln是转录的长度，ywn是任务标签。对于每个任务o ∈ {1, ...,O}，我们用Go表示所有弱标记视频的转录集合，即0Go = {Gwn | if ywn = o, �n}. (2)0无标签视频0弱标记视频0动作分类器0灵活转录0预测0伪转录0特征学习0图3.我们提出的用于学习多任务弱标记和无标签教学视频的框架。0另一方面，对于无标签视频，我们有视频特征和任务标签的配对{(Xum, yum)}Mm=1，0Xum = [xum,1, xum,2, ...,x0yum ∈ {1, ..., O}, (3)0其中xum,i是第m个无标签视频中第i帧的特征，Tum是第m个视频的长度。04.半弱监督动作学习04.1. 提出框架的概述0我们提出了一个通用框架，可以同时从（少量）弱标记和（大量）无标签视频中学习。如图3所示，我们的框架包括两个分支，用于从两种类型的训练视频中学习，并使用共享的动作分类器。对于弱标记视频，在我们提出的框架中，我们可以灵活地使用任何现有的弱监督方法。让Lweak表示相关的损失，该损失在第4.2节中介绍。对于无标签视频，给定视频特征作为输入，我们使用动作分类器输出一个逐帧概率矩阵P∈[0,1]T×A，该矩阵捕捉每个帧属于每个动作的概率。为了预测每个无标签视频的转录，我们提出了一种灵活的转录预测（FTP）算法，该算法以P作为输入，并输出视频的转录和相关的分割。我们利用以下观察结果：预测的无标签视频的转录应该与相同任务的弱标记视频的转录之间的距离较小，对应于可以完成任务的小变化。因此，我们提出了软限制编辑（SRE）距离，这是一种可微分的损失，用于计算预测转录和训练转录集之间的距离，允许插入、删除、替换和相邻转置。因此，我们可以预测与弱标记视频的转录足够接近的无标签视频的转录，而不是强制预测转录与训练转录相同。(6)ℓlℓ+1pt,a�1ti−ti−1 .(7)33470随着训练的进行，我们为无标签视频生成伪转录，并逐渐将具有最自信转录的视频添加到弱标记集合中。这种自我训练策略在第4.5节中介绍。04.2.弱监督动作分割0为了从弱标记的训练视频中学习，其中训练视频集合表示为W，弱监督动作分割学习一个从每个视频的特征到逐帧动作类别概率P的映射FΘ: RT × d → RT ×A，并使用提供的转录G进行监督。0minΘ0WLweak(P,G)，其中P=FΘ(X).2 (4)0作为我们框架的优势，我们可以利用任何现有的弱监督方法，并使用未标记的视频显著提高其性能，特别是当弱标记的视频数量很少时。在本文中，我们使用了两种最先进的方法，MuCon [54]和CDFL [30]，我们在第2节中进行了回顾。04.3.灵活的转录预测（FTP）0给定逐帧概率矩阵P∈[0,1]T×A0对于视频的每一帧，其中T是帧数，A是动作类别数，我们的目标是预测转录概率，表示为Q∈[0,1]L×A，其中L是预测的转录长度，即视频中的动作数量。Q的第i行表示转录中第i个条目将是每个A个动作的概率。注意，转录长度和动作序列都是未知的。因此，我们提出了一种灵活的转录预测（FTP）算法来估计两者。为了解决这个问题，首先注意到，给定固定的转录长度L，我们可以通过求解来找到分割边界点(t0,t1,t2,...,tL)和段的类别(a1,a2,...,aL)0max{ti},{ai}0L∈0i=10j=ti−1+1pj,ai s.t.t0=0,tL=T. (5)0换句话说，我们同时搜索分割和将每个段(ti−1+1,ti)分配给最大似然的动作类别ai。鉴于转录长度L本身是未知的，我们修改问题，同时搜索足够小长度的转录。因此，我们在（5）的负对数似然中添加了L作为惩罚，并解决0min{ti},{ai},L-10T0L∈0i=10j=ti−1+1logpj,ai+λL0s.t.t0=0,tL=T,ℓmin≤L≤ℓmax,0为了简化表示，我们在引用i∈W的情况下省略了P i和G i的下标i。0算法1：灵活的转录预测（FTP）0输入：概率矩阵P∈[0,1]T×A01 计算负对数似然的累积和：st,a=∑0t′≤t−logqt′,a;02计算每个片段的最小成本：ct1,t2=mina(st2,a−st1−1,a)，103动态规划：dt,l=mint′

下载后可阅读完整内容，剩余1页未读，立即下载