从未修剪的网络视频中学习对象状态和状态修改动作

200 浏览量更新于2023-10-25 收藏 15.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0:001:272:232:332:493:275:006:228:378:530:000:090:140:170:220:260:370:400:420:53139560寻找变化：从未修剪的网络视频中学习对象状态和状态修改动作0Tom´aˇs Souˇcek 1 Jean-Baptiste Alayrac 2 Antoine Miech 20Ivan Laptev 3 Josef Sivic 101 CIIRC CTU 2 DeepMind 3 ENS/Inria0tomas.soucek@cvut.cz0https://data.ciirc.cvut.cz/public/projects/2022LookForTheChange/0摘要0人类的行为通常会导致对象状态的改变，例如“切苹果”，“擦鞋”或“倒咖啡”。本文旨在在长时间未修剪的视频中最小监督地定位对象状态（例如“空”和“满”杯子）以及相应的状态修改动作（“倒咖啡”）。本工作的贡献有三个方面。首先，我们开发了一个自监督模型，可以从互联网上未修剪的视频集中联合学习状态修改动作和相应的对象状态。该模型通过因果顺序信号进行自监督，即初始对象状态→操作动作→结束状态。其次，为了应对嘈杂的未修剪训练数据，我们的模型引入了一个由少量注释静态图像监督的噪声自适应加权模块，可以在训练过程中高效地过滤掉无关的视频。第三，我们收集了一个新的数据集，包含超过2600小时的视频和3.4万个对象状态变化，并手动注释了部分数据以验证我们的方法。我们的结果在视频中的动作和对象状态识别方面相比之前的工作取得了实质性的改进。01. 引言0人类的行为通常会导致对象状态的改变，如图1所示。例如，“切苹果”，“擦鞋”，“系领带”或“倒咖啡”。人们可以轻松识别此类动作以及对象状态的变化[12]，例如在观看教学视频时。此外，人们可以在自己的环境中重现这些动作，例如...01捷克技术大学布拉格分校信息学、机器人学和控制论研究所。3巴黎高等师范学校计算机科学系、国家科学研究中心、巴黎科技大学研究联盟，法国。0结束状态0动作0初始状态0木材钻孔0结束状态0动作0初始状态0剥鸡蛋0图1.从长时间未修剪的网络视频数据集中学习到的对象状态和状态修改动作的示例。每个示例的顶部行显示：视频中的初始状态（左）、状态修改动作（中）和结束状态（右）。底部行显示从整个视频中采样的视频帧及其相应的时间戳。它展示了在整个视频中找到正确的时间定位对象状态和动作的困难之处。0当按照烹饪视频中的食谱操作时，人们可以轻松识别和理解对象状态和状态修改动作。然而，尚未开发出具有类似认知能力的人工系统。现有的识别对象状态和状态修改动作的方法只适用于小规模设置（5个对象和短视频）[3]或受控环境[18]。与此同时，在野外自动理解动作和对象状态之间因果关系的进展将是具有体现视频理解和机器人技术的重要一步。然而，由于现有对象-动作对的数量和变异性较大，以及手动收集和注释视频数据的困难，这个任务具有挑战性。在本文中，我们研究了在嘈杂的未筛选网络视频中学习对象状态和相应的状态修改动作是否可以扩展。Video and Language. A large body of work in automaticvideo understanding studies the use of natural language orspeech data to train models for action and object state recog-nition. Prior work [4,16,19,28,29,43,45,50,53,60,64,67]leveraged image and video description datasets [37, 45, 51,55,65,71] to learn a joint vision-language embedding space,where visual and textual data are semantically aligned. Inparticular, [43,53,64] observed that object state and actionrecognition implicitly emerges, to some extent, from thesevision and language models. In fact, the aligned vision andtext training data often provides detailed descriptions of ac-tions, objects and their different states. In contrast to theseworks, we explicitly model the causal nature of actions andtheir impact on object states in order to leverage this stronginductive bias in our model.Object attributes and action modiﬁers. Learning objectattributes (e.g. sliced, diced) has been approached in a su-pervised manner in still images [46–48, 52, 69] with the139570仅使用最小的监督。这项工作的贡献有三个，如下所述。首先，我们开发了一个自我监督模型，从通过视频搜索引擎获得的未策划的视频集中共同学习状态修改动作和物体状态。我们探索视频中的因果顺序作为自由监督信号，并使用它来发现物体的状态变化和状态修改动作。我们将其定义为初始物体状态→操作动作→结束状态的顺序，如图1所示。而之前的工作[3]仅限于闭合形式的线性分类器，我们的模型适用于使用随机梯度下降进行大规模学习，并支持非线性多层模型。其次，为了应对可能包含大量无关视频（例如学习“切割苹果”时的苹果笔记本电脑视频）的嘈杂未策划数据，我们的模型包含一个噪声自适应加权模块，可以过滤掉无关视频。这个噪声自适应加权模块由一小部分静止图像监督，这些图像描绘了物体的两个状态，可以使用当前可用的图像搜索引擎轻松收集。这种注意机制使我们能够将我们的方法扩展到嘈杂的未策划数据，正如我们通过实验结果所示。第三，我们收集了一个新的“ChangeIt”数据集，包含超过2600小时的视频和3.4万个物体状态变化。我们手动注释了这部分数据以进行评估。为了验证我们的方法，我们展示了在这个新的未策划数据集上以及在[3]中现有的较小的策划视频数据集上的结果。我们对我们方法的关键组成部分进行了消融实验，并在行动和物体状态定位方面取得了显著的改进。数据集、代码和训练好的模型都是公开可用的。02. 相关工作0关注属性的组合性质。同样，其他人研究了从网络教学视频中挖掘的短片（20秒）中学习动作修饰词（例如“快速”）[21]。相关的，Doughty等人[20]分析了物体状态的视觉变化如何用于视频中的技能确定。自然语言的组合性质也被用于学习用于检索应用的动作、物体及其属性的分解视频-语言嵌入[64]，或者学习上下文化的语言-物体嵌入[8]。在以自我为中心的视频中，已经探索了物体状态变化及其相关状态修改动作的显式模型[24,38]。其他人考虑通过从通过查询网络图像搜索引擎获取的网络图像学习物体状态来显著减少监督的数量[32]。与我们密切相关的是[22]的工作，他们在教学视频中使用文本和视觉之间的时间循环一致性损失来寻找下一帧预测的更好目标。通过这样做，他们隐式地发现了潜在的物体状态变化，但没有定量评估这些变化的正确性和质量。其他人直接关注从视频中无监督地学习物体状态和状态修改动作[3,18]。然而，他们的工作仅涵盖了从一组修剪和策划的视频[3]或观察单个特定场景的视频的受限场景[18]的小规模学习。相比之下，我们考虑从网络上的嘈杂的未修剪的视频中进行大规模学习。0作为监督形式的排序。时间的箭头是一个强烈的信号[63]，可以用来学习动作。事实上，许多动作按照一定的顺序发生[7]。例如，你需要先打开瓶子才能从中倒出东西。这可以作为监督的来源。过去的研究[2, 10, 11, 35, 56, 62,70]利用这种监督来发现和时间定位未修剪视频中的动作。类似地，重复事件的自然顺序已被用来区分关键事件和背景[74]。[72]从延时视频中训练了一个生成模型，用于生成经过时间改变的对象的未来状态。其他人则研究了下一帧或下一个动作预测的相关任务作为另一种形式的监督[15, 22, 27,39, 40, 44, 54,58]。相比之下，我们使用强因果排序约束作为监督信号，这些约束与对象的状态和状态修改动作相关。0动作识别和定位。在视频中检测、分类和定位人类动作的问题已得到广泛研究，这些方法探索视频中的运动和外观的时间演变。动作识别模型通常在短视频剪辑上操作，以包含单个动作。这些模型使用2D和3D卷积[14, 25, 26,61]、变换器和时间注意力[9, 23,68]的混合。动作定位方法通常在视频中生成动作提议。ming,h139580噪声自适应学习使用因果排序约束进行标注0初始状态动作结束状态 l ( v )0时间0聚合0自适应权重 ω ( v ) 时间标签 l ( v )0切开的苹果0整个苹果0输入视频 v0x 1 h 1) h 2( x 1) l s 10h 1( x 2) g ( x 2) h 2( x 2) n/a0动作分类器0x 20g0h0x 3 h 1( x 3) g ( x 3) h 2( x 3) l a0x 4 h 1( x 4) g ( x 4) h 2( x 4) l s 20违规0图2. 模型概述。给定一组来自网络的嘈杂未修剪视频，描述了一个状态改变的动作（这里是切苹果），我们的方法学习动作分类器 g和对象状态分类器 h，输出具有满足因果排序约束的初始对象状态 → 操作动作 → 结束对象状态的输入视频的时间标签l。这是通过最小化新的噪声自适应学习目标来实现的，该目标通过自适应权重 ω来衡量与少量示例图像的相似性，降低了不相关视频的权重。学习过程通过迭代地（i）在给定输入视频的当前标签 l的情况下学习动作和状态分类器 g 和 h，以及（ii）找到符合因果排序约束的视频的标签 l 来进行。0使用特殊模块（如图形神经网络[6, 13, 36, 49,66]）在时间域中进行动作定位。然而，这些方法通常需要视频注释来进行训练，以确定时间动作边界。我们提出的方法不需要时间监督，而是利用物体状态的变化作为动作定位的指导。0对象状态和动作视频数据集。大多数现有的视频动作识别数据集主要包含保持状态的动作，如跳舞或吹笛[14, 34,57]。EPIC-KITCHENS [17]、Breakfast [33]、CrossTask[73]或COIN[59]数据集为每个视频提供了动作序列和对象注释，但没有提供与对象状态变化相关的注释。HowTo100M[45]、YouCook2 [71]和RareAct[42]数据集包含具有状态改变动作的视频；然而，它们也没有提供明确定义的对象状态注释。与我们密切相关的是，Alayrac等人[3]介绍了一个带有状态改变动作的注释视频数据集。然而，该数据集经过精心策划，以确保每个视频都包含感兴趣的动作和对象状态变化。因此，他们的数据集规模较小，每个类别只包含七个对象-动作类别，每个类别只有几十个视频。Task-Fluent数据集[38]包含几个状态改变动作，但仅限于809个自我中心视频。相比之下，我们的数据集分别比[3]和[38]的数据集大54倍和42倍，并包含了44个不同的对象-动作类别的未修剪视频。与我们的工作同时进行的是最近收集的EGO4D[30]数据集，其中包含3,025小时的自我中心视频，并提供状态变化和动作注释。我们的数据集与其规模相当，但侧重于来自网络的未修剪视频。03.从未剪辑的网络视频中学习动作和物体状态0我们给定一组任意长度的网络视频v ∈V，这些视频很可能描绘了一个常见的改变状态的动作applied on anobject。例如，V可以是一组生日庆祝视频，这些视频很可能包含人们吹灭蜡烛（即动作）并将蜡烛的状态从点燃（即初始状态）变为熄灭（即最终状态）。鉴于此，我们的目标有两个：（i）学习一个能够识别感兴趣动作的动作分类器g，以及（ii）学习一个将修改后的对象分类为初始状态和结束状态的状态分类器h。我们希望在没有动作和对象状态的真实标签的情况下实现这一目标。相反，我们设计了一种依赖于时间因果性提供的监督的方法：动作应该出现在两个对象状态之间。此外，我们还展示了一些额外的带有标签的示例图像，这些图像描绘了两个对象状态，有助于通过我们的新的噪声自适应学习目标使我们的方法在训练数据中的噪声更加鲁棒。具体而言，所提出的学习过程如图2所示，优化以下目标：0v ∈V L ( g,h ) ( v, l ( v )) (第3.1节)，(1)0其中h和g分别是学习到的状态和动作分类器，L是适应网络视频噪声特性的损失函数，l(v)是视频v中动作和状态时间位置的标签。由于这些标签事先未知，我们在运行时估计它们。Lg(v, l(v)) = −µ�t∈APvlog g(xt) −�t∈ANvlog�1 − g(xt)�Lh(v, l(v)) = −�t∈S1vlog h1(xt) −�t∈S2vlog h2(vt)(4)S1v =t : |t − ls1(v)| ≤ δ, 1 ≤ t ≤ Tv(5)ANv =t : t′ ∈ APv , |t − t′| = κ, 1 ≤ t ≤ Tv .(6)139590通过以下最大化来优化过程：0l(v) = arg max l ∈ D_v S(g,h) (v, l)(第3.2节)，(2)0其中S是一个依赖于当前动作和状态分类器g和h的评分函数。D_v是符合我们时间因果性约束的标签集合。学习过程通过迭代地（i）学习当前输入视频的动作和状态分类器g和h，给定当前标签l（方程（1）和第3.1节），以及（ii）找到给定当前动作和状态分类器g和h的情况下符合因果排序约束的视频的标签l（方程（2）和第3.2节）。下面提供有关这两个步骤的详细信息。03.1.噪声自适应学习目标0在本节中，我们描述了来自方程（1）的损失函数L。每个视频v由T_v个d维视觉特征的序列表示：v = {x_t} T_v t=1。每个x_t ∈R_d描述了原始视频中一秒钟的时间段。在这里，我们假设所有视频的标签l(v)都是已知的，即动作l_a(v) ∈ [1, T_v]的时间位置以及初始状态l_s1(v) ∈ [1, T_v]和结束状态l_s2(v) ∈[1,T_v]的时间位置（有关如何获取l(v)的详细信息，请参见第3.2节）。动作和状态分类器。我们的目标是在给定标签l的情况下学习动作和状态分类器g和h。动作分类器g以视觉特征x ∈ R_d为输入0并输出一个置信度分数g(x) ∈ [0,1]，表示该特征描绘了感兴趣的动作。类似地，状态分类器h以视觉特征x为输入，并输出两个分数h1(x)，h2(x) ∈ [0,1]，给出特征对应于初始状态和结束状态的概率估计。损失定义。形式上，视频v及其相关标签l(v)的损失函数L(g,h)是动作损失Lg和状态损失Lh的加权和：0L ( g,h ) ( v, l ( v )) = ω ( v ) × L h ( v, l ( v )) + λ × L g( v, l ( v )) × (3)0其中λ控制两个部分损失的相对重要性，g和h分别是正在学习的动作和状态分类器。鉴于从网络获取的未修剪视频数据集的噪声特性，我们通过标量权重ω(v)对每个视频对整体损失函数的贡献进行加权，该权重是通过将视频帧与一小组示例图像进行比较（图2，左下角）并稍后描述来推导的。方程（3）中的动作和状态损失是应用在分类器输出上的交叉熵损失：0其中S1v，S2v，APv是从l(v)推导出的正样本集合，模型应该预测初始状态、结束状态和动作。集合ANv包含负样本，模型应该产生无动作标签。我们将在下面描述如何从当前视频的标签l(v)中推导出这些集合。参数µ是动作/无动作类别之间的相对权重。正样本的采样。所有正样本集合S1v，S2v，APv的采样方式相同，直接从标签l(v)中获取。它们都包含在以当前估计的初始状态ls1(v)，结束状态ls2(v)和动作la(v)为中心的时间窗口内的特征索引。形式上，初始状态的正样本集合t ∈ S1v定义为：0其中ls1(v)是视频v中初始状态的当前估计位置，Tv是视频的长度，δ是一个超参数，定义了被视为正样本的相邻特征的数量。直觉上，我们希望将几个时间上相邻的示例（在由δ定义的时间窗口内）视为正样本，因为它们很可能也包含初始对象状态。用于结束状态和动作的正样本集合S2v和APv的定义类似。采样无动作示例。有多种方式可以对无动作示例集合ANv进行采样。考虑视频中的所有负样本ANv = {t: t/ ∈APv}是不切实际的，因为它受到类别不平衡的影响，这种不平衡直接取决于视频的长度，并且在长视频中可能非常大，比例可能超过1比100。相反，我们选择将ANv定义为与正样本位置t' ∈ APv之间距离为κ的视频特征索引的集合：0直觉是，对于适当的κ，集合ANv将包含困难的负样本，这些负样本在视觉上与正确的动作相关但是是负样本。如果κ太小，ANv将包含正样本，这将对训练动作分类器造成伤害。另一方面，如果κ太大，ANv可能包含与视频中其他部分不相关（容易区分）的动作。在第5节中，我们对κ的选择进行了消融实验，并展示了与随机采样负样本位置相比，这种对于动作分类器的负样本定义对于获得良好性能至关重要。最后，我们注意到视频中可能存在一些位置不在四个S1v，S2v，APv，ANv集合中。实际上，在较长的视频中，大多数片段都没有任何标签，因此不会对损失产生贡献。从少量示例图像中进行噪声自适应加权。由于我们的训练视频是从网络自动获取的，因此我们通过将视频帧与一小组示例图像进行比较（图2，左下角）并稍后描述，来对每个视频对整体损失函数的贡献进行加权。方程（3）中的动作和状态损失是应用在分类器输出上的交叉熵损失：rv = maxt

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

从未修剪的网络视频中学习对象状态和状态修改动作

通过深度强化学习对未修剪视频进行主动时间动作检测

autocad修剪时取消对齐

多路径修剪和循环修剪有什么区别

学会视频剪辑需要怎么学习

人工智能中的循环修剪是什么意思

seisee怎么修改道头

视频剪辑需要学习哪些内容

yolov5修改网络结构剪枝

python实现决策树修剪

electron 视频剪辑

Adobe Premiere Pro CC软件中音频编辑和处理教学的重点和难点

电影《霸王别姬》怎么剪辑成短视频

如何成为一名VJ视频剪辑师

视频融合拼接 csdn

思科模拟器vlan修剪命令

ug二次开发修剪刀具路径

最新资源