未策划Web视频中的对象状态与动作识别

61 浏览量更新于2023-10-25 收藏 992KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13956→→寻找变化：从未经裁剪的Web视频中学习对象状态和状态修改动作Toma's1Jean-BaptisteAlayrac2AntoineMiech2Ivan Laptev3 Josef Sivic11CIIRC CTU2 DeepMind3 ENS/Inria电子邮件：tomas.soucek@cvut.czhttps://data.ciirc.cvut.cz/public/projects/2022LookForTheChange/摘要人类的动作经常引起对象状态的变化，如“切苹果”、“擦鞋”或“倒咖啡”。在本文中，我们试图在时间上本地化的对象状态（例如。“空”和“满”杯）以及相应的状态修改动作（“倒咖啡”）。这项工作的贡献有三个方面。首先，我们开发了一个自监督模型，用于联合学习状态修改动作以及来自互联网的未经策划的视频集的相应对象状态。该模型是自我监督的因果排序信号，即。初始对象状态操作动作结束状态。其次，为了应对嘈杂的未经策划的训练数据，我们的模型引入了一个由少量注释的静态图像监督的噪声自适应加权模块，可以在训练过程中有效地过滤掉不相关的视频。第三，我们收集了一个新的数据集，其中包含超过2600小时的视频和34000个对象状态的变化，并手动标注了一部分数据来验证我们的方法。我们的研究结果表明，在视频中的动作和对象状态识别方面，与以前的工作相比，有了很大的改进1. 介绍人类的行为经常会引起对象状态的变化，如图1所示。例子包括People can easily recognize such ac- tionsand the resulting changes of object states [12], for ex-ample, when watching instructional videos.此外，人们可以在他们的环境中重现这些行为，例如。1布拉格捷克技术大学捷克信息学、机器人学和控制论研究所3De′ partement图1. 对象状态和状态修改动作的例子，我们的模型从一个长的未经策划的网络视频数据集学习。在每个示例中，顶行显示：视频中的初始状态（左）、状态修改动作（中）和结束状态（右）。底部行示出了从具有其对应时间戳的完整视频采样的视频帧它说明了在整个视频中找到对象状态和动作的正确时间定位当你照着烹饪视频里的食谱做的时候然而，具有类似认知能力的人工系统还有待开发。用于识别对象状态和状态修改动作的现有方法解决了小规模设置（5个对象和短的手动策划的视频）[3]或受控环境[18]。与此同时，在野外自动理解动作和物体状态之间的因果关系然而，考虑到现有对象-动作对的大量和可变性以及手动收集和注释视频数据的困难，该任务是具有挑战性的。在本文中，我们研究了对象状态的学习和相应的状态修改动作是否可以扩展到来自网络的嘈杂的未经策划的视频，初始状态行动结束状态初始状态行动结束状态鸡蛋去皮木材钻孔13957→→只需要最少的监督。这项工作的贡献是三方面的，我们概述如下。首先，我们开发了一个自监督模型，用于从视频搜索引擎获得的未经策划的视频集合中联合学习状态修改动作和对象状态。我们探索视频中的因果排序作为一个自由的监督信号，并使用它来发现对象和状态修改动作的变化我们通过初始对象状态操纵动作结束状态的序列来定义它，如图1所示。虽然关于这个问题的先前工作[3]仅限于封闭形式的线性分类器，但我们的模型适用于使用随机梯度下降的大规模学习，并支持非线性多层模型。第二，为了处理可能包括大部分不相关视频的噪声未经策划的数据（例如，当学习“切苹果”时，我们的模型包含了一个噪声自适应加权模块，可以过滤掉不相关的这种噪声自适应加权模块是由少量的静态图像描绘的两个状态的对象，这是很容易收集，lect使用当前可用的图像搜索引擎的监督。这种注意力机制使我们能够将我们的方法扩展到嘈杂的未经策划的数据，正如我们通过实验结果所展示的那样。第三，我们收集了一个新的我们手动注释一部分数据以进行评估。为了验证我们的方法，我们展示了这个新的未经策划的数据集以及来自[3]的现有较小我们消融我们的方法的关键组成部分，并表现出在行动和对象状态本地化比以前的工作有很大的改进数据集、代码和训练模型都是公开的。2. 相关工作视频与语言自动视频理解领域的大量工作研究了使用自然语言或语音数据来训练用于动作和对象状态识别的模型先前的工作[4，16，19，28，29，43，45，50，53，60，64，67]利用图像和视频描述数据集[37，45，51，55，65，71]来学习联合视觉语言嵌入空间，其中视觉和文本数据在语义上对齐。特别是，[43，53，64]观察到对象状态和动作识别在某种程度上隐含地出现在这些视觉和语言模型中。事实上，对齐的视觉和文本训练数据通常提供动作、对象及其不同状态的详细描述与这些作品相比，我们明确地建模的因果性质的行动和它们对对象状态的影响，以利用我们的模型中的这种强烈的归纳偏见。对象属性和动作修饰符。学习对象属性（例如切片，切块）已经在静态图像[46- 48，52，69 ]中以超视方式关注属性的组成性质。类似地，其他人也研究了动作的学习修饰语（例如，[21]从网络教学视频中挖掘的短片（20秒）与此相关，Doughtyet al. [20]分析了对象状态的视觉变化如何用于视频中的技能确定。还探索了自然语言的组成，用于学习用于检索应用程序的动作、对象及其属性的因子化视频语言嵌入[64]或学习上下文化语言对象嵌入[8]。在以自我为中心的视频中，已经探索了对象状态和相关状态修改动作的变化的外显模型[24，38]。其他人已经考虑通过从查询网络图像搜索引擎收集的网络图像中学习对象状态来显著减少监督量[32]。与我们密切相关的是[22]的工作，该工作使用教学视频中文本和视觉之间的时间周期一致性损失通过这样做，它们隐式地发现潜在的对象状态变化，但不定量地评估这些变化的正确性和质量。其他人直接关注对象状态的无监督学习和来自视频的状态修改动作[3，18]。然而，他们的工作仅涵盖了从一组修剪和策划的视频中进行的小规模学习[3]或观察单个特定场景的视频的受限场景[18]。相比之下，我们考虑从网络上嘈杂的未修剪视频中进行大规模学习。命令是一种监督形式。时间箭头是学习行动的一个强烈信号[63]。事实上，许多行动都是按一定的顺序发生的[7]。例如，你需要先打开一个瓶子，然后才能从里面倒东西。这可以作为监督的一个来源。过去的工作[2，10，11，35，56，62，70]利用这种监督来发现和临时定位未修剪视频中的动作。Similarly, the naturalordering of recurring events has been used to distinguishkey events from the back- ground [74]. [72]从延时视频中训练生成模型，以生成随时间变化的对象的未来状态。其他人将下一帧或动作预测的相关任务视为另一种形式的监督[15，22，27，39，40，44，54，58]。相比之下，我们使用的监督信号的强因果排序约束，对象的状态和状态修改的行动。动作识别和定位。通过探索视频中外观的运动和时间演变的方法，已经广泛地解决了检测、分类和定位人类动作的问题。动作识别的模型通常对修剪成包含单个动作的短视频剪辑进行操作。这种模型采用2D和3D卷积的混合[14，25，26，61]或转换器和时间注意力[9，23，68]。行动本地化方法通常会在13958整个苹果切开的苹果输入视频v初始圣行动结束街x1行动分类器GX2Hl（v）ls1n/ax3分级机状态La聚集X4ls2自适应权重ω（v）损失=ω（v）（<$Lh（v，l（v））+λLg（v，l（v）<$时间标签l（v）h2（x4g（x4h1（x4h2（x3g（x3h1（x3h2（x2g（x2h1（x2h2（x1g（x1h1（x1→→××VΣL∈VL噪声自适应学习带因果序约束的图2. 模型概述。给定一组来自网络的描述状态改变动作（这里是切苹果）的输入噪声未修剪视频，我们的方法学习动作分类器g和对象状态分类器h，它们输出输入视频的时间标签l，其中初始对象状态的时间位置操纵动作，对象状态满足因果排序约束。这是通过最小化一个新的噪声自适应学习目标来实现的，该目标利用自适应权重ω来降低不相关视频的权重，该自适应权重ω测量与少量样本图像的相似性。学习通过迭代地进行：（i）在给定输入视频的当前标签l的情况下学习动作和状态分类器g和h，以及（ii）找到遵守因果排序约束的视频的标签l时间域使用特殊模块，如图神经网络[6，13，36，49，66]。然而，这样的方法通常需要在时间动作边界方面的视频注释以用于训练。我们提出的方法不需要时间监督。它使用对象状态的变化作为动作定位的指导。对象状态和动作视频数据集。大多数前视频动作识别数据集主要包含状态保持动作，如跳舞或吹长笛[14，34，57]。[17]第十七话fast [33]，CrossTask [73]或COIN [59]数据集为每个视频提供动作序列和对象注释，但不提供与对象状态变化相关的注释。HowTo 100 M [45]，YouCook 2 [71]和RareAct [42]数据集包含具有状态改变动作的视频;然而，它们也没有提供明确定义的对象状态注释。与我们密切相关的是Alayracet al. [3]介绍了一种状态变化行为的带注释视频数据集。然而，该数据集经过精心策划，以确保每个视频都包含感兴趣的动作和对象状态变化。因此，他们的数据集规模很小，只包含七个对象动作类，每个类只有几十个视频。Task-Fluent数据集[38]具有几个状态改变动作，但仅限于809个以自我为中心的视频。相比之下，我们的数据集分别比[3]和[38]的数据集大54和42，并且包含大量44个不同对象动作类的未修剪视频在我们工作的同时，最近收集的EGO4D [30]数据集包含3，025小时以自我为中心的视频，还提供了状态变化和动作注释。我们的数据集大小相当，但对来自网络的未修剪视频有不同的关注。3. 从未修剪的网络视频我们给出了一组任意长度的网络视频v，它们可能描述了应用于对象的常见状态修改动作例如，可以是生日庆祝视频的集合，这些视频都可能包含人们吹灭蜡烛（即，动作）以及将蜡烛的状态从点亮（即，初始状态）到熄灭（即，最终状态）。因此，我们的目标是双重的：（i）学习能够识别感兴趣的动作的动作分类器G，以及（i i）学习将修改的对象分类为初始状态和结束状态的状态分类器H。我们试图在不访问动作或对象状态的地面真值标签的情况下这样做。相反，我们设计了一种依赖于时间因果关系提供的监督的方法：动作应该出现在两个对象状态之间。此外，我们还展示了一些额外的标记样本图像，这些图像描绘了两个对象状态，有助于通过我们新的噪声自适应学习目标，使我们的方法对训练数据中的噪声更加鲁棒。详细地说，所提出的学习过程（如图2所示）优化了以下目标：min（g，h）（v，l（v））（第（3.1）、（1）g、hv∈V其中h和g是学习的状态和动作分类器，req是适应于web视频的噪声性质的损失函数，并且L（v）是视频v内的动作和状态时间位置的标签。由于这些标签没有提前给出，因此我们在运行时对其进行估计，时间13959Dv一vvLv1t=1∈（1）∈<$）∈<$）∈∈∈v∈vvv一v一vvvvvvvvvvvG不不vvvv是一个SS SAS=. t：|t − l（v）|≤ δ，1 ≤ t ≤ T（5）VV是一个A{∈A}一∈ AN′P′通过以下最大化的优化过程l（v）=arg maxS（g，h）（v，l）（Sec. 第3.2段）、（2）段l∈Dv其中S是取决于当前动作和状态分类器g和h的评分函数。v是遵守我们的时间因果关系约束的标签集合。学习通过迭代地进行：（i）给定输入视频的当前标签l，学习动作和状态分类器g和h（等式1）。（1）和SEC。（ii）在给定当前动作和状态分类器g和h的情况下，找到遵守因果排序约束的视频的标签l（等式3.1）（2）和SEC。3.2）。下面将详细介绍这两个步骤其中，1，2，P是从l（v）推导出的正例集合，其中模型被期望分别预测初始状态、结束状态和动作。集合N包含模型被期望产生无动作标签的否定示例。我们描述了这些集合是如何从视频的当前标签l（v）中推导出来的。参数μ是动作/非动作类之间的相对权重。积极的例子。所有正集1，2，P以相同的方式采样，并直接从标签l（v）获得。它们都包含在以初始状态ls（v）、结束状态ls（v）和初始状态ls（v）的当前估计位置为1 23.1. 噪声自适应学习目标在本节中，我们描述等式（1）中的损失函数。每个视频V由一系列Tvd维视觉特征表示：v={xt}Tv. 每个以及作用la（v）。形式上，初始状态t∈ S1的正例集定义为：1S V其中LS1（v）是ini的当前估计位置xtRd描述了一个一秒长的时间段，原始视频。这里，我们假设标签l（v）对于所有视频都是已知的，即，动作la（v）1，Tv的时间位置以及初始状态ls1（v）1，Tv和结束状态ls2（v）1，Tv的时间位置（关于如何获得l（v）的细节，参见3.2动作和状态分类器。这里的目标是学习动作和状态分类器g和h，给定标签l。动作分类器g将视觉特征xRd作为输入，并输出该特征描绘感兴趣动作的置信度得分g（x）[0，1]。类似地，状态分类器h将视觉特征x作为输入，并输出两个分数h1（x）、h2（x）[0，1]，给出特征对应于初始和结束状态的概率的估计。视频v中的初始状态，Tv是视频的长度，并且δ是定义被认为是正的相邻特征的数量的超参数直觉是，我们希望将几个时间上邻近的示例（在由δ定义的时间窗口内）视为正的，因为它们也可能包含初始对象状态。最终状态和行动的正例集合2和P也被类似地定义。不采取行动的例子。存在对无动作示例的集合N进行考虑到视频中的所有底片，N=t：t /P是不实际的，这是由于类别不平衡，类别不平衡a）直接取决于视频的长度，以及b）在长视频中具有可以超过1到100的比率的而是损失定义。损失函数L（g，h）的选择将AN定义为一组视频特征索引，视频v及其相关标签l（v）是动作的损失Lg和状态的损失Lh.Σ给定离正例的位置t′P的距离κA=. t：t∈ A，|t−t|=κ，1≤t ≤ Tv。（六）其中，控制两个部分直觉是，对于适当的κ，集合AN将包含-λ损失，g和h是动作和状态分类符，重新拉紧v底片，在视觉上与正确这是正在学习的。考虑到从网络获得的未修剪视频的数据集的噪声性质，我们通过标量权重ω（v）对每个视频方程中的动作和状态损失。（3）是应用于分类器的输出的交叉熵损失，如：L（v，l（v））= −µ mlog g（x）− µmlog。1−g（x）t∈APt∈AN行动，但消极。如果k太小，N将包含积极的例子，这将不利于训练的行动分类器。另一方面，如果κ太大，N可能包含与视频其余部分无关（易于区分）的动作。在第5节中，我们取消了κ的选择，并表明与随机采样否定位置相比，动作分类器的否定定义对于获得良好性能最后，我们注意到，视频中可能存在不属于任何四组S1，S2，AP，AN事实上，在更长的情况Lh（v，l（v））=−logh1（xt）−logh2（vt）（4）vvL（g，h）（v，l（v））=ω（v）Lh（v，l（v））+λLg（v，l（v））（三）对于视频，大多数片段没有任何标签，因此不会导致丢失。t∈S1t∈S213960噪声自适应加权从几个典型的图像。由于我们的培训视频是自动从13961D12EE··.Σ在没有任何人工管理的情况下，很大一部分视频可能包含不相关的内容，从而损害模型的性能为了解决这个问题，我们通过Google Image搜索下载了少量的图像（最多五张），其中包含初始和结束状态的感兴趣对象。然后，我们使用以零拍摄方式应用的预先训练的视觉模型以及因果排序约束来计算视频相关性得分rv，如下所示：其中v是满足因果排序约束的动作和对象状态的所有可能位置的集合，h1（x1s）是在视频v中的时间位置ls1处的初始状态分类器h1的输出，h2（x1s）是在时间位置ls2处的结束状态分类器h2的输出，以及g（x1a）是在时间位置la处的动作分类器g的输出。换句话说，目标是识别视频中满足因果排序的对象状态和动作位置rv= maxt t' e1∈E1sim（e1，vt）e2∈E2sim（e2，vt'）（7）约束，并最大化状态和动作分类器的输出分数的乘积，（九）、因果排序约束。因果关系的排序其中，1、2是分别表示初始和结束状态的示例图像的集合，并且sim（e，vt）是示例图像e与视频v的第t个时间位置处的视频特征之间的相似性，其被计算为co。由预先训练的视觉模型提取的特征的正弦相似性。我们使用此相关性分数来衡量损失函数中每个视频的贡献，使用以下公式在Eq中使用的应变（9）是由许多对象修改动作不能在物理上被逆转的事实激发的，例如，切苹果。而且，许多对象修改动作通常只以一种方式执行，即使另一个方向在物理上是可能的，例如。干净的鞋子。Thuswe restrict the set of permissible locations of actions andstatesDv遵循初始对象状态→manipulat的顺序，重量：ω（v）=σ. rv− θ（八）ing action→ end object state。形式上，我们定义了集合满足此约束的标签的Dv，τ其中σ是S形函数，τ是温度超参数，θ是中心超参数。相关权重ω（v）在0和1之间变化。对于不具有与满足因果排序约束的对象状态范例图像e类似的任何帧的视频，权重接近于0。另一方面，对于具有与示例图像e具有高相似性的帧并且满足因果排序约束的视频，权重接近于1。因此，该权重在学习过程中有效地抑制不相关的视频。请注意，我们不使用示例动作图像，因为我们发现它们的大规模收集是有问题的。我们为每个对象-动作类别独立地选择θ，因为相关性分数rv根据样本图像或视频内容而变化很大我们使用θ来最小化相关性分数的类内更多细节见附录[1]。3.2. 带有因果排序约束的在本节中，我们解释了在给定当前的、可能次优的动作和状态分类器g和h的情况下，如何自动获得标识视频v中的最佳动作和对象状态位置的标签l（v）。更正式地说，我们假设我们被给予固定的分类器g用于改变外观的动作，h用于被操纵对象的状态。我们还得到了一个视频v，其中包含了施加在物体上的高概率动作。然后，为了计算动作la（v）、初始状态ls1（v）和结束状态ls2（v）的最可能位置，我们采用当前动作g和对象状态分类器h的预测，如下所示：l（v）= arg maxh1（xls1）g（xla）h2（xls2）（9）l∈DvDv=l：l≤ls1

下载后可阅读完整内容，剩余1页未读，立即下载