集合监督动作分割的时间Transformer

33 浏览量更新于2023-10-25 收藏 908KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SCT：用于集合监督动作分割的集合约束时间Transformer波恩大学Mohsen Fayyaz和Juergen德国波恩{fayyaz，gall}@ iai.uni-bonn.de摘要时间动作分割是一个越来越受关注的话题，然而，注释视频中的每一帧是繁琐和昂贵的。因此，弱监督方法旨在从仅弱标记的视频中学习时间动作分割。在这项工作中，我们假设对于每个训练视频，只给出视频中发生的动作列表，而不是它们发生的时间、频率和顺序为了解决这一任务，我们提出了一种可以在此类数据上进行端到端训练的方法。该方法将视频划分为更小的时间区域，并预测每个区域的动作标签及其长度。此外，网络还估计每帧的动作标签通过测量逐帧预测相对于时间区域和注释的动作标签的一致性，网络学习将视频划分为类一致的区域。我们在三个数据集上评估了我们的方法，该方法实现了最先进的结果。1. 介绍对于许多应用，需要分析大量的视频数据。这包括时间动作分割，其需要通过动作类来标记长视频中的每个帧在过去的几年中，已经提出了几个用于时间动作分割的强模型[17，22，10]。然而，这些模型是在完全监督的设置中训练的，即，每个训练视频需要由逐帧标签来完全注释。由于获得这样的注释是非常昂贵的，一些作品研究的方法来学习模型与较少的监督。弱注释训练数据的一个示例是仅提供转录本的视频[20，12，27，29，8，4，34，24]。虽然可以从脚本或字幕中获得视频的文字记录，但获得这些文字记录的成本仍然很高。因此，在[28]中，提出仅从一组交流中学习时间动作分割为几分钟的完整视频提供的视频标签在这种情况下，只知道哪些动作发生，但不知道何时、以何种顺序或多久发生一次。这使得任务比从成绩单或完全监督学习中学习更具挑战性。在工作[28]中，这个问题已经通过假设包含视频的每个动作标签至少一次的转录本来解决虽然该方法表明，即使对于长视频，也可以从这种弱注释中学习，但该方法并不能直接解决问题，而是将其转换为弱监督学习问题，其中每个视频都有多个假设的成绩单。然而，这是无效的，因为对齐可以从一组动作标签生成的所有转录本是不可行的，并且它使用所提供的注释而不直接用于学习。在这项工作中，我们提出了一种方法，该方法使用直接为每个训练视频提供的动作标签来计算损失函数。通过这种方式，我们可以以端到端的方式训练模型。主要思想是将视频划分为较小的时间区域，如图1所示对于每个区域，我们估计其长度和相应的动作标签。由于对于每个训练视频，动作集合是已知的，因此我们可以直接将集合损失应用于时间区域的预测动作标签，如果它预测视频中不存在的动作或者如果它错过动作，则会惩罚然而，问题是我们不能直接将损失应用于区域长度的预测。虽然如果区域的长度变得太大，则对预测长度进行归一化的正则化器可以改善结果，但正如我们在实验中所示，这是不够的。因此，我们引入第二个分支来进行逐帧预测，并测量逐帧预测相对于时间区域和注释动作标签的一致性使用我们的可微集合约束时间变换（SCT），这种损失会影响区域的长度，这大大提高了模型的准确性。501502在我们对三个数据集的实验评估中，我们表明所提出的方法达到了最先进的结果。此外，我们还全面评估了每个组件的影响。2. 相关工作近年来，动作识别领域的研究人员取得了近年来，基于裁剪视频片段的动作识别方法取得了令人瞩目的成就[3，6，5，7，38，11，35]。虽然目前的方法在大型数据集上实现了高精度，使用公开可用的未经修剪的视频动作分割数据集，如Breakfast [16]或Activi- tyNet [2]，几项工作解决了视频中的动作分割[17，22，39，10]。早期动作分割方法在时间模型[23，17]或滑动窗口处理[30，14]之上利用马尔可夫模型[26]模型上下文和长度信息。他们表明，长度和上下文信息显着提高动作分割.还有其他使用gram- mars的完全监督方法最近的方法尝试使用具有大感受野的时间卷积来捕获长范围时间依赖性[22，10]。现有的弱监督动作分割方法使用有序动作序列作为标注。早期的作品试图从电影剧本中获得有序的动作序列[21，9]。Bojanowski等人[1]引入了好莱坞扩展数据集。他们还提出了一种基于判别聚类的动作对齐方法。Huang等人[12]建议使用CTC损失的扩展版本。Kuehne等人[20]提出了一种基于HMM-GMM的系统，该系统在训练期间迭代地为视频生成伪地面实况。Richard等人[27]使用RNN进行短距离时间建模。这些方法中的大多数依赖于迭代伪地面实况生成方法，其不允许端到端训练。理查德等人[29]介绍了神经网络维特比（NNV）方法。它们使用全局长度模型进行动作，该模型在训练期间更新。Souri等人[34]介绍了一种在训练期间不使用任何解码的端到端方法。他们在时间卷积网络之上使用序列到序列模型的组合Li等人。[24]建立在NNV的基础上，NNV在具有排序约束的弱监督动作分割中实现了最先进的结果当在没有排序约束的情况下使用弱监督时，在训练期间只给出动作集。Richard等人[28]通过假设至少包含视频的每个动作标签的抄本来解决这个问题图1. 我们的模型估计K 个时间区域的动作概率A1 ： K=（a1，. . .，ak），ak∈RC，以及区域L1：K=（λ1，. . .，<$K），<$k∈R.在这个例子中，K=10。由于时间区域不与动作片段对齐，因此该模型估计时间长度以细化预测动作的对应时间区域一次，然后通过对齐假设的转录本来推断视频的逐帧标记。他们表明，即使对于长视频，也可以从这种弱注释中学习他们将问题转换为弱监督学习问题，其中每个视频都有多个假设的成绩单。然而，这是无效的，因为对齐可以从一组动作标签生成的所有转录本是不可行的，并且它使用所提供的注释而不直接用于学习。3. 弱监督动作分割动作分割需要在时间上分割给定视频的所有帧，即，预测视频的每帧中的动作。这项任务可以表述如下。给定D维特征的输入序列X1：（x1，. - 是的- 是的，x T），x t∈ RD，任务是推断逐帧动作标签序列Y<$1：T=（y<$1，. -是的-是的，y=T），其中存在C个类C={1，. -是的-是的，C}且y∈C.在完全监督学习的情况下，标签Y=1：T为每个训练序列提供本工作[28]一个弱监督的设置[29]。在此设置中，只有动作A={a1，. -是的-是的，aM}是given，其中am∈C且M≤C。与其他弱监督环境相比，这是一个困难得多的任务，因为不仅动作的长度对于训练序列是未知的，而且动作的顺序和每个动作的出现次数也是未知4. 该方法为了解决弱监督动作分割问题，我们提出了一个网络，该网络将时间序列划分为时间区域，并为每个区域估计动作和长度，如图1所示。这种表示介于逐帧表示（每个区域的长度仅为一帧）和动作之间5031：K图2.具有损失函数的拟议网络的概述网络得到一系列特征X1：T作为输入。的时间模型fe（X）将这些特征映射到具有较低时间分辨率的潜在空间Z下分支fr（Z）将时间序列分为颞区Z′并且为每个区域估计动作概率ak和长度Lk。由于时间分辨率已被减小后，上采样模块fu（A，L）使用所有区域的长度L1：K和动作概率A1：K来获得逐帧概率Y1：T的估计。当L1：K被长度正则化器RL正则化时，A1：K被训练以最小化LS、LR、LC和RI。由于除了正则化子RL之外，没有损失项为L提供监督，因此我们使用第二个分支fs（Z）来提供额外的监督信号。使用SCT，我们将时间表示Y1：T和S1：T变换为自监督损失LT的集合表示V1：M.片段表示，其中区域包含具有相同动作标签的所有相邻帧。图2展示了我们提出的网络，它由三个组件组成。第一个分量fe（X），在4.1节中描述，将输入视频特征X∈RT×D映射到时间嵌入Z∈RT′×D′，其中T′

下载后可阅读完整内容，剩余1页未读，立即下载