多视角教学视频的弱监督在线动作分割的新方法

4 浏览量更新于2023-10-26 收藏 16.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

137800多视角教学视频中的弱监督在线动作分割0Reza Ghoddoosian 1,2* , Isht Dwivedi 1 , Nakul Agarwal 1 , Chiho Choi 1 , and Behzad Dariush 101 本田研究所，美国 2德克萨斯大学阿灵顿分校VLM实验室0reza.ghoddoosian@mavs.uta.edu, { idwivedi,nagarwal,cchoi,bdariush } @honda-ri.com0摘要0本文解决了教学视频中弱监督在线动作分割的新问题。我们提出了一个框架，使用动态规划在线对流媒体视频进行分割，展示了其相对于贪婪滑动窗口方法的优势。我们通过引入在线-离线差异损失（OODL）来改进我们的框架，以鼓励分割结果具有更高的时间一致性。此外，在训练期间，我们仅利用多个视图之间的逐帧对应关系作为对弱标记教学视频进行训练的监督。具体而言，我们研究了三种不同的多视图推理技术，以在没有额外注释成本的情况下生成更准确的逐帧伪地面真值。我们在两个基准多视图数据集Breakfast和IKEAASM上展示了结果和消融研究。实验结果在烹饪和装配两个领域定性和定量地展示了所提方法的有效性。01. 引言0在未修剪的教学视频中理解动作在许多应用中都很重要，其中代理通过观察其他代理执行复杂任务来学习。这些视频的特点是由一系列低级原子动作（例如打蛋和搅拌蛋）组成的高级任务（例如制作鸡蛋）。这些动作之间的上下文依赖以及教学视频中的其他属性激发了新的研究，推动了该领域的发展。对这些视频的完全监督训练不仅需要每个动作的标签，还需要它们的时间分配（开始和结束时间）以及排序约束。然而，创建具有动作监督和在线处理的完全注释剪辑是一项挑战。据我们所知，我们的工作是第一个解决弱监督在线动作分割问题的。具体而言，我们提出了一个框架，使用动态规划（DP）在线对流媒体教学视频进行分割。我们展示了使用DP相对于贪婪滑动窗口方法的优势，这些方法经常在以前的在线动作理解工作中使用（图1）。我们还引入了在线-离线差异损失（OODL）。离线分割是指在观察整个视频之后进行推理的过程。离线分割是一种非因果过程，通常比从部分观察中进行推理的在线分割更准确。事实上，识别动作的准确性和低延迟之间存在权衡（第6.2.1节）。OODL损失使用离线分割结果作为参考，并惩罚其与视频中每个时间步的在线分割结果之间的差异。实际上，这鼓励视频中不同观察结束点推断的分割结果在时间上相对于彼此具有更高的一致性。此外，由于弱标记视频中缺乏帧级注释，同步视图之间的逐帧对应关系可以提供关于每个动作的时间位置的有用线索。我们的工作是首次在动作分割中使用不同视图之间的帧级对应关系进行监督。我们比较了三种利用多视图对应关系的方法，以在弱标记视频中生成更准确的帧级伪地面真值。这与以前的分割方法不同，以前的方法将不同视图独立处理，丢弃了重要的多视图信息。请注意，我们仅在训练时使用多视图对应关系，我们的方法在测试时独立地对每个视频进行分割，无需访问其他视图。此外，我们的框架不需要额外的注释成本，因为它是独立于标签和视图数量进行训练的。总之，我们的主要贡献如下：1）我们是第一个解决教学视频中弱监督在线动作分割问题的，并提供了一个基于DP的框架。2）我们引入了在线-离线差异损失（OODL）。OODL损失利用离线分割结果作为参考，通过最小化在线和离线推理结果之间的差异来训练在线模型。3）我们仅在训练期间使用逐帧多视图对应关系来生成弱标记视频中更准确的动作伪地面真值。我们的工作是将多视图视频理解应用于动作分割的首次尝试。4）我们在两个基准数据集Breakfast和IKEAASM上展示了结果和详细的消融研究。0* 该工作是Reza在美国本田研究所实习期间完成的0图1.上：在线分割，其中在时间t处通过f函数贪婪地识别感兴趣的帧，或通过基于当前和过去预测的DP-based在线推理进行识别。下：在观察整个序列后的离线分割。0对个体动作的时间边界上的任务和标签的手动分配是手工密集型的，因此耗时且昂贵。这限制了完全监督视频数据集可以创建的规模和实用性。此外，标记每个动作的开始和结束时间的主观性导致了模糊性和不一致性。在弱监督动作分割中，通过仅在训练期间使用每个视频的动作标签的有序序列，并放弃对每个动作的主观标记的方式来解决这些限制。动作理解中的另一个重要考虑因素与在线与离线处理视频的要求有关，这在现有的弱监督分割方法中没有得到解决。低延迟的在线处理越来越成为交互式应用程序中实时或准实时反馈的重要组成部分。例如，人机交互、制造装配中的错误纠正和虚拟康复需要智能系统在视频流到达时立即提供反馈。本文介绍的工作考虑了动作分割中的两个前述方面：弱监督和在线处理。137810弱监督和在线处理旨在将视频在时间上分割为动作片段。据我们所知，我们的工作是第一个解决弱监督在线动作分割问题的。具体而言，我们提出了一个框架，使用动态规划（DP）在线对流媒体教学视频进行分割。我们展示了使用DP相对于贪婪滑动窗口方法的优势，这些方法经常在以前的在线动作理解工作中使用（图1）。我们还引入了在线-离线差异损失（OODL）。离线分割是指在观察整个视频之后进行推理的过程。离线分割是一种非因果过程，通常比从部分观察中进行推理的在线分割更准确。实际上，识别动作的准确性和低延迟之间存在权衡（第6.2.1节）。OODL损失使用离线分割结果作为参考，并惩罚其与视频中每个时间步的在线分割结果之间的差异。实际上，这鼓励视频中不同观察结束点推断的分割结果在时间上相对于彼此具有更高的一致性。此外，由于弱标记视频中缺乏帧级注释，同步视图之间的逐帧对应关系可以提供关于每个动作的时间位置的有用线索。我们的工作是首次在动作分割中使用不同视图之间的帧级对应关系进行监督。我们比较了三种利用多视图对应关系的方法，以在弱标记视频中生成更准确的帧级伪地面真值。这与以前的分割方法不同，以前的方法将不同视图独立处理，丢弃了重要的多视图信息。请注意，我们仅在训练时使用多视图对应关系，我们的方法在测试时独立地对每个视频进行分割，无需访问其他视图。此外，我们的框架不需要额外的注释成本，因为它是独立于标签和视图数量进行训练的。总之，我们的主要贡献如下：1）我们是第一个解决教学视频中弱监督在线动作分割问题的，并提供了一个基于DP的框架。2）我们引入了在线-离线差异损失（OODL）。OODL损失利用离线分割结果作为参考，通过最小化在线和离线推理结果之间的差异来训练在线模型。3）我们仅在训练期间使用逐帧多视图对应关系来生成弱标记视频中更准确的动作伪地面真值。我们的工作是将多视图视频理解应用于动作分割的首次尝试。4）我们在两个基准数据集Breakfast和IKEAASM上展示了结果和详细的消融研究。0基准多视角数据集的相关工作。在烹饪和装配领域，我们展示了我们的贡献如何在这两个数据集上始终改进各种建议的基线。02. 相关工作0弱监督动作分割。在不同形式的监督下，包括全监督[12,17, 22, 41, 53]，无监督[26, 40,42]和时间戳监督[28]方法，对教学视频的动作分割进行了广泛的研究。与我们最相似的方法只使用动作标签序列作为训练中的弱监督。然而，所有以前的方法都考虑了离线视频的分割，其中未来的帧用于对当前帧进行预测。具体而言，[9]首先对整个视频进行编码，然后对其进行帧级动作评分解码。[4, 6, 27, 38,47]的工作使用动态规划（DP）来推断最可能的动作及其持续时间，给定整个视频。我们的方法也使用了基于DP的框架，但据我们所知，我们是第一个引入弱监督方法以在线方式分割流媒体视频的方法。在线动作理解。在线动作理解已在各种问题中进行了研究，例如在线动作检测[10, 55,59]，动作开始检测[15, 44]或预测[1, 13, 14, 23,30]。在在线动作检测的背景下，[59]使用知识蒸馏将信息从离线模型传递到在线模型，[10, 36, 55,56]引入了新的神经网络，使用滑动窗口方法对流媒体视频中的当前动作进行分类。其他人仅专注于立即检测正在进行的动作的开始[15,44]或短暂延迟[58]。然而，过去的方法没有考虑教学视频，更重要的是，需要帧级标签进行训练。与我们的工作最相似的是WOAD[16]作为唯一的弱监督在线动作检测框架。WOAD[16]与我们的框架在两个主要方面不同：首先，作为一个检测模型，它被设计为在输入视频中识别和定位通常是单个动作的发生，而我们专注于具有许多唯一动作系列的教学视频。其次，在测试时，我们利用动态规划，并在我们的实验中显示它优于[16]中采用的贪婪方法。多视角动作理解。使用来自多个视角的视频源已经提高了不同问题的性能，例如动作识别[29, 35, 49, 50,52]，人物识别[11]，异常检测[8]和视频摘要[21, 31,32]。与我们的工作类似，[20, 35, 45,49]仅在训练时限制利用多个视角。特别是，[35,49]专注于对修剪视频的全监督学习。同时，[20]探索了在烹饪和装配领域的基准多视角数据集：早餐[24]和宜家[2]。我们定量和定性地展示了我们的贡献如何在这两个数据集上始终改进各种建议的基线。(aN1 , lN1 ) = argmaxaN1 ,lN1= argmaxaN1 ,lN1{p(xt|an(t))p(ln|an)p(aN1 )},(3)137820无监督视频到视频对齐，但利用部分帧级标签进行分类。此外，[43,45]研究了第三人称和第一人称视角之间的领域适应。然而，与我们不同，他们依赖于视角特定的标签进行训练。其他人[29, 52,54]使用多个数据模态作为视角。具体而言，[54]引入了一种半监督和视角不可知的修剪视频分类框架，其中多个模态被融合以生成视频伪标签。这些伪标签与选定数量的真实标签一起用于训练视频分类器。相比之下，据我们所知，我们是第一个在没有帧级监督的情况下在未修剪的视频中使用多视角进行时间分割的方法。03. 背景0本节描述了此后使用的定义和背景概念。为了更清晰，补充材料提供了使用的所有符号的表格。03.1. 问题定义0在训练过程中，我们模型的输入是长度为 T的视频，表示为帧级特征 x T1，以及一个称为转录的有序动作序列 τ = ( τ 1 , τ 2 , ..., τM )。M是给定视频中的动作数量，可以在不同的视频中变化。关于每个动作的开始和结束时间的信息是未知的。在测试时，给定数据集 A中的动作标签集合，目标是基于过去和当前的观察 x t1，仅基于过去和当前的观察 x t 1，确定帧 t 处的动作标签a t ∈ A，其中 0 < t < T +1。最终的结果将是一个由其动作 a n 和持续时间 l n在线识别的 N 个预测段的序列，其中 n 是第 n 个段。03.2. 离线推断0给定整个视频的输入特征 x T 1，用于模型动作序列 a N 1和它们对应的持续时间 l N 1的后验概率的常见分解形式[27, 38]如下：0p off ( a N 1 , l N 1 | x T 1 ) ≈ p ( x T 1 | a N 1 ) p ( l N0为了推断与视频转录 τ 相关的最可能的动作序列 a N 1和它们的持续时间 l N 1，我们使用0p off ( a N 1 , l N 1 | x T 1 ) ，(2)0T0N0其中 n ( t ) 是帧 t 处的段号。在训练过程中，a N 1 = τ 且 N =M，因为动作标签的序列已经在转录中给出。p ( x t | a ) 由GRU[7]和[38]中的贝叶斯规则建模。GRU可以选择用任何其他神经网络替代作为黑盒子。p ( l| a ) 是一个泊松分布，用于建模给定动作的持续时间，其参数化为动作 a的平均长度。最后，如果训练集转录中存在动作标签序列 a N 1，则 p ( a N 1 ) =1，否则为0。0可以选择用任何其他神经网络替代作为黑盒子。p ( l | a )是一个泊松分布，用于建模给定动作的持续时间，其参数化为动作 a的平均长度。最后，如果训练集转录中存在动作标签序列 aN 1，则 p ( a N 1 ) = 1，否则为0。03.3. 离线分割能量得分0我们重新审视离线分割中引入的能量得分 E的定义[27]。具体而言，基于推断的段(Eq. 3)，我们将 ( aN 1 , l N 1 ) 定义为唯一的有效路径 π +，将 ( ` a N 1 , l N1 ) 定义为无效路径 π − ∈ P −，其中 ` a n ∈ A� { a n }，P− 是给定推断持续时间 l N 1的所有无效路径的集合。因此，我们将有效动作 a n 在段 n处的段级能量得分定义为 e n ( a n , l n ) = η ( n )+ l n − 1t ∈ η ( n ) p ( a n | x t )，段级能量得分0无效行动 ` a n 的能量得分为 e n (` a n , l n ) = η ( n )+ l n− 1 t ∈ η ( n ) p (` a n | x t )。这里，η ( n )是一个将输入段号映射到该段的起始帧号的函数。注意，每个段的起始点紧接在前一个段的结束点之后，并且 p ( a | xt )是GRU的输出。此外，为了专门关注困难的无效行动，困难无效行动的段能量得分由 e − n (` a n , l n ) 定义如下：0e − n (` a n , l n ) = e n (` a n , l n )，如果 e n (` a n ,l n ) > e n ( a n , l n )，否则为1。0最后，有效路径的能量得分为 E π + =在有效路径上的能量得分，无效路径的能量得分为 E π − =在无效路径上的能量得分。计算这些能量得分使用DP在对数空间中进行，如[27]中所解释的。04. 弱监督在线分割0在本节中，我们介绍了我们用于因果行动推断的框架，并展示了在线推断和离线推断之间的关系是如何被利用来推导出弱监督在线行动分割的损失函数的。04.1. 在线推断0由于在线动作推断是一个因果过程，我们不能直接使用方程3来推断当前帧t'的动作标签。一种直接的因果解决方案是以滑动窗口方式使用GRU，并将argmax {p(at' |xt)}应用为具有最高概率的GRU输出[16]。然而，如图5所示，这种贪婪方法不考虑上一个时间步骤的上下文和预测，因此是次优的。为了充分考虑过去的动作及其持续时间，我们制定了边际因果（或在线）概率pon(at' |xt'1)的当前动作at' = an(t')在段落中的n′1Lf = Lb + LOODL.(8)Lb = −log(Eπ+) + log(�π−∈P−Eπ−).(9)137830n' = n(t')覆盖所有先前的动作an'−11 if n' >1，并且持续时间ln'1。推断得到的当前动作^at'的推导如下：0^at' = argmax at' ∈A0� pon(at' | xt'1) �，(4)0= argmax an'∈ A0� �0p on (an'1，ln'1 | xt'1)。(5)0为了提高计算效率，我们经验性地通过最大联合概率值近似了方程5：0^at' ≈ argmax an'∈ A0� max an'−11，ln'1 pon(an'1，ln'1| xt'1) �。 (6)0方程6涉及两个步骤。第一步是找到最可能的01直到时间t'。第二步涉及仅采用最后一个段落标签˜an' =pop(˜an'1)来推断当前帧t'的标签，其中pop()是一个输出列表最后一个元素的函数。为了执行第一步，最可能的在线推断01）被制定为argmax � p on (an'1，ln'1 | xt'1) �，其中p on(an'1，ln'1 | xt'1)对于n' > 1 *如下推导：0pon(an'1，ln'1 |xt'1) =0Γ(ln' | an')0t' �0t = 1 p(xt |an(t))0n = 1 p(ln | an) ∙ p(an'1)。(7)0p(an'1) = 1 ifan'1是训练集中任何转录的子序列，否则为0，而Γ(ln |a)是半泊松函数，用于建模当前动作an'的持续时间ln'，给定为0Γ(l | a) =0� 1 if l < λa λla exp(−λa)0l！否则，0其中λa是动作a的估计平均长度。在线推断中包含Γ()是必要的，因为它考虑了以下两种情况：首先，使用方程3的完整泊松分布来建模当前观察到的动作的持续时间会惩罚持续时间较短的当前动作，ln' <λan'。然而，由于我们对当前段的持续时间没有预见，对当前段长度的任何结论都是过早的。其次，Γ()仍然允许我们惩罚当前动作，如果其持续时间超出预期，因为这可以仅基于观察到的动作段得出。在测试时，当前时间t'从1变为任何给定时间T时，流式视频中的最终在线分割结果是帧级动作序列（ˆa1，..，ˆaT），其中每个ˆat' ← ˜an' =pop(˜an'1)通过使用维特比算法根据方程7推断得出。0* 对于n' = 1，泊松因子p(l | a)被排除。0（a）（b）0图2。给定视频转录τ =(τ1，τ2，τ3，τ4)，OODL损失鼓励在线分割结果（a）成为离线结果的子序列，如（b）所示。04.2. 在线-离线差异损失（OODL）0离线动作分割预期比在线分割更准确，因为段落是从视频的整个长度中推断出来的，包括转录以及对视频结尾的先验知识。因此，离线分割结果为训练在线分割模型提供了丰富的监督信息。理想情况下，从初始帧到视频中的任意点推断出的在线动作序列预期是离线推断结果的子序列，如图2所示。因此，这鼓励所有帧级动作序列 { ˜ a t 1 } T t =1在时间上保持一致，其中每个序列 ˜ a t 1 在时间 t上在线推断。我们在算法1中提出了在线-离线差异损失（OODL） L OODL，以最小化在线和离线分割分数之间的差异。具体而言，我们首先使用方程7推断出一组在线路径 { ˜ a t 1 } T t =1。然后，我们使用合页损失函数惩罚任何在线推断结果的能量得分 E on 高于由方程 3 推断出的离线路径 a t 1 � a T 1的能量得分 E off。OODL最终阻止了所有导致中间在线推断结果与视频结束时离线推断出的最可能动作序列之间差异的帧级预测。L OODL被添加到基线离线分割损失 L b [ 27 ]0(˜ a n ( t ) 1 , ˜ l n ( t ) 1 ) 被转换为每个时间步长 t 的 t帧级动作标签 ˜ a t 1。然后，我们使用合页损失函数惩罚任何在线推断结果的能量得分 E on 高于由方程 3 推断出的离线路径 a t 1 � a T 1的能量得分 E off。OODL最终阻止了所有导致中间在线推断结果与视频结束时离线推断出的最可能动作序列之间差异的帧级预测。LOODL 被添加到基线离线分割损失 L b [ 27 ]中，形成我们的最终损失函数 L f ：0最小化离线分割损失 L b实际上相当于最大化第3.3节中推导出的离线有效路径和困难无效路径之间的决策边界。4:Eon(t) =at˜at1p(at|xt)6: L007: for t ←1 to T do:8:Eoff(t) =�at∈at1p(at|xt)9:d = max�0, log( on(t))log( off(t))10:t−1 +̸(aN1 , lN1 ) = argmaxaN1 ,lN1˜Eθc =T137840我们迭代地利用由方程 3 和 7推断得到的离线和在线分割伪标签，以及方程 8中的损失，训练GRU直到收敛。0算法1 在线-离线差异损失（OODL）0输入: 视频特征 x T 1 ， T 帧和离线推断结果 ( a N 1 , lN 1 ) ， N 段0输出: OODL损失 L T02: ˜ a n ( t ) 1 , ˜ l n ( t ) 1 = argmax � p on ( a n ( t ) 1 ,03: ˜ a t 1 = (˜ a 1 , ..., ˜ a n ( t ) ) = 转换 (˜ a n ( t ) 1 , ˜ l n ( t )1 )05: a T 1 = ( a 1 , ..., a n ( T ) ) = 转换 ( a N 1 , l N1 )0t � 平均 d 在时间 t 上0返回 OODL损失L T05. 多视角监督0由于在训练时缺乏帧级动作标签，最大化可用训练数据的功能能力至关重要。我们通过利用多个未知视角之间的对应关系来推断更准确的帧伪标签。具体而言，考虑一个训练集 K个视频 { v i } K i =1 及其对应的视角邻接矩阵 V ∈ R K × K，其中 V 中的每个元素 v i,j 如果 v i 和 v j是同一录制的不同视角，则为1，否则为0。在训练过程中，我们将每个视频 v i 作为锚定视频，与一个辅助视频 v j配对，该辅助视频是从锚定视角的邻接集合 V i = { v k | Vi,k = 1 ∧ k � = i }中随机采样的。如图3所示，每个视频对作为输入传递给多视角推断模块，生成伪标签 † ，用于相对于锚定视频 i训练GRU。在本节中，我们讨论了训练过程中使用的三种不同的多视角推断技术：序列投票（SV）。给定任意两个给定视角的同步视频特征 i x T 1 和 j x T 1，我们将投票结果定义为在两个视角上具有最高序列概率乘积的动作序列 a N 1 ，其持续时间为 l N 1 ：0� p ( a N 1 , l N 1 | i x T 1 ) p ( a N 1 , lN 1 | j x T 1 ) � ， (10)0† 也称为离线有效路径或离线推断结果0在这种情况下，推断的序列必须在两个视角中具有高概率（投票），因为不一致的概率（投票）会降低任何分割的总体得分。概率推断（PI）。与单视角技术中在视频级别上合并多视角结果不同，这里我们将帧级别的分数融合起来推断出最大化后验概率 p ( a N 1 , l N 1 | i x T 1 , j x T 1 )的序列：0p ( a N 1 , l N 1 | i x T 1 , j x T 1 ) ≈ p ( i x T 1 | a N 1 ) p ( j x T1 | a N 1 ) p ( l N 1 | a N 1 ) p ( a N 1 ) ， (11)0上述方程的 argmax 可以通过在公式 3 中积分 p ( x t | a n (t ) ) = p ( i x t | a n ( t ) ) p ( j x t | a n ( t ) )来求解。加权概率推断（WPI）。公式 11中的概率推断模型假设每个视角的贡献相等。然而，更合适的表达方式是比较两个视角，并在更可靠的视角上提供更高的置信权重。因此，我们引入了锚定视角 i 在时间 t上的类不可知置信权重 i c t ∈ [0 , 1]，如下所示：0i c t , 1 − i c t =Softmax � Φ c � [Φ f ( i x t t − w ) Φ f ( j x t t −w )] � ， (12)0其中，Φ f ()：R w × F 1 → R F 2是一个函数，它将每个视角独立地嵌入过去 w 帧特征 x t t− w 的时间窗口，并且Φ c ()：R F 2 → R 2是比较函数，它接受连接的视角嵌入 [Φ f ( i x t t − w ) Φ f( j x t t − w )] 并输出锚定视角 i 相对于辅助视角 j的相对置信权重。F 1 和 F 2分别是每个帧特征和窗口嵌入的维度。定义了视角置信权重i c t 后，我们重写似然函数 p ( x t | a n ( t ) )如下，并使用公式 3。0以推断伪标签 ( a N 1 , l N 1 ) ：0p ( x t | a n ( t ) ) = p ( i x t | a n ( t ) ) i c t p ( j x t | a n ( t ) )(1 − i c t ) ， (13)0我们在最终的损失函数 L f 中加入了新的损失项 L vc，以学习视角置信权重 i c t ( θ c ) 的参数，其中 θ c 是公式12 中比较和嵌入函数的所有参数的集合。此外，θ a表示预测帧级别动作概率 p ( a t | x t ; θ a )所需的参数集合（例如，GRU）。给定推断的伪标签 ( a N1 , l N 1 ) ，我们将伪标签的加权能量分数定义为：0t =1 p ( a n ( t ) | i x t ) i c t ( θ c ) p ( a n ( t ) | jx t ) (1 − i c t ( θ c )) ， (14)0在这里，我们冻结 θ a 并允许 L vc ( θ c ) = − log ( ˜ E θc ) 相对于视角置信权重进行优化0i c t ( θ c ) ，使得正确路径 ( a N 1 , l N 1 )的加权能量分数 ˜ E θ c 最大化：Anchor Video, ViAuxiliary Video, VjViFrame-wise PredictionsViPseudo Ground-TruthPseudo Ground -TruthConcatenationMultiplicationGRUargmaxLoss functionSoftmaxPseudo Ground-Truth137850多视角训练0多视角推断伪真实标签0多视角推断的不同变体0单视角训练0离线推断0伪真实标签0测试0在线推断0V j0V i0SV0V j0V i0V j0V i0WPI0PI0图3. 左侧显示了单视角和多视角训练方案的概述。右侧详细描述了三种提出的多视角推断技术。请注意，在测试时始终使用单个视角对视频进行分割。0Lf(θc,θa)=Lb(θa)+LOODL(θa)+Lvc(θc)。(15)0请注意，嵌入和比较函数Φf()和Φc()仅在训练中使用。此外，Lb和LOODL仅使用锚定视频计算，其中将多视图推断伪标签作为其有效路径和离线推断结果。06. 实验0数据集。早餐数据集（BD）[24]包含大约1.7k个烹饪视频，从多个视角录制，长度从几秒钟到十多分钟不等。记录的角度和视角数量在不同的录像之间有所不同。该数据集由48个动作标签组成，演示了10种早餐菜肴，每个视频平均有6.9个动作片段。评估指标是在四个拆分上计算的。宜家ASM数据集（IAD）[2]有371个组装四种家具的录像。每个组装从三个一致的视角记录，提供1113个视频。该数据集中的视频包含大量的动作片段（每个较短视频的平均值约为23），平均持续时间为1.9分钟。将NA和其他类别合并为背景后，共有32个动作类别。我们报告了5个拆分的结果，其中每个拆分都属于[2]建议的五个录制环境之一。指标。与之前的工作[6,9,27]类似，我们使用四个指标来评估性能：1）acc是所有视频的帧级准确率的平均值。2）acc-bg是没有背景帧的帧级准确率。3）IoU定义为交集除以并集，对于像宜家这样的不平衡数据集特别有用。4）IoD表示检测到的时间间隔上的交集间隔，平均分布在所有视频上。该指标倾向于高估过分割的结果。与[9]一样，IoD和IoU都是在非背景段上计算的。0实现。我们使用TV-L1光流[57]在16帧的移动窗口上提取了IAD数据集的I3D特征[3]。特征的最终维度通过PCA降低到400。同时，对于BD数据集，我们像[25]一样获取了iDT特征[51]的Fisher向量[34]。我们将嵌入函数Φf()实现为时间卷积和最大池化，而将两个全连接层用作比较函数Φc()。此外，我们设置F2 = 64和ω =21。为了公平比较，我们在所有实验中使用相同的随机种子。模型在BD和IAD数据集上分别进行了约70k和6k次迭代的训练，遵循[27]的训练设置。06.1. 与基准方法的比较0基准。我们实现了贪婪基线，按照[16]的策略训练了一个递归网络，该网络使用离线分割方法生成的伪标签。在测试时，网络采用贪婪方法，以滑动窗口的方式识别动作。此外，DP on表示所提出的在线推断（公式7），DPoff表示离线分割基线（公式3）。定量结果。表1比较了在线分割中的贪婪和DPon方法。贪婪基线在BD数据集上表现不佳，主要是由于视频质量差，使得孤立的预测容易出错。然而，贪婪基线显示出明显较高的IoD值。总体而言，高IoD与低IoU一起表明过分割，这会高估结果。我们在线建模中的Γ函数的存在是重要的。其省略会导致BD和IAD数据集中所有指标下降约1%和3%。在BD和IAD数据集中，包含OODL损失和多视图训练的结果最好。这导致DPon基线在BD和IAD数据集中的IoU分别提高了2.6%和3.3%。总体而言，IAD数据集的改进是02004006008001000rial.137860表1.在线动作分割中我们的多视角监督分割模型与各种基线方法的比较。M表示多视角训练。�我们分别报告了BD和IAD数据集的WPI和PI多视角结果。0训练测试 Breakfast (%) IKEA ASM (%)0M L OO 推理 acc acc-bg IoU IoD acc acc-bg IoU IoD0× × Greedy [ 16 ] 20.4 15.9 7.4 58.1 55.6 56.2 30.9 53.5 × × DP onw/o Γ 34.3 31.4 21.4 45.1 52.8 54.6 30.0 39.3 × × DP on 35.1 32.322.4 46.9 55.3 57.8 33.3 44.1 � � DP � on 36.6 34.7 25.0 49.1 56.9 59.736.8 48.00� � DP � off 50.4 46.8 33.3 44.9 60.3 63.5 41.7 52.00由于帧准确性主要由动作“旋转腿”占据了近45%的帧数，因此更适合用IoU来表示，因为IoU更适合评估预测和真实分割之间的对齐质量。我们包括离线结果来展示在线和离线分割之间的性能差距。在IAD数据集中，DPoff和Greedy方法之间较小的差距突出了在具有大量动作片段的视频中弱监督学习的挑战。0定性结果。在训练中加入多视角监督使GRU对恶劣光照、遮挡和场景变化更加鲁棒，如图4所示。特别是，顶部图显示了IAD数据集中两人组装咖啡桌的结果。这是一个具有挑战性的案例，因为两个数据集中几乎所有任务都由一个人完成。因此，基线DP在BD数据集上错过了“旋转腿”的第三个实例，而我们使用LOO和多视角推理训练的最终分割模型正确检测到了它。底部图比较了不同分割方法在BD数据集中光线暗和遮挡的样本烹饪视频中的效果。注意在两种情况下Greedy基线的过分分割结果。更多示例见补充材料。0图4.IKEA（顶部）和Breakfast（底部）数据集上各种方法的分割结果。图例仅显示地面真实类别。0表2. OODL损失对BD和IAD数据集弱监督在线分割结果的影响。0Breakfast (%) IKEA ASM (%)0训练方法 acc acc-bg IoU IoD acc acc-bg IoU IoD0DP on 35.1 32.3 22.4 46.9 55.3 57.8 33.3 44.1 DP on + L OODL 35.532.5 23.4 48.0 55.3 57.9 34.3 45.50图5. 在BD数据集上视频过程中的五个观察终点的平均分割结果（acc-bg）。06.2. 分析和消融研究0本节中的所有实验均以所有拆分的平均值报告，除非另有说明。我们在补充材料中讨论了所提算法的运行时间和复杂性限制。06.2.1 在线-离线差异分析0OODL损失的影响。添加OODL损失在两个数据集上都导致了一致的改进，如表2所示。这种改进在IoU和IoD上表现得更加明显，因为IoU特别适合评估预测和真实分割之间的对齐质量。图5进一步展示了OODL损失在减少BD数据集中在线-离线分割差异方面的作用。它显示了多种分割方法在视频的五个不同观察终点的非背景帧准确性。通过比较DPon和DP on + LOODL，可以看到该损失主要改进了视频中的早期预测，这是最难识别动作的阶段。这主要是由于在任务的早期阶段缺乏过去上下文的原因。随着时间的推移，关于过去动作的更多信息变得可用。因此，这导致了对当前帧的更准确的在线预测。平均而言，在观察视频的前20%后，DPon的性能更类似于Greedy基线而不是离线模型。然而，DPon方法在60%点后开始更像离线模型。相比之下，由于其在捕捉长期过去上下文方面的限制，Greedy方法突出这种行为较少。137870图6. BD数据集第2次划分上的准确率与延迟的比较。0半在线分割的评估。在线分割在需要即时反馈的交互应用中比离线推理具有实际优势。然而，如图6所示，这会导致acc-bg和IoU分别降低10%和13%的折衷。在某些应用中，可以容忍一定程度的延迟。为了评估延迟和准确性之间的权衡，我们实现了我们框架的半在线变体，即在固定的时间延迟后进行预测。图6显示，准确性随着延迟的增加而提高，并趋于离线结果。重要的是，在BD数据集上，我们可以在10秒的延迟下达到离线性能的约90%。06.2.2 多视图监督0弱监督在线分割。我们在表3中评估了不同多视图推理技术的在线分割性能。无论采用何种方法，使用多视图对应关系生成伪地面真实性都可以提高所有指标和数据集上的性能。我们还提供了完全监督基线作为上限，其中伪地面真实性是100%准确的。0表3.不同伪地面真实性生成技术下在线分割结果的比较（全部使用LOODL）。0早餐（%）宜家ASM（%）0训练方法 acc acc-bg IoU IoD acc acc-bg IoU IoD0单视图 35.5 32.5 23.4 48.0 55.3 57.9 34.3 45.5 SV 36.4 34.7 24.8 48.655.7 58.3 34.6 45.9 PI 36.2 34.2 24.4 48.1 56.9 59.7 36.8 48.0 WPI36.6 34.7 25.0 49.1 56.4 59.0 35.9 47.20完全监督 41.6 41.2 30.4 52.9 63.5 67.36 44.5 56.90表4.带有和不带有多视图监督的离线分割结果（与表1中的相同多视图方法）。[27]是在我们的机器上运行作者代码得到的结果。0早餐（%）宜家ASM（%）0模型 acc acc-bg IoU IoD acc acc-bg IoU IoD0CDFL [27] 49.2 44.2 31.0 43.7 59.9 62.0 39.5 50.4 多视图CDFL 50.446.8 33.3 44.9 60.3 63.5 41.7 52.00图7.训练期间3种多视图推理技术生成的伪地面真实性。每个单视图推理结果（锚定/辅助）上方的红色条表示每帧的学习视图置信权重ct。每对帧对应于其颜色编码的虚线框所包围的时间。0在BD数据集中，与IAD数据集相比，不同的视图提供了更多互补的信息。这是因为BD数据集中存在许多具有挑战性的光照或遮挡条件的实例。图7通过显示训练期间生成的伪地面真实性来强调这一事实。具体来说，锚定视图中的面包遮挡了“切面包”和“涂抹黄油”两个动作。辅助视图的结果视图置信权重（红色条）在这些帧上变得很高。这使得模型能够在这些动作期间利用辅助视频中更可见的视图，而在主视图中，当主体“拿起物体”时，它被认为更可靠。请注意，视图置信权重如何决定选择单视图结果以形成多视图WPI结果。与此同时，IAD数据集的三个视图在光照方面保持相当相似，并且大多数视频中没有明显的遮挡。因此，在PI方法中平等地加权视图会导致IAD数据集中的最佳结果。弱监督离线分割。表40显示了多视图训练优势如何进一步推广到弱监督的“离线”分割。我们选择了开源的最先进的离线分割

下载后可阅读完整内容，剩余1页未读，立即下载