MS-TCN:多阶段时间卷积网络用于动作分割

34 浏览量更新于2023-10-19 收藏 13.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{abufarha,gall}@iai.uni-bonn.deInput: xPredict: YL1LN135750MS-TCN：用于动作分割的多阶段时间卷积网络0Yazan Abu Farha和JuergenGall，德国波恩大学0摘要0在长时间未修剪的视频中定位和分类动作片段对于许多应用非常重要，如监控和机器人技术。传统方法通常遵循两步流程，先生成逐帧概率，然后将其输入到高级时间模型中，而最近的方法则使用时间卷积直接对视频帧进行分类。在本文中，我们介绍了一种用于时间动作分割任务的多阶段架构。每个阶段都包含一组扩张的时间卷积，用于生成初始预测，并由下一个阶段进行改进。该架构使用分类损失和提出的平滑损失的组合进行训练，该平滑损失惩罚过度分割错误。广泛的评估显示了所提出模型在捕捉长程依赖关系和识别动作片段方面的有效性。我们的模型在三个具有挑战性的数据集上取得了最先进的结果：50Salads、Georgia TechEgocentric Activities（GTEA）和Breakfast数据集。01. 引言0分析视频中的活动对于许多应用非常重要，从视频索引到监控。虽然对于分类短修剪视频的方法非常成功[3,9]，但在长时间未修剪的视频中检测和时间定位动作片段仍然具有挑战性。早期的动作分割方法可以分为两类：滑动窗口方法[22, 11,19]，使用不同尺度的时间窗口来检测动作片段，以及混合方法，将粗糙的时间建模与基于帧的分类器相结合[13, 16,21]。虽然这些方法取得了良好的结果，但由于需要在非常长的序列上解决最大化问题，因此速度非常慢。受到语音合成的进展的启发，最近的0第1阶段0第N阶段0图1.多阶段时间卷积网络的概述。每个阶段生成一个初始预测，由下一个阶段进行改进。在每个阶段，对前一层的激活应用多个扩张的1D卷积。每个阶段后添加一个损失层。0现有的方法依赖于时间卷积来捕捉视频帧之间的长程依赖关系[15, 17,5]。在这些模型中，通过编码器-解码器架构，采用一系列的时间卷积和池化层进行时间动作分割。尽管这些时间模型取得了成功，但这些方法在每秒几帧的非常低的时间分辨率上操作。在本文中，我们提出了一种新的模型，也使用了时间卷积，我们称之为多阶段时间卷积网络（MS-TCN）。与以前的方法相比，所提出的模型在视频的完整时间分辨率上操作，从而取得更好的结果。我们的模型由多个阶段组成，每个阶段都会输出There is a huge line of research that addresses the actionsegmentation task in a weakly supervised setup [2, 10, 14,21, 5]. Kuehne et al. [14] train a model for action segmen-tation from video transcripts. In their approach, an HMMis learned for each action and a Gaussian mixture model(GMM) is used to model observations.However, sinceframe-wise classiﬁers do not capture enough context to de-tect action classes, Richard et al. [21] use a GRU insteadof the GMM that is used in [14], and they further divideeach action into multiple sub-actions to better detect com-plex actions. Both of these models are trained in an itera-tive procedure starting from a linear alignment based on thevideo transcript. Similarly, Ding and Xu [5] train a tem-poral convolutional feature pyramid network in an iterativemanner starting from a linear alignment. Instead of usinghard labels, they introduce a soft labeling mechanism at theboundaries, which results in a better convergence. In con-trast to these approaches, we address the temporal actionsegmentation task in a fully supervised setup and the weaklysupervised case is beyond the scope of this paper.35760提供了一个初始预测，由下一个阶段进行改进。在每个阶段中，我们应用一系列扩张的1D卷积，这使得模型能够具有较少的参数的大的时间感受野。图1显示了所提出的多阶段模型的概述。虽然这种架构已经表现良好，但我们在训练过程中进一步采用了平滑损失，该损失惩罚了预测中的过度分割错误。在三个数据集上进行的广泛评估显示了我们的模型在捕捉动作类别之间的长程依赖关系和产生高质量预测方面的有效性。因此，我们的贡献有两个方面：首先，我们提出了一种用于动作分割任务的多阶段时间卷积架构，该架构在完整的时间分辨率上操作。其次，我们引入了平滑损失来提高预测的质量。我们的方法在动作分割的三个具有挑战性的基准数据集上取得了最先进的结果：50Salads [25]、GeorgiaTech Egocentric Activities (GTEA) [8]和Breakfast数据集 [12]。02. 相关工作0许多研究人员研究了检测动作和对长时间未修剪的视频进行时间分割的方法。传统方法使用滑动窗口和非极大值抑制[22,11]，Fathi和Rehg[7]根据物体和材料状态的变化来建模动作。在[6]中，动作是基于手和物体之间的相互作用来表示的。这些表示被用来学习一组具有时间一致性的动作。Bhattacharya等人[1]使用视频的矢量时间序列表示来使用线性动力系统理论的方法来建模复杂动作的时间动态。该表示是基于在重叠的时间窗口上应用预训练概念检测器的输出。Cheng等人[4]将视频表示为视觉词的序列，并通过采用贝叶斯非参数离散序列模型来建模时间依赖性，以共同分类和分割视频序列。其他方法在逐帧分类器上进行高级时间建模。Kuehne等人[13]使用改进的稠密轨迹的Fisher向量来表示视频的帧，然后使用隐马尔可夫模型（HMM）对每个动作进行建模。这些HMM与上下文无关文法结合在一起进行识别，以确定最可能的动作序列。[26]中也使用了隐马尔可夫模型来建模状态之间的转换和持续时间。Vo和Bobick[28]使用贝叶斯网络来分割活动。他们使用带有AND-OR操作的随机上下文无关文法来表示动作的组合。[20]提出了一个用于时间动作检测的模型，包括三个组件：将从视频帧中提取的特征映射到动作概率的动作模型，描述序列级别上动作概率的语言模型，以及模型不同动作段的长度的长度模型。为了获得视频分割，他们使用动态规划找到最大化三个模型联合概率的解。Singh等人[23]使用双流网络来学习短视频块的表示。然后，将这些表示传递给双向LSTM来捕捉不同块之间的依赖关系。然而，由于顺序预测，他们的方法非常慢。在[24]中，引入了一种操作空间、时间和自我中心流的三流架构来学习自我中心特定的特征。然后，使用多类支持向量机对这些特征进行分类。01我们模型的源代码可以在https://github.com/yabufarha/ms-tcn上公开获取。0有很多研究致力于在弱监督设置下解决动作分割任务[2, 10,14, 21,5]。Kuehne等人[14]通过视频转录训练了一个动作分割模型。在他们的方法中，为每个动作学习了一个HMM，并使用高斯混合模型（GMM）来建模观测。然而，由于逐帧分类器无法捕捉足够的上下文来检测动作类别，Richard等人[21]使用GRU代替了[14]中使用的GMM，并将每个动作进一步划分为多个子动作以更好地检测复杂动作。这两个模型都是在基于视频转录的线性对齐的基础上进行迭代训练的。类似地，Ding和Xu[5]使用一个迭代的方式训练了一个时间卷积特征金字塔网络，从线性对齐开始。他们引入了一种在边界处使用软标签机制的方法，这导致了更好的收敛性。与这些方法不同，我们在完全监督的设置下解决了时间动作分割任务，弱监督情况超出了本文的范围。0受到语音合成中时间卷积的成功启发[27]，研究人员尝试使用类似的思想来进行时间动作分割任务。Lea等人[15]提出了一种用于动作分割和检测的时间卷积网络。他们的方法采用了编码器-解码器架构，编码器中使用了时间卷积和池化，解码器中使用了上采样和反卷积。虽然使用时间池化使得模型能够捕捉到长程依赖关系，但可能会导致细粒度信息的丢失，而这些信息对于细粒度识别是必要的。Lei和Todorovic[17]在[15]的基础上进行了改进，使用了可变形卷积代替了普通卷积，并在编码器-解码器模型中添加了一个残差流。[15,17]中的两种方法都是在降采样的视频上进行操作，每秒的时间分辨率为1-3帧。与这些方法相比，我们在完整的时间分辨率上进行操作，并使用扩张卷积来捕捉长程依赖关系。+357703. 时间动作分割0我们为时间动作分割任务引入了一个多阶段时间卷积网络。给定视频的帧 x 1:T = (x 1, . . . , xT)，我们的目标是推断每个帧的类别标签 c 1:T = (c 1, . . . ,cT)，其中T是视频的长度。首先，在第3.1节中我们描述了单阶段方法，然后在第3.2节中讨论了多阶段模型。最后，在第3.3节中我们描述了提出的损失函数。03.1. 单阶段TCN0我们的单阶段模型只包含时间卷积层。我们不使用降采样层，因为它们会降低时间分辨率，也不使用全连接层，因为它们会强制模型在固定大小的输入上操作，并且会大幅增加参数数量。我们将这个模型称为单阶段时间卷积网络（SS-TCN）。单阶段TCN的第一层是一个1 ×1卷积层，用于调整输入特征的维度以匹配网络中的特征图数量。然后，这一层之后是几层扩张的1D卷积。受到wavenet[27]架构的启发，我们使用的扩张因子在每一层都加倍，即1，2，4，....，512。所有这些层都具有相同数量的卷积滤波器。然而，与wavenet中使用的因果卷积不同，我们使用带有大小为3的非因果卷积。每一层对前一层的输出应用扩张卷积和ReLU激活。我们进一步使用残差连接来促进梯度的流动。每一层的操作可以形式化地描述如下：0ˆ H l = ReLU(W 1 � H l − 1 + b 1)，(1)0H l = H l − 1 + W 2 � ˆ H l + b 2，(2)0其中H l是第l层的输出，�表示卷积运算符，W 1 ∈ R 3 × D×D是具有大小为3的扩张卷积滤波器的权重，D是卷积滤波器的数量，W 2 ∈ R 1 × D × D是1 × 1卷积的权重，b 1，b2 ∈ RD是偏置向量。这些操作如图2所示。使用扩张卷积可以增加感受野，而无需通过增加层数或卷积核大小来增加参数数量。由于感受野随着层数的增加呈指数增长，我们可以通过少量的层实现非常大的感受野，这有助于防止模型过拟合训练数据。每个层的感受野可以使用以下公式确定：ReceptiveField(l) = 2l+1 − 1，(3)0其中l ∈ [1,L]是层的编号。注意，这个公式只适用于大小为3的卷积核。为了得到概率值0扩张卷积0ReLU01 x 10图2. 扩张残差层的概览。0对于输出类别，我们对最后一个扩张卷积层的输出应用一个1 × 1卷积，然后再进行softmax激活，即0Y t = Softmax(Wh L,t + b)，(4)0其中Y t包含时间t的类别概率，hL,t是时间t的最后一个扩张卷积层的输出，W ∈ R C ×D和b ∈ R C是1 ×1卷积层的权重和偏置，其中C是类别数，D是卷积滤波器的数量。03.2. 多阶段TCN0将多个预测器按顺序堆叠在一起，在许多任务中已经显示出显著的改进，例如人体姿势估计[29,18]。这些堆叠或多阶段架构的思想是将多个模型按顺序组合在一起，使得每个模型直接在前一个模型的输出上操作。这种组合的效果是对来自前几个阶段的预测进行逐步的改进。受到这些架构的成功启发，我们引入了一种多阶段时间卷积网络用于时间动作分割任务。在这个多阶段模型中，每个阶段都会接收来自上一个阶段的初始预测并对其进行改进。第一个阶段的输入是视频的逐帧特征，如下所示：0Y 0 = x 1: T , (5)0Y s = F ( Y s - 1 ) , (6)0其中Ys是第s个阶段的输出，F是第3.1节中讨论的单阶段TCN。使用这样的多阶段架构有助于提供更多的上下文来预测每个帧的类别标签。此外，由于每个阶段的输出是一个初始预测，网络能够捕捉动作类别之间的依赖关系，并学习合理的动作序列，从而减少过分割错误。˜∆t,c =35780请注意，下一阶段的输入只是帧级概率，没有任何额外的特征。我们将在实验中展示将特征添加到下一阶段的输入如何影响预测的质量。03.3. 损失函数0作为损失函数，我们使用分类损失和平滑损失的组合。对于分类损失，我们使用交叉熵损失。0L cls = 10T0�0t - log ( y t,c ) , (7)0其中yt,c是时间t处的地面真实标签的预测概率。虽然交叉熵损失已经表现良好，但我们发现一些视频的预测结果中存在一些过分割错误。为了进一步提高预测的质量，我们使用额外的平滑损失来减少这种过分割错误。对于这个损失，我们使用帧级对数概率的截断均方误差。0L T - MSE = 10TC0t,c ˜∆ 2 t,c , (8)0� ∆ t,c : ∆ t,c ≤ τ τ : otherwise ,(9)0∆ t,c = | log y t,c − log y t − 1 ,c | , (10)0其中T是视频长度，C是类别数，yt,c是时间t处类别c的概率。请注意，梯度仅针对yt,c计算，而不将y t −1,c视为模型参数的函数。这个损失类似于Kullback-Leibler（KL）散度损失，其中0L KL = 10T0t,c y t − 1 ,c ( log y t − 1 ,c − log y t,c ) .(11)0然而，我们发现截断均方误差（L T -MSE）（8）能够减少过分割错误。我们将在实验中比较KL损失和提出的损失。单个阶段的最终损失函数是上述损失的组合。0L s = L cls + λ L T - MSE , (12)0其中λ是一个模型超参数，用于确定不同损失的贡献。最后，为了训练完整的模型，我们最小化所有阶段的损失之和。0L = �0s L s . (13)03.4. 实现细节0我们使用一个多阶段的架构，每个阶段包含十个扩张卷积层，每层的扩张因子加倍，并在每层之后使用dropout。我们将模型的所有层中的滤波器数量设置为64，滤波器大小为3。对于损失函数，我们将τ设置为4，λ设置为0.15。在所有实验中，我们使用Adam优化器，学习率为0.0005。04. 实验0数据集。我们在三个具有挑战性的数据集上评估了提出的模型：50Salads [25]、Georgia Tech Egocentric Activities(GTEA)[8]和Breakfast数据集[12]。50Salads数据集包含50个视频，涵盖17个动作类别。每个视频平均包含20个动作实例，时长为6.4分钟。正如数据集的名称所示，这些视频展示了沙拉制作活动。这些活动由25名演员执行，每个演员制作了两种不同的沙拉。我们使用五折交叉验证进行评估，并报告平均结果，如[25]所述。GTEA数据集包含28个视频，对应7种不同的活动，如制作咖啡或奶酪三明治，由4名主体执行。所有视频都是由安装在演员头部的摄像机录制的。视频的帧被注释为包括背景在内的11个动作类别。每个视频平均有20个动作实例。我们使用留一主体法进行交叉验证评估。Breakfast数据集是这三个数据集中最大的，包含1712个视频。这些视频在18个不同的厨房中录制，展示了与早餐准备相关的活动。总共有48种不同的动作，每个视频平均包含6个动作实例。我们使用[12]中提出的标准4个划分进行评估，并报告平均结果。对于所有数据集，我们提取视频帧的I3D[3]特征，并将这些特征作为我们模型的输入。对于GTEA和Breakfast数据集，我们使用15fps的视频时间分辨率，而对于50Salads，我们将特征从30fps降采样到15fps，以与其他数据集保持一致。0评估指标。我们报告逐帧准确率（Acc），分段编辑距离和重叠阈值为10%，25%和50%时的分段F1分数，用F1@ {10 , 25 , 50}表示。重叠阈值是根据交并比（IoU）比率确定的。虽然逐帧准确率是行动分割中最常用的指标，但长时间动作类别对该指标的影响大于短时间动作类别，并且过分分割错误的影响很小。35790F1@ { 10,25,50 } 编辑准确率0SS-TCN 27.0 25.3 21.5 20.5 78.2 MS-TCN（2阶段）55.5 52.9 47.3 47.9 79.8 MS-TCN（3阶段） 71.5 68.661.1 64.0 78.6 MS-TCN（4阶段） 76.3 74.0 64.5 67.980.7 MS-TCN（5阶段） 76.4 73.4 63.6 69.2 79.50表1. 阶段数对50Salads数据集的影响。0图3. 50Salads数据集上比较不同阶段数的定性结果。0影响。因此，我们使用分段F1分数作为预测质量的度量，正如[15]所提出的。04.1. 阶段数的影响0我们通过展示使用多阶段架构的效果来开始我们的评估。表1显示了单阶段模型与具有不同阶段数的多阶段模型的结果。如表所示，所有这些模型都实现了可比较的逐帧准确率。然而，预测质量却有很大的不同。从这些模型的分段编辑距离和F1分数来看，我们可以看到单阶段模型产生了很多过分分割的错误，低F1分数表明了这一点。另一方面，使用多阶段架构可以减少这些错误并增加F1分数。当我们使用两个或三个阶段时，这种效果明显，对准确性有很大提升。添加第四个阶段仍然改善了结果，但不像前几个阶段那样显著。然而，通过添加第五个阶段，我们可以看到性能开始下降。这可能是由于增加参数数量导致的过拟合问题。多阶段架构的效果也可以从图3中的定性结果中看出。添加更多阶段会逐步改善预测结果。在接下来的实验中，我们使用了一个具有四个阶段的多阶段TCN。04.2. 多阶段TCN与更深的单阶段TCN的比较0在前一节中，我们已经看到我们的多阶段架构优于单阶段架构。然而，这种比较并没有显示出改进是由于多阶段架构还是由于增加更多阶段时参数数量的增加。为了公平比较，我们训练了一个与多阶段模型具有相同参数数量的单阶段模型。由于每个0F1@ { 10,25,50 } 编辑准确率0SS-TCN（48层） 49.0 46.4 40.2 40.7 78.0 MS-TCN 76.374.0 64.5 67.9 80.70表2. 在50Salads数据集上比较多阶段TCN与深度单阶段TCN。0F1@ { 10,25,50 } 编辑准确率0L cls 71.3 69.7 60.7 64.2 79.9 L cls + λ L KL 71.9 69.360.1 64.6 80.2 L cls + λ L T − MSE 76.3 74.0 64.567.9 80.70表3. 在50Salads数据集上比较不同损失函数。0图4. 50Salads数据集上比较不同损失函数的定性结果。0我们的MS-TCN中的每个阶段包含12个层（十个扩张卷积层，一个1×1卷积层和一个softmax层），我们训练了一个包含48个层的单阶段TCN，这是一个包含四个阶段的MS-TCN中的层数。对于扩张卷积，我们使用与MS-TCN中类似的扩张因子。即，我们从扩张因子为1开始，在每一层上将其加倍，直到达到512的因子，然后再从1开始。如表2所示，我们的多阶段架构在提高预测质量方面比其单阶段对应物有着很大的优势，达到了27%的巨大差距。这凸显了所提出的架构在提高预测质量方面的影响。04.3. 比较不同的损失函数0作为损失函数，我们使用交叉熵损失和基于逐帧对数概率的截断均方损失的组合，以确保平滑预测。虽然平滑损失相对于仅使用交叉熵损失略微提高了逐帧准确性，但我们发现该损失产生的过分分割错误要少得多。表3和图4对这些损失进行了比较。如表3所示，提出的损失在F1和编辑得分上都取得了更好的结果，绝对改进了5%。这表明我们的损失相比交叉熵产生了更少的过分分割错误，因为它强制连续帧具有相似的类别概率，从而产生更平滑的输出。惩罚对数概率的差异类似于Kullback-Leibler（KL）散度损失，它衡量两个概率分布之间的差异。然而，结果表明，与KL损失相比，提出的损失产生了更好的结果，如表3和图4所示。MS-TCN (λ = 0.05, τ = 4)74.171.762.466.680.0MS-TCN (λ = 0.15, τ = 4)76.374.064.567.980.7MS-TCN (λ = 0.25, τ = 4)74.772.463.768.178.9MS-TCN (λ = 0.15, τ = 3)74.272.162.267.179.4MS-TCN (λ = 0.15, τ = 4)76.374.064.567.980.7MS-TCN (λ = 0.15, τ = 5)66.663.754.760.074.035800图5. Kullback-Leibler（KL）散度损失（ L KL）和提出的截断均方损失（ L T − MSE）的损失曲面，针对两类情况。 y t,c 是类别c的预测概率， y t − 1,c 是对应的目标概率。0这是因为KL散度损失不会惩罚目标概率和预测概率之间差异非常小的情况。而提出的损失也会惩罚小的差异。请注意，与KL损失相比，提出的损失是对称的。图5显示了两类情况下KL损失和提出的截断均方损失的曲面。我们还尝试了KL损失的对称版本，但其表现不如提出的损失好。04.4. λ 和 τ 的影响0提出的平滑损失的影响由两个超参数控制：λ和τ。在本节中，我们研究这些参数的影响，并观察它们如何影响所提出模型的性能。λ的影响：在所有实验中，我们将λ设为0.15。为了分析该参数的影响，我们使用不同的λ值训练不同的模型。如表4所示，λ对性能的影响非常小。将λ减小到0.05仍然可以改善性能，但不如λ=0.15的默认值好。将其值增加到λ=0.25也会导致性能下降。这种性能下降是因为平滑损失严重惩罚逐帧标签的变化，这会影响到动作片段之间的检测边界。τ的影响：这个超参数定义了截断平滑损失的阈值。我们的默认值是τ=4。将该值减小到τ=3仍然比交叉熵基准有所改善，但将其设置为τ=5会导致性能大幅下降。这主要是因为当τ过高时，平滑损失会惩罚模型非常确信连续帧属于两个不同类别的情况，这实际上降低了模型在检测动作片段真实边界方面的能力。0λ的影响 F1@ { 10,25,50 } 编辑准确率0τ的影响 F1@ { 10,25,50 } 编辑准确率0表4. λ 和 τ 对50Salads数据集的影响。0F1@ { 10,25,50 } 编辑准确率0概率和特征 56.2 53.7 45.8 47.6 76.8 仅概率 76.3 74.0 64.5 67.980.70表5. 将特征传递给更高阶段对50Salads数据集的影响。0图6. 50Salads数据集中两个视频的定性结果，展示将特征传递给更高阶段的效果。04.5. 将特征传递给更高阶段的效果0在提出的多阶段TCN中，输入到更高阶段的是逐帧概率。然而，在用于人体姿态估计的多阶段架构中，通常将额外的特征串联到上一阶段的输出热图中。在这个实验中，我们分析了将额外特征与更高阶段的输入概率相结合的效果。为此，我们训练了两个多阶段TCN：一个只将预测的逐帧概率作为下一阶段的输入，另一个将每个阶段最后一个扩张卷积层的输出与下一阶段的输入概率串联起来。如表5所示，将特征与输入概率串联会导致F1分数和分段编辑距离的大幅下降（约20%）。我们认为导致性能下降的原因是许多动作类别具有相似的外观和运动。通过在每个阶段添加这些类别的特征，模型会产生小的分离的错误检测到的动作片段，对应于过分分割的效果。只传递概率强制模型关注邻近标签的上下文，这些上下文由概率明确表示。这个效果也可以在图6中展示的定性结果中看到。04.6. 时间分辨率的影响035810(a)0(b)0(c)0图7. 时间动作分割任务的定性结果，分别在（a）50Salads（b）GTEA和（c）Breakfast数据集上展示。0F1@ { 10,25,50 } 编辑准确率0MS-TCN（1 fps）77.8 74.9 64.0 70.7 78.6MS-TCN（15 fps）76.3 74.0 64.5 67.9 80.70表6. 时间分辨率对50Salads数据集的影响。0相反，我们的方法能够处理每秒15帧的更高分辨率。在这个实验中，我们在每秒1帧的低时间分辨率下评估我们的模型。如表6所示，所提出的模型能够处理低和高时间分辨率。降低时间分辨率会导致更好的编辑距离和分段F1分数，而使用高分辨率会获得更好的逐帧准确性。在低时间分辨率下操作使模型对过分分割问题不太敏感，这在更好的编辑和F1分数中得到体现。然而，这样做的代价是失去动作片段之间精确边界的位置，甚至可能错过小的动作片段。0F1@ { 10,25,50 } 编辑准确率0L = 6 53.2 48.3 39.0 46.2 63.7 L = 8 66.463.7 52.8 60.1 73.9 L = 10 76.3 74.0 64.567.9 80.7 L = 12 77.8 75.2 66.9 69.6 80.50表7. 每个阶段层数（L）对50Salads数据集的影响。04.7. 层数的影响0在我们的实验中，我们将每个阶段的层数（L）固定为10层。表7显示了这个参数对50Salads数据集的影响。将L从6增加到10显著提高了性能。这主要是由于感受野的增加。使用超过10层（L =12）不会提高逐帧准确性，但会稍微增加F1分数。为了研究大感受野对短视频的影响，我们在三组视频上评估了我们的模型。IDT+LM [20]44.438.927.845.848.7Bi-LSTM [23]62.658.347.055.655.7ED-TCN [15]68.063.952.659.864.7TDRN [17]72.968.557.266.068.1MS-TCN76.374.064.567.980.7Bi-LSTM [23]66.559.043.6-55.5ED-TCN [15]72.269.356.0-64.0TDRN [17]79.274.462.774.170.1MS-TCN85.883.469.879.076.3MS-TCN (FT)87.585.474.681.479.2ED-TCN [15]*----43.3HTK [14]----50.7TCFPN [5]----52.0HTK(64) [13]----56.3GRU [21]*----60.6MS-TCN (IDT)58.252.940.861.465.1MS-TCN (I3D)52.648.137.961.766.335820时长 F1@ { 10,25,50 } 编辑准确率0< 1 分钟 89.6 87.9 77.0 82.5 76.6 1 − 1 . 5分钟 85.9 84.3 71.9 80.7 76.4 ≥ 1 . 5 分钟 81.276.5 58.4 71.8 75.90表8. 根据视频时长在GTEA数据集上评估的三组视频。0基于视频时长的评估。对于这个评估，我们使用GTEA数据集，因为它的视频比其他数据集更短。如表8所示，我们的模型在短视频和长视频上表现良好。然而，由于有限的感受野，长视频上的性能稍微差一些。04.8. 特征微调的影响0在我们的实验中，我们使用了没有进行微调的I3D特征。表9显示了微调对GTEA数据集的影响。我们的多阶段架构明显优于单阶段架构-无论是否进行微调。微调改善了结果，但是对于动作分割而言，微调的影响要比动作识别小。这是预期的，因为对于分割而言，时间模型比识别模型更重要。0F1@ { 10,25,50 } 编辑准确率0无微调 SS-TCN 62.8 60.0 48.1 55.0 73.3 MS-TCN (4阶段) 85.8 83.469.8 79.0 76.30有微调 SS-TCN 69.5 64.9 55.8 61.1 75.3 MS-TCN (4阶段) 87.5 85.474.6 81.4 79.20表9. 对GTEA数据集进行微调的效果。04.9. 与最新技术的比较0在本节中，我们将所提出的模型与最新技术方法在三个数据集上进行比较：50Salads、Georgia Tech Egocentric Activities(GTEA)和Breakfast数据集。结果在表10中呈现。如表所示，我们的模型在这三个数据集上以及三个评估指标（F1分数、分段编辑距离和逐帧准确率）上均优于最新技术方法，并且差距较大（在50Salads数据集上，逐帧准确率高达12.6%）。图7展示了三个数据集上的定性结果。请注意，所有报告的结果都是使用I3D特征获得的。为了分析使用不同类型特征的影响，我们使用改进的密集轨迹（IDT）特征对Breakfast数据集上的模型进行了评估，这是Breakfast数据集上使用的标准特征。如表10所示，特征的影响非常小。虽然使用I3D特征时逐帧准确率和编辑距离稍微更好，但与I3D相比，使用IDT特征时模型的F1分数更高。这主要是因为I3D特征编码了运动和外观，而IDT特征仅编码了运动。对于像Breakfast这样的数据集，使用外观信息对性能没有帮助，因为外观并不能提供关于正在进行的动作的强有力的证据。这可以从图7中展示的定性结果中看出。视频帧具有非常相似的外观。因此，额外的外观特征在识别活动方面并没有帮助。由于我们的模型不使用任何循环层，因此在训练和测试过程中非常快速。在50Salads数据集上，训练我们的四阶段MS-TCN比在单个GTX 1080 TiGPU上训练具有64维隐藏状态的单个Bi-LSTM单元快四倍。这是因为LSTM的顺序预测，其中任何时间步的激活都依赖于先前步骤的激活。对于MS-TCN，所有时间步的激活都是并行计算的。050Salads F1@ { 10,25,50 } 编辑准确率0GTEA F1@ { 10,25,50 } 编辑准确率0Breakfast F1@ { 10,25,50 } 编辑准确率0表10. 与50Salads、GTEA和Breakfast数据集上的最新技术进行比较。(*来源于[5]).0在定性结果中可以看出，视频帧具有非常相似的外观。因此，额外的外观特征在识别活动方面并没有帮助。由于我们的模型不使用任何循环层，因此在训练和测试过程中非常快速。在50Salads数据集上，训练我们的四阶段MS-TCN比在单个GTX 1080 TiGPU上训练具有64维隐藏状态的单个Bi-LSTM单元快四倍。这是因为LSTM的顺序预测，其中任何时间步的激活都依赖于先前步骤的激活。对于MS-TCN，所有时间步的激活都是并行计算的。05. 结论0我们提出了一个用于时间动作分割任务的多阶段架构.我们使用扩张卷积而不是常用的时间汇聚来增加时间感受野.实验评估证明了我们的架构在捕捉动作类别之间的时间依赖性和减少过分割错误方面的能力.我们还引入了一个平滑损失，进一步提高了预测质量.我们的模型在三个具有挑战性的数据集上的性能优于现有方法很多.由于我们的模型是完全卷积的，所以在训练和测试过程中非常高效和快速.0致谢: 该工作由德国研究基金会(DFG, German ResearchFoundation) GA 1927/4-1 (FOR 2535 AnticipatingHuman Behavior)和ERC Starting Grant ARCA(677650)资助.35830参考文献0[1] Subhabrata Bhattacharya, Mahdi M Kalayeh, RahulSukthankar和Mubarak Shah. 复杂事件的识别:利用潜在概念之间的时间动态. 在IEEE计算机视觉和模式识别会议(CVPR) 上, 2014年,页码2243-2250. [2] Piotr Bojanowski, R´emi Lajugie, FrancisBach, Ivan Laptev, Jean Ponce, Cordelia Schmid和Josef Sivic.在有序约束下的视频弱监督动作标注.在欧洲计算机视觉会议(ECCV) 上, 2014年, 页码628-643.Springer. [3] Joao Carreira和Andrew Zisserman. Quo vadis,action recognition? 一个新模型和动力学数据集. 在IEEE计算机视觉和模式识别会议(CVPR) 上, 2017年,页码4724-4733. [4] Yu Cheng, Quanfu Fan, SharathPankanti和Alok Choudhary. 用于视频事件检测的时间序列建模.在 IEEE计算机视觉和模式识别会议(CVPR) 上, 2014年,页码2227-2234. [5] Li Ding和Chenliang Xu.迭代软边界分配的弱监督动作分割. 在IEEE计算机视觉和模式识别会议(CVPR) 上, 2018年,页码6508-6516. [6] Alireza Fathi, Ali Farhadi和James M Rehg.理解自我中心活动. 在 IEEE国际计算机视觉会议(ICCV) 上, 2011年,页码407-414. [7] Alireza Fathi和James M Rehg.通过状态变化建模动作. 在 IEEE计算机视觉和模式识别会议(CVPR)上, 2013年, 页码2579-2586. [8] Alireza Fathi, XiaofengRen和James M Rehg. 学习识别自我中心活动中的物体. 在IEEE计算机视觉和模式识别会议(CVPR) 上, 2011年,页码3281-3288. [9] Christoph Feichtenhofer, AxelPinz和Richard Wildes. 用于视频动作识别的时空残差网络.在神经信息处理系统(NIPS) 上, 2016年, 页码3468-3476. [10]De-An Huang, Li Fei-Fei和Juan Carlos Niebles.用于弱监督动作标注的连接主义时间建模.在欧洲计算机视觉会议(ECCV) 上, 2016年, 页码137-153.Springer. [11] Svebor Karaman, Lorenzo Seidenari和AlbertoDel Bimbo. 基于快速显著性的Fisher编码稠密轨迹池化.在欧洲计算机视觉会议(ECCV), THUMOS研讨会上, 2014年. [12]Hilde Kuehne, Ali Arslan和Thomas S

下载后可阅读完整内容，剩余1页未读，立即下载