动作分割细化器：基于分层视频表示的深度学习模型提升动作分割方法的性能

195 浏览量更新于2023-10-14 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16302基于分层视频表示的动作分割Hyemin Ahn1 and Dongheui Lee1，21德国航空航天中心（DLR）2慕尼黑工业大学{hyemin.ahn，dongheui.lee} @ dlr.de摘要在本文中，我们提出了分层动作分割细化器（HASR），它可以细化时间的动作分割结果从各种模型，通过理解，ING一个给定的视频在一个层次的方式的整体背景。当一个骨干模型的动作分割estimates如何给定的视频可以分割，我们的模型提取的帧级特征的基础上的片段级表示，并提取视频级表示的基础上的片段级表示基于这些分层表示，我们的模型可以参考整个视频的整体上下文，并预测应该如何校正脱离上下文的片段标签。我们的HASR可以插入到各种动作分割模型（MS-TCN，SSTDA，ASRF）中，并基于三个具有挑战性的数据集（GTEA，50Salads和Breakfast）提高最先进模型的性能例如，在50Sal-ads数据集中，分段编辑得分从67.9%提高到77.4%（MS-TCN），从75.8%提高到77.3%（SSTDA）。79.3%至81.0%（ASRF）。此外，我们的模型可以从看不见的骨干模型中改进分割结果，这在训练HASR时没有提到。这种泛化性能将使HASR成为提升现有时间动作分割方法的有效工具。我们的代码可从https：//github.com/cotton-ahn/HASR_iccv2021网站。1. 介绍使智能代理从视频中了解人类的行为是至关重要的各种应用，如交互式机器人，监控和活动分析。考虑到这一点，研究的一条主线将是视频动作识别[14，1，7]，其预测适当修剪的视频的动作另一方面，存在用于理解具有细粒度类别标签的未修剪视频的研究[19，27，21]，使得代理可以从长期视频中本地化或分割人类动作。在本文中，我们专注于一个任务的时间动作分割，这是划分成段的视频帧，以及预测段的动作类标签。图1.所提出的分层动作分割细化器（HASR）如何工作的说明。HASR在以分层方式理解整个视频的整体上下文之后，从骨干模型细化动作分割结果当HASR被应用于改进MS-TCN [5]的性能时，给出制作热狗的视频作为输入，获得该示例它显示与热狗无关的“搅拌”标签时间动作分割的研究已经得到改进，成功地分割了数千个以15 fps记录的视频帧[5，3，10]。然而，我们发现，现有的国家的最先进的模型，有时生成的分割结果，包括动作标签的整体背景。例如，如图1所示，当输入视频是关于制作热狗时，出现“搅拌”的标签我们声称，这种现象的发生，因为现有的方法集中在帧级的功能信息，但不是在视频的整体背景。在本文中，我们提出了一个分层的动作分割细化器（HASR），它可以提取分层的视频表示，以了解整体的背景下，并利用它们来细化的结果，从动作分割骨干模型。这里，动作分割主干模型指的是用于时间动作分割任务的任何现有方法，诸如MS-TCN [5]、SSTDA [3]和ASRF [10]。图1显示了如何16303HASR有效。基于来自骨干模型的动作分割结果，HASR基于给定的帧级特征提取片段级表示，并且基于片段级表示提取视频级表示。有了这些分层视频表示，我们的模型预测了应该如何纠正脱离上下文的片段标签。通过参考来自预训练的骨干模型的分割结果以及地面实况片段信息，以监督的方式训练HASR。有趣的是，在HASR被训练以学习如何细化来自主干模型A、B和C的分割结果之后，它对于细化来自另一个看不见的主干模型D的结果也是有效的。我们从实验中验证了这种生成性能，并表明我们的模型可以广泛用于改善看不见的骨干模型的分割结果我们的贡献可概括如下：• 我们提出了分层动作分割细化器（HASR），它可以细化的动作分割结果从骨干模型，通过理解整个视频的整体背景下，在一个分层的方式。HASR可以被插入到各种骨干模型中，并且还可以使用HASR来细化来自看不见的骨干模型的分割结果。• 我们的方法可以提高现有的国家的最先进的动作分割模型的性能。例如，基于50 Salads数据集[22]，我们的模型将MS-TCN [5]的分段编辑评分从67.9%提高到77.4%，SSTDA [3]从75.8%提高到77.3%，ASRF [10]从79.3%提高到81.0%。2. 相关作品在时间动作分割的研究中，主要目标是分割给定的视频帧，并标记每个段与相应的动作类。由于其应用的多样性，许多研究人员致力于开发动作分割的方法。例如，存在使用具有非最大值抑制的滑动窗口来检测动作片段的方法[20，11]、基于隐马尔可夫模型的方法[13，23]以及基于时间卷积网络（TCN）的方法[15，16，17，5]。在这些工作中，我们想强调一个多级时间卷积网络（MS-TCN）[5]，它是几个TCN的堆栈。这里，TCN由具有残余连接的几个扩张的1D卷积组成，并且这些多个扩张的卷积使得MS-TCN能够使其建模能力和时间感受野更大。基于此，MS-TCN可以进行与其他作品[15，17]相比具有更高帧/秒的动作分割，并取得了最先进的结果。此外，存在若干方法来改进动作分割模型（诸如MS-TCN）的性能[3，26，9，10]。Chen等人。 [3]提出在训练MS-TCN等模型时应用自监督域自适应技术，并且它利用未标记的视频来提高动作分割的性能。Wang等人 [26]提出了一个名为边界感知级联网络（BCN）的框架，Yifei等人[26]提出了一个名为边界感知级联网络（BCN）的框架。[9]提出了一种基于图的时态推理模块（GTRM）。这些[26，9]可以很容易地附加到各种动作分割模型，以提高性能。Ishikawa等人提出了一个动作分段细化框架（ASRF）[10]，该框架将帧级动作分段和动作边界回归的问题解耦。该框架由两个分支组成，一个用于生成帧级动作分段信息，另一个用于估计动作段的时间边界信息。它首先估计帧级段类标签，并根据估计的时间边界的片段细化的结果。基于此，[10]最近获得了最先进的性能，具有三个具有挑战性的数据集[6，22，12]，这些数据集也将用于我们的实验。然而，正如我们前面提到的，我们观察到现有的最先进的模型，如[5，3，10]有时会生成脱离上下文的片段类标签。例如，我们的目标是通过以分层方式理解给定视频输入的整体上下文来细化这些脱离上下文的分割结果。3. 分层动作细分细化器3.1. 整体结构概述图2显示了我们的分层动作分割细化器（HASR）的概述。它的目的是完善的帧级动作分割结果的骨干，通过将分层视频表示。基于主干模型和帧级特征的分割结果，我们的模型首先提取分层视频表示，这是段级和视频级表示。分段级表示对每个分段的帧级特征进行编码，并且视频级表示对所获得的分段级表示进行编码以表示由多个分段组成的视频然后，我们的模型细化段级标签的基础上的分层视频表示和段标签的嵌入向量。基于细化片段的时间边界信息，细化片段级标签被展开成帧级标签。注意，细化段的时间边界信息被保持为与未细化段相同，16304------FFFFF--F----F--∈DL∈图2.所提出的分层动作分割细化器（HASR）的概述我们的模型的目标是细化的分割结果从骨干模型预训练的动作分割。首先，我们的模型提取分层视频表示，这是段级和视频级表示。其次，它细化骨干请注意，我们的模型被设计为附加到各种动作分割骨干模型，如[5，3，10]。这使得我们的模型集中于校正来自主干模型的错误片段标签。这种设计是基于我们的观察，即许多失败情况是由于过度分割或错误分割。因此，我们选择提出一种改进模型，该模型信任从主干模型估计的片段的时间边界信息，并且主要集中在固定错误的片段标签上。时间动作分割任务的目标是估计视频帧的类别标签。令I =i（t）t=1…T表示由给定视频输入组成的T个图像帧。帧级特征X=x（t）t=1…基于用于从人类动作视频中提取特征的现有方法[2，25]，可以从I中提取T。令B表示针对时间动作分割预训练的骨干模型。 B的输出是来自每一帧的类别标签的集合，使得C =B（X），其中C=c（t）t= l…T.如果输入帧可以基于C被划分为N个分段，则N个分段的类别标签和时间信息可以被表示为N个分段。在从N个片段中提取FS之后，S和FS被提供给视频级表示编码器VE。然后，提取视频级表示FV。在第二阶段中，我们的模型细化的分割结果，从骨干预测段标签需要被纠正时，考虑到分层视频表示。令R表示我们的动作分段细化器，其将分段级标签S细化为S’。然后，分段可以细化为S’=R（S，FS，FV）=（c’n，tn，ln）n= l…N.注意，S’的时间边界信息保持与S相同。基于S’，帧级动作分割标签C’=c’（t）t= l…T可以简单地通过滚动S’中的信息来计算。3.2. 分段级表示编码器如第3.1节中所提及的，第n个片段fs（n）的片段级表示由相关编码器FSE产生，使得：段可以表示为S=（c n，t n，l n）n= l…N.这里，cn表示第n个片段的类标签，注意第n段的开始时间索引，并且fS（n）=FSE. cn，Xtn：tn+lnΣ（一）注意组成第n个片段的帧的数目。在主干模型B估计类标签C之后，我们的HASR基于两个处理阶段将C细化为C′在第一阶段，我们的模型试图理解输入视频的基础上的分割结果的骨干模型。首先，我们的模型提取一组分段级表示N.这里，fS（n）表示第n个片段的表示，其由片段级表示编码器FSE提取。这里，第n个片段的类别标签信息以及构成第n个片段的帧级特征被用作到FSE的输入。图3示出了所提出的段级表示如何被sentation encoder works. 首先，基于嵌入权重矩阵LRnc×dL，将类别标签信息cn转换为嵌入向量LcnR ，其中nc表示动作类别的数量，并且dL是片段标签嵌入向量的维数。自然16305∈Σt+lnnTexp（qk（i）/τ）FΣf（n）=w（t）v（t）。SFF {}FF×--{}F--FFF×× ×图3.段级表示编码器的可视化片段标签嵌入向量被用作查询以生成帧级特征的注意力权重。基于注意力权重，分段中的帧级特征被加权求和以生成分段级表示。cL的第n行将是Lcn，并且注意L也是可学习参数。基于片段标签嵌入向量Lcn，SE应用基于关键字-查询-值的注意力机制[24]以从帧级特征Xt：t+1提取fS（n）。图4.视频级表示编码器的结构。而不是观察整个段信息一次，它观察采样的子序列多次。整个序列IVE一次，我们的策略是观察从IVE采样的一组噪声序列。这将使我们的VE能够捕捉整个视频的整体上下文，即使错误解释的片段级上下文是错误的。生成查询向量Wq，其中Lcn，使得q=Wq Lcnnnn.键和值向量在一个实施例中，表示fs（n）被包括在输入IVE中。在对长度为L的B个序列进行采样后，每个元素的维数为D，是采样序列的集合通过将Xtn： tn+ln乘以Wk和Wv获得。令k（t）=Wkx（t）和v（t）=Wvx（t）表示从x（t）Xtn：tn+ln获得的键和值向量。然后，可以通过将q和k（t）之间的内积结果传递到温度softmax层来获得注意力权重w（t），使得w（t）=exp（qTk（t）/τ），其中τ de。i=tn可以重新整形为矩阵大小为B LD.为了从中提取有意义的视频级表示，VE将该矩阵传递到如图4所示的若干残差块和最大池化层中。的数量剩余块和最大池层的长度为log2L，从而使矩阵收缩为B×D的矩阵。记录温度参数。基于此，该片段-可以通过注意力权重和值之间的加权求和来获得级别表示，使得tn+l nt=tn3.3. 视频级表示编码器直观地，在3.2节中提取fS（n）的过程是基于骨干模型估计的类标签cn来解释第n然而，如果主干模型未能正确地估计cn，则fS（n）可能以错误的方式表示第n个片段。这可能会影响我们的视频级表示编码器VE，其得到FS=FS（n）n=1…N作为输入以对整个视频的表示进行编码。为了解决这个问题，我们提出了VE，其以基于样本的方式了解视频级信息。图4示出了所提出的视频级表示编码器如何输入IVE是片段信息的序列，其通过将片段级表示和片段标签嵌入向量（诸如I VE={[f S（n）;L cn]}n=1…N.而不是观察这里，残差块是一个或多个残差块的修改版本。[8]。之后，VE将得到的BD矩阵平均为维度D的向量，其将成为我们的视频级表示FV。3.4. 动作分段细化器动作分割细化器 R 的输入被构造为 [Lcn;fS（n）;FV]n=1…N.基于此，R可以指（1）来自骨干模型的片段标签信息，（2）对由每个片段组成的帧级特征求和的片段级表示，（3）对给定视频的全部上下文信息进行编码的视频级表示。我们的动作分割细化器R是具有门控递归单元（GRU）细胞的递归神经网络（RNN）[4]。基于给定的输入，它对分段级标签信息S′= c′n，t n，l nn=1…N. 这里，注意，S’的时间边界信息保持与未细化的段相同S. 基于S’，帧级动作分割类标签C’=c’（t）t= l…T可以通过推出S’的信息来计算。q，我们乘以一个权重矩阵16306--------图5.当视频数据集可以分成四个时，用于训练我们的模型的数据收集过程的示例。3.5. 训练过程为了以监督的方式训练我们的模型，我们需要一个由（X，S，S¯）组成的数据集，其中S={（cn，tn，ln）}n=1... N4. 实验4.1. 数据集和评估指标数据集在我们的实验中，使用了三个具有挑战性的数据集：佐治亚理工学院自我中心活动（GTEA）[6]，50Salads，[22]和早餐数据集[12]。GTEA数据集由来自4个人类受试者的7个不同活动的28个自我中心视频组成，使得数据集可以被分成四个部分。50Salads数据集由来自25个人类受试者的50个准备沙拉的视频组成，使得数据集可以被分成五个部分。数据集还包含深度和加速度计数据，但这里我们只使用RGB帧数据集。早餐数据集由来自52名人类受试者的1712个厨房中18种不同活动的视频该数据集可以分为四个部分，并且它是三个数据集中最大的一个为了保持一致性，这些数据集中的所有视频都设置为15 fps。对于我们模型的输入，我们使用从所有视频帧中提取并由[5]提供的I3D [2表示来自主干模型的预测分割信息，并且（c¯n，tn，ln）n=1... N表示我们的模型针对的地面实况分割信息。 S¯可以从S¯和C¯得到，其中C¯=c¯（1）。 . . c¯（T）表示帧级水平中的基础真值类标签信息。为了注释c´n，我们采样c=c¯（tn），. . . c¯（tn+ln）fromC¯，并选择c¯n作为一个最多存在于C中。为了提高我们模型的性能，我们观察到从S的各种示例中收集训练数据集是至关重要的。图5示出了当整个数据可以被划分为4个分割时，可以如何收集用于我们的模型的训练数据集的图示该图显示了在基于数据分割1、2和4训练模型时收集S的过程。从每个分裂中，S从预训练的主干模型中收集例如，当从数据分割1收集S时，使用基于数据分割2、3和4训练的一组骨干模型来从givenX生成S。在实验中，通过10-50个训练时期保存的骨干模型用于该数据收集。此外，我们的模型可以根据从各种类型的骨干模型收集的数据集进行训练例如，在基于从诸如SSTDA [3]和ASRF [10]的主干模型收集的数据集进行训练之后，我们的模型可以应用于细化来自诸如MS-TCN [5]的另一主干模型的分割结果。相关实验结果见第4.3.2节。为了训练我们的模型，我们使用了真实片段级标签和细化片段级标签之间的交叉熵损失函数。注意，我们的损失函数不是从推出的帧级标签计算的。基于损失函数，我们使用Adam优化器，学习率为0。0001，并且权重衰减率为0. 0001当评估动作分割结果时，我们使用来自HASR的推出的帧级分割标签。为了评估，使用帧级准确度（Acc）、分段编辑距离（Edit）和具有不同重叠阈值k%（F1@k）（k=10、25、50）的分段F1分数。ACC是最常见的度量，但请注意，它不能反映过度分割问题。因此，额外使用基于Levenshtein距离[18]的分段编辑距离，其较高的值意味着预测的分段需要改变较少才能变得像地面实况分段，以及分段F1分数以测量预测质量。骨干模型我们的HASR可以插入到各种现有的动作分割模型中，它还可以从一个看不见的骨干模型中细化分割结果为了验证这些点，我们选择了3种不同的最先进的骨架模型用于我们的实验，它们是MS-TCN [5]、SSTDA [3]、ASRF [10]。此外，我们还添加了一个单层的基于GRU的动作分割模型，它接收帧级的功能，并在帧级的动作类标签的结果。4.2. 定性结果图6示出了来自HASR的若干示例细化结果。图6（a）显示了HASR如何细化ASRF的分割结果[10]。给定的视频来自Breakfast数据集，它是关于人类制作橙汁的。结果表明，主干模型将“橘子”误解为“面包”，将“挤压”的动作误解为“切割”，这可能是由于输入视频的亮度较低。幸运的是，主干模型最终可以正确地估计16307(a)（b）第（1）款(c)（d）其他事项图6.来自具有各种骨干模型和数据集的HASR的定性结果最好的颜色。（a）从具有早餐数据集的ASRF进行细化（b）根据50Salads数据集的SSTDA进行改进（c）当主链预测中存在手动改变的假区段标记‘折叠’时，从来自GTEA数据集的MS-TCN进行细化(d)来自MS-TCN和早餐数据集的失败案例。整个分割结果是不一致的。细化结果表明，我们的模型成功地纠正了不匹配的整体上下文的片段动作标签。它预测，它是适当的削减和挤压橙子第一，鉴于视频结束与倒汁。图6（b）显示了HASR细化SSTDA [3]结果时的另一个结果给定的视频来自50Salads数据集，它显示了一个人在制作沙拉时的自我中心视频。在这个视频中，人类切西红柿/奶酪/生菜，并将它们移动到碗中。然而，主干模型估计人类切生菜一段时间，但突然改变为切番茄，并将番茄移动到碗中，而不将生菜移动到碗中。细化结果表明，我们的模型成功地纠正了这些错误的分割结果，这是没有意义的，当考虑到制作沙拉的过程。此外，我们手动改变的分割结果，从骨干以不正确的方式，并检查如何提出的HASR纠正它。图6（c）显示了MS-TCN [5]的结果以错误的方式调整并提供给HASR时的情况。这里，输入视频是关于用蜂蜜制作咖啡的，来自GTEA数据集。骨干模型对给定视频进行分割后，我们手动将'搅拌'的标签在制作蜂蜜咖啡的视频中观察到。细化结果表明，我们的模型成功地纠正了标签应该是然而，HASR的性能是如何准确地预测段的时间边界的骨干模型的影响。图6（d）示出了当来自主干的估计的时间边界与地面实况相差太多时如果主干模型用太不正确的时间边界信息分割视频，则在提取视频级表示时将影响HASR因此，我们未来的工作是修复这个现象，一个额外的模块，也可以纠正段的时间边界信息，估计从骨干模型。4.3. 定量结果4.3.1从最先进的模型中为了验证我们的HASR可以用于提高现有动作分割模型的性能，我们将我们的HASR插入到各种骨干中，例如MS-TCN [5]，SSTDA [3]，ASRF [10]和基于GRU的模型。对于单个主干模型，如第3.5节中所提到的那样收集用于HASR的训练数据集，并且训练该训练数据集以学习如何从预训练数据集细化分割结果。16308GTEA方法F1@{ 10，25，50} 编辑ACCGRU84.1 80.2 67.379.176.5GRU + HASR88.7 85.6 71.885.276.2增益4.6 5.4 4.56.1-0.3MS-TCN85.8 83.4 69.879.076.3MS-TCN（我方实施）88.6 86.4 72.583.978.3MS-TCN + HASR89.2 87.3 73.285.477.4增益0.6 0.9 0.71.5-0.9SSTDA [3]90.0 89.1 78.086.279.8SSTDA（我方实施）91.1 88.8 75.687.979.4SSTDA + HASR90.9 88.6 76.487.578.7增益-0.2-0.2 0.8-0.4-0.8ASRF [10]89.4 87.8 79.883.777.3ASRF（我方实施）87.9 86.1 75.281.977.1ASRF + HASR89.2 87.2 74.884.576.9增益1.3 1.1-0.42.6-0.2表1.基于GTEA数据集的优化结果训练骨干模型。然而，由于骨干的官方reposito-ries不分发预训练模型，我们自己训练的骨干模型的基础上正式分发的代码。表1、2和3示出了当将HASR应用于各种主链时的细化结果在这些表中，我们展示了当我们基于官方代码训练骨干模型时，它们的最佳性能。但作为参考，我们也展示了他们论文中的官方绩效记录[5，3，10]。在数据集中，注意到由28个视频组成的GTEA的复杂度最低，而由1712个视频组成的Breakfast的复杂度最高。结果表明，当主干模型的性能较低时，我们的HASR的性能增益较高。例如，它示出了当将HASR应用于基于GRU的模型或MS-TCN时的性能增益往往高于其他情况。另一方面，当骨干模型已经执行得足够好时，来自HASR的性能增益变得较低特别是在GTEA数据集上，将HASR应用于SSTDA时，其效果有所降低，这已经显示了高性能。4.3.2从看不见的骨干中为了显示我们的HASR的泛化性能，我们训练HASR以学习如何细化来自骨干模型A、B和C的分割结果，并使用训练的HASR来细化来自不可见的骨干模型D的分割结果。对于该实验，我们使用基于GRU的模型或MS-TCN作为用于测试的看不见的骨干模型，并且使用其他模型来训练我们的HASR（即，当基于GRU的模型是看不见的模型时，使用来自 MS-TCN 、SSTDA、ASRF的分割结果50沙拉方法F1@{ 10，25，50} 编辑ACCGRU62.4 60.055.680.5GRU + HASR78.1 76.0 67.772.280.9增益15.7 16.0 15.516.50.4MS-TCN76.3 74.0 64.567.980.7MS-TCN（我方实施）77.2 74.7 64.870.480.3MS-TCN + HASR83.4 81.8 71.977.481.7增益6.2 7.1 7.17.01.4SSTDA [3]83.0 81.5 73.875.883.2SSTDA（我方实施）80.6 78.7 70.874.982.5SSTDA + HASR83.5 82.1 74.177.382.7增益2.9 3.4 3.32.40.2ASRF [10]84.9 83.5 77.379.384.5ASRF（我方实施）85.1 83.3 77.779.983.7ASRF + HASR86.6 85.7 78.581.083.9增益1.5 2.4 0.91.20.2表2.基于50Salads数据集的优化结果早餐方法F1@{ 10，25，50} 编辑ACCGRU24.1 21.4 16.232.364.9GRU + HASR60.2 54.6 42.461.264.9增益36.1 33.2 26.228.90.0MS-TCN52.6 48.1 37.961.766.3MS-TCN（我方实施）63.5 58.3 45.966.267.7MS-TCN + HASR73.2 67.9 54.470.869.8增益9.7 9.6 8.64.62.0SSTDA75.0 69.1 55.273.770.2SSTDA（我方实施）70.9 64.7 50.370.267.8SSTDA + HASR73.1 67.1 52.670.067.6增益2.2 2.4 2.3-0.1-0.3ASRF74.3 68.9 56.172.467.6ASRF（我方实施）73.8 68.6 56.472.268.5ASRF + HASR74.7 69.5 57.071.969.4增益0.9 1.0 0.7-0.30.9表3.基于早餐数据集的优化结果表4显示了不可见骨架模型的细化结果。示出了性能增益与来自表1、2和3的性能增益是可比较的。该结果表明，所提出的HASR成功地学习了关于在考虑给定视频的整体上下文时如何校正上下文外片段标签的一般方法。基于此，我们想强调的是，我们的HASR有可能被广泛用作有效的工具，用于提高任何动作分割模型的性能。4.3.3分层表示如第3节所述，我们的HASR基于提取的视频分层表示细化了主干模型的分割结果，这些表示为16309FFFFFGTEA方法F1@{ 10，25，50}编辑ACCGRU84.1 80.2 67.379.176.5GRU+HASR87.4 83.9 69.283.476.8MS-TCN（我方实施）88.6 86.4 72.583.978.3MS-TCN+HASR90.0 88.1 74.885.677.550沙拉方法F1@{ 10，25，50}编辑ACCGRU62.4 60.055.680.5GRU+HASR74.1 71.8 63.366.680.7MS-TCN（我方实施）77.2 74.7 64.870.480.3MS-TCN+HASR83.5 82.0 72.177.282.1早餐方法F1@{ 10，25，50}编辑ACCGRU24.1 21.4 16.232.364.9GRU+HASR49.1 44.3 34.253.062.7MS-TCN（我方实施）63.5 58.3 45.966.267.7MS-TCN+HASR73.2 68.1 54.071.069.0表4.针对不可见主干的细化结果，其是基于MS-TCN和GRU的动作分割模型。分段级和视频级表示。为了理解每个表示的效果，我们进行了一项消融研究，该研究忽略了来自动作分割细化器R的输入的片段级或视频级表示。表5显示了基于50Salads数据集的消融研究结果。这里，MS-TCN被用作骨干模型。它表明，当使用我们在第3节中提出的两种表示时，可以获得最高的性能。这两种表示有助于增强我们的HASR的性能，我们发现，段级表示的效果往往高于视频级表示。4.3.4视频级表示编码器：基于样本的残差块与RNNs在第3.3节中，我们讨论了基于样本的残差块用于我们的视频级表示编码器VE，以即使在有噪声的输入信息的情况下也鲁棒地捕获给定视频的整体上下文为了检查我们的方法的有效性，我们将我们的基于样本的残差块与简单的基于GRU的RNN进行了比较。注意，RNN也可以用于VE，因为VE的输入是片段的信息序列表6示出了比较结果，其示出了所提出的基于样本的残差块比RNN执行得更好这里，骨干模型是MS-TCN。即使两者之间的性能差距可能被示出为不是那么显著，我们想要强调的是，我们提出的VE比使用vanilla RNN用于视频级表示编码器更好。50沙拉F1@{ 10，25，50}编辑ACC无段级忏悔79.7 77.5 66.072.378.7无视频级表示81.6 80.2 70.074.980.7拟定HASR83.4 81.8 71.977.481.7表5.当从HASR忽略片段级或视频级表示时，50Salads数据集的细化结果。这里，MS-TCN被用作骨干模型。GTEA方法F1@{ 10，25，50}编辑ACC基于RNN的FVE拟议FVE89.089.286.987.373.073.284.985.477.077.450沙拉方法F1@{ 10，25，50}编辑ACC基于RNN的FVE拟议FVE83.383.481.881.871.371.976.777.481.181.7早餐方法F1@{ 10，25，50}编辑ACC基于RNN的FVE拟议FVE72.873.267.667.954.054.470.770.869.269.8表6.当使用所提出的基于样本的残差块或香草RNN作为视频级表示编码器时，会产生细化结果。这里，MS-TCN被用作骨干模型。5. 结论在本文中，我们提出了分层动作分割细化器（HASR），它可以用来提高现有模型的时间动作分割的性能。整体框架包括一个动作分割骨干模型，和我们提出的精炼HASR。在动作分割主干模型预测如何分割给定视频帧之后，HASR首先基于由片段组成的帧级特征来提取每个片段的片段级表示。然后，HASR基于所提取的片段级表示来提取视频级基于这些分层视频表示，HASR能够通过理解给定视频的整体上下文来细化来自主干的动作分割结果。从定性实验中，我们表明，脱离上下文的片段标签定量结果表明，HASR可以改善现有的最先进的骨干模型的性能。此外，结果表明，HASR可以提高看不见的骨干模型的性能，这意味着我们的HASR可以是一个广泛的工具，用于提高各种模型的时间动作分割的性能鸣谢。这项工作得到了亥姆霍兹协会的部分支持。16310引用[1] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。一个[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。三、五[3] Min-Hung Chen，Baopu Li，Yingze Bao，Ghassan Al-Regib，and Zsolt Kira.联合自监督时域自适应的动作分割。在计算机视觉和模式识别会议论文集，第9454-9463页，2020年。一、二、三、五、六、七[4] Junyoung Chung，Caglar Gulcehre，Kyunghyun Cho，and Yoshua Bengio.门控递归神经网络对序列建模的经验评估在NIPS 2014深度学习研讨会，2014年12月，2014年。四个[5] Yazan Abu Farha和Jurgen Gall。MS-TCN：用于动作分割的多级时间卷积网络。在计算机视觉和模式识别会议论文集，第3575-3584页，2019年。一、二、三、五、六、七[6] Alireza Fathi，Xiaofeng Ren，and James M Rehg.学习在自我中心的活动中识别物体。在 Proceedings of theconference on computer vision and pattern recognition，第3281-3288页，2011年。二、五[7] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？在计算机视觉和模式识别会议论文集，第6546-6555页，2018年。一个[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings oftheconferenceoncomputervisionandpatternrecognition，第770-778页，2016中。四个[9] Yifei Huang，Yusuke Sugano，Yoichi Sato.通过基于图的时间推理改进动作分割。计算机视觉和模式识别会议论文集，第14024-14034页，2020年。二个[10] 石川祐一，葛西清人，青木义光，片冈喜六胜.通过检测动作边界来减轻过分割错误。在计算机视觉应用冬季会议论文集，第2322一、二、三、五、六、七[11] 什韦博尔卡拉曼洛伦佐赛德纳里和阿尔贝托·德尔·宾博基于Fisher编码的密集轨迹的快速显著性池化。在ECCV THUMOS Workshop，第1卷，第5页，2014中。二个[12] H. Kuehne，A. B. Arslan和T. Serre.行动语言：恢复目标导向的人类活动的语法和语义。在2014年计算机视觉和模式识别会议论文集中。二、五[13] Hilde Kuehne，Juergen Gall，and Thomas Serre.用于视频分割和识别的端到端生成框架在Proceedings of theWinter Conference on Applications of Computer Vision，第1-8页。IEEE，2016. 二个[14] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre.HMDB：一个用于人体运动识别的大型视频数据库第计算机视觉国际会议论文集。一个[15] Colin Lea、Michael D Flynn、Rene Vidal、Austin Reiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。在Proceedings of the conference on computer visionand pattern recognition，第156-165页，2017年。二个[16] Colin Lea，Rene Vidal，Austin Reiter，and Gregory DHager.时间卷积网络：动作分割的统一方法欧洲计算机视觉会议，第47-54页。施普林格，2016年。二个[17] 彭蕾和托多罗维奇。用于视频中动作分割的时间可变形在计算机视觉和模式识别会议论文集，第6742-6751页，2018年。二个[18] 弗拉基米尔一世·莱文施泰因。能够纠正删除、插入和反转的二进制代码。在苏联物理学第10卷第707-710页。苏联，1966年。五个[19] Marcus Rohrbach、Sikandar Amin、Mykhaylo Andriluka和Bernt Schiele。用于烹饪活动的细粒度活动检测的数据库计算机视觉和模式识别会议论文集，第1194IEEE，2012。一个[20] Marcus Rohrbach、Sikandar Amin、Mykhaylo Andriluka和Bernt Schiele。用于烹饪活动的细粒度活动检测的数据库计算机视觉和模式识别会议论文集，第1194- 1201页。IEEE，2012。二个[21] 邵典、赵岳、戴伯、林大华。Finegym：用于细粒度动作理解的分层视频数据集在计算机视觉和模式识别会议论文集，第2616-2625页一个[22] 塞巴斯蒂安·斯坦和斯蒂芬·J·麦肯纳。将嵌入式加速度计与计算机视觉结合用于识别食物制备活动。在2013年ACM关于普适和普适计算的国际联合会议的会议记录中，第729-738页二、五[23] 唐凯文，李飞飞，达芙妮·科勒。学习复杂事件检测的潜在时间结构。在 Proceedings of the conference oncomputer vision and pattern recognition中，第1250-1257页。IEEE，2012。二个[24] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的在神经信息处理系统进展，第30卷，2017。四个[25] Heng Wang和Cordelia Schmid.具有改进轨迹的动作识别。在 Proceedings of the International Conference onComputer Vision，第3551-3558页，2013年。三个[26] Zhenzhi Wang，Ziteng Gao，Limin Wang，Zhifeng Li，and Gangshan Wu.用于时间动作分割的边界感知级联网络。在欧洲计算机视觉会议上，第34-51页Springer，2020年。二个[27] Hang

下载后可阅读完整内容，剩余1页未读，立即下载