时态结构挖掘：弱监督动作检测的新方法

76 浏览量更新于2023-10-12 收藏 881KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

43215522a0级背景的1一个2一个3基于时序结构挖掘的弱监督动作检测谭宇1人，周仁2人，李云成3人，严恩旭3人，徐宁4人，袁俊松5人，认知计算实验室，百度研究院2人，Wormpex AI研究院3Snap Inc. 4亚马逊5纽约州立大学布法罗分校vyutan@baidu.com，renzhou200622@gmail.comraingomm@gmail.com，eyan2@snap.com，www.example.com，ningxu01@gmail.comjsyuan@buffalo.edu摘要与依赖于昂贵的帧级注释的全监督动作检测问题不同现有的WSAD方法通过单独对每个视频片段（一堆大多数方法都不能有效地描述视频片段之间的时间关系，也不能有效地描述具有潜在时间结构的动作实例。为了缓解WSAD中的这个问题，我们提出了时态结构挖掘（TSM）方法。在TSM中，每个动作实例被建模为一个多阶段的过程，并且在一个动作实例中不断演化，即：的时间结构。在这个框架中，阶段过滤器被用来计算在每个段中的动作的阶段的存在的置信度分数由于在WSAD任务中，帧级注释不可用，因此无法直接训练相位滤波器。为了应对挑战，我们将每个段我们使用来自每个相位滤波器的段段的阶段在三个基准数据集上进行的实验表明，所提出的TSM具有良好的性能。1. 介绍由于深度神经网络学习的视频表示，社区在修剪视频剪辑的动作识别任务中取得了出色的表现[30，35，41，5，38，37]。然而，人们通常对视频的短间隔中发生的动作实例感兴趣。因此，直接将经过裁剪的视频训练的分类器应用于未经裁剪的视频通常会导致失败。为了缓解上述问题，研究社区转向动作检测任务[9，15，3，43，19，7]，该任务是在时间上定位动作实例，并意味着这项工作是在作者在Snap Inc.时完成的(a) SMS [46].(b) 拟议的TSM。图1.SMS [46]和拟议的TSM之间的比较在SMS中，阶段按照开始（1）-中间（2）-结束（3）的顺序发展，因此它只能对单个动作实例进行建模。相比之下，所提出的TSM另外引入背景相位，0。该阶段以循环顺序演化，这很简单，但有效地对包含多个动作实例的视频进行建模。同时识别它们的类别。最近，在完全监督的动作检测[36，10，12，43，19，7]中已经实现了实质性的成功，这依赖于精确的帧级动作标签。然而，在大规模应用中，标记帧级注释的成本太高。为了缓解对帧级注释的需求，最近提出了弱监督动作检测方法[40，21]。这些方法仅需要视频级标签，其指示某些动作实例的存在。与帧级标注相比，视频级标注更容易获得。UntrimmedNets [40]将视频划分为重叠的滑动窗口，并通过选择具有高显着分数的滑动窗口进行检测。最近，STPN [21]将视频分解为多个统一大小的短视频片段，并学习选择片段的子集然而，UntrimmedNets和STPN单独评分段，忽略了它们之间的关系，在行动的情况下。观察现有方法的局限性，我们有动机利用段之间的时间关系。时间关系在全监督动作检测中得到了广泛的应用。代表性的工作包括基于RNN的方法[16]，3D卷积方法[23]和时间金字塔池化[47]。然而，这些方法不适用于弱监督的的1一个2一个343215523S1SN的1一个2a0级s1sN...（B）f1f2f3f0i=1m=1m=1% s% 1分数表%s %Na1a2a3a0级通过动态编程有效地解决了路径发现问题。在训练阶段，发现的最大路径的得分构造分类损失，以学习相位滤波器和更新骨干网络。在测试阶段，检测到的动作实例是连续的片段特征G）相位过滤器实例1实例2非背景阶段中的片段序列。一个有趣的观察是，在逐阶段置信度分数表上的最大路径分布依赖于相位滤波器的输出，而滤波器的权重的优化依赖于由所发现的最大路径计算的分类损失。它们相互依存的关系图2.将未修剪的视频V分割成多个视频段{si}N.每个段si被馈送到骨干网络以获得其特征。每个动作分解为M个阶段{am}M（在这种情况下M = 3）。此外，设计了背景（BG）相位a0。M个动作相位滤波器{fm}M以及背景相位滤波器f0将片段的特征作为输入，获得每个阶段的每个段的置信度分数。在置信度得分表中，动作检测被转化为最大循环路径在训练阶段，所发现的最大路径的得分用于计算分类损失以学习阶段式滤波器并更新骨干网络。在测试阶段，动作实例是由背景相位分隔的连续片段序列。因为我们不知道动作实例何时开始和结束。另一方面，SMS [46]设计的开始-中间-结束结构也不能很好地工作，因为它只能对单个实例进行由于这种限制，SMS的每个训练样本仅包含由所提供的帧级标签修剪的单个动作实例，这在弱监督场景中不可用。如何在无监督的场景中利用时间结构仍然是一个尚未解决的问题。在这项工作中，我们将每个动作实例建模为多阶段过程，如SMS [46]和SSN [47]。但是我们引入了一个额外的背景阶段来模拟背景，它在未修剪的视频中分离多个动作实例。该方法简单但有效地解决了包含多个动作的视频中的动作检测问题。在图1中，我们将这个阶段的演变设想为以及SMS中的阶段演变[46]。在SMS中，相位以开始（a0）-中间（a1）-结束（a2）的顺序演进。因此，它只能对单个动作实例进行建模。相反，我们的视频以循环顺序发展，有效地对包含多个动作实例的视频进行建模。我们定义阶段的模式演变为时间结构。我们利用相位滤波器来描述每个段上每个相位存在的置信度。由于在弱监督设置中，我们不知道动作实例何时开始或结束，因此，相位滤波器不能直接训练为SSN [47]。为了应对这一挑战，我们将每个段的相位视为隐藏变量。在获得逐相置信度表后，通过最大循环确定分段的相位。导致我们采用交替更新策略。我们交替地发现最大路径的基础上，当前的相位滤波器和更新相位滤波器使用的梯度从发现的最大路径的分类损失。图2显示了所提出的时态结构挖掘（TSM）方法的体系结构。如图所示，未修剪的视频被分割成多个片段，并且片段阶段过滤器将段级特征作为输入以生成逐阶段置信度分数表。动作检测被公式化为在得分表中寻找最大循环路径，而最大路径的得分基于损失导出梯度以更新TSM。在三个公共数据集上的大量实验表明，我们的TSM consider-performance优于国家的最先进的方法。2. 相关工作弱监督动作检测。受弱监督学习在对象检测[1]中的成功启发，UntrimmedNets [40]将弱监督动作检测任务制定为多实例学习问题。它在裁剪的视频滑动窗口或提案上学习注意力权重。类似地，STPN [21]通过对学习到的注意力施加稀疏约束来选择关键最近，Auto-Loc [29]利用外-内-对比来获得更可靠的边界。然而，UntrimmedNet、STPN和Auto-Loc都是基于每段类激活的，并且忽略了视频段之间的时间结构与以往的方法不同，我们试图利用继承的动作，以提高动作检测性能的时间时间结构。上下文无关文法[26]将人类活动分解为多个子事件手动设计动作语法。行为序列模型（ASM）[11]将行为建模为行为序列。它为一组训练动作手动注释acactionary。然而，在CFG和ASM中使用的手动注释对于注释者来说是主观的，并且对于大型数据集可能花费大量的劳动力。同样，[18]中使用的属性和[32]中使用的概念也是手动定义的。Tang等人。 [34]将视频分割成一系列损失-3 0 3 4 6 2 1 0 1 1 0 0 -2-1 3 3 2 2 2 1 1 0-2 1 4 5 3 5 6 0 2 2 1 0 -1-2 2 1 2 4 4 3 1 1-1 0 0 1 1 2 2 5 5 4 4 2 -2-2 1 0 3 1 1 4 3 30 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 043215524c我c我c我c我Cj=1c我c我c我并设计了一个可变持续时间的隐马尔可夫模型（HMM）来模拟事件的过渡。但所设计的隐马尔可夫模型参数数量庞大，给训练带来了困难。 Wang等人[39]将动作分解为原子和阶段。聚类用于发现作用原子，连续原子合并成AND/OR结构相。然而，它不考虑视频包含不感兴趣的背景的情况它可能仅适用于修剪视频上的动作识别。结构化分段网络（SSN）[47]将动作实例分为三个阶段，并利用时间金字塔池来显式地利用时间结构。由于在全监督场景中，动作实例的开始和结束在训练数据集中是已知的，因此可以直接构建时间金字塔。但在3.2. 时态结构挖掘描述了时态结构建模的核心部分给定相位pi中的段si，其下一个相位pi+1段s i+1只有两个选择：（1）保持不变阶段为si，2）演进到下一阶段。从形式上讲，pi+1∈ {pi，（pi+1）%（M +1）}.（二）mod操作%意味着最后一个阶段aM演变为背景阶段a0，并且a0演变为第一个动作阶段a1。换句话说，动作阶段以循环的方式过渡这一不断发展的机制有效地处理包含多个动作实例的视频。给定一个未修剪的视频V，我们获得逐相con，弱监督的情况下，没有时间注释是亲，每个分段的置信度得分{v，jMj=1 通过Eq。(1)到因此我们不能进行SSN中使用的时间金字塔池化。结构最大和[46]还利用动作实例中的时间结构SMS设计了一个开始-中间-结束的结构，它只能建模单个动作实例。在训练阶段，由于单个实例的限制，SMS必须使用所提供的时间注释将整个视频手动裁剪成包含单个动作实例的剪辑。然而，在弱监督场景中，没有提供时间注释，使得SMS的训练不可行。同时，一些方法[2，6，25]将视频与成绩单对齐。它们依赖于手动定义的基本操作的时间顺序。相比之下，我们只依赖于视频级的类标签，并自动发现的动作阶段。3. 问题公式化3.1. 定义构建置信度得分表。给定路径Pc=[p1，p2，···，pN]，我们将路径得分F c（Pc）定义为ΣNFc（Pc）=ψ（pi 0）vpi.（三）i=1其中，f（pii= 0）是省略背景相位中的段的指示函数由于在计算路径得分时不使用背景得分，因此通过设置背景得分v 0 = 0，我们获得了等价但更简单的ΣNF c（Pc）= v pi.（四）i=1时态结构挖掘被公式化为发现由等式约束的路径。(2)最大路径得分：P_c= argmax F_c（P_c）。（五）给定视频V，我们将其均匀地分解为N个短视频片段[s1，...，sN]。对于每个动作类c，我们定义M个动作阶段{a，j}M，并对每个动作类c进行建模。Pc我们在图3中用绿框显示了一个最大循环路的例子。在训练阶段，最大循环路Fc（P）表示存在实例作为一个M阶段的过程。同时，采用相位a模拟背景.我们定义xi=g（si，W）作为从主干得到的段si的特征，其中W包含主干的参数. Vj被定义为si中存在类别c的相aj的置信度分数：vj=f（xi，wj，bj）=x<$wj+bj，（1）C视频中的动作c，其构造分类损失在测试阶段，通过对按背景相位划分的连续段进行分组来检测某类动作实例。如图3所示，它检测两个动作实例，它们被背景分隔开。到目前为止，有两个问题尚未解决：1）如何c我Ccc cc学习相位滤波器{f（·，wj，bj）}M由方程式(1)（2）如何其中，f（·，w，j，b，j）表示用于第j个动作相位滤波器，CCj=1∗cc发现方程中的最大循环路径Pc（5）有效地-C类我们用v j构建置信度得分表最近在第3.3节和第3.4节中，我们将分别讨论它们在图3中可视化，其中v j填充在位于第j行和第i列的单元格中。我们将（i，pi）定义为得分表中的单元格，其中列索引i是段索引，并且行索引pi是相位索引，其中pi∈[0，M]。我们定义[（1，p1），···，（N，pN）]为置信度得分表中的路径为了方便起见，我们省略列索引，并通过Pc=[p1，···，pN]来表示类c的路径。}432155253.3. 相位滤波器学习如果没有帧级动作注释，学习相位滤波器比其完全监督的计数器要困难得多[47，46]。我们观察到滤波器学习依赖于发现的最大路径，同时最大路径发现依赖于预先训练的相位滤波器。43215526CCCCCxWWk，cCk=1k=1C ca1a2a3a0（BG）实例1实例2阶段演进图3.置信度得分表的示例。绿色粗体s1时间进度sN细胞沿着最大循环路径。由于相位演化约束，最大路径发现并不等同于贪婪地为每个段选择具有最高分数的相位。例如，在表格的第二列中，我们选择相位a0，即背景相位（背景），即使相位a3在该列中具有最大的置信度得分。算法1交替更新图4.将时间结构挖掘转化为沿柱面从顶面到底面的最大循环路径发现绿色曲线是最大循环路径。将原始交叉熵损失中使用的sigmoid（·）替换为tanh（·）。下面我们解释一下原因。通过将所有片段设置在背景相位中，我们可以获得一个triv-输入：视频{Vk}K和Ground-truth标签{yk}K.路径Pc =[0，0，···，0]。由于F c（P c）= 0，最大路得分F（P ∈）∈ [0，+∞]。这意味着输出：相位滤波器{w，j，b，j}M，C，c，c骨干网权重W.1：对于c=1至C，2 ：对于 j=1 至 M ，do3：初始化 wj ，bj4：对于k=1至K，do第五章：Vk→[sk ，1，· · ·，sk，N]6：对于t=1至T，7：对于k=1至K，8：xk，i←g（sk，i，W）9：对于c=1到C，Ccj=1，c=1sigmoid（Fc（P））∈[1/2，1），因此标准交叉熵损失不再可行。因此，我们使用用tanh（·）代替sigmoid（·），因为tanh（F c（P））∈[0，1）.α是一个小的正值，以确保tanh（F c（Pα）+ α）> 0。基于上面定义的损失函数，梯度相对于相位滤波器和骨干的权重的损失的（七）（九）。我们交替发现最大路径和更新的权重在每次迭代，直到达到最大迭代。Al-出租m 1描述了培训程序。ΣN∂vj第10章：发现P基于算法2LcLci，ck，cj=F（P）（pi=j）11：基于Eq. （六）12：对于j=1至M，wcck，ci=1ΣNCvj（七）13：计算Cumullc C、基于等式（七）Lc=（p=j）i，c.wjC cjjLjLB.J.Fc（P）伊拉克b、c、i14：wc←wc−δc，bj<$b−δcck，ci=115：对于i=1到N，北京赛车pk10b/16：计算Cumullc 基于等式（八）k我Lc=LcΣMn（pi=j）vj伊角（八）17：计算Cumullc 使用等式（九）18：W←W−δ<$Lc阿克斯凯岛Fc（PΣN）j=1Σ阿克斯凯岛Σ⊤19：return {wj}M，C，W.Lc阿克斯凯岛Lccj=1，c=1西韦克 =i=1西韦克阿克斯凯岛、（9）它们的相互依赖性导致了这样一个事实，即训练过程不能以顺序的方式进行。为了解决这个问题，我们采用了两步交替更新的策略。在第一步中，基于当前的输出来发现最大路径P的一a0级一个3-1.3-2.00.30.40.60.20.10.10.0-0.1-0.50.30.20.20.1-0.3-2.1-3.10.40.50.30.50.60.20.1-0.2-0.70.10.20.60.2-0.2-3.10.8-0.30.10.10.20.20.50.2-0.2-0.3-0.30.30.10.4-0.30.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.043215527CC其中vec（·）将W展开为向量。尽管该算法支持骨干网权值更新，但由于计算资源的限制，我们在实现中对骨干网进行了固定，并将其作为特征提取模块。3.4. 最大路径发现相位滤波器{f（·，w，j，b，j）}M，使用最大路径Dis-1CCj =1如在SEC中所讨论的3.4（算法2）。在第二步骤中，检测到的最大路径Fc（Pc）的路径得分和视频Lc= −yclog（tanh（Fc（ P）+）简单地说，FC（Pc）可以通过穷举搜索满足定义的条件的所有可能路径poral约束然而，穷举搜索需要O（M2N）的复杂度，这使得它相对于N是不可扩展的.由于相变的时间约束，最大路径发现问题可以有效地解决。C-（1−y c）log（1−tanh（F c（P））.（六）算法复杂度为O（MN）。回想一下，段的相位满足时间注意，Lc不是标准的交叉熵损失。我们在Eq中定义的约束。（二）、如图4所示，让我们43215528CC我c我Cc，i−1一期+1CCαSj↓J将时间进程表示为向右步进操作，将相位表示为顺时针步进操作。受时间一致性的约束，当确定算法2最大路径发现输入：段特征[x1，···，xN]，动作类型c和相位滤波器{wj，bj}M的权重。Cc j=1在下一段的第一个阶段，它有两个选择：1）向右一步，2）向右走，同时顺时针走第一输出：最大路径P=[p1，· · ·，p N]。最大路径Fc（P∈）的路径得分。选择表示下一段的剩余阶段与当前段相同另一方面1：对于j=0到M，VJ←xwj+bj第二种选择是一个动作在下一个片段中演化到另一个阶段。循环相变设置使得c，1jc，11ccjc加入1该问题等价于找到沿着圆柱表面的最大循环路径。由于动态规划是基于回溯，我们重写方程。(2)原本为2：对于i=2到N，3：对于j=0至M，4：vj←xwj+bjc，i ic c将前向跟踪转换为后向跟踪版本，以便于动态编程的推导：jc，i−1Jc我j↓c，i−1jc，i−1然后jc，i，Pj←jpi−1 ∈{（pi+M）%（M +1），pi}。（十）7：其他8：Sjc，i←Sc，i−1+vc，i，Pi←j ↓我们定义Sj当所有可能路径的最大得分开始时-第九章： Fc（P）←maxj∈[0，M]jc，N从段s1开始，结束于段si，相位j对于C类。基于等式（10）、直接获得10：pN←argmax j∈[0，M]Jc，Njc，i=max{S}j↓c，i−1jc，i、（11）11：对于i=N−1至1，12：pi←Ppi+1十三：返回P和F c（P）。哪里C cj↓ =（j+M）%（M +1）。（十二）Fc（P）可以通过F（P）= max Sj.（十三）ΣMC=C=C（Jec，N）/α.（十七）Ccj∈[0，M]c，N在反向传播中，j=0描述了最大路径发现的过程在算法2中。因为它只需要N×M次迭代就可以得到联系我们αSjjPc 和Fc（Pc），时间复杂度仅为O（NM）.LcLcec，NSc，Nwj=NαSj′wj.（十八）3.5. 软最大路径发现Cc cj=0j′=1ec，Nc注意，上述最大路径发现过程仅选择具有最高分数的路径。在这种情况下，梯度仅沿最大路径通过细胞反向传播利用分数表中的更多信息，稳定训练。在本节中，我们提出了一种软最大路径发现算法。这个想法只是简单地重新放置方程。(11)它的柔软的对应物：从等式(18)，我们可以观察到它考虑了多条路径，并根据它们的重要性分配不同的权重。注意，软最大路径发现仅在训练中进行相比之下，在测试中，我们仍然进行最大路径发现来检测动作实例。算法3描述了软最大路径发现。3.6. 与现有方法的结构化分段网络（SSN）[47]也利用了Jc我 ←maxα（Sjj↓c，i−1Jc我，（14）动作检测中的时间结构他们S←v5：如果S>S6：S←S+vSSS，S}+vS，S）+vJ43215529c，i−1其中，maxα（·，·）是定义为：maxα（x，y）= log（eαx+eαy）/α，（15）其中α是控制柔软度的正常数。不难看出将每个行动建议分为开始、过程和结束，的阶段。它们通过时间金字塔池进一步获得实例的表示。因为他们处理在完全监督的情况下，正训练建议可用于执行结构化时间金字塔池化。然而，在弱监督的场景中，我们无法访问时态注释，使得时态Limα→+∞ maxα（x，y）= max（x，y）.（十六）金字塔池不再可行。结构最大和（SMS）[46]设计了一个开始-默认情况下，我们设置α = 10。在soft-max路径发现中，中间端结构用于建模单个动作实例。43215530Cc，i−1CRGB的 i=1C c10算法3软最大路径发现输入：片段的特征[x 1，· · ·，x N ]，动作类型所有数据集都由数据集提供的标准动作检测评估程序进行评估。c和相位滤波器{wj，bj}M的权重。Cc j=1输出：软路径Fc（P）的路径分数。1：对于j=0到M，4.2.骨干网与双流融合由于比较基准采用不同的特征，VJ ←xwj+bjc，1jc，11ccjc加入1与基线进行公平比较，我们采用两种类型的骨干网络来提取视频段的特征2：对于i=2到N，3：对于j=0至M，vj←xwj+bj条款。第一个主干是在Ki- netics数据集[17]上预训练的I3 D [5]，这也被我们的一个比较基线STPN [21]。第二个支柱是c，i ic cjc，i←maxα（Sjj↓c，i−1jc，i[41]第40话，也就是说，¯∗ΣMαSj我们比较的基线Auto-Loc [28]中使用的一个。甚至4：Fc（Pc）←log（5：retu rnFc（P）。j=0ec，N）/α尽管我们的算法支持如等式（1）中所导出的端到端训练(9)由于计算资源有限，我们只使用主干作为特征提取模块。在许多以前的方法中已经证明[21]，SMS还设计用于完全监督的动作检测。利用已知的地面实况动作实例的边界，它们将视频划分为包含单个动作实例的若干个正训练样本。然而，在弱监督场景中，未修剪的视频可能包含多个实例。在这种情况下，一个动作实例可能会在另一个动作实例完成后启动，通过融合诸如RGB和光流的多个信息，实现了比使用单个模态好得多的性能。因此，我们利用两个独立的网络，以RGB和光流作为输入，重新编码。对双流网络的检测结果进行进一步融合，得到最终的检测结果。具体来说，给定一个视频V和一个特定的类类型c，我们首先因此，为单个AC设计的开始-中间-结束结构，实例不能很好地工作。获得候选时间间隔Irgb={IiKrgbi=1i={i 基于单个RGB或光流的}K4. 实验在本节中，我们首先描述基准数据集，评估指标，骨干网络和实施细节。之后，我们进行消融研究，分析各个模块的贡献，然后比较所提出的TSM与国家的最先进的技术。4.1. 数据集和评估指标我们在三个流行的动作本地化基准数据集上评估了TSM ， THUMOS 14 [14] ， ActivityNet 1.2 [4] 和ActivityNet 1.3 [4]。两个数据集上的视频都是未修剪的，并且我们在训练阶段不使用时间边界在THUMOS14数据集上，我们使用20类验证子集训练我们的模型，该子集由200个未修剪的视频组成，而不使用节奏注释。根据[21]中的设置，我们使用具有时间注释的20类测试子集中的 212 个视频来评估我们的算法。ActivityNet 1.2包含4，819个培训视频和2，383个用于验证的视频，覆盖100个活动类。ActivityNet 1.3包含10，024个用于培训的视频，4，926个用于验证的视频，网络，分别。每个区间I∈ IrgbI是通过将来自RGB网络的分数与来自光流网络的分数相结合来获得的Frgb（I）+λFof（I）F c（I）=.（十九）1+λ我们在THUMOS 14数据集上设置λ=2，并设置λ =0。ActivityNet 1.2和ActivityNet 1.3数据集。由于存在重叠的区间，我们进行非最大抑制区间的基础上，他们的分数。4.3. 实现细节对于RGB流，我们将帧的最小尺寸重新调整为256，并执行大小为224×224的中心裁剪。对于流动流，我们应用TV-L1光流算法[42]。所获得的光流的像素值被截断到范围[-20，20]，然后在范围[-20，20]之间重新缩放。-1和1。我们以均匀的间隔对400个片段进行从每个视频。该网络使用传统的SGD优化器进行训练。学习率初始化为0。005和活动类。关于ActivityNet 1.2和ActivityNet 1.3衰减到1每10个时期。整个培训过程-数据集，我们使用训练分裂作为训练集和测试在验证集上。我们遵循标准评估协议，基于几个不同级别S←vS）+v，S}43215531的交集（IoU）阈值的平均精度值。cess在30个时期停止，并且性能相当好。相对于权重初始化稳定在测试时，对于每个类，我们根据检测到的候选位置的结构得分对其进行排序。432155322相3相mAP@IoU0的情况。30的情况。40的情况。50的情况。60的情况。70的情况。30的情况。40的情况。50的情况。60的情况。7RGB29岁5 二十二岁1十五岁17 .第一次会议。3二、7三十8二十二岁7十五岁57 .第一次会议。63 .第三章。4光流三十六129岁3 二十二岁9十三岁6六、9三十七1三十423岁4十三岁37 .第一次会议。0双流39岁331岁7二十四岁6十四岁1六、639岁531岁9二十四岁5十三岁87 .第一次会议。1表1.THUMOS 14数据集上的双流融合2相3相mAP@IoU0的情况。50的情况。60的情况。70的情况。80的情况。90的情况。50的情况。60的情况。70的情况。80的情况。9RGB28岁0二十四岁019号。4十四岁78. 428岁1 23岁819号。5十四岁78. 2光学流程二十二岁519号。6十六岁512个。97 .第一次会议。023岁1 20块3十七岁4十三岁27 .第一次会议。7双流29岁7二十五620块8十五岁89 .第九条。0三十3二十五721岁4十六岁19 .第九条。0表2.ActivityNet 1.3数据集上的双流融合监督历元mAP@IoU0的情况。3050的情况。7硬45三十八岁。七点二十四。0六、2软3039岁三点二十四6六、6表4.在THUMOS 14数据集上比较软最大路径发现（Soft）和最大路径发现（Hard）。M0的情况。30的情况。4mAP@IoU0的情况。5060的情况。7Avg1三十七129岁7二十二岁712个。6六、121岁643215533表3. M对THUMOS 14数据集的影响4.4. 消融研究相位数的影响。我们评估了相位数M对THUMOS 14数据集的影响。我们使用I3D功能。我们在[1，5]中改变相位数M。请注意，当相位数为1时，它相当于从背景中选择前景并忽略时间结构。如表3所示，当M从1增加到{2，3}时，性能显著提高，这验证了利用时间结构的优越性。同时，当M进一步增加到{4，5}时，性能变差。性能较差可能是由于 3 个阶段足以对THUMOS 14数据集中大多数动作实例的时间结构进行建模，并且更多阶段更容易过度拟合。软最大路径发现。我们证明了软最大路径发现的优势，其对应的最大路径发现的基础上。实验是在THUMOS 14数据集上进行的，基于具有2相位设置的双流I3D特征。如表4所示，软最大路径发现比其对应部分收敛得更快。它只需要30个epoch，而它的硬对应物需要45个epoch。同时，软最大路径发现的性能始终优于硬最大路径发现.例如，当IoU =0时。3、软路径发现实现的mAP为39。3，而它的硬对应只达到38。7mAP。此外，委员会认为，双流融合我们展示了通过在 THUMOS 14 和ActivityNet 1.3数据集上融合RGB流和光流流来提高性能。的监督方法mAP@IoU0的情况。30507充分Richard等人[24日]三十0152 −充分Yeung等人[第四十四届]三十六 0171 −充分Yuan等人[45个]三十三岁。六点十八分8 −充分Yuan等人[46个]三十六 5178 −充分S-CNN [29]三十六31905.3充分美国疾病控制与预防中心[27]四十一百二十三37. 9充分Dai等人[八]《中国日报》-2569. 0充分SSAD [19]四十三0246 −充分R-C3D [43]44. 七点二十八。9 −充分SS-TAD四十五七点二十九29. 6充分Gao等人[13个国家]50块13109。9充分SSN [47]51岁九点二十九。8点10分7弱Sun等人[33个]8. 5个 4. 4 −弱《捉迷藏》[31]19号。五六。8 −弱[40]第四十话31岁116251弱STPN [21]三十五516九点四3弱自动锁定[28]三十五八点二十一258弱W-TLAC [22]四十一百二十二八点七6弱我们的（TSN）三十七三点二十一。九点六0弱我们的（I3D）39岁五点二十四5个7. 1表5.与THUMOS 14数据集上不同IoU阈值下的最新方法进行比较。从I3D段特征获得结果。如表1和表2所示，融合来自两个流的检测结果通常实现比基于单个模态的更好的动作检测性能。一个例外是当IoU = 0时的情况。在2相设置下，THUMOS 14数据集上的7。在这种情况下，使用单个RGB流43215534(a) ‘JavelinThrow’ action detection on video（b）图5.绿色曲线是阶段1滤波器的激活，红色曲线是阶段2滤波器的激活。蓝线是动作实例的地面实况位置。绿线是阶段1中的段位置，红线是阶段2中的段位置。监督方法0的情况。50的情况。550的情况。60的情况。65mAP@IoU0的情况。70750的情况。80的情况。850的情况。90的情况。95充分SSN [47]41岁3三十八岁。8三十五9三十二9三十4二十七岁0二十二岁2十八岁2十三岁2六、1弱[40]第四十话7 .第一次会议。4六、1五、24.第一章53 .第三章。93 .第三章。2二、51 .一、81 .一、20的情况。7弱自动锁定[28]二十七岁3二十四岁9二十二岁519号。9十七岁5十五岁1十三岁010个。0六、83 .第三章。3弱TSM（我们的）28岁3二十六岁023岁621岁2十八岁9十七岁0十四岁011个国家。17 .第一次会议。53 .第三章。5表6.与ActivityNet 1.2数据集上不同IoU阈值下的最新方法进行比较三十七 3 mAP ，而 Auto-Loc 仅达到 35 。 8mAP 。在Activitynet 1.3上，我们的得分为19。当IoU = 0时，0mAP。75.而STPN [21]只实现了16。9mAP。同时，我们使用相同的I3 D功能实现了与W- TALC [22]相当的性能。我们想象图5中的THUMOS 14数据集上的2相设置的检测结果。如图所示，所提出的方法不仅检测到大多数动作实例，表7.与ActivityNet 1.3数据集上不同IoU阈值下的最新方法进行比较达到6。9 mAP，而双流仅实现6. 6mAP。较差的性能可能是由于光流流的性能比RGB流的性能差得多的事实。4.5. 与现有技术方法的为了进一步证明我们的方法的有效性，我们将其与THU-MOS 14，ActivityNet 1.2和ActivityNet 1.3数据集上的当前最先进的方法进行了比较。为了与ActivityNet 1.2上的Auto-Loc [29]进行公平的比较，我们采用了Auto-Loc作者发布的相同TSN功能同时，为了与ActivityNet 1.3上的STPN[21]进行公平比较此外，我们使用TSN和I3D功能在THUMOS 14数据集上显示我们的结果我们比较我们的完监督方法mAP@IoU0的情况。50750。95充分Montes等人[20个]二十二岁5 − −充分R-C3D [43]二十六岁8 − −充分美国疾病控制与预防中心[27]四十五32600。2充分SSN [47]四十三32875. 643215535全监督的动作检测方法和弱监督的。如表5 6 7所示，out方法在所有测试数据集上的性能始终优于STPN [21]和Auto-loc [28]。例如，在THUMOS 14数据集上，当IoU阈值为0时。3、我们基于TSN的特性实现了一个发现每个动作实例的时间结构。5. 结论本文研究了未裁剪视频中的弱监督动作检测问题，提出了一种基于时间结构挖掘的动作检测方法。不同于现有的WSAD方法忽略片段之间的节奏关系，我们的TSM利用动作实例中的节奏结构。我们将动作建模为一个多阶段的过程，并定义时间结构为阶段演变的模式。为了有效地对包含多个动作实例的视频进行建模，我们设计了一种循环阶段演化机制。我们利用相位滤波器来描述在一个段中存在特定动作相位的置信度分数由于训练数据中缺乏时间注释，我们将段的相位视为隐变量，该隐变量由置信度得分表中的最大循环路径发现确定。在三个公共数据集上进行的大量实验表明了所提出的TSM在WSAD中的优越性。鸣谢：它得到了布法罗大学的启动资金和Snap Inc.的赠款支持。43215536引用[1] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR，2016年。[2] PiotrBojano wski ， Re' miLajugie ， Franci sBach ， IvanLaptev，Jean Ponce，Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注2014年，在ECCV[3] S Buch ， V Escorcia ， B Ghanem ， L Fei-Fei 和 JCNiebles。端到端，单流时间动作检测在未修剪的视频。在BMVC，2017年。[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页[6] Chien-Yi Chang ， De-An Huang ， Yanan Sui ， Li Fei-Fei，and Juan Carlos Niebles. D3tw：判别可微用于弱监督动作对齐和分割的动态时间规整。CoRR，abs/1901.02598，2019。[7] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考用于时间动作定位的更快的R-CNN架构。在CVPR，2018年。[8] Xiyang Dai ， Bharat Singh ， Guyue Zhang ， Larry SDavis，and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。InICCV，2017.[9] 阿查尔·戴夫奥尔加·鲁萨科夫斯基和德瓦·拉曼南用于动作检测的预测校正网络在CVPR，2017年。[10] Tran Du，Yuan Junsong，and David Forsyth.视频事件检测：从子体积定位到时空路径搜索。IEEE Transactionson Pattern Analysis and Machine Intelligence，36（2）：404[11] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。用于有效动作检测的动作序列模型见CVPR 2011，第3201-3208页IEEE，2011年。[12] 于刚和袁俊松快速行动的建议，人类行动检测和搜索。CVPR，2015。[13] Jiyang Gao，Zhenheng Yang，and Ram Nevatia. 用于时间动作检测的Cas- caded边界回归。在BMVC，2017年。[14] A Gorban，H Idrees，YG Jiang，A Roshan Zamir ，ILaptev，M Shah和R Sukthankar。Thumos挑战：2015

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

时态结构挖掘：弱监督动作检测的新方法

时态结构挖掘：弱监督动作检测新进展

时态知识图谱补全与网络安全的运用

usually用于什么时态

have + 动词动过去分词是什么句型和时态？

将这份英语语法的教案的实例丰富一下

often用于什么时态

NLTK如何检测语法错误，请解释原理

谈谈你对时态数据模型的分析与应用的理解

英语时态题库刷题用什么

语句通顺检测 python

金融知识图谱的关系抽取有哪些

stateflow中时态逻辑是什么

那有没有基础语法让我看一下

transformer中的时态分支(TB)和遮挡编码器(OE)作用

上下文无关文法有什么用

英文的文化背景和语言结构

语法特征的介绍400字

最新资源