没有合适的资源?快使用搜索试试~ 我知道了~
1513MGSampler:一种可解释的视频动作识别采样策略Yuan Zhi Zhan Tong Limin WangZhang Wu南京大学软件新技术国家重点实验室{yuanzhi,tongzhan}@ smail.nju.edu.cn,{lmwang,gswu}@nju.edu.cn摘要由于时间上的冗余和有限的计算资源,帧采样是视频动作识别中的一个基本问题。现有的采样策略通常采用固定的帧选择,并且缺乏处理视频中复杂变化的灵活性。在本文中,我们提出了一个简单的,稀疏的 , 可 解 释 的 帧 采 样 器 , 称 为 运 动 引 导 采 样 器(MGSampler)。我们的基本动机是,运动是一种重要而普遍的信号,可以驱动我们从视频中自适应地选择帧。因此,我们在MGSampler设计中提出了两个重要的属性:运动灵敏和运动均匀。首先,我们提出了两种不同的运动表示,使我们能够有效地区分运动显着帧从背景。然后,我们设计了一个基于累积运动分布的运动均匀采样策略,以确保采样帧均匀地覆盖所有具有高运动显著性的重要片段。我们的MGSampler产生了一个新的原则和整体的采样方案,可以被纳入到任何现有的视频架构。在五个基准测试上的实验证明了我们的MGSampler在以前的固定采样策略上的有效性,以及它在不同骨干、视频模型和数据集上的泛化能力。该代码可在https://github.com/MCG-NJU/MGSampler上获得。1. 介绍随着大量的视频被捕获并上传到网上,视频理解在计算机视觉研究中变得越来越重要人类动作识别[31,37,40,24]在过去几年中通过在视频中设计各种深度卷积网络取得了很大进展的核心工作一直致力于获得紧凑而有效的视频表示的高效和鲁棒的识别。与静态图像相比,额外的时间维度要求我们设计一个复杂的TEM-作者:Correspondent author。poral模块配备了高容量,并制定了一个有效的推理策略,快速处理。然而,除了这些建模和计算问题之外,视频理解中更基本的问题是采样。由于时间上的必要冗余以及实际上有限的计算预算,馈送整个视频用于后续处理是不必要的,也是不可行的。如何对小的帧子集进行采样对于开发实用的视频识别系统是非常重要的,但这仍然是一个尚未解决的问题。目前,深度卷积网络(CNN)通常采用固定的手工采样策略来训练和测试视频[31,37,40]。 在训练阶段,CNN在帧/剪辑上进行训练,这些帧/剪辑是从原始视频均匀地或连续地以固定步幅随机采样的。在测试阶段中,为了覆盖视频的整个持续时间,从视频中密集地采样剪辑,并且从这些密集预测分数中平均最终结果。这些固定采样策略存在多个问题。首先,动作实例随不同视频而变化,并且采样不应第二,并非所有的帧对于分类都是同等重要的,并且采样应该更多地关注有区别的帧而不是不相关的背景帧。最近,一些作品[47,45,5]专注于未修剪视频中的帧选择,并尝试使用自适应采样模块来提高推理效率。这些方法通常采用可学习的模块来自动选择更有区别的帧用于后续处理。然而,这些方法严重依赖于训练数据,具有复杂的学习策略,并且在实践中不能容易地转移到看不见的动作类。此外,它们通常通过选择前景帧并删除背景信息来处理未修剪的视频识别。 但由于修剪视频和未修剪视频之间的固有差异,如何使它们适应修剪视频采样尚不清楚。基于以上分析,如何设计一种有原则的、自适应的裁剪视频采样策略仍需进一步研究。本文主要1514t=1…t=23t=24t=26t=28t=30t=31…t=43把东西扔到空中抓住它均匀采样运动引导采样t=3 t=8 t=11 t=17 t=23 t=29 t=34 t=37强忍着什么把东西扔到空中抓住它t=24t=25t=26t=27t=29t=31 t=32 t=35图1.从一段视频中选取8个画面,将物体抛向空中并接住。由于动作的快速时刻,均匀采样可能会错过关键信息,而我们的采样策略可以识别和选择具有大运动幅度的帧。摘要提出一种简单、稀疏、可解释的裁剪视频动作识别采样策略,该策略不依赖于训练数据,具有良好的泛化能力,并能自适应地处理不同的视频内容。我们的基本观察是,运动是一个通用的和可转移的信号,可以引导我们采样的判别帧,在这个意义上,动作相关的帧应该是高运动的显着性,传达大多数信息的人的运动,而背景帧通常不包含或有限的不相关的运动信息。根据这种运动先验,我们可以粗略地分析帧的重要性,并根据它们的时间变化将帧分组为若干段。因此,这些时间段,使我们能够执行一个整体和自适应采样,以捕捉大多数的运动信息,形成,同时抑制不相关的背景distraction,产生一个通用的帧采样器(MGSampler)。具体来说,为了实现我们的运动引导采样,提出了两个关键组件来处理运动估计和时间采样,分别。对于运动表示,我们使用不同层次的时间差来近似人体运动信息,以提高效率。在实际应用中,时间差与运动信息高度相关,时间差的绝对值在一定程度上能够反映运动幅度。对于时间采样,基于沿时间的运动分布,我们提出了一个统一的分组策略,其中每个段应该传达相同数量的运动显著性。然后,根据该均匀分组,我们可以通过从每个片段随机挑选代表性帧来在整个视频上执行自适应采样图1展示了一个生动的例子,从视频中采样帧的类议案相关内容只包含一小部分整个视频的一部分(例如,从第24帧到第30帧)。如果采用传统的均匀采样,会遗漏第24帧和第30帧之间的重要信息相比之下,我们的运动引导采样器在第24帧和第30帧之间选择更多的帧,并做出正确的预测。我们对五个不同的修剪视频数据集进行了广泛的实验:&[10][12][13][14][15][16][17][ 18 ][19]ing48 [23].通过采用我们的运动引导采样策略,在这些数据集上获得了显着的改善。值得注意的是,使用运动引导的采样策略不会大大增加计算负担和运行时间。此外,该方法是不可知的网络架构,并可以用于训练和测试阶段,证明了其强大的适用性。2. 相关工作行动识别。动作识别是识别视频中的各种人类动作的任务。在过去的十年中,随着大规模数据集的可用性和深度学习的快速发展,视频动作识别的研究兴趣越来越大方法通常可以分为四种类型:(1)双流网络或变体:一个流将RGB图像作为输入以建模外观,并且另一个流将光流作为输入以建模运动信息。在预测阶段,来自两个流的分数以后期融合的方式进行平均[31]。基于这种架构,提出了几项工作,以更好地融合两个流[8,42]。(2)3D CNN:用于动作识别的3DCNN旨在学习空间和时间维度的特征[15,36,7]。然而,3D CNN比它们的计算成本更高1515视频图2. 运动引导采样器(MGSampler)。我们的MGSampler旨在动态选择包含丰富运动信息的帧,以帮助分类器看到整个动作过程。我们提出的MGSampler是一个通用的和灵活的采样方案,可以很容易地部署到任何现有的视频模型的动作识别。2D竞争对手由于时间维度。为了降低计算成本,这些作品[37,29]将3D卷积分解为2D卷积和1D时域卷积,或者将2D CNN集成为3D CNN [53]。(3)混合时空网络模型:ECO [54]和TSM [24]设计了轻量级模型,以融合spa-tiotemporal特征。MFNet [20]、TEINet [25]、TEA [22]、MSNet [19]和其他[16,33,43,44,39]探索了用于运动表示的更好的时间建模架构。(4)长期网络模型:基于短期剪辑的网络不能捕获长距离的时间信息。提出了几种方法来克服这种限制,通过使用RNN [48]或长时间卷积[38]堆叠更多帧,或者使用稀疏采样和聚合策略[40,52,50]。与他们不同,我们的目标不是设计一个更好的模型,而是为视频分析中更基本的问题设计有效的帧采样。帧采样。对于一些基于3D CNN的方法[36,2,7],通过选择随机帧作为起点来获得视频剪辑然后,视频中的接下来的64个连续帧被均匀地二次采样为固定数量的帧。TSN [40]执行了一种简单有效的采样策略,其中帧沿整个时间维度均匀采样。上述两种抽样策略通常被不同的模型使用。然而,他们对每一帧都一视同仁,忽略了帧间的冗余,因此根据输入选择显著的帧或片段是有效识别动作的关键。最近,一些工作提出了强化学习(RL)的策略梯度的方法来选择框架来训练代理FastForward [5]利用RL进行跳帧规划和提前停止决策,以减少未修剪视频动作识别的计算负担。Adaframe [47]提出了一个LSTM,它增加了一个全局内存来搜索随着时间的推移要使用哪些帧,这是通过策略梯度方法训练的。多代理[45]在框架中使用N个代理,每个代理负责选择一个信息帧/剪辑从未修剪的视频。DSN [51]提出了一个动态版本的TSN与基于RL的采样。为了避免复杂的RL策略梯度,LiteEval [46]提出了一个由粗到细的可微分框架,其中包含按层次结构组织的粗LSTM和细LSTM,以及用于选择粗或细特征的选通模块。AR-Net [28]在统一的框架中解决了最佳帧分辨率的选择和跳过,并以完全可区分的方式学习了整个框架音频也被用作选择用于动作识别的突出帧的有效方式。SCSampler [17]使用轻量级CNN作为选择器,在测试时使用显着性分数对剪辑进行采样。为了有效地训练选择器,他们利用音频作为额外的模态。Listen to Look [9]使用音频作为预览机制,以消除短期和长期的视觉冗余,从而实现快速的视频级识别。虽然这些方法带来了动作识别的改进,但它们的目标是长且未修剪的视频,而不是短且修剪的视频。另外,采样模块的设计通常比较复杂,训练过程需要大量的训练样本,训练时间较长。相反,我们的目标是提出一个简单的,一般的,可解释的帧采样模块,没有任何学习策略。3. 方法在本节中,我们将详细描述我们的运动引导采样策略。首先,我们概述了我们的运动引导采样。然后,我们介绍了表示每一帧的运动信息的细节。最后,我们 阐 述 了 使 用 运 动 幅 度 的 累 积 分 布 来 指 导 采 样(MGSampler)的概念。3.1. 概述视频由一系列密集捕获的帧组成。由于时间冗余和有限的计算1.0帧采样帧0.80.6骨干0.40.2把东西扔到空中抓住它0帧运动表示运动累积分布网络输入5 10152025303540……累计运动1516∈−Σ运动显著性分布M(即,M=1)。tt×∈∈ΣΣ→联系我们H由于动作识别是一种有效的动作识别方法,因此通常对帧的子集进行采样以开发有效而准确的动作识别方法。我们提出的运动引导采样是一种通用且灵活的模块,用于将整个视频压缩成固定数量的帧,其可以用于任何类型的视频识别网络的后续识别(例如,TSM、TEA等)。运动先验是我们提出的采样模型的核心,我们假设这种先验知识是通用的,可在视频中转移,并有助于设计一个通用的采样器。基于这一假设,我们设计了一种自适应采样策略,它具有两个重要性质:的RGB帧作为一种替代的轻量级运动表示所提出的采样策略。如图3所示,帧之间的图像级差异通常仅保留特定于运动的特征并抑制静态背景。形式上,给定来自视频V的帧I(x,y,tRT×H ×W其中T,H,W是视频的长度,高度和宽度,为了公式化其运动幅度,我们首先从当前帧I(x,y,t)中减去前一帧I(x,y,t1)的每个像素值,然后在空间域上累积每个帧的差值的绝对值:动作灵敏、动作均匀。 关于require-HW在运动敏感的情况下,我们希望我们的采样器能够识别沿着时间维度的运动显著性,并将动作相关帧与背景区分开。针对运动均匀性的特点,我们期望我们的采样器能够根据运动信息的分布均匀地自动选择帧从这个意义上说,我们的采样帧需要均匀分布在所有的时间运动段,以覆盖动作实例的重要为了实现运动引导采样的上述要求,我们设计了两个关键部件:运动表示和运动引导采样。对于运动表示,为了在准确性和效率之间取得平衡,我们使用时间差来近似地捕获人体运动。对于运动引导的采样,我们设计了一个统一的采样策略的基础上的累积运动分布,以确保覆盖所有重要的运动片段在整个视频。接下来,我们将详细描述这两个组件。3.2. 运动表示由于RGB图像通常表示特定时间点处的静态外观,因此我们需要考虑相邻帧的时间变化以利用时间上下文进行运动估计。光流[12]是运动表示的常见选择,但高计算成本使其无法进行有效的视频识别。已经提出了许多工作来使用CNN [4,13,6,30]估计光流或探索光流的替代方案,例如RGBdiff [40],光学引导特征[34],动态图像[1]和固定运动滤波器[21]。我们的目标是获得一个有效的,但相对准确的运动表示,以指导后续的采样。我们提出了两种基于不同层次的运动表示方法,以较小的计算代价来选择帧。图像级差异。RGB两个St =|I(x,y,t)− I(x,y,t − 1)|,t ∈{2,3,. . . ,T}(1)y=1x =1其中,S1描述帧I(x,y,t)的运动信号,并且S1= 0。我们进一步用l1-范数对St进行归一化,得到不不功能级别差异。虽然原始图像之间的差异可以在一定程度上反映运动信息,但仅通过图像级差异很难捕获更精确的模式,卷积具有提取特征的能力,并且低卷积层中的滤波器通常描述边界和纹理,而高卷积层中的滤波器更有可能表示抽象部分,这是一个共识。我们再次强调设计运动表示的主要思想是在计算和效率之间取得平衡,因此我们对原始图像进行了浅层然后,为了关注小的运动位移和运动边界,我们通过用其对应的特征图F(x,y,t)替换原始图像I(x,y,t)来将减法操作扩展到特征空间。特征级差异是de-罚款如下:Diffi(x,y,t)=Fi(x,y,t)−Fi(x,y,t−1)(2)其中下标i为1,2,. . . ,C表示原始图像的第i个特征图,并且C是通道的数量。在实验中,我们使用一个卷积层,该卷积层由8个7 × 7卷积组成,步幅=1,填充=3,遵循PA模块的设计[49]。 填充操作避免了空间分辨率的降低。因为 Diff(x,y,t)RH×W ×C是三维的,为了用公式表示特征级差异,通过平方和运算将C个通道累积为1个通道,从而得到Diff(x,y,t)RH×W。然后将所有像素值加到一个值中。映射RH×W ×CR使Diff(x,y,t)表示运动每帧的大小。连续帧描述了外观变化并且与光流的估计相关。因此,我们采用adja之间的图像级差异。St=ΣΣ ”。,ΣC(Diffi(x,y,t))2,t ∈ {2,3,. . . ,T}(3)Wy=1x=1i=11517M=1。不Σ1.ΣΣ。Σ。Σ。ΣΣ2n在叱ˆ图3. 原始帧及其对应的运动表示的示例:RGB帧包含丰富的外观信息,并且运动表示保留显著的运动线索。与图像级差分相比,特征级差分能够捕捉到更细致、更核心的运动位移。图4.受累积分布函数的启发像图像级差异一样,我们进一步归一化St用l1范数来获得运动显著性分布Mt,即不不3.3. 运动引导采样(MGSampler)在获得沿着时间Mt的运动显著性分布之后,我们准备好描述如何使用它来执行运动引导采样。类似于TSN [40]中基于段的采样,我们的采样是一种整体和持续时间不变的策略,从某种意义上说,我们在整个时间范围内进行采样。图5.不同μ值下的累积运动分布。并且范围为0至1。此外,累积分布函数是非递减的和右连续的。F X(x0)= 0,F X(x n)= 1。(五)基于累积分布函数的该定义,我们沿着时间维度构建运动累积曲线,如图4所示,其中X轴表示帧索引,y轴表示直到当前帧的运动信息累积。为了进一步控制运动引导采样的平滑度,我们引入了一个超参数μ来调整原始运动分布轮胎视频和压缩整个视频成一个子集的帧。与TSN相比,TSN是固定采样策略。Mt:(Mt)µM=.(六)egy,我们的运动引导采样自适应地选择帧tTt=1 (Mt)µ根据运动的均匀性,希望采样帧能够覆盖重要的运动片段。为了根据运动分布自适应地进行采样,我们提出了一种基于累积运动分布的时间分割方案,然后从每个片段中随机采样一个代表。具体地,具有n个值x,x,. . . X如图5所示,µ的值越小,运动幅度的概率分布越均匀。根据获得的运动累积分布曲线,我们现在可以执行我们的运动引导采样策略。 为了从原始视频中采样N个帧,y轴的间隔被均匀地分成N个部分:0、1、1、2、2、3、. . . N-1,N。从N. i−1NiNNN N n其中概率pi=p(xi)由以下函数定义FX(x)= P(X≤x)=P(X=xi)=p(xi),(4)在它的段中,并且它在x轴上的对应帧索引将基于曲线被挑选出来考虑到曲线上的x轴值可能不是整数,我们选择最接近该值的整数。我们的取样策略-xi≤xxi≤xEGY能够在运动显著期间采样更多帧其中FX是在对静态帧上的非常小的帧进行采样时从x1到片段的概率的累积每个间隔,将随机1518×××1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0东西-东西框架采样帧5 10 15 20 25 30 35 40帧战略在三个方面有所不同。(1)帧选择的目的是在修剪的视频中选择具有固定长度的更有效的帧。(2)采样过程不需要任何额外的输入,使输入与原始输入相同。(3)MGSampler避免了复杂的训练,并且足够灵活,可以插入到其他模型中。4. 实验(a) Sth-Sth V1的运动幅度的典型分布。1 .一、00的情况。80的情况。60的情况。40的情况。24.1.数据集和实施详细信息数据集。我们在五个视频数据集上评估了运动引导采样策略。这些数据集可以分为两类。(1)运动相关数据集:Something-Something V1 V2 [10],Diving 48 [23]和Jester [27]。对于这些数据集,运动信息而不是静态外观是动作理解的关键在Something-Something V1 V2[10]中,用不同的对象(“某物”)执行相同的动作0的情况。025 50 75 100 125 150 175帧都被迫去理解基本的动作而不是记录(b) Diving48运动幅度的典型分布图6.不同的数据集具有不同的视频时间和动作类别,而运动引导采样方法可以根据运动幅度的累积分布来指导采样。从而允许随后的视频识别模型集中于有区别的运动信息学习。采样的帧构成帧体积,并将被馈送到视频CNN中以执行动作识别。在实践中,我们使用多个网络架构和数据集(图6)进行实验,以验证运动引导采样器的有效性。3.4. 讨论我 们 注 意 到 最 近 提 出 的 几 种 采 样 方 法 , 如SCSampler [17],DSN [51],Adaframe [47],Listen toLook [9]和AR-Net [28]。然而,他们的重点与我们的完全不同。首先,它们旨在从具有一分钟或更长的典型长度的长且频繁稀疏的视频中采样减少的剪辑集合,而我们的目标是在修剪的视频中选择具有固定长度的更有效的输入。其次,一些方法需要额外的输入来训练采样器。SCSampler [17]和Listen to Look [9]使用音频作为额外的模态,用于利用音频和视觉图像之间的固有语义相关性。第三,当训练采样器时,通常使用强化学习,其中使用策略梯度方法训练一个代理或多个 代 理 以 选 择 相 关 视 频 帧 ( Adaframe [47] , DSN[51])。AR-net [28]包含一个带有轻量级特征提取器和LSTM模块的策略网络。上述两种训练过程都很复杂,给网络带来了很多额外的计算。与以前的工作相比,我们提出的采样识别对象。它包括大约10万个视频,覆盖174个类。Jester [27]是一个带标签的视频剪辑集合,展示了人类在笔记本电脑摄像头或网络摄像头前执行手势,包含148k视频和27个类。 Diving48 [23]旨在减少动作识别中场景和对象上下文的偏差。它有一个细粒度的分类,涵盖了48种不同类型的划分,总共有18K的视频 。(2)场 景 相 关 数 据 集 : UCF101 [32] 和HMDB51[18]。这些数据集中的动作识别可能会受到场景上下文的极大影响。UCF101 [32]由来自101个动作类别的13,320个手动标记的视频组成。HMDB51 [18]从各种来源收集,例如,网络视频和电影,这被证明是现实和具有挑战性的。它由来自51个类别的6,766个手动标记的剪辑组成。实作详细数据。在实验中,我们使用不同的模型和骨干,以验证运动引导的采样策略的鲁棒性。实验在MMX2上进行[3]。为了公平比较,所有设置在训练和测试期间保持相同。以Sth-Sth V1数据集和TSM模型为例,我们使用在ImageNet数据集上预训练的2D ResNet作为主干。在训练期间,随机缩放和角落裁剪被用于数据增强,并且针对每个帧将裁剪区域的大小调整为224 224批量大小、初始学习率、权重衰减和丢弃率分别设置为64、0.01、5e-4和0.5。使用随机梯度下降(SGD)对网络进行50个历元的训练,并且在20和40个历元时,学习率降低了10倍。在测试期间,从视频中采样具有T帧的1个剪辑。每个帧被调整大小为256 -256,并且大小为224 - 224的中心区域被裁剪以用于动作预测。其他主干和数据集上的实现与此设置类似。潜水48架采样帧累加运动累加运动15190.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.30.50.812图像差异Sth V1 45.6 46.2 46.6 47.1 46.5 45.7 42.8Sth V2 57.9 58.2 59.7 59.8 59.4 58.0 56.2功能差异Sth V1 46.0 46.5 46.8 47.3 46.7 46.2 43.9Sth V2 58.2 58.5 60.0 60.1 59.8 58.3 56.4表1. µ的不同值对Something-Something V1 V2结果的影响。我们使用TSM模型进行消融研究。训练和测试阶段都对八帧的一个剪辑进行采样。数据集原始图像差异特征差异Sth-V145.647.1(+1.5)47.3(+1.7)Sth-V257.959.8(+1.9)60.1(+2.2)潜水-4835.236.9(+1.7)37.4(+2.2)UCF-10194.594.9(+0.4)95.2((+0.7)HMDB-5172.673.3(+0.7)73.8(+1.2)杰斯特96.596.9(+0.4)97.5(+1.0)表2. 不同运动表示的性能。原始的方法是使用TSN方法对帧进行采样,这是TSM中原始的采样策略。注意到UCF101和HMDB51都有3个分裂,我们报告了所有分裂的平均结果4.2. 消融研究光滑超参数的研究。如图5所示,平滑超参数μ控制我们的运动引导采样中的平滑度当µ等于1时,运动幅度保持原始幅度。如果µ大于1,则会增加帧之间的运动幅度差。相反,当µ设置为小于1时,运动的影响会降低,特别是如果µ为0,则采样过程等同于TSN [40]方法。我们对超参数μ进行了消融研究,结果见表1。我们发现,μ=0。5实现了最好的结果,因为它平衡了整体时间结构和运动差异之间的关系。我们还观察到,我们的运动引导采样优于TSN采样的基线(即,µ=0)在Sth V1和V2上分别降低约1.5%和2%。研究不同的运动表示。我们设计了两个基于不同层次的运动表示。图像级差异是一种非常方便的捕获运动替换的方法,但它忽略了一些重要的特征和运动边界。另一方面,特征级差异可以表示更精确的运动提示,但它需要更多的计算。考虑到我们的目标是找到一种有效的方法来表示运动,我们只在原始输入中添加了一个浅层卷积层,但它带来了显着的改进。PAN[49]表明,当卷积层更深时,基于特征级别差异的性能会降低,因为战略Sth-V1Sth-V2分段抽样45.657.9固定步长采样43.753.4运动幅度采样41.552.8运动引导采样(Ours)47.360.1表3.不同采样策略在Something-Something V1 V2数据集上的性能。型号骨干框架TSN MG采样器[24]第二十四话ResNet50845.647.1(+1.5)[24]第二十四话ResNet501647.248.6(+1.4)[24]第二十四话ResNet101846.947.8(+0.9)[24]第二十四话ResNet1011647.949.0(+1.1)茶[22]ResNet50848.950.2(+1.3)茶[22]ResNet501651.952.9(+1.0)茶[22]ResNet101849.450.6(+1.2)茶[22]ResNet1011652.053.2(+1.2)GSM [33]BNInception847.248.2(+1.0)GSM [33]BNInception1649.650.8(+1.2)GSM [33]InceptionV3849.050.1(+1.1)GSM [33]InceptionV31650.651.9(+1.3)表4. 运动引导采样提高了所有不同骨干和模型的准确性,证明是非常强大的。在这个烧蚀实验中,我们使用图像级差异作为运动表示。高级特征已经被高度抽象,并且不能反映小的运动替换和边界。为了比较基于两种运动表示的性能,我们在五个不同的数据集上进行了实验,使用TSM作为基础模型,输入8帧。结果表明,无论数据集如何,特征级差异都比图像级差异表现得更好,主要是因为低级别特征的差异可以捕获边界处的小运动变化。不同抽样策略的比较。为了更好地说明我们提出的运动引导采样的有效性,我们将其与其他三种采样方法进行比较。首先,我们比较两个固定的抽样基线:(1)基于分段的采样[40],其中沿着时间维度均匀地采样8个帧,以及(2)固定步幅采样[2],其中从视频中随机挑选具有固定步幅(s=4)的8帧剪辑。我们看到我们的自适应采样模块比那些手工制作的采样方案更好。然后,我们比较了另一种自适应采样方法的基础上的运动幅度(运动幅度采样),其中8帧选择仅仅基于运动幅度,而不管运动均匀的假设。我们看到,这种替代的运动引导的采样策略产生更差的性能,这证实了我们的策略的1520有效性,基于累积运动分布。15218× 1×1方法骨干帧Sth-Sth V1 Sth-Sth V2模型框架顶部-1前1名(%)前1名(%)[41]第41话我的世界ECOEn [54] 92× 1× 1 46.4-[40]第40话TSN [40] ResNet50 19.7 27.8TSM [24]ResNet508× 1× 1 45.6 57.9TSM [24] 16× 1× 1 47.2 59.9GST [26]ResNet508× 1× 1 47.0 61.6商品及服务税[26] 16× 1× 1 48.6 62.6GST-ResNet50 [26]1638.8TEA-ResNet50 [22]1636.0GSM-InceptionV3[33] 16 39.0MG-TEA-ResNet50(Ours)1639.5表6.Diving-48数据集上的性能与最先进的方法相比为了公平比较,所有模型都通过一个剪辑进行测试。TEINet [25]ResNet508× 1× 1 47.4 61.3TEINet [25] 16× 1× 1 49.9 62.1GSM[33]InceptionV38 × 1 × 149.0-粤ICP备16036666号-1UCF101 HMBD 51 Jester Diving 48 Sth-V2训练套装9537375011856215943 168913测试套件3783 1530 14743 2096 24777TDRL [43]8× 1× 1 49.8 62.6平均帧187.3 96.6 36.0 159.6 45.8MVFNet [44] 16× 1× 1TEA [22]ResNet508× 1× 1 48.9 60.9TEA [22] 16× 1× 1 51.9 62.2MG-TEA(我们的)ResNet 50 8× 1× 1 50.4 62.5MG-TEA(我们的)16× 1× 1 53.2 63.8MG-TEA(我们的)粤ICP备16036888号-1MG-TEA(我们的)16× 1× 153.3 64.8表5. 与其他国家的最先进的方法比较的东西-东西V1 V2。我们使用TEA模型与我们的运动引导采样策略(MG-TEA)进行比较。我们主要比较与其他方法具有类似的骨干下的1剪辑和中心裁剪设置。不同的骨干和模型。我 们 进一步证明了我们的采样策略的鲁棒性,通过不同的骨干和模型。我们选择ResNet 50 [11],ResNet 101 [11],BNInception [14],Inception V3 [35]作为主干,TSM [24],TEA [22],GSM [16]作为模型。表4中的结果表明,运动引导采样能够在不同方法中带来一致的性能改进。效率和延迟分析。在训练阶段,我们通过计算差异来预先处理整个训练集。表7的第5行报告了处理训练数据的总计算时间。为了测试,我们首先报告第6行中每个视频 的标 准采样 策略 (TSN )的 推理 时间我 们的MGSampler可以稍微增加推理时间,由于额外的计算(第7行),这是可以接受的。4.3. 与最新技术我们进一步报告了我们的运动引导采样在其他数据集上的性能,包括Diving 48,UCF 101,HMDB 51和Jester,并与以前的状态进行比较-表7.MGSampler的运行时间和延迟最先进的方法。通过从原始视频采样的一个片段测试所有结果,并在表2、表5和表6中报告。我们看到,我们的运动引导的采样策略是独立的数据集,并能够推广以及跨数据集带来一致的性能改善不同类型的数据集具有类似的骨干下的单剪辑和中心裁剪测试计划。5. 结论在本文中,我们提出了一个稀疏的,可解释的,自适应采样模块的视频动作识别,称为MGSampler。我们的新采样模块一般遵循这样的假设,即运动是一个普遍的和可转移的先验信息,使我们能够设计一个有效的帧选择方案。我们的运动引导采样有两个重要的组成部分:运动敏感和运动均匀,其中前者可以帮助我们识别相对于背景帧的最显著的片段,而后者使得我们的采样能够覆盖具有高运动显著性的所有这些重要帧。在五个基准测试上的实验验证了我们的自适应采样在这些固定采样策略上的有效性,以及运动引导采样在不同主干、视频模型和数据集上的鸣 谢 。 本 工 作 得 到 了 国 家 自 然 科 学 基 金 ( No.62076119号61921006)、江苏省创新人才和企业家计划、软件新技术与产业化协同创新中心。第一作者感谢高子腾和金立伟的宝贵意见。TSN [40]1616.8-C3D [36]6427.6I3D [2] 3D ResNet5032× 3× 241.6-R(2+1)D [37]6428.9ECO [54]BNIncep+R18 8× 1× 1 39.6[29]第二十九话1632.4TDRL [43]ResNet5016× 1× 150.963.8培训时间(所有视频)72.4s23.2s264.5s388.7s451.9sMVFNet [44]ResNet508× 1×148.851.060.862.9TSN采样(每个视频)MGSampler(每个视频)6.5ms6.9ms4.7ms5.0ms3.2ms6.8ms3.5ms7.4ms4.4ms5.0ms1522引用[1] Hakan Bilen 、 Basura Fernando 、 Efstratios Gavves 和Andrea Vedaldi 。 基 于 动 态 图 像 网 络 的 动 作 识 别 .PAMI,40(12):2799[2] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[3] MMAction贡献者。Openmmlab[4] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,第2758-2766页[5] 范和合,徐仲文,朱林超,严成刚,葛建军,杨毅。看一小部分就像看全部一样好:朝向有效的视频分类。在IJCAI,2018。[6] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang.用于视频理解的运动表示的端到端学习。在CVPR中,第6016-6025页[7] 克里斯托夫·费希滕霍夫。X3D:扩展架构以实现高效的视频识别。在CVPR,第203-213页[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。[9] Ruohan Gao , Tae-Hyun Oh , Kristen Grauman , andLorenzo Torresani.听听看:通过预览音频识别动作。在CVPR,2020年。[10] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某物某物”视频数据库。InICCV,2017.[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[12] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence,17(1-3):185[13] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变在CVPR中,第2462-2470页[14] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页[15] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维PAMI,2012年。[16] Boyuan Jiang , MengMeng Wang , Weihao Gan , WeiWu,and Junjie Yan.STM:用于动作识别的时空和运动编码在ICCV,2019年。[17] Bruno Korbar , Du Tran , and Lorenzo Torresani.Scsampler:从视频中采样突出片段,以实现高效的动作识别。在ICCV,2019年。[18] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. HMDB:一个用于人体运动识别的大型视
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功