没有合适的资源?快使用搜索试试~ 我知道了~
909TEA:用于动作识别的李艳1纪斌2史新天1张建国3康斌1王利民2王1平台和内容集团(PCG),腾讯2南京大学软件新技术国家重点实验室3南方科技大学计算机科学与工程系phoenixyli@tencent.com,binjinju@smail.nju.edu.cn,tinaxtshi@tencent.comzhangjg@sustech.edu.cn,binkang@tencent.com,07wanglimin@gmail.com摘要时间建模是视频动作识别的关键。它通常考虑短程运动和长程聚合。在本文中,我们提出了一个时间激励和聚合(TEA)块,包括一个运动激励(ME)模块和一个多时间聚合(MTA)模块,专门设计用于捕获短期和长期的时间演变。特别地,对于短程运动建模,ME模块根据时空特征计算特征级时间差。然后,它利用差异来激发特征的运动敏感通道。在以前的作品中的长程时间聚合通常是通过堆叠大量的本地时间卷积来实现的。每个卷积每次处理局部时间窗口。相比之下,MTA模块提出将局部卷积变形为一组子卷积,从而形成分层残差架构。在不引入额外参数的情况下,将用一系列子卷积处理特征,并且每个帧可以完成具有邻域的多个时间聚合。最终的等效感受野的时间维度相应地扩大,这是能够建模的远程时间关系在遥远的帧。TEA块的两个分量在时间建模中是互补的。最后,我们的方法在几个动作识别基准上,如Kinetics , Something-Something , HMDB 51 和 UCF101,在低FLOP下取得了令人印象深刻的结果,这证实了它的有效性和效率。1. 介绍动作识别是基于视频任务中的一个基本问题.它在视频中的要求越来越高-*通讯作者。基于应用程序,如智能监控、自动驾驶、个人推荐和娱乐[28]。虽然视觉外观(及其上下文)对动作识别很重要,但对时间结构建模也很重要。 时间建模通常以不同的尺度呈现(或被考虑):1)相邻帧之间的短程运动和2)大尺度上的长程时间聚集。有一些作品考虑到这些方面中的一个或两个,特别是在当前的深度CNN时代[21,31,47,6,36,46,34,2、1、39、50、49、27、41、29、24、20]。尽管如此,它们仍然留下了一些空白,问题远未得到解决,即,仍然不清楚如何有效和高效地对具有显著变化和复杂性的时间结构进行对于短距离运动编码,大多数现有方法[31,42]首先提取手工制作的光流[48],然后将其馈送到基于2DCNN的双流框架中进行动作识别。这种双流架构分别处理每个流中的RGB图像和光流。光流场的计算是耗时和存储需求。特别地,空间和时间特征的学习是孤立的,并且仅在后期层执行融合。为了解决这些问题,我们提出了一个运动激励(ME)模块。该模块不采用像素级光流作为额外的输入模态,将时间流和空间流的训练分离,而是将运动建模集成到整个时空特征学习方法中。具体地说,首先计算相邻帧之间的特征级运动表示.然后利用这些运动特征来产生调制权重。最后,帧的原始特征中的运动敏感信息可以用权重来通过这种方式,网络被迫发现和增强捕获差异化信息的信息性时间特征对于长范围时间聚合,现有方法910或者1)采用2D CNN主干来提取逐帧特征,然后利用简单的时间最大值/平均值池化来获得整个视频表示[42,11]。然而,这种简单的摘要策略导致时间信息丢失/混淆;或2)采用局部3D/(2+1)D卷积运算处理局部时间窗[36,3]。通过在深度网络中重复堆叠局部卷积来间接建模长范围时间然而,重复大量的本地操作将导致优化困难[14],因为消息需要通过遥远帧之间的长路径传播。为了解决这个问题,我们引入了一个 多 时 间 聚 合 ( MTA ) 模 块 。 MTA 模 块 也 采 用(2+1)D卷积,但 一组子卷积代替MTA中的1D时间卷积。子卷积用相邻子集之间的残差连接来制定分层结构。当时空特征通过该模块时,这些特征实现与相邻帧的多次信息交换,并且等效时间感受野因此增加数倍以模拟长距离时间动态。所提出的ME模块和MTA模块被插入到标准ResNet块[14,15]中以构建时间激励和聚合(TEA)块,并且整个网络通过堆叠多个块来构建。所获得的模型是有效的:受益于光-权重配置,TEA网络的FLOP被控制在较低的水平(仅为2D ResNet的1.06倍)。所提出的模型也是有效的:TEA的两个组成部分是互补的,它们在赋予网络短程和远程能力方面相互合作时间建模能力。总而言之,我们的方法的主要贡献有三方面:1. 运动激励(ME)模块将短距离运动建模与整个时空特征学习方法相结合。2.多时间聚合(MTA)模块有效地扩大了时间感受野,用于长时间建模.3. 提出的两个模块都是简单的,重量轻,可以很容易地集成到标准的ResNet块合作,有效和高效的时间建模。2. 相关作品随着深度学习方法在基于图像的识别任务上的巨大成功[22,32,35,14,15],一些研究人员开始探索深度网络在视频动作识别任务上的应用[21,31,36],47、6、46]。 其中,Karpathyet al. [21]提出了在视频的每一帧上独立地应用单个2D CNN模型,并探索了几种策略,融合时间信息然而,该方法没有考虑帧间的运动变化,最终的性能不如手工制作的基于特征的算法。Donahue等人[6]使用LSTM [16]通过聚合2D CNN特征来建模时间关系。在这种方法中,每个帧的特征提取是孤立的,并且仅考虑高级2D CNN特征用于时间关系学习。现有的方法通常遵循两种方法以提高时间建模能力。第一种是基于Simonyan和Zisserman提出的双流架构 [31]。该架构包含一个从帧中学习静态特征的空间两个流的训练是分开的,并且视频的最终预测在两个流上平均。随后的许多工作扩展了这一框架。[9,8]探索了不同的中级组合策略,以融合两个流的特征。TSN [42]提出了稀疏采样策略来捕获长距离视频片段。所有这些方法都需要额外的计算和存储成本来处理光流。此外,不同帧和两种模态之间的相互作用是有限的,这通常只发生在较晚的层。相比之下,我们提出的方法放弃了光流提取,并通过计算时间差来学习近似的特征级运动表示运动编码可以与时空特征的学习相结合,用于发现和增强其运动敏感成分。最近的工作STM [20]也试图对特征级运动特征进行建模,并将运动建模插入时空特征学习。我们的方法不同于STM,STM直接添加时空特征和运动编码在一起。相比之下,我们的方法利用运动特征来重新校准特征以增强运动模式。另一种典型的视频动作识别方法是基于3D CNN及其(2+1)D CNN变体[36,34,3,38,44]。 这一行的第一个工作是C3D [36],它对相邻帧进行3D卷积,以统一的方法联合建模空间和时间特征。为了利用预训练的2D CNN,Carreira和Zisserman [3]提出了I3D来将预训练的2D卷积扩展到3D卷积。为了减少3D CNN的繁重计算,一些工作提出将3D卷积分解为2D空间卷积和1D时间卷积[34,5,25,13,29,37]或利用2DCNN和3D CNN的混合 [38,45,52]。在这些方法中,理论上可以通过堆叠多个局部时间卷积来建立长程时间连接。然而,经过大量的局部卷积运算后,来自远处帧的有用特征已经很弱了-911游泳仰泳图1.所提出的动作识别方法的框架。采用稀疏采样策略[42]从视频中采样T帧。2D ResNet [14]被用作主干,ME和MTA模块被插入到每个ResNet块中以形成TEA块。简单的时间池化被应用于对整个视频的动作预测进行平均。它被破坏了,不能被很好地捕获。为了解决这个问题,T3D [5]提出采用密集连接结构[19]并结合不同的时间窗口[35]。Non- local module [43]and stnet [13] applied self-attention mechanism to modellong-range temporal relationship.附加参数或耗时操作伴随这些尝试。与这些工作不同的是,我们提出的多时态聚合模块是简单而有效的,而不需要引入额外的操作。3. 我们的方法最后给出了该方法的基本框架在图1中 使用TSN[42]提出的稀疏时间采样策略对可变长度的输入视频进行采样。首先,视频被均匀地划分成T个片段。然后从每一段中随机选取一帧作为输入序列T型框架。 对于时空建模,我们的模型基于2D CNNResNet [14] , 并 通 过 堆 叠 多 个 时 间 激 发 和 聚 合(TEA)块来构建。TEA块包含用于激励运动模式的运动遵循先前的方法[42,25],在模型结束时使用简单的时间平均池化来平均所有帧的预测3.1. 运动激励(ME)模块运动度量两个连续帧的内容位移,并且主要反映实际动作。许多以前的作品利用运动表示进行动作识别[42,3]。尽管如此,他们中的大多数只考虑光流形式的像素级与此不同的是,在所提出的运动激励(ME)模块中,运动建模从原始像素级扩展到大范围特征级,图2.运动激励(ME)模块(左图)和多时间聚合(MTA)模块(右图)的实现。使得运动建模和时空特征学习被合并到统一的框架中。ME模块的体系结构如图2的左侧面板。输入时空特征X的形状是[N,T,C,H,W],其中N是批量大小。T和C分别表示时间维度和特征通道。H和W对应于空间形状。所提出的ME模块的直觉是,在所有特征通道中,不同的通道将捕获不同的信息。 一部分通道倾向于对与背景场景相关的静态信息进行建模;其它通道主要集中于描述时间差的动态运动模式。对于动作识别,使模型能够发现并然后增强这些运动敏感通道是有益的。给定输入特征X,1×1 2D卷积层为运动激励(ME)多时态聚合⋯⋯视频T帧1x1,二维转我MTA1x1,二维转换+运动X:, , , ,激发多时间聚合典型方法X3、一维转换3x3,2D转换阿托洛,1x1,2D转换Xr:[,, /,,]时间分割,r(X:, , , ,频道合并3x3,2D转换−Concat男:,X1X2X3X43、一维转男:,空间池化Ms:,1x1,2D转换3x3,2D转换+3、1DConv3x3、2DConv乙状答:[ ,1,1]⨀+3、1DConv3x3、2DConv+Xo1XoXo2 3阿托洛4o: [Concato: [912我我首先采用减少特征通道以提高效率。与SENet的区别1)SENet是为图像而设计的Xr= conv红色<$X,Xr∈RN×T ×C/r ×H ×W(1)基于任务。当SENet应用于时空特征时,它独立地处理视频的每一帧其中Xr表示通道缩减特征。*表示卷积运算。r=16是减速比。基于时间步长t近似地被认为是两个相邻帧Xr(t)和Xr(t+1)之间的差。 而不是直接减去原始功能,我们建议先执行通道的功能上的变换,然后利用变换后的功能来计算运动。从形式上讲,M(t)=convtranns<$Xr(t+1)−Xr(t),1≤t≤T−1,(2)其中M(t)∈RN×C/r ×H ×W是时间上的运动特征t. convtranss是一个3×32D通道卷积层对每个通道执行变换。我们将时间步结束时的运动特征表示为零,即,M(T)= 0,并且通过将所有运动特征[M(1),. - 是的- 是的 ,M(T)]。然后,利用全局平均池化层来总结空间信息,因为我们的目标是激发运动敏感通道,其中详细的空间布局并不重要:Ms= Pool(M),Ms∈ RN× T× C/r ×1×1.(三)另一个1×1 2D卷积层convexp用于扩展运动特征的通道维度,可以通过使用S形函数来获得原始信道维度C和运动关注权重AA=2δ(convexp<$Ms )−1,A ∈ RN× T× C ×1×1,(4)其中δ表示S形函数。最后,该模块的目标是激励运动敏感通道;因此,一种简单的方法是在输入特征X和关注权重A之间进行通道乘法。然而,这样的方法将抑制静态背景场景信息,这也有利于动作识别。为了解决这个问题,在建议的基于运动的激励模块,我们建议采用残差连接,以增强运动信息,同时保留场景信息。Xo=X+X<$A,Xo∈RN×T×C ×H ×W,(5)其中Xo是所提出的模块的输出,其中运动模式已经被激发和增强。⊙表示通道乘法。而不考虑时间信息。 2)SENet是一种自选通机制[40],并且所获得的调制权重用于增强特征X的信息通道。而我们的模块旨在增强功能的运动敏感成分。3)在SENet中,无用的通道将被完全抑制,但通过引入剩余连接,静态背景信息可以保留在我们的模块中。3.2. 多时态聚合(MTA)模块先前的动作识别方法[36,34]通常采用局部时间卷积来一次处理堆叠的本地操作。这是一种无效的方法,因为从远距离帧传递的优化消息已经被显著地削弱并且不能被很好地处理。为了解决这个问题,我们提出了多时态聚合(MTA)模块来进行有效的长距离时态建模. MTA模块受到Res2Net [10]的启发,其中时空特征和相应的局部卷积层被分成一组子集。这种方法是有效的,因为它不引入额外的参数和耗时的操作。在该模块中,子集被公式化为分层残差架构,使得一系列子卷积被连续地应用于特征,并且可以相应地扩大时间维度的等效感受野。如图2的右上角所示,给定输入特征X,典型的方法是利用单个局部时间卷积和另一空间卷积来处理它。与此不同的是,我们沿着通道维度将特征分成四个片段,并且每个片段的形状因此变为[N,T,C/4,H,W]。局部卷积也被分成多个子卷积。最后三个片段被顺序处理具有一个逐通道的时间子卷积层和另一个空间子卷积层。每一个都只有原始参数的1/4。此外,在相邻的两个片段之间增加了剩余连接,将模块从并行结构转换为层次级联结构。形式1,Xo=Xi,i=1,Xo=convspa(convtempXi),i=2,Xo= convspa(convtemp(Xi+Xo)),i=3,4,3.1.1与SENetii−1(六)激励方案首先由SENet [18,17]提出我们想突出我们的1为了简单起见,忽略了必要的整形和置换操作。事实上,为了对输入特征X进行1D时间卷积,需要将其从[N,T,C,H,W]重新整形为[NHW,C,T]。913我14+Y1 2 341x1,二维转我MTA1x1,二维转+Y1x1,二维转换三乘三二维转换1x1,二维转换例如,日常生活对象对这些相互作用进行分类需要更多(a) ResNet块。(b) 茶块。图3.运动激励(ME)模块放置在第一个1×1卷积层之后。利用多时间聚合(MTA)模块代替3×3卷积层。其中Xo∈RN×T×C/4×H ×W是第i个conv_temp表示核大小为3的1D逐通道时间子卷积,并且conv_spa表示3×3的2D空间子卷积。在本模块中,不同的片段具有不同的感受野例如,第一个片段X o的输出与输入片段X1相同;因此,它的感受野是1×1×1。通过串联聚合前几个片段的信息,最后一个片段的等效感受野Xo被放大了三倍。最后,采用一种简单的级联策略来合并多个输出。Xo= [Xo;Xo;Xo;Xo],Xo∈RN×T×C ×H ×W(7)所获得的输出特征Xo涉及捕获不同时间范围的时空表示。它优于典型方法中通过使用单个局部卷积获得的局部时间表示。3.3. 与ResNet Block集成最后,我们描述了如何将所提出的模块集成到标准ResNet 块 [14] 中 , 以 构 建 我 们 的 时 间 激 励 和 聚 合(TEA)块。该方法如图3所示。For computational为了提高效率,运动激励(ME)模块被集成到瓶颈层(第一个1×1 Conv层)之后的残留路径中。利用多时间聚合(MTA)模块代替剩余路径中原有的3×3 Conv层。动作识别网络可以是通过堆叠TEA块来构建。4. 实验4.1. 数据集该方法在两个大规模动作识别数据集Something-Something V1 [12]和Kinetic 400 [3]以及其他两个小规模数据集HMDB 51 [23]和UCF 101 [33]上进行了评估。如[45,51]所指出的,动力学,HMDB和UCF中的大多数类别可以通过仅考虑背景场景信息来识别,而时间理解则不是时间信息的考虑。因此,所提出的方法主要是评估的东西,因为我们的目标是提高时间建模能力。Kinetics包含400个类别,并提供240k培训视频和240k验证视频的下载URL链接。在我们的实验中,我们成功地收集了223,127个训练视频和18,153个验证视频,因为一小部分URL(约10%)不再有效。对于Kinetics数据集,在训练集上学习方法,并在验证集上进行评估。HMDB包含51个类别和6,766个视频,而UCF包含101个类别和13,320个视频。对于这两个数据集,我们遵循TSN [42],利用三种不同的训练/测试分割进行评估,并报告平均结果。Something-Something V1包含174个类别,86,017个培训视频,11,522个验证视频和10,960个测试视频。所有这些都以相同的速率被分割成单独的帧,并且提取的帧也是公开的。这些方法在训练集上学习,并在验证集和测试集上进行测量。4.2. 实现细节我们使用2D ResNet-50作为主干,并将每个ResNet块替换为从conv 2到conv 5的TEA块。稀疏采样策略[42]用于从视频剪辑中提取T帧(在我们的实验中T = 8或16)。在训练过程中,随机缩放和角落裁剪用于数据增强,并且对于每帧2,裁剪区域的大小被调整为224×224。在测试过程中,考虑来权衡准确性和速度。1)高效协议(中心裁剪×1个剪辑),其中从视频中采样具有T帧的1个剪辑。每帧的大小调整为256×256,并裁 剪 大小为224×224的 中 心区域用于动作预测。2)准确性协议(全分辨率×10个剪辑),其中从视频中随机抽取10个不同的剪辑并且通过平均所有剪辑的分数来获得最终预测。对于视频剪辑中的每一帧,我们遵循[43]提出的策略,并在保持纵横比的情况下将较短的大小调整为256。然后对覆盖全帧的3个256×256的作物进行采样以用于动作预测。4.3. 实验结果4.3.1消融研究在本节中,我们首先进行了几次消融实验,以证明我们提出的TEA块中不同成分的有效性。在不失一般性的情况下,模型在Something-Something V1训练集上使用8帧进行训练,并在验证集上进行评估六在大多数情况下非常重要。虽然类别一些东西,一些东西专注于人类的互动与2更多的培训细节可以在补充材料中找到。914+Y0.1x1.3,三乘三1x1,+ Y表1. 比较结果的东西。二维转换一维转换二维转换二维转换ValVala. (2+1)DResNet块。方法帧×作物×Cl1x1,二维转换3,一维转换3x3、2DConv3x3、2DConv3x3、2DConv1x1,二维转换b. (2+1)DRes2Net块。Yc. 多时间聚合(MTA)块。1x1,二维转我3,一维转3x3,1x1,二维转换二维转换+Yd. 运动激励(ME)块。1x1,二维转SE3,一维转3x3,1x1,二维转换二维转换+Ye. (2+1)DSENet块。1x1,二维转我3,无残留一维转换3x3,1x1,二维转换二维转换+Yf. ME无残留阻滞。图4.不同基线的更改块基于标准ResNet块[14]。基线网络被认为是比较,其相应的块如图4所示。比较结果,包括分类准确度和推断协议,如表1所示。• (2+1)D ResNet。在标准ResNet块的残差分支中,在第一个2D空间卷积之后插入1D逐通道时间卷积。• (2+1)D Res2Net。将逐通道时间卷积集成到Res2Net块中[10]。在Res2Net中,ResNet块的3×3空间卷积被变形为一组子卷积。• 多时间聚合(MTA)。运动激励模块从建议的TEA网络中删除• 运动激励(ME)。与(2+1)维ResNet基线相比,本文提出的运动激励模型被添加到残差路径中。• (2+1)D SENet. SE模块[18,17]取代ME基线中的运动激励模块。SE块利用两个完全连接的层来产生调制权重,然后应用所获得的权重来重新缩放特征。• ME不含残留。从ME基线移除剩余连接因此,通过直接将输入特征与运动敏感权重相乘来获得输出特征,即,Xo=XA。1. XX(y). XX表示XX基线,y表示对应块的架构是图4中的第y个。2. 使用有效推理协议的STM结果引自[20]中的表9。多重时间聚合的效果。首先,从表1的第一个区室可以看出,MTA基线的性能大大优于(2+1)D ResNet基线(47.5%vs. 46.0%)。与(2+1)维ResNet基线相比,MTA模块利用分层结构扩大了各块时间维度的等效感受野,可以构建具有长距离时间聚集能力的时间聚集,从而提高了性能.此外,考虑到所提出的MTA模块扩大了空间和时间感受野,因此有必要确定这两个方面的独立影响。为此,我们将(2+1)D ResNet基线与(2+1)D Res2Net基线进行比较。在(2+1)维Res2Net模型中,子卷积群只应用于空间维,时间维的等效感受我们可以看到 , 两 种 基 线 的 准 确 性 相 似 , 均 低 于 MTA(46.0%/46.2%vs.47.5%)。这证明了探索复杂的空间结构和复杂的空间表征在一定程度上限制了动作识别任务的影响。提高动作识别性能的关键是具有可靠的时态建模能力。运动建模的效果。 为了验证运动建模对动作识别的有效性,我们将ME基线与(2+1)D ResNet基线进行了比较。在从表1的第二部分,我们可以看到,通过考虑运动编码,动作识别性能显著提高(48.1%vs.46.0%)。运动敏感特征的发现将迫使网络关注反映实际动作的动态信息。为了证明这种改进不是通过引入额外的参数和软注意机制带来的,1x1,二维转MTA1x1,二维转+ipsTop-1(%)Top-5(%)1(2+1)D ResNet(a)8× 1× 146.075.31(2+1)D Res2Net(b)8× 1× 146.275.51MTA(c)8× 1× 147.576.4TEA 8× 1× 148.978.11(2+1)D ResNet(a)8× 1× 146.075.31(2+1)D SENet(e)8× 1× 146.575.61ME(不含残留量)(f)8× 1× 147.276.12STM [20] 8× 1× 147.5-1ME(d)8× 1× 148.477.5TEA 8× 1× 148.978.1915表2. TEA与其他最先进方法在Something-Something V1上的比较结果。方法骨干帧×作物×剪辑FLOPs训练前确认和确认测试前1(%)前5(%)前1(%)3D/(2D+3D)CNN:I3D-RGB [44]3DResNet50 153G×3×2 ImgNet 41.6 72.2-[44]第四十四话3D ResNet5032×3×2168G×3×2+44.476.0-NL I3D+GCN-RGB [44]3D ResNet50+GCN303G×3×2K40046.176.845.0ECO-RGB [52]8×1×132G×1×139.6--[52]第五十二话BNIncep+3D Res1892×1×1267G×1×1K40046.4-42.3[52]第52话最后一句话九二加九二不适用249.5-43.92D/(2+1)D CNN:TSN-RGB [42]TSN-RGB [42]BNInceptionResNet508×1×116G×1×133G×1×1ImgNet19.519.7----STM-RGB [20]STM-RGB [20]ResNet508×3×1016×3×1033G×3×1067G×3×10ImgNet49.250.779.380.4-43.1TSM-RGB [25]TSM-RGB [25]ResNet50TSMen-RGB [25] 8 + 16 33G +65G 46.8 76.1-TSM-(RGB+Flow)[25]十六+十六不适用2K40050.279.547.0茶(我们的)8×1×135G×1×148.978.1-茶(我们的)8×3×1035G×3×1051.780.545.3茶(我们的)ResNet5016×1×170G×1×1ImgNet51.980.3-茶(我们的)16×3×1070G×3×1052.381.946.61. “ImgNet”2. “N/A”然后,我们将(2+1)D SENet基线与(2+1)D ResNet基线进行比较。(2+1)D SENet在干线路径的开始处添加SE块,旨在激发信息特征通道。然而,SE块被独立地应用于视频的每个帧,并且在该方法中不考虑时间 信 息 。 因 此 , ( 2+1 ) D SENet 基 线 的 性 能 与(2+1)D ResNet基线相似(46.5%vs. 46.0%)。改进是相当有限的。最后,我们探讨了几种运动建模的设计我们首先将ME基线与ME w/o残差基线进行比较可以看出,在没有残余连接的情况下,性能从48.1%下降到47.2%,因为在ME w/o Residual中,与背景场景相关的静态信息将被消除。证明了场景信息对动作识别也是有益的,而残差连接对于运动激励模块是必要的。我们将其与《易经》相比较,我们可以看到,ME比STM获得更高的准确性(48.4%vs.47.5%),这验证了所提出的方法中使用的激发机制优于STM中使用的简单添加当通过引入MTA模块额外考虑长期时间关系时,我们的方法(TEA)的准确度可以进一步提高到48.9%。4.3.2与最先进技术的比较在本节中,我们首先将TEA与Something上现有的最先进的动作识别方法进行比较,V1和Kinetics400。综合统计,包括分类结果,推理协议和相应的FLOP,如表2和3所示。在这两个表中,第一个分区包含基于3D CNN或2D和3D CNN的混合的方法,并且第二个分区中的方法都基于2D或(2+1)D CNN。由于3D CNN的高计算成本,第一个隔室中的方法的FLOP通常高于其他隔室。在所有现有的方法中,最有效的方法是TSN8f [42]和TSM8f[25],只有33G FLOP。与这些方法相比,我们提出的TEA网络的FLOP略增至35G(1.06倍),但性能大幅提升,相对提升5.4%(48.8%vs.43.4%)。我们的茶对某事的优越性是相当令人印象深刻的。它证实了显着的能力,TEA的时间建模。采用高效的推理协议(center crop×1 clip)和8个输入帧,该算法获得了48.8%的平均效率,显著优于TSN和具有相似FLOP的TSM(19.7%/43.4%)。这一结果甚至超过了TSM的集成结果,TSM分别使用8帧和16帧组合了两个模型(TSMEn,46.8%)。当使用16帧作为输入并应用更费力的精度评估协议(全分辨率×10个剪辑),我们的方法的FLOP增加到2000G,这与NL I3D+GCN类似[44]。 但所提出的方法显着优于NLI3D+GCN和所有其他现有方法(52.3%vs.46.1%)。我们在测试集8×1×1 33G×1×1ImgNet43.473.2-16×1×1 65G×1×1+44.874.5-916表3. TEA与其他最先进方法在Kinetics400验证集上的比较结果。方法骨干帧×作物×剪辑FLOPs预训练前1名(%)前5名(%)3D/(2D+3D)CNN:I3D-RGB[3]I3D-RGB [3]Inception V164×不适用×不适用1108G×N/A×N/A108G×N/A×N/AImgNet无72.167.590.387.2[52]第五十二话BNIncep+3D Res1892×1×1267G×1×1没有一70.0-[44]第四十四话3D ResNet10132×6×10359G×6×10ImgNet77.793.3荷兰SlowFast [7]3D ResNet101(16+8)×3×10234G×3×10没有一79.893.92D/(2+1)DCNN:TSN-RGB [42]TSN-RGB [42]BNInceptionInception v325×10×153G×10×180G×10×1ImgNet69.172.588.790.2[38]第三十八届全国人民代表大会代表ResNet-3432×1×10152G×1×10没有一72.090.0STM-RGB [20]ResNet5016×3×1067G×3×10ImgNet73.791.6TSM-RGB [25]TSM-RGB [25]ResNet508×3×1016×3×1033G×3×1065G×3×10ImgNet74.174.7--茶(我们的)8×1×135G×1×172.590.4茶(我们的)茶(我们的)ResNet508×3×1016×1×135G×3×1070G×1×1ImgNet75.074.091.891.3茶(我们的)16×3×1070G×3×1076.192.51. “ImgNet”2. “N/A”(46.6%)也优于大多数现有方法。此外,我们不需要额外的COCO图像[26]如[44]中那样预训练对象检测器。当与利用RGB和光流模态的方法相比时,即,ECOEn-(RGB+Flow)[52](49.5%)和TSM-(RGB+Flow)[25](50.2%),获得的结果(52.3%)也显示出实质性的改善。在Kinetics400上,我们的方法的性能(76.1%)劣于SlowFast [7](79.8%)。然而,SlowFast网络采用基于3D CNN的更深网络(ResNet101),并利用耗时的非局部[43]操作。当比较具有类似效率的方法时,例如TSM[25]和STM [20],TEA获得更好的性能。当采用8帧作为输入时,TEA的准确率比TSM高出101%(75.0%vs.74.1%)。 虽然使用16个输入帧,我们的TEA方法性 能 优 于 TSM16f 和 STM16f , 具 有 较 大 的 利 润 率(76.1%vs.74.7%/73.7%)。最后,我们在表4中报告了HMDB 51和UCF 101的比较结果。我们的方法在HMDB51和UCF101上的准确率分别为73.3%和96.9%。我们的模型(TEA16f)的性能优于大多数现有方法,除了I3D [3]。I3 D基于3DCNN和附加输入模态;因此,它的计算FLOPs将远远超过我们。5. 结论在本文中,我们提出了时间激励和聚合(TEA)块,包括运动激励表4. HMDB51和UCF101的比较结果。方法骨干HMDB51MCA(%)1UCF101MCA(%)1I3D-(RGB+Flow)[3]3D初始80.798.0TSN-(RGB+Flow)[42]BNInception68.594.0StNet [13]ResNet50-93.5TSM2ResNet5070.794.5STM [20]ResNet5072.296.2茶(我们的)ResNet5073.396.91. MCA表示平均类别准确度。2. TSM未报告MCA结果,所列结果引自STM [20]。(ME)模块和多时态聚合(MTA)模块,用于短期和长期时态建模。具体地,ME模块可以将运动编码插入时空特征学习方法中,并增强时空特征中的运动模式。在MTA模块中,通过将局部卷积变形为一组子卷积来扩大等效的时间感受野,可以建立可靠的长程时间关系。这两个模块被集成到标准的ResNet块中,并合作进行时间建模。6. 确认这项工作得到了腾讯平台和内容组(PCG)视频理解中间平台的支持。作者要感谢魏申的有益建议。917引用[1] Hakan Bilen,Basura Fernando,Efstratios Gavves,andAndrea Vedaldi.基于动态图像网络的动作识别。IEEETransactionsonPatternAnalysisandMachineIntelligence,40(12):2799[2] Hakan Bilen , Basura Fernando , Efstratios Gavves ,Andrea Vedaldi,and Stephen Gould.用于动作识别的动态图像网络。在CVPR中,第3034-3042页[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[5] Ali Diba , Mohsen Fayyaz , Vivek Sharma , AmirHossein Karami , Mohammad Mahdi Arzani , RahmanYousefzadeh, andLucVanGool.Temporal3DConvnets : New Architecture and Transfer Learning forVideo Classification.arXiv 预 印 本 arXiv : 1711.08200 ,2017。[6] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在CVPR,第2625-2634页[7] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He. 用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集,第6202-6211页[8] Christoph Feichtenhofer , Axel Pinz , and Richard PWildes.用于视频动作识别的时空倍增器网络。在CVPR中,第4768-4777页[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,第1933-1941页[10] Shang-Hua Gao,Ming-Ming Cheng,Kai Zhao,Xin-YuZhang,Ming-Hsuan Yang,and Philip Torr. Res2net:一种 新 的 多 尺 度 骨 干 网 架 构 。 arXiv 预 印 本 arXiv :1904.01169,2019。[11] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR中,第971- 980页[12] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某事某事”视频数据库。在ICCV,第5843-5851页[13] Dongliang He,Zhichao Zhou,Chuang Gan ,Fu Li,Xiao Liu , Yandong Li , Limin Wang , and ShileiWen.Stnet:用于动作识别的局部和全局时空建模。在AAAI,第8401-8408页[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[15] Kaim
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功