没有合适的资源?快使用搜索试试~ 我知道了~
运动特征网络:用于动作识别的固定运动滤波器Myunggi Lee1, 2,*,Seungeui Lee1,*,Sungjoon Son1, 2,GyutaePark1, 2,and Nojun Kwak11首尔国立大学,韩国首尔{myunggi89,dehlix,sjson,pgt4861,nojunk}@ snu.ac.kr2V.DO Inc.,韩国水原抽象。帧序列中的时空表示在动作识别任务中起着重要的作用先前,使用光流作为时间信息结合包含空间信息的RGB图像的集合的方法已经在动作识别任务中显示出很大的性能增强然而,它具有昂贵的计算成本,并且需要双流(RGB和光流)框架。 在本文中,我们提出了MFNet(运动特征网络)包含运动块,这使得它可以在一个统一的网络,可以训练端到端的相邻帧之间的时空信息编码。运动块可以附加到任何现有的基于CNN的动作识别框架,仅需要很小的额外成本。我们在两个动作识别数据集(Jester和Something-Something)上评估了我们的网络,并通过从头开始训练网络,在两个数据集上都取得了有竞争力的性能关键词:动作识别·运动滤波器·MFNet·时空表示1介绍卷积神经网络(CNN)[17]最初设计用于表示很好地发送了视觉场景的静态外观。然而,如果底层结构的特征在于顺序和时间关系,则它具有限制。特别是,由于识别视频中的人类行为需要空间外观和时间运动作为重要线索,因此许多先前的研究已经利用了可以捕获运动信息的各种模态,例如光流[33]和RGBdiff(连续RGB帧中的时间差)[33]。基于双流[33,21,7]和利用这些输入模态的3D卷积[28,2]的方法动作识别然而,即使光流是提供短期时间信息的广泛使用的模态,它也需要大量的时间来生成。吃过了同样,基于3D内核的方法(如3D ConvNets)也需要大量的计算负担和高内存需求。* M.Lee和S.李同样贡献了论文。这项工作得到了韩国政府MSIP/IITP ICT研发计划的支持(2017-0-00306)2M. 李,S。李,S。儿子GPark和N.KwakFig. 1.三个动作识别数据集中的动作类的一些例子,Jester(上),Something-Something(中)和UCF 101(下)。-由于对称对类/动作的二义性,在前两个数据集中,只有静态图像不足以识别没有序列信息的正确标签。然而,在底部UCF101图像帧的情况下,可以仅利用空间上下文(例如,空间上下文)来识别动作类。G.背景和对象)。在我们看来,大多数以前的标记动作识别数据集,如UCF 101[24],HMDB 51 [16],Sports-1 M [13]和THUMOS [12],都提供了人类行为的高度因此,它们可以在没有顺序帧的时间关系的帮助下被识别。例如,UCF101中的“Billiard”和“TableTennisShot”可以很容易地通过仅看到如图3的第三行中所示的一个帧来识别。1.与这些数据集不同,Jester [1]和Something-Something [8]包括动作和场景的更详细的物理方面。外观信息在对这些数据集的动作进行分类时具有非常有限的有用性。此外,主要提供形状信息的场景中的视觉对象对于识别这些数据集上的动作的目的不太重要。特别是,Something-Something数据集在对象和动作类之间几乎没有相关性,正如其名称所暗示的那样。图的前两行。1显示了这些数据集的一些示例。如图1所示,仅用一个图像很难对动作类进行分类。此外,即使存在多个图像,也可以根据时间顺序来改变动作类。因此,当使用传统的静态特征提取器时,它很容易被混淆因此,提取连续帧之间的时间关系的能力对于在这些数据集中分类人类行为是重要的。为了解决这些问题,我们引入了一个统一的模型,它被命名为运动特征网络(MFNet)。MFNet包含专门设计的运动块,仅从RGB帧表示时空关系。因为它只使用RGB提取时间信息,所以与现有的基于光流的方法相比,不需要计算光流通常所需的预计算此外,由于MFNet基于2D CNN架构,因此与3D同行相比,它的参数更少。运动特征网络3我们形成了一个快速算法,以提高我们的模型在几个公开可用的动作识别数据集上的实时特征的能力。在这些数据集中,每个视频标签与帧之间的顺序关系密切相关。仅使用RGB帧训练的MFNet显著优于以前的方法。因此,MFNet可以用作由详细物理实体的顺序关系组成的视频中的动作分类任务的良好解决方案我们还进行消融研究,以更详细地了解MFNet的特性。本文的其余部分组织如下。在第2节中讨论了动作识别任务的一些相关工作然后在第3节中,我们详细介绍了之后,在第4节中介绍和分析了消融研究的实验结果。最后,本文在第5节中进行了总结。2相关作品随着CNN在各种计算机视觉任务上的巨大成功,越来越多的研究试图利用深度学习的特征进行视频数据集中的动作识别。特别地,由于输入数据的连续帧意味着连续的上下文,时间信息以及空间信息是分类任务的重要线索。已经有几种方法来提取这些时空特征的动作识别问题。学习时空特征的一种流行方法是分层使用3D卷积和3D池化[28,36,29,9,6]。在这种方法中,他们通常堆叠视频剪辑的连续帧并将其馈送到网络中。3D卷积具有足够的容量来对密集采样帧上的时空信息进行编码,但在计算成本方面效率低下。此外,与其他方法相比,要优化的参数的数量相对较大。因此,很难在小数据集上进行训练,例如UCF101 [24]和HMDB51 [15]。为了克服这些问题,Carreiraetal.[2]引入了一个名为Kinetics的新的大型数据集[14],它有助于训练3D模型。他们还建议从2D卷积滤波器中膨胀3D卷积滤波器,以从预训练的ImageNet [4]模型中引导参数。它在动作识别任务中实现了最先进的性能。另一种著名的方法是由Si-monyan等人提出的基于双流的方法。[22]第20段。它编码两种模态,即图像的原始像素和从两个连续的原始图像帧中提取的光流它通过对来自单个RGB帧和外部计算的多个光流帧的堆栈的预测进行平均来预测动作类基于双流框架[33,21,7],已经提出了大量的后续研究[32,18,35]来提高动作识别的性能作为对先前双流法的扩展,Wanget al.[33]提出了时间段网络。它在整个视频序列中的不同时间段上采样图像帧和光流帧,而不是短片段,然后独立地训练RGB帧和光流帧。在推理时,它4M. 李,S。李,S。儿子GPark和N.Kwak累积结果以预测活动类。虽然它比传统方法[3,30,31]带来了显著的改进,但它仍然依赖于计算昂贵的预先计算的光流。为了取代手工制作的光流的作用,已经有一些工作将类似于光流的帧作为卷积网络的输入[33,36]。另一行作品仅在训练阶段使用光流他们训练了一个网络,该网络从原始图像重建光流图像,并将估计的光流信息提供给动作识别网络。最近,Sunet al. [26]提出了一种光流引导特征提取方法。它通过分别应用时间减法(时间特征)和Sobel滤波器(空间特征)从相邻帧中使用两组特征提取运动表示。我们提出的方法是高度相关的这项工作。不同之处在于,我们在统一的网络中前馈空间和时间特征,而不是将两个特征分开。因此,可以以端到端的方式训练所提出的MFNet3模型在本节中,我们首先介绍所提出的MFNet的总体架构,并且给出了我们提供了几个运动滤波器和运动块的实例来解释它背后的直觉。3.1运动特征网络所提出的MFNet架构如图2所示我们基于时间段网络(TSN)[33]构建了我们的架构,该架构适用于从整个视频中采样的K个片段序列我们的网络由两个主要部分组成。一种是对空间信息进行编码的外观块。这可以是图像分类任务中使用的任何架构。在我们的实验中,我们使用ResNet [10]作为表观块的骨干网络。另一个组件是对时间信息进行编码的运动块。为了对运动表示进行建模,其采用来自相同层级3的对应连续帧的两个连续特征图作为输入,并且然后使用将在下一小节中描述的一组固定运动滤波器来提取时间信息。在每个层次结构中提取的空间和时间特征应该被适当地传播到下一个层次结构。为了充分利用这两种类型的信息,我们提供了几种方案来积累它们的下一个层次。3.2运动表示为了捕获运动表示,动作识别中常用的方法之一是使用光流作为CNN的输入尽管其重要3我们使用术语hierarchy来表示抽象层次。层或层块可以对应于层级。运动特征网络5图二、MFNet的整体架构该网络由表观块和运动块组成,对空间和时间信息进行编码。运动块从相应的外观块中提取两个连续的特征图,并利用所提出的固定运动滤波器提取时空信息。来自外观块和运动块的累积特征图被用作下一层的输入。该图显示了K= 7的情况。由于光流在动作识别任务中的重要作用,因此在实践中光流在计算上是昂贵的为了取代光流的作用和提取时间特征,我们提出了与光流有密切关系的运动滤波器。光流的近似为了分层地近似特征级光流,我们提出了一种称为运动滤波器的模块化结构。通常,光流的亮度一致性约束定义如下:I(x+∆x,y+∆y,t+∆t)=I(x,y,t),(1)其中I(x,y,t)表示在时间t. 这里,∆x和∆y分别表示水平轴和垂直轴上的空间位移满足(1)的光流(∆x,∆y)在图像的每个位置处在时间t和t+∆t的两个连续图像帧之间计算最初,解决光流问题是通过优化技术找到最优解(∆x*,∆y*)然而,在没有诸如空间或时间平滑性假设的附加约束的情况下,难以直接求解而且,获得密集(逐像素)光流需要很多时间本文的主要目标是找到来自光流的时间特征,以帮助分类动作识别,而不是找到最佳的。6M. 李,S。李,S。儿子GPark和N.Kwak图3.第三章。运动滤镜运动滤波器从两个连续的特征图生成时空特征时间t+Δ t处的特征图被移位预定义的一组固定方向,并且它们中的每一个被从时间t处的特征图中减去。运动滤波器将来自各个方向的特征连接起来,可以表示时空信息。光流的错误解。因此,我们通过替换将(1)扩展到特征空间- 具有对应特征图F(x,y,t)的图像I(x,y,t),并且如下定义残差特征RRl(x,y,∆t)=Fl(x+∆x,y+∆y,t+∆t)−Fl(x,y,t), (2)其中,1表示层或层级的索引,F1是来自基本网络的第1个R是由来自相同层l的两个特征产生的残余特征。给定Δ x和Δ y,可以通过减去时间t和t+Δ t处的两个相邻特征来容易地计算残差特征R。为了充分利用特征级中的光流约束,R倾向于具有较低的绝对强度。由于在特征图的每个位置中搜索最低绝对值是微不足道的但耗时的,我们设计了一组预定义的固定方向D={(∆x,∆y)}来限制搜索空间。为了方便起见,在我们的实现中,我们限制Δ x,Δ y∈ {0,±1}和|∆x|+的|∆y| ≤ 1。沿着图像空间中的每个空间维度移位一个像素负责捕获少量的光流(即:e. 小的移动),而在CNN的更高层级处的特征空间中的一个像素可以捕获更大的光流(即,小的移动)。e.大的运动),因为它看起来在一个更大的感受野。运动滤波器运动滤波器是一种模块化结构,由两个特征图计算,这两个特征图是从共享网络中提取的,由两个连续帧作为输入进行前馈如图3所示,运动滤波器将时间t和t+tt处的特征F1(t)和F1(t+t)作为输入。如图3所示,预定义的一组方向D仅应用于时间t+Δ t处的特征我们遵循[34]中提出的移位运算它在不同的空间方向上移动其输入张量的每个通道δ,(∆x,∆y)∈D。这可以替代地使用广泛使用的深度卷积来完成,其内核大小由最大运动特征网络7t+Δtt+Δt在D中的∆x和∆y的值。例如,在我们的条件下,∆x,∆y∈ {0,±1},我们可以用3× 3内核实现,如图3所示。形式上,移位运算可以公式化为:ΣGδ=KδF,(3)k,l,mi、ji、jk+i,l+j,mδi,j.1如果i=∆x且j=∆y,=0否则。(四)这里,下标表示矩阵或张量的索引,δ,(∆x,∆y)∈D是一个Disp lacementvector,F∈RW×H×C是输入sor,且Di=i−W/2n,j=j−索引k,l和i,j是沿着空间维度的索引,并且m是通道方向的索引。指数. 我们得到一个集合G={Gδ|δ ∈ D}, where Gδ表示移位的FEA。在时间t+∆t,通过δ的量绘制真实地图。然后,将它们中的每一个减去Ft4。由于级联特征图是通过在空间移位特征之上的时间减法来构建的,因此特征图包含适合于动作识别的时空信息。如第2节所述,这与[26]中的光流引导特征完全不同,[26]中的光流引导特征使用通过时间减法和空间Sobel滤波器获得的两种类型的特征图此外,它也是来自[ 5]中的Ub t t r e r a tina t i n at子特征映射或相关映射被用于找到对应关系以用于更好的重构,而所提出的运动滤波器旨在经由可学习的参数对两个特征映射之间的方向信息进行编码。3.3运动块如上所述,运动滤波器是模块化结构,其可以被采用到在时间上连续的两个外观块的任何中间层。为了正确地传播时空信息,我们提供了几个构建块。受最近在许多具有挑战性的图像识别任务中使用的残差网络(ResNet)中的残差块的成功启发,我们开发了一种新的构建块,称为运动块,以将两个相邻外观块之间的时空信息传播到更深的层。元素求和一种简单而直接的方法来聚合两种不同的信息特征是元素求和运算。所示图 4(a),一组运动特征Rδ,Ft−Gδ∈RW×H×C,δ∈D,gen-tt+t由运动滤波器产生多个信号沿信道维度级联以产生t ens或Mt=[Rδ1|Rδ2|···|RδS]∈RW×H×N,其中re[·|·]deno tesaconcatenationt t t4为方便起见,这里我们用符号Ft和Gt+∆t代替F(t)和G(t+ ∆ t(同上)。下标的意义在上下文中是显而易见K8M. 李,S。李,S。儿子GPark和N.Kwak(a) 逐元素求和(b)级联图4.第一章从外观块和运动滤波器聚合空间和时间信息的两种方式操作,N=S×C,S是D中预定义方向的数量。它是由1×1压缩文件组成的,用于以与Ft相同的维数来复制输出Mt。最后,来自外观块Ft的特征和来自MotionFilltersMtare的特征被汇总到输入到索引层次结构。连接组合外观和运动特征的另一种流行方式是通过连接操作来计算。在本文中,如图4(b)中所描绘的,上述运动特征Mt与外观特征Ft中的在级联后还利用一组1× 1卷积滤波器对空间和时间信息进行1× 1卷积如我们所期望的那样减少了信道维度它还隐式地编码时空特征以找到两种不同类型的特征之间的关系:外观和运动特征。4实验在这一节中,建议MFNet应用于动作识别问题和MFNet的实验结果与其他动作识别方法进行了比较。作为数据集,Jester [1]和Something-Something [8]被使用,因为这些数据集不能通过仅看到第1节中提到的帧来轻松识别它们也适合于观察所提出的运动块的有效性我们还进行了全面的消融研究,以证明MFNet的有效性。4.1实验装置为了对具有运动块的视频分类任务进行全面的消融研究,首先,我们描述了我们的基础网络框架。运动特征网络9基础网络框架我们选择TSN框架[33]作为我们的基础网络架构来训练MFNet。TSN是一个高效的视频处理框架,用于动作识别任务。TSN从整个视频中采样帧序列,并将各个预测聚合到视频级分数中。因此,TSN框架非常适合我们的运动块,因为每个块直接以批处理方式提取相邻片段之间的时间关系在本文中,我们主要选择ResNet [10]作为我们的基础网络来提取空间特征图。为了清楚起见,我们将其分为六个阶段。每个阶段都有许多堆叠的残差块,每个块由几个卷积和批量归一化[11]层组成,其中包含用于非线性的整流线性单元(ReLU)[19]。最后一级由全局池化层和分类器组成。我们的基础网络与原始ResNet的不同之处在于,它在第一阶段包含最大池化层除此之外,我们的基础网络与传统的ResNet相同。骨干网络可以被任何其他网络架构所取代,并且我们的运动块可以以相同的方式插入到网络中,而不管所使用的网络类型如何。运动块为了形成MFNet,我们将运动块插入到基础网络中。在使用ResNet的情况下,每个运动块正好位于除了最后一个阶段(全局池化和分类层)之外的每个阶段的最后一个残差块之后。然后,MFNet自动学习表示来自连续帧的时空信息,从而使传统的基础CNN提取更丰富的信息,这些信息结合了外观和运动特征。我们还在每个运动块之前添加1× 1卷积以减少通道的数量。在整个论文中,我们使用1× 1卷积层将运动块的输入通道数量减少了16倍我们在1× 1卷积后添加了一个批量归一化层,以调整尺度以适应骨干网络中的特征。训练在Jester和Something-Something的数据集中,提供了以每秒12帧的速度从视频中提取的RGB图像,高度为100像素。为了增加训练样本,我们利用随机裁剪方法与尺度抖动。裁剪图像的宽度和高度通过将图像的较短边乘以在{1. 0,0。875,0。75,0。625}。 然后将裁剪后的图像调整为112×112,因为与其他数据集相比,原始图像的宽度相对较小。请注意,我们不对Jester数据集的裁剪图像采用随机水平翻转,因为有些类是对称的对,例如“向左滑动”和“向右滑动”,以及“向左滑动两个手指”和“向右滑动两个手指”。由于运动块从相邻的特征图中提取时间运动特征,因此帧之间的帧间隔是非常重要的超参数。我们已经用固定时间采样策略训练了我们的模型。然而,在我们的实验中,它导致了比中的随机抽样策略更差的结果10M. 李,S。李,S。儿子GPark和N.Kwak表1. Top-1和Top-5分类准确度,用于具有不同数量的训练段的不同网络(3,5, 7)。比较的网络是Jester和Something-Something验证集上的TSN基线、MFNet级联版本(MFNet-C)和MFNet元素求和版本(MFNet-S)。所有模型都使用ResNet- 50作为骨干网络,并从头开始训练数据集杰斯特什么-什么模型Ktop-1 acc.前5名top-1 acc.前5名3百分之八十二点四百分之九十八点九百分之六点六百分之二十一点五基线582.8%百分之九十八点九九点八厘百分之二十八点六781.0%百分之九十八点五百分之八点一百分之二十四点七3百分之九十点四百分之九十九点五百分之十七点四百分之四十二点六MFNet-C505百分之九十五点一百分之九十九点七百分之三十一点五61.9%7百分之九十六点一百分之九十九点七百分之三十七点三百分之六十七点二391.0%99.6%15.4%39.2%MFNet-S505百分之九十五点六百分之九十九点八百分之二十八点七59.1%7百分之九十六点三百分之九十九点八37.1%百分之六十七点八[33]第33段。对于随机间隔,该方法迫使网络通过由各种间隔组成的有趣的是,我们在Jester和Something-Something数据集上获得了更好的性能我们使用随机梯度下降算法来学习网络参数。批量大小设置为128,动量设置为0。9,权重衰减设置为0。0005.所有MFNets都是从头开始训练的,我们用批量归一化层训练我们的模型[11]。 学习率初始化为0。01,并以0的因子减小。每50个时期1个。训练过程在120个时期之后停止。 为了减轻过拟合效应,我们在全局池化层之后采用dropout [25],dropout比率为0。5. 为了加快训练速度,我们采用了多GPU数据并行策略,使用4个NVIDIA TITAN-X GPU。推理我们选择等距10帧没有随机移位。我们在图像大小重新调整为112× 112的采样帧上测试我们的模型之后,我们将每个帧的单独预测进行聚合,并在softmax归一化之前对其进行平均,以获得最终预测。4.2实验结果Jester[1]是一个用于通用人类手势识别的群众表演视频数据集。它包括118,562个用于培训的视频,14,787个用于验证的视频和14,743个用于测试的视频。Something-Something[8]也是一个人群行为的密集标记的视频数据集,记录了人类与日常物体的基本交互。它包含86017个用于训练的视频,11522个用于验证的视频,以及10960个用于测试的视频。这两个数据集分别用于涉及27和174个人类动作类别的动作分类任务我们报告验证运动特征网络11Table2. Top-1和Top-5分类了MF网络的基础网络的差异的分布。ResNet[10]被用作基础网络。值在JESTER上和Something-Something验证集。所有模型都是从头开始训练的,其中10个片段。数据集杰斯特什么-什么模型骨干top-1 acc.前5名top-1 acc.前5名ResNet-18百分之九十六点三百分之九十九点八百分之三十九点四百分之六十九点一MFNet-CResNet-50ResNet-101百分之九十六点六96.7%百分之九十九点八百分之九十九点八百分之四十点三43.9%百分之七十点九73.1%ResNet-15296.5%百分之九十九点八43.0%百分之七十三点二我们的模型在验证集上的结果,以及来自官方排行榜5、 6的测试结果。由于MFNet的性质,训练中的段数K是重要参数之一。表1示出了在使用相同的评估策略将段的数量从3改变为7的我们观察到,随着段的数量增加,整体模型的性能增加。具有7个网段的MFNet-C50(这意味着MFNet级联版本与ResNet-50作为骨干网络)的性能远远优于具有3个网段的相同网络:九十六。1%对比90。4%,37。3% vs. 十七岁Jester和Something-Something数据集分别为4%MFNet-S50的趋势是相同的,即具有逐元素求和的网络。此外,与基线TSN不同,MFNet随着段的数量从3增加到5而显示出显著的性能改进这些改进意味着增加K减小了采样帧之间的间隔,这使得我们的模型能够提取更丰富的信息。有趣的是,MFNet-S实现了略高的top-1精度(0. 2%至0。在Jester数据集上,MFNet-C的性能比MFNet-C好(0 .6%)。2%至2。8%)比MFNet-S在Something-Something数据集上更高。另一方面,由于TSN基线是从头开始学习的,因此性能比预期的要差。可以看出,没有预训练的TSN空间模型在Something-Something数据集中几乎没有生成任何与动作相关的视觉特征。网络深度的比较表2比较了作为M F Ne t的b ac k b on e n n w或k c h ange s的端部的性能。在表中,我们可以看到,在MFNet-C中,ResNet-18使用几乎少76%的参数(11. 68M与 50块23M)。众所周知,随着CNN变得更深,可以表达更多的特征[10,23,27]。然而,可以看到,因为Jester数据集中的大多数视频5www.twentybn.com/datasets/jester6https:www.twentybn.com/datasets/something-something12M. 李,S。李,S。儿子GPark和N.Kwak表3. Jester和Something-something数据集上各种方法的前1和前5验证结果的比较。K表示训练段的数量其他模型的结果来自各自的论文。数据集杰斯特什么-什么模型top-1 acc.前5名top-1 acc.前5名3D前CNN+平均值[8]多尺度TRN[37]美国(公告牌成人另类歌曲榜)[37]-93.70%95.31%-99.59%99.86%百分之十一点五33.01%34.44%30.0%61.27%63.20%MFNet-C50,K= 796.13%99.65%37.31%67.23%MFNet-S50,K= 796.31%百分之九十九点八37.09%67.78%MFNet-C50,K= 1096.56%百分之九十九点八二40.30%70.93%MFNet-S50,K= 1096.50%99.86%39.83%70.19%MFNet-C101,K= 1096.68%99.84%43.92%73.12%表4.来自官方排行榜的Jester和Something-Something数据集的选定测试结果由于检测结果不断更新,因此排除了一些未报告或描述缺失的结果测试结果的完整列表可在官方公共排行榜上获得我们的结果基于ResNet-101,K= 10,并从头开始训练对于提交,我们使用与验证模式相同的杰斯特什么-什么模型top-1 acc.模型top-1 acc.BesNet(来自[37])多尺度TRN [37]94.23%94.78%BesNet(来自[37])多尺度TRN [37]31.66%33.60%MFNet-C101(我们的)96.22%MFNet-C101(我们的)37.48%是由几乎相似的人类外观组成的,静态视觉实体与动作类的关系非常小。因此,网络深度似乎对性能没有显著影响在Something-Something的情况下,准确性也会饱和。可以解释的是,如果没有在其他大规模数据集(如Imagenet [4]和Kinetics [14])上预先训练的权重,模型的泛化似乎很困难。表3显示了验证集的前1和前5结果。 我们的模型优于Pre-3D CNN +Avg [8]和MultiScale TRN [37]。 由于Jester和Something-Something是动作识别研究领域最近发布的数据集,因此我们还报告了每个数据集的官方排行榜上的测试结果,以与以前的研究进行比较。表4示出MFNet实现了与具有96. 22% 和37。 在官方排行榜上,Jester和Something-Something测试数据集的前1名准确率分别为48%。请注意,我们不会在ImageNet [4]和Kinetics等大规模数据集上引入任何其他模态,集成方法或预训练的初始化权重运动特征网络13图五. TSN基线和我们在Jester数据集上提出的MFNet的混淆矩阵。该图最好以电子形式查看。[14]第10段。我们只使用官方提供的RGB图像作为最终结果的输入。此外,在没有3D ConvNets和其他复杂测试策略的情况下,我们的方法在Jester和Something- Something数据集上提供了有竞争力的性能。4.3MFNet的行为分析混淆矩阵我们分析了MFNet的有效性与基线比较。图5显示了Jester数据集上TSN基线(左)和MFNet(右)的混淆矩阵类编号和相应的类名称列在下面。图5表明基线模型将一个操作类与其对应类混淆。也就是说,它在分类时间对称的动作对时有困难。例如,(‘向左滑动’,‘向右滑动’)和(‘两个手指向下’,‘两个手指向上’)是时间对称对。在基线的情况下,它通过简单地平均重采样帧的结果。因此,如果没有光流信息,它可能无法区分一些时间对称的动作对。具体来说,我们得到62.38%的准确率在相比之下,我们的MFNet显示出相对于基线模型的显著改善,如图5(右)所示。在我们的实验中,我们得到的准确率为94.62%的这证明了MFNet在捕获运动表示方面的能力。在验证阶段改变分段数我们在推理阶段评估了具有不同帧数图614M. 李,S。李,S。儿子GPark和N.KwakK = 3K = 5K = 7准确度(%)1004090803070206010504002468101214161820222426验证帧数(a) 杰斯特002468101214161820222426验证帧数(b) 什么-什么见图6。用不同数量的段K训练验证准确度,同时将验证段的数量从2变化到25。x轴表示推断时的段数,y轴是用不同K训练的MFNet-C50的验证准确度。显示了MFNet-C50在Jester(左)和Something- Something(右)数据集上的实验结果。如第4.2节K中所讨论的,训练阶段中的分段数量是性能的关键参数。正如我们所看到的,对于所有数量的验证段,在大K(7)上的整体性能都是优越的同时,对于每个K,验证段的最佳数量是不同的。有趣的是,它不与K重合,而是略大于K。使用更多的片段减少了帧间隔,这允许提取更精确的时空特征。它带来了提高性能的效果。然而,如果训练和验证阶段的数字相差很大,它就不会持续下去5结论在本文中,我们提出了MFNet,一个统一的网络,包含外观块和运动块,可以代表空间和时间信息的动作识别问题。特别是,我们提出的运动滤波器,通过执行与固定的一组预定义的方向滤波器的移位操作,并减去所得到的特征图从前一帧的特征图输出的运动特征。该模块可以连接到任何现有的基于CNN的网络,只需少量额外费用。我们在两个数据集Jester和Something-Something上评估了我们的此外,我们进行全面的消融研究和分析MFNet的行为,以显示我们的方法的有效性。在未来,我们将在大规模动作识别数据集上验证我们的网络,并进一步研究所提出的运动块的有用性。K = 3K = 5K = 7准确度(%)运动特征网络15引用1. 20 bn-jester数据集。电子邮件www.twentybn.com/datasets/jester2. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。在:2017年IEEE计算机视觉和模式识别会议(CVPR)中。pp. 4724 - 4733.IEEE(2017)3. Dalal,N.,Triggs,B.,Schmid,C.:使用流量和流量的定向直方图进行人体检测。 In:Europeanconferenceoncommputtervision. pp.428-441 03The Dog(2006)4. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:计算机视觉和模式识别,2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02TheDog(2009)5. Dosovitskiy,A.,Fischer,P.,Ilg,E.,Hausser,P.,Hazirbas角戈尔科夫Van Der Smagt,P.,Cremers,D. Brox,T.:Flownet:学习光流与卷积网络。In:Proceedings of the IEEE International Conference on ComputterVision.pp. 27586. Feichtenhofer,C.,Pinz,A.,Wildes,R.:用于视频动作识别的时空残差网络。在:神经信息处理系统的进展。pp. 34687. Feichtenhofer,C.,Pinz,A.,齐瑟曼,A.:用于视频动作识别的卷积双流网络融合(2016)8. 戈亚尔河Kahou,S.E.,Michalski,V.,Materzynska,J.,Westphal,S.,Kim,H. Haenel,V.,弗伦德岛Yianilos,P.,Mueller-Freitag,M.等:学习和评估视觉常识的视频数据库。见:Proc. ICCV(2017)9. Hara,K.,Kataoka,H.,Satoh,Y.:利用三维残差网络学习动作识别的时空特征在:ICCV行动,手势和情绪识别研讨会的会议记录。第2卷,第4页(2017年)10. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 77011. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。pp. 44812. 江,Y.,刘杰,Zamir,A.R.,Toderici,G.,拉普捷夫岛Shah,M.,Sukthankar,R.:Thumos挑战:大量课程的动作识别(2014)13. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲 : 用 卷 积 神 经 网 络 进 行 大 规 模 视 频 分 类 。 在 : Proceedings oftheEEEconferenceonCon PuterVis isonandPater nRe gnitin中。pp. 第172514. 凯 , W. , 卡 雷 拉 , J. , 西 蒙 尼 扬 , K. , 张 , B. , 希 利 尔 角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后TNatsev,P.,等:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)15. Kuehne,H.,Jhuang,H. Garrote,E.,波焦,T.,塞尔,T.:HMDB:一个用 于 人 体 运 动 识 别 的 大 型 视 频 数 据 库 。 在 : 计 算 机 视 觉 国 际 会 议(ICCV)会议录(2011年)16. Kuehne,H.,Jhuang,H. Stiefeldam,R.,塞尔,T.:Hmdb51:一个用于人体运动识别的大型视频数据库。In:High Performance Computing in Sci-enceandEngineeringg12,pp. 571- 5 82. 第二章(20 13)16M. 李,S。李,S。儿子GPark和N.Kwak17. LeCun,Y.,Bengio,Y.,等:图像、语音和时间序列的卷积网络。脑理论和神经网络手册3361(10),1995(1995)18. Miech,A.,拉普捷夫岛Sivic,J.:用于视频分类的具有上下文门控的可学习池。arXiv预印本arXiv:1706.06905(2017)19. Nair,V.,Hinton,G.E.:整流线性单元改进受限玻尔兹曼机。第27届机器学习国际会议(ICML-10)。pp. 80720. Ng,J.Y.H.,崔,J.,Neumann,J.,Davis,L.S.:Actionflownet:学习动作识别的运动表示。arXiv预印本arXiv:1612.03052(2016)21. Ng,J.Y.H.,Hausknecht,M.,Vijayanarasimhan,S.,Vinyals,O.,蒙加河Toderici,G.:除了简短的片段:用于视频分类的深度网络。在:计算机视觉和模式识别(CVPR),2015年IEEE会议上。pp. 4694IEEE(2015)22. 西蒙尼扬,K.,齐瑟曼,A.:用于动作识别的双流卷积网络。 In:Avancesine ralinner matinpr oce ssssys ss. pp. 第56823. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv:1409.1556(2014)24. Soomro,K.,Zamir,A.R.,Shah,M.:Ucf101:来自野外视频的101个人类动作类的数据集arXiv预印本arXiv:1212.0402(2012)25. Srivastava,N.,Hinton,G. Krizhevsky,A.,萨茨克弗岛Salakhutdinov,R.:Dropout:一种防止神经网络过度拟合的简单方法。The Jour-nalofMac hi neLearni ng Reserc h15(1),192926. 孙,S.,匡,Z.,欧阳,W.盛湖张伟:光流引导特征:用于视频动作识 别 的 快 速 和 鲁 棒 的 运 动 表 示 CoRR abs/1711.11152 ( 2017 ) ,http://arxiv.org/abs/1711.1115227. 塞格迪角刘伟,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D.,Vanhoucke,V.,Rabinovich,A.,等:更深的回旋。Cvpr(2015)28. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功