没有合适的资源?快使用搜索试试~ 我知道了~
动态运动过滤器:视频中的动作识别与分类
6192发电机网Action类下一帧DynamoNet:动态动作和运动网络Ali Diba1,,Vivek Sharma2,,Luc Van Gool1,3,Rainer Stiefelhagen21ESAT-PSI,KU Leuv en,2CV:HCI,KIT,3CVL,ETHZürich{first.last}@ esat.kuleuven.be,{first.last}@kit.edu摘要在本文中,我们感兴趣的是自我监督学习的运动线索,在视频中使用动态运动过滤器,以更好的运动表示,最终提高人类的行动识别特别是。到目前为止,视觉community已经集中在使用标准滤波器的时空方法,而我们在这里提出动态滤波器,通过预测短期未来帧来自适应地学习视频特定的内部运动表示。我们将这种新的运动表示命名为动态运动表示(DMR),并作为一个新的层嵌入3D卷积网络内部同时,我们利用这些运动表示丰富的视频分类。我们设计了帧预测任务作为辅助任务,以增强分类问题的能力。有了这些总体目标,为此,我们引入了一种新的统一时空3D-CNN架构(Dy-namoNet),该架构通过预测未来帧作为多任务学习问题来联合优化视频分类我们对具有挑战性的人类行为数据集进行实验:动力学400、UCF101、HMDB51。使用所提出的DynamoNet的实验在所有数据集上显示出有希望的结果。1. 介绍视频中的人类动作识别[3,6,7,9,55在实践中,计算机视觉系统的性能仍然落后于人类。除了使物体类别识别困难的挑战之外,复杂的方面,如相机运动和不断变化的视点,对视觉系统产生负面影响。虽然,卷积神经网络(ConvNets)已经成功地提升了几个AliDiba和Vivek Sharma对这项工作的贡献相等,并按字母顺序列出。动态运动滤镜图1.概述所提出的多任务学习ConvNet架构,通过以端到端学习方式预测未来帧来同时分类动作和学习运动表示。×,+表示卷积和级联操作。子视野,特别是对于动作识别,它们仍然缺乏对运动线索的有效建模。用于动作识别的神经网络可以主要分为两种类型,即架构驱动的ConvNets [42,49](其在视频架构中利用标准滤波器和池化内核来利用长程动态)和编码驱动的ConvNets [9,16](其在视频架构中集成除了标准滤波器和池化内核之外的新编码方法来学习空间信息 ) 。 时 间 特 征 表 示 ) 。 本 文 属 于 编 码 驱 动 的ConvNets池,在那里我们扩展了标准的视频理解架构,以纳入一个新的层来学习基于特定动作的动态运动表示。在本文中,我们建议扩展基于ConvNets的动作分类的训练,以结合高级目标,通过未来帧预测来学习特定于动作的运动表示我们的贡献命名为DynamoNet是一种方法,它联合优化了ConvNet的视频动作分类和未来帧预测作为一个多任务学习问题。我们通过动态运动过滤器在视频特定的基础上自适应地学习运动特征来实现这一点,这使得运动预测模型能够选择性地只利用那些导致改进视频分类的运动特征。由于我们理解运动特征表示的重要作用,我们建议使用动态卷积6193过滤器,以动态地发现和学习视频特定的内部运动表示,以改进视频分类(见图1)。1用于图形概述)。本文的灵感来自[1,38]。然而,尽管Brabandere et al.[1]应用动态滤波器将角度变换为滤波器(可转向滤波器)和Sharma等人。[38]仿真一系列增强滤波器以生成图像增强方法。我们使用了与[1,38]中相同的术语与这些工作相比,我们的工作在技术方法和应用范围上有很大的不同。我们的DynamoNet被设计为学习运动表示,我们通过预测短期未来帧来自适应地提取信息特征以改善分类来实现我们相信,预测(或重建)未来帧选择性地将运动内容的基本概念传递给滤波器,这又提高了运动表示的整体有效性。运动表示学习与视频分类一起被联合优化为多任务学习问题。使用短期未来帧预测作为代理任务是有希望的,我们清楚地表明,这适用于视频中的准确动作识别。准确地说,我们的网络采用具有T帧的当前视频剪辑,并使用T个动态运动内核或动态滤波器生成T+1个网络结构基于3D ConvNets。具体地说,给定一个输入的视频剪辑x和T帧,网络生成T动态运动核(FT)来预测前一帧中的连续下一 帧 ,即, Ft:xt→x<$t+1,t∈ {1,. . .,T}。这些滤波器是依赖于视频的运动内核,并且以输入为条件,因此在训练和测试阶段,从一个样本到另一个样本是不同的,这意味着滤波器从给定的输入中动态地提取重要的运动表示。此外,我们利用这些Td维动态运动特征以及STC-ResNext [6,20] 3D-ConvNet特征进行视频分类。此外,我们认为动态运动内核捕获的重要概念的运动表示的时间线索和提取的运动特征是强大的和紧凑的全局时间表示整个视频,这使得他们一个完美的适合动作识别任务。我们的方法在三个具有挑战性的基准动作识别数据集上进行了我们的实验表明,3DConvNets与我们的动态运动过滤器相结合时(见第二节)。4)在UCF 101(97.8%)、HMDB 51(76.8%)和Kinetics 400(77.9%)上实现最2. 背景及相关工作使 用 ConvNets 进 行 动 作 识 别 。 通 过 卷 积 神 经 网 络(ConvNets),视觉社区已经成功地在几个子领域并且特别是对于动作识别,已经显著地优于手工设计的表示。端到端ConvNets已经在[13,24,42,49,57]中引入,以利用外观和时间信息。这些方法在2D(单独图像级)或3D(K帧的视频剪辑或片段)上操作。在2D设置中,通过LSTM/RNN对空间和/或时间信息进行建模以捕获长期运动线索[10,65],或者通过使用双线性模型[9]、局部聚集描述符向量(VLAD)[16]和Fisher向量编码(FV)[48]的特征池化和编码方法。而在3D设置中,网络的输入由RGB视频剪辑或堆叠的光流帧组成,以捕获长期的时间信息。 这些架构图是3D(x,y,时间),即3D卷积(s×s×d)[65]其中d是内核时间深度,s是内核空间大小Simonyan等人[42]使用RGB图像的双流2DCon-vNets队列和10个光流帧的堆栈作为输入。Tran等人。[49]在另一边探索了具有3×3×3固定内核大小的3D ConvNets,其中16个RGB帧的剪辑的时空特征学习进行了。通过这种方式,它们避免了显式地计算最优流,并且仍然获得了良好的性能。Fur- ther,in [50,51] Tran et al. 用 3D 卷 积 扩 展 了 ResNet 在 [13]Feichtenhofer et al.建议使用3D池。Sun等人。[47]将3D卷积分解为2D空间卷积和1D时间卷积。Wang等人[57]建议使用来自整个剪辑的稀疏采样的Carreira等人[3]提出通过使用额外的时间维度d来膨胀过滤器和池化内核 , 将 预 先 训 练 的 2D ConvNet [ 22 ] 转 换 为 3DConvNet。所有这些架构在整个架构中具有固定的时间3D卷积内核深度。在T3D [7]中,Diba et al.提出了时间转换层,其在较短和较长的时间范围上对可变时间卷积内核深度进行建模。此外,在[6]中,Diba et al.提出了对3D ConvNets wrt的通道之间的相关性进行建模的时空通道相关性。空间和时间维度。与这些先前的工作相比,我们的工作在范围和技术方法上有很大的不同。我们提出了一个架构来学习动态运动滤波器建模的有效的内部运动表示,以自适应地提取信息运动特征的视频特定的基础上,以提高动作识别。最后,值得注意的是,自监督学习可以Fernando等人[14] Mishraet al. [31]混洗视频帧并将它们作为正/负训练数据; Sharma等人[37,39] mines la-6194贝尔使用基于相似性的距离矩阵,尽管用于视频人脸聚类; Wei等人[59]将单个剪辑分成不重叠的10帧块,然后预测排序任务; Ng等人。[32]在识别动作时估计光流。我们将所有这些方法与实验部分中基于无监督未来帧预测的ConvNet训练进行比较。未来帧预测。给定观察到的图像或帧序列,预测未来帧是非常流行的这些天[15,18,33,40,44,60,61,66],其中大多数研究人员预测低级别像素或运动,直到最近图像合成是通过神经网络完成的:生成对抗网络[5,17,34,53,54],变分自动编码器[25,63,64],深度回归网络[52],以预测未来的视觉表示。这些工作基本上形成了确定性预测框架[41,52]或概率预测框架[53,63]的一部分。已经表明,与不能很好地对不确定性建模的确定性模型相比,概率内容感知运动预测更好地对运动场或图像特征建模成功地预测未来将证明计算机对场景中物体的一种直接的方法是区分训练等来预测未来的帧,但我们的世界充满了不确定性。这并不是预测是错误的,这只是预测中固有的模糊性。与以前的工作相比,我们的主要目标不是预测未来帧,而是通过预测未来帧来学习运动表示。准确地说,我们提出了一种方法,预测高层次的概念,如对象和动作,通过学习动态运动滤波器预测连续的下一帧给定的前一个在一个自我监督的方式。此外,尽管对于使用动作识别数据集的不同任务,但在帧预测的类似精神中,值得注意的是Mathieu等人的工作。[29]和Srivastava et al. [45 ]第45段。我们定量比较Mathieu等人。[29]在我们的实验中过滤器生成网络。从Jaderberg等人的开创性工作开始。[23]在作者提出变换滤波器进行平移和旋转的情况下,所有这些论文[1,26,38]都利用相同的概念(深入)来学习可操纵滤波器[1],天气预测滤波器[26]或使用输入-输出图像对的增强滤波器[38]。与这些作品不同的是,我们建议应用这些过滤器来学习视频中的运动表示,其总体目标是提高动作分类。我们清楚地表明,这在我们的实验中起作用。学习运动表示。我们与这些作品[8,11,35,36,46]共享相同的动机,用于以深度学习的方式学习运动表示,但不使用光流信息作为目标输出。3. 该方法我们的目标是学习一个动态的运动表示模型,以提高视频分类的总体目标。为此,我们提出了本节中描述的两种ConvNet架构我们的第一个架构提出了学习动态运动滤波器预测短期未来帧在一个端到端的自我监督学习时尚离子。另一个提出的端到端网络被设计为同时分类动作,除了通过预测未来的帧来学习运动表示。我们使用3D ConvNets [20,6],STCnet/3D-ResNext架构作为基础模型,并合并了两个分支来进行分类和帧预测。网络的输入是不同实验设置中的16、32或64帧的堆栈,我们将其称为视频剪辑。3.1. 动态运动滤镜滤波器生成网络(DynamoNet)的灵感来自[1,26,38],由3D滤波器和池内核组成,最后一个全连接层(即,动态运动滤波器参数)。DynamoNet是自我监督或无监督的。DynamoNet将输入映射到过滤器。准确地说,电视网拍摄了一段视频剪辑,其中,Θ是学习映射的变换参数,s是空间核大小,t是滤波器的数量-其由帧的输入栈驱动,即,t∈T。给定输入视频剪辑x∈RH×W×T,网络产 生 动 态 运 动 滤 波 器 以 预 测 连 续 的 未 来 帧x∈RH×W×T,其中H,W表示帧高度和宽度。该方案如图所示二、未来帧预测器网络可以被公式化为:(1)将FΘ,t运动滤波器与输入tth卷积framext以生成xt+1帧。 在每个空间位置(H,W)处将FΘ,t应用于xt,以输出预测帧x∈t+1∈RH×W。请注意,滤波器是样本特定的,并以输入x t为条件。图2、我们展示文件-称为生成网络以预测动态滤波器,从而预测未来帧。滤波器大小决定了接收场,并且取决于应用从文献[38]中,我们利用了很多关于内核大小的见解。对于运动预测,我们已经测试了不同的过滤器大小s={3,4,5,6,7},对于我们的设置,我们发现5×5的过滤器大小给出了最佳结果,而其他(>5×5或< 5×5)产生了更平滑的图像,分类性能下降了约1.2 -3%。此外,我们发现在深层进行的帧预测在与中等水平相比。为了生成运动滤波器参数,使用目标之间的Huber损失函数[4]来6195222ReLU转换器1*1*1热鲁热鲁转换转换DMR1*1*1SoftMax3DConv块动态运动滤镜行动课?打篮球DynamoNet图2. DynamoNet。输入到网络的是具有T帧的视频,其生成T个动态运动滤波器来预测给定前一帧的连续下一帧以学习运动表示。然后将运动滤波器连接在一起以形成全局表示,以及STC-ResNext特征,然后馈送到分类器。该网络与分类目标联合优化,以自适应地提取信息丰富的运动特征,用于改进分类。×,+表示卷积和级联运营未来帧x t+1和网络的 预 测 未 来 帧x t + 1。使用Huber损失函数的帧预测(FP)被定义为:由于生成的过滤器展示了帧的动态信息,因此可以使用相同的剪辑。这种表示对于视频分类任务是有效的,在下一节中,我们1||x 电话+1-xt+1 ||2如果||x电话+1-xt+1 ||1<δ展示了如何同时LFP=δ||xt+1−xt+1||1−1δ2否则(二)有一个更可靠的动作分类器。示例帧预测结构:其中阈值δ被设置为0。01. 的更多细节培训和网络架构的讨论,实验区。我们的未来帧预测方法不同于所有最近的方法,因为我们利用运动滤波器来合成前一个的n个帧,Ft:xt→x(t+1,t∈{1,. . . ,T}。我们的方法的主要区别是生成-与其他方法相比,对下一帧的处理不同,基本上,在技术方法中,我们不直接通过Conv-Deconv层来生成帧,而是使用这些层来生成运动滤波器以重构和预测下一我们相信预测(或重建)未来帧选择性地将运动内容的基本概念传递到滤波器,这反过来又提高了运动表示的整体有效性此外,以这种方式,我们的网络配置和学习方案有助于在时空机制中学习像素运动信息。受动态滤波器网络[1]的启发,我们相信为了从视频中学习有效的运动表示,动态生成的滤波器是发现和捕获视频特定内部运动变化的鲁棒解决方案。由于滤波器的参数取决于输入,因此它们从一个样本变化到另一个样本,这非常适合学习视频中的内部运动表示和变化。通过从剪辑中提取该帧内信息,我们相信我们从是由15个重构帧(来自输入的第2至第16帧)和从第16帧获得的新的未来帧组成的16帧通过在每个空间位置处将动态运动滤波器应用于连续帧(输入帧)来获得每个预测(重构)帧以这种方式,动态运动滤波器通过预测给定前一帧的连续下一帧来学习。3.2. 动作识别我们利用3D ConvNets进行视频分类和帧预测,因为它们具有利用长距离时间线索而不仅仅是空间线索的优势。准确地说,我们使用最近提出的STCnet [6]或3D-ResNet/ResNext [20] 作 为 DynamoNet 的 主 要 构 建块。我们之所以选择这些架构,是因为它们在准确性和高计算速度方面都具有良好的动作分类性能。此外,与2D卷积相比,3D时间卷积内核有效地捕获视频中跨帧的视觉外观和时间信息,2D卷积缺乏对时间维度进行也就是说,3D-STCnet/ResNet是提取用于动作分类和运动分析的时空特征表示的良好候选者。在这里,我们循环使用第3.1节中的动态运动滤波器架构。图2显示了6196整个建筑。我们的架构具有两个网络分支,一个分支学习动态运动表示F0、T,并且第二分支是3D-STCnet(AR)的标准全连接层。这两个网络分支一起训练,因此我们同时学习了动作表示(AR)和动态运动表示作为动作分类的最后一步,我们将运动滤波器平坦化,然后是大小为Rd的全连接层,然后将d维通过这种设计,我们将运动信息的动作分类任务。端到端学习。最后,我们现在通过添加softmax-loss(分类)来扩展方法1的损失,用于通过具有分类目标的未来帧预测来联合优化运动滤波器学习。整个管道的总损失由下式给出:Ltotal=αLFP+βL分类(3)其中,α、β是损失权重,并且两个任务一起被优化。我们定性地和定量地表明图3示出了基于动态滤波器的预测帧的定性结果。3.3. 无监督训练为了与先前的自监督或无监督表示学习方法[14,31,32,59]进行比较,我们移除分类分支并且仅保留动态运动滤波器与帧预测部分,获得无监督视频学习流水线。正如我们已经知道的,视频的重要方面是有意义的动作。在实践中,使用我们的方法,可以通过经由帧序列中可用的自监督信号简单地重建和/或预测未来帧,以无监督的方式容易地学习运动表示。我们已经用一些未标记的视频研究了这种方法,并从头开始训练网络。我们表明,这种无监督的预训练对于稳定的模型权重初始化非常有益,因此这减少了从零开始训练3D ConvNets用于动作分类任务的大型标记视频数据集的需求在实验部分中讨论了关于训练方案及其结果的更多细节。4. 实验在本节中,我们首先介绍数据集,我们提出的方法的实现细节,然后展示无监督预训练的适用性,然后是帧预测在训练方案中的作用。最后我们在三个具有挑战性的人类行为和活动数据集上将我们的方法与最先进的方法进行比较。4.1. 网络设计DynamoNet由三部分组成:第一个是3D-Conv,在我 们 的 实 验 中 是 具 有 不 同 深 度 的 STCnet 或 3D-ResNet/ResNext。我们为两个分支应用了更多的层,对于动作分类部分,为了提取有效的表示,我们添加了两个conv层(每个64个过滤器)和一个全连接层。在帧预测上,我们使用2个conv-layers(每个64个滤波器)和softmax层来产生动态滤波器。在对滤波器进行平坦化之后,存在大小为512的全连接层AR和DMR特征被连接在一起,然后被馈送到分类损失。在本节的其余部分,我们使用主干架构:STC-ResNext 101和ResNext 101用于DynamoNet(STCnet)和DynamoNet(ResNext)。4.2. 数据集我们在三个具有挑战性的人类行为和活动数据集上评估了我们提出的DynamoNet; HMDB 51 [28]、UCF101 [43]和动力学[3]。我们使用最初提供的预定义的训练/测试分割和协议。我们报告了HMDB51和UCF101的三个拆分的平均准确度,并且对于动力学,我们报告了验证集的性能。动力学Kinetics是由[3]引入的具有挑战性的人类动作识别数据集,其中包含400和600个动作类。此数据集有两个版本:未修剪和修剪。未修剪的视频包含整个视频中的活动是包括在一个很短的时间内。然而,修剪的视频仅包含活动部分。我们在修剪版本上评估我们的模型。我们使用所有的训练视频从头开始训练我们的模型。UCF101 为了评估我们的DynamoNet动作识别性能,我们首先在Kinetics数据集上训练它,然后在UCF 101上进行微调此外,我们还评估-通过使用随机初始化的权重和无监督预训练方法在UCF101上从头开始训练模型来评估我们的模型,以研究预训练对大型数据集(如Kinetics)的影响,以及无监督预训练方法。HMDB51。对于HMDB 51,我们采用与UCF 101相同 的 方 法 , 并 在 HMDB 51 上 微 调 DynamoNet , 该DynamoNet已在Kinetics上进行了预训练。同样,我们通过从头开始训练模型来评估模型HMDB51使用随机初始化的权重。4.3. 实现细节我们使用PyTorch框架实现,所有网络都在8 P100NVIDIA上训练6197GPU。在这里,我们描述了我们提出的DynamoNet,帧预测和动作分类的实现细节。训 练 我 们 只 使 用 帧 预 测 部 分 来 训 练 我 们 的DynamoNet,作为来自YouTube8M数据集的500K未标记视频剪辑DynamoNet在16或32个RGB帧的堆栈上运行。我们将视频帧的大小调整为122px,然后随机进行5次裁剪(及其水平翻转),大小为112×112,作为主要的网络输入大小。对于网络权重初始值-我们采用[21]中提出的相同技术。对于模型训练,我们使用SGD,Nesterov动量为0.9,权重衰减为10−4,批量大小为64。开始的学习率设置为0.1,当验证损失饱和时,人工减少10倍 为了训练总损失,我们将损失的系数设置为:α=0。1且β=1。0的情况。一旦完成无监督预训练,则在Kinetics数据集上完成动作识别和帧预测两个分支的主训练,最大数量为200个epoch。我们还采用批归一化进行网络训练。在我们的实验中,我们使用不同版本的STCnet和3D-ResNet/ResNext作为DynamoNet的主要卷积部分,因为它们是3D-CNN动作模型中最先进的方法。在我们的实验中,我们评估了这些网络的不同深度。STCnet具有与3D-ResNet类似的结构,具有额外的模块来处理Conv层中的时空通道映射。试验. 对于视频上的动作识别,我们将每个视频分成16/32/64帧的非重叠剪辑。DynamoNet通过采用112×112的中心裁剪应用于视频剪辑,对于视频级预测,我们对视频中的所有剪辑的预测分数求平均。4.4. 无监督预训练由于帧预测部分可以单独训练而不需要标记视频,因此我们研究了无监督预训练网络中携带大部分信息的3D-Conv部分的效果。如前所述,该网络是针对来自YouTube8m的500K未标记视频剪辑在进行预训练时,动作分类部分被分离。预训练完成后,两个分支都被激活,也被训练用于动作分类。我们直接在UCF 101/HMDB 51上以较低的学习率微调自监督(或无监督)预训练网络,并且在表1中,我们表明,当在UCF 101/HMDB 51上从头开始训练时,与最先进的自监督方法[14,31,32,59]相比,我们的方法表现更好。很明显,我们的DynamoNet使用了更多的数据来训练,但额外的数据只是没有任何标签的视频片段。因此,我们的方法是一种有效的预训练方法,而无需任何数据标记成本模型UCF101HMDB513D-ResNet 101STC-ResNet 10155.456.729.230.8[31]第三十一话50.919.8[14]第十四话60.332.5[27]第二十七话83.753.0[32]第三十二话83.956.4AOT [59]86.5-DynamoNet(ResNext)87.358.6DynamoNet(STCnet)88.159.9表1.在具有RGB输入的UCF 101和HMDB 51 split-1上的自监督方法的比较。所有的方法(除了基线网络)都是用自监督方法训练的,然后在UCF 101和HMDB 51上进行微调。用于视频分类方法。我们还评估了自监督(或无监督)预训练对标记训练数据的需求的影响,为了从头开始训练像STCnet或3D-ResNet这样的3D-CNN,我们需要大量标记的视频片 段 。 我 们 通 过 DynamoNet 管 道 预 先 训 练 的 3D-ConvNet展示了,我们可以使用一小部分Kinetics视频,但仍然可以实现合理的性能。表2显示了我们如何处理视频数量有限的情况在动力学验证集上进行评价我们可以观察到,使用一半数据集进行训练时,Dyna-moNet的性能仍然与使用全部数据量进行训练的其他性能相当。模型数据大小Top1-Val(%)[19]第十九话一半53.9[19]第十九话充分65.1STC-ResNext 101 [6]一半55.4STC-ResNext 101 [6]充分66.2DynamoNet(STCnet)一半63.6DynamoNet(STCnet)充分67.6表2.在半个和完整的Kinetics数据集上评估训练模型SSIMMathieu等人[30个]0.92我们0.95表3.来自UCF101的378个测试视频的帧预测定量性能比较4.5. 帧预测学习影响可能存在关于预测损失对训练管道的影响的问题。我们已经做了实验,以产生过滤器,并使用它们作为功能结合动作表示的动作分类没有帧预测的目标。在UCF 101上训练的DynamoNet达到50.2%,在没有预测损失的情况下训练的DynamoNet正如预期的那样,6198最后帧GT最后帧预测差GT和预测光流图3. 定性结果。实际地面实况帧和预测的未来帧之间的比较-使用我们提出的方法获得。第一列是来自视频剪辑的实际帧作为地面实况(GT)。第二列是DynamoNet预测帧。第三是GT和预测帧的差异图像,并且在第四列中,我们示出了从预测帧提取的光流,其呈现关于最后一帧的相应运动。最好用彩色观看。在没有预测目标函数的情况下,滤波器的性能很差,不能提供任何有意义的信息。4.6. 帧预测我们比较了我们的帧预测性能与Mathieu等人。[30]在表3中提供了来自UCF 101的378个测试视频的结果。此外,在图3中,我们展示了使用DynamoNet的定性预测结果的一些示例。预测的帧表明,动态运动滤波器能够捕获运动信息。信息,从而帮助预测未来的帧。4.7. 动作识别在本节中,我们通过首先对Kinetics进行预训练,然后对目标数据集进行微调,将DynamoNet的性能与最先进的方法进行比较,即UCF101和HMDB51数据集的所有三个分割。对于UCF101和HMDB51,我们报告了所有三次拆分的平均准确度我们的实验是最好的STCnet和3D-ResNet/Next配置,其深度为101。6199方法Top1-ValTop5-ValDenseNet3D59.5-Inception3D58.9-C3D [19]55.6-3D ResNet101 [19]62.883.93D ResNext101 [19]65.185.7RGB-I3D [3]68.488STC-ResNet 101(16帧)[6]64.185.2STC-ResNext 101(16帧)[6]66.286.5STC-ResNext 101(32帧)[6]68.788.5S3D-G [62]74.793.4[51]第五十一届全国人民代表大会代表74.391.4NL-I3D [58]77.793.3DynamoNet(ResNext)(16帧)66.386.7DynamoNet(ResNext)(32帧)68.288.1DynamoNet(STCnet)(16帧)67.687.2DynamoNet(STCnet)(32帧)71.490DynamoNet(STCnet)(64帧)77.994.2表4. DynamoNet与其他最先进方法在Kinetics-400数据集上的性能(%)比较表4显示了DynamoNet的动力学数据集结果,并具有64帧输入深度的DynamoNet(STCnet 101)优于具有32帧输入大小的STC-ResNext 101 [6]以及具有64帧输入的I3 D [3]方法UCF101HMDB51DT+MVSM [2]83.555.9iDT+FV [55]85.957.2C3D [49]82.356.8C3D+iDT [49]90.4−LTC+iDT [49]92.467.2Conv Fusion [13]82.656.8两条溪流[42]88.6−TDD+FV [56]90.363.2RGB+Flow-TSN [57]94.068.5ST-ResNet [12]93.566.4TSN [57]94.269.5RGB-I3D [3]95.674.8Inception3D [6]87.256.93D ResNet 101(16帧)[19]88.961.73D ResNext 101(16帧)[19]90.763.8STC-ResNext 101(16帧)[6]92.365.4STC-ResNext 101(64帧)[6]96.574.9DynamoNet(ResNext)(16帧)91.666.2DynamoNet(ResNext)(32帧)93.168.5DynamoNet(STCnet)(32帧)96.674.9DynamoNet(STCnet)(64帧)97.876.8表5. DynamoNet与最先进方法在UCF101和HMDB51的所有三个拆分上的准确度(%)性能比较。为了公平比较,在该表中,我们报告了仅利用RGB帧作为输入的方法的性能。在表5中,我们比较了DynamoNet与当前最先进方法对UCF 101/HMDB 51的性能。我们的DynamoNet(具有STCnet模型)在UCF 101和HMDB 51上的表现优于STCnet [6] , 3D-ResNet [50] , RGB-I3 D [3] 和 C3 D[49],分别达到97.8%和76.8%的准确率。 如表5所示,DynamoNet在UCF 101上的性能比STC-ResNext101好近2%。注意,除了RGB帧之外,大多数当前方法[3,57]还利用光流图,例如在UCF101上获得98%的性能和在HMDB51上获得80%的性能的I3D,也利用流信息。由于我们的DynamoNet以端到端的方式为动作分类提供运动表示,因此即使不包含流信息,也可以获得良好的性能。尽管没有使用光流信息,我们的研究结果显示了DynamoNet如何利用时空外观和运动信息以及3D-Conv结构,以及动态运动表示学习。我们的工作鼓励类似的方法,以更有效的方式利用动作和活动分类的运动线索,从而提高准确性和计算性能。5. 结论当前视频理解架构有效学习和利用运动表示的能力是动作分类领域的一个关键问题在这项工作中,我们提出了学习一个动作分类驱动的运动表示在视频中使用动态运动过滤器通过预测未来的帧。此外,我们表明,学习的运动表示是有效的动作分类。我们在三个具有挑战性的动作识别基准数据集上证明了我们提出的方法的有效性:UCF101、HMDB51和动力学。除了产生比最先进的方法更好的性能,我们的动态运动表示是鲁棒的和紧凑的-它保留了一个全球性的运动表示- tation在一个更有表现力的方式。尽管在本文中我们只关注动作分类,但我们相信我们的运动信息可以作为其他任务的补充线索,如视频理解,视频检索等。由于我们的运动滤波器学习是自我监督的,我们相信大量可用的未标记视频是获取知识和学习有效特征表示的有效资源。在未来,我们希望探索双流网络范式,以建立更有效的帧预测和动作分类管道。鸣 谢 : 这 项 工 作 得 到 了 DBOF 博 士 奖 学 金 , KULeuven:CAMETRON项目和KIT:DFG-PLUMCOT项目的支持。6200引用[1] Bert De Brabandere,Xu Jia,,Tinne Tuytelaars,andLuc Van Gool.动态过滤网络。在NIPS,2016年。[2] Zhuowei Cai , Limin Wang , Xiaojiang Peng , and YuQiao.用于动作识别的多视图超向量。CVPR,2014。[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[4] Emily L Denton和Vighnesh Birodkar。从视频中分离表示的无监督学习。在NIPS,2017年。[5] Emily L Denton,Soumith Chintala,Rob Fergus,et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年,在NIPS[6] Ali Diba , Mohsen Fayyaz , Vivek Sharma , M MahdiArzani,Rahman Yousefzadeh,Juergen Gall,and LucVan Gool. 用 于 动 作 分 类 的 时 空 通 道 相 关 网 络 。 在ECCV,2018。[7] Ali Diba,Mohsen Fayyaz,Vivek Sharma,A HosseinKarami,M Mahdi Arzani,Rahman Yousefzadeh,andLuc Van Gool.使用时间过渡层的时间3d转换网。在CVPR研讨会,2018年。[8] Ali Diba,Ali Mohammad Pazandeh,and Luc Van Gool.用于视频分类的有效双流运动和外观3d cnn。在ECCV研讨会,2016年。[9] Ali Diba Vivek Sharma和Luc Van Gool深度时间线性编码网络。在CVPR,2017年。[10] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。[11] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,第2758-2766页[12] Christoph Feichtenhofer,Axel Pinz,and Richard Wildes.用于视频动作识别的时空残差网络。NIPS,第3468-3476页,2016年[13] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。[14] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould.自监督视频表示学习与奇一网络。在CVPR,2017年。[15] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在NIPS,2016年。[16] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR,2017年。[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。[18] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。画图:一个用于图像生成的递归神经网络. arXiv:1502.04623,2015。[19] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。InICCV,2017.[20] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗。在CVPR,2018年。[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。[22] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML ,2015。[23] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。2015年,在NIPS[24] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模CVPR,2014。[25] Diederik P King
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功