运用时空聚合进行动作分类的视频表示

113 浏览量更新于2023-10-15 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

箍组运行运球跳球扔1学习时空聚合用于动作分类Rohit Girdhar1 Deva Ramanan1Abhinav Gupta1Josef Sivic2，3 Bryan Russell21卡内基梅隆大学机器人研究所2 Adobe Research 3 INRIAhttp://rohitgirdhar.github.io/ActionVLAD摘要在这项工作中，我们引入了一个新的视频表示的动作分类，聚集在整个时空范围内的视频局部我们通过将最先进的双流网络[42]与可学习的时空特征聚合[6]相结合来做到这一点。由此产生的架构是端到端可训练的全视频分类。我们研究了不同的策略，跨空间和时间的池，并结合来自不同流的信号。我们发现：(i)重要的是跨空间和时间联合地汇集，但是（ii）外观和运动流最好被聚集到它们自己的单独表示中。最后，我们表明，我们的表示优于两个流的基础架构的一个很大的利润率（13%相对），以及在HMDB51，UCF101，和Charades视频分类基准与可比的基础架构的其他基线。1. 介绍人体动作识别是计算机视觉的基本问题之一，其应用范围从视频导航、电影编辑到人机协作。虽然在使用卷积神经网络（CNN）对静止图像中的对象进行分类方面取得了很大进展[19，20，43，47]，但动作识别的情况并非如此。基于CNN的表示[15，51，58，59，63]尚未显著超过最佳手工设计的描述符[12，53]。这部分是由于缺少与ImageNet大小和种类相似的大规模视频数据集[39]。目前的视频数据集仍然相当小[28，41，44]，仅包含数万个视频和几百个类。此外，这些类别可能特定于某些领域，例如体育[44]，并且数据集可能包含噪声标签[26]。另一个关键的开放问题是：什么是适当的时空表示模，RG暑期实习期间在Adobe Research完成的工作=篮球投篮图1：我们如何在视频中表示动作我们提出了行动VLAD，一个时空聚合的一组动作的外观和运动流的视频。例如，篮球投篮可以被表示为对应于“一组运动员”、“球”和“篮球框”的外观特征以及对应于“跑”、“跳”和“投篮”的运动特征的聚合我们在图中展示了我们的模型学习来表示视频的基元示例。六、eling视频？用于动作识别的最新视频表示主要基于两种不同的CNN架构：（1）3D时空卷积[49，51]，可能学习复杂的时空依赖性，但迄今为止难以在识别性能方面扩展;（2）双流架构[42]将视频分解为运动和外观流，并为每个流训练单独的CNN，最终融合输出。虽然这两种方法都取得了快速进展，但双流架构通常优于时空卷积，因为它们可以轻松利用新的超深度架构[19，47]和为静态图像分类预先训练的模型。然而，双流架构在很大程度上忽略了视频的长期时间结构，并且基本上学习了一个分类器，该分类器对单个帧或几个（最多10个）帧的短块进行操作[42]，可能会在视频的不同片段上强制分类分数的一致性[58]。在测试时，T（通常为25）均匀971RGB流972采样帧（具有它们的运动描述符）被独立地分类，并且分类得分被平均以得到最终预测。这种方法提出了这样的时间平均是否能够模拟人类行为的复杂时空结构的当相同的子操作在多个操作类之间共享时，这个问题被夸大了例如，考虑图1所示的“投篮”的复杂复合动作由于只有几个连续的视频帧，它很容易与其他动作混淆，如使用后期融合或平均不是最佳解决方案，因为它需要将属于相同子动作的帧分配给多个类别。我们需要的是一个全局特征描述器的视频，它可以聚合整个视频的证据，关于场景的外观和人的运动，而不需要每一帧被唯一地分配给一个单一的行动。为了解决这个问题，我们开发了一种端到端的可训练视频级表示，该表示在成像场景的不同部分和视频的整个时间跨度上聚合卷积该表示的核心是NetVLAD聚合层的时空扩展[6]，已被证明在静态图像中的实例级识别任务中工作良好。我们将这个新层称为VLAD。延伸NetVLAD视频带来了以下两个主要挑战-lenges。首先，将帧级特征跨时间聚合到视频级表示中的最佳方法是什么？为了解决这个问题，我们研究了从输出概率到卷积描述符的不同层的网络的不同级别的聚合，并表明卷积描述符的最后一层的聚合性能最好。第二，如何在多流架构中最好地组合来自不同流的信号？为了解决这个问题，我们研究了不同的策略，从空间和时间流的聚合功能，并显示，一些-什么令人惊讶的是，最好的结果是通过聚合的空间和时间流到其单独的单一的视频级表示。我们支持我们的调查与定量的实验结果，连同定性可视化提供的直观所获得的结果。2. 相关工作动作识别是一个很好的研究问题，标准数据集[4，8，18，28，41，44]专注于以下任务，作为分类[15，42，53，58，59]和时间或空间，时间定位[25，60，62]。然而，动作识别是困难的，由于大的类内变化的不同动作和注释大规模的训练数据集的困难。因此，自动识别方法的性能仍然远远低于人类的能力男人的眼光在本文中，我们专注于动作分类的问题，即，将给定视频剪辑分类到K个给定动作类中的一个我们在下面回顾了解决这个问题的主要方法，然后简要回顾了特征聚合。密集轨迹：直到最近，用于动作识别的主要视频表示一直基于沿着视频中密集采样的点轨迹提取外观（例如图像直方图 [10] ）和运动特征（例如流直方图[11]）。然后，描述符被聚合成一个视觉词袋，如表示，从而为每个视频产生一个固定长度的描述符向量[52，54]。可以通过补偿不需要的相机运动来进一步改进表示[53]。这种类型的代表，虽然浅，今天仍然是相关的，实际上是现有的最先进的系统的一部分[15，51，55]。我们通过执行描述符的视频级聚合来建立这项工作，其中描述符和聚合参数都以区别性的方式联合学习。卷积神经网络：最近的工作表明，在使用卷积神经网络直接从数据中学习视频表示方面有几个有前途的方向。例如，Karpathy等人 [26]展示了第一个从大型视频数据集Sports-1 M训练深度卷积神经网络的大规模实验。Si-monyan和Zisserman[42]提出了双流架构，从而将视频分解为外观和运动信息。Wang等人。 [58]通过在单个帧中的预测上强制共识，进一步改进了双流架构。另一项工作研究了基于时空卷积的视频表示[49，51]，但这些方法迄今为止难以扩展到长视频（[51]中最多120帧），限制了它们在整个视频上学习的能力。模拟长期时间结构：一些方法显式地对视频使用的时间结构进行建模，例如语法[36，40]，但通常限于受约束的设置，例如体育[21]，烹饪[38]或监视[5]。与我们的方法更相关的是，视频的节奏结构也可以通过视频中描述符的适当聚合来隐含地表示[16，29，31，34，55，61]。例如，Ng等人。 [31]使用LSTM跨帧组合信息 Xu等人[61]使用来自fc7 ImageNet预训练模型的特征，并使用VLAD [23]进行聚合，并在TRECVID数据集上显示视频检索的改进[8]。然而，他们的方法不是端到端可训练的，而是用作后处理步骤。事件检测和动作分类中的其他工作依赖于在视频片段上汇集手工制作的特征[17，30，32，37，48]。其他人也研究了来自视频使用的池化卷积描述符，例如，Fisher Vectors [29，34]或pool-973沿着点轨迹[55]。与这些方法相反，我们开发了一种端到端的可训练视频架构，该架构将双流架构的最新进展与NetVLAD聚合层的可训练时空扩展相结合，据我们所知，这是以前从未做过的此外，我们将我们的方法的性能与第4.6节中的上述池化方法进行了比较。功能聚合：我们的工作也与特征聚合有关，例如局部聚合描述符向量（VLAD）[23]和Fisher向量（FV）[35，46]。相反，这些聚合技术已作为后处理步骤应用于关键点描述符，并且仅3.1. 可训练时空聚合考虑xi，t∈R D，从空间位置i ∈ { 1}提取的D维局部描述符。. . N}和帧t ∈ {1. . . T}的视频。我们希望在空间上和时间上将这些描述符聚集在一起，视频，同时保留其信息内容。这是通过首先使用由锚点{ck}表示的K个“动作词”的词汇表将描述符空间RD划分为K个单元来实现的（图2）。3（c））。然后，每个视频描述符xi，t被分配给单元中的一个，并且由记录描述符和锚点之间的差的残差向量xit-ck表示。然后，在整个视频中将差向量最近已经扩展到卷积神经网络内的端到端训练，用于表示静止的IM。年龄[6]。我们以这项工作为基础，并将其扩展到端到端-ΣT ΣNV[ j，k]=e−α||xit−ck||2Σ′e−α||xit−ck ′||2 （xit[j]−ck[j]），联系我们通过在空间和时间上的特征聚合来结束用于动作分类的可训练视频表示。t=1i=1`kx软指派残余（一）贡献：本文的贡献有三个方面：（1）我们通过将可训练的时空聚合与最先进的双流网络相结合，开发了一种强大的视频级表示。(2)我们研究了不同的策略，跨空间和时间的汇集，以及结合来自不同流的信号，为不同的设计选择提供见解和实验证据。(3)我们表明，我们的最终表示优于形式的双流基础架构的一个很大的利润率（13%相对），以及优于其他基线与可比的基础架构HMDB51，UCF101，和Charades视频分类基准。3. 视频级双流体系结构我们试图学习一种可训练的端到端视频表示，为了实现这一点，我们引入了一个架构，如图2所示。详细地说，我们从整个视频中采样帧，并使用“动作词”词汇表将来自外观（RGB）和运动（流）流的特征聚集然后，该表示通过输出最终分类分数的分类器。聚合层的参数-在下文中，我们首先描述可学习的时空聚合层（第二节）。第3.1节）。然后，我们将讨论聚合层在整个架构中的可能位置（第2节）。3.2）和组合外观和运动流的策略3.3）。最后，我们给出了实现细节（第二节）。第3.4段）。其中x it[j]和c k[j]分别是描述器向量x it和锚点c k的第j个分量，α是可调超参数。注意，（1）中的第一项表示描述符x it到小区k的软分配，第二项x it[j]-ck[j]是描述符和小区k的锚点之间的残差。两者相加-Ming算子分别表示时间和空间上的聚集输出是矩阵V，其中第k列V[·，k]表示第k个单元中的聚集描述符。然后，矩阵的列被帧内归一化[7]，堆叠和L2归一化[23]为整个视频的单个描述符v∈RKD直觉是残差向量记录了不同的-从由锚点c k表示的“典型动作”（或子动作）中提取的描述符的事件然后，通过在每个单元内计算它们的总和，在整个视频中聚合残差向量最重要的是，所有的人-包括特征提取器、动作词{ck}和分类器的参数最终从数据中联合学习。以更好地区分目标动作。这是因为（1）中描述的时空聚合是可微分的，并且允许将误差梯度反向传播到网络的较低层。请注意，概述的聚合是NetVLAD [6]聚合的时空扩展，与[6]相比，我们引入了时间t上的总和。我们将我们的时空扩展称为AVLAD。讨论内容：值得注意的是，与更常见的平均值或max-pooling（图3）。平均或最大池化将点的整个分布表示为仅单个描述器，其对于表示由多个子动作组成的整个视频而言可能是次优的。相比之下，所提出的视频聚合通过分裂974RGB流流分类损失图2：我们的网络架构。我们使用标准的CNN架构（VGG-16）从视频的采样外观和运动帧中提取特征。然后，这些特征使用WAVLAD池化层在空间和时间上进行池化，该池化层是可训练的端到端，具有分类损失。我们还尝试了将两个数据流融合在一起（第二节）。3.3）。xi，tCk(a)最大池(b)平均池(c)萨夫拉德图3：不同特性集合的不同池化策略。点对应于视频中的特征，不同的颜色对应于视频中的不同子动作。虽然（a）最大或（b）平均池对于相似特征是好的，但它们不能充分捕获特征的完整分布。我们的表示（c）聚类外观和运动特征，并从最近的聚类中心聚合它们的残差。将描述符空间划分为单元格并在每个单元格内进行池化。从理论上讲，描述符映射和池化操作之间的隐藏层也可以在池化之前将描述符空间拆分为半空间（通过使用ReLU然而，似乎很难训练与我们的KD=32，768尺寸相当的隐藏层。我们认为，ARMVLAD框架施加了强大的正则化约束，使得这种大规模模型的学习在有限的训练数据下变得实用（就像动作分类一样）。3.2. 要聚合哪个层理论上，上述时空聚合层可以放置在网络的任何级别以汇集相应的特征图。在本节中，我们将描述不同的可能选择，这些选择将在后面指导我们的实验研究。详细地说，我们建立在Simonyan和Zis-serman [42]中介绍的VGG 16网络[43]上这里我们只考虑外观流，但在3.3节中讨论了将外观流和运动流与我们的聚合相结合的不同方法。双流模型首先使用来自所有视频的所有帧来训练帧级分类器，并在测试时对来自T个均匀采样帧的预测进行平均[42，58]。我们使用这个基础网络（在帧级上进行了预训练）作为特征生成器，它将来自不同帧的输入提供给我们的可训练的WAVLAD池化层。但是，我们要集中哪一层的激活？我们考虑两个主要的选择。首先，我们考虑合并完全一致的输出，连接（FC）层。这些表示为1×1空间特征图，每个空间特征图具有4096维输出。视频的T帧。换句话说，我们从视频的每个T帧中池一个4096维描述符。其次，我们考虑从卷积层中池化特征（我们考虑conv4 3和conv5 3）。例如，对于conv53，这些由14 × 14空间特征图表示，每个空间特征图具有用于每个T帧的512维描述符，即，我们汇集了196个512维的解-每个T帧的脚本。正如我们在第4.3节中所展示的，我们通过在最高卷积层（VGG-16的conv 5 3）汇集特征来获得最佳性能。萨夫拉德975萨夫拉德(a) ConcatFusion萨夫拉德(b) 早期融合萨夫拉德萨夫拉德(c) 后期融合mensionality 可能很大，我们在表示上使用 0.5 的dropout，以避免过拟合到小的动作分类数据集。我们用交叉熵损失训练网络，其中概率是通过softmax获得的类似于[6]，我们解耦了VLAD参数{ck}用于计算软分配和残差，（1）简化学习（尽管两组参数都是用相同的聚类中心相同地初始化的）。我们使用每个视频T=25帧（对于流和RGB）来学习和评估我们的视频表示，或者-图4：结合外观和运动流3.3. 如何结合Flow和RGB流？CNOLVLAD还可以用于跨不同输入模态流汇集特征。在我们的情况下，我们考虑外观和运动流[42]，但在理论上，池化可以在任何数量的其他数据流中完成，例如扭曲流或RGB差异[58]。有几种可能的方式来组合外观和运动流以获得联合可训练的表示。我们将在本节中探讨最突出的问题，并在图4中概述它们。级联上的单个双VLAD层外观和运动功能（ConcatFusion）。在这种情况下，我们将来自外观和运动的相应输出特征图我们在这个连接的特征图上放置一个单独的AVLAD层，如图4（a）所示。这允许将外观和流特征之间的相关性用于码本构造。所有外观和运动特征上的单个VLAD层（早期融合）。我们还尝试使用单一的AVLAD层从外观和运动流中汇集所有特征，如图4（b）所示。这鼓励模型学习用于外观和运动特征两者的单个描述器空间xij，并且因此利用特征中的冗余晚期融合。如图4（c）所示，该策略遵循对最后一层特征的外观和运动进行加权平均的标准测试实践因此，我们有两个单独的AVLAD层，每个流一个。这允许两个CNOVLAD层学习每个输入模态的专门表示。我们在4.5节中比较了不同聚合技术的性能。3.4. 实现细节我们在上面描述的WAVLAD表示的基础上，使用单层线性分类器训练所有网络在整个过程中，我们使用K=64和α = 1000的高值。0，类似于[6]。由于输出功能不-这是一个标准的实践[42，58]。使用10个连续的x和y方向流图来表示流，以获得20个通道的输入。由于我们的模型是在视频级别训练的，由于GPU内存和CPU预处理能力有限，我们每次迭代只能适应很少的视频。为了保持合理的批量大小，我们通过对多个GPU迭代的梯度进行平均来使用缓慢更新。我们在5.0 L2norm处剪切梯度。通过对所有RGB和流帧进行随机裁剪/翻转，在视频级别完成数据增强。顺其自然地当训练VLAD时，我们使用Adam求解器[27]，其中=10−4。这是必需的，因为Ac- tionVLAD输出是L2归一化的，我们需要较低的SNR合理的快速收敛值。我们以两步的方法进行培训。在第一步中，我们初始化并固定VLAD聚类中心，并且仅以0.01的学习率训练线性softmax分类器。在第二步中，我们用学习率联合微调线性分类器和BLVLAD聚类中心10- 4。我们的实验表明，这一致地给出了一个验证准确性显著提高（表1），表明-说明VLAD确实会调整集群以更好地表示视频。当在conv5 3上训练Wavelet VLAD时，我们保持conv5 1之前的层固定，以避免过拟合到小动作分类数据集。这也有助于有一个更小的GPU内存占用和更快的训练。也就是说，我们的模型完全能够进行端到端训练，可以用于更大，更复杂的数据集。我们在TensorFlow中实现了我们的模型[3]，并发布了我们的代码和预训练模型[1]。4. 实验在本节中，我们将在标准动作分类基准测试中试验上面提出的各种网络架构。4.1. 数据集和评估我们在两个流行的修剪动作分类基准UCF 101 [44]和HMDB 51 [28]上评估我们的模型。UCF 101包含来自101个动作类的13320个体育视频片段，HMDB 51包含来自51个动作类的6766个逼真且变化的视频片段。我们遵循THUMOS 13 chal的评估方案，976表1：使用以下各项对训练的WAVLAD表示的评估：VGG-16架构在HMDB 51拆分1上。30202010100010102020lenge [24]并使用提供的三个训练/测试分割进行评估。我们使用分裂1进行烧蚀分析3030 20 10 0 10 2030conv5 33030 20 10 0 10 20 30fc7并报告所有3次拆分的平均最终性能。最后，我们还在未修剪的数据集Charades上评估了我们的模型[41]。由于Charades中的视频可以具有多个标签，因此使用mAP和加权平均精度（wAP）执行评估，其中每个类的AP由类大小加权。4.2. 培训中心VLAD表示为了首先激发可训练的动作- VLAD表示的强度，我们将其与从视频中提取的未训练的特别是，我们只训练了一个分类器在covvlad层（在conv5 3）初始化的k均值（并保持固定）。接下来，我们从上面的模型开始如表1所示，从双流模型中移除最后的2层非线性分类器并在（固定的）VLAD池化描述符上训练单个线性层已经接近双流性能。这甚至进一步改善了当训练的参数，与前面的层在一起。在整个过程中，我们使用K=64的默认值[6]。最初的实验（HMDB 51分割1RGB）显示了对不同K（49。百分之一，五十一。2%，51。1%（K=32、64和128）。然而，将K减少到1会导致性能降低得多，43。百分之二。我们还可视化了与标准双流模型相比获得最高改进的类。我们看到最大的收益类，如'冲床'，这是经常混淆'踢'或'打';“爬楼梯”，经常与“挑”或“走”混淆; hit常与golf混淆; drink常与eat或kiss混淆。这是预期的，因为这些类很容易混淆，只有当地的视觉证据。例如，当查看几个帧时很容易混淆hit-ting和punching，但是当在整个视频上聚合信息时可以消除歧义。我们在附录[2]中给出了整个混淆矩阵，突出显示了性能变化最大的类对4.3. 去哪里买Vlad？在这里，我们评估网络中我们可以插入WAVLAD层的不同位置。具体地说，图5：二次采样conv和fc特征的tSNE嵌入从一组视频中。属于同一视频的特征具有相同的颜色。请注意，fc特征已经非常相似，因此聚集在一起，而conv5 3特征更加分散和混合。我们比较了在最后两个卷积层（conv4 3和conv5 3）之后和在最后一个全连接层（fc7）之后放置VLAD。在每种情况下，我们都训练直到层块刚好在VLAD层之前;因此，在conv 4的情况下，conv 41为loss，而在fc 7的情况下，fc 7为loss。结果如表2a所示，清楚地表明，通过聚集最后一个卷积层（conv 5 - 3）获得最佳性能。fc6特性获得与fc7相似的性能，得到42. 7%的RGB。我们认为这是由于两个原因。首先，在完全连接的层处的池化防止了MARVLAD对空间信息进行建模，因为这些层已经压缩了大量信息。第二，fc 7特征更具有语义性，因此来自不同帧的特征已经彼此相似，而不利用EAVLAD层的建模能力，即，他们经常会被关在同一个牢房里为了验证这一假设，我们使用图5中的tSNE [50]嵌入来可视化来自相同帧的conv5 3和fc 7外观特征。这些图清楚地表明，来自同一视频的fc7特征（以相同颜色显示）已经彼此相似，而conv5 3特征变化更大，并且可以受益于ESPVLAD层在特征空间中捕获复杂分布的能力，如第2节所述。第3.1条4.4. 基线汇总技术接下来，我们将比较我们的EPWLAD聚合与基线聚合技术。如前所述，平均或最大池化将视频中的特征分布减少到特征空间中的一个单一点，这对于整个视频来说是次优的。这得到了我们在表2b中的结果的支持，在表2b中，即使与基线双流架构相比，我们也可以看到在con 53特征上使用平均/最大池化的每比特率的显著下降。4030方法外观运动两条溪流[15]47.155.2非训练的VLAD+线性分类器44.955.6受过培训的反洗钱和反洗钱司51.258.4977表2：（a）VGG-16网络中不同位置处的VLAD的评估;和（b）与其他合并策略相比，在HMDB 51拆分1上，使用VLAD。表4：与UCF 101和HMDB 51数据集的最新技术水平的比较，平均3个分割。第一部分比较了使用VGG-16或可比模型报告的所有基于ConvNet的方法。第二部分比较了使用iDT的方法[53]，(a) 阿维尼翁的位置方法RGB流(b) 不同的合并策略。方法RGB流第三部分报告了使用超深架构、多模式输入（超过RGB+Flow）和混合方法的方法。2-Stream47.155.22-Stream47.155.2UCF101 HMDB51conv4 345.053.5Avg41.653.4conv5 351.258.4Max41.554.6[26]第二十六话：fc743.353.1萨夫拉德51.258.4LRCN [13]82.9-C3D [49]85.2-因式分解的ConvNet [45]88.159.1表3：比较（a）第12节中描述的不同融合技术。3.3 HMDB拆分1;和（b）两个流与HMDB的3个分割平均的HMDBVLAD的比较。[16]第十六话Two-Stream + LSTM [31]（GoogLeNet）88.6-Two-StreamConvNet [42]（VGG-M）88.059.4双流ConvNet [57，59]（VGG-16）91.4 58.5[15]第15话：我的世界TDD+FV [55] 90.3 63.2(a) 融合型方法确认访问Concat 56.064.8早期晚期66.9(b) 总体比较流2-流[59]我们的RGB 42.2 49.8流量后期58.5 66.3RNN+FV [29] 88.0 54.3转换[59] 92.4 62.0LTC [51] 91.7 64.8KVMF [63]93.1 63.3VLAD（Lateville，VGG-16）92.766.9DT+MVSV [9]iDT+FV [53] 85.9 57.2iDT+HSV [33] 87.9 61.1财政部[56] 88.3 61.7C3D+iDT [49] 90.4-4.5. 结合运动和外观我们在表3a中比较了不同的组合策略。我们观察到晚期融合表现最好。为了进一步验证这一观察结果，我们在附录[2]中显示了来自外观和运动流的conv5特征的tSNE图。这两个特征被很好地分开，表明存在潜在的互补信息，这是最好的双流融合+iDT [15] 93.5 69.2LTC+iDT [51] 92.7 67.2DT+混合架构[12] 92.5 70.4ST-ResNet+iDT [14] 94.6 70.3表5：使用mAP和加权AP（wAP）指标与Charades [41通过在网络中融合来利用。相比之下，concat融合限制了模型的建模能力，因为它使用相同数量的单元来捕获特征空间的更大部分。最后，我们将HMDB 51的三个分裂的整体性能与表3b中的双流基线进行了比较。我们看到每个输入模态以及最终（后期融合）向量的显着改进4.6. 与最新技术水平的比较在表4中，我们将我们的方法与使用与我们（VGG-16）相当的基础架构的各种最近动作识别方法进行了我们的模型在HMDB51和UCF101上的性能优于所有以前的方法，使用可比较的基础架构与iDT相结合。请注意，与双流模型中的10种作物测试类似，我们的模型也能够在测试时汇集来自多个作物的特征。我们报告我们的最终表现，我们- ING 5作物，或125总图像，每个视频。其他方法，如[14]和[58]，基于超深架构，如ResNet [19]和Inception [22]，分别获得更高的性能。然而，值得注意的是，我们的模型仍然优于这些超和 91.8% ） [14]1 ，而仅使用 VGG-16 网络和 VLAD（66.9%和92.7%）。我们在Tab中的Charades [41]5，并优于所有先前报道的方法（详见附录[2]）。4.7. 定性分析最后，我们可视化我们的模型所学到的东西。我们首先可视化学习的“动作词”，以理解我们的模型用来表示动作的原语。我们从HMDB视频中随机挑选了几千帧，并通过在等式中取最大值而不是软分配来计算conv5 3特征的VLAD分配图。1.一、这些映射定义了哪些特征被软分配给64个“动作词”中的哪些。然后，对于每个动作词，我们可视化包含该动作词的帧，并突出显示与感受野中心相对应的区域深度双流基线，如ResNet-50（61.2%HMDB 51和91.7%的UCF 101）和ResNet-152（63.8%1报告于http://www.robots.ox.ac.uk/www.software/two_stream_action/VLAD（VGG-16）+iDT93.669.8TSN（BN-Inception，3-modality）[58]94.269.4地图WAP双流+iDT（最佳报告）[41]18.6-RGB流（BN-初始，TSN [56]风格训练）16.823.1VLAD（仅RGB，BN初始）17.625.1VLAD（仅RGB，BN-初始）+iDT21.029.9978(a)（d）其他事项(b)（e）(c)（f）第（1）款图6：我们的ESPVLAD模型在针对外观和运动模态进行训练时学习的“动作词”的可视化。每一行显示了来自视频的几个帧，其中明亮区域对应于分配给一个特定“动作词”细胞的conv5 3特征的感受野中心详细地说，（a）显示了一个（b）寻找人的头发。（c）寻找圆形物体，例如轮子和靶板。（d）-（f）示出了用于流动流的类似动作词这些更复杂，因为每个词都要看10帧内流场的形状和运动在这里，我们展示了一些容易解释的情况，例如（d）上下运动，（e）腿的线性运动和（f）头部运动。图7：在几个视频帧上将图像区域分配给两个特定的外观“动作词”。AVLAD表示行动词：819195881958图8：对该视频分类贡献最大的动作词这个“刷头发”视频的softmax分数它被错误地归类为conv53神经元的数量。图6展示了一些这样的动作词和我们对这些词的解释。我们将这些分配图可视化在图1中的视频7 .第一次会议。为了验证“动作词”如何帮助分类，我们考虑图1中的示例视频。8，其最初被双流模型错误分类，但使用我们的WAVLAD模型获得了正确类的高softmax分数。为了便于可视化，我们在这个例子中只考虑我们首先计算该视频的VLAD特征，提取正确类别的线性分类器权重我们展示了一些独特的顶级贡献词的可视化。每个单词的可视化遵循与图中相同的格式。六、我们看到，这个5. 结论我们已经开发出一种成功的方法，时空视频特征聚合的动作分类。我们的方法是端到端可训练的，并且优于基于HMDB 51和UCF 101数据集上的双流VGG-16架构的大多数现有方法。我们的方法是通用的，可以应用于未来的视频架构作为一个AVLAD CNN层，这可能会证明有助于相关的任务，如（空间）时间定位长视频中的人类动作。致谢：作者要感谢Gu？lVarol和Gunnar Atli Sigurdsson在iDT方面的帮助。DR由NSF Grant 1618903、Google和英特尔视觉云系统科学技术中心（ISTC-CNET）提供支持。测试视频979引用[1] 项目网页（代码/型号）。得双rohitgirdhar.github.io/ActionVLAD值. 5[2]论文的补充材料（附录）。https：//arxiv.org/abs/1704.02895网站。六、七[3]M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。5[4] S. Abu-El-Haija，N. Kothari，J. Lee，P.纳采夫湾托代里奇，B. Varadarajan和S. Vijayanarasimhan。 Youtube-8 m：大规模视频分类基准。CoRR，abs/1609.08675，2016。2[5] M. R. Amer，S.Todorovic，A.Fern和S.竹用于调度活动识别的蒙特卡罗树搜索。InICCV，2013. 2[6] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。一二三五六[7] R. Arandjelovic和A.齐瑟曼。关于VLAD 在CVPR，2013年。3[8] G. Awad，J. Fiscus，M. Michel，D. Joy，W. Kraaij，A.F. Smeaton，G. Qunot，M.埃斯克维奇河Aly，G. J. F.琼斯R.奥德曼湾Huet和M.拉森Trecvid 2016：评估视频搜索、视频事件检测、定位和超链接。在TRECVID，2016年。2[9] Z.蔡湖，加-地Wang，X. Peng和Y.乔用于动作识别的多视图超向量。CVPR，2014。7[10] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。2[11] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV，2006年。2[12] C. R. deSouza，A. Gaidon，E. Vig和A. M. 洛佩兹。对细节的同情：密集轨迹和混合分类-阳离子架构的行动识别。在ECCV，2016年。1、7[13] J. 多纳休 L. A. 亨德里克斯 S. 瓜达拉马 S. 诉M. Rohrbach，K. Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。7[14] C. Feichtenhofer、A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在NIPS，2016年。7[15] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR，2016年。一、二、六、七[16] B. Fernando，E. Gavves，M. J. Oramas，A. Ghodrati，以及T. Tuytelaars为动作识别建模视频演变。CVPR，2015。二、七980[17] A. Gaidon，Z. Harchaoui，和C.施密特动作的时间局部化。在PAMI，2013年。2[18] A. Gorban，H. Idrees，Y. G. Jiang，中国茶条A. R.扎米尔岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战：2015年，大量课程的行动识别。2[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2016年。1、7[20] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，2016年。1[21] M. S.易卜拉欣，S。Muralidharan，Z. Deng、A.Vahdat，以及G.森一种用于群体活动识别的层次深时态模型。在CVPR，2016年。2[22] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015. 7[23] H. 我也是M. 杜兹角Schmid，和P. 佩雷斯。将局部描述符聚集成紧凑的图像表示。CVPR，2010。二、三[24] Y. Jiang，J. Liu，A.罗尚扎米尔岛Laptev，M. 皮卡迪，M. Shah和R.苏克坦卡THUMOS挑战：具有大量类的动作识别。http：//www. thumos.info/，2013。6[25] K.康，W。欧阳，H. Li和X.王.用卷积神经网络从视频tubelets中检测目标。在CVPR，2016年。2[26] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。一、二、七[27] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议。5[28] H. Kuehne ， H. Jhuang 、 E. Garrote ， T. Poggio 和 T.Serre. HMDB：一个用于人体运动识别的大型视频数据库。见ICCV，2011年。一、二、五[29] G. Lev，G. Sadeh湾Klein和L.狼用于动作识别和图像标注的Rnn fisher向量。在ECCV，2016年。二、七[30] W.李角Yu，中国茶条A. Divakaran和N.瓦斯康塞洛斯用于复杂事件识别的动态池化。CVPR，2013。2[31] J. Y. Ng，M。J. Hausknecht，S.维贾亚纳拉西姆汉岛维尼亚人R. Monga和G.托德里奇除了简短的片段：用于视频分类的深度网络。CVPR，2015。二、七[32] J. C.尼布尔斯角W. Chen和L.飞飞为活动分类建立可分解运动段的时间结构模型。ECCV，2010年。2[33] X.彭湖，澳-地Wang，X. Wang和Y.乔用于动作识别的视觉词和融合方法包：全面学习，善于实践. CVIU，2016. 7[34] X.彭角，澳-地Zou，Y. Qiao和Q.朋使用堆叠费雪向量的动作辨识。2014年，在ECCV。2[35] F. Perronnin和C.跳舞吧基于Fisher核的视觉词汇图像分类。CVPR，2007。3[36] H. Pirsiavash和D. R

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

运用时空聚合进行动作分类的视频表示

华为静态链路聚合的分类

时空图卷积神经网络(st-gcn)

视频融合平台与数据中台、业务中台、时空大数据中台之间的关系

DDD领域驱动设计，如何定义聚合和聚合根，聚合根如何对整个聚合进行操作，列举详细例子

为什么要用聚合函数进行聚合

使用Elasticsearch JavaApi进行分类统计的聚合例子

pands如何不使用groupby函数实现数据分类聚合

spark项目交通时空大数据

给出一个时空图卷积的模型

ST-GCN如何运行

swin transformer视频流分类

从本地导入鸢尾花数据，用k-means进行聚合分类

es按照某个字段聚合查询

高德地图清除分类的聚合点

VIT如何对多个 patch 进行聚合

对多列进行聚合操作是什么意思

华为静态链路聚合和动态链路聚合分类详细介绍400字

基于ssm的理发店会员管理系统设计与实现.docx

最新资源