基于时空金字塔网络的视频动作识别算法及性能

74 浏览量更新于2023-10-15 收藏 788KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1529时空紧双线性关注时空紧双线性时态紧双线性CNN美国有线电视新闻网CNNRGB帧光流帧损失基于时空金字塔网络的视频动作识别算法Yunbo Wang<$，Mingsheng Long<$，Jianmin Wang< $，and Philip S.Yu†KLiss，MoE; TNList; NEL-BDSS;中国清华大学软件学院伊利诺伊大学芝加哥分校，美国wangyb15@mails.tsinghua.edu.cn，{mingsheng，jimwang}@tsinghua.edu.cn，psyu@uic.edu摘要双流卷积网络在视频动作识别任务中表现出强大的性能。其关键思想是通过在空间和时间上融合卷积网络来学习时空特征。然而，如何在多个抽象层次上对空间和时间结构之间的相关性建模仍然不清楚首先，如果两个视频共享相似的背景，则空间流趋于失败其次，如果两个动作在短片段中相似，尽管从长远来看似乎是不同的，那么时间流可能会我们提出了一种新的时空金字塔网络融合的空间和时间的特点，在金字塔结构，使他们可以相互加强。从体系结构的角度来看，我们的网络构造分层融合策略，可以作为一个整体使用统一的时空损失进行训练。一系列的烧蚀实验支持每个融合策略的重要性从技术的角度，我们将时空紧致双线性算子引入视频分析任务。该算子使得能够有效地训练双线性融合操作，其可以捕获空间和时间特征之间的完全相互作用。我们的最终网络在标准视频数据集上实现了最先进的结果1. 介绍学习良好的视频表示是许多计算机视觉任务的基础，例如动作识别和视频字幕。它超越了图像分析，并依赖于空间和时间线索的联合建模。许多现有的方法[12，10，28，26]通过利用卷积神经网络（CNN）[16，13，23，27]致力于这种建模。然而，这些基于CNN的方法并未显示出优于使用Fisher Vec tor [19]、HOF [15]和密集轨迹[30]的其他方法[30，31]的压倒性性能。一个原因是这些CNN框架不是专门为视频设计的，不能充分利用时空特征。* 联系作者：龙明生（mingsheng@tsinghua.edu.cn）。……空间流时间流图1. 概述了我们的时空金字塔网络，它构成了一个多层次的融合金字塔的空间特征，长期的时间特征和时空关注的功能。除了使用标准CNN流捕获外观信息之外，最近的几种方法尝试使用第二CNN流中的光流数据来捕获运动信息[22，37，6，38]。然而，当仔细观察这些模型时，我们观察到对于大多数错误分类情况，通常有一个流失败，而另一个流保持正确。因此，简单地平均分类器层的输出是不够的。相反，我们希望使空间和时间线索相互促进。本文提出了一种新的端到端时空金字塔架构，如图1所示，它一方面可以提高单个流的准确性，另一方面可以联合利用时空线索。从时间的角度来看，由于原始光流流仅接收10个连续光流帧，因此如果两个动作在这样短的片段中相似，则可能被愚弄，尽管从长远来看是有区别的一个典型的例子是UCF101中的引体向上和爬绳：这两类人可能在短片段中朝着同一个方向移动。但如果我们把时间范围扩大，我们很容易发现，引体向上的人实际上是在上下移动，而爬绳的人是在移动。1530直线上升。为了学习更多的全局视频特征，我们使用多路径时间子网络对较长序列的光流帧进行采样，并探索了几种融合策略来有效地组合时间信息从空间角度来看，当两个视频的背景非常相似时，原始空间流很容易被欺骗。例如，它无法区分前爬和蛙泳，因为对于这两个类别，游泳池是最强的特征。然而，光流网络可以非常清楚地告诉这些动作，并且在UCF 101上的性能至少超过空间流5%。出于这一动机，我们引入了时空注意力模块来提取空间网络的特征图上的重要位置。在这个过程中，利用时间特征作为指导，其通知感兴趣的运动发生的空间流。除了提高单个流的有效性外，我们还探索了融合时空特征的方法我们引入了紧凑的双线性融合策略，该策略捕获了空间和时间特征之间的全部相互作用，同时将跨空间双线性融合方法的参数数量我们的实验结果表明，紧凑双线性近似模型之间的空间和时间特征的每个单个元素的相关性，从而产生更好的性能比它的替代品，如级联和元素的总和在[6]中研究。我们的贡献可归纳如下。（a）我们提出了一种新的深度学习架构，以解决我们在视频表示学习中观察到的问题。（2）将紧致双线性和时空注意力方法引入到视频相关任务中，并验证了它们在实践中的可行性。（c）我们在标准视频数据集UCF 101和HMDB 51上评估了我们的方法，并报告了比以前最先进的方法的显著改进。我们双流融合Arch.金字塔单层对流层#损失1（端到端）2（平均）空间注意力集中平均池化时间紧双线性3D Max Pooling表1. 我们的方法和最先进的方法之间的差异[6]。在空间和时间上同时发生。注意到堆叠的RGB帧不能完全利用时间线索，Si-monyan等人。[22]在光流帧上训练CNN的第二流，并提出双流系综网络。由于光流数据带来了显着的性能增益，它最近已被用于许多其他动作识别方法[2，5，25，29，34，37，26，33，6]。然而，最初的双流法[22]有两个主要缺点：首先，它只包含10个连续的光流帧，因此它不能捕获长期的时间线索。其次，它不能学习微妙的时空关系。分别训练空间（RGB帧）和时间（光流）流，并通过对两个分类器的输出进行平均来获得最终预测。为了缓解这些问题，Ng et al.[37]研究了几种池化方法以及长短期记忆（LSTM）[37]，以融合更长视频序列的特征。Wang等人[32]通过提出具有稀疏采样的分段网络架构来建模长期Feichtenhofer等人[6]研究在空间和时间上组合网络的多种方式。他们提出了一种时空融合方法，并声称双流网络应该在最后一个卷积层融合。表1列出了我们的工作和[6]之间的主要区别。首先，我们提出了一种多层金字塔融合架构，取代了[6]中的3D卷积层和池化层，以在不同的抽象层次上组合空间和时间特征对于单个流，我们通过将原始的平均池替换为2. 相关工作受深度学习在图像相关任务上令人印象深刻的表现的启发，最近的几项工作试图为视频识别设计有效的基于CNN的架构，该架构联合建模空间和时间线索。在美国有线电视新闻网（CNN）蓬勃发展之前，吉等。[10]首先利用连续的视频帧作为输入，并将卷积滤波器扩展到时域。Karparthy等人[12]在时间上比较多种CNN连接方法，包括晚期融合，早期融合和缓慢融合。但是这些方法不能充分利用运动信息，并且相对于在单帧上操作仅产生适度的改进Tran等人[28]在Sports-1 M上训练更深层次的CNN模型C3 DC3D基本上是VGGnet[23]的3D版本，包含3D卷积滤波器和3D池化层，时空注意模块该方法使得网络在运动提示的帮助下集中在静态帧上的重要区域。此外，我们引入了紧凑的双线性算子融合多路光流特征的时间。最后，在[6]的训练策略中，在其目标函数中使用两个损失，并且通过平均两个流的输出来获得最终预测相比之下，我们的融合网络是用一个时空损失函数进行端到端训练的。因此，所有流作为一个整体被优化，从而导致改进的结果。3. 时空金字塔网络时空金字塔网络支持长期的时间融合和视觉注意机制。此外，我们提出了一个新的时空紧凑双线性算子，使各种融合策略的统一建模。1531i=1i=1′FFT3.1. 时空紧凑双线性融合在压缩表示中融合时空特征是获得高质量时空特征用于视频识别的关键。一租m 1，这是基于张量草图算法[20]。我们调用的算法与m路径的空间和/或时间的功能，需要进行融合，这使- ables时空融合到紧凑的表示。一个好的融合策略应该最大限度地保留空间和时间信息，同时最大化它们的交互。典型的融合方法包括逐元素求和、连接和双线性融合，已在卷积双流融合框架[6]中得到广泛评估。然而，逐元素求和和级联不能捕获空间和时间特征之间的相互作用，因此它们可能遭受大量的信息丢失。双耳融合允许不同维度的所有空间和时间特征以乘法方式相互作用由于我们的时空金字塔由空间特征、时间特征及其层次结构组成，算法1：STCB：时空紧凑双线性输入：空间和/或时间特征{vi∈Rpi}m输出：融合特征Φ（{vi}m）∈Rd1fori←1 tomdo2如果hi，si未初始化，则3forj←1 topido4个样本hi（j），来自{1，. . . ，d}5个样本si（j），来自{−1，1}6端部7vi =[0，. . . ，0]8forj←1 topido′ ′核聚变是我们唯一合适的策略9具体地，由x和y表示空间和时间10vi（hi（j））=vi（hi（j））+si（j）·vi（j）端特征向量，双线性融合定义为：z=vec（xy），其中，表示外积xyT，并且11端部12Φ（{v}m）=FFT−1（JmFFT（v′）vec表示向量的向量化。双线性融合导致高维表示，13端部ii=1i=1i参数，这将使网络训练不可行。为了避免维数灾难，我们提出了时空紧凑双线性（STCB）算子，使各种融合策略。我们将外积变换正如紧凑双线性池方法[7]所建议的那样，对于单一模态，我们采用Count Sketch投影函数Φ [1]，它将一个向量v∈Rp投影到v′∈Rd 上。我们初始化两个向量s ∈ {−1，1}p和h ∈{1，. . . ，d}p，其中s对于每个索引包含1或−1，并且h将输入v中的每个索引j映射到输出v ′中的indexk。S和H都是非-从均匀分布中随机地初始化，并且对于计数Sk蚀刻的未来的变化保持恒定。v′isini-作为零向量。对于每个条目v（j），其目的地索引k=h（j）由h查找，并且s（j）·v（j）被添加到v′（k）。详细信息参见算法1，其中m是紧凑双线性融合的特征路径的数量。该过程使得能够将空间和/或时间特征的外积投影到较低维空间中，这将参数的数量从数百万减少到数千。为了避免显式计算外积，[20]揭示了计数两个矢量的外积的草图可以表示为两个计数草图的卷积：<$（x<$y，h，s）=<$（x，h，s）<$$>（y，h，s），其中<$是卷积算子。幸运的是，卷积定理指出，在时域中的乘积等于在频域中的逐元素乘积因此，卷积x y可以重写为−1（FFT（x）FFT（y）），其中是指3.2. 时间融合原始时间流将10个连续的光学流帧作为输入，因此如果两个动作在这样短的片段中看起来相似，则它可能出错，尽管从长远来看是不同的。因此，我们假设，学习一个更全面的表示将提供更准确的运动线索的金字塔网络的上层。具体来说，我们通过使用具有共享网络参数的多个CNN来放大输入视频块，以间隔τ对光流帧进行采样。每个块覆盖作为输入的前L/2帧和后L/2帧。对于训练和测试，L固定为10，τ从1到10中随机选择，以便用固定数量的神经元对可变长度的视频进行建模。对于融合方法，我们利用STCB，并使其支持一个可扩展的输入特征图的数量我们表明，STCB不仅是有效的时空融合，但也为时间组合。将我们的方法与[6，32]相比，所有这三种方法都旨在拓宽时域上的输入场。多个片段通过[6]中的3D池化和我们工作中的紧凑双线性融合。我们的方法和[6]之间的另一个区别是，它们的时间融合也包括融合多个RGB帧的特征，而我们只结合光流表示。原因是使用另一个损失函数对多个RGB帧进行建模会在训练中导致额外的过拟合问题，并在测试中获得误导性结果。更重要的是，在[6，32]中，所得到的时间特征被直接馈送到元素式乘积这些想法在AI分类器中进行了总结。在本文中，它们被用作下1532[t-Tτ，t-Tτ+L）[t-τ，t-τ+L）[t，t+L][t+τ，t+τ+L）[t-Tτ，t-Tτ+L）图2. 时空金字塔网络在多个抽象层次上学习时空特征，这些特征可以作为一个整体进行端到端的训练。光流特征首先通过紧凑的双线性层跨时间组合。所得到的功能，然后运行通过第二个紧凑的双线性层和时空注意力模块，确定活动的显着区域。通过融合来自空间流、时间流和注意力流的特征来获得最终的视频表示。融合阶段（注意力）。我们观察到，紧凑的双线性融合可以保持时间线索，以监督时空注意模块。3.3. 时空注意力我们的时空融合金字塔的第二层是注意力模型的一个变体，它最初是在多模态任务中提出的[36，35，18]。我们采用这种想法，并广泛地将其应用到时空的情况下，利用运动信息来定位图像特征图上的显著区域。我们在最后一个卷积层上实现它（即BN-初始中的inception 5 b，ResNets中的res 5c和VGGnet中的conv5）。首先，这些层的表示显示了类特定的运动变化，而较低的层捕获图像的更细粒度的特征，如边缘，角落和纹理。另一方面，我们希望注意力模块作为一个更准确的加权池化操作，因为我们认为，原来的平均池化不能捕捉到对应于活动信息的显著区域，可能会导致信息丢失。时空注意力模块将BN-Inception中的1048×7×7的特征映射简化为1048×1×1的特征向量。但与最大池或平均池不同，注意力集中有着相对复杂的逻辑和机制。更具体地说，对于图像特征图上的每个网格位置，我们使用STCB将空间特征向量与其时间对应物合并输出的时空表示，暗示相应的外观和运动线索，作为监督的后续注意层。之后，将两个卷积层堆叠以产生注意力权重for the feature特征maps地图.第一个卷积层的大小是64×7×7，而第二个卷积层的大小是1×7×7。最后，将得到的注意力权重通过softmax层进行归一化，然后通过加权池化层与原始空间特征相结合。时空注意力STCB使得空间流容易被静态RGB帧中的运动对象所抽象。虽然注意机制已经在动作识别中进行了探索，但我们的工作与其他人不同，例如[21]在两个方面：（a）我们的注意力是由空间流和时间流CNN生成的，而其他人的注意力是由LSTM生成的，两者都是为了突出空间表示中的运动线索;（b）我们进一步使用光流特征作为对注意力模块的时间监督。3.4. 建议的体系结构上述所有技术都可以集成在金字塔框架下。我们通过在卷积层和全连接层之间注入建议的融合层来设计我们的架构在这种情况下，我们只使用最后一个卷积层的表示，因此我们的方法可以扩展到几乎所有的CNN架构，包括BN-Inception，ResNets和VGGnet。因此，我们可以使用在ImageNet[4]上预先训练好的模型初始化我们的网络，然后在相对较小的视频数据集上对其进行微调。我们使用STCB技术三次。在金字塔的底部，跨较长视频序列的多个光流表示由第一个STCB（图2中的绿色层）组合。通过这样做，我们获得更多的全球时间特征。然后，这些特征被馈送到下一个融合级别，时空注意力子网-CNN1024x7x71024x1x1时间=tCNN1024x1x14096101CNN2048x7x71x7x7CNN1024x7x71024x1x1损失FCSSTCB加权池Avg. 池Softmax转换转换STCBAvg. 池ŏSTCBŏ1533工作（红色层），其中我们使用另一个STCB将空间特征图与相应的运动表示融合，并提供显著活动的注意线索。在融合金字塔的顶端，使用了所有三个先前的结果：通过平均池化的原始空间和时间特征，以及通过注意力模块得到的关注特征。它们通过第三个STCB融合成一个4096维向量，每个向量都捕获了金字塔中多个抽象层次的重要信息。删除任何功能路径都将导致整体性能下降。4. 实验本节是根据我们的实验进度组织的首先，我们描述数据集和训练细节。然后，我们探索了应用不同深度网络作为模型构建块的效果，包括VGGnet [23]，ResNets [8]和BN-Inception [9]。接下来，我们评估我们的时空金字塔网络，并通过给出消融结果来证明其有效性。最后但并非最不重要的是，我们比较我们的方法与以前的国家的最先进的，并分析其性能给出典型的例子，正确和不正确的预测。4.1. 数据集和实现我们在两个标准数据集上训练和评估我们的时空金字塔网络。UCF 101数据集[24]包含来自101个动作类别的13320个完全注释的视频片段。每个片段持续3-10秒，平均由100-300帧组成。HMDB51数据集[14]包含6766个视频片段，涵盖51个动作类别。对于这两种情况，我们遵循提供的评估方案，并采用标准的训练/测试分割。为了验证不同金字塔融合层的纯粹有效性，我们在标准视频数据集上分别训练了 VGG-16模型， BN-Inception模型和ResNet-50模型。我们的模型是按照多阶段训练策略训练的。我们使用ImageNet上预先训练的模型初始化空间和然后，我们在目标视频数据集上对每个参数进行微调，并将这些参数填充到最终的金字塔网络中。我们遵循[32]中提出的跨模态微调策略。然后，我们在UCF 101或HMDB 51上训练整个网络。这里我们选择小批量随机梯度下降算法，并将批量大小设置为32。此外，对于VGG-16，我们将两个4096维全连接层堆叠在最后一个STCB层之后。我们将基本学习率设置为0.01，每10，000次迭代将其降低10倍，训练过程在30，000次迭代时停止。对于ResNet，基本学习率初始化为0.001，每10，000次迭代减少10倍，并在20，000次迭代时停止为了避免过拟合，我们随机采样时间间隔τ从1到10。还有，我们利用了几种数据增强技术，例如尺度抖动、水平翻转和图像裁剪。这些技巧的细节不在本文的讨论范围之内.所有实验都是用Caffe实现的[11]。4.2. 基础架构更深的CNN通常可以在图像识别任务中获得更好的性能[3，17，27，8]，因为它们带来了强大的建模能力，并且能够从原始视觉数据中学习区分表示。最先进的双流架构[6]基于VGG- 16[23]，而具有批量归一化的初始（ BN- Inception ） [9] 和深度残差网络（ResNets）[8]最近在几个增强识别任务中表现出卓越的性能。在这项工作中，我们进一步探索了ResNets在视频分析任务中的可行性。我们考虑了一个50层的ResNet，因为它的计算复杂性，以及一个152层的ResNet，因为它的令人信服的准确性。所有模型都在Im-ageNet[4]上进行了预训练，并在UCF 101和HMDB51上进行了微调。表2比较了VGGnet、BN- Inception和ResNets的性能。通常，随着卷积层数量的增加，RGB网络受益最多。相比之下，光流网络的性能略有下降。有两个原因。首先，光流数据产生与RGB不同的分布，这削弱了微调的影响。其次，由于UCF 101上的训练样本数量有限，复杂的网络结构容易出现过拟合。BN-Inception被证明是性能最好的基础架构。模型空间时间[22]第二十二话VGG-16百分之八十点五85.4%88.9%ResNet-5083.7%百分之八十四点九90.3%ResNet-15284.3%百分之八十二点一89.8%BN-inception84.5%87.0%百分之九十一点七表2.双流模型[22]在UCF 101（拆分1）上具有不同基础架构的分类准确性所有结果都是通过对Softmax层的输出进行平均来获得的[22]。4.3. 时空紧凑双线性融合我们探讨了几种策略，融合空间和时间特征地图。除了VGGnet之外的所有模型都遵循相同的架构，即融合层放在最后一个卷积层（即，ResNets的res 5c和BN-Inception的inception 5 b）和最终分类器。我们的实验表明，这样一个后期融合架构的表现优于其替代方案，其中融合层向前移动。这可以解释为，最后一个卷积层显示了具有显著运动变化的类特定和高度信息化的特征。如表3所示，时空紧凑双线性1534融合导致最高的准确度，并将精度提高约1.5个点。这是一个有价值的观察。在此之前，我们知道紧凑双线性池对于组合视觉表示是有效的。但我们不知道的是，同样的优点发生在空间和时间数据之间。表3还揭示了输出维度对时空紧凑双线性融合的性能产生影响。随着它的增长，可以更完整地捕获空间和时间表示（均为1024维）之间的相关性这是压缩和质量之间的权衡。但是更大的输出维度并不总是好的，因为它使得下面的全连接层很难训练。我们观察到4096输出维度对于两个视频数据集都是合适的。融合方法1-路径三路五路级联87.0%88.4%百分之八十八点五按元素之和-87.9%百分之八十七点七紧双线性-89.3%百分之八十九点二表4.多路径速度组块合并方法的比较列表示时间块的数量所有结果均在UCF 101上生成，仅包含光流数据注意重要的位置。实验表明，该方法能有效地避免静态视频帧中相似或混沌背景如表5所示，我们的最佳实现将空间路径的性能提高了2.1个点。此外，这组实验证明了融合方法精度平均百分之九十一点七级联92.4%按元素之和92.3%紧致双线性（d = 1024）92.4%紧凑双线性（d = 2048）92.9%紧凑双线性（d = 4096）百分之九十三点二紧致双线性（d = 8192）百分之九十三点二表3.各种融合方法对UCF 101（拆分1）的准确性4.4. 时间融合表4示出了用较长序列的光流数据馈送时间网络的影响。我们的模型是通过制作几个单独网络的副本并在最后的卷积层将它们组合起来来实现的。我们在这里有两个观察。首先，在所有这些融合策略中，时空紧凑双线性融合表现出最好的性能。这是第一次，紧凑的双线性融合被证明是有效的合并多路光流表示。其次，这些结果解释了为什么我们在最终的架构中设计了3个子网。表4中的列表示在融合层之前的路径的数量。在这些模型中，时空紧致双线性融合的三路径网络的性能优于其他模型。我们不会减少或增加子网的数量。一方面，三路径模型的性能比单路径模型的性能高2.3个另一方面，更多的子网络并不意味着更好的结果，因为在这种情况下，空间和时间特征可能与非常长的光流数据序列不4.5. 时空注意力注意力池通过引导空间网络1535又是紧凑的双线性聚变。我们最初打算只使用时间表示来生成注意力权重。然而，结果证明比原始平均池化略低。然后，我们尝试提前合并时间和空间特征，而在这种情况下，紧凑的双线性融合表现得令人惊讶地好。模型空间精度平均池化84.5%Att.合并（仅临时）84.3%Att.合并（Concatenation）百分之八十三点九Att.合并（元素求和）83.5%Att.池化（紧凑双线性）86.6%表5.将注意池应用于UCF101的空间网络的效果我们饲料的注意力模块与representations产生的各种融合方法。4.6. 消融结果为了验证上述融合方法的各自效果，我们将它们逐一叠加，并测试其整体性能。我们将基线设置为原始的双流CNN，它对分类器层的输出进行平均。从表6中，我们观察到我们的时空融合方法将平均精度提高了1.5个点。此外，所提出的多径时域融合方法的结果在另一个0.4点的性能增益。最后，我们应用时空注意力池，并将最终结果提高到94.2%。综上所述，我们提出的所有方法都被证明是有效的视频动作识别。4.7. 最终结果通过遵循标准双流法[22]中描述的测试方案获得最终结果。首先，随机抽取10个视频片段，每个片段包含3个RGB图像以及相应的30个光流帧。然后我们扩大训练1536模型一BCDST融合-CCC多T融合--CC关注---C精度百分之九十一点七百分之九十三点二93.6%94.2%表6. UCF 101上的消融结果（分割1）。ST融合表示双流时空紧凑双线性融合。多T融合表示多路径时间融合。模型A代表原始的双流CNN，而其他模型则将所提出的方法一个接一个地堆叠起来。特别是，D是最终的架构。通过裁剪帧并翻转它们来编辑数据集，以避免过度拟合。属于一个片段的所有数据都被馈送到网络以产生估计，并且通过对10个片段进行平均来进行视频级方法UCF101HMDB51Slow Fusion CNN[12]65.4%-LRCN[5]百分之八十二点九-C3D[28]85.2%-[22]第二十二话88.0%59.4%Two-Stream + LSTM[37]88.6%-[37]第三十七话88.2%-转换[33]92.4%62.0%双码流（VGG-16）百分之九十点六百分之五十八点二双流+融合[6]92.5%65.4%TSN（BN-Inception）94.0%68.5%我们的（VGG-16）百分之九十三点二百分之六十六点一我们的（ResNet-50）百分之九十三点八百分之六十六点五我们的（BN-Inception）94.6%68.9%表7.与最先进技术的性能比较我们将最终架构的性能与表7中的最新技术进行了比较。我们基于BN-Inception的最佳实现在UCF 101和HMDB 51上分别将平均准确率提高了0.6%和 0.4%有些人可能会对此表示怀疑，并将这种性能提升归功于非常深入的为了证明我们的方法通常是有效的，我们还使用了与以前的双流CNN架构相同的基础架构（VGG- 16）。两者都基于VGG-16，我们的结果（93.2%）仍然与原始双流融合[6]（92.5%）具有竞争力。同样，两者都基于BN-Inception，我们的新结果（94.6%）优于最先进的[32]（94.0%）。这一结果也说明了我们的方法不是任何深度网络的排他性，而是可以广泛应用于许多花哨的CNN模型。分类结果的一些代表性示例如图4所示。前两个子情节证明了时空注意力模型的有效性如上所述，原始的双流网络很容易被普通背景欺骗例如，它将前爬泳视为蛙泳，因为游泳池1537比萨托辛滑雪葛BlowDryHair比萨饼扔拳击速度袋拖地地板pingFloordstandWalkingRope攀岩双节棍吹头发比萨饼抛杂耍玩球Voilin拖把韩滑雪滑板时空金字塔网络时空金字塔网络拖地地板滑雪弓步HeadMessa双节棍滑板双流ConvNet双流ConvNet这似乎是一个主要特征。但是在我们的模型中，这些空间上模糊的类可以通过利用运动信息来提取活动的关注区域来分离。最后两个子图说明了我们的金字塔网络的另一个优势。由于多路径时间融合，它在较长的视频序列上产生更多的全局特征，并且可以容易地区分在短期片段中看起来相似但在长期中可能变化很大的动作此外，图3给出了难以分类的类别的典型示例在第一种情况下，网络有时会将 Skiing 视为SkateBoarding。我们可以观察到，这两类的主要区别在于场景环境。一个可能的原因是CNN对图像背景的颜色偏差不鲁棒。没有证据表明注意力真的忽略了背景并损害了分类性能。相反，它为融合金字塔提供了一些有用的和额外的线索，以进行准确的预测。如果仔细观察图3，可以发现正确类别（滑雪）的置信度实际上有所增加。这表明，在融合金字塔中，一个分量可以修正其他分量的误差。此外，第二个例子表明，一些类别，如PizzaTossing和Nunchucks，只能通过利用细粒度识别来消除歧义也就是说，检测与正在进行的动作有关的详细对象也很重要。对这一问题的研究有待于我们今后的研究。此外，我们采用t-SNE技术来可视化在spatiotemporal金字塔的不同级别学习的特征向量，如图5所示。我们观察到，时空注意确实可以提高空间流的特征质量，时空注意可以提高空间流的特征质量。图3.很难分类的类别的例子即使对于错误分类的情况，正确类别（绿色）的置信度也通过我们的方法增加了。1538PullUps拳击拳击袋吹头发杂耍球射箭时空金字塔网络独木舟悬崖跳水潜水拳击拳击拳击FrontCrawlBoxingSpeedBag蛙泳双流ConvNet双流ConvNet拳击拳击袋FrontCrawlG理发刮胡子弹吉他头留言蛙泳独木舟悬崖跳水跳水拳击速度BlowDryHair双节棍杂耍球袋绳索攀登倒立俯卧撑墙壁俯卧撑攀岩室内图4.基线和我们的金字塔网络对UCF-101的前5名预测的比较蓝色条表示地面真值标签，绿色条表示正确的分类，红色条表示不正确的情况。每一个酒吧的长度显示了它的信心。使用金字塔网络，一些错误可以通过利用图像注意力来消除（右两个），而其他一些类别可以通过融合长期时间特征来消除歧义（左两个）。电话：+86-10 - 8555555传真：+86-10 - 8555555电话：+86-10 - 8555555传真：+86-10 - 8555555电话：+86-10 - 8555555传真：+86-10 - 8555555空间时空注意力时空金字塔融合图5. 从UCF 101中随机抽取10个班级的t-SNE结果。左图显示了单个空间网络的表示;在中间图形上加入时空注意方法得到中间图形;右边的是我们最终的时空金字塔结构。对于所有这些情况，我们使用分类器层的特征。在金字塔顶部的PACT双线性融合可以进一步提高区分性能。5. 结论我们提出了一个时空金字塔网络，将空间和时间特征结合起来，使它们相互加强。从体系结构的角度来看，我们的网络是分层的，由多个融合策略，在不同的抽象层次。这些融合模块作为一个整体进行训练，以最大限度地相互补充。一系列消融研究证实了每种融合技术的重要性从技术的角度，我们引入时空紧双线性算子，视频分析任务。该运算符可以学习空间和时间特征之间的元素交互。我们广泛展示了它的好处比其他融合方法，如串联和元素的总和。我们的时空金字塔网络在UCF 101和HMDB 51上实现了最先进的性能。致谢本工作得到了国家自然科学基金（ 61502265 ，61325008 ），国家重点研发计划（ 2016 YFB1000701 ， 2015 BAF 32 B 01 ），清华国家实验室（TNList）重点项目，NSF通过资助IIS-1526499和CNS- 1626432，以及国家自然科学基金61672313的支持刮胡子ApplyEyeMakeup绳索攀爬时空金字塔网络BlowDryHairBlowDryHair理发双流ConvNetBlowDryHairFrontCrawl时空金字塔网络ckclimbing室内拳击SpeedBag拳击PunchingBagPullUps时空金字塔网络RoPullUps攀绳双流ConvNetPullUps100100100808080606060404040202020000-20-20-20-40-40-40-60-60-60-80-80-80-100-100-1001539引用[1] M.恰里卡尔湾Chen和M.法拉奇-科尔顿在数据流中查找频繁项，第 693-703 页。 Springer Berlin Heidelberg ，2002.[2] G. 奇埃龙岛 Lapt ev和C. 施密特P-cnn：用于动作识别的基于姿势的cnn在IEEE计算机视觉国际会议论文集，第3218- 3226页[3] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。在2015年IEEE计算机视觉和模式识别会议集，第3828-3836页中[4] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。IEEE，2009年。[5] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议论文集，第2625-2634页[6] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议上，2016。[7] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。2016年在IEEE计算机视觉和模式识别会议上发表[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016年在IEEE计算机视觉和模式识别会议上发表[9] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在2015年国际机器学习会议（ICML）上[10] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE transactions on pattern analysis andmachine intelligence，35（1）：221[11] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。第22届ACM国际多时间数据，第675-678页。ACM，2014年。[12] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在Proceedings of the IEEE conference on ComputerVision and Pattern Recognition，第1725[13] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097[14] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre.Hmdb：用于人体运动识别的大型视频数据库2011年国际计算机视觉会议，第2556IEEE，2011年。[15] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。[16] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[17] T.- Y. Lin，L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在IEEE计算机视觉国际会议论文集，第1449[18] J. Lu，J. Yang，D. Batra和D. 帕里克层级针对视觉问题回答的问题-图像共注意。神经信息处理系统进展（NIPS），2016年。[19] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。欧洲计算机视觉会议，第143-156页。施普林格，2010年。[20] N. Pham和R.佩吉通过显式特征映射实现快速和可扩展的多项式内核。第19届ACM SIGKDD知识发现和数据挖掘国际会议集，KDD'13，第239-247页，美国纽约州纽约市，2013年ACM。[21] S.夏尔马河，巴西-地Kiros，和R.萨拉赫季诺夫使用视觉注意力的动作识别。ICLR，2016年。[22] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。In Advances神经信息处理系统，第568-576页，2014年。[23] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。国际学习代表会议（ICLR），2015年。[24] K. Soomro、A. R. Zamir和M. Shah. Ucf101：来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv：1212.0402，2012。[25] N. Srivastava、E.Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的无监督学习。CoRR，abs/1502.04681，2，2015。[26] L.孙，K. Jia，D.- Y. Yeung和B. E.石使用因子化时空卷积网络的人类动作识别。在Proceedings of the IEEEInternational Conference on Computer Vision ，第 4597-4605页[27] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermane

下载后可阅读完整内容，剩余1页未读，立即下载