深度时间线性编码网络

114 浏览量更新于2023-10-16 收藏 12.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

123290深度时间线性编码网络0Ali Diba 1，�，Vivek Sharma 2，�，�，Luc Van Gool 1，301 ESAT-PSI，KU Leuven，2 CV:HCI，KIT，3 CVL，ETH Z¨urich0{ ali.diba,luc.vangool } @esat.kuleuven.be，vivek.sharma@kit.edu0摘要0CNN对整个视频的特征进行编码以表示人类动作的方法很少被提及。相反，CNN的工作重点是融合空间和时间网络的方法，但这些方法通常仅限于处理较短的序列。我们提出了一种新的视频表示方法，称为时间线性编码（TLE），它作为一种新的层嵌入在CNN中，捕捉整个视频中的外观和运动。它通过端到端学习将这些聚合信息编码为稳健的视频特征表示。TLE的优点是：（a）它们将整个视频编码为紧凑的特征表示，学习语义和具有区分性的特征空间；（b）它们适用于所有类型的网络，如2D和3DCNNs用于视频分类；（c）它们以更具表现力的方式建模特征交互，并且不会丢失信息。我们在两个具有挑战性的人类动作数据集HMDB51和UCF101上进行了实验。实验结果表明，TLE在这两个数据集上优于当前最先进的方法。01. 引言0人类动作识别[6, 15, 25,35]在视频中引起了相当大的关注，由于其在视频监控、行为分析、视频检索等方面的潜在应用。尽管取得了相当大的进展，计算机视觉系统的性能仍然落后于人类。除了使物体类别识别变得困难的挑战之外，还存在相机运动和连续变化的视点的问题。尽管卷积网络（ConvNets）使得视觉的几个子领域取得了飞跃，但它们仍然缺乏利用长时间范围内的时间信息的能力，这可能是为什么端到端网络仍然无法超越使用手工制作的方法的主要原因。0� Ali Diba和VivekSharma对这项工作做出了相同的贡献，并按字母顺序列出。�他在ESAT-PSI，KU Leuven期间进行了这项工作。0网球0时间线性编码（TLE）层0端到端训练0CONV0CONV0CONV0图1：用于视频分类的时间线性编码。给定整个视频的若干段，无论是一些帧还是一些剪辑，模型通过端到端学习从它们所包含的空间和时间线索中构建出紧凑的视频表示。应用于不同段的ConvNets共享相同的权重。0特征[35]。动作识别的神经网络可以分为两种类型，即单流ConvNets [15,33]（一次只使用一个流：空间或时间信息）和双流ConvNets[25]（同时集成空间和时间信息）。对于单流ConvNets，空间网络从单个视频帧中进行动作识别，缺乏任何形式的运动建模。另一方面，时间网络通常从密集光流中获取运动信息。这种对密集时间采样的依赖导致处理较长视频的计算成本过高。避免处理大量输入帧的一种方法是提取固定数量的较短剪辑，均匀分布在视频中[25,33]。双流ConvNets表现出优于单流ConvNets的性能。它们利用融合技术，如轨迹约束池化[37]，3D池化[8]和共识池化[38]。23300共识池化[38]。融合空间和运动信息的方法是最先进的双流ConvNets的核心。受到上述观察的启发，我们提出了图1所示的新的时空编码。时空深度特征编码的设计旨在在较长时间范围内聚合多个视频段（即帧或剪辑）。为此，我们使用我们的“时间线性编码”（TLE），它受到先前关于视频表示[35]和特征编码方法[20,31]的工作的启发。TLE是一种对整个视频进行稀疏采样的特征图聚合技术，然后使用由深度网络的端到端学习驱动的编码方法将其投影到较低维度的特征空间中。具体而言，TLE捕捉不同帧或剪辑中的长时间结构的重要概念，并通过线性编码将其聚合成紧凑且稳健的特征表示。紧凑的时间特征表示很好地适应动作识别，因为它是整个视频的全局特征表示。本文的目标不仅是实现高性能，还要表明TLE具有计算效率高、稳健和紧凑的特点。TLE在两个具有挑战性的动作识别数据集HMDB51 [18]和UCF101[28]上进行了评估。我们的实验证明，当与TLE结合使用时，双流ConvNets在HMDB51（71.1%）和UCF101（95.6%）上实现了最先进的性能。本文的其余部分组织如下。在第2节中，我们讨论相关工作。第3节描述了我们的提出方法。实验结果及其分析在第4节和第5节中呈现。最后，在第6节中得出结论。02. 相关工作0无ConvNets的动作识别:在过去的二十年里，视觉社区提出了几种视频动作识别技术。其中有一些关注使用局部时空特征进行有效表示，例如HOG3D [16]、SIFT3D [24]、HOF [19]、ESURF [39]和MBH[4]。最近，提出了IDT[35]，它是目前手工特征中的最先进技术。尽管这些特征表现良好，但它们存在一些问题：计算开销大；无法捕捉语义概念；缺乏辨别能力和可扩展性。为了解决这些问题，提出了几种技术来对动作识别的时间结构进行建模，例如动作序列模型[10]，它考虑了直方图序列；时间动作分解[21]，它通过时间分解视频帧来利用人类动作的时间结构；动态姿势[36]，它使用关系0动作检测模型;以及外观表示的时间演化[9]，它使用能够对外观和运动随时间演化进行建模的排序函数。0ConvNets用于动作识别:最近，已经尝试超越单个图像级别的外观信息，利用ConvNet架构来利用时间信息进行动作识别。已经在动作识别中引入了端到端ConvNet [8, 25, 33,38]。Karpathy等人[15]使用非常大的体育活动数据集（Sports-1M）训练了一个在单个帧上操作的深度网络。然而，这个深度模型的准确性不如基于IDTs的表示，因为它无法捕捉运动信息。为了解决这个问题，Simonyan等人[25]提出了一个双流网络，空间和时间ConvNet的组合。空间和时间网络的输入分别是RGB帧和多帧稠密光流场的堆叠。该网络在捕捉时间信息方面仍然受限，因为它在整个视频中的固定数量的等间隔单帧上操作。Tran等人[33]在视频流上探索了3DConvNet，用于学习16帧的时空特征，并使用3×3×3的滤波器核大小。通过这种方式，他们避免了明确计算光流，并且仍然取得了良好的性能。Sun等人[30]提出了一个分解的时空ConvNet，并将3D卷积分解为2D空间和1D时间卷积。类似于[25]和[33]，Feichtenhofer等人的工作[8]中采用了3DConv融合和3D池化，使用RGB图像和10帧光流堆叠作为输入来融合空间和时间网络。Wang等人[38]使用从整个视频中稀疏采样的多个剪辑作为两个流的输入，然后在后期融合方法中组合所有剪辑的分数。0编码方法: 关于先前的编码方法，关于BoW [3,27]、Fisher向量编码[22]和稀疏编码[40]有大量的文献。这些方法在各种视觉任务中表现得非常好。FV编码[31]和VLAD[1,12]最近已经作为ConvNet架构中的一层进行了整合，CNN编码特征在几个具有挑战性的任务中取得了优秀的结果。同样，双线性模型[20,32]已经被广泛使用并取得了最先进的结果。双线性模型的计算开销很大，因为它返回矩阵的外积，因此可能导致维度过高。为了解决这个问题，提出了紧凑双线性池化[11]，它使用张量草图算法[23]，将特征从高维空间投影到低维空间，同时保持最先进的性能。紧凑双线性池化表现比FV编码和全连接网络更好[11]。此外，这种特征表示方式RGB TLELayerCONVCONVCONVCONVCONVCONV23310光流 TLE 层0分数融合0图2：我们的时间线性编码应用于两流ConvNets [25]的设计：空间网络和时间网络。空间网络处理RGB帧，时间网络处理光流场。来自空间和时间ConvNets的特征图被聚合和编码。最后，两个ConvNets的分数以平均的方式进行组合。空间流的ConvNet权重是共享的，时间流的ConvNet权重也是如此。0编码是紧凑的、非冗余的，避免过拟合，并且显著减少了CNN的参数数量，因为它替代了全连接层。我们提出的时间线性编码捕捉了整个视频片段之间更具表达力的相互作用，并将这些相互作用编码为视频级别预测的紧凑表示。据我们所知，这是第一个从整个视频中编码时间特征的端到端深度网络。03. 方法0在视频中，相邻帧之间的运动往往很小。受此启发，IDTs [35]表明在视频帧中密集采样特征点，并使用光流跟踪它们可以得到良好的视频表示。这表明我们需要一种能够将所有帧一起编码的视频表示，以便也能捕捉到长程动态。为了解决这个问题，最近有一些技术将连续的帧[25]或稀疏采样的帧[38]组合成短剪辑。与IDTs不同，这些技术使用了带有后期融合的ConvNets来结合空间和时间线索，但它们仍然无法高效地将所有帧一起编码。0一些技术已经将几个连续的[25]或稀疏采样的[38]帧组合成短剪辑。与IDTs不同，这些技术使用了带有后期融合的ConvNets来结合空间和时间线索，但它们仍然无法高效地将所有帧一起编码。0鉴于深度学习的早期成功，通过端到端学习深度神经网络应该可以创建有效的视频表示。希望这样的表示能够体现出沿着整个视频提取的更多语义信息。我们的目标是创建一个单一的特征空间，用于表示每个视频，使用所有选定的帧或剪辑，而不是使用分类器对单独的帧/剪辑进行评分并根据评分聚合来标记视频。我们提出了时间线性编码（TLE）来聚合空间和时间信息，将整个视频编码为一个稳健且紧凑的表示，使用端到端学习，如图2和图3所示。算法1概述了所提出的TLE的步骤。有关CNN编码层的更多细节请参见第3.1节。03.1. 深度时间线性编码0考虑从视频 V 中提取的 K 个片段的 CNN输出特征图，这些特征图被截断在卷积层上。特征图是大小为 S ∈ R h × w × c 的矩阵 { S 1 , S 2 , ..., S K }，其中h，w 和 c 分别表示 CNN特征图的高度、宽度和通道数。一个时间聚合函数 T: S 1 , S2 , ..., S K → X，将 K 个时间特征图聚合成一个编码特征图X。聚合函数可以应用于不同卷积层的输出。这种时间聚合允许我们将整个视频的信息线性编码和聚合成一个紧凑且稳健的特征表示。这样可以保留所有片段之间的时间关系，而不会丢失重要信息。我们研究了不同的时间聚合函数 T。0算法1 深度时间线性编码层0输入：视频 V 的 K 帧/剪辑的 CNN 特征 { S 1 , S 2 , ..., SK }，其中 S ∈ R h × w × c，其中 h，w 和 c分别是特征图的高度、宽度和通道数。输出：时间线性编码特征图 y ∈ R d，其中 d是编码特征的维度。时间线性编码：1. X = S 1 � S 2 � ... � SK，X ∈ R h × w × c，其中 � 是聚合运算符。2. y =编码方法 (X)，y ∈ R d，其中 d 表示编码特征的维度。3D Conv3D Conv3D ConvTennis��"��#��$�� ℓ�� ← ��ℓ��y��ℓ��#��ℓ��$ �� /��ℓ23320C3D TLE层0图3：我们的时间线性编码应用于3D ConvNets[33]。这些网络以视频剪辑作为输入。从剪辑中提取的特征图被聚合和编码。网络的输出是一个视频级别的预测。操作在不同剪辑上的ConvNets共享相同的权重。0• 分段的逐元素平均值：0X = ( S 1 ⊕ S 2 ⊕ ... ⊕ S K ) /K (1)0• 分段的逐元素最大值：0X = max { S 1 , S 2 , ..., S K } (2)0• 分段的逐元素乘法：0X = S 1 ◦ S 2 ◦ ... ◦ S K (3)0在上述所有时间聚合函数中，特征图的逐元素乘法产生了最好的结果，因此被选中。时间聚合矩阵 X作为输入传递给编码（或池化）方法 E ： X → y，得到线性编码的特征向量 y ，其中 d表示编码后的特征维度。编码的优势在于聚合的每个时间段的通道与其他通道相互作用，从而得到整个视频的强大特征表示。在本研究中，我们研究了两种编码方法 E ：0• 双线性模型：双线性模型[20,32]计算两个特征图的外积，如下所示：0y = W [ X � X ′ ] (4)0其中 X ∈ R ( hw ) × c ， X ′ ∈ R ( hw ) × c ′是输入特征图， y ∈ R ( cc ′ ) 是双线性特征， �表示外积，[ ] 将矩阵通过连接列变成向量，W表示模型。0X = " � # � �� $ y = �( X ) 60y0ℓ "0图4：在时间线性编码中计算反向传播的梯度。0要学习的参数（这里是线性的）。在我们的情况下，X= X ′。得到的双线性特征捕捉到了所有空间位置上特征之间的相互作用，因此得到了一个高维表示。因此，我们使用张量草图算法[11,23]将这个高维空间投影到一个低维空间，而不是直接计算外积。这样可以大大减少模型参数的数量。模型参数 W 是通过端到端的反向传播学习的。0•全连接池化：由于网络在最后一个卷积层和分类层之间有全连接层，因此在从头开始训练网络或微调预训练网络时，会学习到全连接层和分类层的模型参数。0与全连接池化方法相比，双线性模型将高维特征空间投影到一个维度较低的空间，参数数量更少，性能仍然优于全连接层，除了计算效率。除了双线性模型或全连接池化之外，还可以使用其他编码方法，如深度Fisher编码[31]或VLAD[1,12]。当使用双线性模型时，特征经过符号平方根和L2归一化。无论哪种情况，我们都使用softmax作为分类器。端到端训练：我们使用 K = 3，根据时间建模工作[10]的建议。设CNN的输出特征图为 S1 ， S 2 和 S 3 。时间聚合特征由 X = S 1 ◦ S 2 ◦ S 3给出，时间线性编码特征由 y 表示。设 ℓ表示损失函数，dℓ/d ( X ) 表示损失函数对 X的梯度。算法2说明了我们的时间线性编码步骤在3个段的设置中的前向和反向传播过程。联合优化的反向传播过程2. y = [XX ], y ∈ R23330算法2：用于具有3个片段的双线性模型的深度时间线性编码的前向和后向传播步骤。0输入：3个片段方案的卷积特征图，{ S 1 , S 2 , S 3 }，S ∈ R h × w × c0输出：y ∈ R d0时间线性编码：前向传播：1. X = S 1 ◦ S 2 ◦ S3，X ∈ R h × w × c0反向传播：1. dℓ dS 1 = ( S 2 ◦0dX, dℓ dS 2 = ( S 1 ◦ S 3 ) dℓ0dX, dℓ dS 3 = ( S 1 ◦ S 2 )dℓ0dX0K个时间段可以推导为：0dℓ dS k = (( S 1 ◦ ... ◦ S K S k ) dℓ0K个时间段可以推导为：0在端到端学习中，K个时间段的模型参数使用随机梯度下降（SGD）进行优化。此外，整个视频的时间线性编码模型参数是从整个视频中学习的。该方案在图4中有所说明。04. 评估0在本节中，我们首先介绍我们提出的方法的数据集和实现细节。然后，我们展示了我们的时间线性编码在使用帧或剪辑对2D和3DConvNets进行长距离动态编码方面的适用性。最后，我们将时间线性编码与最先进的方法进行了比较。04.1. 数据集0我们在两个具有人类动作的具有挑战性的视频数据集HMDB51 [18]和UCF101[28]上进行实验。HMDB51数据集包含51个动作类别，共有6766个视频剪辑。UCF101数据集包含101个动作类别，共有13320个视频剪辑。这两个数据集中，每个动作类别至少有100个视频剪辑。对于这两个数据集，我们使用原始评估方案提供的三个训练/测试分割，并报告这三个分割的平均准确率。04.2. 实现细节0我们使用caffe工具箱[14]进行ConvNet实现，所有网络都在两个Geforce Titan XGPU上进行训练。这里，我们描述了实现细节。0我们的两种方案是：使用双流ConvNets进行时间线性编码和使用C3DConvNets进行时间线性编码，其中使用双线性模型和全连接池化。正如在方法部分中提到的，我们在ConvNet的训练和测试中使用了3个片段。0双流ConvNets：我们使用在ImageNet数据集[5]上训练的三个预训练模型，分别是AlexNet [17]，VGG-16 [26]和BN-Inception[13]，用于设计双流ConvNets。双流网络由空间网络和时间网络组成，空间ConvNet在RGB帧上操作，而时间ConvNet在一堆10个稠密光流帧上操作。输入的RGB图像或光流帧的尺寸为256×340，并随机裁剪为224×224的尺寸，然后进行均值减法以进行网络训练。为了微调网络，我们用C-waysoftmax层替换了以前的分类层，其中C是动作类别的数量。我们使用小批量随机梯度下降（SGD）来学习模型参数，固定的权重衰减为5×10-4，动量为0.9，批量大小为15。空间和时间ConvNets的预测分数在softmax归一化之前通过平均融合的方式进行组合。-使用双线性模型的TLE：在我们的双线性模型实验中，我们仅保留每个网络的卷积层，具体来说，我们删除了所有的全连接层，类似于[11,20]。从最后一个卷积层提取的卷积特征图（当存在时，是最后一个卷积层的修正输出）作为输入传递给双线性模型。例如，BN-Inception的最后一层的卷积特征图产生一个大小为14×14×1024的输出，导致双线性特征1024×1024和8196个紧凑双线性模型的特征。我们遵循两个步骤来微调整个模型。首先，我们使用逻辑回归训练最后一层。其次，我们微调整个模型。在训练空间ConvNets的这两个步骤中，我们将学习率初始化为10-3，并在每4000次迭代后将其减小10倍。最大迭代次数设置为12000。我们对RGB帧使用水平轴翻转增强和RGB抖动。对于时间ConvNet，我们使用一堆10个光流帧作为输入剪辑。我们将光流场线性缩放到[0,255]的范围，并压缩为JPEG图像。对于光流帧的提取，我们使用带有CUDA实现的OpenCV工具箱中的TVL1光流算法[42]。在训练时间ConvNets的这两个步骤中，我们将学习率初始化为10-3。0并在每10,000次迭代时手动减小10倍。最大迭代次数设置为30,000。我们使用批归一化。在特征输入到softmax层之前，特征通过一个23340| y |）和L 2 -归一化（z' ← z/ || z || 2）。−带全连接池的TLE：我们遵循之前讨论的相同的两步微调方案。对于空间和时间ConvNets之间的最后一个卷积层和C路softmax层之间的全连接层的微调，我们将学习率初始化为10-3，并在两个模型训练步骤中的每10,000次迭代时将其减小10倍。最大迭代次数设置为30,000。我们对RGB和光流帧应用相同的增强和离散化技术，如前所述。0C3DConvNets：在我们的实验中，我们使用在Sport-1M数据集上预训练的C3D模型[33]。卷积核的大小为3×3×3，步幅为1，空间和时间维度都建议使用[33]。视频被分解为16帧的非重叠、等时长的片段。C3DConvNet将这些视频片段作为网络训练的输入。视频帧的大小为128×171。对于网络训练，我们随机裁剪视频片段到16×112×112的大小，然后进行均值减法。每个片段只使用一个中心裁剪。对于网络的微调，我们用一个C路softmax层替换了之前的分类层，其中C是动作类别的数量。我们使用小批量随机梯度下降来学习模型参数，固定的权重衰减为5×10-4，动量为0.9，批量大小为10。在这项工作中，我们按照与原始C3DConvNets在UCF101上相同的微调方案，对C3DConvNets在HMDB51上进行微调，并报告它们在三个划分上的平均准确率。−使用双线性模型的TLE：与两流ConvNets的双线性模型的TLE类似，我们保留卷积层。对于模型的微调，我们使用之前解释的相同的两步方案。在C3DConvNets训练的两个步骤中，我们将学习率初始化为3×10-3，并在每10,000次迭代时减小10倍。最大迭代次数设置为30,000。我们使用批归一化。在将特征输入到softmax分类器之前，特征通过有符号平方根和L2归一化处理。−带全连接池的TLE：为了微调C3DConvNets的全连接层，我们遵循之前讨论的相同的两步微调方案。在模型训练的两个步骤中，我们将学习率初始化为10-3，并在每10,000次迭代时手动减小10倍。最大迭代次数设置为40,000。0测试：− 两流ConvNets：给定一个视频，我们将其分成0将视频分成3个等时长的部分。这三个部分与3个段相关联。对于TLE两流ConvNet的测试，每次从每个部分提取1个RGB帧或10个光流帧，并按顺序将其馈送到3个段的网络中。总共，我们从整个视频中采样5个RGB帧或光流帧堆叠（即三个段总共15帧）。对于视频预测，我们对所有帧段组的预测进行平均。空间和时间ConvNets的预测分数通过平均的方式进行后期融合。− C3DConvNets：我们将每个视频分解为16帧的非重叠片段，然后将片段数量分为3个相等的部分。对于TLE C3DConvNets的测试，从每个部分提取1个片段，并按顺序将其馈送到3个段的网络中。总共，我们从整个视频中提取3个片段（即三个段总共9个片段）。我们对所有片段组的预测进行平均，以进行视频级别的预测。04.3. TLE的评估0在本小节中，我们探索了（i）不同的聚合函数T，将片段线性聚合成紧凑的中间表示进行编码；以及（ii）不同的两流（空间和时间网络）和C3D网络的ConvNet架构。对于这个评估，我们报告了UCF101和HMDB51上split1的准确率。所报告的性能是使用张量草图算法的双线性模型的TLE的性能。0两流ConvNets：−聚合函数：在我们的评估中，我们探索了三种聚合函数（i）逐元素平均值，（ii）逐元素最大值和（iii）逐元素乘法。在表1中，我们报告了不同聚合策略的性能。我们观察到逐元素乘法的表现最好。因此，我们选择逐元素乘法作为默认的聚合函数。我们相信以这种方式组合特征图可以准确地聚合外观和运动信息，从而获得更好的结果。有趣的是，我们还发现聚合最后一个卷积特征图的修正输出与未修正输出相比，分类性能大致相同。0聚合函数（T）UCF101/HMDB510逐元素最大值 91.3/67.40逐元素平均值 92.6/68.10逐元素乘法 94.8/70.40表1：在UCF101和HMDB51数据集（split1）上使用两流ConvNets的TLEBN-Inception网络中聚合函数的准确率（%）性能比较DT+MVSM [2]83.555.9iDT+FV [35]85.957.2Two Stream [25]88.059.4VideoDarwin [9]−63.7C3D [33]82.356.8Two Stream+LSTM [41]88.6−FST CV (SCI fusion) [30]88.159.1TDD+FV [37]90.363.2LTC [34]91.764.8KVMF [44]93.163.3TSN [38]94.068.53DConv+3DPool [8]93.569.223350UCF101/HMDB51 UCF101/HMDB510方法空间ConvNets 时间ConvNets0AlexNet 74.4/50.8 82.7/52.40VGG-16 81.5/60.9 86.8/61.50BN-Inception 86.9/63.2 89.1/66.40表2：在UCF101和HMDB51数据集（split1）上使用3个片段的空间和时间ConvNets的不同架构准确率（%）性能比较0−ConvNet架构：在这里，我们比较了TLE的不同ConvNet架构。具体来说，我们比较了AlexNet [17]、VGG-16[26]和BN-Inception[13]。在表2中显示的所有架构中，BN-Inception的性能最好，优于AlexNet和VGG-16架构。在UCF101/HMDB51上，BN-Inception比VGG-16的性能提高了5.4/2.3%（空间ConvNets）和2.3/4.9%（时间ConvNets）。因此，我们选择BN-Inception作为TLE的默认ConvNet架构。我们可以观察到，模型越深，性能提升越高，对两个数据集都是如此。0C3D ConvNets：−聚合函数：我们进行了类似的实验，探索了C3DConvNets中的聚合函数，就像在两流ConvNets中使用的那样。表3总结了比较不同聚合策略的结果。与两流ConvNets类似，逐元素乘法比其他候选函数表现更好，因此被选为默认的聚合函数。0聚合函数（T）准确率（%）0逐元素最大值 84.20逐元素平均值 84.60逐元素乘法 86.10表3：在UCF101数据集（split1）上使用3个片段的TLEC3D ConvNet中不同聚合函数的性能比较0− ConvNet架构：我们使用C3D ConvNet[33]架构作为TLE的默认ConvNet架构。该模型在UCF101数据集的split1上获得了86.1%的准确率。04.4. 与现有技术的比较0最后，在探索聚合函数和良好的ConvNet架构之后，我们将我们的TLE与UCF101和HMDB51数据集的当前最先进的方法进行了比较。我们报告了两个数据集的三个split的平均准确率。−两流ConvNets：在表4中，我们将TLE与使用两流ConvNets的当前方法进行了比较0两个流ConvNets和其他传统方法。TLE与双线性模型（TLE:Bilinear）在所有方法中表现最好。该模型在UCF101和HMDB51上分别获得95.6%和71.1%的准确率。TLE:Bilinear+TS使用张量草图算法的准确率差距很小，分别为0.5/0.5%和3.4/2.3%，TLE:FC-Pooling相对于TLE:Bilinear在UCF101/HMDB51上的准确率差距为0.4/3.1%。TLE:Bilinear相对于Two-Stream [25]、TSN [38]和3DConv+3DPool[8]方法在UCF101/HMDB51上分别优于7.6/11.7%、1.6/2.6%和2.1/1.9%。可以观察到，光流在捕捉运动信息方面更好（如表2所示），当与长时程结构中的外观信息相结合时，能够有效进行视频级学习。作为另一个有趣的比较，与其他具有数百万参数需要训练的方法相比，我们的TLE与双线性模型需要训练的参数很少。因此，我们的模型在计算上是高效的。此外，我们的模型清楚地展示了编码特征表示在整个视频的视频分类中的强大能力，实现了端到端学习。0− C3D ConvNets: 在表5中，我们总结了TLE在C3DConvNets中的性能，并将其与当前使用的3D Conv[33]和其他传统方法进行了比较。与两个流ConvNets类似，TLE:Bilinear优于其他方法，在UCF101和HMDB51上分别获得86.3%和60.3%的准确率，比原始C3D ConvNets[33]和iDT+FV [35]方法分别提高了4/3.5%和0.4/3.1%。0方法 UCF101 HMDB510TLE: FC-Pooling (我们的) 92.2 68.80TLE: Bilinear+TS (我们的) 95.1 70.60TLE: Bilinear (我们的) 95.6 71.10表4：两个流ConvNets。UCF101和HMDB51的三个分割中TLE BN-Inception网络的准确率（%）性能比较。SpatioTemporal ConvNet [15]65.4−LRCN [7]82.9−Composite LSTM Model [29]84.344.0iDT+FV [35]85.957.2Two Stream [25]88.059.4C3D [33]82.356.823360方法 UCF101 HMDB510TLE: FC-Pooling (我们的) 83.1 58.60TLE: Bilinear+TS (我们的) 85.6 59.70TLE: Bilinear (我们的) 86.3 60.30表5：C3DConvNets。TLE与最先进方法在UCF101和HMDB51的三个分割上的准确率（%）性能比较。0UCF101/HMDB51.这个实验的目标是展示TLE可以提高原始C3D ConvNets[33]的性能。有趣的是，TLE:Bilinear在HMDB51数据集上的性能优于两个流ConvNets[25]。我们认为TLE:Bilinear表现优于其他方法的原因是该模型本质上能够使用视频数据中的多个长时程线索的多个方面来编码动态外观和运动，而这些线索对于原始C3DConvNets [33]是不可用的。05. 场景上下文嵌入0本节描述了一项额外的实验，以将场景上下文纳入其中，以提高动作识别的成功率。在空间网络中，单独训练的ConvNets倾向于错误分类视频中的场景和物体的上下文信息，这可能是动作识别的明显信息来源。作为我们方法的一个应用，我们研究了将场景的上下文信息纳入其中以提高动作识别性能。我们的网络架构使用具有3个段的TLE。此外，我们添加了第四个段的ConvNet，该段在Places365数据集[43]上进行了预训练。使用后者的关键原因是监督学习与场景相关信息的额外表示，以进一步提升动作识别。通过这种方式，我们在两个任务之间传递了学习到的表示，以获得更好的动作识别效果。我们知道，在这种情况下我们使用了额外的数据，但这是一种很好的方式来展示TLE结合不同数据流的能力。在这个实验中，我们利用场景的上下文信息来提高动作识别。我们在第4.2节中解释的两个流ConvNets中应用相同的训练方案。在这个实验中，我们使用VGG-16网络架构。从表6中，我们可以观察到这种提出的方法的动作识别准确率优于具有三个段的TLE方法（如上所示0UCF101/HMDB510方法空间ConvNets0TLE:双线性+时间流，动作（我们的）81.5 / 60.90TLE:双线性+时间流，动作+上下文（我们的）83.8 / 63.60表6：使用在Places365[43]上预训练的上下文信息的VGG-16空间ConvNets与3个段组合时的准确率（%）性能比较。准确率报告了两个数据集上的split1。0表2：在空间ConvNets上的结果。结果表明，两个信息流以互补的方式进行编码。06. 结论0在本文中，我们提出了嵌入ConvNet架构中的时间线性编码（TLE），旨在聚合整个视频的信息，无论是以帧还是剪辑的形式。结果是在端到端学习方案中获得的全局特征表示。该模型对整个视频进行动作预测。我们在两个具有挑战性的动作视频数据集HMDB51和UCF101上展示了TLE。除了比现有方法具有更好的性能外，TLE还具有计算效率高、鲁棒性强、紧凑、将模型参数数量显著减少到完全连接的ConvNets以下，并以更具表现力的方式保留特征交互，而不会丢失信息。尽管在本文中，我们专注于两流和C3DConvNets架构，但我们的方法具有推广到其他架构的潜力，并且可以轻松地与其他编码方法一起使用。因此，它可以实现更准确的分类。这项工作的另一个潜力是，TLE非常灵活，可以轻松地应用于其他形式的顺序数据流进行特征嵌入。在未来的工作中，关于空间和时间段聚合，我们计划进一步研究架构的替代方案。例如，可以将每个段的空间和时间网络分别组合，然后以分层方式聚合这个时空网络，以获得全局的时空特征表示。0致谢：本工作得到了DBOF博士奖学金和KU LeuvenCAMETRON项目的支持。作者要感谢Nvidia的GPU捐赠。0参考文献0[1] R. Arandjelovi´c, P. Gronat, A. Torii, T. Pajdla, and J. Sivic.NetVLAD: 用于弱监督地点识别的CNN架构. 在CVPR，2016年。23370[2] Z. Cai, L. Wang, X. Peng, and Y. Qiao.多视图超向量用于动作识别. 在CVPR，2014年。[3] G. Csurka, C.Dance, L. Fan, J. Willamowski, and C. Bray.基于关键点的视觉分类. 在ECCV Workshops，2004年。[4] N.Dalal, B. Triggs, and C. Schmid.使用定向直方图的流和外观进行人体检测. 在ECCV，2006年。[5] J.Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.ImageNet: 一个大规模的分层图像数据库. 在CVPR，2009年。[6]A. Diba, A. M. Pazandeh, and L. Van Gool.高效的两流动作和外观3D CNN用于视频分类. 在ECCVWorkshops，2016年。[7] J. Donahue, L. Anne Hendricks, S.Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T.Darrell. 长期循环卷积网络用于视觉识别和描述.在CVPR，2015年。[8] C. Feichtenhofer, A. Pinz, and A.Zisserman. 用于视频动作识别的卷积两流网络融合.在CVPR，2016年。[9] B. Fernando, E. Gavves, J. M. Oramas, A.Ghodrati, and T. Tuytelaars. 建模视频演化用于动作识别.在CVPR，2015年。[10] A. Gaidon, Z. Harchaoui, and C.Schmid. 使用Actoms进行动作的时间定位. PAMI，2013年。[11]Y. Gao, O. Beijbom, N. Zhang, and T. Darrell. 紧凑的双线性池化.在CVPR，2016年。[12] Y. Gong, L. Wang, R. Guo, and S.Lazebnik. 多尺度无序池化的深度卷积激活特征.在ECCV，2014年。[13] S. Ioffe and C. Szegedy. 批量归一化:通过减少内部协变量偏移加速深度网络训练.在ICML，2015年。[14] Y. Jia, E. Shelhamer, J. Donahue, S.Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell.Caffe: 用于快速特征嵌入的卷积架构. 在ACM MM，2014年。[15]A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar,and L. Fei-Fei. 使用卷积神经网络进行大规模视频分类.在CVPR，2014年。[16] A. Klaser, M. Marszałek, and C.Schmid. 基于3D梯度的时空描述符. 在BMVC，2008年。[17] A.Krizhevsky, I. Sutskever, and G. E. Hinton.使用深度卷积神经网络进行ImageNet分类.在NIPS，2012年。[18] H. Kuehne, H. Jhuang, E. Garrote, T.P

下载后可阅读完整内容，剩余1页未读，立即下载