协同学习时空特征的视频动作识别方法

136 浏览量更新于2023-10-19 收藏 1015KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1协同时空特征学习的视频动作识别超李乔勇钟迪谢世良浦海康威视研究院{lichao15，zhongqiaoyong，xiedi，pushiliang}@ hikvision.com摘要时空特征学习对于视频中的动作识别至关现有的深度神经网络模型要么独立地学习空间和时间特征（C2D），要么与无约束参数联合学习（C3D）。在本文中，我们提出了一种新的神经操作，编码时空特征协作施加一个权重共享约束的学习参数。特别是，我们沿着体积视频数据的三个正交视图执行2D卷积，分别学习空间外观和时间运动通过共享不同视图的卷积核，空间和时间特征可以协同学习，从而相互受益。随后通过加权求和融合互补特征，加权求和的系数是端到端学习的。我们的方法在大规模基准测试中实现了最先进的性能，并在2018年的Moments in TimeChallenge中获得了第一名。此外，基于不同视图的学习系数，我们能够量化空间和时间特征的贡献。这一分析揭示了模型的可解释性，也可能指导未来的视频识别算法的设计1. 介绍近年来，视频动作识别在视频监控、人机交互、社会化视频推荐等领域有着广泛的应用前景，受到了越来越多的关注。这一任务的关键在于联合时空特征学习。空间特征主要描述动作中涉及的对象的外观和场景配置以及视频的每个帧内空间特征学习类似于静态图像识别，因此很容易受益于深度卷积神经网络（CNN）带来的最新进展[13]。当节奏- ral特征捕获嵌入在随时间演进的帧中的运动线索。出现了两个挑战。一个是如何学习时间特征。二是如何图1.视频的三个视图的可视化，这激发了我们的协同时空特征学习的设计。左上角：H-W视图。右上角：T-H视图. 下图：T-W视图。适当地融合空间和时间特征。研究人员的第一次尝试是明确地建模时间运动信息，并与空间信息并行原始帧和相邻帧之间的光流另一方面，作为用于静态图像识别的 2D ConvNets（C2D）的推广，提出了3D ConvNets（C3D）来处理3D体积视频数据[24]。在C3D中，空间和时间特征紧密纠缠并共同学习。也就是说，不是单独学习空间和时间特征并在网络的顶部融合它们，而是通过分布在整个网络上的3D卷积来学习联合时空特征。考虑到CNN出色的特征表示学习能力，理想情况下，C3D应该像C2D在图像识别上一样在视频理解上取得巨大成功然而，C3D模型参数数量庞大，计算效率低，限制了C3D的有效性和在本文中，我们提出了一种新的协作水疗中心-78727873（a）C3D3×3×31 × 3 × 3��ℎ��+��ℎ3 × 1 × 1（b）C3D3×1×1（c）成本网络来根据需要处理空间或时间特征。此外，基于学习的系数，我们能够量化空间域和时间域各自的贡献。基于CoST操作，我们构建了一个卷积神经网络。此后，我们将把运营和网络都称为成本，这应该很容易识别。图2. 比较常见的时空特征学习架构的成本。(a)C3D3×3×3。(b)C3D3×1×1。(c)提出的成本。tioTemporal（CoST）特征学习操作，其与权重共享约束联合学习时空特征给定一个3D体积视频张量，我们通过从不同的角度查看它，将其展平为三组2D图像。然后将2D卷积应用于每组2D图像。图1示出了来自示例性视频剪辑的三个视图的2D快照，其中一个人在体育场跳高H-W观是人类所熟悉的自然观.通过在时间T上从该视图逐帧扫描视频，我们能够理解视频内容。虽然涉及T的视图的快照（即，T-W和T-H）对人类来说很难解释，它们包含的信息量与正常的H-W视图完全相同。更重要的是，丰富的运动信息被嵌入在每个帧内，而不是帧之间。因此，T-W和T-H视图的帧上的2D卷积能够直接捕获时间运动线索。如图2（c）所示，通过融合三个视图的互补空间和时间特征，我们能够使用2D卷积而不是3D卷积来学习时空特征。值得注意的是，出于以下原因，不同视图的卷积核被共享。1)从不同视图的框架的可视化来看（参见图1），它们的视觉外观是兼容的。例如，在时间视图（T-H和T-W）中也存在常见的空间模式，如边缘和颜色斑点.因此，相同的卷积核集合可以应用于不同视图的帧。2) C2D网络中的卷积核本质上是冗余的，无需修剪[9，15，31]。而冗余核可以通过权重共享的方式用于时间特征学习。3)模型参数的数量大大减少，使得网络更容易训练，不太容易过拟合，从而获得更好的性能。此外，空间特征学习在静止图像上的成功（例如，精心设计的网络体系结构和预先训练的参数）可以不费吹灰之力地转移到时域。不同视图的互补特征通过加权求和进行我们为每个视图中的每个通道学习一个独立的系数，根据其上下文。与C2D相比，CoST可以联合学习时空特征。与C3D相比，CoST基于2D而不是3D卷积。成本本质上是C2D和C3D之间的桥梁，双方的利益，即。保留了C2D的紧致性和C3D的表示能力。对于视频中的动作识别任务，实验表明，CoST实现了优于C2D和C3D的性能。本文的主要贡献概括如下：• 我们提出了成本，协作学习spa- tiotemporal功能使用2D卷积，而不是3D卷积。• 据我们所知，这是第一个定量分析的重要性的空间和时间特征的视频理解。• 所提出的成本模型优于传统的C3D模型及其变体，在大规模基准测试中达到了最先进的性能。2. 相关工作在早期阶段，手工制作的表示已经很好地探索了视频动作识别。许多二维图像的特征描述符被推广到三维时空域，例如：时空兴趣点（STIP）[14]，SIFT-3D[21]，时空SIFT [1]和3D梯度直方图[12]。最成功的手工制作的表示是密集轨迹[27]及其改进版本[28]，其沿着光流引导的轨迹提取局部特征。受到深度学习的巨大成功的鼓舞，特别是用于图像理解的CNN模型，有许多尝试开发用于动作分类的深度学习方法[33]。双流架构[23]利用视觉帧和相邻帧之间的光流作为网络的两个独立输入，并将其输出分类分数融合为最终预测。许多作品遵循并扩展了这种架构[5，6，34]。LSTM网络也被用来捕捉视频中的时间动态和长程依赖性。在[18，4]中，CNN用于学习每个帧的空间特征，而LSTM用于对时间演化进行建模。3 × 3 × 3共享参数3 × 3 × 13 × 1 × 31 × 3 × 37874+1 × 1 × 11 × 3 × 31 × 1 × 1+1 × 1 × 13 × 3 × 31 × 1 × 1+1 × 1 × 11 × 3 × 33 × 1 × 1+1 × 1 × 1成本1 × 1 × 1（a）C2D（b）C3D3×3×3（c）C3D3×1×1（d）成本图3.视频中动作识别的各种残差单位的比较近年来，随着现代GPU计算能力的提高和大规模视频数据集的出现，3D ConvNet（C3D）受到了越来越多的关注。在[24]中，设计了一个11层C3 D模型来联合学习Sports-1 M数据集上的时空特征[11]。然而，C3D巨大的计算成本和密集的参数使得训练非常深的模型是不可行的Qiu等[19]提出了伪3D（P3D），将3×3×3的3D卷积转换为1×3×3的2D卷积，然后是3×1×1的1D卷积。在另一项工作中[25]，类似的架构被探索和重新设计。简称（2+1）D. [2]提出了膨胀三维ConvNet（I3D），它是C3D，其参数通过膨胀预训练的C2D模型的参数来初始化。与我们关系最密切的工作是切片CNN[22]，它还从多个视图中学习特征，以进行人群视频理解。然而，切片CNN和提议的成本之间存在实质性差异。切片CNN通过三个不同的网络分支学习三个视图的独立特征，这些分支在网络的顶部合并。空间和时间特征的聚合仅在网络级进行一次相反，我们学习时空功能合作使用一种新的成本操作。时空逐层进行特征聚集3. 方法在本节中，我们首先回顾传统的C2D和C3D架构，这些架构是作为基线实现的。然后，我们介绍了建议的成本。并对成本技术与C2 D/C3 D的联系3.1. 2D ConvNetsC2D利用了2D卷积强大的空间特征表示能力，而简单的策略（例如，池化）用于时间特征聚集。在这表1. ResNet-50-C2 D的架构。在每个块的第一残差单元上执行空间跨越。工作，我们实现C2D作为基线模型。我们选择ResNets[8]作为骨干网络，其剩余单元如图3（a）所示。为了处理 3D 体积视频数据，需要相应地调整 vanillaResNets。以ResNet-50为例，其用于视频动作识别的适配版本如表1所示。为了方便起见，我们将其称为ResNet-50-C2 D。请注意ResNet-50-C2 D和 vanilla ResNet-50 之间的差异。首先，所有k×k二维卷积都适应于它们的三维形式，即，1×k×k。其次，在块1之后附加时间池化（池2）以将帧的数量第三，全局平均池（池3）也从7×7调整为4×7×7，以便同时聚合空间和时间特征同样地，我们可以基于ResNet-101设置ResNet-101-C2 D。3.2. 3D ConvNetsC3D是用于3D视频数据的C2D的自然概括。在C3D中，通过将滤波器从正方形放大到立方形，将2D卷积转换为3D。例如，通过引入额外的时间维度t[5，2]，可以将h×w2D滤波器转换为t×h×w3D在现代深度CNN架构（如ResNets）中，有两种主要类型的过滤器，即1×1和3×3。如[30]所述，给定一个由1×1和3×3卷积组成的残差单元，我们可以将中间的3×3滤波器膨胀为3×3×3（C3D3×3×3），如图3（b）所示，或者将第一个 1×1 滤波器膨胀为 3×1×1（C3D3×1×1），如图3（c）所示。 [30]中的实验证明C3D3×3×3和C3D3×1×1实现了相当的性能，而后者包含的参数要少得多，名称输出大小滤波器步幅输入8×224×224没有一没有一转换器18×112×1121× 7× 7， 641,2,2池18×56×56最大3× 3× 31× 1× 1，641,2,2块18×56×561× 3× 3， 641× 1× 1，2561,1,1池24×56×56最大3× 1× 11× 1× 1，1282,1,1块24×28×281× 3× 3， 1281× 1× 1，5121,2,2块34×14×141× 1× 1，2561× 3× 3， 2561× 1× 1，10241,2,2块44×7×71× 1× 1，5121× 3× 3， 5121× 1× 1， 20481,2,2池31×1×14× 7× 7，平均值1,1,17875×你好，你好，你好��ℎT ×××��13 × 3 × 13 × 1 × 31 × 3 × 3��2× 3Softmax×你好，你好，你好��T ×××2��ℎ��ℎ份额权重T ×××1��3 × 3 × 13 × 1 × 31 × 3 × 3��2× 3��2× 31 × 1 × 1 ×��21 × 1 × 1 ×��21 × 1 × 11 × 1 × 11 × 1 × 1挤压孔卡特Softmax足球会计算效率更高。因此，在我们的实现中，采用C3D3×1×1值得注意的是，C3D3×1×1模型交替学习空间和时间特征，而不是联合学习，这与（2+1）D [25]和P3D [19]模型非常相似。在我们的实现中，我们在[30]之后为每两个残差单元膨胀第一个1×1滤波器然而，我们保持conv1不变，为2D（1×7×7），而不是[30]。3.3. 成本��ℎ��模型参数T ×××��2份额权重在本节中，我们将详细描述所提出的成本模型。图2比较了所提出的成本操作，常见的时空特征聚合模块。如上所述，C3D3×3×3利用3D卷积，3×3×3的解来联合提取空间（沿H和W）和时间（沿T）特征。在C3D3×1×1配置中，利用沿T的一维3×1×1卷积来聚合时间特征，然后利用沿H和W 的二维1×3×3卷积来聚合空间特征。而在所提出的方法中，我们沿着T×H×W体数据的三个视图执行2D 3 × 3卷积，H-W，T-H和T-W分别。值得注意的是，三视图卷积的参数是共享的，这保持了参数数量与单视图2D卷积相同。三个得到的特征图随后通过加权求和进行聚合。权重也在训练期间以端到端的方式学习。令x表示大小为T×H×W×C1的输入特征图，其中C1是输入通道的数量。来自不同视图的三组输出要素地图为计算公式：xhw=xw1×3×3，图4.CoST（a）的架构，其中系数α是模型参数的一部分。图5.CoST（b）的架构，其中系数α由网络预测。为了学习系数α，我们提出了两个架构，名为CoST（a）和CoST（b）。xtw=xw3×1×3，xth=xw3×3×1，（一）费用（a）。如图4所示，系数α被视为模型参数的一部分，可以在训练期间使用反向传播进行更新。在-其中，ω表示3D卷积，w是三个视图之间共享的大小为3×3的卷积滤波器。为了将w应用于不同视图的帧，我们在不同的索引处插入一个大小为1的额外得到的w的变体，即w1×3×3、w3×1×3和w3×3×1分别学习H-W、T-W和T-H视图然后，利用加权求和来聚合三组特征图因此，系数是固定的，并且相同的系数集合被应用于每个视频剪辑。费用（b）。系数α由网络基于特征图预测，α将与特征图相乘。这种设计的灵感来自于最近的机器翻译的自我注意机制[26]。在这种情况下，CO-每个样本的系数取决于样本本身。它可以被公式化为：xΣ Σ Σ ΣΣΣy=αhw，αtw，αthHW中国（2）αhw，αtw，αth=f（xhw，xtw，xth）（3）第x其中α=[αhw，αtw，αth]是大小为C2×3的系数。C2是输出通道数，3表示三个视图。为了避免由此产生的对于来自多个视图的响应，α使用Softmax函数沿每行进行归一化。CoST（b）的架构如图5所示。虚线内的计算块表示等式（3）中的函数f。具体来说，对于每个视图，我们首先将特征图从T×H×W×C2的大小到1×1×1×C2使用全局最大池沿dimen-sionT，H和W.然后，对池化特征应用1×1×1卷积，其权重也由所有共享7876（一）（b）第（1）款而不是C3D在CoST操作中涉及的乘加的数量约为3k2（不包括输入和输出通道），而C3D的数量为k3。成本的计算成本增加的内核大小的平方，而不是立方。这一特性使得大内核的使用成为可能，这在视频数据上还没有被探索过。此外，对于CoST（a）变体，在我们当前的实现中，通过多个视图重复计算感受野中的一些体素。带着一个任务-图6.将CoST连接到C2D（a）和C3D（b）。三个观点。该卷积将维度C2的特征映射回C2，C2捕获通道之间的上下文信息。之后，这三组特征被连接并馈送到全连接（FC）层。与1×1×1卷积相反，此FC层为ap-应用于C2×3矩阵的每一行，该矩阵捕获不同视图之间的上下文信息。最后我们通过Softmax函数对输出进行归一化。所提出的成本的剩余单元如图3（d）所示我们用我们的CoST操作（CoST（a）或CoST（b））替换中间的 3×3 卷积，并保持前面的 1×1 卷积不变。基于ResNets的C2D配置，我们通过替换C2D单位，每两个剩余单位使用建议的成本单位，这与C3D一致。3.4. 连接到C2D和C3D提出的成本与C2D和C3D密切相关。如图6（a）所示，如果T-W和T-W视图的系数被设置为零，则因此，成本是C2D的严格推广。为了比较成本与C3D，让我们排除输入和输出通道的尺寸为简单起见。 3D控制器核大小为k×k×k的卷积包含k3个参数，覆盖k3个体素的立方感受野。而所提出的CoST操作覆盖3k2-3k+1个体素的不规则接收场。图6（b）示出了当k等于3时感受野的比较。C3D覆盖整个3×3×3立方体，而CoST覆盖不包括8个角体素的阴影区域。如果骗局-三个视图的卷积核被单独学习而没有权重共享，除了立方核的8个角参数被固定为零并且不可学习之外，CoST几乎等同于C3D。当在CoST中启用权重共享时，尽管感受野总共包含19个体素，但是可以从在不同视图之间共享的9个可学习参数中导出对应的19个参数。因此，CoST可以被认为是C3D的特殊情况，其中相似的感受野被显著减少的参数数量所覆盖。在计算成本方面，CoST也更胜一筹最小化的实现，乘加的数量可以从3k2减少到3k2-3k+1，例如，对于k=3的情况，从27到19（节省约30%）。4. 实验为了验证所提出的CoST在视频动作识别任务中的有效性，我们在两个最大的基准数据集上进行了广泛的实验，即。时间的瞬间[17]和动力学[2]。在所有实验中，在两个数据集的验证集上测量准确度4.1. 数据集时间的瞬间。Moments in Time数据集包含来自339个动作类别的802245个训练视频和39900个验证视频。视频被修剪，使得持续时间约为3秒。动力学Kinetics数据集包含236763个训练视频和19095个验证视频，这些视频被注释为400个人类动作类别之一。请注意，完整的Kinetics数据集包含更多的样本。这些数字仅涵盖我们能够下载的样本。视频的持续时间约为10秒。4.2. 实现细节在训练过程中，我们首先从视频中采样64个连续帧，然后每8帧对一帧进行子采样，总共得到8帧。接下来，从缩放的视频中随机裁剪大小为224×224像素的图像块，该视频的短边被随机采样为256 和 320 像素之间。因此，网络输入的维数为8×224×224 。在所有实验中，我们的模型都是从ImageNet [20]预训练的2D模型初始化的。我们在8GPU机器上训练模型对加速在训练中，8个GPU被分组为两个工作器，并且权重在两个工作器之间异步更新每个GPU处理一个小批量的8个视频剪辑。也就是说，对于每个工作器，使用4个GPU，导致总的小批量大小为32。我们使用带有动量的SGD优化器训练模型进行60万次迭代。我们使用0.9的动量和0.0001的重量衰减学习率初始化为0.005，并分别在300k和450k迭代时减少10��ℎ��+��ℎ3 × 3 × 13 × 1 × 31 × 3 × 37877数据集方法Top-1准确度（%）前5名平均值时刻成本（a）29.355.842.6成本（b）30.157.243.7动力学成本（a）73.674.190.891.282.282.7数据集份额权重Top-1准确度（%）前5名平均值时刻C29.030.156.157.242.543.7动力学C73.274.190.291.281.782.7表2.比较系数学习的成本（a）和成本（b）。主干网络是ResNet-50。在推理过程中，在[30]之后，我们对短边重新缩放为256像素的视频执行空间完全卷积推理。而对于时间域，我们从全长视频中均匀地采样10个剪辑，并分别计算它们的分类分数。最后的预测是所有剪辑的平均得分。4.3. 消融研究为了验证我们的方法的各个组成部分的有效性，我们对系数学习，协同时空特征学习的影响以及C2D和C3D的成本改进进行了消融研究。4.3.1系数学习我们首先比较了两个成本变量的性能，蚂蚁系数学习不同的观点。如表2所示，在时间矩和动力学数据集上，网络预测的系数（CoST（b））优于作为模型参数学习的系数（CoST（a））。这一结果验证了模型中引入的自注意机制的有效性。它还表明，对于不同的视频剪辑，空间和时间的重要性，表3.通过使用ResNet-50作为骨干的权重共享带来的性能改进方法Top-1准确度（%）前5名平均值C2d27.954.641.3ResNet-50C3d29.055.342.2成本30.157.243.7C2d30.056.843.4ResNet-101C3d30.657.744.2成本31.557.944.7表4. C2D、C3D和成本ST在时间矩验证集上的性能比较。方法Top-1准确度（%）前5名平均值C2d71.589.880.7ResNet-50C3d73.390.481.9成本74.191.282.7C2d72.989.881.4ResNet-101C3d74.591.182.8成本75.592.083.8表5. C2D、C3D和CoST在Kinetics验证集上的性能比较。4.3.3对C2D和C3D的改进气孔特征各异。尽管如此，在下面的实验中采用了CoST（b）架构。4.3.2协作特征学习为了验证通过权值共享的协同时空特征学习的有效性，我们比较了有和没有权值共享的CoST（b）网络的结果当权重共享被禁用时，图5中的三个卷积层的参数被独立地学习，使得时空特征以解耦的方式被学习如表3所示，通过在不同视图之间共享权重，两个数据集的准确率都提高了约1%。这一结果表明，我们在第一节中对三种时空视图的特征分析是合理的，它们的协同特征学习是有益的。为了将CoST与C2D和C3D基线进行比较，我们使用相同的协议训练所有三个网络。表4和表5分别列出了它们在Moments in Time和Kinetics数据集上的表现。我们可以看到，C3D远远优于C2D，而CoST始终优于C3D约1%，这清楚地表明了CoST的优越性。请注意，具有ResNet-50主干的C3 D的性能与没有权重共享的拟议成本相当（见表3），这验证了第3.4节中描述的成本和C3 D之间的联系4.4. 与最新技术除了8帧模型，我们还训练了一个具有更高时间分辨率的模型，即。32帧。在时刻上，32个输入帧是从前面提到的在Kinetics上，我们采样了32个7878方法网络预训练输入大小准确度（%）前5名C3D [7]C3D [7][第29话]STC [3]I3D [2]R（2+1）D[25]R（2+1）D[25][32]第三十二话[30]第三十话[30]第三十话ResNet-101ResNeXt-101ResNet-18ResNeXt-101 Inception自定义自定义InceptionResNet-101ResNet-101没有一ImageNet-1MImageNetImageNetImageNet16×112×11216×112×11216×112×11232×112×11264×224×2248×112×1128×112×11264×224×22432×224×224128×224×22462.8 83.965.1 85.769.2 88.368.7 88.571.1磅89.3磅72.0 90.074.3 91.474.793.476.0 92.177.793.3成本成本ResNet-101ResNet-101ImageNetImageNet8×224×22432×224×22475.5 92.077.5 93.2表6.与Kinetics验证集的最新技术水平进行比较。为了公平比较，仅列出基于RGB模态的结果。所有的数字都是单一模型的结果。表示测试集上的结果。优于C3D [7]及其变体，例如，I3D [2]、R（2+1）D[25]和S3D-G [32]。与NL I3D [30]（强基线）相比，CoST在各种时间分辨率下也更优越。表7.与最先进的Moments in Time验证集进行比较灰色标记的方法利用了其他的模态，例如。音频和光流。考虑到该数据集中的视频比Moments in Time中的视频更长，因此可以从128帧的剪辑中提取20帧。32帧模型是从8帧模型微调而来的，其中BN层的参数[10]被冻结。在时间矩数据集上，表7显示了拟议成本与现有方法的比较。在前1名和前5名准确度方面，CoST将[17]中报告的ResNet-50 C2 D基线提高了2.9%和5.5%。而基于ResNet-101的CoST具有32个输入帧，达到32.4%的前1准确率和60.0%的前5准确率。值得注意的是，仅基于RGB模态，我们的模型优于多个模态的整体结果（即，RGB，光流和音频）在[17]中大幅度提高。通过多个模型和模态的集成，我们在测试集上实现了52.91%的平均准确率，并在2018年的Moments in TimeChallenge中获得第一名在Kinetics数据集上，CoST实现了最先进的性能。如表6所示，成本具有明确的4.5. 不同观点的重要性通过研究学习系数的大小，我们能够量化不同观点的贡献。具体而言，对于每个CoST层，每个视图的平均系数在验证集上计算。H-W视图的平均系数度量外观特征的重要性，而T-W和T-H视图的平均系数度量时间运动线索的重要性。每个视图的整体重要性可以通过平均所有CoST层的平均系数来测量。在时间矩上，H-W、T-W和T-H视图的平均系数而在动力学上，它们分别为0.77、0.08和0.15。因此，空间特征在这两个数据集上都起着重要作用。与Kinetics相比，时间中的时间数据集更依赖于时间特征来区分不同的动作图8显示了基于ResNet-50的CoST的所有CoST层中三个视图之间的系数分布。从浅层到深层，在两个数据集上观察到明显的趋势。即空间特征的贡献率下降，时间特征的贡献率上升.换句话说，越接近网络的顶部，时间特征越重要，这表明模型倾向于基于高级空间特征来学习时间特征这也验证了[32]中的结论，即高层语义特征的时间表示学习比低层特征更有用。此外，我们还分析了空间和时间特征对矩方法准确度（%）前5名[17]第十七话23.746.7ResNet-50-ImageNet27.251.7[17]第十七话7.618.0TSN-流量[17]15.734.7[17]第十七话30.455.9成本（ResNet-50，8帧）30.157.2成本（ResNet-101，8帧）31.557.9成本（ResNet-101，32帧）32.460.07879喷发溢出燃烧着陆购买施洗采访手铐图7.左：时间特征重要的动作。右：时间特征不太重要的动作。10.90.8Moments in Time动力学10.90.85. 讨论对于视频分析，如何编码时空有限元分析-0.70.60.50.40.30.20.101 2 3 4 5 6 78CoST图层索引T-HT-WH-W0.70.60.50.40.30.20.101 2 3 4 5 6 7 8CoST图层索引有效和高效地解决这些问题仍然是一个悬而未决的问题。在这项工作中，我们建议使用权重共享的二维卷积同时进行空间和时间特征编码。尽管我们经验性地验证了权重共享带来了人均收益，但背后的一个大问题是时间维度T是否可以被转换为正常的空间维度（如深度）。直观、空间外观特征图8.三个平均系数的分布不同深度的成本图层中的视图。在时间数据集中。我们总结了时间相关视图的平均系数，并以此对所有类别进行了排序。如图7所示，对于喷发、风暴、溢流、燃烧和着陆等动作，时间运动信息非常重要。相反，对于洗礼、手铐/逮捕、面谈、购买和支付等行为，时间特征的重要性较低。这些行为要么容易通过外观识别，要么时间演变对分类没有很大帮助。例如，对于购买和采访，在同一类别内存在各种运动模式，并且它们可能容易在不同的动作之间混淆，这使得运动提示没有区别。总之，与建议的成本，我们能够定量分析的空间和时间特征的重要性特别是，我们观察到网络的底层更多地关注空间特征学习，而顶层更多地关注时间特征聚合。此外，一些动作更容易根据底层对象及其交互来识别（例如，几何关系）而不是运动提示。这表明，目前的时空特征学习方法可能不是最佳的，我们期待更多的努力在这个问题上。和时间运动线索属于两种不同的信息形态。促使我们协同学习它们的是不同视图的可视化，如图1所示。有趣的是，我们的积极结果表明，至少在某种程度上，它们具有相似的特征，并且可以使用具有相同网络架构和共享卷积核的单个网络来联合学习。在物理学中，根据闵可夫斯基时空[16]，三维空间和一维时间可以统一为四维连续统。我们的发现可以用特征表征学习中的时空模型来解释和支持6. 结论从三维体数据中进行特征学习是视频中动作识别的主要挑战。在本文中，我们提出了一种新的特征学习操作，从多个视图中协作学习时空特征。它可以很容易地用作C2D和C3D的直接替代品大规模基准测试的实验验证了所提出的架构优于现有的方法。基于不同视图的学习系数，我们能够窥视空间和时间特征的个体贡献以用于分类。系统的分析表明，一些有前途的方向设计的算法，我们将留下作为未来的工作。7880引用[1] Manal Al Ghamdi，Lei Zhang，and Yoshihiko Gotoh.时空筛选及其在人类行为分类中的应用。在计算机视觉-ECCV 2012。2012年的研讨会和演示。[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年7月。[3] Ali Diba、Mohsen Fayyaz、Vivek Sharma、Moham-madMahdi Arzani、Rahman Yousefzadeh、Juergen Gall和LucVan Gool。用于动作分类的时空通道相关在ECCV，第299-315页[4] Jeff Donahue，Lisa Anne Hendricks，Marcus Rohrbach，Sub- hashini Venugopalan ， Sergio Guadarrama ， KateSaenko，and Trevor Darrell.用于视觉识别和描述的长期递归卷积TPAMI，39（4）：677[5] Christoph Feichtenhofer ， Axel Pinz ， and Richard PWildes.用于视频动作识别的时空残差网络。NIPS，第3468-3476页，2016年[6] Christoph Feichtenhofer、Axel Pinz和Richard P.王尔德用于视频动作识别的时空倍增器网络。在CVPR中，第7445-7454页[7] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗。在CVPR中，第6546-6555页[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[9] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。InICCV，Oct 2017.[10] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页[11] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Fei Fei Li.使用卷积神经网络进行大规模视频分类。在CVPR中，第1725-1732页[12] 一个Klaser一种基于三维梯度的时空描述子在BMVC，2010年。[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。[14] 伊万·拉普捷夫关于时空兴趣点。IJCV，64（2）：107[15] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。在ICLR，2017。[16] 赫尔曼·闵可夫斯基等人空间和时间。相对性原理，第73-91页[17] Mathew Monfort、Alex Andonian、Bolei Zhou、KandanRa- makrishnan 、 Sarah Adel Bargal 、 Yan Yan 、 LisaBrown、Quanfu Fan、Dan Gutfreund、Carl Vondrick和Aude Oliva。Moments in Time数据集：100万个视频用于事件理解。TPAMI，第1-1页[18] 作者： Joe Yue-Hei Ng ， Matthew J. Hausknecht 、Sudheendra Vi-jayanarasimhan 、 Oriol Vinyals 、 RajatMonga和George Toderici。除了简短的片段：用于视频分类的深度网络。在CVPR，第4694-4702页[19] 赵凡秋，姚婷，陶梅。用伪三维残差网络学习时空表示。InICCV，Oct 2017.[20] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015.[21] 保罗·斯科万纳、萨阿德·阿里和穆巴拉克·沙阿。三维SIFT描述子及其在动作识别中的应用。国际多媒体会议，第357-360页[22] Jing Shao，Chen-Change Loy，Kai Kang，and XiaogangWang. 用于人群视频理解的切片卷积神经网络在CVPR，2016年6月。[23] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS，第568-576页[24] 杜特兰，卢博米尔D布尔德夫，罗布费格斯，洛伦佐托雷萨尼和马诺哈尔帕卢里。用3d卷积网络学习时空特征。在ICCV，第4489[25] Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR中，第6450- 6459页[26] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Illia Polosukhin.注意力是你所需要的。参见NIPS，第5998[27] 恒旺，Ale xande rKl aüser，科迪莉亚·施密德和刘成林。动作识别的密集轨迹和运动边界描述器。IJCV，103（1）：60[28] Heng Wang和Cordelia Schmid.具有改进轨迹的动作识别。在ICCV，第3551-3558页[29] Limin Wang，Wei Li，Wen Li，and Luc Van Gool.用于视频分类的外观和关系网络。在CVPR，2018年6月。[30] 王小龙， Ross B. Girshick ， Abhinav Gupta ， andKaiming He.非局部神经网络。在CVPR中，第7794-7803页[31] 帝邪、姜雄、普士良。你所需要的不仅仅是一个好的init：探索训练具有正交性和调制的极深卷积神经网络的更好解决方案。在CVPR中，第6176-6185页[32] Saining Xie ， Chen Sun ， Jonathan Huang ， ZhuowenTu，and Kevin Murphy.重新思考时空特征学习：视频分类中的速度-准确度权衡。在ECCV，第318-335页[33] 赵岳，熊元军，王利民，吴志荣，唐晓鸥，林大华.结构化分段网络的时间动作检测。在ICCV，第2933-2942页，2017年。7881[34] Yi Zhu ， Zhenzhong Lan ， Shawn D Newsam ， andAlexander G Hauptmann.用于动作识别的隐藏双流

下载后可阅读完整内容，剩余1页未读，立即下载