基于Gate-Shift网络的视频动作识别

135 浏览量更新于2023-10-23 收藏 1.01MB PDF 举报

视频动作识别

GSM模块

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1102基于Gate-Shift网络的视频动作识别Swathikiran Sudhakaran1，Sergio Escalera2，3，OswaldLanz11 Fondazione Bruno Kessler，Trento，Italy2Computer Vision Center，Barcelona，Spain3Universitat de Barcelona，巴塞罗那，西班牙{sudhakaran，lanz}@ fbk.eu，sergio@maia.ub.es摘要用于视频动作识别的深度3D CNN被设计为在联合时空特征空间中学习强大的表示然而，在实践中，由于涉及大量的参数和计算在本文中，我们介绍了空间门控的时空分解的三维内核。我们用门移模块（GSM）实现了这一概念. GSM是轻量级的，并且将2D-CNN变成高效的时空特征提取器。通过插入GSM，2D-CNN学习通过时间自适应地路由特征并将它们组合起来，几乎没有额外的参数和计算开销。我们对所提出的模块进行了广泛的评估，以研究其在视频动作识别中的有效性，在Something-V1和Diving 48数据集上获得了最先进的结果，并在EPIC-Kitchild上获得了具有竞争力的结果，模型复杂度要低得多。1. 介绍视频动作识别由于其在视频监控、媒体分析和机器人等方面的潜在应用而受到越来越多的虽然在过去几年中已经取得了很大的进步，但动作识别模型尚未取得图像识别模型的成功一个关键的挑战在于视频媒体的时空性质，需要时间推理来进行细粒度识别。基于帧级特征的时间池化的方法（TSN [41]，VLAD [12]）将视频作为（无序）静止图像集进行处理，并且当可以从对象和场景上下文（UCF-101，Sports-1 M，THUMOS）中识别动作时，可以很好地工作。更类似于视频中的时间维度，帧级特征的后期时间聚合可以被公式化为序列图1：用于视频中时空学习的3D内核分解。现有的方法分解成逐信道（ CSN ）、空间后时间（ S3D 、TSM）或分组空间和时空（GST）。在所有这些中，空间、时间和通道方面的交互是硬连线的。我们的门移模块（GSM）利用组空间门控（绿色块）来控制时空分解中的交互。GSM是轻量级的，并且是高性能视频特征提取器的构建块。学习（LRCN [5]，VideoLSTM [23]）和注意力（注意力池[11]，LSTA [33]）。另一方面，早期时间处理用于融合来自流场堆栈（Two-Stream [32]）或直接从编码视频（DMC-Net [31]）预测的短期运动特征细粒度识别可以受益于更深的时间建模。全3DCNN （ C3D [37 ， 15] ）通过沿时间维度扩展 2DConvNet的内核来处理时空中的视频。深度C3D被设计为在具有更多参数（3D内核）和计算（内核在3个密集采样的维度上滑动）的联合时空特征空间中学习强大的表示。然而，在实践中，由于缺乏足够大的数据集用于训练，1103他们在规模。为了解决这些问题所产生的灾难的尺寸之一，可以缩小网络容量的设计。图1示出了针对视频中的时空特征学习提出的几种C3D内核分解方法。一种最直观的方法是将3D时空内核分解为2D空间加1D时间，从而产生一种结构分解，将空间与时间相互作用分离（P3D [30]，R（2+1）D [39]，S3D [45]）。另一种设计是通过组卷积（CSN [38]）分离通道交互和时空交互，或与分离通道组上的2D和3D卷积并行建模空间和时空交互（GST [26]）。时间卷积可以被约束为硬编码的时移，其在时间上向前或向后移动一些通道（TSM [24]）。所有这些现有的方法学习结构化内核与硬连线连接和传播模式在网络上。在网络中的任何点处都不存在数据依赖的决策，以通过不同的分支选择性地路由特征，例如，分组和洗牌模式通过设计而固定，并且学习如何洗牌是组合复杂性。在本文中，我们引入空间门的时空分解的三维内核。我们实现这个概念与门移模块（GSM）如图所示1.一、GSM是轻量级的，并且将2D-CNN变成高效的时空特征提取器。GSM首先应用2D卷积，然后使用可学习的空间门控将输出张量分解为两个张量：一个封闭的版本和它的残余门控张量经过1D时间卷积，而其残差被跳过连接到其输出。我们实现了空间门，ING作为组的时空卷积与单输出，把每一组的平面。我们使用通道组的硬编码时移，而不是可学习的时间卷积。通过插入GSM，2D-CNN学习自适应地随时间路由特征并将其组合，几乎没有额外的参数和计算开销。例如，当GSM插入TSN [41]时，在只有0的Some- thingSomething-V1数据集上获得了+32个百分点的准确度绝对增益。48%的附加参数和0。55%的额外浮点运算（FLOPs）。本文的贡献可以概括如下：（i）我们提出了一种新的时空特征提取模块，它可以插入到现有的2D卷积神经网络（CNN）架构中，在计算和内存方面的开销是可接受的;（ii）我们对所提出的模块进行了广泛的消融分析，以研究其在视频动作识别中的有效性(iii)我们在公共基准上实现了最先进的或有竞争力的结果，参数和FLOPs与现有方法相比更少。2. 相关工作受图像识别中深度卷积架构所获得的性能改进的启发[16，36]，已经做出了很多努力来扩展这些视频动作识别。融合外观和流程。用于处理视频的2D CNN的流行扩展是Si-monyan和Zisserman的Two-Stream架构[32]。他们的方法由两个独立的CNN（流）组成，它们被训练为从与光流图像的周围堆栈配对的采样RGB视频帧中提取图像流对外观信息进行编码，而光流流对运动信息进行编码，这两种信息经常被发现彼此互补以用于动作识别。一些作品遵循这种方法，以找到不同深度的溪流的合适融合[8]，并探索它们之间残留连接的使用[7]。这些方法依赖于光流图像的运动信息，和一个单一的RGB帧的外观信息，这是限制时，推理的时间背景下，需要视频理解。视频作为帧的集合或序列。后来，开发了使用多个RGB帧进行视频分类的其他方法。这些方法从视频中稀疏地采样多个帧，将其应用于2D CNN，然后使用平均池化[41]，多层感知器[48]，回流聚合[5，23]或注意力[11，33]对帧级特征进行后期整合。为了提高性能，这些方法中的大多数还将视频帧序列与外部计算的光流相结合。这表明是有帮助的，但计算密集。短期时间依赖性建模。其他研究已经通过对短期依赖性进行建模，研究了后期聚集（帧特征）和早期时间处理（以获得光流）这包括中间特征的差异[28]以及将Sobel滤波与特征差异[35]相结合。其他作品[6，29]开发了一种执行TV-L1 [46]的可微分网络，TV-L1是一种流行的光流提取技术。[20]的工作使用一组固定的滤波器来提取运动特征，从而大大减少了参数的数量。DMC-Nets [31]利用压缩视频中的运动矢量，以较低的计算成本合成用于双流动作识别的判别性运动线索，与原始流提取相比。视频作为时空卷。当考虑时空中的视频时，无约束的建模和动作特征的学习是可能的。由于视频可以被视为时间上密集的采样图像序列，因此将2D-CNN中的2D卷积操作扩展到3D卷积是可行的。1104一种最直观的时空特征学习方法[37，15，2]。3DCNN的主要缺点是涉及大量参数。这导致计算量增加，并且需要大规模数据集进行预训练。Carreira和Zisserman [2]通过使用为图像识别训练的CNN的2D权重来膨胀视频3D内核来解决这个限制。其他几种方法侧重于通过解开空间和时间特征提取操作来减少参数P3 D [30]提出了三种不同的选择来分离空间和时间卷积，并开发了一种3D-ResNet架构，其剩余单元是这三个模块的序列。R（2+1）D [39]和S3 D-G [45]也表明，2D卷积之后的1D卷积足以学习用于动作识别的判别CoST [21]使用共享参数沿视频序列的三个正交维度执行2D卷积。MultiFiber [3]使用多个轻量级网络、光纤和多路复用器模块，这些模块使用光纤之间的逐点卷积来促进信息流时空建模最近，研究的重点正在转向开发高效（从计算的角度来看）和有效（从性能的角度来看）的体系结构。CNN在层次结构的不同层提供不同级别的特征抽象。已经发现，底层特征对于提取有区别的运动提示不太有用[34，51，45]。在[34]中，提出在2D CNN之上应用1D卷积层以进行视频动作识别。[51]和[45]的工作表明，在2D CNN的顶层应用全3D和可分离的3D卷积这些方法导致了性能的改善，- ment在全三维架构与更少的参数和计算。来自各个帧的静态特征表示场景和对象，并且还可以提供识别动作的重要线索。这一点通过双路径结构获得的改进性能得到了验证，双路径结构除了3D卷积外还应用并行2D卷积[49，26]。MiCT [49] 通过将 3D 卷积分支并行添加到类似 BNInception的CNN的2D卷积分支来设计GST [26]利用分组卷积的思想来开发一种有效的动作识别体系结构。它们在通道维度上的层次结构中分离通过这种方式，在减少参数数量的同时提高了性能。STM [17]提出了用于提取运动特征和时空特征的两个并行块他们的网络仅依赖于2D和1D卷积和特征差分来编码运动和时空特征。[24]第二十四话以在信道维度上移动特征，作为在来自视频的相邻帧的特征之间执行时间交互的方式。这种无参数方法导致了与3D CNN类似的性能然而，在所有先前的方法中，空间、时间和信道交互是硬连线的。在这里，我们提出了门移模块（GSM），它控制时空分解中的相互作用，并学会自适应地路由特征思考时间和组合它们，在几乎没有额外的参数和计算开销。3. 门移网络在本节中，我们将介绍用于细粒度动作识别的门移网络。我们首先描述他们的构建块，门移模块（GSM），它将2D CNN变成一个高性能的时空特征提取器，开销最小。然后，我们讨论和激励的设计选择，导致我们最终的GSM架构中使用的实验。3.1. 门极移位模块图2示出了3D核因子分解方法的网络示意图（参见图1）。图1）已成功应用于视频动作识别。S3D，或R（2+1）D，P3D，将3D卷积分解为2D空间加1D时间卷积。TSM用无参数通道时间移位操作代替1D时间卷积。GST使用组卷积，其中一组应用2D空间卷积，另一组应用3D时空卷积。此外，GST在块之前和之后应用逐点卷积，以允许空间组和时空组之间的交互，以及信道减少和上采样。在这些模块中，功能流是通过设计硬连线的，这意味着功能从一个块转发到下一个块，而没有数据依赖的池化、门控或路由决策。GSM设计，在图。2，受GST和TSM的启发，但用可学习的空间门控块代替了硬连线的通道分离。与熔丝块配对的门控块的功能是通过时移选择性地路由门控特征GSM是轻量级的，因为它使用2D内核、无参数时移和很少的附加参数来计算空间门控平面。基于图中的概念设计。2，我们实例化GSM如图。3.第三章。GSM首先在层输入上应用空间卷积;这是从内置GSM的2DCNN基本模型继承的操作。然后，应用分组空间选通，即，针对两个通道组中的每一个获得选通平面，并将其应用于它们。这将2D卷积输出分离为组选通特征和残差。门控特征组移位，用于-1105图2：C3D分解方法与GSM原理图的比较GSM受GST和TSM的启发，该硬连线通道与可学习的空间选通块分离。WH，T是空间和时间维度。设X =[X1，X2]是X沿沟道维度的组=2分裂，W =[W1，W2]是两个C/2 × 3 ×3 × 3形状的门控核。然后，GSM输出Z =[Z1，Z2]被计算为：图3：具有组选通和前向-后向时间移位的GSM实现。门是具有双曲正切校准的单个3D卷积核，因此当GSM用于将C2D基础模型转变为时空特征提取器时，添加非常少的参数。向前和向后的时间，和零填充。这些最终与残留物融合（添加）并传播到下一层。这样，GSM通过可学习的空间门控选择性地混合空间门控是用单个时空3D内核和双曲正切激活来实现的。使用3D内核，我们在门控中使用短程时空信息。tanh为空间门控平面提供的值在（-1，+1），其动机如下。当特征位置处的选通值为+1且时移的特征为+1，则在该位置处执行时间特征平均。如果时移特征的选通值改为-1，则执行时间特征使用tanh，门控可以学习应用两种模式中的任何一种，位置方面。在我们的消融研究中也发现，tanh提供了更好的结果比例如。sigmoid是门控的标准选择，参见第二节。4.3最后一段。GSM层实现。假设张量X是2D卷积后的GSM输入（图中蓝色块的输出）。3），形状为C ×T ×W ×H，其中C是通道数其中请注意，此GSM中的参数计数实现了-分段为2×（27·C/2）=27·C;这远小于典型C2 D块的分段例如，在一个示例中，图1中的1×3×3块3有C个大小为（9·Cin）的核，其中通常C≥Cin。与剩余架构的关系。应该注意的是，Eqns。3和5可以重新表示为R1=移位fw（Y1）−Y1和Z1= X1+R1。这类似于ResNet的剩余学习在GSM中，残差为所学习的时空特征被添加到输入X1以生成用于识别动作类的有区别的时空特征。与现有方法的关系。GSM是几种现有方法的概括。当门控=0时，GSM塌陷为TSN [41];当门控=1时，收敛为TSM [24]样式;当门控=1并用昂贵的3D卷积替换时间偏移时，收敛为GST [26]样式。3.2. 门移位架构我们采用TSN作为动作识别的参考架构TSN使用C2D主干执行帧级特征的时间池化。我们选择BN-Inception和InceptionV 3作为TSN的骨干选项，并在这里描述我们如何GSM它们。移位fw偏移bwtanhY1=tanh（W1<$X1）<$X1（一）Y2=tanh（W2<$X2）<$X2（二）R1=X1−Y1（三）R2=X2−Y2（四）Z1=shift_fw（Y1）+R1（五）Z2=shift_bw（Y2）+R2（六）1106分支准确度（%）分支145.11分支244.98分支345.05分支447.24所有分支43.5表1：为确定最适合插入GSM的Inception分支而进行的消融分析。图4：GSM的BN-Inception块。卷积层和池化层的内核大小和步幅在每个块内都有如图4、我们在Inception块的一个分支中插入GSM。我们分析了GSM应用的分支，经验。从实验中，我们得出结论，将GSM添加到具有最少数量的卷积层的分支执行得最好。一个假设是，其他分支由具有较大核大小的空间卷积组成，并且在这些分支上应用GSM将影响网络的空间学习能力。当GSM被添加到所有分支中时，通过观察降低的性能由于在Inception块中存在对空间信息进行编码的附加分支，因此在Inception块中不需要单独的空间卷积操作。GSM。也就是说，图1中的GSM块。4如图所示。3没有1 × 3 × 3空间卷积块。对于剪辑级动作分类，我们遵循TSN的方法，也就是说，我们通过平均汇集帧级（现在是时空）分数来预测动作。4. 实验和结果本节介绍了一组广泛的实验来评估GSM。4.1. 数据集我们在三个标准动作识别基准上评估了Gate-ShiftModule （ GSM ）， SomethingSomething- V1 [14]（ Something-V1 ）， Diving 48 [22] 和 EPIC-Kitchen[4]。Something-V1包含10万个视频，包含174个细粒度的对象操作动作。在验证集上报告性能。Diving48数据集包含约18K视频，包含48个细粒度潜水类。EPIC-Kitterfly数据集包含34 K以自我为中心的视频，带有细粒度的活动标签。我们报告的性能得到的两个标准的测试分裂。由于测试标签被保留，因此识别分数是在我们提交预测分数之后从提交服务器获得的。所有这三个考虑的数据集是不同的性质，需要强大的时空推理预测的行动类。例如，Something-V1数据集无法区分正在处理的对象。另一方面， EPIC-Kitchener数据集需要强大的时空推理以及有关所处理对象的信息。Diving48数据集中的视频通常包含具有细粒度潜水动作的统一背景，并且需要对视频中人体的时间动态有很强的理解。4.2. 实现细节正如在第二节中所解释的。3.2，我们选择BN-Inception和InceptionV 3作为CNN骨干。GSM被添加到各个CNN的每个Inception块内。因此，总共添加了10个GSM。我们用零初始化门控层中的3D卷积。因此，该模型作为标准TSN架构开始，并且在训练期间学习门控。所有模型都使用ImageNet预训练的权重进行初始化。整个网络使用随机梯度下降（SGD）进行端到端训练，初始学习率为0.01，动量为0.9。我们使用余弦学习率时间表[25]。该网络在Something-V1和EPIC-Kitterfly上训练了60个epoch，而Diving 48训练了20个epoch 。前 10 个时代用于逐渐升温 [13] 。对于Something-V1和EPIC-Kitchen，批量为32，对于Diving48，批量为8。在分类层中，对于Something-V1 和EPIC-Kitterfly，以0.5的比率应用Dropout，对于Diving48数据集，以0.7的随机缩放、裁剪和翻转被应用为训练期间的数据增强。的尺寸BN-Inception和InceptionV 3的输入分别为224×224和229×229。将输入维减少到InceptionV3在不降低性能的情况下降低了计算复杂度如果没有指定，我们在推理过程中只4.3. 消融分析在本节中，我们报告了对Something-V1数据集的验证集进行的消融分析在所有的实验中，我们将8帧作为网络的输入。我们首先进行了分析，以确定最适合添加GSM的Inception分支。该实验的结果报告在表1中。1.一、我们给每个人1107(a) TSN特征的t-SNE图（b）GSM特征的t-SNE图（c）最大改进类(d)进步最多的班级图5：对于（a）具有BN-Inception的TSN和（b）与图中相同但具有GSM内置的TSN，在最终全连接层之前的输出层特征的t-SNE图。4.第一章在这两个图中，[14]中描述的10个动作类别被可视化。在（d）中，我们列出了在时间段网络（TSN）基线上具有最高改进的动作类。X轴显示每个类别的校正样本数Y轴标记的格式为真实标记（GSM）/预测标记（TSN）。在（c）中，我们可视化相应的t-SNE图。模型准确度（%）参数。FLOPsBN-初始（基线）17.2510.45M16.37GBN-Inception + 1 GSM22.710.46M16.37GBN-Inception + 5 GSM43.1310.48M16.39GBN-Inception + 10 GSM47.2410.5M16.46G表2：通过改变添加到主干的门移模块（GSM）的数量的识别精度。CNN的ception block。这将识别性能提高了5%。增加骨干网中GSM的数量最后的模型，其中GSM应用在所有的Inception块的识别准确率为47。24%，即，与TSN基线相比，绝对改善+30%，仅0. 48%，0。55%的开销参数和复杂性，分别。从左向右分支。可以看出，在支路4中加入GSM时，获得了最佳性能模型当在所有分支中添加GSM时，我们观察到最低的性能，因为这对网络的空间建模能力产生了不利影响。通过以上实验，我们得出GSM最适合加入到卷积数最少的分支我们也遵循InceptionV3的相同设计选择。有关Incep-tionV 3架构的更多详细信息，请参见补充材料。然后，我们比较了在BN-Inception上添加GSM的性能改进。选项卡. 2显示了消融结果。基线是标准的TSN架构，精度为17。百分之二十五然后，我们在最后一次应用GSM由于门控机制通常采用S形非线性，因此我们还分析了门控函数中采用S形非线性时GSM的性能。与tanh非线性相比，sigmoid的绝对性能下降了3%（47.24%vs 44.75%），证明tanh适用于门校准。4.4. 最新技术水平比较什么V1 通过GSM获得的识别性能进行比较，与国家的最先进的方法，只是使用RGB帧在Tab。3 .第三章。我们还报告了每种方法在推理过程中使用的帧数和相应的计算复杂度。表中的第一个块列出了使用1108方法骨干预训练帧数GFLOPS准确度（%）TSN [41]（ECCVBN-inceptionImageNet1632.7317.52多尺度TRN [48]（ECCVBN-inceptionImageNet816.3734.44R（2+1）D [39]（CVPRResNet-34Sports-1M3215245.7R（2+1）D [39]来自[10]（CVPRResNet-34外部3215251.6S3D-G [45]（ECCV启动V1ImageNet6471.3848.2MFNet [20]（ECCVResNet-101-10NA43.9[47]第47话ResNet-18动力学7×10NA47.8TSM [24]（ICCVResNet-50动力学166547.2STM [17]（ICCVResNet-50ImageNet16×3066.5×3050.7商品及服务税[26]（ICCVResNet-50ImageNet165948.6反弹道导弹[50]（ICCVResNet-50ImageNet16×335.33×346.08CorrNet [40]ResNet-101-32×30224×3051.1I3D [2]（CVPRResNet-50动力学32×2108×241.6非本地[42]（CVPRResNet-50动力学32×2168×244.4GCN+非本地[43]（ECCVResNet-50动力学32×2303×246.1ECO [51]（ECCVBNInc + ResNet-18动力学166∗ 441.4Martinez等人[27]（ICCVResNet-50ImageNetNA52.17×NA50.1Martinez等人[27]（ICCVResNet-152ImageNetNA113.4×NA53.4GSMBN-inceptionImageNet816.4647.24InceptionV3ImageNet826.8549.01BN-inceptionImageNet1632.9249.56InceptionV3ImageNet1653.750.63InceptionV3ImageNet16×253.7×251.68InceptionV3ImageNet8×2+12×2+16+24268.4755.16表3：与Something-V1上的最新技术水平的比较* *：假设16帧的单个剪辑作为输入进行计算2D CNN和高效的3D CNN实现。第二块显示了使用全3D CNN的方法。从表中可以看出，GSM导致+32%的绝对增益（17. 52%对49。56%）超过TSN基线。 GSM比3D CNN或更重的骨干网以及使用外部数据进行预训练的那些方法表现得更好，具有相当少的FLOP数量。GSM的性能与顶级执行方法[27]相比，具有较少的FLOP数量。应该注意的是，[27]中描述的架构的FLOP是假设16帧的单个剪辑来计算的还可以我们还评估了使用不同数量的输入帧训练的模型集成的性能，并实现了55.16%1的最先进的识别准确率。潜水48. 选项卡. 4比较了GSM在Diving48数据集上的性能与最先进的方法。我们使用16帧来训练网络，并在推理过程中对两个片段进行采样。我们使用InceptionV3作为CNN的骨干。在这个数据集中，动作不能单独从场景上下文中识别，需要强大的时空推理。GSM的识别准确率达到40。27%，提高了+1。比以前的最先进水平高出3%[26]。EPIC-Kitchens。在EPIC-Kitchen中，标注以动词-名词对的形式提供，并从动词、名词和动作的识别准确率方面对性能进行了评估。对于这个数据集，我们将GSM训练为动词、名词和动作预测的多任务问题。在分类-1有关模型集合的更多详细信息，请参见补充文件。行动层，我们应用行动分数作为对动词和名词分类器的偏见，如 LSTA [33]所做的那样。我们使用 BN-Inception作为CNN的骨干。该网络使用16帧进行训练。在推理过程中，从每个视频中抽取两个由16帧组成的剪辑我们报告了在两个标准测试分割S1（可见）和S2（不可见）上获得的识别准确度，见表1。五、表中的第一个块显示了使用RGB帧和光流作为输入的方法，而第二个块列出了从表中可以看出，GSM比使用光流图像进行显式运动编码的其他方法表现更好。仅有的两种击败GSM的方法，R（2+1）D [10]和LFB[44]，训练两个独立的网络，一个用于动词，另一个用于名词分类，并利用额外的数据进行预训练。GSM使用一个单一的网络来预测视频中的所有三个标签，从而使其更快，更高效。事实上，GSM的性能优于在Sports-1 M数据集上预训练的R（2+1）D模型，这表明GSM也可以通过在外部数据上预训练来提高其性能。4.5. 讨论在图5d中，我们显示了通过将GSM添加到TSN的CNN骨干中而改进最多的前10个动作类。从图中可以看出，网络增强了区分外观相似的动作类的能力，例如展开某物和折叠某物，将某物放在某物前面并移除某物，揭示后面的某物等。1109+32%折叠某物展开某物把什么东西插进什么东西里把什么东西插进什么东西里，但是把它拉出来。把许多类似的东西之一放在桌子上把一些类似的东西放在其他的东西上。把某物放在某物前面，去掉某物，露出后面图6：添加GSM后，Something-V1视频中属于改进最多的类别的样本帧。图7：Something-V1上最先进技术的准确性与复杂性，来自选项卡。3 .第三章。大小表示参数的数量（M，以百万计）。GSM在识别性能方面优于或竞争对手，但模型复杂度要低得多这些最大的改进类显示在图。六、从这些帧中，我们可以看到，颠倒帧的顺序会改变动作，因此TSN中存在的无序池无法识别动作。另一方面，GSM能够提高这些类的识别分数，提供强大的时空推理。为了验证GSM的时间编码能力，我们通过以相反的顺序应用视频帧来评估其性能。这导致识别性能从47. 二十四到十五岁百分之三十八另一方面，当应用时间反转的帧时，TSN的识别性能没有变化。来自CNN的最后一层的特征的t-SNE图对应于[ 14 ]中描述的10个动作组，如图所示。5a和5 b图5c示出了与TSN相比改进最多的类别的t-SNE可视化。我们从t-SNE可视化的验证分割中抽取了1800个视频。可以看出，GSM的特征表现出较低的类内和较高的类间表4：与Diving48最新技术的比较。表5：与EPIC-Kitchen最新技术水平的比较。与TSN的差异性比较。我们还分析了GSM和各种最先进的方法的内存需求和计算复杂度。图7显示了在Somthing-V1数据集的验证集上计算的准确度、参数和复杂度权衡。该图绘制了准确度与GFLOP的关系，气泡的面积表示每种方法中存在的参数数量。从图中可以看出，GSM的性能与最先进的技术[27]相比具有竞争力，参数数量不到十分之一，FLOP数量不到一半。5. 结论我们提出了门移模块（GSM），一种新的时间交互块，将2D-CNN变成一个高效的时空特征提取器。GSM引入空间选通来决定与相邻帧交换信息。我们进行了广泛的评估，以研究其在视频动作识别中的有效性，在Something Something- V1和Diving 48数据集上获得了最先进的结果，并在EPIC-Kitchild上获得了具有竞争力的例如，当GSM插入TSN时，在Something-V1数据集上获得了+32%的识别准确率的绝对增益，仅为0。48%的附加参数和0. 55%的额外FLOPS。确认这项工作得到了该中心学术方案的部分支持。方法预训练准确度（%）[22]第41话（上ImageNet16.77[48]第48话：ImageNet22.8R（2+1）D [39]（来自[1]）动力学28.9DiMoFs [1]动力学31.4P3D [30]（来自[26]）ImageNet32.4C3D [37]（来自[26]）ImageNet34.5Kanojia等人[18个国家]ImageNet35.64CorrNet [40]-37.7GSTImageNet38.8方法预训练S1S2动词名词行动动词名词行动TSN [41]ImageNet 45.68 36.8 19.86 34.89 21.82 10.11TBN [19]ImageNet 60.87 42.93 30.31 49.61 25.68 16.80LSTA [33]ImageNet 59.55 38.35 30.33 47.32 22.16 16.63RU-LSTM [9] ImageNet 56.93 43.05 33.06 43.67 26.77 19.49LFB [44]动力学60.04532.750.9 31.521.2R（2+1）D[9]Sports-1M 59.6 43.731.047.2 28.718.3R（2+1）D[9]外部65.2 45.134.558.4 36.926.11110引用[1] G.贝尔塔修斯角Feichtenhofer，D. Tran，J. Shi和L.托-雷萨尼。通过检测学习有区别的运动特征。arXiv预印本arXiv：1812.04172，2018。8[2] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在Proc. CVPR，2017中。三、七[3] Y. Chen，Y.Kalantidis，J.Li，S.Yan和J.峰用于视频识别的多光纤网络。Proc. ECCV，2018。3[4] D. Damen，H.道蒂，G。Maria Farinella，S.菲德勒，A.Furnari 、 E. Kazakos ， D. Moltisanti ， J. Munro ， T.Perrett，W. Price和M.雷扩展以自我为中心的愿景：史诗厨房数据集。Proc. ECCV，2018。5[5] 多纳休湖 Anne Hendricks ， S. Guadarrama ， M.Rohrbach，S.Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络在Proc.CVPR，2015中。一、二[6] L. 范，W。黄角甘，S.埃蒙湾Gong和J.煌用于视频理解的运动表示的端到端学习。在Proc. CVPR，2018中。2[7] C. Feichtenhofer、A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在procNIPS，2016年。2[8] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在Proc. CVPR，2016中。2[9] A. Furnari和G. M. Farinella你会期待什么？预测自我中心的行动与滚动展开 LSTM 和模态注意。 InProc.ICCV，2019. 8[10] D. Ghadiyaram，D. Tran和D.我叫你大规模弱监督预训练视频动作识别。在Proc. CVPR，2019中。七、八[11] R. Girdhar和D. Ramanan动作识别的注意力集中。在Proc. NIPS，2017年。一、二[12] R. Girdhar，D. Ramanan、A. Gupta，J. Sivic，and B.Russell. AVLAD：学习时空聚合用于动作分类。在Proc.CVPR，2017中。1[13] P. 戈雅，P. 娃娃啊，R. 女孩P. 诺德豪斯，L.Wesolowski，A. Kyrola，A. Tulloch，Y. Jia和K.他外精确，大型Minibatch SGD：1小时内训练ImageNetarXiv预印本arXiv：1706.02677，2017。5[14] R. Goyal，S.E. Kahou，V. Michalski，J. Materzynska，S.Westphal，H. Kim，V. Haenel，I. Fruend，P. Yianilos，M. Mueller-Freitag等人学习和评估视觉常识的“某物某物”视频数据库。InProc. ICCV，2017. 五六八[15] K. Hara，H. Kataoka和Y.佐藤时空3D CNN可以追溯2DCNN和ImageNet的历史吗？在Proc. CVPR，2018中。第1、3条[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在Proc. CVPR，2016中。2[17] B. Jiang，M.Wang，W.甘，W。Wu和J.燕. STM：用于动作识别的时间和运动编码.Proc. ICCV, 2019. 三、七[18] G. Kanojia，S. Kumawat和S.拉曼潜水分类的注意时空表示学习在Proc. CVPRW，2019年。8[19] E. Kazakos，A. Nagrani、A. Zisserman和D.该死EPIC-Fusion：自我中心动作识别的视听时间绑定。InProc.ICCV，2019. 8[20] M.李，S。李，S。儿子G Park和N.夸运动特征网络：修正了动作识别的运动过滤器。Proc. ECCV，2018。二、七[21] C. 李角Zhong，L.等，中国山杨D.Xie和S.PU. 协同时空特征学习用于视频动作识别。在Proc. CVPR，2019中。3[22] Y. Li，Y. Li和N.瓦斯康塞洛斯回应：走向没有代表偏见的行动认可在proc ECCV，2018年。五、八[23] Z. Li，K. Gavrilyuk，E. Gavves，M. Jain和C.斯诺克总经理VideoLSTM卷积、参与和流动以进行动作识别。计算机视觉和图像理解，166：41一、二[24] J.Lin，C. Gan和S.韩用于有效视频理解的时间偏移模块.InProc. ICCV，2019. 二、三、四、七[25] I. Loshchilov和F.哈特随机梯度下降与温暖的重新启动。InProc. ICLR，2017. 5[26] C. Luo和A.尤尔。用于有效动作识别的分组时空聚合。InProc. ICCV，2019. 二三四七八[27] B. Martinez，D.莫多洛岛Xiong和J.泰伊基于时空判别滤波器组的动作识别InProc. ICCV，2019. 七、八[28] J.Y. Ng和L.S.戴维斯用于视频动作识别的时间差分网络。IEEEWinter Conference on Applications of ComputerVision（WACV），2018年。2[29] A. Piergiovanni和M. S.亮动作识别的表示流。在Proc.CVPR，2019中。2[30] Z. Qiu，T. Yao和T.美.用伪三维残差网络学习时空InProc. ICCV，2017. 二、三、八[31] Z. Shou，X.Lin，Y.卡兰蒂迪斯湖Sevilla-Lara，M.罗尔巴赫S. Chang和Z.燕. DMC-Net：为快速压缩视频动作识别生成有区别的运动提示在Proc. CVPR，2019中。一、二[32] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在Proc.NIPS，2014中。一、二[33] S. Sudhakaran，S.Escalera和O.兰兹自我中心动作识别的长短期注意.在procCVPR，2019年。一、二、七、八[34] L.孙，K. Jia，L. Yeung和B. E.石使用因

下载后可阅读完整内容，剩余1页未读，立即下载