视频识别中基于时间自适应模块的新方法

188 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

视频识别

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13708用于视频识别南京大学软件新技术国家重点实验室2商汤科技研究zyliumy@gmail.comlutong@nju.edu.cnsensetime.comlmwang@nju.edu.cn摘要视频数据具有复杂的时间动态，由于各种因素，诸如相机运动，速度变化，和不同的活动。为了有效地捕捉这种不同的运动模式，本文提出了一种新的时间自适应模块（TAM），以产生视频特定的时间核，基于自己的特征图。TAM提出了一种独特的两级自适应建模方案，将动态核解耦为位置敏感的重要性图和位置不变的聚合权重。在局部时间窗口中学习重要性图以捕获短期信息，而聚合权重从全局视图生成，关注长期结构。TAM是一个模块化模块，可以集成到2DCNN中，以产生一个强大的视频架构（TANet），而额外的计算成本非常小。在 Kinetics-400 和 Something-Something数据集上的大量实验表明，该方法的性能始终优于其他时间建模方法，并在相似复杂度下达到了最先进的性能。代码可在https://github.com/liu-zhy/temporal-adaptive-module上获得。1. 介绍深度学习为图像领域的各种识别任务带来了巨大的进步，例如图像分类[21，12]，对象检测[28]和实例分割[11]。这些成功的关键是设计灵活高效的架构，能够从大规模图像数据集学习强大的视觉表示[4]。然而，深度学习在视频理解方面的研究进展相对较慢，部分原因是视频数据的高复杂性。视频理解的核心技术问题是设计一个有效的时间模型，它既要能灵活地捕捉复杂的时间结构，又要能适应复杂的时间结构。作者：Correspondent author。用于有效地处理高维度视频数据的低计算消耗3D卷积神经网络（3D CNN）[15，34]已成为视频建模的主流架构[1，8，36，27]。3D卷积是其2D对应物的直接扩展，并为视频识别提供了可学习的算子。然而，这种简单的扩展缺乏对视频数据中的时间属性的具体考虑，并且也可能导致高计算成本。因此，最近的方法旨在通过将轻量级时间模块与2D CNN组合来在两个不同方面对视频序列进行建模以提高效率（例如，TSN [40]、TSM [23]），或者设计专用时间模块以更好地捕获时间关系（例如，Nonlocal Net [41]，ARTNet [38]，STM [17]，TDN [39]）。然而，如何设计一个既高效又灵活的时态模块仍然是一个有待解决的问题。因此，我们的目标是沿着这个方向推进当前的视频架构在本文中，我们专注于设计一个自适应模块，以更灵活的方式捕捉时间信息。直观地，我们观察到，由于诸如相机运动和各种速度的因素，视频数据沿着时间维度具有极其复杂的动态因此，3D卷积（时间卷积）可能缺乏足够的表示能力来通过简单地采用固定数量的视频不变内核来描述运动多样性为了处理这样复杂的时间变化的视频，我们认为，自适应时间内核为每个视频是有效的，以及必要的描述运动模式。为此，如图1所示，我们提出了两级自适应建模方案，以将视频特定时间内核分解为位置敏感重要性图和位置不变（也是视频自适应）聚合内核。这种独特的设计允许位置敏感重要性图集中于增强来自局部视图的有区别的时间信息，并且使得视频自适应聚合能够捕获与输入视频序列的全局视图的时间依赖性具体来说，时序自适应模块的设计13709GL时间卷积时间注意力关注时间自适应模块H*W不H*W不⨂特征图模块⊙注意力权重H*W不特征图⨂动态滤波器不⊙注意力权重H*W特征图不H*W共享滤波器不H*W⊙关注模块不H*W⨂⊙不H*W视频不变量位置自适应视频自适应（）位置自适应（）图1. 时间模块比较：标准时间卷积在视频之间共享权重，并且由于视频的多样性而可能缺乏处理视频变化的灵活性。时间注意通过在没有任何时间交互的情况下为不同时间分配不同的重要性来学习位置敏感权重，并且可以忽略长范围的时间依赖性。我们提出的时间自适应模块（TAM）提出了一个两级自适应方案，通过学习局部重要性权重的位置自适应增强和用于视频自适应聚合的全局核权重⊙是注意力运算，是卷积运算。(TAM)严格遵循两个原则：灵活性强。为了确保我们的TAM具有较低的计算成本，我们首先通过采用全局空间池来挤压特征图，然后以通道方式建立我们的TAM以保持效率。我们的TAM由两个分支组成：本地分支（）和全局分支（）。如图2、TAM以有效的方式实现。局部分支采用时间卷积来产生位置敏感的重要性图以增强局部特征，而全局分支使用全连接层来产生用于时间聚合的位置不变由局部时间窗口生成的重要性图侧重于短期运动建模，而使用全局视图的聚合核更关注长期时间信息。此外，我们的TAM可以灵活地插入到现有的2D CNN中，以产生高效的视频识别架构，称为TANet。我们验证了建议的TANet上的任务，在视频中的动作特别是，我们首先研究了TANet在Kinetics-400数据集上的性能，并证明了我们的TAM在捕获时间信息方面优于其他几个同行，例如时间池化，时间卷积，TSM [23]，TEINet [24]和非局部块[41]。我们的TANet能够产生非常有竞争力的精度，与 FLOP 类似于2DCNN。我们进一步测试我们的TANet上的运动主导的数据集的东西，其中的国家的最先进的perfor-mance实现。2. 相关工作视频理解是计算机视觉领域的一个核心课题。在早期，很多传统的冰毒-ODS [22，20，29，43]已经设计了各种手工制作的特征来对视频数据进行编码，但是当推广到其他视频任务时，这些方法太不灵活。最近，由于视频理解的快速发展已经从深度学习方法中受益匪浅[21，32，12]，特别是在视频识别中，提出了一系列基于CNN的方法来学习时空表示，稍后将澄清此外，我们的工作还涉及CNN中的动态卷积和注意力基于CNN的动作识别方法。由于深度学习方法已广泛用于图像任务，因此有许多基于2D CNN的尝试[18，31，40，46，10，23，39]致力于对视频剪辑进行建模。特别是，[40]使用从整个视频中稀疏采样的帧，通过在最后一个全连接层之后聚集分数来学习远程信息。[23]以有效的方式沿着时间维度移动通道，这对2D CNN产生了良好的性能。通过从空间域到空间时域的简单扩展，提出了3D卷积 [15，34]由于大规模Kinetics数据集[19]的发布，3D CNN [1]被广泛用于动作识别。其变体[27，36，44]将3D卷积分解为空间2D卷积和时间1D卷积以学习时空特征。和[8]设计了一个具有双路径的网络来学习时空特征，并在视频理解中取得了很好的准确性。上述方法都具有一个共同的见解，即它们是视频不变的，并且忽略了视频中固有的与这些方法相反，我们设计了一个两级自适应建模方案，通过分解-视频1特征图视频213710∈Σ⊗GL⊗⊙conv1res2res3Res4Res5FC输入帧TA-阻滞简体中文⊕TA-Block TA-Block⊕⊕·⨉1×1 ×1，1×1 ×1，softmax乙状1×3 ×3，Conv2DReLUReLU1×3 ×3，Conv2D1×1 ×1，Conv2D1×1 ×1，Conv2D+ResNet-Block+TA-阻滞谭评分谭图2. TANet的整体架构：ResNet-Block vs.通过引入具有视频特定内核的时间自适应模块（TAM）来解决这个问题我们的TAM可以容易地集成到现有的2D CNN中（例如，ResNet）以产生视频网络架构，如图2所示。我们将概述TAM，然后描述其技术细节。形式上，令XRCXTXHXW表示视频剪辑的特征图，其中C表示通道的数量，并且T、H、W是其时空维度。为了效率，TAM仅关注时间建模，并且期望通过2D卷积捕获空间模式。因此，我们首先采用全局空间平均池化来压缩特征图，如下所示：TA-Block。右下角的时间自适应模块（TAM）的整个工作流程显示了它是如何工作的。张量的形状Xc，t=（X）c，t=1XH×Wi，jc，t，j，i，（一）在每一步之后都有记录。表示逐元素加法，⊙是其中c，t，j，i是不同维度的索引（在chan中）。逐元素乘法，并且是卷积运算。图中出现的符号将在第二节中解释。第3.1条nel，time，heightandwidth），andXRC×T 聚集体对于每个视频剪辑，将视频特定操作转换为位置敏感注意动作识别。TAM中的本地分支主要涉及SENet[13]。但是SENet学习了特征图的每个通道的调制权重。几种方法[24，5]也采用注意力来学习视频中更多的区分特征与这些方法不同的是[41]设计了一个非局部块，它可以被看作是自注意，以捕获长程依赖关系。我们的TANet通过简单地堆叠更多的TAM来捕获远程依赖性，并保持网络的效率。动态卷积。[16]首先提出了视频和立体声预测任务上的动态滤波器，并设计了卷积编码器-解码器作为滤波器生成网络。图像任务中的几项工作[45，3]试图为一组卷积核生成聚合权重我们的动机与这些方法不同。我们的目标是使用这个时间- poral自适应模块来处理视频中的时间变化。具体来说，我们设计了一种有效的形式来实现这个时间动态内核的基础上输入的特征图，这是理解视频内容的关键。3. 方法3.1. 时间自适应模块综述正如我们在SEC中讨论的那样1，视频数据通常表现出由诸如相机运动和速度变化的许多因素引起的复杂的时间动态因此，我们的目标是X. 为了简单起见，我们在这里使用表示聚集空间信息的函数。提出的时间自适应模块（TAM）的基础上，这种压缩的一维时间信号的高效率。我们的TAM由两个分支组成：局部分支和全局分支，其目的在于学习位置敏感重要性图以增强区别性特征，然后产生位置不变权重以卷积方式自适应地聚集时间信息。更具体地，TAM公式如下：Y=G（X）（L（X）⊙X），（2）其中表示卷积运算，并且是逐元素乘法。值得注意的是，这两个分支关注时间信息的不同方面，其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征，而全局分支旨在并入长范围时间结构以引导具有完全连接的层的自适应将内核学习过程分解成局部分支和全局分支，在实验中证明是一种有效的方法。这两个分支将在以下章节中介绍。3.2. TAM中的本地分支如上所述，局部分支是位置敏感的，并且旨在利用短期时间动态来执行视频特定操作。鉴于短期信息沿着时间维度缓慢变化，因此需要学习位置敏感的重要性映射来区分本地时间语义。13711∈∈⊙∈FE∈R--GFFΣGG∈·如图2所示，局部分支由具有ReLU非线性的一系列时间卷积层构建由于局部分支的目标是捕获短期信息，因此我们将内核大小K设置为3以仅基于局部时间窗口来学习重要性映射为了控制模型的复杂性，第一个Conv1D，然后是BN [14]，将通道数量从C减少到C。时间自适应聚合。在介绍自适应聚合之前，我们可以回顾一下普通时间卷积是如何聚合时空视觉信息的：Y=WX，（5）其中W是卷积核的权重，并且没有第二个Conv1Dβ使用S形激活产生在推理中与输入视频样本有关我们认为这种方式忽略了视频中的时间动态，并且重要性权重VRC×T，它们对时间位置最后，时间激励被公式化如下：Z= Frescale（V）<$X=L（X）<$X，（3）其中表示逐元素乘法，ZRC×T×H×W。为了匹配X的大小，Frescale（V）重新缩放通过在空间维度上复制，V到V∈RC×T×H×W3.3. TAM全球分部全局分支是位置不变的，并且专注于基于长期时间信息生成自适应内核。它结合了全局上下文信息，并学习产生位置不变，也视频自适应卷积内核的动态聚合。学习自适应内核。我们在这里选择为每个视频剪辑生成动态内核，并以卷积方式聚合时间信息。为了简化该过程以及保持高效率，将以通道方式应用自适应卷积。在这个意义上，预期学习的自适应内核仅对时间关系建模，而不考虑信道相关性。因此，我们的TAM将不会改变输入特征图的通道的数量，并且学习的自适应内核以通道方式卷积输入特征图。更正式地，对于第c个通道，如下学习自适应内核：Θc=（X）c= softmax（（W2，δ（（W1，δ（X）c），（四）其中Θc，K是针对第c个通道生成的自适应内核（聚合权重），K是自适应内核大小，δ表示激活函数ReLU 。自适应核也是基于压缩特征映射Xc 学习的RT，而不考虑模型的空间结构效率。但与局部分支不同，我们使用全连接（fc）层学习自适应内核通过利用长期信息。学习的自适应核与全局感受野，从而可以聚合全局上下文引导的时间特征为了增加全局分支的建模能力，我们堆叠两个fc层，并且使用软最大函数对学习的内核进行归一化以产生正聚合权重。学习的聚合权重 Θ=Θ1 ，Θ2，…ΘC将用于执行视频自适应卷积。从而提出一种视频自适应聚合：Y=G（X）X，（6）其中可以被视为内核生成器函数。生成的核可以执行自适应卷积，但在时间维上共享，并且仍然是位置不变的。为了解决这个问题，本地分支产生具有位置敏感重要性映射的Z整个过程可以表示如下：Yc，t，j，i=G（X）Z=θZ=Θc，k·Zc，t+k，j，i，K（七）其中表示标量乘法，Y是输出特征图（YRC×T×H×W）。总之，TAM提出了具有独特聚合方案的自适应模块，其中位置敏感激励和位置不变聚合都源自输入特征，但是集中于捕获不同的结构（即，短期和长期时间结构）。3.4. 示例：TANet我们在这里打算描述如何实例化TANet。时间自适应模块可以赋予现有的2D CNN强大的能力来模拟视频片段中的在实际应用中，TAM只引起有限的计算开销，但明显提高了对不同类型数据集的性能.ResNets [12]被用作主干来验证TAM的有效性。如示于图2，TAM在第一个Conv 2D之后嵌入到ResNet-Block 中，这很容易将 vanilla ResNet-Block 变成 TA-Block。这种方式不会过度改变网络的拓扑结构，并且可以重用ResNet-Block的权重。假设我们采样T帧作为输入剪辑，fc之后的T帧的分数将通过平均池化来聚合以产生剪辑级分数。在fc层之前不执行时间下采样。广泛的实验在Sec.图4展示了TANet的灵活性和有效性讨论。我们注意到局部分支的结构类似于SENet [13]和STC [5]。第一个明显的区别是本地分支不挤压时间维度。因此，我们使用时间1D卷积而不是fc层作为基本层。双层设计只寻求13712∼∼∼∼∼∼∼×× ×× × ××××在非线性拟合能力和模型复杂性之间进行折衷。局部分支提供位置敏感信息，从而解决全局分支对时间位置不敏感的问题。TSN [40]和TSM [23]仅以固定方案聚合时间特征，但TAM可以产生视频特定权重以自适应地聚合不同阶段中在极端情况下，当动态内核权重Θ被学习为等于[0，1，0]时，TAM中的全局分支可以退化为TSN。从另一个角度来看，如果内核权重Θ被设置为[1，0，0]或[0，0，1]，则全局分支可以变成TSM。看来，我们的TAM理论上提供了一个更一般和灵活的形式来模拟视频数据。当它涉及3D卷积[15]时，所有输入样本共享相同的卷积核，而不知道视频中的时间多样性。此外，我们的全球分支机构基本上执行视频自适应convo-过滤器大小为1的解决方案K11，而正常3D卷积中的每个滤波器具有大小CKKk，其中C是通道的数量，k表示感受野。因此，我们的方法比3D CNN更有效与当前一些动态卷积[3，45]不同，TAM更灵活，可以直接生成内核权重来执行视频自适应卷积。4. 实验4.1. 数据集我们的实验在三个大规模数据集上进行，即Kinetics-400 [19]和Something- Something（Sth-Sth）V1V2 [9]。Kinetics-400包含30万个视频剪辑，包含400个人类动作类别。Kinetics-400中的修剪视频大约为10秒。我们在训练集（240k视频剪辑）上训练模型，并在验证集（20k视频剪辑）上测试模型。Sth-Sth数据集专注于细粒度和运动主导的动作，其中包含涉及不同交互对象的预定义基本动作。Sth-Sth V1包括训练集中的86 k个视频剪辑和验证集中的12 k个视频剪辑。Sth-Sth V2是Sth-Sth V1的更新版本，其包含训练集中的169 k视频剪辑和验证集中的25 k视频剪辑。他们都有174个行动类别。4.2. 实现细节训练在我们的实验中，我们用8帧和16帧作为输入来训练模型。在Kinetics-400上，遵循[41]中的实践，从视频中的64个连续帧中采样帧。在Sth-Sth V1 V2上，采用TSN [40]中的均匀采样策略来训练TANet。我们首先将帧的短边调整为256，并应用多尺度裁剪和随机水平翻转作为数据增强。裁剪帧的大小调整为224 224用于网络训练。批量为64。我们的模型由ImageNet预训练的权重初始化，以减少训练时间。具体来说，在Kinetics-400上，用于训练的历元是100。初始学习率被设置为0.01，并且在50、75、90个时期处除以10。我们使用动量为0.9的SGD和1 e-4的权重衰减来训练TANet。在Sth-Sth V1 V2上，我们用50个epoch训练模型。学习率从0.01开始，在30、40、45个时期除以10。我们使用0.9的动量和1 e-3的权重衰减来降低过拟合的风险。试验. 不同的推理方案，适用于公平地比较与其他国家的最先进的模型。在动力学-400，我们调整较短的256和采取3作物256 256以覆盖空间维度。在时间维度上，我们均匀地对8帧模型的10个剪辑和16帧模型的4个剪辑进行最终的视频级预测是通过对所有空间的得分求平均而产生的时间视图。在Sth-Sth V1上，我们将帧的短边缩放到256，并使用224 224的中心裁剪进行评估。在Sth-SthV2上，我们采用了与Kinetics相似的评估方案，但仅对2个剪辑进行均匀采样，并且还使用中心裁剪呈现了单个剪辑的准确度。4.3. 消融研究在Kinetics-400上进行探索研究，以调查TANet的不同方面我们使用的ResNet架构与[12]相同。默认情况下，我们的TANet将所有ResNet-Block替换为TA-Block参数选择。我们使用α和β的不同组合来计算TAM中的最优超参数。TANet 如图 1B 所示被实例化。二、TANet，α=2和β=4的组合实现了表Ia中所示的最高性能，其将应用于以下实验中。时间感受野。我们尝试在全局分支中增加学习的内核Θ的时间感受野。从表1b中可以看出，当TANet采用更多采样帧作为输入时，较大的K似乎有利于准确性另一方面，当采样8帧时，它甚至退化TANet的性能。在我们下面的实验中，K将被设置为3。TAM处于不同的位置。表1c试图研究TAM在不同位置的作用。TANet-a、TANet-b、TANet-c和TANet-d分别表示TAM被插入到块中的第一卷积之前、第一卷积之后、第二卷积之后和最后一个卷积之后。这四种风格在补充材料中以图形方式呈现。图中的样式。2是TANet-b，其具有比表1c中所示的其他样式稍好的性能。在以下实验中，TANet-b将默认为TANet。13713阶段框架块res5res4−5res3−5res2−58 38 98 138 16前一名前五名74.12%91.45%75.15%92.04%75.90%92.22%76.28% 92.60%×××× × ×（单一视图）内核帧前5名模型帧Top-1Top-5K=3876.28% 92.60%TANet-a8百分之七十五点九五92.18%K=5875.62% 92.14%TANet-b876.28%92.60%K=31676.87% 92.88%TANet-c875.75%92.13%K=51677.19% 93.17%TANet-d875.20%91.78%(a) α和β参数选择的研究。结果显示了TAM对这些超参数不那么不敏感的一个很好的(b) 时间感受野的研究。当TANet使用8帧和16帧作为输入时，尝试Θ(c) 探索在何处插入TAM。我们将TAM插入TA-Block的不同位置以研究其影响。模型ShuffleNet V2MobileNet V2Inception V3 ResNet-50 I3D-ResNet-50 [2]Top-1Top-5Top-1Top-5Top-1Top-5前5名 Top-1Top-5 w/o TAM62.1%84.3%64.1%百分之八十五点六71.4%89.8%70.2% 88.9% 76.6%-与TAM 百分之六十七点三百分之八十七点六71.6%90.1%百分之七十五点六百分之九十二76.3% 77.2% 92.9%∆ Acc.+5.2%+3.3%+7.5%+4.5%+4.2%+2.2%+6.1%+3.7%+0.6%-(d) TA块数量的研究。TA块从阶段2到阶段5被累积地添加到ResNet50中。(e) 对不同骨干网影响的研究。我们试图将TAM扩展到其他脊柱。I3 D-ResNet-50采用32帧作为输入，但其他主干采用8帧作为输入。性能表明TAM可以轻松享受不同骨干网的好处表1. Kinetics-400的消融研究。这些实验使用ResNet-50作为骨干，并在训练中以8帧作为输入。所有模型共享相同的推理协议，即，10个剪辑×3个裁剪。TA块的数量为了在性能和效率之间进行权衡，我们逐渐将更多的TA块添加到ResNet中。如表1d所示，我们发现更多的TA块有助于更好的性能。res 2-5实现了最高的性能，并将用于我们的实验。转移到其他主干。最后，我们验证了我们提出的模块的泛化。为此，我们将TAM应用于其他众所周知的2D骨干，如 ShuffleNet V2 [26] ， MobileNet V2 [30] ，Inception V3 [33]和3D骨干，如I3 D-ResNet-50 [1 ，2]，其中所有模型在全局平均池化层之前都没有时间下采样操作从表1e中，我们可以观察到，骨干网络配备了我们的TAM超过了他们的C2D和I3D基线的大幅度，这证明了我们提出的模块的泛化能力。4.4. 与其他时态模块的作为一个标准的时态操作符，我们的TAM和其他时态模块之间的比较。为了公平比较，本研究中的所有模型都使用相同的帧输入（8×8）和主干（ResNet-50）。推理亲-母育是取样10 ×3个作物以报告性能。基线。我们首先选择几个基线与时间模块。我们从2DConvNet（C2D）开始，我们只使用ResNet50构建2DConvNet，并专注于学习空间特征。在这个意义上，它独立地对每个帧进行操作，而最终在全局平均池化层第二个是C2D池。为了赋予2D网络时态建模能力，C2D-Pool插入平均池型号FLOPs参数Top-1 Top-5C2D 42.95G 24.33M 70.2% 88.9%C2 D-池42.95G 24.33M 73.1% 90.6%C2D-TConv 53.02 G 28.10 M 73.3% 90.7%C2D-TIM [24] 43.06G 24.37M 74.7% 91.7%I3D3×1×162.55G 32.99M 74.3% 91.6%TSM[23] 42.95G 24.33M 74.1% 91.2%TEINet[24] 43.01G 25.11M 74.9% 91.8%NL C2D [41] 64.49G 31.69M 74.4% 91.5%全球分支机构43.00G 24.33M 75.6% 91.9%本地分行43.07G 25.59M 73.3% 90.7%全球分支机构+SE [13] 43.02G 24.65M 75.9% 92.1%TANet-R 43.02G 25.59M 76.0% 92.2%TANet 43.02G 25.59M 76.3% 92.6%表2. TAM的有效性研究。所有模型都使用ResNet50作为主干，并以采样步长为8的8帧作为输入。为了与测试一致，FLOP是以空间大小256来计算的256 本文作者报道了这一问题所有方法共享相同的训练设置和推理协议。在一个实施例中，核大小为K11的层的核大小为K 11的层的核大小。这通过简单地用平均池化层替换网络中的所有TAM而容易地实现。第三种类型是可学习的时间卷积，其内核由所有视频共享。我们首先用具有随机初始化权重的标准时间卷积替换每个TAM，称为C2D-TConv。此外，我们使用TSM [23]初始化将标准时间卷积替换为通道随时间卷积，以仅聚合时间信息而不涉及不同通道，称为C2D+TIM[24]。最后，我们与膨胀的3D ConvNet（I3D）进行了比较，其操作也是基于时间卷积，直接将原始的2D卷积膨胀为3D卷积。在我们的实现中，我们将ResNet-Block中的第一个11内核膨胀到311，这可以提供与我们的TANet的更公平的比较设置帧Top-1Top-5α=1β=4875.63%92.10%α=2β=4876.28%92.60%α=4β=4875.72%92.14%α=2β=2875.91%92.38%α=2β=4876.28%92.60%α=2β=8875.63%92.20%13714L⊙G×××× ×在[41]之后，这个变体被称为I3D3×1×1。值得注意的是，这三种类型的时间卷积共享固定聚合内核的类似思想，但在具体实现细节上不同，这可以证明自适应聚合在我们的TAM中的功效。上述方法共享具有固定池化或卷积的相同时间建模方案。如表2所示，我们的TAM产生了优于所有这些的性能。我们观察到C2D获得了比TAM低6.1%的最差性能。令人惊讶的是，单纯实现的时间卷积（C2 D-TConv）执行类似于时间池化（C2 D-Pool）（73.3%vs. 73.1%），这可以部分归咎于时间卷积的随机在基于时间卷积的模型中，我们发现C2 D-TIM以最少的FLOP数量获得最佳性能。我们分析，这种通道时间卷积可以很好地保持特征通道的对应性，从而从ImageNet预训练模型中获益最多。然而，它仍然比我们的TAM差1.6%。其他时空对应物。存在一些基于C2D学习视频特征的竞争性时间模块，即，TSM[23]、TEINet[24]和非本地C2D（NL C2D）。我们在这里比较我们的TAM与这些不同的时间模块，TSM和TEINet的结果直接引用的原始论文，因为它们共享类似数量的FLOP我们的TAM。非局部块是一种自注意模块，被提出来捕获视频中的长程依赖性[41]中提到的5个非本地块的优选设置如表2所示，我们的TANet在这些时间模块中实现了最高的准确性，比TSM高出2.2%，TEINet高出1.4%，NL C2D高出1.9%。TAM的变体。为了研究时间自适应模块中各个部分的性能，我们分别对全局分支和局部分支进行了验证。此外，全局分支+ SE使用具有SE模块的全局分支[13]与TANet进行比较。在这些模型中，TANet的准确率最高，证明了我们还颠倒了局部分支和全局分支（TANet-R）的顺序：Y=（X）（（X）X）。我们看到TANet比TANet-R稍微好一些。4.5. 与最新技术Kinetics-400的比较。表3示出了关于Kinetics-400的现有技术结果。我们的方法（TANet）实现了竞争力的表现，其他模型。 8 帧的 TANet-50 的性能也优于SlowFast [8]方法骨干训练输入GFLOPs Top-1 Top-5TSN [40]InceptionV 33×224×2243×25072.5% 90.2%ARTNet[38]ResNet1816 ×112×11224×25070.7%89.3%I3D [1] InceptionV1 64× 224×224 108×N/A72.1% 90.3%R（2+1）D [36]ResNet3432×112×112152×1074.3%91.4%NLI3D [41]ResNet50128×224×224282×3076.5%92.6%IP-CSN[35]ResNet508×224×2241.2×1070.8%-TSM[23]ResNet5016×224×22465×3074.7% 91.4%TEINet[24]ResNet5016×224×22486×3092.5%bLResNet5048×224×22493×973.5% 91.2%SlowOnly[8]ResNet508×224×22442×3074.8% 91.6%慢快4×16[8]ResNet50（4+32）×224×22436×3075.6% 92.1%慢快8×8[8]ResNet50（8+32）×224×22466×3077.0%92.6%I3D [2] ResNet50 32×224×224 335×30 76.6%-TANet-50ResNet508×224×22443×3076.3% 92.6%TANet-50ResNet5016×224×22486×1276.9% 92.9%X3D-XL[7]-16×312×31248×3079.1% 93.9%CorrNet [37] ResNet101 32×10×3 224×3079.2%-IP-CSN[35]ResNet15232 ×224×22483×3079.2% 93.8%慢快16×8 [8] ResNet101 (16+64）×224×224 213×30 93.5%TANet-101ResNet1018×224×22482×3077.1% 93.1%TANet-101 ResNet101 16×224×224 164×1278.4%93.5%TANet-152ResNet15216×224×224242×12 79.3% 94.1%表3.与Kinetics-400上的最新方法进行比较。如[8]中所述，单个视图的GFLOP视图的数量（具有空间裁剪的时间剪辑）表示模型复杂度。GFLOP是用空间大小计算的256×256。表示没有时间下采样的I3D0.7%时，使用类似的FLOP每个视图。16帧TANet仅使用4个剪辑和3个裁剪进行评估，使得它提供更高的推理效率和与其他模型的更公平的比较。值得注意的是，我们的16帧TANet-50仍然比32帧NL I3 D精确1.4%。由于ip-CSN [35]在Sports-1 M [18]上进行了预训练，因此它实现了具有更深主干的有希望的准确性，即，152. 此外， TAM 与现有的视频框架（如SlowFast）兼容。具体来说，我们的TAM比标准的当采用相同数量的帧作为输入时，可以使用311卷积，但是可以产生更好的性能。因此，TAM可以很容易地取代SlowFast中的3 1 1卷积，以实现更低的计算成本。X3D在视频识别方面取得了巨大的成功。X3D需要大量的计算资源来搜索，在新的情况下很难扩展。虽然我们的方法未能击败所有具有更深网络的最先进方法，但TAM作为轻量级运营商可以享受来自更强大的骨干网和视频框架的优点。综上所述，所提出的TANet在自适应地对视频中的时间关系进行建模方面做出了很好的实践Sth-Sth V1和V2的比较。如表4所示，与Sth-Sth V1上的其他模型相比，我们的方法实现了相当的精度。为了公平比较，表4仅报告了使用单个夹子的结果。作为输入的中心作物。TANet En高于配备有相同主干的TSM En（Top-1：50.6% vs. Top-1：49.7%）。我们还进行了实验Sth-Sth V2。V2比V1有更多的视频剪辑，这可以进一步释放13715×驾驶汽车驾驶汽车喝啤酒跳伞表4.与Sth-Sth V1上的最新方法的比较表中列出了仅采用RGB帧作为输入的模型。为了与测试保持一致，我们使用空间大小224 224来计算FLOP。方法骨干预训练帧×剪辑×裁剪Top-1 Top-5[46]第四十六话 BNInceptionImgNet8f×2×38f×2×316架f×2×3（16f+16f）×2×38f×1×116f×1×132f×1×18f×1×116f×1×1（8f+16f）×10×3百分之四十八点八77.6%[23]第二十三话ResNet50ImgNet59.1% 百分之八十五点六[23]第二十三话ResNet50ImgNet百分之六十三点四百分之八十八点五TSM2流[23]ResNet50ImgNet66.0% 百分之九十点五消费税[25]ResNet50ImgNet61.6% 百分之八十七点二消费税[25]ResNet50ImgNet62.6% 87.9%bLVNet-TAM[6]ResNet50Sth-Sth V2百分之六十一点七88.1%TEINet [24]ResNet50ImgNet百分之六十一点三-%TEINet [24]ResNet50ImgNet62.1%-%TEINetEn [24]ResNet50ImgNet百分之六十六点五-%TANetResNet50ImgNet8f×1×18f×2×316f×1×116f×2×3（8f+16f）×2×360.5% 百分之八十六点二TANetResNet50ImgNet百分之六十二点七88.0%TANetResNet50ImgNet百分之六十二点五百分之八十七点六TANetResNet50ImgNet64.6% 89.5%TANetEnResNet50ImgNet66.0% 90.1%表5.与Sth-Sth V2上的SOTA比较。我们在这里应用两种不同的推理协议，即1剪辑×1裁剪和2剪辑×3裁剪，以更好地评价TAM与其他方法。TANet的全部能力，而不遭受过拟合。遵循[23]中的常规做法，TANets使用2个夹子和3个作物来评估准确性。如表5所示，我们的模型在Sth-Sth V2上实现了最先进的性能。结果，与双流TSM和TEINetEn相比，TANetEn产生有竞争力的准确性。在Sth-Sth V1 V2上的结果表明，我们的方法也很好地建模了细粒度和运动主导的动作。4.6. 学习核为了更好地理解TANet的行为，我们可视化由阶段4和阶段5的最后块中的全局分支生成的内核Θ为了清楚地进行比较，还可视化了相同阶段的I3D3×1×1中的内核权重，以获得更多见解。如图所示3，我们发现学习的核Θ具有不同的性质：分布的形态和规模比I3D3×1×1更多样化。由于所有视频剪辑共享相同的内核在I3D3×1×1中，它导致核权重紧密地聚集在一起。与时间卷积相反，甚至模型-方法骨干预训练帧FLOPs Top-1Top-5TSN-RGB [40]BNInceptionImgNet8F16G百分之十九点五-[46]第四十六话BNInceptionImgNet8F33G百分之三十四点四-S3D-G [44]成立ImgNet64f71.38G 48.2% 78.7%ECO [47]BNIncep+Res18K40016架f64G41.6%-[47]第四十七话BNIncep+Res18K40092f267G46.4%-TSN [40]ResNet50ImgNet8f32f ×232f × 232f × 28楼16楼8f+16f8f32f8f16f8f16f8名妇女+16名妇女33G百分之十九点七46.6%I3D [42]ResNet50ImgNet+K400306G41.6% 72.2%荷兰I3D [42]ResNet50ImgNet+K400334G44.4% 76.0%荷兰I3D+GCN [42]ResNet50+GCN ImgNet+K400606G46.1% 76.8%[23]第二十三话ResNet50ImgNet33G45.6%百分之七十四点二[23]第二十三话ResNet50ImgNet65G百分之四十七点二百分之七十七点一[23]第二十三话ResNet50ImgNet98G百分之四十九点七78.5%13716联系我们∈TANet I3D3x1x1图3.在Kinetics-40

下载后可阅读完整内容，剩余1页未读，立即下载