视频识别的SlowFast网络模型：慢路径捕获空间语义，快路径捕获精细时间分辨率

99 浏览量更新于2023-10-12 收藏 940KB PDF 举报

视频识别

时间信息

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6202不不CC不C低帧速率H，WCαTαTβCαTβC用于视频识别的慢快网络Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He Facebook AIResearch（FAIR）摘要我们提出了用于视频识别的SlowFast网络我们的模型涉及（i）慢路径，以低帧速率操作，以捕获空间语义，以及（ii）快路径，以高帧速率操作，以精细的时间分辨率捕获运动。Fast路径可以通过减少其信道容量而变得非常轻量级，但可以学习用于视频识别的有用的时间信息。我们的模型在视频中的动作分类和检测方面都取得了很好的性能，并且通过我们的SlowFast概念做出了很大的改进我们报告了主要视频识别基准测试，Kinetics，Charades和AVA的最新准确性。代码已在以下网址提供： https://github.com/facebookresearch/SlowFast.1. 介绍在图像I（x，y）的识别中，通常对称地处理两个空间维度x和y这是由自然图像的统计来证明的，自然图像是第一近似各向同性的-所有方向都是同样可能的-和位移不变的[41，26]。但是视频信号I（x，y，t）呢？运动是方向的时空对应物[2]，但所有时空方向的可能性并不相等。慢动作比快动作更有可能（事实上，我们看到的大部分世界在给定时刻都是静止的），这已经在贝叶斯关于人类如何感知运动刺激的解释中得到了利用[58]。例如，如果我们孤立地看到一个移动的边缘，我们认为它垂直于自身移动，即使原则上它也可以有一个与自身相切的任意移动分量如果先验偏好缓慢的运动，那么这个知觉如果所有时空方向的可能性不相等，那么我们就没有理由像基于时空卷积的视频识别方法中隐含的那样对称地处理空间和时间[49，5]。我们可以将架构“分解”为空间结构和时间事件。为了具体起见，让我们在承认的背景下研究这个问题。视觉内容的分类空间语义通常演变缓慢。不高帧率βC图1. SlowFast网络具有低帧率、低时间分辨率的Slow路径和高帧率、α×更高时间分辨率的Fast路径。Fast路径是轻量级的，它使用分数（β，例如，1/8）的通道。横向连接将其熔化。例如，挥动的手在挥动动作的跨度上不改变其作为“手”的身份因此，对猫的语义（以及它们的颜色、纹理、光照等）的识别可以相对缓慢地刷新。另一方面，正在执行的动作可以比他们的主体身份进化得快得多，例如鼓掌、挥手、摇晃、行走或跳跃。可能期望使用快速刷新帧（高时间分辨率）来有效地对潜在快速变化的运动进行建模。基于这种直觉，我们提出了一种用于视频识别的双通道慢快模型（图11）。①的人。一种路径被设计为捕获可以由图像或少量稀疏帧给出的语义信息，并且其在低帧速率和慢刷新速度下操作。相反，另一路径负责通过以快速刷新速度和高时间分辨率操作来捕获快速尽管它的时间速率很高，但该路径被做得非常轻，占总计算量的20%。这是因为该路径被设计为具有较少的通道和较弱的处理空间信息的能力，而这样的信息可以由第一路径以较少冗余的方式提供。我们称第一个为慢路径，第二个为快路径，由它们不同的时间速度驱动两条通路通过侧向连接融合。预测6203我们的概念思想导致灵活有效的视频模型设计。快速路径由于其轻量级性质，不需要执行任何时间池-它可以在所有中间层的高帧速率上操作并保持时间保真度。同时，由于较低的时间速率，慢路径可以更专注于空间域和语义。通过在不同的时间速率处理原始视频，我们的方法允许两个路径有自己的视频建模专业知识。存在另一种用于视频识别的公知架构，其具有双流设计[44]，但是提供概念上不同的视角。双流法[44]没有探索不同时间速度的潜力，这是我们方法中的一个关键概念双流方法对两个流采用相同的主干结构，而我们的Fast路径更轻量级。我们的方法不计算光流，因此，我们的模型是从原始数据端到端学习的在我们的实验中，我们观察到慢快网络在经验上更有效。我们的方法部分受到灵长类视觉系统中视网膜神经节细胞的生物学研究的启发[27，37，8，14，51]，尽管不可否认的是，这种类比是粗糙和不成熟的。这些研究发现，在这些细胞中，约80%是小细胞（P细胞），约15-20%是大细胞（M细胞）。M单元以高时间频率操作，并且响应于快速时间变化，但对空间细节或颜色不P细胞提供精细的空间细节和颜色，但时间分辨率较低，对刺激反应我们的框架是类似的：（i）我们的模型有两个途径，分别工作在低和高的速度分辨率;（ii）我们的Fast途径被设计成捕获快速变化的运动但较少的空间细节，类似于M细胞;和（iii）我们的Fast途径是轻量级的，类似于小比例的M细胞。我们希望这些关系将激发更多的计算机视觉模型的视频识别。我们在Kinetics-400 [30]，Kinetics-600 [3]，Charades [43]和AVA [20]数据集上评估了我们的方法。我们对动力学动作分类的全面消融实验证明了慢快的有效性SlowFast网络在所有数据集上设置了一个新的国家的最先进的技术，与文献中以前的系统相比具有显著的增益。2. 相关工作时空滤波动作可以被表述为时空对象，并通过时空中的定向过滤来捕获，如HOG3D [31]和长方体[10]所做的那样。3D ConvNets [48，49，5]扩展2D图像模型[32，45，47，24]到时空域，类似地处理还有一些相关的方法专注于使用时间步长的长期滤波和池化[52，13，55，62]，以及将卷积分解为单独的2D空间和1D时间滤波器[12，50，61，39]。除了时空滤波或它们的可分离版本之外，我们的工作通过使用两种不同的时间速度来追求建模专业知识的更彻底分离用于视频识别的光流。有一个经典的研究分支集中在手工制作的基于光流的时空特征。这些方法，包括流量直方图[33]，运动边界直方图[6]和轨迹[53]，在深度学习流行之前已经显示出动作识别在深度神经网络的背景下，双流方法[44]通过将光流视为另一种输入模态来利用光流。该方法已成为文献[12，13，55]中许多竞争结果的基础然而，它是方法论上不令人满意的，因为光流是一个手工设计的表示，和双流的方法往往不是学习端到端的流动联合。3. 慢快网络慢快网络可以被描述为一个单一的流架构，在两个不同的帧速率，但我们使用的概念，途径，以反映与生物逻辑的细小和巨细胞对应的类比。我们的通用架构有一个慢路径（Slow pathway）。3.1）和快速路径（第3.2），它们通过横向连接融合到一个慢快网络（第3.2节）。3.3）。图1说明了我们的概念。3.1. 慢径慢路径可以是任何卷积模型（例如，[12，49，5，56]），其在视频剪辑上工作作为时空体积。我们的慢路径中的关键概念是输入帧上的大时间步幅τ，即，它只处理τ个帧中的一个帧。我们研究的τ的典型值是16-对于30-fps视频，该刷新速度大约是每秒采样2帧。将慢路径采样的帧数表示为T，原始剪辑长度为T×τ帧。3.2. 快径与慢路径并行，快路径是具有以下属性的另一卷积模型。高帧率。我们这里的目标是沿着时间维度有一个很好的表示。我们的快速路径以τ/α的小时间步长工作，其中α>1是快速路径和慢速路径之间的帧速率比。这两条路径对相同的原始剪辑进行操作，因此快速路径对αT帧进行采样，其密度是慢速路径的α倍。在我们的实验中，典型的值是α=8α的存在是慢快概念(Fig.1，时间轴）。它明确地表明，两个路径以不同的时间速度工作，因此驱动了两个实例化两个路径的两个机器人的专业知识。6204高时间分辨率特征。我们的Fast pathway不仅具有高输入分辨率，而且在整个网络层次结构中追求高分辨率功能。在我们的实例中，我们在整个Fast路径中不使用时间下采样层（既不使用时间池化也不使用时间跨越因此，我们的特征张量总是沿着时间维度具有αT帧，尽可能地保持时间保真度。通道容量低。我们的快速途径也与现有模型不同，因为它可以使用显著更低的信道容量来实现SlowFast模型的良好精度。这使得它变得轻巧。简而言之，我们的Fast途径是一个类似于Slow途径的卷积网络，但具有Slow途径的β（β<1）通道比例在我们的实验中，典型值为β=1/8请注意，公共层的计算（浮点运算或FLOP）通常是通道缩放比的二次函数。这就是为什么快速路径比慢速路径更有效的计算。在我们的实例化中，Fast路径通常占用总计算量的20%有趣的是，正如在第二节提到的。1，证据表明灵长类视觉系统中约15-20%的视网膜细胞是M细胞（对快速运动敏感，但对颜色或空间细节不敏感）。低信道容量也可以被解释为表示空间语义的能力较弱从技术上讲，我们的Fast途径在空间维度上没有特殊处理，因此其空间建模能力应该低于Slow途径，因为通道较少我们的模型的良好结果表明，这是一个理想的权衡快速路径，削弱其空间建模能力，同时加强其时间建模能力。受此解释的启发，我们还探索了不同的方法来削弱快速路径中的空间能力，包括降低输入空间分辨率和去除颜色信息。正如我们将通过实验所示，这些版本都可以提供良好的准确性，这表明具有较小空间容量的轻量级Fast途径可以是有益的。3.3. 侧向连接这两条通路的信息是融合的，因此一条通路不会不知道另一条通路学习到的表征我们通过横向连接来实现这一点，横向连接已用于融合基于光流的双流网络[12，13]。在图像对象检测中，横向连接[35]是一种用于合并不同级别的空间分辨率和语义的流行技术。与[12，35]类似，我们为每个“阶段”在两个路径之间连接一个横向连接（图12）。①的人。特别是对于ResNets [24]，这些连接就在pool1，res2，res3和res4之后。这两条通路具有不同的时间维度，因此横向连接执行一个阶段慢径快径输出尺寸T×S2原始剪辑--64×2242数据层步幅16，12步幅2，12慢速：4×2242快速：32×2242转换器11×72，64步幅1，225×72，8步幅1，22慢：4×1122快速：32×1122池11×32最大值步幅1，221×32最大值步幅1，22慢速：4×562快速：32×562Res21×12，641×32，64×31×12，2563×12，81×32，8×31×12，32慢速：4×562快速：32×562Res31×12，1281×32，128×41×12，5123×12，161×32，16×41×12，64慢速：4×282快速：32×282第4区3×12，2561×32，256×61×12，10243×12，321×32，32×61×12，128慢速：4×142快速：32×142res53×12，5121×32，512×31×12，20483×12，641×32，64×31×12，256慢速：4×72快速：32×72全球平均池，concate，fc#类6205表1. SlowFast网络的示例实例化。对于时间、空间和通道大小，内核的维度由{T×S2，C}步幅被表示为{时间步幅，空间步幅2}。这里，速度比为α= 8，信道比为β= 1/8。τ是16。对于快速路径，绿色标记较高的时间分辨率，橙色标记较少的通道。非退化时间滤波器被加下划线。剩余块由括号示出。主干是ResNet-50。转换以匹配它们（详见第第3.4段）。我们使用单向连接，将快路径的特征融合到慢路径中（图1）。①的人。我们已经进行了双向融合实验，并发现了类似的结果。最后，对每个路径的输出执行全局平均池化。然后将两个合并的特征向量连接起来作为全连接分类器层的输入3.4. 实例化我们对慢快的想法是通用的，它可以用不同的主干实例化（例如，[45，47，24]）和实施细节。在本小节中，我们描述了我们的网络架构的实例。表1中指定了示例SlowFast模型。我们用T×S2表示时空大小，其中T是时间长度，S是正方形空间作物的高度和宽度。下面描述细节慢路径。表 1 中的Slow通路是从[12]修改的时间跨越的3D ResNet。它具有T=4帧作为网络输入，从具有时间步长τ=16的64帧原始剪辑中稀疏采样我们选择在该实例化中不执行时间下采样，因为当输入步幅较大时，这样做将是有害的。与典型的C3 D/I3 D模型不同，我们仅在res4和res5中使用非退化时间卷积（时间内核大小>1，在表1中有下划线）;从conv1到res3的所有滤波器基本上都是该途径中的2D卷积内核。6206这是由我们的实验观察，使用时间卷积在较早的层降低精度的动机我们认为，这是因为当物体快速移动且时间步幅较大时，除非空间感受野足够大（即，在后面的层中）。快速通道。表1示出了具有α = 8和β = 1/8的快速路径的示例。它具有更高的时间分辨率（绿色）和更低的通道容量（橙色）。快速路径在每个块中具有非退化时间卷积这是由观察到的动机，该路径保持精细的时间分辨率的时间卷积，以捕获详细的运动。此外，快速路径根据设计不具有时间下采样层。横向连接。我们的横向连接从快路径融合到慢路径。它要求在融合之前匹配特征的尺寸。将慢路径的特征形状表示为{T，S2，C}，快路径的特征形状为{αT，S2，βC}。我们在横向连接中试验以下变换：(i) 通道时间：我们将{αT，S2，βC}重塑并转置为{T，S2，αβC}，这意味着我们将所有α帧打包到一个帧的通道中。(ii) 时间跨度采样：我们简单地从每个α帧中采样一个，因此{αT，S2，βC}变为{T，S2，βC}。(iii) 时间跨度卷积：我们执行具有2βC输出通道的5×12内核的3D卷积，并且跨度=α。横向连接的输出通过求和或级联融合到慢路径中。4. 实验：动作分类我们评估我们的方法，使用标准的评估协议的四个视频识别数据集。对于本节中介绍的动作分类实验，我们考虑了广泛使用的 Kinetics-400 [30] 、最近的Kinetics- 600 [3]和Charades [43]。对于Sec. 5，我们使用具有挑战性的AVA数据集[20]。训练我们的Kinetics模型是从随机初始化（我们按照[19]中的配方使用同步SGD训练。详见附录。对于时间域，我们从全长视频中随机采样一个剪辑（αT×τ帧），Slow和Fast路径的输入分别是T和αT帧;对于空间域，我们从视频或其水平翻转中随机裁剪224×224像素，其中短边随机采样[256，320]像素[45，56]。推理。按照惯例，我们统一采样10剪辑从视频沿其时间轴。对于每个片段，我们将较短的空间侧缩放到256像素，并采取3个256×256的裁剪来覆盖空间维度，作为完全卷积测试的近似值，遵循[ 56 ]的代码。我们对softmax得分进行平均以进行预测。我们报告的实际推理时间计算。由于现有的论文在空间和时间上的裁剪/裁剪的推理策略不同。当与以前的工作相比，我们报告的FLOPs每时空“视图回想一下，在我们的例子中，推理时间空间大小是2562（而不是训练的2242），使用了10个时间片段，每个片段有3个空间裁剪（30个视图）。数据集。Kinetics-400 [30]包括400个人类动作类别的240k训练视频和20 k验证视频。Kinetics-600 [3]在600个课程中有392 k的培训视频和30 k的验证视频。我们报告了前1名和前5名分类准确度（%）。我们报告的计算成本（FLOPs）的一个单一的，空间中心裁剪剪辑。Charades [43]在157个类中有1.98k个训练视频和1.8k个验证视频，这些视频是多标签分类设置的，平均跨度为1.30秒性能以平均精度（mAP）来衡量4.1. 主要结果动力学-400 表2显示了使用各种输入采样（T×τ）和主干的SlowFast实例化的最新结果的比较：ResNet-50/101（R50/101）[24]和Nonlocal（NL）[56]。与之前的最新技术[56]相比，我们的最佳模型提供了2.1%的top-1准确度。值得注意的是，我们所有的结果都比没有ImageNet预训练的现有结果要好得多。特别是，我们的模型（ 79.8% ）比以前的最佳结果（73.9%）绝对好5.9%我们已经对SlowFast网络进行了ImageNet预训练实验，发现它们对预训练和从头开始训练（随机初始化）变体的表现相似（±0.3%）。我们的结果是在低推理时间成本。我们注意到，许多现有的作品（如果报告）使用沿时间轴的剪辑的非常密集的采样，这可能导致在推理时间>100视图。这一成本在很大程度上被忽视了。相比之下，我们的方法不需要许多时间剪辑，由于高时间分辨率，但轻量级快速途径。我们每个时空视图的成本可以很低（例如，36.1 GFLOPs），同时仍然是准确的。图2中比较了表2中的慢快变体（具有不同的骨干和采样率）2与其相应的仅慢速途径进行比较，以评估快速途径带来的水平轴测量2562空间大小的单个输入剪辑的模型容量，其与整体推理成本的1/6207模型预训练top-1 top-5 GFLOPs×视图I3D [3]-71.990.1108 ×N/AStNet-IRv2 RGB [21]ImgNet+Kin400 79.0N/AN/A慢快4×16，R50-78.894.036.1 ×30慢快8×8，R50-79.994.565.7×30慢速快速8×8，R101-80.494.8106 ×30慢快16×8，R101-81.195.1213 ×30慢快16×8，R101+NL-81.895.1234 ×30表3. 与Kinetics-600上的最新技术进行比较。SlowFast型号与表2中相同。表2. 与Kinetics-400上的最新技术进行比较。在最后一列中，我们报告了使用单个“视图”（具有空间裁剪的时间剪辑）的推理成本×所SlowFast模型具有不同的输入采样（T×τ）和主干（R-50、R-101、NL）。“N/A” indicates the numbers are notavailable for7876747270表4. 与最先进的字谜游戏进行比较。我们所有的变体都基于T×τ=16×8，R-101。单模式、单模态准确率为79.0%。我们的变体表现出良好的性能，最好的模型为81.8%。最近Kinetics-700 [4]的SlowFast结果见[11]。Charades[43]是一个具有较长范围活动的数据集。表4显示了我们在它上面的慢快结果。为了公平比较，我们的基线是具有39.0 mAP的仅慢速对应物。SlowFast在此基线上增加3.1 mAP（至42.1），而额外的NL导致额外的0.4 mAP。在Kinetics-600上进行预训练时，我们总的来说，我们在表4中的SlowFast模型以较低的成本以稳固的利润率超过了之前的最佳数字（STRG [574.2. 消融实验25 5075100 125 150 175 200本节提供了Kinetics-400的消融研究空间大小为2562的单个剪辑的GFLOP模型容量图2.在Kinetics-400上进行精度/复杂性权衡，慢快（绿色）与仅慢速（蓝色）架构。在所有情况下，“慢快”始终优于仅“慢”的对应项（绿色箭头）。与时间上繁重的仅慢速（例如，红色箭头）。计算复杂度为2562个视点，精度为30个视点.图2表明，对于所有变体，快速途径能够以相对低的成本一致地提高慢速计数器部分的性能下一小节将对Kinetics-400进行更详细的分析。Kinetics-600相对较新，现有结果有限。因此，我们的目标主要是在表3中提供结果以供将来参考。请注意，Kinetics-600验证集与Kinetics-400训练集[3]重叠，因此我们不会在Kinetics-400上进行预训练最新ActivityNetChallenge 2018 [15]的获奖作品[21]报告了一个最好的比较准确度和计算复杂度。慢vs。慢快。我们首先旨在通过改变Slow途径的采样率（T×τ）来因此，本次消融研究α，即快速和慢速路径之间的帧率比图2显示了准确度vs.Slow和SlowFast模型的各种实例化的复杂性权衡可以看出，使慢路径中的帧的数量加倍以双倍计算成本（水平轴）增加性能（垂直轴），而慢快以较小的计算成本增加显著地扩展了所有变体的性能，即使慢路径在更高的帧速率上操作绿色箭头说明了将快速途径添加到相应的仅慢速体系结构的增益。红色箭头表示，SlowFast提供了更高的精度和更低的成本。接下来，表5显示了快速路径设计上的一系列消融，使用默认的慢快速，T×τ=4×16，R-50实例化（表1中规定），依次分析+1.7+2.016×8，R101+3.4+2.18×8，R101+3.08×8，R504×16，R101+3.34×16，R50慢快仅慢速2×32，R50动力学前1位准确度（%）模型流预训练top-1 top-5 GFLOPs×视图I3D [5]ImageNet 72.190.3108 ×N/A双码流I3D [5]CImageNet 75.792.0216 ×N/AS3D-G [61]CImageNet 77.293.0143 ×N/A[56]第五十六话ImageNet 76.592.6282 ×30非本地R101 [56]ImageNet 77.793.3359 ×30R（2+1）D流[50]C-67.587.2152 ×115STC [9]-68.788.5 不适用×不适用ARTNet [54]-69.288.323.5 ×250S3D [61]-69.489.166.4 ×N/A电子邮件[63]-70.089.4 不适用×不适用I3D [5]C-71.690.0216 ×N/A（2+1）D [50]-72.090.0152 ×115（2+1）D [50]C-73.990.9304 ×115慢快4×16，R50-75.692.136.1 ×30慢快8×8，R50-77.092.665.7 ×30慢速快速8×8，R101-77.993.2106 ×30慢快16×8，R101-78.993.5213 ×30慢快16×8，R101+NL-79.893.9234 ×30模型预训练地图GFLOPs×视图[59]第五十九章：一个女人ImageNet21.9N/AAsyn-TF，VGG16 [42]ImageNet22.4N/A[62]第六十二话ImageNet25.2N/A非本地，R101 [56]ImageNet+Kinetics40037.5544 ×30STRG，R101+NL [57]ImageNet+Kinetics40039.7630 ×30我们的基准（仅限慢速）动力学-40039.0187 ×30慢快动力学-40042.1213 ×30慢速快速，+NL动力学-40042.5234 ×306208横向top-1top-5 GFLOPS仅慢速仅限快速--72.651.790.378.527.36.4慢快慢快慢快-TtoC，TtoC总和，浓度T样本T-conv73.574.574.375.475.690.391.391.091.892.134.234.239.834.936.1top-1top-5 GFLOPS仅慢速72.690.327.3β= 1/ 475.691.754.5六分之一75.892.041.81/ 875.692.136.11/ 1275.291.832.81/ 1675.191.730.6三十二分之一74.291.328.6快径空间top-1top-5GFLOPSRGB-75.692.136.1RGB，β=1/4一半74.791.834.4灰度-75.591.934.1的时差-74.591.634.2(a) 慢快融合：在整个网络层次结构中融合慢和快路径与各种类型的横向连接始终优于仅慢和快基线。(b) 通道容量比：改变β值，快速路径的通道容量比，使SlowFast轻量级。(c) 快速路径的较弱空间输入：在慢快模型中减弱快速路径的空间输入的改变方法。除非另有说明，否则β=1/8表5. Kinetics-400上Fast通路设计的消融。我们展示了前1名和前5名的分类精度（%），以及GFLOPs（浮点运算，乘加数×109）为空间大小为256 2的单个剪辑输入测量的计算复杂度。推理时间计算成本与此成比例，因为使用固定数量的30个视图。主干：4×16，R-50。个别路径。表5a中的前两行显示了单独使用一个单独途径的结构的结果。慢路径和快路径的默认实例化是非常轻量级的，仅具有27.3和6.4GFLOP、32.4M和0.53M参数，分别产生72.6%和51.7%的top-1准确度。如果这些通路被联合使用，则它们被设计成具有它们的特殊专业知识，如接下来被消融的。慢快融合。表5a显示了融合慢速和快速途径的各种方法。作为初次融合基线，我们展示了一种不使用外侧连接的变体：它仅连接两个路径的最终输出。该变体的准确率为73.5%，比Slow的对应版本略高0.9%。接下来，我们消融具有各种横向连接的SlowFast模型：时间到通道（TtoC），时间跨越采样（T-sample）和时间跨越卷积（T-conv）。对于TtoC，它可以匹配通道尺寸，我们还报告了通过逐元素求和（TtoC，sum）的融合。对于所有其他变体，采用串联进行融合。表5a示出了这些慢快模型都比仅慢路径更好。使用性能最好的横向连接T-conv，SlowFast网络为3.0%比慢更好。我们使用T-conv作为默认值。有趣的是，仅快速途径只有51.7%的ac-精确度（表5a）。但它带来了高达3.0%的改善慢途径，表明基础的代表性建模的快速途径是在很大程度上互补。我们通过下一组消融来加强这一观察快速通路的通道容量。设计快速路径的关键直觉是，它可以采用较低的通道容量来捕获运动，而无需构建详细的空间表示。这是由表6. 从头开始训练的基线：使用与[56]相同的网络结构，我们的训练配方在没有ImageNet预训练的情况下实现了相当的结果。快速通路的空间输入较弱。此外，我们在我们的SlowFast模型中对Fast通路使用不同的较弱我们考虑：（i）半空间分辨率（112×112），β=1/4（vs.默认值1/8）大致保持FLOP;（ii）灰度级输入帧;(iii)通过将当前帧与先前帧相减来计算的“表5c显示所有这些变体都是有竞争力的，并且优于仅慢速基线。特别是，快速路径的灰度版本几乎与RGB变体一样好，但将FLOP降低了5%。有趣的是，这也与M细胞对颜色不敏感的行为一致我们相信表5b和表5c都令人信服地表明，轻量级但时间上高分辨率的快速路径是视频识别的有效组件。从头开始训练。我们的模型是从头开始训练的，没有ImageNet训练。为了进行公平的比较，从头开始检查培训的潜在影响（积极或消极）是有帮助的。为此，我们训练了[56]中指定的完全相同的3D ResNet-50架构，使用我们从头开始训练的大规模SGD配方。表6示出了使用该3D R-50基础的比较通道比β。表5b示出了改变β的影响。性能最好的β值是1/6和1/8（我们的缺陷）。然而，令人惊讶的是，在我们的SlowFast模型中，从β=1/32到1/4的所有值都可以优于仅慢速的对应值。特别地，在 β=1/32 的情况下， Fast 途径仅增加小至1.3GFLOP（相对〜5%），但导致1.6%的改善。线架构我们观察到，我们的训练配方达到了与[56]报告的ImageNet预训练对应物相当好的结果，而[56]不适合直接从头开始训练这表明我们的训练系统作为我们实验的基础，尽管没有使用ImageNet进行预训练，但对于这个基线模型没有损失模型预训练 top-1 top-5 GFLOPs3D R-50 [56] ImageNet 73.4 90.9 36.73D R-50，配方见[56]-69.4 88.6 36.73D R-50，我们的配方-73.5 90.8 36.762095. 实验：AVA动作检测数据集。AVA数据集[20]专注于人类行为的时空定位。数据来自437部电影。为每秒一帧提供时空标签，每个人都用边界框和（可能多个）动作注释。请注意，AVA的困难在于动作检测，而演员定位不那么具有挑战性[20]。我们使用的AVA v2.1中有211k个训练视频片段和57k个我们遵循标准协议[20]，对60个类别进行评估（见图（3）第三章。性能度量是60个类别上的平均平均精度（mAP），使用帧级IoU阈值0.5。检测体系结构。我们的检测器类似于Faster R-CNN[40]，只对视频进行了最小的修改。我们使用SlowFast网络或其变体作为主干。我们将res5的空间步幅设置为1（而不是2），并对其过滤器使用2的伸缩。这将res 5的空间分辨率提高了 2 倍。我们提取感兴趣区域（ROI）模型流视频预训练val mAP测试映射I3D [20]动力学-40014.5-I3D [20]C动力学-40015.6-[46]第四十六话C动力学-40017.4-ATR、R50+NL [29]动力学-40020.0-ATR、R50+NL [29]C动力学-40021.7-9-模型集成[29]C动力学-40025.621.1I3D [16]Kinetics-60021.921.0慢快动力学-40026.3-慢快Kinetics-60026.8-慢速快速，+NLKinetics-60027.327.1慢速快速*，+NLKinetics-60028.2-表7. 与AVA v2.1的最新技术水平进行比较。我们所有的变体都基于T×τ=8×8，R101。这里的模型慢速快速，8×8慢速快速，16×8慢快++，16×8SlowFast++，集成流视频预训练值测试Kinetics-600动力学 -600动力学 -600动力学-60029.029.830.7----34.3表8. AVA v2.2上的SlowFast模型。这里的[17]在第5卷的最后一张特征图上。我们首先扩展通过沿时间轴复制帧处的每个2D RoI，将其转换为3DRoI，类似于[20]中提出的方法。随后，我们通过RoIAlign [22]在空间上计算RoI特征，并在时间上计算全局平均池化。RoI特征然后被最大池化并馈送到每类的基于S形的分类器以用于多标签预测。我们遵循以前的作品，使用预先计算的pro-boundary[20，46，29]。我们的区域建议是计算的通过现成的人员检测器，即，其不与动作检测模型联合训练。我们采用用Detectron训练的人员检测模型[18]。它是一个更快的R-CNN，具有ResNeXt-101-FPN [60，35]主干。它在ImageNet和COCO人类关键点图像上进行了预训练[36]。我们在AVA上微调这个检测器用于人（演员）检测。人员检测器在AVA验证集上产生93.9然后，用于动作检测的区域建议被检测到具有>0.8的置信度的人框，其对于人类具有91.1%的召回率和90.7%的准确率。训练我们从Kinetics-400分类模型初始化网络权重。我们使用逐步学习率，当验证错误饱和时，将学习率降低10倍我们训练了14k次迭代（68个epoch用于211k数据），前1k次迭代采用线性预热[19我们使用10−7的权重衰减。所有其他超参数与“动力学”实验中的相同。地面实况框被用作用于训练的样本。输入是大小为224×224的实例化特定的αT×τ帧。推理。我们在单个剪辑上执行推断，其中αT×τ帧围绕要评估的帧。我们调整空间维度的大小，使其短边为256像素。主干特征提取器完全卷积地计算，如在标准Faster R-CNN [40]中。6210翻转增强骨干为R-101+NL，区域提案用于训练。5.1. 主要结果我们在表7中与先前AVA的结果进行了比较。一个有趣的观察是关于使用光流的潜在益处（参见表7中的列现有工程有轻微改善： [ 20 ] 中的 I3D 为+1.1mAP，[ 29 ]中的ATR为+1.7mAP。相比之下，我们的基线通过快速途径提高了+5.2 mAP（参见下一节中我们的消融实验中的表9此外，使用光流的双流方法可以使计算成本加倍，而我们的Fast途径是轻量级的。作为系统级比较，我们的慢快模型具有26.3仅使用Kinetics-400预训练的mAP。这比类似设置下的先前最佳数值（ATR [29]的21.7，单型号）高5.6mAP，比不使用光流的数值高7.3mAP（表7）。[16]中的工作在较大的Kinetics-600上进行了预训练，并达到了21.9 mAP。为了公平比较，我们观察到使用Kinetics-600的从26.3mAP改善到26.8mAP。使用NL块[56]增强SlowFast将其增加到27.3mAP。我们在train+val上训练这个模型（并延长1.5倍），并将其提交给AVA v2.1测试服务器[34]。它达到了27.1mAP的单作物测试集精度。通过使用与地面重叠的预测建议除了地面真值框外，对于训练，我们还实现了28.2mAP的单作物验证精度，这是AVA的最新技术水平。使用AVA v2.2数据集（提供更一致的注释）将该数值提高至29.0 mAP（表8）。长期的慢快，16×8模型产生29.8 mAP和使用多个空间尺度和水平翻转测试，这个数字增加到30.7 mAP。6211n80706050403020100图3.AVA的每类AP：仅缓慢基线（19.0 mAP）vs.其慢速对应物（24.2 mAP）。突出显示的类别是5个最高绝对增加（黑色）或5个最高相对增加，仅慢速AP> 1.0（橙色）。类别按示例数量排序请注意，该消融中的SlowFast实例化不是我们的最佳性能模型。模型T×τ αmAP仅慢速，R-50 4×16 - 19.0慢快，R-50 4×16 824.2表9.AVA动作检测基线：仅慢速与慢快。最后，我们创建了一个7个模型的集合，并将其提交给官方测试服务器，以参加ActivityNet挑战2019 [1]。如表8所示，该条目（SlowFast++，集合）在测试集上实现了34.3 mAP准确度，在2019年AVA动作检测挑战有关我们获奖解决方案的更多详细信息，请参见相应的技术报告[11]。5.2. 消融实验表9比较了仅慢速基线与其慢速基线对应物，图1中示出的每类别3 .第三章。我们的方法大大提高了5.2mAP（相对28%），19.0到24.2这完全是由我们的SlowFast想法所促成的分类（Fig.3），我们的SlowFast模型改进了A. 附录实作详细数据。我们研究了包括ResNet-50和更深的ResNet-101 [24]在内的主干，可选地增加了非本地（NL）块[56]。对于涉及R-101的模型，我们使用[256，340]的刻度抖动范围。 T×τ=16×8的模型由8×8的样本初始化，训练时间为训练时间的一半。对于所有涉及NL的模型，我们使用未经NL训练的对应模型对其进行初始化，以促进收敛。我们只在res4的（融合）Slow 特性上使用 NL （而不是res3 +res4[56]）。在Kinetics上，我们按照[19]中的配方在128个GPU中采用同步SGD训练小批量大小是每个GPU 8个剪辑（因此总的小批量大小是1024）。我们使用[23]中的初始化方法。我们使用批量归一化（BN）[28]进行训练，其中BN统计在每8个剪辑中计算我们采用学习率衰减的半周期余弦时间表[38]：第n次迭代的学习率为60个类别中的57个，vs.只有缓慢的对应。的η·0。5[cos（nMax π）+1]，其中nmax是最大训练最大的绝对收益是“AP），“我们还观察到“跳/跳”、“挥手”、“放下”、“扔”、“击中”或“切”的相对增加在这些类别中，建模动力学至关重要。慢快模式只在3个方面更糟糕：“接电话”（-0.1 AP）、“说谎/睡觉”（-0.2 AP）、“射击”（-0.4 AP），它们的下降相对较小。其他人6. 结论时间轴是一个特殊的维度。本文研究了一种沿此轴线对比速度的架构设计。它实现了国家的最先进的视频动作分类和检测的准确性。我们希望这种SlowFast的概念将促进视频识别的进一步研究。迭代，并且基本学习速率η被设置为1.6。我们也在前8

下载后可阅读完整内容，剩余1页未读，立即下载