选择性特征压缩提高动作识别模型推理效率

133 浏览量更新于2023-10-13 收藏 19.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

✕✓✕RunningCatching FrisbeeJumping into water(1)(2)(3)(4)(5)(6)(7)(8)✕✓✕(1 2 3 4) + (3 4 5 6) +(5 6 7 8)✕✓✕(1)(2)(3)(4)(5)(6)(7)(8)(3)(4)(5)(6)3D Model3D ModelFigure 1: With fast motion, uniform sampling (row 1, left) is notguaranteed to precisely locate the key region. Consequently, anaction model that uses it can be distracted by noise and can failto recognize the correct action. Instead, dense sampling (row 1,right) looks at all the possible regions and can precisely locatethe action and ignore noisy regions via voting. While accurate,dense sampling is however very inefficient. We propose SFC (row2) to avoid sampling and instead it looks at the whole video andcompresses its features into a representation that is smaller andadequate for action recognition.136280高效的活动识别推理的选择性特征压缩0刘春晖*†，李新宇*，陈浩，Davide Modolo，JosephTighe亚马逊网络服务0{chunhliu, xxnl, hxen, dmodolo, tighej}@amazon.com0摘要0大多数动作识别解决方案依赖于密集采样来精确覆盖信息丰富的时间片段。在实际应用中，广泛搜索时间区域是昂贵的。在这项工作中，我们专注于提高当前动作识别骨干网络在修剪视频上的推理效率，并且通过学习丢弃非信息化特征，证明了一个动作模型可以通过对视频进行单次遍历来准确分类动作，而不是像SOTA那样进行多次采样。我们提出了选择性特征压缩（SFC），一种动作识别推理策略，它大大提高了模型的推理效率，而不会影响准确性。与之前压缩核大小和减小通道维度的方法不同，我们提出了在时空维度上压缩特征，而无需改变骨干参数。我们在Kinetics-400、UCF101和ActivityNet上进行了实验，结果显示，与常用的30个裁剪密集采样过程相比，SFC能够将推理速度降低6-7倍，内存使用量降低5-6倍，同时稍微提高Top1准确率。我们进行了全面的定量和定性评估，并展示了我们的SFC如何学习关注于动作识别任务中重要的视频区域。01. 引言0近年来，基于3D CNN的动作识别取得了显著进展[2, 4, 5,18, 20, 22-24,28-30]，这要归功于它们能够隐式地模拟运动信息和语义信号。然而，这些流行的3D模型需要大量的GPU内存，因此无法处理长视频序列。相反，它们采样0.2-4秒的短视频片段，并独立地对每个片段进行动作标签分类。最后，它们将所有片段的结果汇总在一起生成最终的视频级预测。如何采样这些片段在这些模型中起着关键作用，有几种技术已经被提出0* 相等贡献† 在亚马逊工作，目前在快手科技0飞盘0奔跑0得分0类别0均匀采样：（1 2 34）+（5 6 7 8）0飞盘0奔跑0得分0类别0密集采样：0SFC：0整个片段0得分0类别0选择0关键特征0中0住飞盘0奔跑0已经提出了几种解决方案（图1，表1）。其中，密集采样被认为是最佳解决方案，并且几乎在所有动作识别模型中都得到了应用。密集采样以时间滑动窗口的方式工作，它过度采样了重叠的片段，确保不会丢失任何信息，并且可以在窗口内精确定位动作。虽然这种方法可以达到最佳性能，但效率非常低下，因为许多采样的片段彼此之间高度相关（冗余）或对视频的分类预测没有信息（不相关）。最近，SCSampler [12]和MARL[29]提出了学习选择一小部分相关片段来减少这种密集预测问题。虽然它们取得了非常有希望的结果，但它们的136290硬选择机制可能会忽略有用的信息，特别是对于具有复杂动作的视频。在本文中，我们提出了一种通过特征压缩来消除密集采样需求的新技术。我们称之为选择性特征压缩（SFC）。SFC通过压缩长视频序列（长达两分钟）的丰富信息，将其帧压缩成一个更小的表示，然后由一个更昂贵的3D网络进行分析，预测相应的视频动作标签（图1）。这种方法在推理速度上取得了显著的改进，而不会降低准确性。具体而言，我们提出将预训练的动作网络分为两个子网络（头部和尾部），并将我们的SFC放置在它们之间。我们的SFC使用基于注意力机制的方法，沿着时间维度压缩头部网络的内部时空表示，学习整个视频序列中的全局特征相关性。这个压缩表示传递给尾部网络，它现在在一个更小的输入上运行。这种设计带来了额外的好处，即不需要重新训练动作网络，因为SFC可以独立快速地进行微调。此外，SFC在推理和性能之间提供了一个良好的折衷方案，可以根据需要进行简单调整（例如，对于快速的实际应用，我们可以更积极地进行压缩，以换取一些性能）。为了验证SFC的有效性，我们在流行的Kinetics400数据集[2]和UCF101[21]数据集上进行了广泛的分析。我们的结果表明，SFC适用于各种主干网络和不同的预训练。SFC保持了密集采样（30个裁剪）的相同top-1准确性，同时将推理吞吐量提高了6-7倍，内存使用量减少了6倍。虽然我们设计SFC来替代短视频上的密集采样策略，但我们还研究了它在更长的未修剪内容上的适用性。我们在ActivityNet[3]数据集上展示了SFC可以与均匀采样结合使用，并改善性能和运行时间。最后，我们展示了一种视觉分析，展示了SFC在特征压缩过程中如何聚焦于视频的信息部分。02. 相关工作0如前一节介绍的那样，采样在动作识别中起着关键作用（表1）。早期的视频分类模型是在单个帧上训练的，而不是视频剪辑上。稀疏采样帧[10]均匀或在基于片段的剪辑内[27]被广泛使用。虽然高效，但稀疏帧采样在3D网络[2, 20,22-24,30]上效果不佳，因为它破坏了这些3D模型所需的时间连续性。运行3D网络的最直观的方法是将整个视频作为输入，并进行完全卷积推理。0方法准确性内存延迟泛化性0稀疏采样中等低低高0完全卷积中等中等低高0密集采样高高高高0核压缩中等中等中等低0输入采样高中等中等高0本文：SFC 高低低高0表1：不同推理策略的比较。我们的SFC模块试图在所有这些方面改进动作识别推理。0传统的推理方法[8, 16, 26,32]是完全卷积推理。然而，对于长视频来说，完全卷积推理的内存需求远远超过了现代GPU的能力[5,28]。受图像分类的启发，多裁剪密集采样推理[28]通过对视频裁剪集进行完全卷积推理，提高了准确性并减少了每次迭代的内存需求。虽然这个过程仍然是最广泛使用的方法之一[4, 5, 13, 14, 17, 28,31]，但在视频层面上，内存消耗和计算复杂度却大大增加了。0尽管有关高效推理的研究仍然有限，但它开始引起更多关注。一种典型的推理加速策略是使用核压缩来减少网络一次传递所需的总计算量。其他一些方法通过提炼高效的卷积核[34]或使用2D卷积进行时空建模[1，15]来减少计算量。然而，这些特殊定制模块需要完全重新训练骨干网络的权重，使它们难以推广并从模型设计和数据的最新进展中受益。与这些方法不同，SFC不需要操作骨干网络的权重，而且更简单。此外，需要注意的是，核压缩方法仍然采用重复裁剪推理，并且可以从本文使用SFC进行单次推理的新方法中受益。0根据用于其他视频任务的输入采样的思想[7，9，19，33]，提高推理速度的另一种方法是在输入视频上应用策略性的输入采样。例如，[29]使用轻量级网络对几帧进行采样，[12]使用它对子剪辑进行采样，实现了约2倍的加速并保持准确性。然而，这些方法涉及两阶段的训练，包括通过强化学习或神经网络设计学习选择网络。添加的选择网络会带来额外的计算，限制了效率和内存的改进。我们的SFC与这些方法的核心思想相同，即通过选择相关的视频信息来改善推理，但它是在特征级别上实现的。……qM𝑇𝜏 , 𝑇𝐶, 𝑇, 𝑊, 𝐻𝐶, 𝑇, 𝑊2 , 𝐻2𝐶, 𝑇𝜏 , 𝑊2 , 𝐻2𝐶, 𝑇, 𝑊2 , 𝐻2𝑇, 𝐶𝑊𝐻4𝐶, 𝑇𝜏 , 𝑊2 , 𝐻2𝑇𝜏 , 𝐶𝑊𝐻4Γ𝑇, 𝐶𝑊𝐻𝑇𝜏 , 𝐶𝑊𝐻Γ!"𝐶, 𝑇𝜏 , 𝑊, 𝐻𝐶, 𝑇, 2 , 2𝐶, 𝑇, 𝑊, 𝐻136300� ×�′′×�′′ 3×�×�×�0后期融合0一次预测01 ×�× � ×�′×�′ 1 ×�× �0� ×�′×�′ 1 ×�′× �0� ×�′′×�′′0长视频块03×�×�×�0长视频块0密集0采样0I3D头部0I3D尾部0I3D头部0选择性特征0压缩0I3D尾部0（a）密集采样0（b）特征压缩0图2：密集采样推理与我们的SFC过程。SFC不是在多个裁剪上运行推理并（晚期）融合它们的预测，而是在整个视频序列上运行一次推理。此外，SFC放置在动作识别网络内部，因此它可以压缩I3D头部的输出并减少I3D尾部的推理时间。03.通过特征压缩学会观察0大多数最先进的动作识别方法[2，020，22-24，30]在从长训练视频中随机采样的短视频裁剪上进行训练。在推理过程中，它们对测试视频进行密集采样，将其分成多个裁剪（例如，对于Kinetics，30[4，5，28]和10[12]），在每个裁剪上进行推理，并将它们的预测平均为视频级输出（图2顶部）。尽管这些方法已经成功地实现了出色的动作识别性能，但它们缺乏推理效率。相反，我们提出了一种高效的解决方案，它不需要密集采样，并通过压缩其特征来减少3D骨干网络的推理时间（图2底部）。我们的方法通过将预训练的3D网络编码器分成两个组件，头部和尾部，然后在头部和尾部网络之间插入我们的新型选择性特征压缩模块来实现。我们设计SFC的目标是：（i）在特征级别直接去除冗余信息并保留视频的有用部分，（ii）通过压缩特征来减少尾部网络的推理计算。形式上，给定输入视频V，我们的方法如下预测活动标签a：0a = Θ tail(Φ(Θ head(V))), (1)0其中 Θ head 和 Θ tail 分别表示解耦的头部和尾部组件，Φ表示我们的 SFC。特征压缩操作通过使用原始动作标签 Y的交叉熵损失来学习：0min Φ L CE(Y; Θ tail(Φ(Θ head(V))))(2)0我们将在下一节（第3.1节）中介绍我们的 SFC模块的设计。03D 主干网络0头部03D 主干网络0尾部0选择性特征0压缩0Conv3D θq (3×1×1)0Conv3D θk (3×1×1)0F head0TopK池化0×0×0SFC 模块0v0k0Γ0Γ0抽象0层0F abs0重塑函数0乘法数据流0图3：选择性特征压缩设计。我们提出的设计能够建模特征之间的远距离交互，并更好地发现最具信息量的视频区域。03.1. 选择性特征压缩0我们的解决方案受到了自注意机制[25,28]的启发，因为它可以直接建模特征之间的远距离交互，自动发现需要关注的内容，或者在我们的情况下，需要压缩的内容。然而，与原始的自注意力公式不同，原始公式接受长度为 n的输入序列，并输出相同长度的序列[28]，我们希望 SFC返回一个长度为 n/τ的较短（压缩的）序列，与冻结的尾部兼容。为了满足这些要求，我们将 SFC 建模如图3所示。形式上，给定TopK Pooling. We use pooling to downsample the featuresof the query q from T to T/τ in the temporal dimension.This ensures that the output of SFC is a compressedvector.Instead of using average/max pooling whichcompress locally within a small window, we proposeto use TopK pooling to allow the compression to selectfeatures that are temporally consecutive. Given the featureCTWH136310由头部子网络 F head = Θ head(V) 生成的特征，我们将SFC 形式化为：0Φ = SFC(k = q = F abs, v = F head)(3)0= M ∙ v, (4)0M = softmax(θ q(pool(q))T ∙ θ k(k))，(5)0其中 θ k 和 θ q 是实现为 (3×1×1) 的线性变换的 3D卷积核，pool 是我们的 TopK 池化模块，F abs = Θ abs(Fhead) 是使用我们的抽象网络重新编码的头部特征，M是注意力图（注意：为简洁起见，我们在方程中省略了重塑函数Γ，但在图3中包含它）。尽管这看起来类似于经典的自注意力/非局部块，如 A(k = q = v = F head) = M ∙ θv(v)，其中 M = softmax(θ q(q)T ∙ θ k(k))，但我们的 SFC设计用于不同的目的，并在以下关键方面与之不同，这些关键方面对于我们方法的有效性至关重要。我们在第5节进行了消融研究。0以显示这些细节对于高性能至关重要。0抽象层 Θ abs。Θ head 用于动作分类训练，因此 F head捕捉了对于该任务重要的信息，如运动模式和对象/位置语义。然而，我们认为这些信息对于特征压缩来说并不是最优的，因此我们引入了一个抽象模块，使用两个 ResNet块重新编码 q 和k。这将特征从低级运动模式转换为更有意义的压缩表示（Fabs）。最后，注意我们只使用这一层重新编码 k 和q，因为我们希望（i）将其专门用于压缩，并且（ii）保留 v的特征以与 Θ tail 兼容。0τ × W × H 包含时间 T 内最高激活特征的顶部 T/τ 。0值 v。除了不使用 Θ abs 重新编码 v 外，我们还避免使用 θv 对 v 进行变换，因为这也可能破坏与 Θ head的兼容性。相反，我们训练 SFC 直接使用注意力图 M（eq.4）关注 v。04. 实验设置0骨干网络。为了测试SFC的泛化能力，我们将其插入一些最流行的活动识别中。0骨干网络：仅Slow I3D-50 [5]，TPN-50[31]和R(2+1)D-152 [24]。对于仅SlowI3D，我们尝试了三个采样率：2、4和8，输入长度分别为32、16和8。对于仅SlowI3D和TPN，我们使用[31]中公开发布的预训练模型，其中仅Slow 16 × 4的效果略好于32 ×2。对于R(2+1)D-152，我们使用在IG-65M上预训练并在[6]中发布的模型。基线。对于密集采样，我们遵循文献[5,28]，在时间上均匀裁剪10个剪辑，在空间上裁剪3个剪辑，总共30个裁剪。请注意，Slow-Only网络的数字与[5]略有不同。这是由于Kinetics数据集中视频的细微变化，因为其中一些视频已从YouTube中删除。0实现细节。我们从预训练的3D骨干网络开始，并将其分为头部和尾部（使用残差块3作为切割点）。我们冻结头部和尾部的权重（包括BN）并在它们之间插入我们的SFC。在训练过程中，我们为SFC和尾部生成梯度，但只更新SFC的权重。我们使用与训练原始骨干网络相同的数据增强和超参数，但将整个视频作为输入而不是短剪辑。对于训练，我们仅使用32个Tesla V100GPU进行15个时期，因为SFC是轻量级的且收敛速度快。我们将初始学习率设置为0.01，并在第8个时期和第12个时期将其降低10倍。我们使用带有权重衰减设置为1e-5和动量设置为0.9的SGD优化器。为了避免过拟合，我们应用了几种数据增强，如外部缩放、裁剪（224 ×273）和水平翻转。在推理过程中，我们将每个视频调整为256 × 312。0数据集。我们在三个流行的动作识别数据集上展示结果：Kinetics 400 [2]，UCF101 [21]和ActivityNet [3]。Kinetics400包含约240k个训练视频和20k个修剪为10秒并标注有400个人类动作类别的验证视频。UCF101是一个较小的数据集，包含13k个标注有101个动作类别的视频。ActivityNet（v1.3）[3]是一个未修剪的数据集，包含19k个视频，其中许多视频很长（5到20分钟），有200个动作类别。我们报告验证集上的结果，因为测试标签不公开。0评估指标。为了全面评估SFC的实际使用效果，我们使用以下指标：01.精度。我们报告Top1和Top5分类准确率来评估动作识别性能。02.FLOPS。我们报告每秒浮点运算次数来评估推理运行时间。请注意，我们将其计算在一个视频上，而许多先前的工作则不是这样。Evaluating different backbones. We equip several popularaction recognition backbones with SFC and evaluate theiraccuracy, inference efficiency and memory usage comparedon Kinetics-400. We then compare their results to thoseobtained by the popular 30 crops dense sampling (table 2figure 4). Results show that SFC generalizes well to dif-ferent backbones, with different sampling rates (rows 1-3,using 8 × 8, 16 × 4 and 32 × 2), different backbone designs(rows 1, 4, 5, as SlowOnly, TPN, R(2+1)D) and differentdata pre-training (row 5, as uing IG-65M [6]). In generalwe observe that SFC improves the video-level inference ef-ficiency by 6 − 7× of dense sampling, without losing anyperformance. We argue that this is thanks to SFC ’s abil-ity to drop redundant and irrelevant information. Moreover,note how our compression design also reduces memory us-age greatly, by around 7×. This is because SFC does not136320骨干网络训练推理输入效率内存精度0FLOPS 吞吐量 #参数 #视频 Top1 Top50仅Slow I3D-50 8 × 8 K400 30个裁剪 64 × 30 1643G 2.4 32.5M 3 74.4 91.40SFC 288 × 1 247G 14.8（6×） 35.9M 19 74.6 91.40仅Slow I3D-50 16 × 4 K400 30个裁剪 64 × 30 3285G 1.2 32.5M 1 76.4 92.30SFC 288 × 1 494G 7.4（6×） 35.9M 8 76.9 92.50仅Slow I3D-50 32 × 2 K400 30个裁剪 64 × 30 6570G 0.6 32.4M < 1 75.7 92.30SFC 288 × 1 988G 3.6（6×） 35.9M 4 75.8 92.10TPN-50 8 × 8 K400 30个裁剪 64 × 30 1977G 2.1 71.8M 2.7 76.0 92.20SFC 288 × 1 359G 12.5（6×） 85.7M 17 76.1 92.10R(2+1)D-152 IG-65M → 30个裁剪 64 × 30 9874G 0.4 118.2M < 1 79.4 94.10K400 SFC 288 × 1 1403G 2.8（7×） 121.7M 5 80.0 94.50表2：使用密集采样推理和SFC在Kinetics400上与不同骨干网络的比较。与其他条目不同，R(2+1)D最初在IG-65M数据集上进行了预训练，然后在K400上进行了训练。对于任何骨干网络，我们冻结它并仅在K400数据集上训练我们的SFC模块。最后，我们将结果与密集采样（30个裁剪）进行比较。0τ 使用的数据 FLOPs 吞吐量 Top1 Top501 100% 352G 9.6 73.8 91.2 4/3 75% 299G 12.1 74.5 91.42 50% 247G 14.8 74.6 91.4 4 25% 195G 17.8 72.0 90.10表3：不同数据使用比例对速度-准确性权衡的影响，使用I3D-508×8。0将其报告为剪辑级别的FLOPS。为了公平比较，当对一个视频采样N个裁剪时，剪辑级别的FLOPS乘以N。03.视频吞吐量。由于模型操作的不同实现，FLOPS不能总是准确估计GPU速度，因此我们还报告视频吞吐速度，即一个单独的Tesla V100GPU每秒可以处理的视频数量（不包括数据加载）。04.模型参数数量。我们使用这个数字来报告模型的复杂性。05.每批视频数量。除了模型复杂性，我们还报告在单个GPU（16GB，TeslaV100）上可以同时进行推理的视频数量（即批处理）。这个数字展示了推理策略的效率的另一个角度。05. 实验结果0在本节中，我们进行了一系列的实验。首先，我们展示了SFC可以显著提高推理效率，而不影响模型准确性（第5.1节）在两个修剪的数据集上：Kinetics-400和UCF101。然后，我们通过消融SFC的组件来验证我们的设计假设（第5.2节）在Kinetics-400上。0方法吞吐量 Top10基准：30个裁剪1×74.5 单一裁剪30×-7.20TSN单一采样[27] 30×-5.7 TSN密集采样[27]3×-4.9 SCSampler[12] 2×+2.50SFC 6.2×+0.20表4：与输入采样方法的比较。0方法 FLOPS #参数 Top10TSM [15] 64G × 10 24M 95.9 I3D [2] 65G × 30 44M92.9 NonLocal R50 [28] 65G × 30 62M 94.60Slow I3D 8×8，1个裁剪54G × 1 32.5M 93.8 Slow I3D8×8，30个裁剪54G × 30 32.5M 94.5 Slow I3D 8×8 +SFC 247G 35.9M 94.50表5：UCF 101的结果。05.1. Kinetics-400和UCF101的结果3D Backbones3D Backbones + FCPTSMIp-CSN-152NonLocal R50NonLocal R101TPN R101Slow Fast R50 8x8R(2+1)D 152+ SFC7778798076757473GFLOPS020004000600080001000012000K=300510152025747878807270686664136330TPN R50 8 × 80SlowOnly I3D R50 8 × 80SlowOnly I3D R50 16 × 40准确性0图4：推理速度（GFLOPS）与性能（Top1准确性）与模型大小（参数数量，气泡大小）的关系。实线连接了表2中评估的骨干网络，虚线箭头显示了使用30个裁剪的密集采样（蓝色）和SFC（黄色）之间的性能改进。0多裁剪基准 SFCSCSampler SFC +骨干网络0SlowI3D R50 16 × 4 + SFC0τ=10准确性0吞吐量0（视频/秒）0K=150K=30K=10K=100R(2+1D) 152 + SFC0τ=20τ=40K=60TPN R50 8×8 + SFC0SlowI3D R50 8×8+ 多裁剪0SlowI3D R50 8×8 + SFC0图5：使用不同采样方法比较速度-准确性权衡。蓝色曲线代表使用SlowOnlyI3D进行密集采样的方法，采样的裁剪数（K）不同。报告了K等于30（10×3）、15（5×3）、6（2×3）和3（1×3）的结果。黄色曲线代表我们使用SlowOnly I3D的SFC方法，使用不同的压缩比τ，即只使用10τ信息。我们可以观察到我们提出的SFC提供了更好的推理解决方案。0需要分析重叠的时间窗口，并且可以丢弃非信息化的时间区域。结果还显示，当配备SFC时，一个非常昂贵（且性能良好）的R(2+1)D-152解决方案可以以与更便宜的I3D-508×8相同的吞吐量运行。实际上，多亏了SFC，我们能够0以相对较快的模型的相同速度实现最佳准确性。此外，对R(2+1)D-152进行密集采样需要22GB的内存（假设30个裁剪）用于单个视频，这与SFC的3GB使用相比非常昂贵。0速度-性能权衡。为了理解压缩比和性能之间的权衡，我们在表3和图5中消融了压缩比。结果表明，一些压缩实际上是有益的，并且能够在性能上带来小的改进，因为SFC能够忽略用于分类的无用信息。这也在之前的研究中观察到[12,29]。当更加积极地压缩（即τ=4）会导致更快的推理速度，但性能稍微降低。我们发现50%的压缩比（即τ=2）提供了一个良好的平衡，并在K400上实现了最佳的整体性能。0数据选择。我们将我们的特征压缩方法与使用I3D-508×8的数据选择/采样方法进行了比较（表4）。我们与TSN[27]采样进行了比较，TSN采样提出了对视频进行时间分段，并提取不连续帧用于3D模型的方法，以及最近的SCSampler，它使用一个廉价的网络来选择要进行完整推理的片段。虽然TSN采样能够提高吞吐量，但与基线相比，它也严重降低了性能。另一方面，SCSampler和SFC可以提高性能和吞吐量。由于SCSampler执行选择而不是压缩，它比SFC更积极地忽略区域，并且可以实现比SFC更好的性能，尽管SFC的效率提高了3倍。最后，我们想指出的是，从理论上讲，选择方法（如SCSampler）在具有简单动作的视频上效果很好，但在具有各种重要信息的更复杂视频上可能不会很好地推广。这是因为它们被迫（强制）选择一个子集的片段。我们的SFC通过查看整个视频进行压缩，因此可以保留所有所需的信息。0在UCF101上的评估。最后，我们在表5中给出了UCF101的结果。与Kinetics-400的结果类似，SFC能够达到密集采样（30个裁剪）的性能，同时效率提高了6.5倍。总体而言，我们认为SFC在快速推理和竞争性能之间提供了一个良好的平衡，这是实现实际应用的动作识别的关键之一。05.2. SFC的消融研究0在本节中，我们将研究SFC性能和效率如何随其参数变化而变化。具体而言，我们对4个重要参数进行了消融研究。136340SFC插入点 FLOPs 吞吐量 Top 1 Top50Res 1234 / Res 5 305G 14.0 73.7 90.7 Res 123 / Res 45247G 14.8 74.6 91.4 Res 12 / Res 345 211G 15.2 73.2 90.5Res 1 / Res 2345 163G 21.2 73.1 90.90（a）骨干网络分割选择0pool(q) Top10平均池化 72.9 最大池化72.6 TopK池化 74.60（b）池化策略0模型 Top10k = q = v = F bead 72.7 k = q = v= F abs 63.2 k = q = F abs, v = Fhead 74.60（c）KQV选择0模型 FLOPS #参数 Top10卷积（3x3x3） 356G 48.52M 72.0卷积（3x1x1） 247G 35.93M 74.6卷积（1x1x1） 238G 34.89M 72.50（d）不同的卷积核0表6：在Kinetics-400上的消融研究，使用I3D-R50 8×8。0使用I3D-50 8×8骨干网络的组件：0头/尾分割点（表6a）。我们研究了不同的动作识别骨干网络分割方式。每个选项对应于我们的SFC插入的不同位置。结果表明，所有选项都提供了有竞争力的结果，最佳准确率是在第3层之后分割。在第1层之后分割的吞吐量最快，但准确率下降了1.5个百分点。这对于需要非常快速推理的应用来说是一个有趣的结果。0池化策略（表6b）。我们选择在SFC中使用TopK池化来对查询q的特征进行时间上的下采样，因为它可以选择连续的时间信息，并且与尾部具有最高的兼容性。结果表明，TopK池化确实是报告的池化策略中最好的。0抽象层和KQV选择（表6c）。SFC使用一个抽象层来改进查询q和键k的特征以进行压缩。特征v保持不变，因为如果它们被转换，它们将失去与尾部的兼容性。我们现在评估三种潜在的设计：没有抽象层（第1行，与自注意力相同），所有KQV都使用抽象层的转换（第2行）和我们的设计（第3行）。结果表明，转换v对模型性能有负面影响，正如我们所推测的那样。此外，使用我们的抽象层改进q和k的特征进行压缩非常有益，可以将Top1准确率提高1.9个百分点。0方法输入尺寸使用的FLOPS Top10单裁剪 64×1 100% 54G 64.8 均匀采样 64×30 100% 1620G76.7 稠密采样 64×180 100% 9720G 78.20SFC，τ = 2 256×1 50% 247G 77.4 SFC，τ = 4 256×1 25%195G 75.2 SFC，τ = 8 256×1 12.5% 167G 68.20SFC，τ = 2 1024×1 50% 988G 78.5 SFC，τ = 4 1024×125% 780G 77.2 SFC，τ = 8 1024×1 12.5% 668G 74.00表7：使用Slow I3D 8×8在ActivityNet v1.3上的结果0卷积设计（表6d）。我们评估SFC中q和k的不同线性变换。结果表明，仅在时间通道中使用3D时间卷积核是最佳选择，这与SFC的时间压缩目标一致。06. SFC对未修剪视频的效果0尽管SFC是针对修剪视频提出的，但我们现在探索其在未修剪内容中的应用。这些视频的主要挑战是它们的时间长度差异很大，从几秒到可能几个小时。然而，我们的SFC模型可以在现代硬件上输入大约4k帧（约2分钟的30FPS视频）。为了克服这个限制，我们将SFC与均匀采样策略相结合。我们在ActivityNet v1.3 [3]上使用Slow-Only I3D8×8骨干网络进行实验。由于该数据集包含的视频平均长度不超过10分钟，我们从每个视频中均匀采样8个片段。然后，我们从每个片段中连续采样一组帧，将它们连接在一起并输入到我们的网络中。为了了解采样帧数对性能的影响，我们尝试了两种输入尺寸：256和1024帧。对于256帧，我们从8个视频片段中每个片段采样32帧，而对于1024帧，我们采样128帧（表7）。作为参考，我们还报告了使用单一、均匀和稠密采样的结果。我们还尝试了不同的压缩率（τ），以评估随着SFC越来越激进地进行压缩，性能的下降情况。结果表明，SFC在仅使用其FLOPS的15%的情况下改善了均匀采样的性能（76.7 US vs 77.4 SFC，τ =2，输入为256）。SFC还可以在改善FLOP一个数量级的同时超越稠密采样（78.2 DS vs 78.5 SFC，τ =2，输入为1024）。虽然SFC的设计目标是提高短片分类性能，但这些结果表明它也可以扩展到更长的视频。重要的是，注意到SFC可以通过增加均匀采样的片段数量并减少从每个片段采样的帧数，轻松地适应比ActivityNet中的视频更长的视频。0.00.20.40.60.81.0Feature Importance0.00.20.40.60.81.0Feature Importance0.00.20.40.60.81.0Feature Importance0.00.20.40.60.81.0Feature Importance136350输入维度0压缩维度0动作：灭火0输入维度0压缩维度0动作：荡秋千0输入维度0压缩维度0动作：抹灰0输入维度0压缩维度0动作：蹦极跳0图6：我们展示了四个示例的时间注意力图M（eq.4）和相应的输入帧。在所有视频中，SFC能够关注与动作识别相关的帧。例如，只有第一个视频的后半部分包含火灾，只有第二个视频的前半部分包含一个摇摆的婴儿。0正如我们的结果所显示的，使用256帧作为输入已经达到了与采样1024（77.4 vs 78.5）相当竞争力的性能。07. 可视化0我们在图6中展示了四个示例，以更好地解释SFC模块的功能。在每个示例中，我们将时间关联图M与原始帧一起可视化。黄色像素对应较高的特征响应，表示重要区域。在右侧，我们展示了这些信息帧，用黄色框围起来。前两个示例包含背景噪声和/或镜头转换，我们的SFC模块能够忽略这些无关信息。在最后两个示例中，背景变化不大，但SFC能够选择具有最清晰运动模式和最重要语义信息的区域。例如，在抹灰视频中，亲和力图高度响应0在手出现的时间区域，亲和力图响应非常高。此外，在蹦极跳视频中，亲和力图高度响应演员开始跳跃的时间区域。所有这些例子都显示了我们的SFC模块确实可以成功选择重要的特征。08. 结论0我们提出了特征压缩插件（SFC），这是一个灵活的插件，可以插入到几个现有的动作识别网络中，以在一次传递中执行视频级别的预测。我们的压缩设计是根据丢弃非信息性特征可以提高推理速度而不损害模型性能的思想来指导的。我们在Kinetics-400、UCF101和ActivityNet上的实验表明，与常用的30个裁剪密集采样过程相比，SFC能够将推理速度降低6-7倍，内存使用量降低5-6倍，同时还略微提高Top1准确性。[1] Mohammad Alizadeh, Abdul Kabbani, Tom Edsall, BalajiPrabhakar, Amin Vahdat, and Masato Yasuda. Less is more:trading a little bandwidth for ultra-low latency in the datacenter. In Proceedings of the 9th USENIX conference on Net-worked Systems Design and Implementation (NSDI), pages253–266, 2012. 2[2] Joao Carreira and Andrew Zisserman.Quo vadis, actionrecognition? a new model and the kinetics dataset. In Pro-ceedings of the IEEE International Conference on Com

下载后可阅读完整内容，剩余1页未读，立即下载