视频识别的自适应聚焦以提高效率

49 浏览量更新于2023-10-08 收藏 26.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yulin Wang∗, Zhaoxi Chen∗, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang†{wang-yl19, jhj20, hanyz18}@mails.tsinghua.edu.cn, frozen.burning@gmail.com,{shijis, gaohuang}@tsinghua.edu.cn162490自适应聚焦以提高视频识别的效率0自动化系，BNRist，清华大学，中国北京0摘要0在本文中，我们探索视频识别中的空间冗余，旨在提高计算效率。观察到视频中每个帧中最具信息量的区域通常是一个小的图像补丁，它在帧之间平滑移动。因此，我们将补丁定位问题建模为一个顺序决策任务，并提出了一种基于强化学习的方法，用于高效的自适应空间视频识别（AdaFocus）。具体而言，首先采用轻量级ConvNet快速处理完整的视频序列，其特征由循环策略网络用于定位最相关的区域。然后，所选的补丁由高容量网络进行推断以进行最终预测。在离线推理期间，一旦生成了信息丰富的补丁序列，大部分计算可以并行完成，并且在现代GPU设备上效率高。此外，我们证明了所提出的方法可以通过进一步考虑时间冗余来轻松扩展，例如动态跳过不太有价值的帧。在五个基准数据集（即ActivityNet，FCVID，Mini-Kinetics，Something-SomethingV1＆V2）上进行的大量实验证明，我们的方法比竞争基线更高效。代码可在https://github.com/blackfeather-wang/AdaFocus上获得。01. 引言0在线视频的爆炸性增长（例如YouTube或TikTok上的视频）推动了对自动识别其中的人类动作，事件或其他内容的需求，这有助于推荐[ 7 , 8 , 15 ]，监视[ 6 , 3]和基于内容的搜索[ 22]等应用。在过去的几年中，通过利用深度网络[ 11 , 53 ,12 , 2 , 36 , 19]已经在准确的视频识别方面取得了显著的成功。然而，这些模型的令人印象深刻的性能通常需要高计算成本。0� 平等贡献。†通讯作者。0图1。基于时间的方法与我们提出的AdaFocus方法的比较。大多数现有方法通过选择一些信息丰富的帧进行处理来减少计算成本，而AdaFocus旨在通过关注每个帧的任务相关补丁来执行高效的推理。重要的是，我们的方法与基于时间的技术兼容，因为它可以通过跳过不重要的帧来改进（AdaFocus+）。0成本。在现实世界的场景中，计算直接转化为功耗、碳排放和实际延迟，应在经济和安全考虑下将其最小化。为了解决这个问题，最近的一些工作提出减少视频识别中固有的时间冗余[ 26 , 29 , 45 , 42 , 16 , 44 , 25]。如图1（b）所示，将重点放在最相关的视频帧上，并将大部分计算分配给它们而不是所有帧是高效的。然而，在基于图像的数据中，另一个重要的冗余计算源，即空间冗余，在高效视频识别的背景下很少被探索。事实上，在2D图像分类中已经表明，卷积网络（CNN）能够仅使用整个图像的少数有区别的区域产生正确的预测。162500[ 41 , 47 , 18 , 31 , 14 , 5]。通过对这些相对较小的区域进行推理，可以大大降低CNN的计算成本（例如，处理96x96的补丁只需要推断224x224图像的18％计算）。在本文中，我们对是否可以有效利用这种空间冗余来促进高效的视频识别感兴趣。我们开发了一种新颖的自适应聚焦（AdaFocus）方法，以动态定位和关注每个帧的任务相关区域。具体而言，我们的方法首先使用轻量级CNN快速查看每个帧，以获取廉价和粗略的全局信息。然后我们在此基础上训练一个循环策略网络来选择最有价值的识别区域。由于定位任务相关区域的不可微性，该过程利用了强化学习算法。最后，我们激活一个高容量的深度CNN仅处理所选区域。由于所提出的区域通常是具有较小尺寸的小补丁，因此可以节省相当大的计算成本。AdaFocus的示例如图1（c）所示。我们的方法根据对识别任务的贡献在视频帧的空间维度上不均匀地分配计算，从而在保持准确性的同时显着提高效率。香草AdaFocus框架不模拟时间冗余，即所有帧都使用相同的计算进行处理，唯一的区别在于所选区域的位置。我们展示了我们的方法与现有的基于时间的技术兼容，并且可以通过减少在无信息帧上花费的计算来进行扩展，如图1（d）所示。这是通过引入一个额外的策略网络来实现的，该网络确定是否跳过一些不太有价值的帧。此算法称为AdaFocus+。我们在五个视频识别基准（即ActivityNet，FCVID，Mini-Kinetics，Something-SomethingV1＆V2）上评估了AdaFocus的有效性。实验结果表明，AdaFocus本身始终以较大的优势优于所有基线，而AdaFocus+进一步提高了效率。例如，当达到相同的准确性时，AdaFocus+的FLOP比最近提出的AR-Net [ 29]少2-3倍。我们还证明了我们的方法可以部署在最先进的网络（例如TSM [ 27 ]）之上，并有效提高其计算效率。02. 相关工作视频识别。随着卷积神经网络（CNNs）的采用，视频识别取得了显著进展。一种普遍的方法是构建3D-CNNs来联合建模时空信息，例如C3D [36]，I3D [2]和ResNet3D [19]。01 在本文中，FLOPs指的是乘加操作的数量。0另一种方法首先提取帧级特征，并通过时间平均[39]，长短期记忆（LSTM）网络[9]，通道移位[27]等在不同时间位置聚合特征。尽管上述方法取得了成功，但CNNs，特别是3D-CNNs的高计算成本通常限制了它们的适用性。最近的研究工作致力于通过设计轻量级架构[38, 46, 32, 37, 54,27]或在每个视频基础上执行动态计算[49, 45, 25, 52, 26,30]来提高视频识别的效率。我们的方法与后者在减少视频数据中的固有冗余方面有着相似的思路，但更专注于空间冗余。减少时间冗余是提高视频识别效率的一种常见解决方案，其基本思想是并非所有帧对最终预测的贡献相同。特别地，模型可以动态地将少量或没有计算分配给一些信息较少或高度相关的帧[18]。这个想法已经通过许多实现得到了证明，包括（1）提前停止，即在“观看”完整序列之前终止计算[10, 43]；（2）条件计算，例如，LiteE- val[45]在递归识别过程中自适应地选择具有适当大小的LSTM模型；自适应分辨率网络（AR-Net）[29]通过自适应分辨率处理不同帧以节省对不重要帧的不必要计算；以及（3）帧/剪辑采样，即动态决定应该跳过哪些帧而不执行任何计算[42, 16, 25,44]。AdaFocus方法与这些方法的不同之处在于，我们专注于减少空间冗余，即将主要计算分配给帧的任务相关区域。此外，我们的方法与它们兼容，因为它可以通过进一步减少时间冗余来改进。减少空间冗余。已经观察到从基于图像的数据中提取深度特征的过程中存在相当大的空间冗余[18,48]。例如，在2D图像分类中，一些最近的工作通过关注一些与任务相关或更具信息性的图像部分成功地提高了CNNs的效率[47, 41,13]。在视频识别的背景下，现有的基于注意力的方法已经证明视频帧的不同图像区域对预测的贡献并不相等[28]。然而，据我们所知，尚未利用空间冗余来提高视频识别的效率。3.方法与大多数现有的通过利用时间冗余来促进高效视频识别的方法不同，我们试图节省在视频帧的任务无关区域上花费的计算，并因此提高空间冗余的效率。为此，我们提出了一种自适应聚焦（AdaFocus）框架，以自适应地识别和关注每个帧中最具信息的区域，从而在不牺牲准确性的情况下显著减少计算成本。在本节中，我们首先在第3.1节和第3.2节中描述其组成部分和相应的训练算法。然后我们在第3.3节中展示了AdaFocus可以通过进一步考虑时间冗余（例如跳过不相关的帧）来改进。ﬁciency by reducing the spatial redundancy. To this end, wepropose an adaptive focus (AdaFocus) framework to adap-tively identify and attend to the most informative regions ofeach frame, such that the computational cost can be signiﬁ-cantly reduced without sacriﬁcing accuracy.In this section, we ﬁrst describe its components and thecorrespond training algorithm in Section 3.1 and Section3.2, respectively. Then we show in Section 3.3 that AdaFo-cus can be improved by further considering temporal redun-dancy (e.g., skipping uninformative frames).162510图2. AdaFocus概述。首先，使用轻量级全局CNNfG对每个帧vt进行快速扫描。然后，在fG之上构建循环策略网络π，以选择最重要的图像区域˜vt进行识别。采用高容量的局部CNNfL从˜vt中提取特征。最后，通过循环分类器在帧之间聚合特征以获得预测pt。03.1. 网络架构0概述。我们首先概述AdaFocus（图2）。考虑在线视频识别场景，其中一系列帧按顺序输入，而在处理任意数量的帧后可以检索到预测结果。在每个时间步，AdaFocus首先使用轻量级CNNfG对完整帧进行快速浏览，获取廉价且粗糙的全局特征。然后将特征输入到循环策略网络π中，以跨帧聚合信息，并相应地确定要聚焦的图像裁剪位置，目标是最大化其对视频识别的贡献。然后采用高容量的局部CNNfL来处理所选的图像裁剪，以获得更准确但计算代价更高的表示。最后，分类器fC整合了所有先前帧的特征，产生一个预测结果。接下来，我们详细描述这四个组件。全局CNNfG和局部CNNfL是骨干网络，两者都从输入中提取深层特征，但目标不同。前者旨在快速捕捉0每帧的一瞥，为确定局部CNNfL应该关注的区域提供必要的信息。因此，我们采用了一个轻量级网络作为fG。相反，fL利用所选图像区域的全部优势来学习有区分性的表示，因此我们部署了大型和准确的模型。由于fL只需要处理一系列相对较小的区域而不是完整的图像，因此这个阶段也具有高效性。关于fG和fL的架构的详细信息将在第4节中介绍。形式上，给定大小为H×W的视频帧{v1, v2,...}，fG直接将它们作为输入，并产生粗糙的全局特征图eGt：0eGt = fG(vt), t = 1, 2, ..., (1)0其中t是帧索引。相比之下，fL处理从{v1, v2,...}中分别裁剪出的P×P（P < H，W）的方形图像块{˜v1,˜v2, ...}，我们有0eLt = fL(˜vt), t = 1, 2, ..., (2)0其中eLt表示细粒度局部特征图。重要的是，裁剪的˜vt是为了捕捉给定任务的最具信息的区域，并且这个过程由策略网络π完成，其描述如下。策略网络π是一个循环网络，接收来自全局CNN fG的粗糙全局特征eGt，并指定全局CNNfG应该关注每个帧的哪个区域。由于循环设计，π同时使用了先前和当前输入的信息。形式上，π确定图像裁剪的位置minimizefG,fL,fCE162520图3.策略网络π的架构。全局特征图eGt经过一个1x1卷积层，然后是一个门控循环单元（GRU），以聚合时间信息。GRU的输出参数化了一个在多个裁剪候选框上的分类分布π(∙|eGt,hπt−1)。在训练时，我们从π(∙|eGt,hπt−1)中采样˜vt，而在测试时，我们直接选择具有最大softmax概率的裁剪框。0{˜v1, ˜v2,...}从帧中裁剪出来。鉴于这会导致一个不可微分的操作，我们将π形式化为一个代理，并使用强化学习对其进行训练。具体而言，裁剪位置˜vt从分布中抽取：0˜vt � π(∙|eGt, hπt−1), (3)0其中，hπt−1表示在π中维护的隐藏状态，在第(t−1)帧进行更新。在我们的实现中，我们考虑在图像上均匀分布的多个候选框（例如36或49），并在它们上建立一个分类分布，该分布由π的输出参数化。在测试时，我们简单地采用具有最大概率的候选框作为确定性推理过程的˜vt。此外，请注意，我们不对特征图eGt执行任何池化操作，因为池化通常会破坏用于定位˜vt的有用空间信息。作为替代方案，我们使用1×1卷积来压缩通道数，以减少π的计算成本。π的示意图如图3所示。分类器fC是一个预测网络，旨在聚合模型处理过的所有帧的信息，并在每个时间步输出当前的识别结果。具体而言，我们对特征图eGt和eLt进行全局平均池化，得到特征向量eGt和eLt，并将它们连接作为fC的输入，即0pt = fC([eG1,eL1],...,[eGt,eLt]),(4)0其中pt是第t步的softmax预测。值得注意的是，我们允许eGt也用于分类，目的是促进更高效的特征重用。这样的设计利用了之前的观察结果[51,35]，表明CNN能够同时实现出色的定位和识别性能。0同时，许多现有方法也采用了类似的重用机制[45,44,29,16]。此外，fC的架构有多种可能性。除了选择循环网络（如长短期记忆（LSTM）[21]或门控循环单元（GRU）[4]）之外，fC还可以设置为取帧预测的平均值，这通常是通过一个常见的全连接层获得的，如[27,29,30]中所做的那样。03.2.训练算法0为了确保这四个组件正常工作，引入了一个三阶段的训练算法。阶段I：热身。我们首先初始化fG、fL和fC，但在这个阶段不包括策略网络π。然后我们随机采样图像块˜vt，以最小化训练集Dtrain上的交叉熵损失LCE(∙)：010T0t=1LCE(pt,y)�,0˜vt�RandomCrop(vt)。(5)0这里T和y分别指视频{v1,v2,...}的长度和标签。在这个阶段，模型学习从任意帧块序列中提取任务相关信息，为训练策略网络π奠定基础。阶段II：学习选择信息丰富的块。在这个阶段，我们固定在阶段I中得到的两个CNN（fG和fL）和分类器fC，并调用一个随机初始化的策略网络π来进行强化学习训练。具体来说，在从π(∙|eGt,hπt−1)中采样˜vt的位置（参见公式（3））后，π将接收一个表示该动作是否有益的奖励rt。我们训练π来最大化折扣奖励的总和：0最大化πE˜vt�π(∙|eGt,hπt−1)0��T0t=1γt−1rt0�,(6)0其中γ∈(0,1)是长期奖励的折扣因子。在我们的实现中，我们固定γ=0.7，并使用现成的近端策略优化（PPO）算法[34]来解决公式（6）。值得注意的是，我们直接基于fG提取的特征来训练π，因为之前的研究[51,35]表明，用于分类的CNN在利用其深度表示定位任务相关区域方面表现出色。理想情况下，奖励rt应该衡量选择˜vt在视频识别方面的价值。为了达到这个目的，我们定义rt为：0rt(˜vt|˜v1,...,˜vt−1)0= 0−E˜vt�RandomCrop(vt)[pty(˜vt|˜v1,...,˜vt−1)],(7)0其中 pty是对y的softmax预测（即对正确标签的置信度）。在计算rt时，我们r′t(bt|b1, . . . , bt1) =��(10)162530假设所有先前的块{˜v1,...,˜vt−1}已经确定，只有˜vt可以改变。公式（7）中的第二项是指由随机采样的˜vt获得的预期置信度。通过引入它，我们确保E˜vt[rt]=0，经验证明这样可以产生更稳定的训练过程。在实验中，我们用单次蒙特卡洛采样来估计这一项。直观地说，公式（7）鼓励模型选择能够用尽可能少的帧产生对正确标签的自信预测的块。阶段III：微调。在最后一个阶段，我们用从阶段II学到的策略网络π来微调fL和fC（或仅fC），即用˜vt�π(∙|eGt,hπt−1)来最小化公式（5）。这个阶段进一步提高了我们方法的性能。03.3. 减少时间冗余0提出的AdaFocus以相同的计算量等效地处理每个视频帧。实际上，它与专注于减少视频时间冗余的现有方法是兼容的。为了证明这一点，我们提出了AdaFocus的扩展版本，称为AdaFocus+，它动态地跳过对大型网络 f L不重要的帧。具体而言，我们添加了一个额外的循环策略网络 π ′，它与 π具有相同的输入和架构，如图4所示。这个新网络与 π同时在第二阶段进行训练。对于每一帧，π ′ 的输出0参数化一个伯努利随机变量 b t ：0b t � Bernoulli ( p B t ) ， p B t = π ′ ( e G t , h π ′ t −0其中指定了保持帧 v t 的概率，即 Pr ( b t = 1) = p B t 。π′ 的隐藏状态 h π ′ t − 1 在第 ( t − 1)帧进行更新。在训练过程中，我们根据公式（8）对 b t进行采样，并将其与局部特征向量 e L t相乘，使得公式（4）变为：0p ′ t ( b 1 , . . . , b t ) = f C ([ e G 1 , b 1 e L 1 ] , . . . , [ e G t , b t e L t ])，(9)0换句话说，如果 b t = 1，则在第3.1节中提到的过程保持不变。如果 b t = 0，我们只是不将图像补丁 ˜ v t 输入到局部CNN f L中，并将 e G t 与全零张量连接作为分类器 f C的输入。值得注意的是，在这种情况下，e G t也将被馈送到 π 中以更新其隐藏状态 h π t，这引入了可忽略的计算开销。与 π 一样，π ′也被训练以最大化折扣奖励的总和（公式（6））。在这里，我们将与 π ′ 相对应的奖励 r ′ t 定义为：0p ′ ty ( b 1 , . . . , b t − 1 , 1) − p ′ ty ( b1 , . . . , b t − 1 , 0) − λP 2 ， b t = 1 ，00 , b t = 0 ,0图4.AdaFocus+的示意图。提出的AdaFocus方法与基于时间的技术自然兼容。通过引入额外的策略网络 π ′来控制是否关注每一帧（即使用 f L 处理 ˜ v t），我们可以进一步减少在不重要的帧上花费的冗余计算。0其中 p ′ ty ( b 1 , . . . , b t − 1 , 1) 和 p ′ ty ( b 1 , . . . , b t− 1 , 0) 分别指的是在 b t =1 和 b t =0的情况下对地面真实标签 y 的置信度。系数 λ是一个预定义的超参数，而 P 是补丁 ˜ v t的长度（或宽度）。我们使用 P 2 来估计将 ˜ v t 输入 f L所需的计算量（FLOPs）。当 b t = 1 时，推断 f L的置信度增益（即 p ′ ty ( b 1 , . . . , b t − 1 , 1) − p ′ ty (b 1 , . . . , b t − 1 , 0) ）与惩罚项 λP 2进行比较，后者反映了其计算成本。只有当这个比较产生积极的结果时，才会鼓励激活 f L 的行为。否则，π ′将被训练以减少 b t = 1的概率，即避免关注任何使用昂贵的 f L的局部区域以避免冗余计算。在推理过程中，我们将每帧的p B t 与固定阈值 ρ ∈ (0 , 1) 进行比较。当 p B t ≥ ρ时，我们使用 f L 处理 ˜ v t，否则跳过该补丁。这两种情况分别对应于训练过程中的 bt =1 和 b t =0 。通过仅对具有前 η % 最大 p B t 的帧激活f L ，可以在验证集上解决 ρ 的值，其中 0 < η < 100。可以通过改变 η %来在计算成本和准确性之间进行灵活的权衡。03.4. 离线视频识别0以上所有讨论都基于在线视频识别设置，模型需要在每帧看到后输出一个合理的预测。然而，我们注意到AdaFocus可以直接适应离线场景，其中所有帧都以批处理的方式给出。具体而言，可以使用前面提到的方法训练一个模型，但只在推理过程中收集与最后一帧对应的结果。重要的是，f G 和 fL的前向传递过程占据了大部分计算量，可以并行执行，从而在GPU设备上实现高效的实现。04. 实验0在本节中，我们通过实验证明了我们的方法。我们首先将AdaFocus与几种最近提出的高效视频识别框架进行比较，结果显示AdaFocus提高了效率。然后，我们通过将最先进的轻量级10203040506070809010071.071.572.072.573.073.574.074.575.075.576.076.577.0mAP (%)05010015020025030060626466687072747678mAP (%)MultiAgent (Wu et al., 2019a)SCSampler (Korbar et al., 2019)LiteEval (Wu et al., 2019b)AdaFrame-5 (Wu et al., 2020b)AdaFrame-10 (Wu et al., 2020b)ListenToLook (Gao et al., 2020)AR-Net (Meng et al., 2020)AdaFocusAdaFocus+051015202530354030354045505560657075mAP (%)ResNet-50-AverageResNet-50-GRUAR-Net (Meng et al., 2020)AdaFocus (128x128)FrameGlimpses [49]VGG60.2%32.971.2%29.9AdaFrame [44]MN2+RN71.5%79.080.2%75.1LiteEval [45]MN2+RN72.7%95.180.0%94.3ListenToLook [16]MN2+RN72.3%81.4––SCSampler [25]MN2+RN72.9%42.081.0%42.0AR-Net [29]MN2+RN73.8%33.581.3%35.1AdaFocus (128x128) MN2+RN75.0%26.683.4%26.6LiteEval [45]MN2+RN61.0%99.0SCSampler [25]MN2+RN70.8%42.0AR-Net [29]MN2+RN71.7%32.0AdaFocus (128x128)MN2+RN72.2%26.6AdaFocus (160x160)MN2+RN72.9%38.6AdaFocus+ (160x160)MN2+RN71.7%20.3162540图5.在ActivityNet上的离线视频识别结果。整个视频一次提供给单个预测。我们的方法使用的是补丁大小P2∈{96 2,128 2, 160 2, 1922}。AdaFocus和AdaFocus+分别指的是基于空间冗余的AdaFocus和通过进一步减少时间冗余而增强的版本。0图6.在ActivityNet上的在线视频识别结果。视频帧按顺序提供，而模型可能需要在处理任意数量的帧后输出预测。0表1.AdaFocus与最先进的高效视频识别框架在ActivityNet-v1.3和FCVID上的比较。GFLOPs表示处理单个视频的平均计算成本。MN2和RN分别表示MobileNet-V2和ResNet。最佳结果用粗体表示。0方法主干 ActivityNet FCVID mAP GFLOPs mAP GFLOPs0加权CNN架构以证明AdaFocus对它们的补充，并进一步提高效率。最后，我们提供详细的可视化和消融结果，以提供对我们方法的额外见解。0数据集。我们的实验基于五个广泛使用的视频数据集：(1)ActivityNet-v1.3 [ 1 ]包含10,024个训练视频和4,926个验证视频，标注了200个动作类别。平均持续时间为117秒；(2) FCVID [ 23 ]包括45,611个训练视频和45,612个验证视频，标注为239个类别。平均持续时间为167秒；(3)Mini-Kinetics是由[29,30]介绍的Kinetics [ 24]的一个子集。该数据集由从Kinetics中选择的200个视频类别组成，其中121k个视频用于训练，10k个视频用于验证；(4) Something-Something V1&V2 [ 17 ]是两个大规模的人类动作数据集，分别包含98k和194k个视频。我们使用官方的训练-验证划分。0数据预处理。除非另有说明，我们从Activi-tyNet、FCVID和Mini-Kinetics中均匀采样每个视频的16帧，而在Something-Something上采样8或12帧。根据[27,29]，我们通过首先采用随机缩放，然后进行224x224的随机裁剪，最后对除Something-SomethingV1&V2之外的所有数据集进行随机翻转来增强训练数据。在推理过程中，我们将所有帧调整为256x256大小，并将其中心裁剪为224x224。0表2.AdaFocus和基准方法在Mini-Kinetics上的性能。GFLOPs表示处理单个视频的平均计算成本。MN2和RN分别表示MobileNet-V2和ResNet。最佳结果用粗体表示。0方法主干精简动作识别 Top-1 准确率 GFLOPs04.1.与最先进的高效视频识别方法基线的比较。在本小节中，我们将AdaFocus与几个专注于促进高效视频识别的竞争基线进行比较，包括MultiAgent [42]，SCSampler[25]，LiteEval [45]，AdaFrame [44]，Listen-to-look[16]和AR-Net[29]。由于空间限制，我们在附录A中简要介绍它们。实现细节。我们在AdaFocus中部署MobileNet-V2[33]和ResNet-50 [20]作为全局CNN fG和局部CNNfL。策略网络π和分类器fC中都使用具有1024个隐藏单元的一层门控循环单元（GRU）[4]。补丁候选数设置为49（均匀分布在7x7中）。由于空间有限，训练细节推迟到附录B。离线视频识别。我们首先在离线识别设置下实现AdaFocus，即我们的方法在处理整个视频后产生单个预测。这种设置也被大多数基线的论文采用。在ActivityNet和FCVID上的结果在表1中呈现。我们在AdaFocus中使用P2 = 1282的补丁大小，并通过平均平均精度（mAP）评估不同方法在这两个数据集上的性能，遵循常见做法[44，45，16，29]。可以观察到我们的方法在效率方面大大优于替代基线。例如，在FCVID上，AdaFocus的mAP比最强基线AR-Net高2.1％（83.4％对81.3％），计算量减少了1.3倍162550表3.AdaFocus-TSM和其他最近提出的高效CNN在Something-Something（Sth-Sth）上的性能。TSM+是指具有与我们方法相同的网络架构（除了策略网络π）的增强TSM基线。我们在模型中均匀采样8/12帧用于MobileNet/ResNet-50。延迟和吞吐量分别在2.20GHz Intel Corei7-10870H CPU和NVIDIA GeForce RTX 2080Ti GPU上进行测试，批量大小分别为1和64。最佳结果用粗体表示。0方法骨干网络 #帧 Sth-Sth V1 Sth-Sth V2 延迟吞吐量 Top-1准确率 GFLOPs Top-1准确率 GFLOPs（Intel Core i7，bs=1）（NVIDIA 2080Ti，bs=64）0I3D [2] 3DResNet50 32×2 41.6％ 306 - - - - I3D+GCN+NL [40] 3DResNet50 32×2 46.1％ 606 - - - - ECO En Lite [54] BN-Inception +3DResNet18 92 46.4％ 267 - - - -0TSN [39] ResNet50 8 19.7％ 33.2 27.8％ 33.2 - - TRN RGB/Flow [50] BN-Inception 8/8 42.0％ 32.0 55.5％ 32.0 - - ECO [54] BN-Inception+3DResNet188 39.6％ 32.0 - - - - AdaFuse [30] ResNet50 8 46.8％ 31.5 59.8％ 31.3 - - TSM [27] ResNet50 8 46.1％ 32.7 59.1％ 32.7 0.32秒 128.8视频/秒0TSM+ [27] MobileNet-V2+ResNet50 8+8 2 47.0％ 35.1 59.6％ 35.1 0.42秒 105.0视频/秒 AdaFocus-TSM（144x144）MobileNet-V2+ResNet50 8+12 47.0％23.5（↓1.49倍）59.7％ 23.5（↓1.49倍）0.32秒（↓1.31倍）143.8视频/秒（↑1.37倍）AdaFocus-TSM（160x160）MobileNet-V2+ResNet50 8+12 47.6％ 27.5 60.2％27.5 0.36秒 122.1视频/秒 AdaFocus-TSM（176x176）MobileNet-V2+ResNet50 8+12 48.1％ 33.7 60.7％ 33.7 0.42秒 104.2视频/秒0更少的计算（26.6 GFLOPs对33.505.我们在P2∈{96x96, 128x128, 160x160,192x192}内改变补丁大小，并在黑点中绘制相应的mAP与FLOPs关系。我们还提供了具有不同计算成本的基线变体。可以观察到AdaFocus在效率和准确性之间取得了相当好的平衡。通过进一步减少时间冗余来改进。然后，我们测试通过跳过信息较少的帧来扩展AdaFocus，如第3.3节所述。结果以AdaFocus+（黑星）的形式呈现在图5中。系数λ设置为1e-6，而跳过比例η％在{0.9, 0.7,0.5}内变化。为了方便实现，我们在训练集上解决了阈值ρ。我们发现这几乎与使用验证集的性能相同。很明显，进一步减少时间冗余可以显著提高效率。对于给定的mAP，AdaFocus+每个视频所需的GFLOPs数量约为AR-Net的2.1-3.2倍。Mini-Kinetics的结果在表2中呈现。这里的观察结果与ActivityNet/FCVID类似。AdaFocus+通过1.6倍（20.3GFLOPs对32.0GFLOPs）减少所需的计算量以达到71.7％的准确性。在线视频识别结果如图6所示。请注意，这里我们假设一系列视频帧按顺序进行处理，并且模型可能需要在任何时间输出预测。具体而言，我们从视频开头取固定数量的帧，将它们输入网络以评估结果，并更改帧数以获得mAP-FLOPs的权衡。我们考虑了两个额外的基线：（1）ResNet-50-Average对具有完整输入的ResNet-50的帧级预测进行平均；（2）ResNet-50-GRU通过使用GRU分类器聚合帧之间的特征来增强（1）。0表明我们的方法能够获得更好的性能。0事实上，我们也可以为TSM+采样8/12帧，但这会大大增加计算成本（�1.5倍）。因此，我们不考虑它。0表4.重用e G t对识别的影响。0重用e G t进行识别 96x96 128x128 160x160 192x1920� 70.2% 73.4% 75.0% 75.9% � 71.9% 75.0% 76.0%76.7%0给定相同数量的FLOPs的性能，使得在实时应用中能够进行准确且快速的识别。04.2.在高效CNNs架构上构建。在本小节中，我们在最近提出的高效网络架构CNNs with temporal shift module(TSM)[27]的基础上实现了AdaFocus，以证明我们的方法可以有效提高这种最先进的轻量级模型的效率。具体而言，我们仍然使用MobileNet-V2和ResNet-50作为f G和fL，但在它们上面添加了TSM。我们部署了一个全连接层作为分类器fC，并将逐帧预测的平均值作为输出，遵循TSM的设计[27]。为了公平比较，我们通过引入与我们相同的两个骨干网络（称为TSM+）来增强原始的TSM，其中它们的输出特征也被连接起来输入到线性分类器中。换句话说，TSM+与AdaFocus的区别仅在于它将整个帧输入到ResNet-50中，而我们将选择的图像补丁输入。策略网络π的架构和训练算法保持不变。训练超参数的详细信息将在附录B中给出。162560帆板运动0BMX比赛0摩托越野0制作三明治0打曲棍球0吹落叶0使用高低杠0吹笛子0图7.可视化结果（放大以获取详细信息）。绿色框表示AdaFocus选择的图像补丁的位置。0表5.各种图像补丁选择策略的比较。固定策略是预先定义的，不利用强化学习（RL）。对于基于RL的策略，我们改变了奖励的设计。0消融mAP096x96 128x128 160x160 192x1920固定策略0随机策略 65.8% 70.7% 73.1% 74.8%0中央策略 61.9% 68.7% 72.4% 74.8%0高斯策略 64.7% 70.6% 73.5% 74.9%0通过RL学习的策略0置信度奖励 68.5% 72.3% 74.1% 75.5%0奖励增量 69.4% 72.7% 74.4% 75.6%0AdaFocus（我们的方法） 70.2% 73.4% 75.0% 75.9%0在Something-Something上的结果在表3中报告。可以观察到，通过减小相对昂贵的ResNet-50网络的输入大小，AdaFocus使得TSM能够使用相同的计算量在每个视频的任务相关区域处理更多的帧，从而显著提高了效率。例如，AdaFocus在Something-SomethingV1上以比TSM+少1.5倍的GFLOPs获得相同的性能。实际效率。在表3中，我们还测试了AdaFocus-TSM在Intel i7CPU和NVIDIA 2080TiGPU上的实际推理速度，分别使用批量大小为1和64，这足以饱和这两个设备。可以观察到，我们的实际加速比也是显著的，与理论结果相比略有下降。我们暂时将其归因于我们实现中的不足的硬件优化。04.3.分析结果可视化。在图7中，我们可视化了AdaFocus选择的区域。在这里，我们从ActivityNet中均匀采样了8个视频帧。可以观察到我们的方法有效地引导了昂贵的局部CNN f L关注每个帧的与任务相关的区域，如帆板、自行车和长笛。重复使用e Gt进行识别的重要性。如前所述，我们的方法有效地利用了粗糙的全局特征e G t来定位任务相关的补丁˜ v t和进行识别。如表4所示，仅使用e G t进行定位会降低mAP1-1.5%，这证明了这种重用机制的效果。0学习的补丁选择策略的有效性在表5中得到验证。我们考虑了三种替代方案：（1）随机采样补丁，（2）从帧中心裁剪补丁，（3）从以帧为中心的标准高斯分布中采样补丁。此外，我们测试了改变强化学习的奖励函数：（1）置信度奖励直接使用对地面真实标签的置信度作为奖励，（2）增量奖励利用置信度的增量作为奖励。为了进行清晰的比较，我们在这里不重用e Gt进行识别。有趣的现象是，随机策略表现出色，优于中心策略，这可能归因于帧之间的空间相似性。也就是说，相邻的中心补丁可能具有重复的内容，而随机采样很可能收集更全面的信息。此外，结果显示学习的策略具有更好的性能，我们提出的奖励函数明显优于其他函数。5.结论本文提出了一种基于

下载后可阅读完整内容，剩余1页未读，立即下载