视频压缩剪辑：OCSampler的有效视频识别方法

147 浏览量更新于2023-10-25 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13894OCSampler：使用单步采样将视频压缩为一个剪辑林金涛1段浩东2陈凯3、4林大华2王利民11南京大学软件新技术国家重点实验室2香港中文大学3商汤科技4上海人工智能实验室jintaolin@smail.nju.edu.cnlmwang@nju.edu.cndhlin@ie.cuhk.edu.hkchenkai@sensetime.comdh019@ie.cuhk.edu.hk摘要视频包含丰富的语义以及冗余信息。寻求紧凑而有效的视频表示，例如，从整个视频中采样信息帧对于有效的视频识别至关重要。已经有工作将帧采样公式化为通过根据帧的重要性逐个选择帧的顺序决策任务。在本文中，我们提出了一个更有效的框架命名为OCSampler，它探讨了这样一个表示与一个短剪辑。OCSampler设计了一种学习特定于实例的视频压缩策略的新范例，以便仅在单个步骤中选择帧我们不像以前的方法那样按顺序拾取帧，而是一次处理整个序列。因此，这些政策是从一个轻量级的略读网络与一个简单而有效的政策网络。此外，我们扩展了所提出的方法与帧数预算，使框架产生正确的预测，在高置信度尽可能少的帧。在各种基准测试上的实验证明了OCSampler在准确性和效率方面优于以往方法具体来说，它在 ActivityNet 上实现了 76.9% 的 mAP 和 21.7GFLOP，并具有令人印象深刻的吞吐量：在单个TITAN Xp GPU上达到123.9视频/秒。1. 介绍随着社交媒体平台的爆炸式普及以及丰富的在线视频内容，可以处理面部动作或事件识别的有效且可扩展的方法受到了广泛关注视频数据的泛滥。为此，大多数努力都致力于探索复杂的时间模块，以通过密集应用2D-CNN [11，20，22，29，34，42]或3D-CNN来捕获时间维度上的关系。：通讯作者。(a) 输入视频（标签：轮滑）(b) FrameExit方法第三步第四步第五步第六步第一步第二步(c) 基于上下文的顺序方法（例如，AdaFrame）第一步第一步第一步(d) OCSampler（我们的）OCSamplerFrameExit76.1AdaFrame71.576.979.0123.926.121.76.419.1最大平均接入点（%）GFLOPS视频（Videos/s）(e) ActivityNet-v1.3上不同方法的结果图1. 其他方法和我们提出的OCSampler的比较。现有的大多数工作通过将帧选择问题视为顺序决策任务来降低计算成本，而OCSampler旨在通过使用整体视图进行一步决策来执行有效的推理。我们的方法在准确性、理论计算开销和实际推理方面都取得了优异的性能。CNN [3，6，7，10，28，31，32]。虽然实现了卓越的性能，但过高的计算费用限制了这些模型在现实世界场景中的应用，在现实世界场景中，部署是资源受限的，并且需要处理具有严格延迟和吞吐量要求的高数据量。为了缓解这个问题，大量的研究一直专注于设计轻量化模块[9，22，27，28、33、33、40、47]以提高效率。由于没有意识到视频内容的复杂性和视频识别的特定于实例的困难，这些模型处理步骤-2步骤-6步骤-4步骤-1步骤-7步骤-5步骤-8步骤-313895所有视频都是平等的，并采用朴素的采样策略。为了克服这一限制，已经进行了广泛的研究[8，12，14，39，41这些方法都将帧选择问题建模为顺序决策任务，并且倾向于单独进行每帧决策，而忽略视频的后续部分。因此，这些方法需要更多的推理时间，即使具有理论计算效率，并导致次优结果。最近的方法[19，25，26，30，35，38]依赖于设计不同的预设变换（例如，、在特定空间分辨率下处理[25]、在特定片上处理[35]等。），并确定在每个帧或网络模块上应采取哪些动作以减轻计算负担。然而，视频识别的关键是聚合不同帧的特征。这些方法中的大多数依赖于几个显著帧对于用于视频识别的有效视频表示同等重要的假设，这可能引入时间冗余并且缺乏对时间建模的具体考虑。在不牺牲识别准确性的情况下，降低视频分析的计算复杂度的有希望的替代方案是在单个步骤中用一个剪辑来表示视频。3D-CNN方法中常用的剪辑级特征[3，10，18，32]由于其时空信息提取而显示出优越性。然而，跨剪辑级采样需要平均多个剪辑的预测，并且包含视觉冗余的剪辑将污染最终结果。受此启发，我们设计了一个高效的视频识别框架，该框架通过在一次通过中基于每个视频评估基于剪辑的奖励来将修剪/未修剪的视频压缩到单个剪辑中。如图1所示，我们的基本思想是，将选择问题建模为一步决策任务，可以显著节省理论计算和实际推理时间，并且对集成剪辑进行采样比单独评估几个帧更特别是，在本文中，我们提出了一种新的OCSampler动态定位和出席的实例特定的压缩剪辑的每个视频。更具体地说，我们的方法首先使用轻量级CNN快速浏览整个视频，以获得粗略的全局信息。然后，我们训练一个简单而有效的策略网络，以选择最有价值的剪辑组合进行后续识别。该模块由于其不可微性而通过再学习来学习。最后，我们激活一个高容量分类器来处理所选剪辑。对用少量帧构造的剪辑进行推断，可以节省相当大的计算开销。我们的方法根据视频的时间位置对计算的贡献不均匀地分配计算，识别任务，导致效率的显着提高，但仍然保持准确性。vanilla OCSampler框架使用相同数量的帧处理视频我们表明，我们的方法可以通过一个自适应的帧芽得到扩展，以减少计算花费在这是通过引入一个额外的预算网络来实现的，该预算网络估计视频应该使用多少帧，该预算网络通过伪标签以自我监督的方式进行优化。我们在四个有效的视频识别基准上评估了OCSampler 的有效性，即 Activ- ityNet [2] ， Mini-Kinetics [17]，FCVID [15]，Mini-Sports 1 M [16]。实验结果表明，OCSampler始终优于所有国家的最先进的大利润率方面的准确性和效率。特别是，我们在ActivityNet上实现了76.9%的mAP和21.7 GFLOPs，吞吐量令人印象深刻：在单个TITAN Xp GPU上达到123.9 Video/s我们还证明，我们的方法采样的帧可以推广到提高任意分类器的功效和效率。2. 相关工作视频识别在深度神经网络的背景下，存在两类用于视频识别的模型，即2D-CNN方法和3D-CNN方法。对于2D-CNN方法，它们通常使最先进的2D-CNN模型具有时间建模的能力，以沿着时间维度聚合特征，例如时间池化[11，29，34]，递归网络[5，21，42]，有效的时间模块[20，22对于3D-CNN方法[31]，大多数作品通过在堆叠的相邻帧上采用3D卷积来学习空间和时间表示。其中一些[28，33]还将3D卷积分解为2D空间卷积和1D时间卷积，或者将2D CNN集成到3D CNN[45]。然而，应用于2D-CNN方法和3D-CNN方法的现有采样策略具有一些缺点。沿时间维度均匀采样的帧被发送到2D-CNN模型，该模型需要较少的帧来表示整个视频，但是当动作在某个时刻发生时可能会错过关键信息。3D-CNN模型需要聚合多个剪辑的预测以获得相当好的结果，这需要消耗大量的计算（特别是对于未修剪的视频）。相比之下，我们的想法是利用一种有效的方法来压缩视频使用一个简短的剪辑，这是不可知的不同的模型。顺序采样。为了减少理论计算成本，这些方法考虑帧选择问题，13896空间下采样选择策略组合估计Fram e canndid at es set{，，.��..，��反向传播预期梯度预算模块B奖励B多项分布政策网络预测系统简体中文Conden sedclip{，��分类器分类器图2. 我们的方法概述。给定一个视频，我们的框架稀疏地采样T个候选帧，并将它们馈送到略读网络fS中，以快速浏览视频并提取时空特征。然后，遵循一个简单的策略网络，以基于p L的输出多标称分布导出帧选择策略，其激活N个帧的子集以形成作为视频压缩的产物的单个剪辑。通过引入额外的预算模块B来确定每个视频应该拍摄多少帧，我们可以进一步减少花费在不太重要的帧上的冗余计算然后，使用任意的分类器在预测的条件下，我们反向传播的预期梯度与积分剪辑和相应的组合估计的奖励。更多详情见正文。LEM作为顺序判定任务，并且需要等待先前的信息以指示下一个观察哪个帧或者是否退出选择过程。AdaFrame [39]提出了一种内存增强的LSTM，它提供了上下文信息，用于搜索随着时间的推移下一个要观察的内容。ListenToLook [12]提出使用蒸馏框架来估计具有单个帧及其伴随音频的剪辑信息。然而，使用音频作为预览信息来寻找下一帧不能避免不相关的帧，并且仍然需要多个步骤来获得整个视频的最终预测。FrameExit [14]在一个早期存在的框架中用简单的采样策略模拟了这个问题。对于每个视频，FrameExit遵循预设策略依次检查每个帧，并发出退出信号以退出程序。虽然这种简单的策略函数避免了复杂的计算，但其确定性采样模式在开发和探索方面是次优的。在实践中，这些顺序抽样方法[8，12，14，39，41]由于其复杂的决策过程仍然消耗大量平行取样。为了缓解上述问题，一些作品采用并行采样，其通常独立地选择SCSampler [18]使用轻量级网络来估计每个固定长度剪辑的显着性得分，而DSN [43]通过动态采样区分来改进TSN [34每个片段中的本地帧它们都以有限的决策空间为代价，以非顺序的方式执行抽样过程，导致由于整体信息空缺而导致次优选择。MARL [37]利用多代理并行拾取帧，并且必须在许多迭代中通过繁重的CNN才能为所有代理产生STOP操作。其他作品通过选择输入分辨率[25]，选择图像补丁[35]或分配不同的位[30]来降低计算成本。相比之下，我们的方法依赖于一个简单的一步再学习优化，不需要多个步骤来确定最终的帧选择。此外，我们不使用任何基于RNN的模块，而是直接为视频级建模添加更全面的功能。我们制定了一个视频到一个剪辑的冷凝框架的问题，并表明，一个合理的奖励函数，与自适应帧数预算，可以导致显着的性能在理论和实践中。视频摘要。视频摘要[1，13，44，46]旨在选择一组视频剪辑或帧，以生成总结视频内容的简短摘要。DSNet [46]使用了时间兴趣提案策略以解决视频总和的时间一致性问题。PGL-SUM [1]试图通过使用多个多头注意机制来克服基于RNN的摘要架构的缺点。而不是视频摘要，我们的方法侧重于有效的视频13897·|{\fnSimHei\bord1\shad1\pos（200，288）}|--不××不--·|----1不2不12不识别，其目的是利用尽可能少的计算成本，以获得良好的识别性能。3. 方法与大多数旨在通过渐进地选择几个帧或剪辑来促进有效视频识别的现有作品不同，我们的目标是将修剪/未修剪的视频压缩成具有尽可能少的帧的单个剪辑全球特色服务��×��shape线性投影��×��shape向量化多项分布帧候选��第1，��（·|��，��L）同时为视频识别保留足够的时空线索。为此，我们介绍了OCSampler，一个高效和有效的框架，将视频压缩成一个集成的剪辑。使用OCSampler，可以在不牺牲精度的情况下显著降低计算开销。我们首先描述了OCSampler的组成部分然后我们介绍了每个组件的训练算法最后，我们通过考虑自适应帧数预算来扩展我们的框架，该预算为每个视频分配不同的计算量。3.1. 网络架构概况. 图2展示了我们方法的概述。给定输入视频，我们首先沿着时间维度均匀地采样TOC-采样器首先使用轻加权的略读网络以较低的分辨率略读帧候选，以获得粗略的帧级特征。然后，特征被馈送到策略网络π中以跨帧编码时空信息并确定最佳帧集以形成集成剪辑，其最大化由来自分类器fC的输出参数化的奖励函数。分类器fC将单个剪辑作为输入并预测动作类别。值得注意的是，OCSampler仅在一个步骤中获得集成剪辑在以下部分中，我们将详细描述这些组件。Skim网络是一个轻量级网络，用于提取候选帧的深层特征它被设计为提供跨不同时间的全局视图，用于确定应该选择哪些帧来形成分类器fC的剪辑。可以插入像TSM [22]这样的组件，以使Skim网络具有在候选帧之间融合信息的能力。请注意，与分类器fC相比，fS引起的额外计算成本可以忽略不计。形式上，给定候选集v1，v2，. . . ，vTuni-沿时间维度以空间大小HW进行形式采样，首先将其调整大小为较低的分辨率HW然后发送到fS以生成全局视频描述符zS：图3. 策略网络的体系结构。全局上下文特征z S被馈送到线性投影层，然后进行向量化操作，其输出在帧候选者上建立多项式分布π（zS，θL）（这里我们以9为例）。在训练期间，我们对帧v1，v2，. . .，vN，而在测试时，我们直接选择具有最大N softmax概率的帧。用于形成每个视频的突出剪辑注意，该过程仅在一次迭代中执行，并且不使用复杂的基于CNN或基于RNN的模块，而是使用一个线性投影fL，后面是具有有效剪辑相关策略函数的Softmax函数fLpL={pL，pL，. - 是的- 是的，pL}= fL（{zS，zS，. - 是的- 是的，zS}）），（2）其中pL是指每个帧的softmax概率。形式上，如图3所示，π确定从候选v1，v2，. . .，vT被发送到分类器fC。由于目标是确定一个代表性的剪辑，而不是几个显着的帧，它涉及作出集级决策，这是不可微的，比作出二进制的，由于更大的搜索空间更难。考虑到这一点，我们仍然将π形式化为一步马尔可夫决策过程（MDP），并使用强化学习对其进行训练。具体地，选择剪辑v1、v2、. . .，vN由分布π（zS，θ L）得出。其中θL表示线性方程的可学习参数，射fL.在我们的实现中，我们在它们上建立一个多项分布，由π的输出概率参数化。在训练过程中，v1，v2，. . .，vN是根据相应的多项分布从策略中抽样产生的。在测试过程中，具有最大概率的候选者被采用在确定性推理过程中。分类器fC可以是在视频识别中使用的任何分类网络。它从策略网络π接收时间长度为N的片段，并输出视频的识别结果。具体来说，分类器fC直接处理N个帧{v1，v2，. - 是的- 是的，vN}，具有原始分辨率S s s SH×W，即、z={z1，z2，. -是的-是的，zT}=fS（{v∈1，v∈2，. -是的-是的，vT}），（1）p= f（{v，v，. - 是的- 是的，v}），（3）其中t是帧索引，并且zS在每个视频的基础上对每个帧的上下文信息进行编码策略网络π接收全局上下文特征zS从Skim网络fS，并定位哪些帧可以C1 2 N其中p表示每个类别的概率得分。值得注意的是，分类器fC占了我们框架中的大部分计算开销，并以13898. 所有排列的子集的可验证性（e. G. ，子集，--.在不同的情况下从T个候选中选择N个帧，我P我联系我们∈GI2IN12CI1我M|.Σ时间，而不是顺序地处理每个帧。这样的设计在理论上减少了计算复杂度，在实践中减少了推理时间。3.2. 训练算法在我们的训练算法中有两个阶段来优化OCSampler框架。第一阶段：在这一阶段，我们预热，通过目标数据集上的视频识别任务我们训练fS，然而，Eq。8只适用于小N（例如，，N<第10段）。在实验中，我们用概率来估计这一项-不8项），并发现可以优化策略网络或者是精确的或者是估计的概率。在我们的情况下，其中策略网络旨在弄清楚如何将视频压缩为一个剪辑而不是分别拾取几个帧，期望奖励r评估整合的剪辑V，即，，{v1，v2，. - 是的- 是的，vN}，根据随机采样大小为H×W的T个帧，以最小化训练集Dtrain上的交叉条目损失LCE（·）：视频识别为此，我们定义r为：r（{v1，. - 是的- 是的，vN}）尽量减少fSE{v1，v2，.，v<$T}∈Dtrain[LC E（p<$，y）].（四）=py（{v1，. - 是的- 是的，vN}）-EVUniformSample（{v1，.，vT}）py（V）（九）类似地，我们通过使用随机采样的N来预训练fC，H×W分辨率的帧：其中py是指对y的softmax预测（即，，con-尽量减少FCE{v1，v2，.，vN}∈Dtrain[LCE（p，y）].（五）fidence的地面真理标签，见方程。（3）第三章。当计算r时，我们取所有N个帧v1，. . . ..这里，y是指样品的相应标签。考虑到良好的识别性能，fS和fC具有从目标数据集上的任意样本中提取时空特征的能力，并提供具有较少噪声的高质量奖励信号，为策略网络π留下基础。第二阶段：优化政策网络。在这个阶段中，我们冻结在阶段I中学习的分类器fC的参数，并通过解决一步马尔可夫决策过程问题来用强化学习训练策略网络π基于由具有全局上下文特征zS的fL预测的概率pL（参见等式2），π接收指示该组合对于构建用于识别的剪辑有多有益的奖励r我们通过最大化奖励之和来优化π单帧判断引起的视觉错误。在Eq中的第二项9是指通过从候选中均匀地采样N个帧而由于再增强学习可能具有高方差并且收敛缓慢，因此我们引入了另一种不依赖于策略网络的策略来影响方差并且显著地稳定训练过程。3.3. 自适应帧数预算用相同的计算量等效地处理不同复杂度的视频仍然是次优的。为了克服这一点，我们将我们的OCSampler扩展到OCSampler+，它会自动学习为更容易的视频选择更少的帧，为更难的视频选择更多的帧。预算模块。我们添加一个额外的预算模块f最大πE{v1，v2，.，vN}π（·|zS，θL）[r].（六）B它将全局上下文特征zS作为Skim网络fS和策略网络π之间的输入。这些特征中的每一个都是在我们的实现中，我们采用现成的策略梯度算法[36]来求解方程。六、注意有不N这使得很难精确计算组合-随机概率和难以直接处理形式上，我们定义q（i1，. -是的- 是的，i NpL）作为以顺序（i1，. - 是的- 是的，i N）：pLpL首先传递到具有64个独立神经元的MLP的一个层（在所有流之间共享权重）。然后对得到的特征进行平均和线性投影，然后使用softmax函数来估计帧预算。训练自我监督。我们通过分析从考虑所有组合获得的统计数据来构建预算标签yB，其指示应该使用多少帧的概率。形式上，给定a视频，我们定义Gm ={g m，g m，. - 是的- 是的，gm}（其中1 ≤ m ≤不M从帧候选集合{v1，v2，. - 是的- 是的，vT}。我们1−pL1−N−1pLT和C=）作为包含m的组合的列表有N！对于N个元素的不同排列，我们注意所有N的集合！如.那么抽样的概率这N个帧可以通过对q求和来精确计算对于所有N！不同的排列：将每个项gm m发送到分类器fC以获得布尔值值a m0，1 ，它指定此组合是否-可以正确预测。之后，我们得到预测校正rm与估计的比率：q（i 1，. - 是的- 是的，iN |pL）= pL ××。-是的.×、（7）j=1Ij{v1，v2，…vN}I113899Prob=q（σ（i1），σ（i2），.，σ（iN）|pL）。（八）r m= a m/. TΣ。（十）σ∈P我13900(b)= 0.9,= 2.0##F = 1#F = 1080F(a)= 0.9,= 1.575F70F（c）=0.8， = 2.0正确的预测错误的预测帧数（#F）图4. 帧数预算和预测精度之间的权衡。我们的方法的统计量配备了一个预算模块，用于不同的和α的验证集的活动。在一定数量的#F处的圆面积表示65600 20 4060 80 100 120 140GFLOPs/视频使用#F帧进行预测的样本的百分比。容易示例使用更少的帧，具有更高的精度，而较难的示例使用更多的帧，导致增加的误分类。基于rm，我们使用rm来确定使用分类器fC正确预测视频所需的最小预算：y B=1，其中k=arg min（k ≤ ri）.（十一）图 5. ActivityNet 上的精度与效率曲线。我们提出的OCSampler获得了最好的识别精度与更少的GFLOPs比国家的最先进的方法。我们直接引用已发表论文中报道的数字。OCSampler提高了现有方法的性能。最后，我们提供了消融结果，以提供额外的-对我们政策学习的基本见解如果单标签更有可能导致准确性偏差，我们可以利用其他具有平滑函数的选项来平衡准确性和效率：4.1. 实验装置数据集。我们报告了我们的方法在四个数据集上的性能：（1）ActivityNet-v1.3 [2]由200个yB=.0如果ik，（十二）课程，并包含10，024培训视频和4，926 vali-I1α（i−k）如果i > k，平均时长为117秒的dation视频;（2）FCVID [15]标记有239个动作类别，其中α>1，是控制精度和计算成本之间权衡的超参数。示例如图4所示。然后，我们通过最小化预测概率和伪标签yB之间的交叉熵损失来学习预算网络的参数：L预算= LCE（zS，y B）。（十三）值得注意的是，估计帧预算的该过程也适用于一个步骤。类似于Eq。8，我们使用蒙特卡罗抽样估计rm方程。10个。此外，为了克服由于样本不平衡而导致的长尾问题，我们根据Eq的样本分布分配类权重。十三岁在训练过程中，我们首先使用skim网络fS优化预算模块fB，以获得帧预算估计，然后学习阶段中提到的策略网络π二.在推理过程中，我们选择fB中的最大概率作为使用的帧数。4. 实验在本节中，我们在广泛使用的数据集上进行了全面的实验，以验证我们的方法。我们首先简要介绍我们的实验装置。然后，我们将OCSampler与最先进的方法进行比较，#F = 1##F = 10##F = 1#F = 10多智能体[37]AdaFrame 10 [39][第12话]AR-Net [25]美国[14]LiteEval [38]AdaFrame 5[39]SCSampler [18]视频IQ [30][35]第三十五话最大平13901×包括45，611个训练视频和45，612个验证视频，平均持续时间为167秒;（3）Mini-Kinetics有200个来自Kinetics [17]的类，由[25，26]组装，包括121，215个训练视频和9，867个验证视频，平均持续时间为10秒;（4）Mini-Sports 1 M是完整Sports 1 M的子集[16]由[12]，包含每类30个培训视频和每类10个验证视频，总共487个动作类。评估指标。为了评估准确度，我们分别使用多类（Mini-Kinetics）分类的前1准确度和多标签分类（ActivityNet，FCVID和Mini-Sports 1 M）的平均平均精度（mAP）。为了衡量计算成本，我们使用千兆浮点运算（GFLOPs）作为效率反映，这是一个与硬件无关的度量。我们报告每个视频GFLOPs的所有实验，因为一些方法使用不同数量的帧每个视频识别。实作详细数据。实验在MMX2上进行[4]。如果没有指定，我们从每个视频中统一采样10帧作为所有数据集上的候选帧。在[14，25]之后，在训练期间，我们对所有帧采用随机缩放，然后是224224随机裁剪和随机翻转。对于轻量级CNN的输入，我们进一步降低视频帧的分辨率，13902××××××表1. 与ActivityNet-v1.3和Mini-Kinetics的最新技术水平进行比较。 OCSampler在准确性和效率方面优于现有方法，使用ResNet，SlowOnly和X3 D-S主干以及ImageNet/Kinetics预训练。主干列用于分类器，最佳结果用粗体表示。方法主干Activi地图tyNetGFLOPS微型动力学Top-1GFLOPSImageNet美国[38]百分之七十二点七95.161.0%99.0美国[18]百分之七十二点九42.070.8%41.9美国[25]百分之七十三点八33.571.7%32.0美国[30]74.8%28.172.3%20.4美国[35]百分之七十五点零26.6百分之七十二点九38.6美国[14]76.1%26.1百分之七十二点八19.7OCSamplerResNet百分之七十七点二25.8百分之七十三点七21.6OCSamplerResNet百分之七十六点九21.7百分之七十二点九17.5OCSampler+ResNet75.4%17.972.2%15.8动力学[19]第十九话84.0%701百分之七十九点二738[12]第十二届全国人大代表选举百分之八十九点九2640––美国[37]百分之九十7540––OCSamplerSlowOnly-5087.3%68.2百分之八十二点六27.3OCSamplerSlowOnly-10190.1%593--动力学美国[14]86.0%9.8––OCSamplerX3D-S86.6%7.9––128 128.在推理过程中，我们仍然为轻量级CNN提供128 128分辨率帧，并为所有采样帧提供224 224中心裁剪补丁的平均预测。如果没有提及，我们分别采用MobileNetV 2-TSM和ResNet 50作为撇除网络fS和分类器fC在策略网络π中使用隐藏大小为1280的一层全连接网络。T默认设置为104.2. 主要结果和分析与最先进的方法进行比较。ActivityNet和Mini-Kinetics的结果见表1。对于ImageNet预训练的案例，我们使用[14]提供的ResNet- 50模型作为分类器骨干，并使用T=10与[14]保持一致。OCSampler优于所有其他方法，通过获得增强的准确性与高达 5GFLOPs 减少ActivityNet和迷你动力学。特别是，我们在ActivityNet上以超过4.4 GFLOPs的性能优于所有其他方法，并且使用 AdaFocus [35]实现相同的 Top-1 精度，使用的GFLOPs不到Mini-Kinetics的一半。对于Kinetics预训练的情况，我们使用SlowOnly模型作为分类器主干，可以观察到我们的方法在效率方面大大优于替代基线特别是，在ActivityNet上，我们的表现优于竞争对手中的领先方法MARL [37]，11个国家。7.更少的计算开销对于Mini-Kinetics，我们也超过了Ada 2D [19]，准确率提高了3.4%，0更少的GFLOPs。准确性的提高主要归因于我们框架中没有限制的更大搜索空间，而效率的提高归因于视频压缩的合理奖励函数（详见4.3节）。为了证实表演者-13903联系我们表2. OCSampler和其他目前提出的方法在ActivityNet上的实际效率表现。在NVIDIA TITAN Xp GPU上评估吞吐量。这里我们使用 MN 、 MN-T 、 RN 和 SLOW 分别表示MobileNetV 2、MobileNetV 2-TSM、ResNet和SlowOnly。最好的结果是粗体。方法骨干地图GFLOPS吞吐量（视频/s）ImageNetAdaFrame [39]MN+R5071.5%79.06.4[第14话]ResNet-5076.1%26.119.1AR-Net [25]MN+RN百分之七十三点八33.423.1AdaFocus [35]MN+RN百分之七十五点零26.644.9OCS采样器动力学MN-T+R50百分之七十六点九21.7123.9（↑2.8x）MARL [37]SEResNeXt-152百分之九十77150.5[第12话](R2+1）D-152百分之八十九点九26400.8OCS采样器MN-T+SLOW10190.1%5934.4（↑5.5x）我们的框架并不局限于分类器的类型，我们使用X3D-S主干进行实验[14]。OCSampler使用同样轻量级的X3 D-S作为主干，实现了更高的精度，GFLOPs减少了1.9%，节省了13帧用于推理。这证明了我们的框架的优越性，有效的视频识别与任何分类。图5显示了不同使用帧数量的结果。我们在N2、3、4、6、8内改变所使用的帧的数量，并绘制相应的mAP与N. GFLOPs权衡曲线在ActivityNet。我们还提出了目前的国家的最先进的各种计算成本。可以观察到，OCSampler在效率和精度之间实现了相当好的权衡。自适应帧数预算。我们调查的effec- tiveness的扩展OCS采样器与帧号芽-得到通过改变每个视频的计算开销量。图4显示了不同α和β值时的精度和处理帧数。根据等式11、Eq.12，与较低的α（第二行）相比，较高的α鼓励更多的视频使用较少的帧进行识别（第一行），而与较低的α（第三行）相比，较高的α用作更严格的阈值，以抑制使用较少的帧进行识别（第二还可以看出，使用的帧数越少这种趋势是可取的，因为较容易的样本需要较少的计算成本，而较难的需要更多的开销。实际效率。为了更好地了解OCSampler所实现的效率，我们还在单个NVIDIA TI- TAN Xp GPU上测试了不同方法的实际推理速度表2表明，与其他方法相比，我们的实际加速是显着的，这归因于我们的框架中没有多次迭代的所有帧的一步决策过程。FCVID和Mini-Sports 1 M上的结果。如表3所示，我们的方法显示出优异的功效和效率。如果没有额外的模式，OCSampler优于-13904表3. 与Mini-Sports 1 M和FCVID。OCSampler实现了最佳的mAP，同时显著节省了GFLOP。Mini-Sports1M FCVID表5. 决策空间的有效性。对于所有设置，帧候选的数目N被设置为6。对于T= 6，我们直接将帧发送到分类器而不进行采样。方法mAP GFLOPs mAP GFLOPs表4. 帧选择策略的比较。我们报告了不同N数下的结果。所有策略都使用相同的分类器和帧候选，其中T被设置为10。政策地图N= 1N = 2N = 4N = 6确定性策略随机均匀帧退出百分之五十点一百分之五十四点二百分之五十四点二百分之六十二点二百分之六十五点五百分之六十二点二71.2%百分之七十二点六百分之七十点四百分之七十三点八百分之七十三点八百分之七十四学习策略框架奖励香草奖励我们的百分之六十一点五60.5%百分之六十一点五68.8%69.7%70.6%百分之七十四点二百分之七十五点二百分之七十五点八百分之七十六点二76.6%百分之七十七点二在Mini-Sports 1 M上使用的计算量减少了38.8%，在mAP上实现了1.4%的改进，减轻了AR-Net上23.6%的计算开销。4.3. 消融研究学习选择政策的有效性表4总结了不同选择策略的效果。对于决定性策略，我们研究了三种选择：（1）随机抽样框架，（2）均匀抽样框架，(3)FrameExit提出的确定性策略，可以看作是从稀疏到密集解码视频。此外，我们还考虑使用不同的奖励函数进行强化学习：（1）帧奖励考虑每个帧的置信度而不是整合的剪辑作为奖励，（2）vanilla奖励删除Eq中的第二项。九是奖励。可以观察到，学习的策略具有更好的性能，并且通过我们设计的奖励函数获得了最好的结果。值得注意的是，当N设置为2或4时，统一策略似乎比帧退出策略更强。这是一个合理的观察，因为在这些情况下，FrameExit策略从视频的前半部分收集更多的帧，但忽略了后半部分，而统一策略利用均匀采样的帧来杠杆化时间信息。决策空间的有效性。我们研究了决策空间的有效性，通过使用不同数量的候选帧。如表5所示，仅采用T=16帧候选导致mAP增加4.0%仅具有1.7GFLOP的额外计算开销。一个有趣的现象是，扩展框架候选人导致精度性能在开始时显著上升，但增长逐渐变得稳定帧候选数68101624地图百分之七十四百分之七十六百分之七十七百分之七十八百分之七十八LiteEval [38]百分之四十四点七66.2百分之八十94.3SCSampler [18]百分之四十四点三42.081.0%42.0AR-Net [25]45.0%37.681.3%35.1[26]第二十六百分之四60.381.6%45.013905表6. 从OCSampler中选择的帧的通用性。在这里，我们将所有分类器的N设置为4。RN、MN-T和SLOW分别表示ResNet、MobileNetV 2-TSM和SlowOnly。消融RNX3D-S最大平均接入点（%）R（2+1）DMN-T慢基线67.562.161.157.277.1OCS采样器75.8（↑8.3）68.3（↑6.2）67.2（↑6.1）62.0（↑4.8）81.9（↑4.8）因为候选集变大，这可能是由于视频信息的饱和在这个意义上，可识别集合包括显著帧以表示视频的某些内容。随着候选集的扩大，压缩整个视频时会涉及更多的显著帧，同时由于引入了时间冗余，重复信息也可能会污染识别性能选定帧的通用性。这些选择的帧具有很好的通用性，可以在不增加训练调度器的情况下提高其他分类器如表6所示，我们直接将OCSampler使用ResNet-50选择的帧应用于其他主干，这也导致识别性能的显著改善。5. 结论在本文中，我们提出了一个既准确又有效的采样框架，通过压缩一个视频到一个剪辑在一个步骤，我们称之为OCSampler。我们的OCSampler避免了沉重的计算开销和dresses的问题，存在于大多数采样方法的多个推理时间。此外，我们设计了一个简单合理的奖励函数，将一个视频片段中的所有帧集中考虑而不是单独考虑，在不牺牲效率的前提下，取得了很好的准确性。我们进一步扩展我们的方法，选择自适应的帧数，通过采用帧数预算模块。在四个被广泛使用的基准上的实验验证了我们的方法在识别准确率、选择转移、计算成本和实际速度方面优于现有的工作。鸣谢。本课题得到了国家自然科学基金项目（No.62076119，No.61921006）、江苏省创新人才与创业者计划、江苏省软件新技术与产业化协同创新中心的资助。上海市科学技术委员会（批准号：20DZ1100800）。13906引用[1] 埃夫兰皮奥斯·阿波斯托莱什、乔治斯·巴拉乌拉斯、瓦西莱奥斯·梅扎里斯和扬尼斯·帕特雷。结合全局和局部注意与位置编码的视频摘要。2021年IEEE多媒体国际研讨会（ISM），第226-234页。IEEE，2021。3[2] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频基准。在 Proceedings of the IEEEconference on computer vision and pattern recognition，第961-970页，2015中。二、六[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。一、二[4] MMAction2贡献者。Openmmlab的下一代视频理解工具箱和基准测试。github.com/open-mmlab/mmaction2，2020. 6[5] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 2

下载后可阅读完整内容，剩余1页未读，立即下载