从视频中采样显著片段以实现高效动作识别

146 浏览量更新于2023-10-12 收藏 802KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SCSampler：从视频中采样显著片段以实现高效的动作识别Bruno Korbar Du Tran Lorenzo TorresaniFacebook AI{bkorbar，trandu，torresani}@ fb.com摘要虽然许多动作识别数据集包括简短的剪辑视频的集合，每个视频包含相关动作，但现实世界中的视频（例如，在YouTube上）表现出非常不同的属性：它们通常是几分钟长，其中简短的相关剪辑通常与包含很少变化的延长持续时间的片段交错。将动作识别系统密集地应用于这样的视频内的每个时间片段是非常昂贵的。此外，正如我们在我们的实验中所示，这导致亚最佳识别精度，因为来自相关剪辑的信息预测在视频的长无信息部分上被无意义的分类输出超过。在本文中，我们介绍了一个轻量级的我们证明，计算成本的动作识别未修剪的视频可以大大减少调用识别只在这些最突出的剪辑。此外，我们表明，这会产生显着的收益相比，所有剪辑或随机/均匀选择的剪辑的分析识别精度。在Sports1M上，我们的剪辑采样方案将已经最先进的动作分类器的准确性提高了7%，并降低了超过15倍的计算成本。1. 介绍大多数现代动作识别模型通过在固定时间长度的剪辑上应用深度CNN来操作[40，6，44，50，11]。视频级分类通过在整个视频上聚集剪辑级预测来获得，或者以简单平均的形式，或者通过对时间结构进行建模的更复杂的方案[33，45，17]。在整个序列上密集地对剪辑分类器进行评分是用于短视频的合理方法。然而，对于可能长达一小时的真实世界视频，例如Sports1M数据集中的一些序列，它在计算上变得不切实际[24]。除了计算成本的问题，长视频往往包括具有延长的持续时间的段，其为动作类的识别提供不相关的汇集来自所有剪辑的信息而不考虑它们的相关性可能导致较差的视频级分类，因为在长的不重要片段上，信息性剪辑预测的数量超过无信息性预测。在这项工作中，我们提出了一个简单的方案来解决这些问题（见图1）。1用于该方法的高级说明）。它包括训练一个非常轻量级的网络来确定候选剪辑的显著性由于该网络的计算成本比用于动作识别的现有3DCNN的成本低一个或多个数量级[6，44]，因此可以在甚至长视频的所有剪辑上有效地进行评估我们将我们的网络称为SCSampler（显著片段采样器），因为它从视频中采样一组减少的显著片段，以供动作分类器分析。我们证明，限制昂贵的动作分类器只运行在SCSampler确定为最突出的剪辑上，不仅在运行时产生显着的节省，而且在视频中也有很大的改进分类精度：在Sports1M上，我们的方案比现有的最先进的分类器产生了15倍的加速比和7%的准确率增益。效率是SC采样器设计的关键要求。我们提出了我们的采样器的两个主要变种第一种直接对压缩视频进行操作[23，52，56]，从而消除了对昂贵解码的需要。第二种方法只考虑音频通道，这是低维的，因此可以非常有效地处理。在最近的多媒体工作[2，4，15，35]，我们的基于音频的采样器利用音频和视频的视觉元素之间的固有语义相关性。我们还表明，我们的基于视频的采样器与基于音频的采样器相结合，导致识别精度的进一步提高。我们提出并评估了两个不同的学习目标显着剪辑采样。其中一个训练采样器以最佳方式与给定的剪辑分类器一起操作，而第二个配方是独立于分类器的。我们表明，在某些设置中，前者导致提高准确性，而后者的好处是，它可以与任何剪辑分类器一起使用，使该模型成为一个62326233通用且功能强大的现成工具，用于提高基于剪辑的动作分类的运行时间和准确性最后，我们表明，虽然我们的采样器是在训练集中的特定动作类上训练的，但它的好处甚至可以扩展到识别新的动作类。2. 相关工作视频电平预测(a) 密集预测视频电平预测夹子分类器夹夹分类器分类器SCSampler(b) 我们建议的方法已经针对各种应用研究了在视频内选择相关帧、剪辑或片段的问题。例如，视频摘要[18，19，29，37，56，57，58]和自动生成体育高光[30，31]需要通过连接与最具信息性或最激动人心的时刻相对应的一小组片段来创建原始视频的更短版本。这些系统的目的是生成令用户愉悦和引人注目的视频合成。相反，我们的模型的目标是选择一组固定持续时间的片段（即，剪辑），以便使视频级分类尽可能准确和明确。与我们的任务更密切相关的是动作定位问题[22，39，38，54，61]，其中目标是在给定的未修剪视频中定位每个动作的时间开始和结束，并识别动作类。动作定位通常通过两步机制[5，8，5，14，15，21，28，1]来实现，其中首先是动作建议方法识别候选动作片段，然后是更复杂的方法验证每个候选者的类别并细化其时间边界。我们的框架是让人想起这个两步的解决方案，因为我们的采样器可以被视为选择候选剪辑的准确评估的动作分类器。然而，我们的目标和动作定位之间存在几个关键的差异。我们的系统是针对视频分类，其中的假设是，每个视频包含一个单一的动作类。动作建议方法解决了在输入视频中找到不同长度和可能属于不同类别的片段的难题虽然在动作本地化中，验证模型通常使用提案方法产生的候选片段进行训练，但在我们的场景中情况正好相反：对于给定的预先训练的剪辑分类器，学习采样器，该预先训练的剪辑分类器不被我们的方法修改。最后，最根本的我们的采样器必须比剪辑分类器快几个数量级，这样我们的方法才有价值。相反，大多数动作建议或定位方法基于光流[27，28]或深度动作分类器特征[5，15，54]，其通常至少与剪辑分类器的输出一样昂贵。例如，TURN TAP系统[14]是现有最快的行动建议方法之一，但其计算成本超过我们方案的一个数量级以上且持续60图1：概述：通过对（a）密集剪辑级预测与（b）仅为突出剪辑计算的所选预测求平均来进行视频级分类。SCSampler通过消除对无信息剪辑的预测，获得了准确性增益和运行时加速秒的未修剪视频，TURN TAP的成本为4128 GFLOPS;在60秒内密集运行我们的剪辑分类器（MC 3 - 18[44]）实际上成本更低，为1097 GFLOPs;我们的采样方案大大降低了成本，仅为168 GFLOP。更接近我们的意图的方法是从考虑中删除视频的无信息部分。这通常是通过时间模型来实现的，该时间模型通过利用过去的观察来预测接下来要考虑哪些未来帧来我们的方法不是学习跳过，而是依赖于快速采样过程，该过程评估视频中的所有片段，然后对最突出的片段进行我们的方法属于通过聚合来自长视频的时间信息来执行视频分类的工作类型[13，32，33，36，45，46，47，48，49，51，62]。我们的聚合方案是非常简单的，因为它只是平均的分数的动作分类器在选定的剪辑。然而，我们注意到，最新的最先进的动作分类器正是在这个简单的方案下操作。例子包括双流网络[40]，I3D [6]，R（2+1）D[44]，非本地网络[50]，SlowFast [11]。虽然在这些先前的研究中，剪辑是密集或随机采样的，但我们的实验表明，我们的采样策略在密集、随机和均匀采样的准确性上都有显着提高，并且与随机采样一样快3. 技术途径我们的方法包括从视频中提取一小部分相关的片段，通过使用轻量级的显着性模型对每个片段进行密集评分。我们将此模型称为“采样器”，因为它用于从视频中采样剪辑。我们在3.1小节中正式定义了任务，在3.2小节中继续为采样器提供两个不同的学习目标，最后在3.3小节中讨论采样器架构选择和功能。夹子分类器夹子分类器夹子分类器夹子分类器夹子分类器夹子分类器夹子分类器夹子分类器6234i=1i=1i=1nn3.1. 问题公式化基于剪辑级预测的视频分类。我们假设我们给出了一个预训练的动作分类器f：RF×3×H×W→[0，1]C，它对具有空间分辨率H × W的F个RGB帧的短的、固定长度的剪辑进行操作，并在一组动作类{1，. . .，C}。我们注意到，大多数现代动作识别系统[6，12，42，44]都属于这个模型并且典型地，它们将帧数F限制为仅跨越几秒，以便在训练和测试期间保持存储器给定任意长度T的测试视频v∈RT×3×H×W，视频-通过剪辑分类器F实现通过首先将视频v分割成一组剪辑{v（i）}L我们的剪辑采样器。为了实现我们的目标，我们提出了一个简单的解决方案，包括学习一个高效的剪辑级显着性模型s（。），其为视频中的每个剪辑提供[0，1]中的具体地说，我们的显着性模型s（. ）将快速从原始数据计算的裁剪特征φ（i）=φ（v（i））∈Rd作为输入裁剪v（i）和具有低维数（d），使得每个可以非常有效地分析剪辑。显著性模型s：Rd-[0，1]被设计为比f快几个数量级，从而使得能够在视频的每个单个剪辑上对s进行评分以找到K个最显著的剪辑而不增加任何显著的开销。集合S（v;K）然后获得为S（v;K）=topK（{s（φ（i））}L），其中topK返回集合中前K个值的索引。我们（一）F×3×H×Wi=1示出了在这些选定集合上评估F，即，计算其中每个剪辑v∈R由Fadja-f组成（v）=aggr（{f（v（i））}））结果显著-其中L表示剪辑的总数S（v;K）i∈S（v;K）在视频中分割通常是通过每F帧取一个剪辑来完成的，以便具有一组跨越整个视频的非重叠剪辑。然后，通过聚合各个剪辑级预测来计算最终的换句话说，如果我们用aggr表示聚合运算符，则视频级视频分类器得到如下：f（v）=aggr（{f（v（i））}L）。大多数情况下，聚合器是一个简单的池操作符其平均单个剪辑得分（即，f（v）=与聚合剪辑级别对所有剪辑进行预测。为了学习采样器s，我们使用训练集D未修剪的视频示例，每个都用指示在视频中执行的动作的标签注释： D={ （ v1 ， y1 ）， . . . ，（ vN ， yN ） } ，其中vn∈RTn×3×H×W表示第n个视频，yn∈ {1，. . . ，C}指示其动作标签。在我们的实验中，我们使用相同的训练集D用于训练剪辑分类器F的一组示例。ΣLi=1 f（v（i）[6，11，40，44，50]但更复杂这一设置使我们能够证明，在识别增益-点火精度不是由于利用了额外的数据，基于RNN的方案[34]也已被采用。从选定的剪辑视频分类我们感兴趣的是视频v未被修剪并且可能相当长的情况。在这种情况下，将剪辑分类器f应用于每个剪辑将导致非常大的推理成本。此外，聚合来自整个视频的预测可能产生差的动作识别准确性，因为在长视频中，目标动作不太在每一个片段里都能看到因此，我们的目标是设计一种方法，该方法可以有效地识别视频中的K个显著剪辑的子集S（V;K）S（v;K）∈2{1，…，L}与|S（v;K）|= K），并且减少要从这组K个剪辑级预测计算的视频级预测而是学习检测每个视频内F先知取样器。在这项工作中，我们将我们的采样器与“oracle”O进行比较，该“oracle”O使用动作标签y来选择视频中最好的K个剪辑，以便使用f进行分类。 Oracle集合的形式定义为O（v，y; K）=top K（{fy（v（i））}L）。注意，通过查找产生K个最高动作分类的剪辑来获得O在昂贵动作分类器f下的地面实况标签y的得分。在真实场景中，无法构造oracle，因为它需要知道真实标签，并且它涉及在整个视频上密集应用f 然而，在这项工作中，我们ˆS（v;K）（v）=aggr（{f（v（i））}i∈S（v;K））（K是hyper-使用oracle来获得精度的上限在我们的实验中研究的参数）。通过约束通过将昂贵的分类器f应用于仅K个剪辑，即使在长视频上，推断也将是有效的。此外，通过确保S（v;K）包括v中最显著的剪辑的样本，识别准确性可以随着时间的推移而提高。相关的或不明确的剪辑将从考虑中被丢弃，并且将被防止污染视频级预测。我们注意到，在这项工作中，我们解决了给定的预训练剪辑分类器f的剪辑选择问题，我们的方法未对其进行修改。这使得我们的方法作为一个后训练过程，以进一步提高现有的分类器在推理速度以及识别精度方面的性能有用。采样器。此外，我们将oracle应用于训练集D以形成伪地面实况数据来训练我们的采样器，如下一小节所讨论的。3.2. SCSampler的学习目标在4.2.1节中，我们考虑了采样器的两种学习目标选择，并对它们进行了实验比较。3.2.1将采样器训练为动作分类器一种简单的方法来学习采样器s，首先在训练集D上训练一个轻量级动作分类器h（φ（i））∈[0，1]C，方法1/L为f6235是形成剪辑示例（φ（i），yn）us。6236nnn取低维裁剪特征φ（i）=φ（v（i））∈Rd。3.3.1目视取样器n n请注意，这相当于假设训练视频中的每个剪辑都包含目标动作的表现形式。然后，给定新的未修剪测试视频v，我们可以计算视频中剪辑的显著性得分作为C类上的最大分类得分，即，s（φ（i））=maxc∈{1，.，C}hc（φ（i））.背后的基本原理这种选择是期望突出的剪辑引起强烈的分类器的响应，而不相关或模糊的剪辑可能导致对所有类别的弱预测我们将这种损失的变体称为 AC（Action Classification）。3.2.2将采样器训练为显著性排序器AC的一个缺点是采样器被训练为独立于模型f的动作分类器，并且假设所有剪辑都是同等相关的。相反，理想情况下，我们希望采样器选择对我们给定的f最有用的剪辑。为了实现这一目标，我们建议训练采样器，以识别视频中的剪辑相对于正确的动作标签的f的分类输出的相对重要性为了实现这一目标，我们定义用于片段对的伪地面实况二进制标记z（i，j（i，j）来自同一视频vn：.Wu等人。[52]最近引入了一种直接在压缩视频上训练的精确动作识别模型。诸如MPEG-4和H.264之类的现代编解码器通过将信息存储在一组稀疏I帧，每个I帧后面跟着一个P帧序列。I帧（IF）将视频中的RGB帧表示为图像。每个I帧之后是11个P帧，其根据运动位移（MD）和RGB残差（RGB-R）对11个后续帧进行编码。MD捕获帧到帧2D运动，而RGB-R在已经应用MD场以重新扭曲帧之后在[52]中，这三种模态（IF，MD，RGB-R）中的每一种都为视频中的有效和准确的动作识别提供了有用的信息。受此之前工作的启发，我们在这里使用前一小节中概述的学习目标，在这三个输入上训练三个独立的ResNet-18网络[20]作为采样器。第一个ResNet-18将大小为高×宽×3。第二个是在MD帧上训练的，其大小为H/16×W/16×2：2个通道以分辨率对水平和垂直运动位移进行编码。z（i，j）=1iffyn（v（i））> fy（五（j））（一）比原始视频小16倍第三n-1否则我们通过最小化这些对的排名损失来训练sResNet-18被喂入大小为H×W×3的单个RGB-R。在测试时间，我们平均这3个模型的预测，内的所有I帧和P帧（MD和RGB-R）（一）（j）.（i，j）（一）（j）对该片段进行缩放以获得该片段的最终全局显著性分数n（φn，φn）=max−zn[s（φn）−s（φn）+η]， 0（二）其中η是裕度超参数。这种损失鼓励采样器对在正确标签下产生较高分类分数的较高剪辑进行我们将这种样本损失称为SAL-RANK（显着性排名）。3.3. 采样器架构由于严格的运行时间要求，我们限制我们的采样器操作两种类型的功能，可以有效地从视频计算，并产生一个非常紧凑的表示处理。第一类型的特征直接从压缩视频获得，而不需要解码。先前的工作已经表明，从压缩视频计算的特征甚至可以用于动作识别[52]。我们在第3.3.1小节中详细描述了这些特征。第二种类型的特征是音频特征，其甚至比压缩视频特征更紧凑且计算更快。最近的工作[2，3，4，15，26，35，60]已经表明，音频通道提供关于视频内容的强线索，并且这种语义相关性可以被用于各种应用。在第3.3.2小节中，我们讨论了如何利用低维音频模态来有效地找到视频中的突出片段。作为ResNet-18的替代方案，我们还尝试了26层的轻量级ShuffleNet架构[59]。我们在4.2.2中比较了这些模型。我们没有给出[52]中使用的大型ResNet-152模型的结果，因为它增加了每个剪辑3 GFLOPS的成本，远远超过了我们应用程序的计算预算。3.3.2音频采样器我们在[7，2，26]中使用的VGG类音频网络之后对我们的音频采样器进行建模。具体地，我们首先从两倍于视频剪辑长度的音频片段中提取MEL谱图，但是步幅等于视频剪辑长度。选择该步幅以获得动作识别器f使用的每个视频剪辑的基于音频的显著性分数。然而，对于音频采样器，我们使用的观察窗口是视频剪辑的两倍长，因为我们发现这会产生更好的结果。一系列200个时间样本在每个音频段内获取并使用40MEL过滤器。这产生大小为40×200的描述符。这种表示是紧凑的，可以通过以下方式进行有效分析：采样器。我们将此描述符视为图像，并使用18层的VGG网络[41]对其进行处理。补充材料中提供了该建筑的详细情况。n62373.3.3结合视频和音频显著性由于音频和视频提供相关的，但不同的线索，我们研究了几种方案相结合的显着性预测这两种方式。利用AV-凸分数，我们表示通过凸组合αsV（v（i））+αs V（v（i））来简单地组合基于音频的分数sA（v（i））和基于视频的分数sV（v（i））（1−α）sA（v（i））其中α是标量超参数。方案AV-凸列表代替地首先产生两个单独的通过根据音频采样器和视觉采样器独立地对每个视频内的剪辑进行排序来排列列表然后，该方法根据两个位置的凸组合，为每个剪辑计算其在两个列表中的排名位置的加权平均值。最终检索根据该度量的前K个剪辑。方法AV-相交-列表计算音频采样器的前m个剪辑与视频采样器的前m个对于每个视频，m逐渐增加，直到交叉点恰好产生K个剪辑。在AV联合列表中，我们通过根据视觉采样器（具有超参数K’s. t）选择K’顶部剪辑来形成K个K′

下载后可阅读完整内容，剩余1页未读，立即下载