音频预览实现未修剪视频动作识别的方法及其效果

79 浏览量更新于2023-10-25 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1试听试听：通过预览音频识别动作Ruohan Gao1，2*Tae-Hyun Oh2† Kristen Grauman1，2 Lorenzo Torresani21 TheUniversity of Texas at Austin2 Facebook AI Researchrhgao@cs.utexas.edu，{taehyun，grauman，torresani}@ fb.com摘要未修剪视频的视频剪辑面对海量的视频数据，目前昂贵的剪辑级分类器越来越不实用。我们提出了一个框架，在未经修剪的视频，使用音频作为预览机制，以消除短期和长期的视觉redundancies有效的动作识别。首先，我们设计了一个I MG A UD 2V ID框架，该框架通过从较轻的模态（单个帧及其伴随的音频）中提取来实现剪辑级功能，SkipSkip减少短期时间冗余以实现有效的剪辑，水平识别。其次，在I MG A UD 2 V ID的基础上，我们进一步提出了I MG A UD-S KIMMING，这是一种基于注意力的长短期记忆网络，它迭代地选择未修剪视频中的有用时刻，减少长期时间冗余，以实现高效的视频级识别。在四个动作识别数据集上的大量实验表明，我们的方法在识别精度和速度方面都达到了最先进的水平。1. 介绍随着便携式图像记录设备以及在线社交平台的日益普及，互联网用户每天生成和分享越来越多的根据最近的一项研究，到2021年，每个人需要超过500万年的时间才能观看到每月跨越全球网络的视频数量[1]。因此，必须设计出能够准确且高效地识别这些视频中的动作和事件的系统潜在的好处扩展到许多视频应用程序，包括视频推荐，摘要，编辑和浏览。动作识别的最新进展主要集中在构建在几秒的短时间窗口上操作的强大剪辑级模型[55，61，17，10，71，16]。为了识别测试视频中的动作，大多数方法密集地应用剪辑分类器并且聚合整个视频中的所有剪辑的预测分数尽管令人鼓舞*在Facebook AI Research实习期间完成的工作。†T.- H.他现在在部门。EE，POSTECH，Korea.图1：我们的方法学习使用音频作为伴随的视觉内容的有效预览，在两个层面上。首先，我们用更有效的图像-音频对处理取代了昂贵的视频剪辑分析。单个图像捕获剪辑内的大部分外观信息，而音频提供重要的动态信息。然后，我们的视频略读模块选择关键时刻（图像-音频对的子集）来执行有效的视频级动作识别。随着技术的进步，这种方法在视频未被修剪并且跨越几分钟甚至几小时的真实世界场景中变得在计算上不实用。我们认为，处理一个长的未修剪的视频中的所有帧或剪辑可能是不必要的，甚至适得其反。我们的关键见解是，视频中有两种类型的冗余，表现在短期剪辑和长期周期。首先，整个视频通常具有很高的时间冗余度（图1）。1）。许多剪辑重复捕获相同的事件，这表明没有必要处理所有剪辑。其次，即使在剪辑中也有重新定义：短时间内的视觉构图不发生突变;虽然帧之间存在时间动态（运动），但是时间上相邻的帧通常非常相似。因此，处理所有剪辑和帧可能是浪费的，特别是当视频非常长时此外，对于许多活动，视频中发生的实际动作可能非常稀疏。这是-十几个重要的时刻，是有用的识别，而其余的实际上分散分类。例如，在一个典型的冲浪视频中，一个人可能会说很长时间，10457图像-音频对10458--在他/她开始冲浪之前，时间和准备设备我们的想法是使用音频作为一个有效的视频预览，以减少剪辑级和视频级冗余长的未修剪视频。首先，我们提出了一个IMGAUD 2 VID教师-学生蒸馏框架来使视频描述者产生幻觉，而不是处理整个视频剪辑（例如，昂贵的3DCNN特征向量）从单个视频帧及其伴随的音频。基于我们的轻量级图像-音频网络，我们进一步提出了一种新的基于注意力的长短期记忆（LSTM）网络，称为IMG AUD-SKIMMING，它扫描整个视频并选择关键时刻进行最终的视频级识别。这两种想法都利用音频作为完整视频内容的快速预览我们提取的图像-音频模型有效地捕获了短范围内的信息，而略读模块通过跳过不相关和/或无信息的片段来执行快速的长期建模。在整个视频中。音频具有理想的特性，可帮助在未修剪的长视频中进行高效识别：音频包含动态和丰富的上下文时间信息[23]，并且最重要的是，与视频帧相比，处理音频在计算上更有效。例如，如图2所示 1, within a short clipof the action chopping wood, a single frame includes mostof the appearance information con- tained in the clip, i.e.,人、斧、树，而伴随音频（在这种情况下是斧击打树的声音）包含时间动态的有用线索。在整个视频中，音频也可以有益于选择对识别有用的关键时刻。例如，最初说话的人的声音可以暗示实际动作还没有开始，而电锯的声音可以指示动作正在发生。我们的方法自动学习这样的音频信号。我们在四个数据集（Kinetics-Sounds，Mini-Sports 1M，ActivityNet，UCF-101）上进行了实验我们的主要贡献有三方面。首先，我们是第一个提出用从音频中提取的有效代理来代替昂贵的剪辑描述符提取的人。其次，我们建议一种新颖的视频略读机制，其利用图像-音频索引特征来在未修剪的视频中进行有效的长期建模。第三，我们的方法推动了准确性和速度之间的权衡的包络有利;我们实现了最先进的结果，在未经修剪的视频中的动作识别与少数选定的帧或剪辑。2. 相关工作行动识别。视频中的动作识别在过去的几十年中得到了广泛的研究。研究已经从使用手工制作的局部时空特征的初始方法[37，72，66]过渡到中级描述符[50，30，67]，最近又过渡到深度视频表示。端到端学习语句[55，32，17]。已经提出了各种深度网络来对视频中的时空信息进行建模[61，10，49，71，16]。最近的工作包括通过递归网络[81，12]或排名函数[18]捕获长期时间结构，跨空间和/或时间池化[69，24]，对视频中的分层或时空信息建模[48，63]，建立长期时间关系[73，85]，或者通过将音频作为另一个（后期融合的）输入模态来提高准确性[76，41，70，34]。上述工作的重点是建立强大的模型，以提高识别，而不考虑计算成本，而我们的工作旨在执行有效的动作识别长的未修剪的视频。一些工作通过使用压缩视频表示[74，54]或设计高效的网络架构[78，89，11，62，39]来平衡准确性-效率权衡。相比之下，我们建议利用音频，使有效的剪辑级和视频级的动作识别长的未修剪的视频。行动建议和本地化。动作定位的目标[31，79，53，84]是在给定的未修剪视频中找到每个动作的时间开始和结束，并同时识别动作类。许多方法[8，79，40，68]首先使用行动建议来识别候选行动片段。虽然让人想起我们的音频预览机制，大多数行动建议方法的计算成本是几个数量级大。他们从视频中生成大量的剪辑建议，然后使用流[40]或深度特征[8，79]）进行建议选择。选择阶段通常甚至比最终分类更昂贵。相反，我们的方法解决视频分类，高效率是我们的设计要求。视听分析。最近的工作使用音频进行动作识别之外的视频理解任务，包括自监督表示学习[47，5，7，45，35，59]，视听源分离[45，2，14，20，83，22]，在视频帧中定位声音[6，52，60]，以及从视频生成声音[46，87，21，44，86]。与上述所有工作不同，我们专注于利用音频进行有效的动作识别。交叉模态蒸馏。知识蒸馏[29]解决了从较大模型训练较小模型的问题。我们建议从一个昂贵的剪辑为基础的模型，一个轻量级的图像-音频为基础的模型提取的知识。其他形式的跨模态蒸馏考虑将监督从RGB转移到流量或深度[28]，或者从视觉网络转移到音频网络，反之亦然[7，47，3，19]。在我们的相反方向，Dis- tInit [25]执行从预训练图像模型到视频模型的单峰蒸馏，用于从未标记视频中相反，我们执行从视频模型到图像-音频模型的10459VVV×∈·V·····≪----用于高效的基于剪辑的动作识别。选择帧或剪辑进行动作识别。我们的方法与有限的前期工作密切相关，在未修剪的视频中选择用于动作识别的显著帧或剪辑。虽然我们只使用弱标记的视频来训练，但有些方法假设有很强的人类注释，即，地面真实时间边界[80]或顺序注释迹线[4]。最近的几种方法[57，15，77，75]提出了用于视频帧选择的强化学习（RL）方法。在不使用来自强大的人类监督的指导的情况下，他们通过将代理限制在刚性动作空间[15]来简化学习过程，通过全局记忆模块[77]指导代理的选择过程，或者使用多个代理来协作执行框架选择[75]。与上述任何一种不同，我们引入了视频略读机制来选择视频中的关键时刻，由音频辅助。我们使用音频作为一种有效的方式来预览动态事件，以快速视频级别识别。此外，我们的方法既不需要强有力的监督，也不需要复杂的RL策略梯度，这通常是难以训练的。SCSam- pler [36]还利用音频来加速未修剪视频中的动作识别。然而，他们只考虑视频级的冗余采样声学或视觉显着剪辑。相比之下，我们解决剪辑级和视频级冗余，我们共同学习的选择和识别机制。我们包括一个全面的实验比较方法在这种流派。视频摘要。视频摘要工作还旨在选择关键帧或剪辑[38，26，42，82]，但目的是将视频的要点传达给人类观看者。相反，我们的工作旨在选择活动识别有用的功能。除了目标的差异，我们的迭代注意力为基础的机制是完全新颖的帧选择技术。3. 方法我们的目标是在未修剪的长视频中执行准确有效的动作识别。我们首先正式定义我们的问题（第二节）。3.1）;然后我们介绍我们如何使用音频作为剪辑级预览，以幻觉视频描述符仅基于单个静态帧及其伴随的音频片段（第二节）。3.2）;最后，我们介绍了如何利用图像-音频索引功能来获得视频级预览，并学习跳过未修剪视频中不相关或无信息的片段（第3.2节）。3.3）。3.1. 问题公式化给定一个长的未修剪的视频，视频分类的目标是分类到一个预定义的C类集合。由于可能很长，由于内存限制，通过单个深度网络处理所有视频帧通常很难。最新方法[55，32，61，10，49，62，71，16]首先训练剪辑分类器RISK（）以在具有空间分辨率HW的F帧的短固定长度视频剪辑VRF×3×H×W上操作，通常跨越几秒。然后，给定任意长度的测试视频，这些方法密集地将剪辑分类器应用于N个剪辑V1，V2，. . . ..最终的视频级预测通过聚合所有N个剪辑的剪辑级预测来获得如第1，这种用于视频识别的范例在两个级别上是非常低效的：（1）剪辑级-在每个短剪辑V内，时间上接近的帧在视觉上是相似的，以及（2）视频级-在每个短剪辑V中的所有剪辑上，通常只有几个片段包含用于识别动作的关键时刻。我们的方法通过音频的新颖用途解决了两个级别的冗余。每个视频剪辑V伴随有音频片段A.短剪辑V内的F个帧中的起始帧I通常已经包含大部分外观线索，而音频片段A包含丰富的上下文时间信息（回想图1中的木材切割示例）。图1）。我们的想法是用一个高效的图像-音频分类器Φ（）来取代功能强大但昂贵的剪辑级分类器，该分类器将F帧作为输入，该分类器仅将起始帧I及其伴随的音频片段A作为输入，同时尽可能多地保留剪辑级信息。也就是说，我们寻求学习Φ（·），使得<$（Vj）<$Φ（Ij，Aj），j ∈{1，2，. - 是的- 是的，N}，（1）对于给定的预先训练的剪辑分类器，节中3.2，我们设计了一个IMG AUD 2VID蒸馏框架来实现这一目标。通过这一步，我们取代了高维度的视频剪辑V1、V2、. . .，VN使用轻量级模型分析紧凑的图像-音频对{（I1，A1），（I2，A2），. - 是的- 是的，（IN，AN）}。接下来，在我们高效的图像-音频类的基础上为了解决视频级冗余，我们设计了一个基于注意力的LSTM网络，称为IMGA UD-SKIMMING。我们的IMGAUD-SKIMMING框架迭代地选择最有用的图像-音频对，而不是使用Φ（）也就是说，我们的方法有效地从视频中的N对的整个集合中选择T个图像-音频对的一个小子集（其中T N），仅聚合来自这些选定对的预测。我们提出了我们的视频略读机制在第二。三点三3.2. 剪辑级别预览我们提出了我们的方法来执行有效的剪辑级识别和我们的I MG A UD 2V ID蒸馏网络体系结构。如图在图2中，基于剪辑的模型将F帧的视频剪辑V作为输入，并且基于该视频量生成维度D的剪辑描述符zV。10460不不--···不不V IA1·2N12N不tttt−1t−1L图2：I MG A UD 2V ID蒸馏框架：教师模型是一个视频剪辑分类器，学生模型由一个以剪辑的起始帧为输入的视觉流和一个以音频频谱图为输入的音频流组成。通过只处理一个重要的是，处理一个剪辑的音频要比处理它的所有帧快得多，使音频成为一个有效的预览。参见第4.1成本比较蒸馏后，我们微调目标数据集上的学生模型，以执行高效的剪辑级动作识别。3.3. 视频级预览IMG AUD 2 VID将知识从强大的基于剪辑的模型提炼为高效的基于图像-音频的模型。接下来，我们将介绍如何利用提取的图像-音频网络来执行有效的视频级识别。回想一下，对于长的未修剪的视频，为了速度和准确性，只处理剪辑的子集是期望的，即，忽略不相关的内容。我们设计了IMG AUD-SKIMMING，一个基于注意力的LSTM网络（图1）。 3），其与图像-音频对序列{（I1，A1），（I2，A2），. . .，（IN，AN）}，其特征表示为{zI，zI，. - 是的- 是的，z1}，并且帧和剪辑A A a1 2 N昂贵的视频描述符将用于整个剪辑。一个完全连接的层被用来在动力学中的C类之间进行预测对于学生模型，我们使用双流网络：图像流将剪辑的第一帧I作为输入并提取图像描述符zI;音频流将音频频谱图A作为输入并提取音频特征向量zA。我们连接zI和zA以生成di的图像-音频特征向量z1，z2，. . .，zN 分别表示。在第t个时间步，LSTMcell 将 indexed 图像特征zI 和 indexed 音频特征zA，以及前一个隐藏状态ht−1和前一个cell输出ct−1作为输入，并产生当前隐藏状态ht和cell输出ct：h，c=LSTM。（其中，R2（）是在IM-GAUD 2 VID中使用的具有相同参数的相同融合网络。为了从特征序列中提取索引特征I和A，可以使用index-I。t t使用由两个完全连接的层组成的融合网络fixed（）最后一个完全连接的层用于产生C级预测，如教师模型。教师模型fields（）返回C个分类标签上的softmax分布。这些预测被用作训练与学生相使用以下对象来生成网络作业Φ（·）：需要执行操作该操作通常是非-可微的我们建议部署一个可区分的软索引机制，而不是像以前的工作[15，77，75]那样依赖于近似的策略梯度，如下所述。我们通过两个预测网络QueryI（·）和QueryA（·）从每个时间步的隐藏状态h t预测图像查询向量q I和音频查询向量q A。的查询向量qI和qA用于查询相应的t tLKL=−{（V，I，A）}c（V）log Φc（I，A），（2）C图像索引特征序列{z I，z I，. - 是的- 是的，z1}，并且音频索引特征{zA，zA，. - 是的- 是的，zA}。查询c分别表示教师模型和学生模型我们进一步对剪辑描述符zV和图像-音频特征施加1损失，以正则化学习过程：Σ操作旨在预测未修剪的部分视频对于识别适当的动作并决定下一步“看”和“听”哪里更有用。它是由注意力机制激发的[27，58，65，64]，但我们L1={（z，zI，zA）}拉斯−（z，z）<$1。（三）使该方案适应于选择有用的钼的问题用于未修剪视频中的动作识别。IMG AUD 2VID蒸馏的最终学习目标是这两种损失的结合L区=L1+λLKL，（4）其中λ是KL散度损失的权重训练是在图像和音频学生网络（分别产生表示zI和zA）和融合模型上相对于固定的教师视频剪辑模型完成的我们使用的教师模型是R（2+1）D-18 [62]教师模式lΩ（Ω）zVFC-Softmax视频剪辑V视频剪辑网zI起始帧I图像网络FC-SoftmaxSTFT音频频谱图A个zla音频网络n（zI，zA）StudentmodelΦ（Φ）L$损失KL发散损失融合层（其中，Φc（V）和Φc（I，A）是类的softmax得分V10461·√图4说明了我们的查询机制。首先，我们使用一个全连接层Key（）将索引特征z转换为索引键k。然后，我们得到了关注⊤序列中每个索引键的得分kqD是关键向量的维数softmax层将注意力分数归一化，并通过下式生成注意力权重向量w：. [k1k2. - 是的- 是的[kN]·q视频剪辑分类器，它是在Kinetics上预先训练的[33]。w=Softmax最大值、（6）10462Z（不H（t）Z（t+*H不htLSTMI指数II指数A步骤t步骤t+1LSTMz（不不不模态评分ssAz（t+*·不j=1jj不j=1jj图3：我们的IMG AUD-SKIMMING网络是一个LSTM网络，它与图像和音频索引特征的序列进行交互，以选择接下来要“看”和“听”的地方。在每一个时间步，它将当前时间步的图像特征和音频特征以及先前的隐藏状态和单元输出作为输入，并产生当前的隐藏状态和单元输出。当前时间步的隐藏状态用于通过图1所示的查询操作来预测未修剪视频中要关注的下一时刻。4.第一章所有选定时间步的平均池化的IMG AUD 2VID特征用于对视频中的动作进行最终预测。为此，我们预测两个模态分数si和sa，t t隐藏状态Ht通过双向分类层。sI和sA（sI，sA∈[0，1]，sI+sA=1）表示多tttttt系统决定依赖于视觉模态而不是音频模态，分别在时间步t。然后，通过聚合视觉和声学预测的特征向量，最终获得下一个时间步的图像和音频特征向量，如下所示：I=sI·指数I（wI）+sA·指数xI（wA），t+1t t t中文（简体）阿罗兹河=sI·指数xA（wI）+sA·指数A（wA）。转位结构t+1t t t t图4：基于注意力的帧选择机制。受迭代注意力的启发[43]，我们重复上述内容T步的过程，并平均所获得的图像-音频即其中kj= Key（zj），j∈ {1，2，. -是的- 是的，N}。m=1μT（（九）在每个时间步t（为了简单起见，我们省略t，如果ducible），可以通过arg_max（w）获得下一个时间步长的帧索引。然而，该操作是不可区分的。我们不是直接使用所选帧索引的图像和音频特征，而是使用索引特征序列的加权平均来生成聚集特征向量=Inde xI（wt）和ΔzA为Tj=1j jm是IMG AUD-SKIMMING精选的有用瞬间的特征总结。最后一个全连接层，后面跟着Softmax（），将m作为输入，并预测动作类别。然后，使用交叉熵损失和视频级动作标签注释来训练网络。电话+1一电话+1在优化IMGAUD-SKIMMING网络的同时，索引（wt）作为融合网络工作的输入，其中指数I（w）：=Nwz我，（七）对于在训练期间的固定数目的T步，在推断时间，我们可以根据计算预算在任何步处提前停止。此外，不是使用所有索引指数A（w）：=NwzA，wj∈{1，···，N} ∈R+.特征，我们还可以使用索引特征的子集，以在特征插值的帮助下加速推理看到查询操作在视觉和音频模态上独立地执行，并且产生不同的权重向量wI和wA，以分别找到视觉上有用的时刻和声学上有用的时刻。这两个权重向量可以给予序列中的不同时刻重要性。我们通过动态调整在每一步对每种模态的依赖程度来融合这些信息。秒4.2，了解使用稀疏索引功能和提前停止时效率和准确性权衡的详细信息4. 实验使用总共4个数据集，我们评估我们的方法，以准确和有效的剪辑级动作识别（第二节）。4.1）和视频级动作识别（第4.2）。I指数加权和∑z轴注意指数权重特征索引键融合层（融合层（查询SoftmaxkT q标度内积qkKey（英语：Key）w10463×××L数据集：我们的蒸馏网络在Kinet-ics上训练[33]，我们在其他四个数据集上进行评估：Kinetics- Sounds [5]、UCF-101 [56]、ActivityNet [9]和Mini- Sports1M [32]。Kinetics-Sounds和UCF-101只包含经过修剪的短视频，因此我们只测试它们的剪辑级识别; ActivityNet包含各种长度的视频，因此它被用作剪辑级和视频级识别的主要测试平台; Mini-Sports 1 M只包含未修剪的长视频，我们使用它来评估视频级识别。参见补充浏览这些数据集的详情。动力学-声音80807060604050200102030 40GFLOPSUCF-101504030200102030 40GFLOPSActivityNet0102030 40GFLOPS实施详情：我们在PyTorch中实现。对于IMG AUD 2VID，R（2+1）D-18 [62]教师模型将16个大小为112112的帧作为输入。学生模型使用ResNet-18网络来处理视频和音频流，其采用大小为112 112的起始RGB帧和大小为101 40（1秒）的单通道音频频谱图。音频段）作为输入。我们使用λ= 100作为方程4中的蒸馏损失。对于IMG AUD-SKIMMING，我们使用具有1，024个隐藏单元的单层LSTM，索引键向量的维度为512。我们在训练中使用T= 10个时间步长。参见补充有关详细信息4.1. 剪辑级动作识别首先，我们直接评估从视频模型中提取的图像-音频网络的性能我们对三个数据集中的每一个进行微调，以进行剪辑级识别，并与以下基线进行比较：• 基于剪辑的模型：R（2+1）D-18教师模式。• 基于图像的模型（蒸馏/未蒸馏）：ResNet- 18框架模型。未蒸馏的模型在ImageNet上进行预训练，蒸馏的模型是类似的我们的方法不同之处在于蒸馏仅使用可见流进行。• 基于音频的模型（蒸馏/未蒸馏）：的与基于图像的模型相同，除了这里我们仅使用音频流进行识别和提取。该模型在ImageNet上进行了预训练，以加速收敛。• 图像-音频模型（未提取）：与我们的方法相同的图像-音频网络，但没有蒸馏。对于每个基线，我们使用相应的模型作为初始化，并在相同的目标数据集上进行微调，以进行基于剪辑的动作识别。请注意，我们在这里的目的不是使用R（2+1）D-18（或任何其他昂贵的视频特征）来竞争识别准确性，而是证明我们提取的图像-音频特征可以更有效地近似图5比较了精度与我们的方法和基准的效率我们的蒸馏图像音频网络的工作实现的准确性相比，剪辑为基础的教师模型，但在一个大大降低了计算成本。此外，基于仅图像或仅音频提取的模型产生较低的准确性。这表明，图像或音频本身不足以使人产生幻觉。图5：Kinetics-Sounds、UCF-101和ActivityNet上的剪辑级动作识别我们将我们的模型的识别精度和计算成本与一系列基线进行比较。我们的IMG AUD 2VID方法在准确性和效率之间取得了良好的平衡。视频描述符，但是当组合时，它们提供足够的补充信息以减小与真实（昂贵）视频剪辑描述符的准确性差距。为了理解何时音频帮助最大，我们通过我们的IMGAUD 2VID蒸馏和基于图像的蒸馏来计算超分辨率视频描述符到地面实况视频描述符的距离。我们最好匹配地面实况的顶部剪辑往往是具有信息丰富的音频信息的动态场景，绞肉、跳踢踏舞、敲钹、吹风笛、摔跤和焊接。参见补充例如。4.2. 未修剪的视频动作识别在展示了我们的提取图像-音频网络的剪辑级性能之后，我们现在检查IMG AUD-SKIMMING模块对视频级识别的影响。我们在ActivityNet [9]和Mini-Sports 1 M [32]上进行了评估，其中包含长的未修剪视频。效率准确性权衡。在给出结果之前，我们介绍了如何使用特征插值来进一步提高系统的效率除了使用来自所有N个时间戳的特征之外，如第3.3，我们实验使用从图像-音频对的子集提取的稀疏索引特征，即，沿着时间轴进行二次采样受局部平滑动作特征空间[13]的启发，并基于我们的经验观察，即相邻视频特征可以很好地线性近似，我们通过计算成本低的线性插值来合成丢失的图像和音频特征，以生成长度为N的完整特征序列。图6a显示了使用不同子采样因子时的识别结果。我们可以看到，即使对索引特征进行激进的子采样，识别仍然是鲁棒的。接下来，我们研究早期停止作为一种额外的手段，以减少计算成本。与训练阶段重复10次略读程序不同，我们可以选择在几次重复基于图像（未提取）基于图像（蒸馏）基于音频（蒸馏）基于音频（未蒸馏）剪辑模型Image-Audio（undistilled）Image-Audio（ours）准确度（%）10464均匀准确度（%）平均精密度（%）RANDOMUNIFORMFRONTC输入ENDSCSAMPLER [36]D ENSELSTMNON-R确认我们的（稀疏/密集）ActivityNet迷你运动型1M63.735.464.835.639.017.159.029.738.117.469.138.466.3 63.5 67.537.3 34.1 38.070.3/71.139.2/39.9表1：ActivityNet（#类：200）和Mini-Sports 1 M（#类：487）上的视频级动作识别准确率（%）Kinetics-Sounds和UCF-101只包含简短的剪辑视频，因此不适用于此。我们的方法始终优于所有基线方法。我们的（稀疏）只使用了最后四个基线的计算成本的1/5，同时实现了很大的精度增益。更多计算成本比较请参见表272727868707464686030 20107 5 3 112345678 9 1070子采样因子(a) 特征插值的时间阶段(b) 第66章提前图6：在Activi- tyNet上使用稀疏索引功能或提前停止时，效率和准确性之间的权衡。均匀表示表1中的UNIFORM基线。步图6b显示了在不同时间步长停止时的结果。我们可以看到，前三个步骤产生了足够的识别线索。这表明我们可以在第三步附近停止，精度损失可以忽略不计参见补充对于Mini-Sports 1 M的类似观察。结果我们将我们的方法与以下基线和几种现有方法进行比较[80，15，77，75，36]：• 随机：我们从N个时间戳中随机抽取10个，并使用提取的图像-音频网络对来自这些选定时间戳的图像-音频对的预测进行平均。• UNIFORM：与之前的基线相同，除了我们执行均匀采样。• FRONT/ CENTER/ END：与之前相同，除了使用第一个/中心/最后10个时间戳。• DENSE：我们平均所有N个预测得分图像-音频对作为视频级预测。• SCSAMPLER [36]：我们使用[36]的思想，并从图像-音频分类器中选择产生最大置信度分数的10个图像-音频对我们对它们的预测进行平均以产生视频级预测。• LSTM：这是一个单层LSTM，就像我们的模型一样，但它是使用所有N个图像-音频特征作为输入顺序进行训练和测试的，以从最后一个时间步的隐藏状态预测动作标签。• NON-RECURVE：与我们的方法相同，只是我们只使用一个查询操作，而没有重复迭代。我们直接从10个最大关注权重的指数中获得10个时间戳。表 1 示出了结果。我们的方法优于所有基线。RANDOM/UNIFORM/ FRONT/ CENTER/ END表示62580 200 400 600GFLOPS图7：与ActivityNet上其他帧选择方法的比较。我们直接引用AdaFrame [77]和MultiAgent [75]中报告的所有基线方法的数字，并将mAP与每个测试视频的平均GFLOP进行比较。详情见正文用于动作识别的有用时刻的上下文感知选择使用稀疏索引功能（子采样因子为5），我们的方法优于DENSE（当前大多数方法如何获得视频级预测的现状），仅使用约1/5的计算成本。我们的方法也比SCSAM-PLER[36]更好和更快LSTM执行R-ANDOM。我们怀疑，当视频变得很长时，它无法聚合所有时间戳的NON-R递归是我们方法的一个简化版本，它表明我们方法中“下一个”有趣时刻的递归预测的设计是必不可少的LSTM和NON-RECURRATIONS都支持我们作为一个整体框架的贡献，即，基于迭代注意力的选择与最先进的帧选择方法进行比较。图7将我们的方法与给定相同计算预算的最先进帧选择方法进行了比较。基线的结果引用自AdaFrame [77]和MultiAgent [75]，它们都在ActivityNet上进行评估。为了公平比较，我们只使用视觉模态测试了我们方法的一个变体，并使用相同的ResNet-101特征进行识别。我们的框架还具有使用更便宜的索引功能（帧选择）的灵活性。参见补充有关IMG AUD-SKIMMING网络的单模态架构以及我们如何使用不同特征进行索引和识别的详细信息，请参见。我们我们的（图像-音频|图像-音频）我们的（图像-音频|ResNet-101）我们的（MobileNetv 2|ResNet-101）UniformSamplingMultiAgent，Wuet al.Adaframe-10，Wu等人Adafram-5，Wu等人FrameGlimpse，Yeung等.FastForward，Fan等.准确度（%）6610465|×图8：5个统一选择的时刻和前5个视觉上有用的时刻的定性例子，我们的方法选择了两个视频的行动投掷铁饼和漂流在ActivityNet。通过我们的方法选择的帧更能指示相应的动作。使用三种不同的组合，在图7中表示为Ours（此外，为了衡量我们的IM-GAUD 2 VID步骤的影响，我们还报告了通过使用图像-音频特征进行识别所获得的结果。当使用相同的识别特征时，我们的方法始终优于所有现有的方法，并在速度和准确性之间实现了最佳平衡，这表明准确性的提高可以归因于我们新颖的可重复索引机制。此外，借助于IMGAUD 2 V ID蒸馏，我们以更少的计算量获得了更高的精度;该方案将我们的图像 - 音频剪辑级识别的效率与由我们的 IMGAUD-SKIMMING网络实现的用于视频级识别的加速和准确性相结合。与ActivityNet上的最新技术进行比较。有-前面将我们的略读方法与现有的帧选择方法进行了比较，现在我们将其与放弃帧选择的现有技术的活动识别模型进行比较。为了公平比较，我们使用[75]提供的ResNet-152模型。该模型在ImageNet上进行了预训练，并在ActivityNet上进行了TSN式训练[69]。如表2a所示，我们的方法始终优于所有以前的最先进的方法。为了表明我们的方法的优点甚至扩展到更强大但昂贵的特征，我们在表2b中使用R（2+1）D-152特征进行识别。当使用R（2+1）D-152特征进行索引和识别时，我们的性能优于密集方法，同时速度快10。我们仍然可以达到如果使用我们的图像-音频功能进行索引，性能将达到密集方法的20倍。4.3. 定性分析（b）准确性与具有R（2+1）D-152特性的效率。表2：ActivityNet与SOTA方法的比较与均匀采样的帧相比，我们的方法选择的帧更能参见补充视频1是通过我们的方法选择的声学上有用的时刻的例子。我们可以检查每个类的性能，以了解与均匀采样相比，哪些类从我们的略读机制中受益最多。按精度增益降序排列的顶级类别为：清洁水池、啤酒乒乓球、漱口水、油漆家具、射箭、铺设瓷砖和三级跳远--其中动作是零星的并且经常在视频的一小段上展示。参见补充进行更多分析。5. 结论我们提出了一种方法，以实现准确和有效的动作识别长的未修剪的视频，利用音频作为预览工具。我们的IMG AUD 2 VID蒸馏框架通过轻量级的基于图像-音频的模型取代了昂贵的基于剪辑的模型，从而实现了高效的剪辑级动作识别。此外，我们提出了一个IMGAUD-SKIMMING网络，它迭代地选择有用的图像-音频对，从而实现高效的视频级动作识别。我们的工作取得了良好的平衡之间的速度和准确性，我们实现了国家的最先进的结果，视频动作识别使用几个选定的帧或剪辑。在未来的工作中，我们计划研究显着的空间区域选择以及我们的时间帧选择，这可能会导致更精细的动作理解，提高效率，以及扩展到允许多标签设置。鸣谢：感谢Bruno Korbar、Zuxuan Wu和Wenhao Wu对实验的帮助，感谢Weiyao Wang、Du Tran和UT Austin视觉小组的有益讨论。图8显示了我们的方法使用视觉模态与通过均匀采样获得的视觉模态1http://vision.cs.utexas.edu/projects/listen_to_look/我们均匀我们均匀骨干预训练精度地图IDT [66]–ImageNet64.768.7C3D [61]–运动1M65.867.7P3D [49]ResNet-152ImageNet75.178.9RRA [88]ResNet-152ImageNet78.883.4马尔[75]ResNet-152ImageNet79.883.8我们ResNet-152ImageNet80.384.2(a)与之前使用ResNet-152功能的工作进行比较。索引识别地图TFLOPS密集–R（2+1）D-15288.925.9均匀–R（2+1）D-15287.21.2610466引用[1] 思科可视网络索引：预测和趋势，2017 -2022白皮书。[2] T.阿富拉斯Chung和A.齐瑟曼。对话：深度视听语音增强。InInter-speech，2018.[3] S. Albanie，A.Nagrani、A.Vedaldi和A.齐瑟曼。在野外使用跨模态转移的语音中的情感识别。 ACMMultimedia，2018年。[4] H. Alwassel，F. Caba Heilbron和B.加尼姆动作搜索：发现视频中的动作及其在时间动作定位中的应用在ECCV，2018。[5] R. Arandjelovic和A.齐瑟曼。看，听，学。在ICCV，2017年。[6] R. Arandjelovic和A.齐瑟曼。会发出声音的物体。在ECCV，2018年。[7] Y.艾塔尔角Vondrick和A.托拉尔巴Soundnet：从未标记的视频中学习声音表示InNeurIPS，2016.[8] S. Buch，V. Escorcia，C.申湾Ghanem和J.卡-洛斯尼布尔斯。单流时间动作建议。在CVPR，2017年。[9] F. Caba Heilbron，V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。[10] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。[11] Y. Chen，Y.Kalantidis，J.Li，S.Yan和J.峰用于视频识别的多光纤网络。在ECCV，2018。[12] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。[13] D. Dwibedi，Y.Aytar，J.Tompson，P.Sermanet和A.是的，先生。时间周期一致性学习在CVPR，2019年。[14] A. 埃弗拉特岛莫塞里岛朗，T.Dekel，K.Wilson，A.哈-西迪姆，W。T. Freeman和M.鲁宾斯坦Looking to List-ten at the Cocktail Party：A Speaker-Independent Audio-Visual Model for Speech Separation.在SIGGRAPH，2018年。[15] H. 范，Z

下载后可阅读完整内容，剩余1页未读，立即下载