自适应多模态学习：提高视频识别性能的有效方法

68 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

视频识别

自适应框架

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7576†−AdaMML：用于高效视频识别的自适应多模态学习Rameswar Panda1，†，Chun-Fu（Richard）Chen1，†，Quanfu Fan1，Ximeng Sun2，Kate Saenko1，2，Aude Oliva1，3，Rogerio Feris1：同等贡献1麻省理工-IBM沃森人工智能实验室、2波士顿大学、3麻省理工摘要多模态学习是一种利用多种模态来提高模型性能的学习方法，在视频识别中得到了广泛的应用。虽然传统的多模态学习提供了出色的识别结果，但其计算费用限制了其对许多现实世界应用的影响。在本文中，我们提出了一个自适应多模态学习框架，称为AdaMML，选择在飞行中的最佳模式，为每个段的条件下，有效的视频识别的输入。具体地，给定视频片段，使用多模态策略网络来决定识别模型应该使用什么模态进行处理，目标是提高准确性和效率。我们有效地训练策略网络与识别模型，使用标准的反向传播。四个具有挑战性的不同的数据集上的广泛的实验表明，我们提出的自适应方法产生35%-55%的计算减少相比，传统的基线，简单地使用所有的方式，而不管的投入，把，同时也实现了一致的改进，准确性超过国家的最先进的方法。项目页面：https://rpand002.github.io/adamml.html。1. 介绍视频具有丰富的多种形式：RGB帧、运动（光流）和音频。因此，多模态学习，其重点是利用各种模态，以提高性能的视频识别模型，近年来引起了广泛的关注。尽管取得了令人鼓舞的进展，但多模态学习在视频未经修剪并且跨度为几分钟甚至几小时的现实世界场景中在计算上变得不切实际。给定长视频，一些模态通常提供用于动作类的识别的不相关/冗余信息。因此，利用来自所有输入模态的信息可能会适得其反，因为在长视频中，信息此外，一些模式需要更多的计算，因此，选择具有良好性能的更便宜的模态可以显著节省计算，从而导致更有效的视频识别。让我们考虑图1中的视频，由来自视频的八个均匀采样的视频片段表示我们问，是否所有的片段都需要RGB和音频流来识别这个视频中的动作“修剪草坪”？答案很清楚：不，割草机仅在第三和第六段中与相关音频一起移动，因此我们需要这两个视频段的RGB和音频流两者来提高用于识别正确动作的模型置信度，而其余段可以仅用一种模态处理或甚至跳过（例如，第一个和最后一个视频段），而不损失任何精度，与使用两种模态处理所有段相比，这导致大量的计算节省。因此，与常用的多模态学习的一刀切方案相比，我们希望每个输入片段单独做出这些决定，从而导致不同视频的计算量不同。基于这种直觉，我们提出了一个新的视角，通过自适应地选择输入方式，每段的基础上，识别复杂的动作，有效的视频识别。在本文中，我们提出了 AdaMML ，一种新的和differentiable- tiable的方法来学习决策策略，选择最佳的方式，有效的视频recog- nition的输入条件具体来说，我们的主要思想是学习一个模型（称为多模态策略网络），该模型输出在每个段的基础上使用或跳过每个模态的所有二元决策的后验概率由于这些决策函数是离散的且不可微的，因此我们依赖于有效的Gumbel-Softmax采样方法[23]通过标准的反向传播与网络参数一起学习决策策略，而无需像[60，61]中那样采用复杂的强化学习。我们设计的目标函数，以实现视频识别所需的竞争力的性能和效率。我们证明，通过轻量级策略网络自适应地选择输入模态不仅可以显著节省计算（例如，大约47。3%和35。少2%7577图1：我们方法的概念概述。我们的方法不是处理所有片段的RGB和音频模态，而是学习一种策略来选择每个输入片段的最佳模态，这是正确识别给定视频中的动作所需的在该图中，割草机仅在第三和第六段中以相关音频移动，因此可以使用两种模态来处理这些段，而其余段仅需要一种模态（例如，当割草机移动到摄像机之外但其声音仍然清晰时只有音频与第四段相关）或甚至跳过（例如，两种模态在第一和最后一段中是不相关的），而不会损失任何准确性。请注意，我们的方法可以扩展到任何数量的模态，如实验中所示GFLOPS与加权融合基线相比，加权融合基线仅使用所有模态，分别在 Kinetics-Sounds [2]和ActivityNet [6]上），而且与最先进的方法相比，准确度也有一致的提高。我们工作的主要贡献如下：• 我们提出了一种新的和可区分的方法，自动确定使用什么样的方式，每段每输入有效的视频识别。这与当前的多模态学习方法形成鲜明对比，该方法利用所有输入模态而不考虑它们与视频识别的相关性。• 我们通过Gumbel-Softmax采样使用标准反向传播有效地训练多模态策略网络与识别模型• 我们对四个视频基准测试（Kinetics-Sounds [2]，ActivityNet [6] ， FCVID [24] 和 Mini-Sports 1 M[25]）进行了广泛的实验，并使用不同的多模态学习任务（ RGB + Audio ， RGB + Flow 和 RGB +Flow + Audio）来证明我们的方法优于最先进的方法。2. 相关工作高效的视频识别。视频识别是近年来计算机视觉领域最活跃的研究领域之一[8]。在深度神经网络的上下文中，其通常由2D-CNN [25，51，12，53，54，55，56，57，58，59]执行12，32，63]或3D-CNN [48，7，20，13]。虽然在过去几年中进行了广泛的研究，但在有效的视频识别方面所做的努力有限。具体地，用于高效识别的方法集中于设计新的轻量级架构（例如，Tiny Video Networks[39]，通道分离CNN [49]和X3D [13]）或者选择显著帧/剪辑[61，60，30，17，57，22，34，35、37]。我们的方法是最相关的，后者侧重于视频的条件计算，是agnos- tic的网络架构用于识别视频。代表性方法通常使用强化学习（RL）策略梯度[61，60]或音频[30，17]来选择相关视频帧。LiteEval [59]提出了一种从粗到细的框架，该框架使用二进制门来选择粗或细特征。与现有的作品不同，我们提出的方法侧重于视频的多模态特性，并自适应地选择正确的模态每个输入实例，以识别长视频中的复杂动作。此外，我们的框架是完全可微的，因此比复杂的RL策略梯度更容易训练[61，60，57]。多模式学习。多模态学习已经从多个角度进行了研究，例如融合来自多个模态的决策以进行分类的两个流网络[41，7，26，27，3]，以及将一个模态作为输入并对另一个模态进行预测的跨模态学习[29，2，62，1，15，42]。[52]中最近的工作解决了多模态网络中的联合训练问题，而没有像我们当前的方法那样决定针对给定输入样本关注哪个模态我们提出的AdaMML框架也与联合外观和运动建模[43，31，10]中的先前工作相关，其专注于组合RGB和光流流。通过神经架构搜索[64]设计不同的融合方案[38]也是多模态学习的另一个最新趋势相比之下，我们提出了一个特定于实例的一般框架，用于自动选择每个段的正确模态，以实现高效的视频识别。自适应计算。最近已经提出了许多自适应计算方法，其目标是提高计算效率[4，5，50，54，18，14，33，34]。虽然BlockDrop [58]在推理期间动态选择每个样本执行哪些层，但GaterNet [9]提出了门控7578{M M· · · M}联系我们--图2：我们的方法的说明。AdaMML由一个轻量级的策略网络和一个识别网络组成，该网络由不同的子网络组成策略网络决定在每个段的基础上使用什么模式，以实现视频识别的最佳识别精度和效率在训练中，策略从Gumbel-Softmax分布中采样，这使我们能够通过反向传播优化策略网络。在推理期间，首先将输入段馈送到策略网络中，然后将所选择的模态路由到识别网络以生成段级预测。最后，网络对所有片段级预测求平均以获得视频级预测。最好用彩色观看网络来学习主网络的通道式二进制门通道门控网络[21]识别特征中对分类结果贡献较小的区域，并跳过对这些无效区域的输入通道子集的计算。SpotTune [19]学习通过微调或预先训练的层自适应地路由信息以执行不同的任务。在[36，16]中提出了用于快速对象检测的不同区域的自适应选择。虽然我们的方法受到这些方法的启发，但在本文中，我们的目标是自适应地选择每个输入实例的最佳模式，以提高视频识别的效率据我们所知，这是第一个基于数据选择不同模式以实现高效视频识别的工作3. 该方法给定包含K 个输入模态1、2、…、K上的分段序列s1、s2、…、s T的视频V，我们目标是到寻求一个自适应多模态选择策略，该策略决定对于每个段应该使用什么输入模态，以便提高准确性，同时采用计算模态视频识别的效率。3.1. 方法概述图2展示了我们方法的概述将寻找最佳多模式选择策略的任务视为搜索问题迅速变得棘手，因为潜在配置的数量随着视频片段和模态的数量呈指数增长我们没有手工制作选择，而是开发了一个策略网络，其中包含一个非常轻量级的联合特征提取器和一个LSTM模块，用于输出每个输入的每个片段的二进制策略向量，表示是否保留或删除输入模态以进行有效的多模态学习。在训练期间，使用Gumbel-Softmax采样[23]，策略网络与识别网络联合训练。在测试时，首先将输入视频片段馈送到策略网络中，策略网络的输出决定用于给定片段的正确模态，然后将所选择的输入模态路由到识别网络中的对应子网络以生成片段级预测。最后，网络对所有片段级预测进行平均，作为视频级预测。请注意，与识别模型相比，轻量级策略网络（在我们的情况下为MobileNetV2 [403.2. 学习自适应多模态策略多模式政策网络。策略网络包含一个轻量级的联合特征提取器和一个LSTM模块，用于对视频中不同时间步长的因果关系进行建模具体地，在第t个时间步，LSTM获取当前视频片段st、先前隐藏状态ht-1、单元输出ot-1的联合特征f t，以计算当前隐藏状态ht和单元状态ot：h t，o t= LSTM（f t，h t−1，o t−1）。（一）给定隐藏状态，策略网络估计每个模态的策略分布，并且经由Gumbel-Softmax运算对指示是否在时间步长t选择模态k（U=ut，kl

下载后可阅读完整内容，剩余1页未读，立即下载