自适应地选择相关帧进行快速视频识别

13 浏览量更新于2023-10-19 收藏 1.29MB PDF 举报

长短期记忆网络

预测工具

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1AdaFrame：用于快速视频识别吴祖轩1岁，熊彩明2岁，马智尧3岁，Richard Socher2岁，Larry S.戴维斯11马里兰大学2Salesforce Research3佐治亚理工学院摘要我们提出了AdaFrame，一个框架，自适应地选择相关的帧在每输入的基础上快速视频识别。AdaFrame包含一个长短期记忆网络，该网络增强了全局记忆，提供了上下文信息，用于搜索随时间推移使用哪些帧使用策略梯度方法进行训练，AdaFrame生成预测，确定下一个要观察的帧，并计算效用，即，预期的未来回报，在每个时间步看到更多的帧。在测试时，AdaFrame利用预测工具来实现自适应前瞻推理，从而在不降低准确性的情况下降低在FCVID和ActivityNet两个大规模视频基准上进行了大量的实验。AdaFrame在FCVID和ActivityNet上分别仅使用8.21和8.65帧的所有帧的性能相我们进一步定性地证明了学习框架的使用可以指示分类决策的难度;在同一类内的实例级和不同类别之间的类级，较简单的样本需要较少的帧，而较难的样本需要较多的帧。1. 介绍互联网视频的爆炸性增长，由无处不在的移动设备和社交网络上的分享活动推动，是惊人的：每天每分钟都有大约300小时的视频被上传到优兔网这样的增长需要有效的和可扩展的方法，可以自动识别视频中的动作和事件，用于索引、摘要、推荐等任务。大多数现有的工作集中在学习鲁棒的视频表示以提高准确性[24，29，19，28]，而有限的努力致力于提高效率[31，38]。最先进的视频识别框架依赖于来自一致sam的预测分数的聚合大部分工作是作者在Sales- force实习时完成的。†通讯作者。生日俯仰帐篷做蛋糕图1：我们方法的概念概述。AdaFrame的目标是选择少量的帧来对不同的输入视频进行正确的预测，从而降低整体计算成本。在推断期间，如果不是每个单个帧[16]，则为1个帧。虽然均匀采样已被证明是有效的[19，28，29]，但由于使用高容量骨干网络，例如ResNet [7]，ResNext[34]，InceptionNet [22]等，即使是单个帧的分析也仍然是计算昂贵的。另一方面，均匀采样假设信息随时间均匀分布，这因此可能合并与感兴趣类别不相关的噪声背景帧。还值得注意的是，做出识别决策的难度与要分类的类别有关-一个帧可能足以识别大多数静态对象（例如，“dogs” and “cats”) or scenes (“森林”或“海”），而需要更多的帧来区分细微的动作，如“喝咖啡”和“喝啤酒”。由于大的类内变化，即使在同一类别内的样本也是如此。例如，体育馆的不同位置），发生在不同的位置（例如，室内或室外），具有不同玩家（例如，专业人士或业余人士）。结果，识别相同事件所需的帧数不同。考虑到这一点，为了实现高效的视频识别，我们探索如何在每个视频的基础上自动调整网络内的计算，以便在不同的输入视频条件下，少量的信息帧1这里，我们使用帧作为通用术语，它可以是单个RGB图像、堆叠RGB图像（片段）和堆叠光流图像的形式。12781279被选择以产生正确的预测（见图1）。然而，这是一个特别具有挑战性的问题，因为视频通常被弱标记用于分类任务，一个注释用于整个序列，并且不存在通知哪些帧是重要的超级视觉。因此，不清楚如何随着时间有效地探索时间信息以选择使用哪些帧，以及如何在这些所选帧中编码时间动态。在本文中，我们提出了AdaFrame，一种用全局神经网络增强的长短期记忆（LSTM）网络，来学习如何根据输入自适应地选择帧，以实现快速视频识别。特别地，从用空间和时间下采样的视频帧计算的表示导出的全局存储器被引入，以引导随着时间的推移的探索，用于学习帧使用策略。内存增强的LSTM充当与视频序列交互的代理;在一个时间步，它检查当前帧，并在通过查询全局数据库导出的全局上下文信息的帮助下，生成预测，决定下一个要查看的帧，并计算在未来看到更多帧的效用。在训练过程中，AdaFrame使用具有固定步骤数的策略梯度方法进行优化，以最大化奖励函数，该奖励函数鼓励预测在观察多一帧时更加自信。在测试时，AdaFrame能够通过利用预测的未来实用程序来实现对输入视频的自适应推理，这些实用程序表明了前进的优势。我们对两个大规模和具有挑战性的视频基准进行了广泛的实验，用于通用视频分类（FCVID [11]）和活动识别（ACTIV-ITYNET [8]）。AdaFrame在FCVID和ACTIVITY NET上分别提供了类似或更好的精度，以广泛采用的均匀采样策略的平均精度测量，这是一个简单而强大的基线，同时需要58。9%，63。平均计算量减少3%，节省高达90美元。6%。AdaFrame也优于学习选择帧的其他方法[36，3我们进一步表明，除其他事项外，帧的使用是相关的困难，作出预测不同的类别产生不同的帧使用模式和实例级帧的使用在同一类也不同。这些结果证实了AdaFrame可以有效地学习生成帧使用策略，该策略自适应地为每个输入视频选择少量的相关帧进行分类。2. 相关工作视频分析。对视频识别进行了广泛的研究[33]。大多数现有的工作集中在将2D卷积扩展到视频域并对视频中的运动信息进行建模[19，29，28，35，24]。只有少数方法考虑有效的视频分类，[38，31，40，20，10]。然而，这些方法执行来自多个帧的分数/特征的均值池化（mean-pooling），均匀地采样或由代理决定，以对视频剪辑进行分类。相比之下，我们专注于在每个视频的基础上选择少量请注意，我们的框架也适用于3D CNN;我们的框架的输入可以很容易地用来自堆叠框架的特征来替换。最近的一些方法试图通过探索相邻帧之间的相似性来降低视频中的计算成本[39，17]，而我们的目标是基于输入选择性地选择相关帧。我们的工作更多地涉及[36]和[3]，即用策略搜索方法选择框架[2]。Yeung等人引入一个代理，通过从整个视频中采样来预测是否停止以及下一步看哪里，以进行动作检测[36]。对于检测，地面实况时间边界是可用的，提供关于观看的帧是否相关的强反馈。在分类的背景下，没有这样的监督，因此从整个序列直接采样是困难的。为了解决这个问题，Fanet al.建议从一个预定义的动作集中进行采样，决定要跳多少步[3]，这减少了搜索空间，但牺牲了灵活性。相比之下，我们引入了一个全局内存模块，提供上下文信息来指导帧选择过程。我们还解耦了帧选择和何时停止的学习，利用预测的未来回报作为停止信号。自适应计算。我们的工作还涉及到自适应计算，以实现效率，决定是否停止推理的基础上的信心分类。该想法可以追溯到级联分类器[27]，其快速拒绝容易的负子窗口以进行快速人脸检测。最近的几种方法提出向CNN的不同层添加决策分支，以了解是否退出模型[23，9，13，4]。Graves为RNN引入了一个停止单元来决定计算是否应该继续[6]。相关的还有[30，26，32，15，5]，学习在残差网络中丢弃层或学习在输入条件下查看图像的位置。在本文中，我们专注于视频的自适应计算，以自适应地选择神经网络中的帧而不是层/单元，以进行快速推理。3. 方法我们的目标是，给定一个测试视频，得到一个有效的帧选择策略，产生一个正确的预测，同时使用尽可能少的帧。为此，我们引入了AdaFrame，一个内存增强的LSTM（第3.1节），在全局内存的上下文信息的指导下有效地探索视频的时间空间AdaFrame经过优化，可以在每个视频的基础上选择要使用的帧，并捕获时间上的动态数据。1280JJ不投影LSTM全球背景软注意政策预测实用预期梯度全局存储器奖励轻量级CNNLSTM时空下采样视频图2：拟议框架概览。一个记忆增强的LSTM作为一个代理，与一个视频序列交互。在每个时间步，它从当前帧、先前状态和从全局存储器导出的全局上下文向量中获取特征，以生成当前隐藏状态。隐藏状态用于产生预测，决定下一步看哪里，并计算未来看到更多帧的效用。更多详情见正文。这些选定帧的动态。给定学习的模型，我们执行自适应前瞻推理（第3.2节），以适应不同的计算需求，历史因此，对于每个视频，我们引入全局存储器来提供上下文信息，其由空间和时间下采样探索在未来看到更多帧的效用。帧，M =[v s，vs，. . . ，v s].在这里，Td表示数量。1 2Td3.1. 内存增强LSTM内存增强的LSTM可以被视为与T帧的视频序列递归交互的代理，其表示被表示为{v1，v2，. . . ，v T}。更正式地说，LSTM在第t个时间步，采用当前帧vt的特征，先前的隐藏状态ht-1以及单元输出ct-1，以及全局上下文向量ut从全局存储器M导出作为其输入，并产生当前隐藏状态ht和单元内容ct：ht，ct=LSTM（[vt，ut]，ht−1，ct−1），（1）其中vt和ut是级联的。隐藏状态ht被进一步输入到预测网络fp中用于分类，并且概率被用于生成奖励rt，以测量从最后时间步的转变是否带来信息增益。此外，以隐藏状态为条件，选择网络fs决定下一步看哪里，效用网络fu计算未来看到更多帧的优势。图2给出了框架的概述在下文中，我们详细阐述了内存增强LSTM中的详细组件。全局内存。LSTM有望做出可靠的预测，并探索时间空间，以选择由收到的奖励引导的帧。然而，由于巨大的搜索空间和隐藏状态[1，37]记忆输入的有限能力，学习下一步看哪里是困难的的帧（Td T），和表示是组合的。使用空间下采样输入的轻量级网络4.1）。这是为了确保全局内存的计算开销很小。由于这些表示是逐帧计算的，而没有显式的顺序信息，因此我们进一步利用位置编码[25]来对下采样表示中的位置进行编码。为了获得全局上下文信息，我们用LSTM的隐藏状态查询全局内存，以获得内存中每个元素的注意力权重：zt，j=（Whht−1）PE（vs），βt=Softmax（zt），其中，Wh将隐藏状态映射到与存储器中的第j个下采样特征Vs相同的维度，PE表示将位置编码添加到特征的操作，并且βt是存储器上的归一化注意力向量。我们可以进一步将全局上下文向量导出为全局内存的加权平均值：u t=βM。使用软注意力计算全局上下文向量作为LSTM的输入的直观性是基于内存块中的特征来得出当前进度的粗略估计，作为全局上下文来帮助学习未来要检查的帧。预测网络由权重Wp参数化的预测网络fp（ht;Wp）将隐藏状态ht映射到具有一个全连接层的输出st∈RC，其中C是类的数量。另外，st进一步正常化-1281uS使用Softmax生成每个类别的概率得分。使用来自最后一个时间步Te的预测，用交叉熵损失训练网络：ΣCLcls（Wp）=−yc log（sc），（2）公用事业网络。公用事业网络，参数为Wu，产生输出fu（ht;Wu）=Vt=Wht，使用一个完全连接的层。它作为一个评论家，提供了当前状态下预期未来回报的近似值，也被称为价值函数[21]：Tec=1Vt=EhΣTe−t、Σγirt+i 、（五）其中，y是编码对应的标签的独热向量，响应样本。此外，我们约束TeT，因为t+1：Teat：Tei=0时我们希望使用尽可能少的帧。奖励功能。给定第t个时间步的分类得分st，给出奖励以评估从前一个时间步的转换是否有用-观察多一帧预期产生更准确的预测。受[12]的启发，我们引入了一个奖励函数，该函数迫使分类器在看到附加帧时更加自信，采用以下形式（当t >1时）：其中γ是固定为0.9的贴现因子。直觉是估计从具有净工作输出Vt的经验推出导出的价值函数Vt，以更新政策参数。朝着性能改进的方向发展。更重要的是，通过估计未来的回报，它为智能体提供了向前看的能力，测量随后观察更多帧的效用效用网络使用以下回归损失进行训练：rt= max{ 0，mt−maxmt′}。（三）长（宽）=1V−V。（六）t′∈[0，t−1]乌特勒乌2t t2′这里m=s gt− max {s c|c′gt}是保证金，tt t地面实况类的概率（索引为gt）和来自其他类的最大概率，从而推动地面实况类的分数比其他类高出一定幅度。而在Eqn中的奖励函数。3鼓励当前裕度大于历史裕度以接收正奖励，这要求当看到更多帧时分类器的置信度增加。这样的约束充当代理以测量从最后时间步的转变是否带来用于重新识别目标类别的附加信息，因为没有监督提供关于单个帧是否是信息性的反馈。优化. 组合式2，方程4和等式。月6最终目标函数可以写为：最小化Lcls+λLutl−λJsel，Θ其中λ控制分类和时间探索之间的权衡，并且Θ表示所有可训练参数。请注意，前两项是可微的，我们可以直接使用带有随机梯度下降的反向传播来学习最佳权重。因此，我们只讨论如何最大化方程中的期望报酬Jsel。4.第一章根据[21]，我们推导出Jsel的期望梯度为：选择网络。选择网络fs使用固定方差定义具有高斯分布的策略，以使用包含当前输入和历史输入的信息的隐藏状态htE=EΣΣTet=0Σ（Rt−Vt）<$Θlogπθ（·|ht）、（7）cal上下文。特别地，由Ws参数化的网络将隐藏状态转换为一维输出fs（ht;Ws）=at=sigmoid（W<$ht），作为位置策略的平均值。在[14]之后，在训练过程中，我们从policyt+1π（·|ht）=N（at，0. 12），并在测试时，我们直接使用的输出作为位置。我们还将Wnt+1固定在[0， 1]的区间内，以便它可以进一步转换为帧索引乘以帧的总数。值得注意的是，在当前时间步长，策略搜索整个时间范围，没有约束，它不仅可以向前跳跃以寻找未来的信息帧，而且还可以返回以重新检查过去的信息。我们训练选择网络来最大化预期的未来奖励：其中Rt表示预期的未来Rew ard，并且Vt用作基线函数以减少训练期间的方差[21]。等式7可以使用小批量中的样本用蒙特卡洛采样来近似，并且进一步向下游反向传播以用于训练。3.2. 自适应前瞻推理虽然我们在训练期间针对固定数量的步骤优化了内存增强的LSTM，但我们的目标是在测试时实现自适应推理，以便在输入视频的条件下选择少量信息帧，而不会导致分类性能的任何下降。回想一下，效用网络被训练来预测预期的未来回报，表明效用-Jsel（Ws）= Etπ（·|ht;Ws）ΣΣTet=0Σrt.（四）1282在未来看到更多帧的能力/优势。因此，我们探索效用网络的输出，以确定是否停止推理，通过向前看1283一种直接的方法是计算每个时间步的效用V_t，当它小于一个阈值时退出模型然而，很难找到一个适合所有样本的最佳值。相反，我们保持一个运行最大在每个时间步长，我们将当前效用Vt与最大值V t进行比较，Vmax;如果Vmax比Vt大一个数量级，精确度（AP），并使用平均精确度（mAP）来衡量两个数据集的整体性能。同样值得注意的是，两个数据集中的视频都是未经修剪的，鉴于视频帧的冗余性质，有效识别是非常关键的。实作详细数据。我们使用一层LSTM，t tFCVID和ACTIVI的2， 048和1， 024个隐藏单元-p次，将使用因为最终得分和推理将被停止。在这里，μ控制计算成本和准确性之间的权衡;当预测效用开始下降时，小的μ限制模型进行早期预测，而大的μ容忍效用下降，允许在分类之前进行更多的预测。此外，我们还引入p作为耐心度量，这允许当前效用在几次迭代中偏离最大值。这在精神上类似于在高原上降低学习率，而不是中间衰减学习率，等待更多的时期，当损失不再进一步减少时。请注意，尽管所有样本都使用相同的阈值μ，但用于决定是否停止或not是基于每个样本的效用分布独立得出的，这比直接比较Vt和µ要柔和人们可以添加另一个网络来预测是否如[36，3]中所示，使用隐藏状态停止推理，然而，将帧选择的训练与学习二进制策略以停止相耦合相比之下，我们利用效用网络来实现自适应前瞻推理。4. 实验4.1. 实验装置数据集和评估指标。我们用两个具有挑战性的大规模视频数据集进行了实验，复旦-哥伦比亚视频数据集（FCVID）[11]和ACTIVITYNET [8]，以评估所提出的方法。FCVID由来自YouTube的91223个视频组成，平均持续时间为167秒，手动注释为239类。这些分类涵盖了广泛的主题，包括场景（例如，“river”), objects( “dog”), activities ( “fenc- ing”), and complicated events(“制作比萨饼”）。数据集被平均划分为训练（45，611 个视频）和测试（ 45 ， 612 个视频）。CTIVITYNET是一个以活动为中心的大规模视频数据集，包含平均持续时间为117秒的YouTube视频。在这里，我们采用最新版本（版本1.3），其中包括属于200类的约20K视频。我们使用官方分割，训练集为10，024个视频，验证集为4，926个视频和5，044个视频的测试集。由于测试标签不是公开的，我们报告了验证集的性能。我们计算平均预-分别为。为了提取LSTM的输入，我们以1fps解码视频，并从ResNet-101模型的倒数第二层计算特征[7]。ResNet模型在ImageNet上进行了预训练，前1名的准确率为77。4%，并在目标数据集上进一步微调。为了生成提供上下文信息的全局内存，我们使用空间和时间下采样的视频帧与轻量级CNN来计算特征，以减少开销。特别是，我们降低视频帧的分辨率，112× 112 ，均匀采样 16 帧我们使用预先训练的MobileNetv2 [18]作为轻量级CNN，达到了52的top-1精度。ImageNet上的3%，具有下采样输入。我们采用PyTorch进行实现，并利用SGD进行优化，动量为0。9，权重衰减为1e− 4，λ为1。我们训练网络100个epoch，批大小为128和64，FCVID 和ACTIVITYNET。初始学习速率设置为1e-3，每40个epoch衰减10倍对于推理期间的耐心p，当µ 0时，它被设置为2<。7，当μ = 0时，K/2 + 1。其中K是模型训练的时间步长数。4.2. 主要结果学习框架使用的有效性。我们首先在训练过程中使用K步优化AdaFrame，然后在测试时使用μ=0执行自适应前瞻推理。7，允许每个视频平均看到K′帧，同时保持与查看所有K帧相同的精度。我们将AdaFrame与以下alter- native方法进行比较，以在测试期间产生最终预测(1)VG P OOLING，其简单地计算每个采样帧的预测，然后在帧上执行均值池化作为视频级分类得分;（2）LSTM，它使用LSTM最后一个时间步的隐藏状态生成预测。我们还使用不同数量的帧（K+K）作为AVG-POOLING和LSTM的输入进行了实验，这些帧被均匀采样，(U) 或随机地（ R ）。在这里，我们使用 K 用于AdaFrame，而K+ k用于其他方法，以抵消所产生的额外计算成本，这将在后面讨论。表1给出了结果。我们观察到AdaFrame在两个数据集的所有设置下使用更少的帧时，比AVGPOOLING和LSTM获得了更好的结果。特别地，AdaFrame实现了78的mAP。6%，69。在FCVID和AC-TIVITYNET上分别使用4.92和3.8帧的平均值这些结果，需要3.08和1284FCVID一个城市网方法R8U8R10U10R25U25所有R8U8R10 U10 R25U25所有平均池化78.378.479.078.979.780.080.267.567.868.9 68.6 69.870.070.2LSTM77.877.978.778.178.079.880.068.768.869.8 70.4 69.970.871.0AdaFrame78.65 →4.9279.28 →6.1580.210 →8.2169.55 →3.870.48 →5.8271.510 →8.65表1：FCVID和ACTIVITY NET上的不同帧选择策略的性能。 R和U分别表示随机抽样和均匀抽样。我们使用K→K′来表示AdaFrame的帧使用情况，AdaFrame在训练期间使用K帧，在执行自适应推理时平均使用K′帧更多详情见正文4.2 更少的帧，比具有8帧的AVGPOOLING和LSTM更好，并且与具有10帧的结果相当。同样令人期待的是，AdaFrame可以在FCVID和ACTIVITYNET上匹配仅使用 8.21 和 8.65 帧的所有帧的性能。这验证了AdaFrame确实可以学习导出帧选择策略，同时保持相同的精度。此外，AVG POOLING和LSTM的随机采样和均匀采样的性能相似，并且LSTM在FCVID上比AVGPOOLING更差，这可能是由于类别的多样性导致了显著的类内变化。请注意，虽然AVG POOLING简单而直接，但它是一个非常强大的基线，并且由于其强大的性能，在几乎所有基于CNN的方法的测试期间被广泛采用通过自适应推理节省计算。我们现在讨论AdaFrame与自适应推理的计算节省，并与最先进的方法进行比较。我们使用平均GFLOPs（一种独立于硬件的度量）来衡量对测试集中的所有视频进行分类所需的计算。我们用固定的K个时间步长训练AdaFrame得到不同的模型，记为AdaFrame-K，以适应测试过程中不同的计算需求;对于每个模型，我们改变μ，以便在同一模型中实现自适应推理。除了基于语法选择帧之外，我们还将AdaFrame与FrameGlimpse [36] 和 Fast- Forward [3] 进行了比较。FrameGlimpse是为动作检测而开发的，具有用于选择帧的定位网络和用于决定是否停止的停止网络;动作的地面实况边界被用作反馈以估计所选帧的质量。对于分类，没有这样的基础事实，因此我们保留了架构使用我们的奖励功能。FastFor- ward [3]从预定义的操作集合中采样，确定要前进多少步.它还包含一个停止分支，用于决定是否停止。此外，我们还将全局内存与这些框架进行公平比较，表示为FrameGlimpse-G和FastForward-G，(a) FCVID（b）ActivityNet图 3 ：平均精密度与计算成本 AdaFrame 与FrameGlimpse [36]、Fast- Forward [3]以及基于统计学的替代帧选择方法计算（帧）被使用，然后变得饱和。请注意，视频分类的计算成本随着所使用的帧的数量线性增长，因为最昂贵的操作是使用CNN提取特征。对于ResNet-101 ，它需要 7.82 GFLOPs 来计算特征，而对于AdaFrame，由于全局内存中的计算，它需要额外的1.32 GFLOPs。因此，当使用更多的帧时，我们期望AdaFrame能节省更多的时间。与使用 25 帧的 A VG P OOLING 和 LSTM 相比，AdaFrame-10在需要58帧时取得了更好的结果。9%，63 。 FCVID 的平均计算量减少 3% （ 80.2 vs.195GFLOPs2）和A CITYNET(71.5 vs. 195 GFLOPs）。类似的趋势可以AdaFrame-5和AdaFrame-3也可以在数据集。虽然当使用较少的帧时，AdaFrame相对于AVGPOOLING和LSTM的计算节省减少，但AdaFrame的准确性仍然明显更好，即， 66岁。1%，六十四2%的FCVID，和56。3%，五十三0%的百分比在一个城市网。此外，AdaFrame还优于FrameGlimpse[36]和FastForward [3]，旨在通过清晰的边缘来学习帧使用，这表明将帧选择的训练和学习停止与重新大规模数据集上的非线性学习，分别图3显示了结果。对于VGPOOL-ING和LSTM，当AVG POOLING超过2195.5 GFLOPS，LSTM超过195.8 GFLOPS时，精度逐渐增加。1285手风琴Performanceamerican足球业余羽毛球保龄球蹦极跳跃大教堂外观牛辩论沙漠用餐在餐厅晚餐在家里埃菲尔铁塔大象长颈鹿打高尔夫球的大猩猩孩子MakingFaces笔记本电脑制作陶瓷工艺品制作蛋挞制作法式薯条制作热狗制作冰棍游行乐队结婚求婚钢琴表演游乐场玩棋牌唱歌InKTVsnowball打相扑摔跤日落尾门派对小号表演瑜伽109876543211 2 3 4 5 6 7 8 9 100.00.10.20.30.40.50.60.70.80.91.0图4：通过AdaFrame的数据流随时间的变化。每个圆圈按大小表示在相应时间步长分类的样本的百分比背景视频很难。此外，使用全局记忆，提供上下文信息，提高了两个框架中的原始模型的准确性。我们还可以看到，在同一模型中改变阈值μ也可以调整所需的计算;随着阈值变小，性能和平均帧使用率同时下降但不同阈值的策略在精度和计算量上仍优于其他策略。通过比较不同的AdaFrame模型，我们观察到，用较小的K训练的AdaFrame的最佳模型比用较大的K使用较小的阈值优化的AdaFrame实现了更好或相当的结果。例如，AdaFrame-3，µ= 0。7达到了76的mAP。在FCVID 上使用 25.1 GFLOP 时， 5% ，优于 µ = 0 的AdaFrame-5。5，产生76的mAP。6%，平均GFLOPs为31.6。这可能是由于训练和测试之间的差异造成的-在训练期间，较大的K允许模型在发出预测之前进行虽然计算可以在测试时使用不同的阈值进行调整，但AdaFrame-10并没有像AdaFrame-3那样完全针对信息极其有限的分类进行优化这突出了根据计算要求使用不同模型的必要性。学习政策的分析。为了更好地理解在AdaFrame中学习到的内容，我们采用经过训练的AdaFrame-10模型，并改变阈值以适应不同的计算需求。我们在图4中可视化，在每个时间步，有多少样本被分类，以及这些样本的预测精度我们可以看到，高预测准确性往往出现在早期的时间步骤中，推动需要更多审查的困难决策。当计算预算增加时，更多的样本会在稍后的时间步发出预测（更大的µ）。我们进一步研究计算是否会因图5：随着时间的推移，不同类的学习推理策略。每个正方形按密度表示在FCVID中某个类别的相应时间步长处分类的样本不同的类别。为此，我们在图5中显示了在每个时间步分类的FCVID中的类子集的样本分数。我们观察到，对于像对象这样的简单类（例如，“大猩猩”和“大象”）和场景（“埃菲尔铁塔”和“大教堂外观”），AdaFrame在前三步中对大多数样本进行预测;而对于某些复杂的DIY类别（例如， “making ice cream” and “making eggtarts”), it tends to classify 此外，AdaFrame还采用了额外的时间步长来区分非常令人困惑的类，如“在餐厅用餐”和“在家用餐”。图6还示出了使用不同数量的帧进行推断的样本。我们可以看到，框架使用不仅在不同的类之间变化，而且在同一类别中也会变化（参见图6的顶部两行），这是由于类内的变化很大。例如，对于此外，我们还检查了模型在每一步的跳跃;对于AdaFrame-10，μ= 0。7，我们发现它至少会倒退一次。FCVID上8%的视频重新检查过去的信息，而不是总是向前，这证实了AdaFrame在搜索时的灵活性。4.3. 讨论在本节中，我们将进行一组实验来证明我们对AdaFrame的设计选择。全局内存。我们进行消融研究，看看有多少帧需要在全球的记忆。表2给出了结果。全局内存模块的使用改善了无内存模型，具有清晰的余量。此外，我们观察到使用16帧提供了计算开销和精度之间的最佳权衡。时间步长1286不简单：1帧中等：3帧简单：1帧中等：3帧徒步旅行制作饼干硬：4帧硬：4帧咨询建议非常硬：8帧图6：FCVID使用不同帧数进行推断的验证视频。帧的使用不仅在不同类别之间不同，而且在同一类中也不同（例如，全局记忆推理帧数开销地图帧数0077.98.40120.9879.28.53322.6180.28.24161.3280.28.21表2：在FCVID上使用不同全局存储器的结果。不同数量的帧用于生成不同的全局存储器。与标准ResNet-101相比，测量每个帧的开销。奖励函数mAP # Frames PREDICTIONREWARD78.7 8.34P预测 T转换 R前78.9 8.31我们的80.2 8.21表3：FCVID上不同奖励函数的比较。平均使用的帧和所产生的mAP。奖励功能。我们的奖励函数迫使模型当看到更多帧时增加其置信度，以测量从上一个时间步的过渡。我们进一步比较两个奖励函数：（ 1 ）P_REDICTION_R_EWARD，其使用地面实况类P_gt的预测置信度作为奖励;（2）P_REDICTION_T_RANSI-TION R EWARD，使用p gt−p gt作为奖励结果停止标准。在我们的框架中，我们使用预测效用，衡量看到更多帧的未来奖励，决定是否继续推理。另一种方法是简单地依赖于预测的熵，作为衡量分类器置信度的代理。我们还使用熵来停止推理，但是我们发现它不能基于不同的阈值进行自适应推理。我们观察到，随着时间的推移，预测并不像预测的效用那样平滑，即在早期步骤中的高熵和在最后几个步骤中的极低熵。相比之下，计算效用来衡量未来的回报，从第一步开始就明确考虑未来的信息，这导致随着时间的推移平滑过渡。5. 结论在本文中，我们提出了AdaFrame，一种方法，推导出一个有效的帧使用策略，以便使用少量的帧在每个视频的基础上，以减少整体的计算成本。它包含一个LSTM网络，并通过全局内存来注入全局上下文信息。AdaFrame使用策略梯度方法进行训练，以预测使用哪个框架并计算未来效用。在测试过程中，我们利用预测效用进行自适应推理。大量的结果提供了强有力的定性和定量证据，AdaFrame可以去-t t−1总结在表3中。我们可以看到，我们的奖励函数和P_REDICTION_T_RANSITION_R_EWARD（两者都对随时间变化的预测差异进行建模）的性能优于仅基于当前步骤的预测的P_REDICTION_ R_EWARD这验证了强制模型在查看更多帧时增加其置信度可以提供有关所选帧质量的反馈。我们的结果也优于P预测 T转移 REWARD通过进一步引入从地面实况类和其他类的预测之间的余量根据输入制定强帧使用策略。ZW和LSD的确认由情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同编号D17 PC 00345提供支持。美国政府被授权复制和分发重印本用于政府目的，而不受任何版权注释。免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国的官方政策或认可，无论是明示或暗示。政府的1287引用[1] 贾斯敏·柯林斯，贾斯查·索尔-迪克斯汀，大卫·苏西罗。递归神经网络的容量和可训练性。在ICLR，2017。3[2] MarcPeter Deisenroth ， Gerhard Neumann ， JanPeters，等.机器人技术政策研究综述。发现-[15] Mahyar Najibi 、 Bharat Singh 和 Larry S Davis 。Aut-ofocus：高效的多尺度推理。arXiv预印本arXiv：1812.01600，2018。2[16] JoeYue-HeiNg ， MatthewHausknecht ，Sudheendra Vijayanarasimhan ， Oriol Vinyals ，Rajat Monga，and George Toderici.除了简短的片段：视频分类的深度网络。CVPR，2015。1条款和条件机器人，2013年2[17] 潘博文林无为，方小林，朝琴[3] 范和合，徐仲文，朱林超，严成刚，葛建军，杨毅。看一小部分就像看所有的一样好：有效的视频分类。在IJCAI，2018。二、五、六[4] Michael Figurnov ， Maxwell D Collins ， YukunZhu ， Li Zhang ， Jonathan Huang ， DmitryVetrov，and Ruslan Salakhutdinov.残差网络的空间自适应计算时间。在CVPR，2017年。2[5] Mingfei Gao ， Ruichi Yu ， Ang Li ， Vlad IMorariu，and Larry S Davis.动态放大网络，用于大图像中的快速目标检测。在CVPR，2018年。2[6] 亚历克斯·格雷夫斯递归神经网络的自适应计算时间arXiv预印本arXiv：1603.08983，2016。2[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun. 用于图像识别的深度残差学习。在CVPR，2016年。一、五[8] Fabian Caba Heilbron 、 Victor Escorcia 、 BernardGhanem和Juan Carlos Niebles。Activitynet：一个大规模的视频基准人类活动的理解。CVPR，2015。二、五[9] Gao Huang ， Danlu Chen ， Tianhong Li ， FelixWu ， Lau- rens van der Maaten ， and Kilian QWeinberger.多尺度密集卷积网络用于有效预测.在ICLR，2018年。2[10] Y.-- G.江角，澳-地戴氏T.梅，Y. Rui和S.- F.昌在互联网视频中的超快速事件识别。IEEE TMM，2015年。2[11] Y.-- G. 姜，Z.Wu，J.Wang，X.Xue和S.-F. 昌利用正则化深度神经网络在视频分类中挖掘特征和类别关系IEEE TPAMI，2018。二、五[12] Shugao Ma，Leonid Sigal，and Stan Sclaroff.用于活动检测和早期检测的lstms中的学习活动进展在CVPR，2016年。4[13] 梅森·麦吉尔和皮埃特罗·佩罗纳如何决定：人工神经网络中的动态路由。ICML，2017。2[14] Volodymyr Mnih，Nicolas Heess，Alex Graves，etal.视觉注意的循环模型。在NIPS，2014。41288Huang，Bolei Zhou，and Cewu Lu.用于视频快速推理的递归残差模块。在CVPR，2018年。2[18] Mark Sandler ， Andrew Howard ， MenglongZhu ， An-Zhao Zhmoginov ， and Liang-ChiehChen. Mo-bilenetv 2：反向残差和线性瓶颈。在CVPR，2018年。5[19] Karen Simonyan和Andrew Zisserman用于视频中动作识别的双流卷积网络。在NIPS，2014。一、二[20] Yu-Chuan Su和Kristen Grauman。留有一些石头未翻：流视频中活动检测的动态特征优先级在ECCV，2016年。2[21] Richard S Sutton和Andrew G Barto。强化学习：一个介绍。麻省理工学院剑桥出版社，1998年。4[22] ChristianSzegedy 、 SergeyIoffe 、 VincentVanhoucke和Alexander A Alemi。Inception-v4，Inception-Resnet 和剩余连接对学习的影响InAAAI，2017. 1[23] Surat Teerapittayanon 、 Bradley McDanel 和 HTKung。Branchynet：通过早期退出深度神经网络进行快速推理。InICPR，2016. 2[24] Du Tran ， Lubomir D Bourdev ， Rob Fergus ，Lorenzo Torresani，and Manohar Pa

下载后可阅读完整内容，剩余1页未读，立即下载