视频持续学习基准测试工具vCLIMB的研究进展与改进

50 浏览量更新于2023-10-25 收藏 641KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19035vCLIMB：一个新的视频课堂增量学习基准Andrés Villa1，2，Kumail Alhamoud2，Victor Escorcia3，Fabian CabaHeilbron4，Juan León Alcázar2，Bernard Ghanem21智利天主教大学、2阿卜杜拉国王科技大学、3三星人工智能中心剑桥，4Adobe研究afvilla@uc.cl，kumail. kaust.edu.sa，v. samsung.comcaba@adobe.com，{juancarlo.alcazar，bernard.ghanem}@ kaust.edu.sa摘要持续学习（CL）在视频领域的探索不足。现有的一些作品包含分裂与不平衡的类分布的任务，或研究问题，在不合适的数据集。本文介绍了一种新的视频持续学习基准测试工具vCLIMB。vCLIMB是一个标准化的测试平台，用于分析视频持续学习中深度模型的灾难性遗忘与传统的工作相比，我们专注于类增量持续学习，使用在一系列不相交的任务上训练的模型，并在任务中均匀分布类的数量。我们对vCLIMB中现有的CL方法进行了深入的评估，并观察到视频数据中的两个独特挑战在帧级执行要存储在情节分类中的实例的选择。第二，未修剪的训练数据影响帧采样策略的有效性我们通过提出一个时间一致性正则化来解决这两个挑战，该正则化可以应用于基于记忆的持续学习方法之上。我们的方法显着提高了基线，高达24%的未修剪的持续学习任务。我们的基准测试代码可以在https://vclimb.netlify.app/上找到。1. 介绍深度神经网络依赖于大规模数据集来实现现代计算机视觉任务的最先进性能[6，10，18，20]。这种预训练的一个重要结果是通过微调较小下游任务的学习权重来实现特征重用[12，41][3，22，28]。由于法律或技术的限制，以及标记数据既昂贵又耗时的事实[34]，现实世界的深度学习管道很少涉及单个微调阶段。相反，这些管道可能需要对一组中的大型模型进行顺序微调在KAUST实习期间完成的工作独立的任务是按顺序学习的。在这些条件下，深度神经网络遭受所谓的灾难性遗忘[13]，其中对新任务的微调显着降低了模型在先前学习的任务中的性能，以及漂移[29]，其中未看到的训练数据不符合先前估计的类分布。持续学习[11]通过将神经网络模型适应于一系列连续的任务，直接对这种情况进行我们关注CL的一个特殊情况：类增量学习（CIL），其中标签和数据在任务之间是互斥的，训练数据仅可用于当前任务，并且没有任务ID。每分钟有 500 小时来自不同类别的视频上传到YouTube，每月有10亿人主动使用TikTok [4，36]，各种质量的视频内容以前所未有的规模提供对于如此大量的数据，重要的是开发能够有效地从连续的未经修剪的视频数据流中学习的模型。值得注意的是，很少有研究工作解决了持续学习的视频[24，26，44]。尽管有这些当前的工作，视频持续学习方法在其实验过程中仍然显示出很大的可变性，使得难以建立直接的比较。这些协议存在以下限制。（1）不公开。（2）他们不探索一个现实的设置与未经修剪的视频。（3）它们中的大多数都利用了一个大的预训练步骤，通过从相同的分布中学习一个样本类来预热模型，并且在真正的持续学习场景中并不总是可用。我们直接解决这些局限性，并提出vCLIMB（视频CLassI ncremental LearningB enchmark），一种新的基准设计用于评估视频中的持续学习。我们的测试平台在三个著名视频数据集的原始训练和验证集上定义了一个固定的任务分割：UCF101 [33]，ActivityNet [5]和Kinetics [6]。vCLIMB遵循标准的类增量持续学习方案，但包括一些修改，以更好地适应人类活动中视频数据的性质19036识别任务。首先，为了在使用内存的视频CIL方法之间实现公平的比较，我们将内存大小[27，38]重新定义为帧的总数，而不是视频实例的总数，该存储器可以存储。我们在表格中将其报告为内存帧容量，以避免与图像CIL中定义的内存大小混淆。这意味着我们不仅关心选择最好的视频存储在内存中，但我们也希望确定最好的帧集，以保持在存储器。其次，由于细粒度的时间视频注释是昂贵的（特别是对于长视频），我们分析了在连续学习中使用修剪和未修剪的视频数据的效果。据我们所知，这是第一个探索使用未经修剪的视频进行持续学习的工作。使用vCLIMB在对这些基线方法进行基准测试之后，我们提出了一种新的视频持续学习策略，该策略利用视频数据中固有的时间一致性来更好地解决持续动作识别问题。我们相信，vCLIMB学习将有助于今后在这一领域开展工作。捐款. 本文提出了vCLIMB，一种新的视频持续学习基准，活动分类任务。我们的工作带来了以下-降低贡献：（1）用于视频动作识别中的持续学习的标准化基准，其定义了三个视频数据集的训练协议和相关联的度量;这种新颖的连续学习设置包括修剪和未修剪视频的更真实的组合。（2）将四种基线方法从图像域重新应用到视频域，并对其进行了（3）提出了一种基于一致性正则化的新策略，该策略可以建立在基于内存的方法之上，以减少内存消耗，同时提高性能。2. 相关工作持续学习（CL）研究的方法，可以不断地学习新的概念，而不会忘记以前的知识。在类增量学习（CIL）设置中，模型在一组任务上顺序地训练。每个增量任务由来自新类的标记数据组成，这些新类是单独学习的，而不考虑来自先前任务的数据。CIL方法可分为两大类：基于正则化和基于记忆的方法。虽然基于正则化的方法惩罚从先前任务中学习的最相关参数的突然变化，但基于记忆的方法通过保留来自先前任务的有限数量的训练实例来减轻灾难性遗忘。尽管有大量关于持续学习的文献[1，7，8，15，17，21，25，27，31，42]，我们将我们的审查限制在最广泛采用的基线样本。基于正则化的方法。正则化技术试图保持对前面的任务很重要的权重不变。它们的不同之处在于如何估计在复杂任务中学习到的模型参数的重要性值。这些值通常在每个任务结束时更新并存储在重要性矩阵弹性权重合并（EWC）[17]使用Fisher信息模型进行估计。记忆感知突触（MAS）[1]通过测量参数的微小变化如何影响模型的输出，以自我监督的方式估计每个参数的重要性。MAS在视频领域特别感兴趣，因为它可以处理弱标记的实例。这些方法包括一个正则化因子λreg，该因子控制着主动学习任务的相关性。对于一个很大的因素，模型将优先考虑先前的任务，而不是当前的任务。基于记忆的方法基于存储器的方法选择样本并将其存储到存储器缓冲区中以供将来重放。该内存大小有限，在学习新任务时可用虽然朴素基线从先前学习的类中随机选择实例，但当前策略尝试选择每个类的训练样本的最佳子集我们专注于两个有代表性的方法，已被证明可以很好地与高分辨率图像数据集。增量分类器和表示学习（iCaRL）[27]结合了排练和蒸馏策略。在训练过程中，它会根据样本的最接近平均值规则选择每个类中最具代表性的实例偏差校正方法（BiC）[38]遵循iCaRL偏差校正缓解了来自新任务的大量数据与来自先前任务的相对稀缺的数据之间的不平衡，这些数据仅在内存中可用。一致性正规化。一致性正则化技术用于确保模型的输出对各种增强不例如，这些方法已被证明可以改善来自少数样品的图像生成[43，45]。我们的工作调查灾难性遗忘在视频持续学习，并提出了一致性损失，以帮助记忆重放方法显着减轻这种阻碍滋扰。继续学习视频。尽管CL在图像领域的兴趣越来越大，前三个作品报告结果的视频数据最近才出版。Zhao等人[44]提出了一种时空知识转移策略，以减轻灾难性遗忘。一项并行工作[26]估计了对先前任务的预测贡献最大的特征通道子集19037定任务--每个任务类的分发视频每个任务的预训练训练验证测试Avg. 每视频未修剪的视频[44]第四十四话没有一4–––10–✗[44]第四十四话20个班5–––4–✗[44]第四十四话没有一4–––10–✗[44]第四十四话20个班5–––4–✗UCF 101 -50 [26]51个班级5/10/25–––10/5/2–✗HMDB51-25 [26]26节课5/25–––5/1–✗[26]第二十六话84类9/18–––10/5–✗vCLIMB UCF 101没有一1092813127210183✗vCLIMB UCF 101没有一20464651365183✗vCLIMB动力学没有一10246281988397740250✗vCLIMB动力学没有一2012314994198820250✗vCLIMB ActivityNet-取消修剪。没有一101001492–203542✓vCLIMB ActivityNet-取消修剪。没有一20500246–103542✓vCLIMB ActivityNet-Trim。没有一101541765–203879✗vCLIMB ActivityNet-Trim。没有一20770383–103879✗表1. CIL基准统计。在vCLIMB中，我们为类增量学习提供了8个分割，每个分割包含10或20个任务。我们的Kinetics和ActivityNet设置包含大规模视频数据，并提供无视频预训练的长序列任务。这使得我们的分裂更适合于测量遗忘。我们强调，ActivityNet-Untrim提供了一个现实的挑战，以测试模型并引入了一个时间掩码，在学习新任务时保持该子集它还包括一个蒸馏损失，这使得只有最不相关的特征地图，以更新，而学习一个新的任务。最后，Maetal.[24]还通过在连续任务中正则化特征空间来处理类增量视频分类问题。尽管现有的工作引导了视频数据中连续学习的研究，但它们都使用不同的评估协议，使得方法之间的直接比较变得困难。此外，这些工作建议使用相同数据分布的大量类（多达总数的一半）来预训练模型，如表1所示。这样的安排对于持续学习来说是不自然的，因为它使我们很难理清灾难性遗忘的影响。相比之下，我们的基准测试提供了一个更好的和现实的设置。我们的拆分最多包含20个任务，每个任务的类数量均衡。此外，vCLIMB包括三个视频数据集，这使得在更多样化的场景中研究持续学习问题成为最后，以前的作品没有提供一个详细的分析建议的视频持续学习设置。在我们的基准测试中，我们提供了广泛的经验评估，以分析单个分割，并确定视频中持续学习的独特属性，包括内存大小和采用未修剪的视频配置。3. vCLIMB：一个视频类增量学习基准测试&类似于图像域，我们在一系列任务（Rn）上训练具有参数集（ω）的单个神经网络（Fω）序列中的每个任务包含其自己的训练数据Ri=（X0，Y0），（X1，Y1）. （Xn，Yn），其中Xn是输入数据，Yn是其对应的地面真值。我们在Rn上顺序优化F中的参数集ω，搜索使Rn上的平均精度最大化的F<$ω。数据集和任务。表1的下半部分总结了vCLIMB的主要属性。我们在三个著名的动作识别数据集之上设计了vCLIMB：(1) UCF101 [33]，拥有来自101个班级的13.3K视频(2) Kinetics [6]，一个大规模视频数据集，具有分布在400个动作类上的超过30万个短剪辑，以及（3）ActivityNet [5]，可用于修剪和未修剪的活动分类，并包含来自200个活动类的2万个视频我们利用Activi-tyNet中视频的多样性，并提供两个子集：ActivityNet-Trim，其中当动作发生时视频的每个部分都被视为独立的视频，而ActivityNet-Untrim更具挑战性，并将整个视频标记为其最具代表性的动作类。我们为每个数据集创建两个不同的CIL任务序列。第一个序列包含10个任务，第二个序列包含20个任务。表1中提供了关于每个任务的类的数量、每个任务的视频的数量以及每个分割中的平均帧的数量的统计。视频持续学习（CL）在vCLIMB中，我们使用标准CL指标：最终平均准确度（ Acc ）和向后遗忘（BWF）。Acc是在所有学习任务上评估的模型的平均分类准确度，包括最后一个训练任务[23，37]。这个指标对于显示模型的平均性能如何随着学习新任务而下降至关重要BWF完成Acc并测量学习任务的影响，19038Σ新任务视频帧情景记忆示例性新任务视频抽样选择帧采样情景记忆示例性选择新任务视频帧采样情景记忆示例性选择一致性正则化一致性正则化…一致性正则化视频Video分类器分类器分类器（N/M）任务1任务2(2N/M）任务n(nN/M）图1. 我们基于内存的CIL设置的概要。在视频CIL中，模型顺序地学习一组视频分类任务。基于记忆的方法定义了有限的情景记忆来存储先前任务的一些时间下采样的示例。我们提出了一种一致性正则化，帮助模型更好地记住内存中下采样示例中的先前任务在执行以前的任务[23]方面，Ni−1如后所示，使用时间一致性正则化可以显著降低这些存储要求。世界羽联i1=Ni−1（Rj=1j，j-RNi，j ）（1）CIL的未修剪视频数据。在未修剪的分类设置中，感兴趣的动作可能发生在任何其中，Ni是在学习任务i之后学习的任务的数量，并且Rj，j和RN，j表示在任务i上的准确度视频中的时间及其边界是未知的。这个问题的提法没有直接对应的im-任务我在学习任务j之后，学习新的任务j，年龄分类域。Activ的注释方案ityNet允许我们分析这种情况下的类增量-任务一，分别。给定总共N个任务，我们报告在我们的表中，最终的向后遗忘BWF=BWFN3.1. 视频CL视频CIL带来了独特的挑战。(1)在图像域中开发的基于存储器的方法不能扩展以存储全分辨率视频，因此需要新颖的方法来选择代表性帧以存储在存储器中。(2)未经修剪的视频具有包含较少有用信息的背景帧(3)时间信息对于视频数据是唯一的，并且基于存储器和基于正则化的方法都需要减轻遗忘，同时还整合来自该时间维度的关键信息。这些挑战为vCLIMB的设计选择提供了信息。重新定义内存大小。与类增量学习（CIL）的图像基准不同，我们的视频实例包含一个时间维度，其大小可以显示大的可变性。为了公平地比较不同的方法，我们根据存储的帧来定义工作内存的大小。这种设计选择避免了更长的视频是首选（甚至是微不足道的选择），以最大限度地提高工作内存中存储的数据量的此外，它在视频数据中创建了CIL的新的独特方面，因为方法必须首先决定应该选择帧的什么子集，然后根据子采样的视频决定存储什么视频。我们遵循与[27]相同的每类实例比率，当模型学习了所有训练类时，该比率为20。因此，我们为Kinetics、ActivityNet和UCF 101分别定义了最多可保存8000、4000和2020个视频的内存。如果我们将视频存储在内存中而不对它们进行下采样，这将相当于在Kinetics、ActivityNet和UCF 101中节省3.25%、25.95%和21.76%的总帧。正如我们说话学习。在ActivityNet中，视频包含一个或多个定义动作实例发生的时间片段，而未标记的片段构成没有相关动作发生的背景集[5]。我们利用视频数据的这一独特属性，定义了两个独立的视频CIL设置。在修剪设置中，我们只使用属于标记动作片段的帧。在未修剪的设置中，我们从整个视频中自由采样帧，无论它们属于主动作还是背景。为了在未修剪场景中保持一致性，我们为视频中的每一帧都赋予相同的标签。我们选择一个主标签作为视频中具有最长时间支持的动作，并丢弃任何包含2个或更多不同标签的视频我们实证地发现，这种分配只丢弃了ActivityNet数据集的0.15%。这种未经修剪的学习任务更类似于CIL的真实世界场景，其中模型从连续的不同视频流中学习。考虑到当前视频服务的规模和细粒度标签的昂贵性质，真实模型可能会从具有弱视频级注释的流中学习。基线我们实现和评估这四种连续学习方法作为基线[1，17，27，38]，因为它们被广泛使用，并且易于扩展到视频领域。我们还比较了一个天真的内存为基础的策略，随机选择样本的内存创建。我们提供这些方法的实现作为我们的视频CIL基准的一部分。3.2. 基于时间一致性正则化的强基线我们提出了一种新的CIL在视频域的策略我们的方法依赖于一个独特的特点，19039××原始视频（无法访问）存储在内存学习嵌入空间嵌入原始全分辨率视频嵌入a从存储器图2. 时间一致性丢失。我们的一致性损失鼓励了对帧采样具有鲁棒性的学习表示，使CIL模型能够通过仅查看这些视频的下采样版本来记住旧任务。视频数据，时间分辨率一致性。图1显示了基于内存的视频CIL方法的流水线。在完成对来自第一个任务的视频的训练之后，模型可以选择选择一些时间子采样的示例存储在情景记忆中。当学习第二个任务时，模型在新任务视频和它保留在内存中的一些过去任务示例上进行训练。我们在每个新任务的微调阶段引入正则化损失，如图1中的虚线箭头所示这种损失限制了网络估计原始视频剪辑及其时间下采样版本的相似特征表示。该约束旨在通过在原始剪辑和其时间下采样版本之间强制执行类似的表示来优化存储在情景记忆中的数据的有效性。如图2所示，我们的损失最相关的方面是它减少了存储在内存中的样本和训练时使用的原始样本虽然简单，但我们的约束直接解决了视频中CIL的关键方面之一：其情节记忆由帧集而不是全分辨率视频剪辑组成。在实践中，我们通过向损失函数添加正则化项来强制执行类似的表示。时间一致性丢失。当在新任务上训练时，每个视频（X）将借助于时间下采样而具有增强版本（Xd我们使用成对的X和Xd来计算网络F的单个前向通道上的一致性损失Lc：Lc=（1− λ）Lcls（F（X），Y）+λLcls（F（Xd），Y），（2）其中Lcls是交叉熵损失，Y是X的地面真值标签，λ是一致性正则化因子。我们的一致性正则化策略是模型不可知的，因此可以适应任何骨干和CIL内存重放策略。由于我们对两个损失项使用相同的权重集合（F），因此我们的方法仅在FLOP总数中引入线性时间增加。4. 实验评价我们现在继续进行vCLIMB中班级增量持续学习任务的实验评估。在本节中，我们首先讨论在视频域中用于持续学习的图像方法的重新实现的细节。然后，我们在vCLIMB基准测试中包含的三个数据集上对这些基线方法进行实证评估：UFC 101 [33]、Kinet-ics [6]和ActivityNet [5]。对于ActivityNet数据集，我们还评估了存在修剪和未修剪视频注释的CIL任务。此外，我们评估了所提出的正则化方法在所有以前的场景和数据集中的有效性。实施详情。基于记忆的[27，38]和基于正则化的[1，17]基线分别训练50和20个epoch，然后对每个CIL任务进行完全监督设置。我们使用TSN [35]和在ImageNet上预训练的ResNet-34骨干我们遵循[35]中提出的相同时间数据增强，每个视频使用N= 8个我们使用Adam [16]优化我们的模型，学习率为1 10−3。对于时间一致性损失因子，我们使用λ= 0。五、我们运行MAS [1]，正则化因子λreg为3 105。我们发现EWC [17]对视频CIL的调整更具挑战性通过在每个数据集上为EWC选择不同的正则化因子 λreg 来获得最佳结果： UCF 10 1 为3×103，Kinetics为5 × 102，ActivityNet为3 × 105。4.1. 视频CIL如3.1所述，vCLIMB中的数据集在规模上有所不同，因此我们根据其总帧数为每个数据集设置了不同的工作内存限制对于每个数据集，我们在两个不同的拆分上执行实验：10项任务拆分和20项任务拆分。在表2中，我们报告了使用每种方法的最佳超参数获得的结果。与图像类增量学习[14]一致，无论数据集的难度或任务的数量如何，基于正则化的方法EWC [17]和MAS[1]都明显落后于基于重放的方法。这是因为正则化方法只惩罚模型参数的改变，因此在学习新任务和忘记旧任务之间经历不可避免的折衷。如果使用更大的正则化参数来强调学习新任务，则遗忘增加，并且旧任务的平均准确性受到损害。如果使用较小的正则化参数来强调记住旧任务，则新任务的准确性受损。考虑到视频CIL的困难，这种限制突出了未来探索更复杂的无记忆方法策略的令人惊讶的是，没有一种基于内存的方法在所有视频数据集上都是最优的。而天真的基线，没有我们的损失我们的损失19040模型N u m .动力学活动Net-Trim UCF 101任务记忆视频教程Mem. Frame容量加计↑BWF↓记忆视频教程记忆框架容量加计↑BWF↓记忆框架容量Mem. Frame容量加计↑BWF↓EWC 10没有一没有一5.81%16.05%没有一没有一4.02%5.32%没有一没有一9.51%百分之九十八点九四MAS 10没有一没有一7.81%10.12%没有一没有一8.11%0.18%没有一没有一10.89%11.11%EWC 20没有一没有一2.95%32.70%没有一没有一百分之一点二八3.77%没有一没有一4.71%92.12%MAS 20没有一没有一4.25%5.54%没有一没有一4.61%百分之零点一没有一没有一5.90%5.31%天真10800062× 1030.14%41.30%40006十五岁5× 1047.20%20.64%202053 .第三章。69× 1091.42%7.43%iCaRL 10800062× 1032.04%38.74%40006十五岁5× 1048.53%百分之十九点七二202053 .第三章。69× 10百分之八十点九七18.11%BiC 10800062× 10百分之二十七点九51.96%40006十五岁5× 1051.96%24.27%202053 .第三章。69× 1078.16%百分之十八点四九天真20800062× 1023.47%百分之四十八点零五40006十五岁5× 1040.78%23.18%202053 .第三章。69× 1087.40%百分之十点九六iCaRL 20800062× 1026.73%42.25%40006十五岁5× 1043.33%21.57%202053 .第三章。69× 1076.59%21.83%BiC 20800062× 1023.06%百分之五十八点九七40006十五岁5× 1046.53%15.95%202053 .第三章。69× 1070.69%百分之二十四点九表2. 基线视频CIL结果。我们报告的平均准确率（Acc）和向后遗忘（BWF）在10和20任务从三个动作识别基准。基于正则化的方法（在表的顶部），低于基于内存的方法，显示在底部。与图像域中的结果一致，更长的20个任务序列对于所有数据集上的所有方法都更具挑战性。我们强调，在图像域中报告的改进并不直接转化为视频域，因为没有一种方法在每种设置中都能获得最佳性能。随机采样内存实例，优于UCF 101上的其他基线，iCaRL和BiC更好关于Kinetics和ActivityNet我们认为，通过找到专门为视频设计的基于记忆的方法来解决这种差异是一个重要的研究方向。任务数量和遗忘。我们观察到，较长的（20个任务）序列是一个更具挑战性的设置，其中对于三个数据集中的任何一个数据集，任何方法的平均准确度总是较低按照这种趋势，所有基于记忆的方法都会随着序列中任务数量的增加而忘记更多。与图像域类似，长任务序列的评估突出了CIL方法的短时性，因此适合于减轻遗忘的策略的研究。我们提出关闭10个任务和20个任务的场景之间的遗忘差距作为一个重要的研究方向。视频中内存大小的相关性。U C F 101在表2中脱颖而出，因为基于内存的方法在此数据集中表现得非常好。事实上，在UCF 101 10任务CIL上通过朴素排练基线获得的91.42%的准确度几乎与训练TSN [35]报告的94.9%的准确度相当，这是我们实验中的骨干，同时在所有UCF 101类上。这与Kinetics和ActivityNet结果形成鲜明对比，其中最佳CIL基线分别达到32.04%和51.96%。相比之下，在整个数据集的所有动作类上训练的TSN在Ki- netics上达到73.9%[40]，在ActivityNet上达到88%[35]。Park等人[26]在UCF 101上进行了实验，并观察到在内存中存储帧的子集与存储整个视频的性能相似[26]。我们的假设是，帧采样的这种良好的性能和明显的不变性是UCF 101数据集特有的伪影，并且它不是视频类增量学习的标准我们的经验-表3中关于Kinetics和ActivityNet的部分表明，对于更具挑战性的视频数据集，情况确实并非如此。特别是对于ActivityNet，与存储所有帧相比，在内存中存储每个视频四帧会导致准确性整体下降27%。我们假设Kinetics和ActivityNet中的时间依赖性更复杂，与任务更相关，因此具有朴素采样策略的模型很难从严重下采样的视频中记住较旧的任务。4.2. 从下采样的视频中回忆。为了避免引起大的存储器需求，视频CIL模型在存储视频以供将来重放之前对视频进行下采样这意味着模型将学习具有全分辨率视频的新任务，但其分类将由属于旧任务的视频的时间子采样版本组成。不幸的是，从原始训练数据到修改后的存储样本的差异导致准确性下降，这从表3中的Kinetics和ActivityNet结果中可以看出。为了减轻遗忘，连续视频动作识别模型必须学习鲁棒的动作嵌入，这对视频的时间分辨率是不变的我们使用我们的时间一致性损失在全分辨率视频和时间下采样视频上联合训练CIL模型。我们提出的策略有助于实现这一理想的不变性。表3报告了使用我们的一致性损失的结果，这在第3.2节中解释，以减轻从下采样视频中记住的模型中的遗忘。由于没有一种基于内存的方法在所有数据集上都持续优于其他方法，因此我们选择更成熟的基线iCaRL [27]来执行二次抽样记忆实验动力学的一致性正则化表3的最后三行总结了在有限大小的存储器上应用我们的时间正则化时间19041模型帧动力学活动Net-Trim UCF 101记忆帧容量接入↑BWF↓帧容量接入↑BWF↓记忆帧容量接入↑BWF ↓3 .第三章。2六、412个。82×3 .第三章。2六、412个。81041041041061041041048. 08十六岁16三十二323 .第三章。698. 08十六岁16三十二32表3. 不同内存大小的消融研究结果。我们在10个任务修剪动作识别设置上比较了iCaRL [27]与时间一致性（iCaRL+TC）。iCaRL在具有挑战性的Kinetics和ActivityNet-Trim设置中随着内存大小的减少而失去准确性。应用TC使我们能够将内存大小减少2个数量级，同时保持ActivityNet-Trim的性能，它甚至优于使用Kinetics中所有帧的iCaRL版本一致性正则化（在表中标记为TC）减少了10个任务Kinetics分割上的遗忘，而不管每个视频存储了多少帧。特别是，当我们的时间一致性项被添加到iCaRL的损失目标时，我们在每个视频16、8或4帧的存储器上测试的最佳基线（iCaRL）显著改善例如，在每个视频存储4帧的情况下，准确度提高了4.5%以上。值得强调的是，增加时间一致性使我们能够存储每个视频少至4帧，但与存储完整视频相比，精度提高了3%以上，这需要大约100倍的内存帧容量。Trimmed ActivityNet 上的一致性正则化我们在ActivityNet上观察到了类似的趋势，时间一致性带来了更大的改进。具体来说，将正则化项添加到一个可以访问每个视频8帧内存的模型中，可以此外，每个视频存储在内存中4帧，我们的时间一致模型接近于实现与使用全分辨率视频的模型相似的性能。事实上，这大大缩小了在内存中存储全分辨率视频和在不使用正则化时每个视频存储4帧之间我们的研究结果表明，我们的方法与需要更复杂的时间推理（如ActivityNet）的数据集最相关。内存中应该存储多少帧？使持续学习方法适应视频的一个主要挑战是，由于增加的时间维度，视频比图像消耗更多的内存。我们在表3中的实验表明，基于一致性的训练框架可以在存储视频以供将来重放之前对其进行下采样，从而导致非常小的内存和轻微的性能下降。特别是在具有挑战性的数据集Kinetics上，使用全分辨率内存训练的无TC iCaRL实现了32.04%的平均然而，增加TC损失和训练每个视频样本仅8帧的存储器导致36.24%的甚至更好的平均性能。这是令人印象深刻的，因为在动力学中每个视频的平均帧数是250，这意味着只有3.2%的平均动力学视频存储在内存中。我们在ActivityNet-Trim上的实验也显示了类似的趋势，即减轻对大内存的需求。由于 8 帧代表平均ActivityNet视频的0.21%，因此在训练中天真地存储没有时间一致性的8帧样本会导致准确率下降27%。使用一致性正则化和每个内存样本8帧，我们能够将准确度的差异从27%降低到3%。UCF 101中的帧采样。我们重新审视我们的断言，即在UCF 101中记住旧任务不受存储在内存中的帧数量的影响。我们改变每个视频使用的帧数：从存储所有帧到存储16、8和4帧。表3中报告的结果清楚地表明，iCaRL的性能在所有这些不同的情况下几乎相同，验证了UCF 101不是评估CIL方法的原型数据集的说法。为了完整性，我们还使用所提出的一致性正则化方案运行了相同的一组实验。我们注意到，它无助于提高性能。这并不奇怪，原因有二。（i）在UCF 101上进行类增量学习已经不比在一个任务中对整个数据集进行训练更具挑战性，正如我们在第4.1节中所展示的那样。（ii）如表3的前半部分所示，在UCF 101上使用存储器缓冲器的类增量学习对于存储在存储器中的每个视频的帧数是不变的。这可以通过UCF 101中表现出的强烈场景偏差来解释[9]。因此，在CIL训练和完全监督训练之间具有非常小的准确性差距的该数据集中合并TC损失预计不会提高准确性。UCF 101视频CIL。总之，我们仍然建议使用UCF 101分裂的原型视频CIL方法。然而，由于其简单性，我们鼓励每个视频iCaRL4iCaRL8iCaRL16iCaRL所有iCaRL+TC4iCaRL+TC8iCaRL+TC16×1030.73%440.36%6××1032.04%438.48%2××1031.36%438.74%4×10632.04%38.74%15. 5××1035.32%434.07%1. 6××1036.24%433.83%2×21.63%36.98%21.54%33.41%25.27%29.71%48.53%百分之十九点七二百分之四十二点九九23.82%×1080.32%3百分之十七点一三×1081.12%318.25%×1081.06%318.23%×1080.97%518.11%×1073.85%3百分之二十六点三五19042模型帧记忆平静104104104104104104ActivityNet-Untrim活动Net-Trim表4. 剪切和未剪切视频的消融研究结果。所有的实验都涉及10个任务的顺序训练。ActivityNet-Untrim为评估CIL模型提供了一个更现实和更具挑战性的设置。我们对存储在内存中的每个视频施加4、8和16帧的严格资源约束。我们的时间一致性方法显著提高了在两个内存有限的ActivityNet设置上训练表中突出显示了每个数据拆分的最佳性能设置社区评估新的视频CIL方法对更具有挑战性的分裂从动力学和ActivityNet。从未经修剪的视频中进行增量学习。如表4所示，我们执行了一组实验来评估具有未修剪视频的真实类增量学习场景，并进行了一些有趣的观察。首先，ActivityNet-Untrim 比 ActivityNet-Trim 更具挑战性iCaRL基线[27]在ActivityNet-Trim上实现了更好的性能，无论存储在内存中的每个视频的帧数如何其次，我们的时间一致性正则化在两个ActivityNet设置中都有很大的改进[27在10个任务的情况下，iCaRL在修剪和未修剪设置上的渐进性能，其中8帧用于表示内存视频，如图3所示。我们的正则化损失在两种情况下都将性能提高了24%。为什么一致性规则化工作？我们假设，通过增加一致性正则化损失获得的大精度增益是由于两个原因。首先，正规化可以使训练更加稳定。当在增强的示例上训练模型时，我们期望模型能够学习更强大的表示，从而使学习新任务变得更容易。其次，一致性规则化迫使主干学习动作嵌入，这些动作嵌入对于用于表示视频的帧的数量是不变的。当前的视频CIL方法将下采样的视频存储在情节存储器中。然而，在不应用一致性损失的情况下，该模型自然地学习密集采样视频和稀疏采样视频的完全不同的特征。因此，模型努力从下采样视频的该存储器中重新成员旧动作表示。不同时间分辨率的视频之间的这种分布变化在具有更复杂时间依赖性的数据集中尤其明显，如ActivityNet。这说明了为什么我们的方法在这个数据集上大幅提高了性能，表明TC损失不会使模型偏向虚假的场景特征，而是设法保留有意义的时间特征。8070605040302020406080100120140160180200累计评估类图3. 验证集中的平均准确度。我们在10个任务上依次训练iCaRL，并强制每个视频8帧的内存限制。我们的时间一致性（ TC ）损失显著提高了 iCaRL 在 ActivityNet-Trim 和ActivityNet-Untrim上的性能5. 结论和限制在本文中，我们提出并分析了vCLIMB，一个连续的学习基准视频动作识别。我们暴露和解决未研究的准确性下降，这是经验丰富的基于内存的视频CIL模型，是由帧子采样。在我们的实验中，我们均匀地对帧进行采样，并利用一致性损失来显着减轻准确率下降，在CIL未修剪视频分类中高达24%。我们认为，探索非均匀采样策略是另一个有前途的方向，但我们把探索留给未来的工作。致谢。本出版物基于阿卜杜拉国王科技大学（KAUST）赞助研究办公室（OSR）支持的工作，奖励号为 OSR-CRG2021-4648 。作者还感谢 CentroNacional de Inteligencia Artificial CENIA，FB 210017，BASAL，ANID。iCaRL+TC 8F TrimmediCaRL+TC 8F UntrimmediCaRL 8F TrimmediCaRL 8F未修剪每视频帧情况iCaRL41. 6×iCaRL83. 2×iCaRL十六六4×iCaRL+TC41. 6×iCaRL+TC83. 2×iCaRL+TC十六六4×平均准确度（%）加计↑BWF↓加计↑BWF↓百分之十六点二八32.75%21.63%36.98%16.67%31.96%21.54%33.41%21.27%百分之二十八点九四25.27%29.71%36.07%22.39%百分之四十二点九九23.82%19043引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。以Eur.会议软件。目视，2018年9月。二、四、五[2] 放大图片作者：David Berthelot，Nicholas Carlini，Ian J.Goodfellow ， Nico- las Papernot ， Avital Oliver ， andColin Raffel. Mixmatch：半监督学习的整体方法。在高级神经信息中。过程系统，第5050-5060页，2019年。2[3] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。以Eur.确认补偿目视第850-865

下载后可阅读完整内容，剩余1页未读，立即下载