基于交叉模态知识提取的增强RGB表示学习算法

26 浏览量更新于2023-10-15 收藏 1.31MB PDF 举报

动作检测

双流网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13053一、二、三基于交叉模态知识提取的增强RGB表示学习算法RuiDai1，2，SrijanDas3，Franć oisBremond1，21Inria2Univ ersite´Cote{name.surname}@ inria.fr{name.surname}@ stonybrook.edu摘要在视频理解中，大多数跨模态知识提取（KD）方法都是针对分类任务定制的，专注于修剪视频的区分表示。然而，动作检测不仅需要对动作进行分类，还需要将它们定位在未修剪的视频中。因此，转移知识的时间关系是至关重要的，这是在以前的跨模态KD框架中缺失的任务为此，我们的目标是学习用于动作检测的增强RGB表示，通过KD在训练时利用额外的模态我们提出了一个由两级蒸馏组成的KD一方面，原子级蒸馏鼓励RGB学生以对比的方式从老师那里学习动作的子表示另一方面，序列级蒸馏鼓励学生从教师那里学习时间知识，包括转移全局上下文关系和动作边界显著性。结果是增强RGB流，其可以实现与双流网络一样的竞争性能大量的实验分析表明，我们提出的蒸馏框架是通用的，优于其他流行的跨模态蒸馏方法在动作检测任务。1. 介绍从未修剪的视频中学习表示用于动作检测是一项具有挑战性的视觉任务。动作检测的目的是对与未修剪视频中发生的每个动作相对应的所有帧进行分类。动作检测的两个主要挑战是处理复合动作模式和细粒度细节[47]。这些挑战在真实世界场景的情况下尤其困难，其中动作密集分布并且彼此重叠[63]。为了解决这些挑战，一种典型的设置，称为双流网络[49]，包括将RGB与其他模态（如光流[41，62]）相结合。图1.提出了用于动作检测的跨模态蒸馏框架。我们的蒸馏框架由三个损失项组成，对应于不同类型的知识跨模态转移。LAtomic：原子KD损失;L全局：全局上下文关系丢失;L边界：边界显著性损失。3D姿态[68，11]，以考虑每种模态的互补性质。然而，使用这样的设置取决于多种模态和昂贵的处理资源的可用性。计算附加模态的成本可能是令人望而却步的，特别是对于长的未修剪的视频。这些约束限制了多模态动作检测方法在现实世界应用中的使用。以前的研究[20，21]已经表明，跨模态知识蒸馏（KD）是一种有效的机制，可以避免在测试期间计算额外的模态，同时保留来自额外模态的补充信息。然而，视频理解领域中的大多数先前的作品[6，18，17]仅研究了短修剪视频的分类[28，50，30]。在这些作品中，每个视频对应于单个动作，并且蒸馏框架将动作实例的聚合知识从一种模态融合到另一种模态中。与修剪视频相比，未修剪视频包含具有复杂时间关系的丰富序列知识。真实世界场景中的未经修剪的视频往往具有杂乱的背景和多帧图像。13054三个相关的行动，无论是在序列[36]或并行[63，48]。因此，针对分类任务定制的和针对检测任务扩展的蒸馏机制缺乏沿着时间维度捕获细粒度细节。现在的问题仍然是，什么应该是正确的战略，蒸馏跨模态知识的行动检测在未经修剪的视频？在这项工作中，我们提出了一个蒸馏框架相结合的跨模态信息检测行动的高精度和最小的资源。目标是在推理时仅使用RGB流的同时达到双流性能。所提出的蒸馏框架由传统的师生网络架构组成，其以Seq2Seq方式操作[42，10]，这要归功于三个新的蒸馏损失专用于如图所示的活性检测任务。1.一、首亏在我们的公式中是原子KD损失，这使得RGB学生网络能够以对比的方式模仿来自教师网络的每个单独片段的特征表示。该损失项通过仅在不同模态的一对一对应片段之间转移知识，将为分类任务制造的跨模态KD机制扩展到时间域[38 因为一个代码段通常比动作实例在未修剪的视频中，因此这种损失鼓励动作的子表示[19]的转移，例如，“喝水”动作中的这里，这样的子表示w.r.t.整个视频对应于完整动作特征分布内的原子知识片。然而，未经修剪的视频由片段序列组成，仅提取原子表示不足以学习区分动作表示。因此，需要专用于具体表示未修剪视频内的动作的蒸馏机制。因此，我们为序列级KD引入两个损失项，以便在不同模态之间转移交叉片段关系首先，我们提出了一个全局上下文关系损失转移的上下文信息之间的模态序列。在我们的工作中，上下文信息被定义为所有片段特征之间的相关性的嵌入由于这个损失项，每个学生片段特征可以在潜在空间中从未修剪视频内的所有相关教师片段中学习（图12）。①的人。利用该损失项，检测片段中的一个动作可以受益于相关片段中的信息（对应于相关动作，例如，与相关动作相关联的信息）。采取和吃三明治），导致更好的动作检测性能。其次，我们提出了另一种KD损失来提取从教师到RGB学生网络的边界显着性，称为边界显着性损失。这确保了RGB学生的更精确的动作边界检测，其易于由于弱的时间信号而导致不精确的动作边界检测。在一段未经剪辑的视频中动作的开始和结束时刻比其他部分更突出（见图2）。①的人。直观地，跨视频中的连续片段的特征变化可以反映动作边界的这种显著性。因此，从可以更好地捕获运动的模态（例如，运动模式）学习该变化是可行的。光流、3D姿态）鼓励RGB流表示对动作边界更敏感。捐款. 总而言之，我们向很少探索但至关重要的跨模态KD迈出了一步。我们构建了一个Seq2Seq KD框架，用于具有新配方的动作检测。该公式由原子级KD损失和两个序列级KD损失组成。我们的公式中的三个损失项以端到端的方式联合优化。到达贝斯特据我们所知，我们是第一个提出包含用于动作检测任务的连续KD损失的公式。我们在五个基准上进行了全面的实验。我们的联合配方显著改善了普通RGB基线（在MultiTHUMOS w.r.t. vanilla-RGB），并且在推理时仅使用RGB的同时实现双流性能。所有这些数据集上的一致改进证实了我们的蒸馏框架的有效性和鲁棒性2. 相关工作在本节中，我们简要回顾了动作检测体系结构和最先进的交叉模态蒸馏方法。2.1. 动作检测根据注释的密度，存在两种用于动作检测的数据集：（1）稀疏标记[26，13，36]和（2）密集标记[63，48，8]数据集。在社区中，大多数动作检测方法[67，16，62]是为稀疏标记的数据集定制的。由于密集标记的数据集包括同时发生的细粒度动作，因此它们更具挑战性并且更接近真实世界的场景[63]。关于流行的动作检测方法，基于锚的方法[61，3，16]受到两阶段对象检测框架的启发，该框架利用一组预定义的锚来生成动作建议以及另一个分类阶段。然而，基于锚点的方法需要大量的锚点来生成建议，因此在密集标记的数据集上表现不佳[61，5]。为了处理上述问题，一些方法[42，31，9，51，7]借用了自然语言处理[12]的Seq2Seq框架来进行动作检测。Seq2Seq方法由用于编码主要时空特征的视觉编码器、用于对时间信息建模的高效时间滤波器和用于执行帧级动作检测的分类器组成。这个框架13055STBV年龄序列转化为预测分数序列。帧级动作检测可以被视为类特定动作检测器。通过参考基于动作的方法[67，60，35]，可以从帧级检测结果生成动作建议。基于Seq2Seq的方法在两种类型的数据集上都表现良好，特别是对于密集注释的数据集[42，10]。为了构建一个可以处理这两种数据集类型的通用蒸馏框架，我们因此依赖于Seq2Seq范式。此外，为了结合基于外观和运动的信息，现有技术的基于序列的方法利用双流架构[41，42]。为了避免双流体系结构的昂贵计算，已经针对视频分类任务引入了交叉模态蒸馏方法[6，18]和快速光流（OF）检测器[27，52，53，66然而，快速OF检测器技术是模态特定的，具有相对低的性能[6]。因此，我们建议深入研究跨模态蒸馏机制，以学习长时间连续视频的紧凑动作表示。2.2. 跨模态知识提取知识蒸馏（KD）的主要目标是将从教师网络学习到的模型信息提取到学生网络中。许多KD研究[23，4，40，56，37]探索了将知识从大型复杂模型转移到小型简单模型，即模型压缩在这项工作中，我们专注于跨模态KD，其中教师和学生模型之间的差异主要依赖于输入模态而不是网络架构。在视频领域，Garcia etal.[18]开发了一个用于动作分类的蒸馏框架，该框架具有四步过程，将深度特征幻觉到RGB帧中。类似地，MARS [6]通过将OF蒸馏和分类损失的线性组合反向传播通过整个网络，在单个步骤中训练RGB网络。最近，罗等。[38]提出了一种可以应用于动作检测任务的图蒸馏（GD）方法。该方法利用滑动窗口处理未裁剪的视频，并通过最小化余弦距离的相互学习方式提取每个窗口的知识。GD旨在利用特权模式，因此依赖于大量模式。相比之下，我们的框架旨在有效地执行从可用的方式的蒸馏。此外，GD仅在相应的片段之间传递知识（即，窗口），但是不考虑提取中的片段之间的关系，这对于处理动作序列是至关重要的。因此，为了更好地处理蒸馏动作检测，我们提出了一个新的配方与三个损失条款。更具体地说，为了在未修剪的视频中沿着时间维度传递知识，我们引入了序列级蒸馏图2.提出的蒸馏框架。在上面，我们展示了一个例子，对于student（）和teacher（）网络，批量大小（）为2个未修剪的视频（）。在该示例中，输入包括一对正视频和一对负视频。序列级蒸馏和分类损失仅用于正对，而原子级蒸馏利用正对和负对两者。在底部，我们展示了原子级蒸馏。机制由于它，网络可以是有效的，即使有一些额外的模式。3. 拟定蒸馏框架在本节中，我们首先描述我们的方法的总体架构。然后，我们详细介绍了不同的损失在拟议的框架。3.1. 整体架构架构的概述如图所示二、在这项工作中，知识转移发生在教师和学生网络之间。如第2.1中，两个网络都由视觉编码器和时间滤波器组成，遵循Seq2Seq范例。对于视觉编码器，我们使用I3D [2]来编码用于RGB和光流（OF）的片段的时空信息。类似于先前的动作检测方法[14，65]，16帧的序列被编码为单个特征向量表示。视频的编码特征图然后被馈送到时间滤波器。时间滤波器的选择是灵活的，因为我们可以选择任何众所周知的时间模型[42，31，24]。这里，我们将5层SS-TCN [14]设置为默认时间滤波器，其基于Dilated-TCN [31]。学生和教师都具有相同类型的时间滤波器，具有相同的设置（即膨胀率和通道尺寸）。在训练阶段，从教师网络的输出特征向学生网络执行与[42，10]类似，该输出13056∈∈BN∈{T S} TSP B NPP原子PTexpFT（j，t，：）FS（i，t，：）+Ti=jt=1expFT（j，t，：）FS（i，t，：）+ΣΣi=jt=1特征图被进一步分类并分组为学生和教师的类别，我们计算：动作检测器，用于检测所述动作。TF（j，t，：）F（i，t，：）L=1Σ Σlog[expT S]+模态（例如OF、3D姿势）。默认情况下，我们选择教师网络作为OF流，而学生网络作为RGB流。在以下各节中，我们将1TexpFT（j，t，：）FS（i，t，：）[log（1−）]（一）用 Fr（i，t，c）索引i的视频的特征表示，其中r、代表老师学生;t[1，T]表示片段索引，T表示片段中视频的长度;C ZC表示-dex，C是通道尺寸。该表达式可以用于表示视频或片段的特征。例如，Fr（i，t，：）和Fr（i，t，：）分别表示视频i的特征图和视频i在时间步长t处的片段的特征向量对于增强RGB表示，蒸馏在两级中进行首先，我们在原子水平上执行蒸馏以蒸馏动作的基本表示其次，我们执行序列级蒸馏以蒸馏（i）片段之间的显著关系，以及（ii）指示动作边界的片段之间的显著时间变化。3.2. 原子级蒸馏为了在两个视频序列之间传递知识，首先，我们在我们的整体公式中适应和整合该损失项鼓励学生模仿教师网络的每个单独片段特征的特征我们的公式与之前的工作[38]不同，该工作最小化片段特征之间的余弦距离。受对比学习[55，22，39]最近成功的启发，我们使用对比策略来构建我们的模型，以增强原子级知识模仿。如图在图 2 中，令[FS （ i ， t ，：）， FT （ i ，t，：）]表示来自时间t处的相同视频i但跨越教师和学生网络的不同模态的一对训练片段。设FT（j，t，：）是另一个片段表示从教师流的随机选择的视频j有不同的标签。当 i=j 时，我们将对 [FS （ i ，t，：），FT（j，t，：）]定义为正，否则为负。我们的目标是将表示FS（i，t，：）和FT（i，t，：）推得更近，同时将FS（i，t，：）和FT（j，t，：）推得更远，这可以被看作是一个二元分类任务，它试图最大化学生和教师表示之间的互信息的对数似然。在实践中，损失按具有批大小的批来更新。如果每个阳性对都存在阴性对，则一批阳性中的样本数由=（+1）给出。(see图2）的情况。来度量其中T表示正片段的总数，是负片段与训练集中片段的基数的比率。注意，该损失项由与其他蒸馏损失和类熵损失（即，总损失）的线性组合伴随。监督学习）。由于动作实例的长度通常大于片段，因此通过原子级蒸馏，教师网络仅传输动作的子表示[19]。接下来，我们提出了一个新的序列级蒸馏机制，已被忽视的国家的最先进的方法。3.3. 序列级精馏序列级蒸馏通过结合上下文信息并受益于沿动作边界的跨模态表示的变化，在未修剪的视频中的不同模态之间转移交叉片段知识。因此，我们提出了两个序列级蒸馏损失：（1）全局上下文关系，（2）边界显著性，以提高动作检测性能。注意，两个序列级蒸馏损失仅应用于正视频对之间，对应于P个视频。3.3.1全局上下文关系对于序列级蒸馏，首先，我们提出在整个视频的模态之间转移上下文知识。直观地说，一个给定动作的检测可以通过检测其他相关动作来支持，这些动作在未修剪的视频中可能是遥远的[41]。因此，动作片段的表示可以受益于涉及另一模态的视频中的其他片段的上下文信息。但是，对这种上下文关系进行建模的挑战是考虑与单个片段相关的视频中的所有片段的模型的高复杂性。因此，我们提出了一个嵌入式项目的学生-教师的功能在一个空间中的所有行动之间的全局上下文关系进行计算。对于全局上下文关系损失，我们计算片段序列的信道协方差矩阵（Cov）。我们使用通道协方差的动机是：（1）在每个时刻，通道包含动作的潜在表示，因此通道协方差嵌入了视频中动作事件之间的关系;（2）虽然视频教师网络的投入灵活多变，成本高13057T −1C不∈{T S}PΣ1L=|V ar（i）−V ar（i）|（六）P2P∈{T S}Σ1||RLT−1t=1c =1RR并且动作事件在长度上具有很大的变化，则信道大小是固定的。这导致信道协方差是更鲁棒的表示。提供视频的特征图，Cov对每个通道内的方差和整个视频上的所有通道之间的协方差进行编码。矩阵中的每个元素反映了两个通道之间的相关性，这可以表征动作类沿时间的特定激活模式。因此，协方差矩阵捕获片段之间的关系，并指示是否信息.例如，对运动敏感的模态（例如，对运动敏感的模态）可以被配置为在运动中使用。OF、3D姿势）能够从该损失项带来显著的益处。此外，该损失术语还鼓励在不同模态之间保持时间一致性。在实践中，我们首先将连续片段之间的变化定义为用于视频i的Var（i），其被公式化为：Var（i）=1ΣΣ[F（i，t+1，c）−F（i，t，c）]（5）存在显著关系（即，其可以与动作相关），同时在计算上是最优的。这里，Cov被公式化为：Cov（i）=1Σ[F（i，t，：）−µ][F（i，t，：）−µ]T（2）其中r、.然后，我们将边界显著性损失定义为正对上冻结的教师和学生网络之间的L1距离，其公式为：R使得T−1Rt=1我是我P边界T Si=1r，，和µi表示的平均值- 视频i的特征图Fr（i，：，：）中的所有通道。协方差矩阵Covr∈RC×C是一个对称矩阵，因此它是由C（C+1）值决定的. 我们应用滤波器掩码，提取协方差矩阵的对角线上和对角线我们将这些值以向量Gr（i）的形式进行整形：Gr（i）=mask[Covr（i）]（3）其中mask（. ）是过滤器掩码操作。所获得的特征向量Gr（i）表示视频的信道协方差。我们在嵌入物中加入蒸馏损失-在正视频对（）上从冻结的教师到学生的ded空间。这通过最小化均方误差来执行，其被公式化为全局上下文关系损失：在两个序列级蒸馏损失的情况下，学生网络从其他模态学习两种类型的交叉片段信息下面，我们总结培训程序部分。3.4. 训练和测试综上所述，首先，我们用分类（Cls）损失，即交叉熵来训练教师网络。然后冻结教师网络的权重，然后训练学生网络。在训练期间，多个蒸馏损失与用于最终任务的分类损失联合优化，即动作检测一方面，原子蒸馏以对比的方式（具有正和负对）训练，而序列级蒸馏损失通过利用霖国际P=GPi=1（i）−GS（一）||第二（四）条只对一批中的阳性对进行运算。总体目标是：方程2的微分性质使得能够与其他损失一起训练我们的师生框架。3.3.2边界显著性边界显着性损失项在我们的配方中使用，以学习相对精确的边界动作检测。在未经修剪的视频中，我们发现动作的开始和结束比其他部分更突出[34]，这为我们提供了检测动作到另一个动作或背景的过渡的关键信息。直观地，视频中的连续片段之间的急剧变化可以反映动作边界的这种显著性，这是交叉片段知识。随着时间转移特征演化的知识鼓励特征在动作开始和结束时更敏感，从而帮助学生网络中的类动作性检测器检测动作实例的精确边界。当在教师网络处处理的模态提供相关边界L总=LCls+α1L原子+α2L全局+α3L边界（七）其中αi是在验证步骤期间确定的损失加权因子。Cls表示交叉熵分类损失。我们将受教育学生网络称为增强RGB。在推理时间期间，我们仅使用RGB视频作为输入来检测动作，并将预测的logit上采样到与地面实况相同的时间分辨率以执行评估。4. 实验分析为了证实我们提出的KD框架的有效性，我们进行了详尽的实验分析的动作检测任务。4.1. 数据集描述我们在五个动作检测数据集上评估我们的框架：[27][28][29] 这些数据集包含不同类型的视频：（1）运动和日常生活不13058BNPL LLLLL表1.针对Charades和PKU-MMD（CS）数据集的拟议框架的消融研究。对于PKU-MMD，我们认为IoU=0.1。L原子 L全局L边界字谜PKU-MMD师资力量–-18.668.4香草-RGB–-22.379.6双流–-24.883.4原子✓--23.982.7–23.883.7序列–23.483.1–24.284.2混合物✓ ✓-24.484.3✓-✓24.283.7总✓ ✓✓24.685.5视频，（2）短视频和长视频，（3）密集和稀疏标记的视频。注意：Charades有两个设置：（ 1 ）视频级动作分类，（ 2 ）帧级动作检测（Charades v1 localize [47]）。本文只针对第二个问题。所有数据集均通过平均平均精度（mAP）进行评估。我们在密集标记的数据集上评估每帧mAP，如下[63，47]。4.2. 实现细节为提取使用TVL1 [54]获得附加模态、光流（OF），使用LCRNet++ [44]提取3D姿势。在这项工作中，我们采用5层SSTCN [14]作为时间滤波器，输出通道大小C为256。在训练教师-学生框架时，我们使用初始学习率为0.001的Adam优化器[29该网络训练了300个epoch，其中包括Charades的16个视频，PKU-MMD，THUMOS的8个视频设为1，因为B2和αi=[300，100，5]。我们使用二进制交叉熵进行多标签分类（即，类明智的行动）。对于稀疏标记的数据集：THUMOS 14和PKU-MMD，在[38，10]之后，后处理步骤以生成动作边界。4.3. 消融研究首先，我们讨论了我们的蒸馏框架中提出的损失的有效性。选项卡 . 图1示出了Charades和PKU-MMD（IoU=0.1）上的动作检测性能的比较。该表还示出了在我们的蒸馏框架中逐步整合KD损失的vanilla-RGB是仅使用Cls训练而没有蒸馏的网络。与普通RGB相比，当独立地使用原子、全局、边界进行训练时，PKU-MMD上的mAP分别提高了+3.1、4.1、3.5%。通过任意两个损失w.r.t.的凸组合，动作检测他们各自的对手。这表明了拟议损失的补充功能。此外，注意序列损失的组合的贡献高于原子损失。该观察结果支持序列级损失的重要性用于动作检测。最后，当在所有三次损失的情况下进行训练时，学生的表现优于所有基线（+2.3%）。+5.9%相对湿度Charades和PKU-MMD上的vanilla RGB流）。这些结果表明，我们的设计选择和不同的损失有助于我们的方法的整体性能在选项卡中。2，我们表明，我们的蒸馏机制per-form更好地在特征级比在logit级。这种趋势背后的主要原因是我们正在执行跨模态蒸馏，其中与学生网络相比，冻结的教师可能表现不佳（例如，学生网络）。OF on Cha- rades and PKU-MMD）w.r.t.不同的模式。由于logit表示分类分数，所以它们可以经由KD将来自弱教师的噪声引入RGB学生。4.4. 我们的蒸馏框架在本节中，我们进一步分析了我们的蒸馏框架在不同方面.与流行的交叉模态KD方法的比较：选项卡. 3提出了我们的扩展原子蒸馏与国家的最先进的跨模态KD方法的比较，从OF学习。这些使用传统损失（如MSE和余弦距离）的基线方法[25，6，18，58]实际上是为分类任务设计的为了与我们的 Atomic进行比较分析，我们按照[38]调整它们以执行动作检测任务。Atomic始终优于-在Charades和PKU-MMD数据集上执行所有基线方法（+1.6%，+3.1% w.r.t. Charades和PKU-MMD上的vanilla RGB流）。不同时间过滤器的性能：在选项卡中。4，我们的蒸馏框架实现了不同的时间过滤器，以确认其鲁棒性。实验是用一个学生网络从一个教师网络学习来进行的，该网络是在Charades数据集上用OF进行预训练的。结果表明，SSTCN [14]和TGM [42]都一致地提高了RGB流的性能，并实现了双流网络的竞争性能。分析我们的框架与不同的模态：在选项卡。5，我们验证了我们提出的方法是通用的，可以有效地与不同的模态。对于实验，我们从OF和3D姿势进行蒸馏。对于3D姿势，教师由2s-AGCN [46]组成，作为视觉编码器，随后是用于检测动作的时间滤波器。在像Charades这样的数据集中，大多数动作涉及具有突出运动模式的人-对象交互，并且在像PKU-MMD这样的数据集中，大多数动作具有随时间变化的运动的因此，OF流在这些数据集上提供比Pose流更显著的信息而3D姿势对视点的变化具有鲁棒性，因此显著提高了交叉视图设置中的动作检测性能（参见表 1 ）。（五）。此外，通过具有OF和13059LLLLL表2.特征级和logit级蒸馏。学生从OF流学习。对于PKU-MMD，我们设置IoU=0.1。表3.在Charades和PKU-MMD数据集上与交叉模态KD 方法和Atomic 进行比较。对于PKU-MMD，IoU=0.1。表4. 不同时间滤波器的消融：在Cha- rades上的SS-TCN和TGM。模型从OF学习。字谜PKU-MMDLogit23.784.9Logit+功能24.285.4特色（我们的）24.685.5字谜PKU-MMD香草-RGB22.379.6+L大厅[18]+LMARS[6]+LGD[38]22.723.523.381.581.782.2+LAtomic（Ours）23.982.7SSTCNTGM香草-RGB22.318.9两个流24.821.5增强RGB24.621.2表5. Charades、PKU-MMD（CS）、TSU-CS和TSU-CV上不同模态的消融。对于TSU，报告的值是基于帧的mAP（%）。PKU的IoU阈值网络我们还比较了RGB流与边界显着性蒸馏和香草RGB流的性能。在MMD为0.1。图5，我们发现，网络与L边界检测与普通网络相比，动作的时间边界更紧。为了进一步说明两个序列级蒸馏损失是如何互补的，我们比较了仅用L全局或L边界关于Fig.中的Charades六、我们发现L边界提高Poses，现在被称为Pose + OF Aug- mented RGB的RGB流学习一些附加信息（+2.6%，+6.7%、+4.5%、+4.9% w.r.t.分别在Cha-rades、PKU-MMD、TSU-CS、TSU-CV上的vanilla RGB流推理时间复杂度：图3示出了Charades数据集上每个视频的精度与推理时间的关系。推理时间包括提取附加模态的时间以及视觉编码器和时间滤波器的处理时间。我们发现两个流RGB + TVL1 [64]在Charades上实现了高精度，但以高计算成本为代价。在这项工作中，我们使用TVL1获得OF模态。尽管存在以更高速度生成OF的方法[27，52]，但这些方法的性能明显劣于TVL1 [6]。类似地，准确的3D姿势的计算不是实时的，因此使视频处理时间加倍[44]。在训练阶段使用这些模态，我们提出的框架避免了在测试时估计这些模态，同时保持双流网络的性能。推理阶段（ I3D+SSTCN ）的处理速度使用 4 个 GPU 约为 140fps，因此可以视为实时处理。关于复杂性，由于我们为教师和学生使用相同类型的时间滤波器和编码器，因此增强RGB流在推理时保留与普通RGB流相同数量的参数，而双流网络使参数数量加倍，经常导致过拟合[59]。4.5. 定性分析在全局上下文关系丢失的情况下，学生学习教师网络的动作实例之间的关系，同时保留学生如图4，仅使用全局，增强RGB的通道协方差表示更接近RGB+OF的通道协方差表示。因此，增强RGB实现接近于双流RGB的性能。随着时间的推移具有高变化的动作（例如，扔枕头），全局改善更多的动作与相对较长的持续时间（例如。持镜）。在从全局+边界学习的同时，学生改进了所有动作类型，反映了这两个损失项如何相互补充图7示出了密集标记的视频中的香草RGB和增强RGB的类动作性结果以及动作检测结果。我们注意到增强RGB检测到紧密的动作边界w.r.t.香草-RGB，例如使用橱柜，行走。由于我们的蒸馏方法，增强RGB现在预测在香草RGB中未检测到的使用抽屉4.6. 与最新技术水平的在选项卡中。6、在PKU-MMD上比较了其他的动作检测方法和我们的Augmented-RGB方法。回想一下，我们的蒸馏机制是建立在SSTCN上的。虽然使用Poses的一种方法[32]实现了非常高的性能，但该方法是基于骨架的，仅适用于特定数据集（即 NTU-RGBD[45]，PKU-MMD [36]），其中提供高质量的3D姿势。相比之下，我们的方法是通用的，并且在推理时间不依赖于姿势，同时与其他基于RGB的SoA方法相比更有效，例如图蒸馏[38]（对于0.1，0.3，0.5 IoU，+2.6%，+2.4%，+4.6%），其利用相同的时间滤波器，但更多的模态（例如：深度）在图3. Charades上每个视频的精度与推理时间字谜PKU-MMD TSU-CS TSU-CV师资力量18.668.429.417.5教师姿势9.865.026.222.4香草-RGB22.379.629.218.9双流RGB +姿势23.082.932.623.7双流RGB + OF24.883.433.519.5姿势增强RGB23.284.732.423.6OF增强RGB24.685.532.819.3Pose + OF增强RGB24.986.333.723.813060L表6. PKU-MMD（CS）数据集上基于事件的mAP。只有最后五行在推理时使用RGB。注意，图蒸馏（GD）从多于4个模态学习，而我们的方法从OF和Pose学习。表7.与最先进的动作检测方法进行比较。我们的方法只从OF学习。白色的单元格是两个流结果（RGB+OF），而橙色的单元格表示在推理时仅使用RGB。我们报告基于帧的mAP和基于事件的mAP的密集和稀疏标记的数据集分别。THUMOS14的IoU为0.5方法mAP@tIoU（θ）0.1 0.3 0.5测试模态构成JCRRNN [33]45.2- -32.5[36]第三十六话49.331.812.1骷髅盒[1]61.3- -54.8王和王[57]84.2- -- -Li等人[32个]92.2- -90.4RGB深RGB [36]50.732.314.7秦和谢尔顿[43]65.051.029.4GRU+GD [38]八十二点四81.374.3SSTCN+GD83.782.176.5类型模型密集稀疏字谜TSU-CSMultiTHUMOSTHUMOS14锚R-C3D [61]鲎试剂[3]G-TAD [62]AFNet [5]12.78.7----28.9-----42.840.213.149.5Seq2SeqTAN [10]WSGM [15]TGM [42]17.618.721.5--33.3-44.346.832.853.526.7香草-RGB [14]双流增强RGB22.329.237.846.124.433.544.453.724.632.844.653.3图4.通道协方差我们将视频的协方差矩阵可视化为vanillaRGB、vanilla OF、双流RGB+OF和增强RGB（全局）。为了更好的可视化，我们将矩阵归一化为[0，1]并将阈值设置为0.5。图5.动作边界检测：（1）地面实况指示在该帧处是动作还是背景。(2)（3）用LBoundary检测边界。训练时间与我们的方法相比。为了显示我们的方法的一般化，我们还在表7中评估了我们在 Charades 和 TSU-CS 、 MultiTHUMOS 和THUMOS上的蒸馏框架。对于所有这些比较，学生网络是在训练阶段用OF预先训练的教师进行提炼的，因为姿势并不总是可用的。为了与我们的增强RGB进行公平比较，使用SSTCN实现了Vanilla-RGB和双流网络。在该表中，我们发现，基于锚点的方法（例如AFNet）在稀疏标记的数据集上表现良好，而在密集标记的数据集上由于建议的组合爆炸而失败。另一方面，Seq2Seq架构在两种类型的数据集上都是稳定的。在我们提出的蒸馏方法的帮助下，增强RGB在所有数据集（+2.3，3.6，6.8，7.2w.r.t.）上实现了具有竞争力的双流性能。分别在 Charades 、 TSU 、 Multi-THUMOS 、 THUMOS 14 上的我们观察到，THUMOS，其中包括体育视频的性能改善，是显着的，由于强烈的运动模式，导致一个有效的OF为基础的教师网络。因此，增强RGB在推理时仅使用RGB时，与双流网络一样执行动作检测任务图6. Charades数据集上两个序列级蒸馏损失的平均精度差异。G：L全局，B：L边界。图7.检测结果的类智能动作。5. 结论在这项工作中，我们介绍了一种新的蒸馏框架的动作检测。这个通用的框架结合了三种新的可学习的损失，以更好地受益于未修剪的视频中的跨模态信息。据我们所知，我们是第一个提出了一个公式与序列级蒸馏在这项任务中。由于这个框架，我们可以提高香草RGB网络的性能在5个数据集上的实验表明，该方法能有效地将不同的模式注入到RGB中。例如，增强RGB网络实现了双流网络性能，同时在推理时仅使用RGB。鸣谢。这项工作得到了法国政府的支持，通过国家研究机构（ANR）管理的3 IA未来蓝色海岸投资作者还感谢Uni versite´Coted'Azur的OPAL基础设施提供的13061引用[1] Bo Li ， Huahui Chen ， Yucheng Chen ， YuchaoDai，and Mingyi He.骷髅盒子：使用单个深度卷积神经网络解决基于骨架的动作检测。2017年IEEE 多媒体博览会研讨会国际会议（ICMEW），第613-616页八个[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。2017年IEEE计算机视觉和模式识别会议（CVPR），第4724IEEE，2017年。三个[3] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ，Bryan Seybold ， David A Ross ， Jia Deng ， andRahul Suk-thankar.重新思考用于时间动作定位的更快r-cnn架构。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。二、八[4] Guobin Chen ， Wongun Choi ， Xiang Yu ， TonyHan，and Manmohan Chandraker.利用知识蒸馏学习有效的第31届神经信息处理系统国际会议论文集，第742-751页，2017年。三个[5] Guang Chen ， Can Zhang ， and Yuexian Zou.Afnet：具有双重结构的时间位置感知网络，用于准确和快速的动作检测。IEEE Transactions onMultimedia，2020。二、八[6] Nieves Crasto ， Philippe Weinzaepfel ， KarteekAlahari，and Cordelia Schmid.MARS：用于动作识别的运动增强RGB流。在CVPR，2019年。一、三、六、七[7] Rui Dai ， Srijan Das ， Luca Minciullo ， LorenzoGarattoni ， Gianpiero Francesca ， and FrancoisBremond. Pdan：用于行动检测的金字塔扩张注意力网络在IEEE/CVF计算机视觉应用冬季论文集，第2970-2979页二个[8] Rui Dai，Srijan Das，Saurav Sharma，Luca Minci-ullo，Lorenzo Garattoni，Francois Bremond，andGian-piero Francesca.丰田智能家居未经修剪：真实世界的未经修剪的视频活动检测。arXiv预印本arXiv：2010.14982，2020。二、五[9] Rui Dai，Luca Minciullo，Lorenzo Garattoni，Gi-anpieroFrancesca，andFran coisBremond.用于长期日常生活活动检测的自2019年第16届IEEE高级视频和基于信号的监控（AVSS）国际会议，第1IEEE，2019。二个[10] Xiyang Dai，Bharat Singh，Joe Yue-Hei Ng，andLarry Davis.Tan：用于密集的多标签动作识别在2019年IEEE Winter计算机视觉应用会议（WACV）中，第151-160页。IEEE，2019。二三六八[11] Srijan Das ， Saurav Sharma ， Rui Dai ， FrancoisBremond，and Monique Thonnat. VPN：学习视频-日常生活活动的姿势嵌入，2020年。一个[12] Srijan Das ， Monique Thonnat ， and FrancoisBremond.更深入地寻找日常生活活动的时间识别。在IEEE/CVF Winter计算机视觉应用会议论文集，第498-507页，2020年。二个[13] Bernard Ghanem Fabian Caba Heilbron 、 VictorEscorcia和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings ofthe IEEE Conference on Computer Vision andPattern Recognition，

下载后可阅读完整内容，剩余1页未读，立即下载