源目标多模态视频的动作检测方法：基于图蒸馏的特权模态

191 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

源目标列车目标测试丰富的示例，多种模态几个例子，模态子集单模态基于图蒸馏的特权模态Zelun Luo1，2 [0000−0003−3597−5046]，Jun-TingHsieh 1，Lu Jiang2，Juan Carlos Niebles1， 2，and Li Fei-Fei1， 21斯坦福大学2谷歌公司Fig. 1.我们的问题陈述。在源域中，我们有来自多种模态的丰富数据。在目标域中，我们在训练期间具有有限的数据和模态的子集，并且在测试期间只有一种模态模态之间的弯曲连接器表示我们提出的图蒸馏。抽象。我们提出了一种技术，在现实和具有挑战性的条件下，只有有限的训练数据和部分观察到的模态下，处理多模态视频中的动作检测。迁移学习中的常见方法不利用源域中潜在可用的额外模态另一方面，以前的多模态学习的工作只集中在一个单一的领域或任务，并没有处理训练和测试之间的模态差异在这项工作中，我们提出了一种称为图蒸馏的方法，该方法结合了来自源域中的大规模多模态数据集的丰富特权信息，并提高了训练数据和模态稀缺的目标域中的学习。我们评估了我们在多模态视频中的动作分类和检测任务的方法，并表明我们的模型在NTU RGB+D和PKU-MMD基准测试中的表现远远优于最先进的模型。代码发布于http://alan.vision/eccv18 graph/。1介绍深度卷积神经网络（CNN）的最新进展已经在各种视觉任务中取得了成功，例如图像识别[7，17，23]和物体识别[ 7，17，23]。在Google Cloud AI实习期间完成的工作。2Z. Luo等人检测[13，44，45]。当应用于多模态视频时，深度学习的一个显著瓶颈是缺乏大量、干净和特定于任务的注释。因为收集视频的注释更加耗时和昂贵。此外，诸如隐私或运行时间之类的限制可以在测试时间期间将访问限制为仅视频模态的子集在许多现实世界的应用中，包括自动驾驶汽车、监控和医疗保健，都会遇到训练数据和模式的稀缺。代表性示例是对包含个人可识别信息（PII）的医疗保健数据的活动理解[16，34]。一方面，标记视频的数量通常是有限的，因为诸如跌倒[40，64]的重要事件极其罕见，或者注释过程需要高水平的医学专业知识。另一方面，RGB侵犯了个人隐私，光流需要非实时计算，这两者对于活动理解都很重要，但在测试时通常不可用。因此，检测只能在实时和隐私保护模式（例如深度或热视频）上执行受这些问题的启发，我们研究在有限的训练数据和部分观察到的方式设置的动作检测为此，我们使用包含各种异构模态的大型动作分类数据集作为源域，以辅助目标域中的动作检测模型的训练，如图所示。1.一、遵循迁移学习中的标准假设[60]，我们假设源域和目标域彼此相似。我们将一个模态定义为特权模态，如果（1）它在源域中可用，但在目标域中不可用;（2）在培训期间可用，但在测试期间不可用。我们确定在这个问题中的两个技术挑战。首先，由于模态在类型和数量上的差异，传统的领域自适应或迁移学习方法[12，41]不能直接应用。最近关于知识和交叉模态蒸馏的工作[18，26，33，49]提供了在两个模型之间转移知识的有前途的给定两个模型，我们可以将蒸馏指定为从强模型到弱模型的方向。经过一些调整，这些方法可以用于提取模态之间的知识然而，这些适应的方法未能解决第二个挑战：如何有效地利用特权模式更具体地，给定多个特权模式，蒸馏方向和权重难以预先指定。相反，模型应该学会根据不同的动作或示例动态调整蒸馏。例如，一些动作更容易通过光流检测，而另一些动作更容易通过骨架特征检测，因此模型应该相应地调整其训练。然而，这种动态蒸馏范式尚未被现有的方法探索。为此，我们提出了新的图蒸馏方法来学习多模态的动态蒸馏，用于多模态视频中的动作检测。图蒸馏被设计为可连接到原始模型的层，并且可以与网络的其余部分进行端到端学习。该图可以动态地学习特定于实例的蒸馏，以更好地利用组合物。图蒸馏3多模态数据中的补充信息。如示于图1，通过有效地利用来自源域和目标域的训练阶段的特权模态，图蒸馏显着提高了单个模态的测试时间性能。请注意，图蒸馏可以应用于单域（从训练到测试）和跨域（从一个任务到另一个任务）任务。对于我们的跨域实验（从动作分类到检测），我们使用了最基本的迁移学习方法，即预训练和微调，因为这与我们的贡献正交。我们可以通过先进的迁移学习和领域自适应技术来实现更好的结果，我们将其留给未来的研究。我们在两个公共多模态视频基准测试中验证了我们的方法：PKU-MMD [28]和NTU RGB+D [46]。这些数据集代表了用于动作检测和分类的最大的公共多模态视频基准实验结果表明，我们的方法优于国家的最先进的approaches。值得注意的是，它在PKU-MMD [28]（0.5 tIoU阈值）上将最新技术水平提高了9.0%，在NTU RGB+D [46]上提高了6.6%。在两个基准上的显著改进是对我们方法的令人信服的验证。总之，我们的贡献有三个方面。(1)我们研究了一个现实的和具有挑战性的条件下，有限的训练数据和模态的多模态动作检测据我们所知，我们首先有效地跨域传输多模态特权信息，用于动作检测和分类。（2）我们提出了新的图蒸馏层，它可以动态地学习跨多个特权模态提取知识，并且可以连接到现有模型并以端到端的方式学习（3）我们的方法在两个流行的基准测试中大幅优于最先进的方法，包括具有挑战性的NTU RGB+D [46]和PKU-MMD上的动作检测任务[28]。2相关工作多模式动作分类和检测。RGB视频中的动作分类[3，50，52]和动作检测[2，11，14，65]RGB视频的成功引发了一系列关于多模态视频中动作识别的研究[10，20，22，25，51，55]。具体而言，随着深度传感器和联合跟踪算法的可用性，已经对RGB-D视频[39，47，48，61]以及骨架序列[24，30，31，32，46，63]中的动作分类和检测进行了广泛的研究。与以前的工作不同，我们的模型专注于利用具有丰富训练示例的源数据集上的特权模态。我们表明，它有利于动作检测时，目标训练数据集的大小是小的，当只有一个模态是在测试时间。有限数据下的视频理解。我们的工作主要是由现实世界的情况下，数据和模式是有限的。例如，用于跌倒检测的监控系统[40，64]通常面临的挑战是难以获得跌倒事件的注释视频，更重要的是，YHR4Z. Luo等人出于隐私考虑，禁止录制RGB视频。解决这一挑战的现有方法包括使用迁移学习[36，42]和利用来自Web查询的噪声数据[5，27，59]。具体到我们的问题，通常将动作分类训练的模型转移到动作检测。迁移学习方法被证明是有效的。但是，它要求源域和目标域具有相同的模态。实际上，源域通常包含更丰富的模态。例如，假设深度视频是目标域中唯一可用的模态，则将其他模态（例如，深度视频）传输到目标域中仍然是不平凡的。RGB、光流），即使它们在源域中是容易获得的并且可以使模型更准确。我们的方法提供了一个实用的方法来利用丰富的多模态信息源域，使有限模态的目标域受益。学习使用特权信息。Vapnik和Vashist [53]引入了一个学生-教师类比：在现实世界的人类学习中，教师的角色是对学生的学习过程至关重要的，因为教师可以提供他们提出了一种新的学习范式，称为使用特权信息学习（LUPI），在训练时，将有关训练示例的附加信息提供给学习模型。在考试时，特权信息不可用，学生在没有老师监督的情况下操作[53]。一些工作在SVM分类器上采用了特权信息（PI）[53，56]。Ding等人。[8]使用潜在的低秩约束处理丢失的模态迁移学习。最近，特权信息的使用已经与各种设置中的深度学习相结合，例如PI重建[49，57]，信息瓶颈[38]和多实例多标签（MIML）学习[58]。与我们的工作更相关的想法是蒸馏和特权信息的结合，这将在下面讨论。知识蒸馏。Hinton等人[18]引入了知识蒸馏的思想，其中来自大模型的知识被蒸馏到小模型，从而提高了小模型在测试时的性能。这是通过增加一个损失函数来实现的，该损失函数将小网络的输出与大网络的高温软输出相匹配[18]。Lopez-Paz等人[33]后来提出了一种广义蒸馏，它结合了蒸馏和特权信息。[19]和[15]在跨模态知识转移中采用了这种方法我们的图蒸馏方法与先前的工作[18，26，33，49]不同，因为特权信息包含多种模态，并且蒸馏方向和权重是动态学习的，而不是由人类专家预定义的。3方法我们的目标是通过利用具有丰富示例和多种模态的源域数据集，在具有有限标记数据和模态的目标域中辅助训练。我们通过从特权模态中提取知识来解决这个问题形式上，我们对动作分类进行建模，并对图蒸馏5i=1i=1将其作为一个L-way-clasification方案进行检测，其中在动作检测中添加了“buck-ground-cl as s”。LetDt={（xi，yi）}|Dt|如果没有在大数据域中删除数据集，则xi∈Rd是输入，yi∈R是表示类标签的整数。由于目标域中的训练数据是有限的，因此我们感兴趣的是将来自源的知识传递为Es={（ xi ， Si ，yi）}|Ds|，当|Ds|≫|Dt|并且源和目标数据可以具有不同的类。新元素Si={x（1），.， X（|S|}这是一个基于内存的预处理过程，我我其中上标索引S1中的模态。作为示例，xi可以是在一个V_i中定义了矩阵的最小值，并且x（1），x（2），x（3）∈S_i我我我RGB、光流和骨架特征分别关于同一帧对于动作分类，我们使用标准softmax交叉熵损失：ΣLc（f（x i），y i）=−j=1（yi=j）logσ（f（xi）），（1）其中是指示函数，σ是softmax函数。类预测函数f：Rd→[1，L]计算每个动作类的概率在本节的其余部分，第3.1节讨论了私有知识蒸馏的总体目标第3.2节详细介绍了多个模态上的拟议图蒸馏。3.1具有特权模态的为了利用源域数据中的特权信息，我们遵循标准的迁移学习范式。我们首先使用源域中的所有模态使用图蒸馏训练模型，然后仅传输视觉编码器（详见第4节）。1）目标域模态。最后，视觉编码器与目标任务上的目标模型的其余部分进行微调。视觉特征编码步骤在源数据和目标数据中的任务之间共享，并且因此直观地使用相同的视觉编码器架构（如图1所示）。（2）两个任务。为了在源数据上训练图蒸馏模型，我们最小化：min1|Ds|Σ（xi，yi）∈Dsc（f（x i），y i）+（二）损失包括两部分：第一项是等式中的标准分类损失。（1）后者是模仿的损失[18]。模仿损失通常被定义为软logits上的交叉熵损失[18]。在现有文献中，使用预先指定的蒸馏方向来计算模拟损失。例如，Hinton等人[18]通过σ（fS（xi）/T）计算软logits，其中T是温度，fS是繁琐模型的类预测函数。 G uptaetal. [15]执行从标记模态的一个或多个副本中获得的一个或多个日志在这两种情况下，蒸馏是预先指定的，即，在[18]中从繁琐的模型到小模型或在[15]中从标记模态到未标记模态。在我们的问题中，特权信息来自6Z. Luo等人我(a)源套件(b)目标列车(c)目标测试输出视觉编码器消息t = T序列编码器视频片段全连接层方式G图蒸馏层检测结果模态子集样本窗口单模态到T-1t = T从T-1滑动窗口时间时间时间时间图二.概述我们的网络架构。(a)在源域中使用图蒸馏（作为层附加）进行训练每个模态的视觉编码器（b）在训练时在目标域中利用图蒸馏的动作检测在我们的设置中，目标训练模态是源模态（一个或多个）的子集请注意，在源中训练的视觉编码器在目标中被转移和微调（c）在测试时用单一模态在目标域中进行动作检测从多个不同种类的模态中提取，并且难以预先指定蒸馏方向和重量。为此，我们的模仿损失在方程。（2）是从动态蒸馏图导出的。3.2图蒸馏首先，考虑图蒸馏的一个特殊情况，其中只涉及两种模态。我们采用了模仿损失，结合了logits和功能表示。为了符号方便，我们将xi表示为x（0）并将其折叠成1）={x（0），···，x（|S|）}。给定两个模型a，b∈[0，|S|]（a/=b），我们使用我我第4节中讨论的网络体系结构，以获得logits和输出作为视觉特征表示。两种模态之间的模仿损失由logitsllogits和表示lrep上的损失组成。余弦距离用于logits和表示，因为我们发现预测的角度更具指示性，并且优于KL散度或L1距离。从模态b到模态a的模仿损失m由logits损失和表示损失的加权和计算。我们将两种模态之间的损失封装到从b传递到a的消息ma←b中，计算如下：ma←b（xi）=m（x（a），x（b））=λ1llogits+λ2lrep，（3）我我其中λ1和λ2是超参数。请注意，消息是定向的，并且ma←b（xi）/=mb←a（xi）.G到T-1t = T从T-1多个模态样品夹G············图蒸馏7我KK对于多模态，我们引入了以下的有向图：|S|顶点，称为离散顶点，其中每个顶点都是一个平均值，并且平均值k←j≥0是从顶点到节点的连续性的一个重要方面。F或固定图，模态k的总模仿损失为：Σm（x（k），Si）=ek←j·mk←j（xi），（4）vj∈N（vk）其中N（vk）是指向vk的顶点的集合。为了利用模态之间的动态交互，我们建议以端到端的方式学习蒸馏图和原始网络。通过在rixG处的adjacencym来定义该图，其中Gjk=ek←j。Letφlbelogits和φl-1是模态k的表示，其中l表示网络中的层数。给定示例xi，通过以下方式学习图：z（k）（xi）=W11φl−1（x（k））+W12φl（x（k）），（5）ikik我Gjk（xi）=ek←j=W21[z（j）（xi）z（k）（xi）]（6）我我其中，W11、W12和W21是要学习的参数，··表示向量级联。W21将一对输入映射到G中的条目整个图通过重复地应用Eq.（6）在S.由于期望蒸馏图是稀疏的，因此我们将G归一化，使得所述n个稀疏的蒸馏图是稀疏的。 LetGj ：∈R1×|S|是它的第j行的向量。图被归一化：Gj ：（xi）=σ（α[Gj]1（xi），… G J|S|（xi）]）、（7）其中α用于缩放softmax运算符的输入。在蒸馏图上的消息传递可以通过在原网络上增加一层来方便地实现。如图在图2（a）中，每个顶点表示模态，并且消息在图形层上传播。如果p为s，则我们有一个G∈R|S|×|S|byEq. （6）和（7）并计算出在rixM∈R处的平均年龄m|S|×|S|byEq. （3）在Mjk（xi）=mk←j（xi）处的s u c h t h. 所有模态的模仿损失通过以下公式计算：m=（G（x i）⊙M（x i））T1，（8）其中re1∈R|S|×1是一个向量的一个向量;⊙是一个线性项，它是两个向量在两个向量之间的一个近似值;m∈R|S|对于S中的每个模型，×1个约束是最小的。在后向传播中，模仿损耗m被并入等式2中。（2）计算总训练损失的梯度。该图蒸馏层与网络的其余部分进行端到端训练。如图所示，蒸馏图是一个重要的和必要的结构，它不仅提供了一个基础，学习动态消息通过模态，但也模型的蒸馏作为一些矩阵运算，可以方便地实现为一个新的网络层。对于模态，其在交叉验证集上的性能通常被证明是其在蒸馏中的贡献的合理估计。因此，我们添加一个8Z. Luo等人t=1consta ntbiastermcinEq. （7），其中r∈R|S|×1和dcjissetw. R. t. 这是一个很好的例子。计算模型j和Σ的形式|S| c=1. Ther efore，Eq. （八）K可以重写为：m=（（G（x i）+1cT）⊙M（x i））T1（9）=（G（xi）⊙M（xi））T1 +（Gprior⊙ M（xi））T1（10）其中G先验 = 1cT是常数矩阵。有趣的是，通过在Eq.在等式（7）中，我们将蒸馏图分解成两个图：学习的示例特定图G和独立于特定示例的先验模态特定图Gprior消息在两个图上传播，并且消息的总和用于计算总模仿损失。学习过程有一个物理解释我们的模型根据观察到的示例的可能性来学习图，以利用S中的互补信息。同时，它规定了一个优先于鼓励准确的模式，以提供更多的贡献。通过添加一个常数偏置，我们使用一个更有效的计算方法比实际上执行两个图上的消息传递到目前为止，我们只讨论了源域上的蒸馏在实践中，我们的方法也可以应用到目标域上的特权模态是可用的。在这种情况下，我们应用相同的方法来最小化等式（1）。（2）关于目标训练数据。如示于图在图2（b）中，在目标模型的训练期间添加图蒸馏层。在测试时间，如图所示。2（c），仅使用单一模态。4动作分类和检测模型在本节中，我们将讨论我们的网络架构以及动作分类和检测的训练和测试过程动作分类的目的是将修剪的视频分类到预定义的类别之一动作检测的目标是预测未修剪视频中动作的开始时间、结束时间和类别。4.1网络架构对于动作分类，我们使用视觉编码器将视频的短剪辑编码成特征向量。对于动作检测，我们首先使用视觉编码器将视频窗口（由多个剪辑组成的窗口）中的所有剪辑编码为初始特征向量，然后将这些初始特征向量馈送到序列编码器以生成最终特征向量。对于任何一个任务，每个特征向量都被馈送到一个特定于任务的线性层和一个softmax层，以获得每个剪辑的跨类概率分布。请注意，为动作检测添加了一个后台类。我们的动作分类和检测模型分别受到[50]和[37]的我们设计了两种类型的视觉编码器，根据输入方式。图像视觉编码器。令X={xt}Tc表示图像的视频片段模态（例如RGB、深度、流），其中xt∈RH×W×C，Tc是k=1图蒸馏9t=1t=1帧，H×W×C是图像尺寸。与[50]中的时间流类似，我们将帧堆叠到H×W×（Tc·C）张量中，并使用修改后的ResNet-18 [17]对视频剪辑进行编码，其中具有Tc·C输入通道，并且没有最后一个全连接层。请注意，我们不使用卷积3D（C3D）网络[3，52]，因为它很难用有限的数据量进行训练[3]。用于矢量的视觉编码器。设X ={xt}Tc表示矢量模态（例如骨架），其中Xt∈ RD并且D是向量维度。与[24]类似，我们使用具有Tc时间步长的3层GRU网络[6]对输入进行编码编码特征被计算为最高层的输出在时间上的平均值。GRU的隐藏大小被选择为与图像的视觉编码器的输出尺寸相同。序列编码器。设X={xt}Tc·TW用Tw表示视频窗口剪辑，其中每个剪辑包含T_c帧。视觉编码器首先对每个单独剪辑成单个特征向量。然后将这些Tw特征向量传递到序列编码器中，该序列编码器是1层GRU网络，以获得这些Tw剪辑的类分布。注意，序列编码器仅用于动作检测。4.2训练和测试我们提出的图蒸馏可以应用于动作检测和分类。对于动作检测，我们表明，我们的方法可以有选择地预训练动作分类任务的动作检测模型，图蒸馏可以应用在预训练和训练阶段。这两个模型都经过训练，以最大限度地减少Eq.（2）基于每个片段的分类，并基于表示和logits计算模仿损失。动作分类。图2（a）显示了图蒸馏如何应用于训练。在训练过程中，我们从视频中随机抽取Tc在测试过程中，我们对整个视频中的多个片段进行统一采样，并对输出进行平均，以获得最终的类分布。动作检测。图2（b）和图2（b）分别示出了如何在训练和测试如前所述，图蒸馏可以应用于源域和目标域两者。在训练期间，我们从视频中随机地对Tw个剪辑的窗口进行采样，其中每个剪辑的长度为Tc并且以步长Sc进行采样。由于数据是不平衡的，我们根据其在训练集中的逆频率设置特定于类的权重在测试期间，我们以步长sw对跨越整个视频的多个窗口进行均匀采样，其中每个窗口以与训练相同的方式进行采样。模型的输出是所有窗口中的所有剪辑上的类分布（可能具有取决于sw的重叠）。然后使用[37]中的方法对这些输出进行后处理以生成检测结果，其中引入活动阈值γ作为超参数。10Z. Luo等人5实验在本节中，我们在两个大规模多模态视频基准上评估我们的方法结果表明，我们的方法优于有代表性的基线方法，并实现了国家的最先进的性能在两个基准。5.1数据集和设置我们在两个大规模多模式视频基准上评估我们的方法：NTU RGB+D [46]（分类）和PKU-MMD [28]（检测）。选择这些数据集的原因如下。(1)他们是最大的RGB。D视频基准在每个类别。(2)由于两个数据集的域是相似的，所以特权信息传递是合理的。(3)它们包含丰富的模态，这是图蒸馏所需的我们在源域中使用NTU RGB+D作为我们的数据集，在目标域中使用PKU-MMD。在我们的实验中，除非另有说明，我们在适用时应用图蒸馏具体地，所有模态的视觉编码器通过图蒸馏在NTURGB+D上联合训练在PKU-MMD上，在用从NTU RGB+D获得的预训练权重初始化视觉编码器之后，我们还通过目标域上的图蒸馏来学习所有可用的模态默认情况下，测试时仅使用单一模态。NTU RGB+D [46]。它包含来自60个动作类的56，880个视频。每个视频只有一个动作类，并带有四种模式：RGB，深度，3D关节和红外线。训练集和测试集分别有40,320和16,560个视频所有结果均报告为跨受试者评价。PKU-MMD [28].它包含来自51个动作类的1，076个长视频。每个视频包含大约20个不同长度的动作实例，并由四种模式组成：RGB，深度，3D关节和红外线。所有结果均基于预测区间和地面实况区间之间的不同时间交集与并集（tIoU）阈值下的平均精度（mAP）进行评估。模式。我们在实验中总共使用了六种模式：RGB、深度（D）、光流（F）和三个骨架特征（S），分别称为关节-关节距离（JJD）、关节-关节向量（JJV）和关节-线距离（JLD）[9，24]。RGB和深度视频在数据集中提供。使用双TV-L1方法[62]在RGB视频上计算光流。三个空间骨架特征是使用中的方法从3D关节中提取的。[9]和[24]。请注意，我们在[9，24]中选择了十个骨架特征的一个子集，以确保我们方法的简单性和可重复性，并且我们的方法可以在完整的特征集上表现得更好。基线。除了与最先进的技术进行比较之外，我们还实现了三个代表性基线，可用于利用多模态特权信息：多任务学习[4]，知识蒸馏[18]和跨模态蒸馏[15]。对于多任务模型，我们预测的原始像素的其他方式从一个单一的模态的表示，并使用的L2距离作为多任务的损失。对于蒸馏方法，模拟损失计算为软logits上的高温交叉熵损失[18]，以及图蒸馏11表1.与NTU RGB+D的最新技术进行比较。我们的模型在所有模态上进行训练，并在表中指定的单一模态上进行测试可用的模态是RGB、深度（D）、光流（F）和骨架（S）。方法测试模态地图方法测试模态地图沙赫鲁迪[47]RGB+D0.749我们RGB0.895[29]RGB+D0.775我们D0.875刘[32]S0.800我们F0.857丁[9]S0.823我们S0.837李[24]S0.829表2.PKU-MMD上的动作检测方法与最新模型的比较我们的模型是使用所有特权模态和在表中指定的modalitie空间上测试的图蒸馏进行训练的。可用的模态是RGB、深度（D）、光流（F）和骨架（S）。mAP @ tIoU阈值（θ）方法测试模态0.10.30.5深度RGB（DR）[28]RGB0.5070.3230.147秦和谢尔顿[43]RGB0.6500.5100.294深度光流（DOF）[28]F0.6260.4020.168[28]第二十八话S0.4790.3250.130卷积骨架（CS）[28]S0.4930.3180.121王和王[54]S0.842-0.743RS+DR+DOF [28]RGB+F+S0.6470.4760.199CS+DR+DOF [28]RGB+F+S0.6490.4710.199我们的（不含|w/转移）RGB零点八二四|0.88零点八一三|0.8680.743|零点八零一我们的（不含|w/转移）D零点八二三|0.872零点八一七|零点八六0.752|0.792我们的（不含|w/转移）F0.790|0.8260.783|零点八一四0.708个单位|0.747我们的（不含|w/转移）S0.836|0.857零点八二三|0.8460.764|0.784我们的（包括转让）RGB+D+F+S0.9030.8950.833交叉模态蒸馏中的表示和软logits上的L2损失[15]。这些蒸馏方法最初只支持两种模态，因此我们对成对损失进行平均以获得最终损失。实施详情。对于动作分类，我们使用SGD从头开始训练视觉编码器200个epoch，动量学习率为10−2，并在epoch 125和175衰减到10−1λ1和λ2在等式（1）中分别被设置为10、（三）、在测试时，我们采样5个片段进行推断。对于动作检测，视觉和序列编码器被训练400个epoch。视觉编码器使用具有动量的SGD以10−3的学习率进行训练，序列编码器使用Adam优化器[21]以10−3的学习率进行训练。活动阈值γ被设置为0。4. 对于这两个任务，我们将数据集的帧剪辑长度和检测窗口Tc和Tw都被设置为10。对于图蒸馏，在等式中将α设置为10。（七）、视觉和序列编码器的输出维度都设置为512。由于从头开始在多个模态上联合训练是不平凡的，因此我们采用课程学习[1]来训练蒸馏图。为此，我们首先将蒸馏图固定为前200个epoch中的单位矩阵（均匀图）。12Z. Luo等人（一）带蒸馏收集器无蒸馏收集戴上帽子戴上帽子戴上帽子脱掉夹克衫脱掉夹克衫刷牙刷牙刷牙153 225 418 513 6857849991171帧（b）第（1）款w/蒸馏交叉双手交叉双手挥手摘帽子摘帽子摘帽子落式捡拾器下降506 577 697 837 932 1019 11631200帧（c）第（1）款w/蒸馏掷掷掷穿夹克摸胸摸胸穿夹克敬礼电话敬礼2720 28272913 3650 36523711帧图三. PKU-MMD预测结果的比较。(a)两种模型都能做出正确的预测。（b）源中没有蒸馏的模型产生误差。我们的模型学习运动和骨架信息从特权模态在我们的领域，其中它的phelphe rrediction为classessuchas“hand w a v i n g”和“falling g”。（c）Bothmodelsmakeasonabler rs。在第二阶段中，我们计算等式中的常数向量c。（9）根据交叉验证结果，然后以端到端的方式学习图5.2与最新技术水平动作分类。表1显示了NTU RGB+D数据集上动作分类与最先进模型的比较。我们的图蒸馏模型在源域中的相同数据集上进行训练和测试。NTU RGB+D是一个非常具有挑战性的数据集，最近在许多研究中进行了研究[24，29，32，35，47]。然而，正如我们所看到的，我们的模型在NTU RGB+D上实现了最先进的结果使用深度视频时，它比之前的最佳结果提高了4.5%，使用RGB视频时则在检查结果之后，我们发现改进主要归因于学习的图捕获跨多个模态的互补信息。图4示出了在NTU RGB+D上学习的示例蒸馏图。结果表明，我们的方法，没有迁移学习，是有效的动作分类在源域。动作检测。表2将我们的PKU-MMD方法与以前的工作进行了比较。我们的模型在所有模式中都优于现有方法结果证实，我们的方法可以有效地利用特权的知识，从多种形式。图图3示出了具有和不具有所提出的蒸馏的深度模式上的检测结果5.3有限训练数据的消融研究第5.2节已经表明，我们的方法在两个公共基准上实现了最先进的结果然而，在实践中，训练数据往往是有限的。真阳性假阳性地面实况图蒸馏13表3.与（a）在mini-NTU RGB+D上使用特权信息（PI）的基线方法，（b）在mini-NTU RGB+D和mini-PKU- MMD上的蒸馏图的比较。空图独立训练每个模态。均匀图在蒸馏中使用均匀重量。根据交叉验证精度建立先验图每一种形态。学习图是通过我们的方法学习的。“D”是指深度模态。(a) 使用PI的基线方法。（b）不同的蒸馏图。方法mAP/RGB空图0.464多任务[4] 0.456交叉蒸馏[15] 0.503知识蒸馏[18] 0.524学习图0.619小型NTU图表mAP/RGB mAP@0.5/D空图0.464 0.501均匀图0.537 0.513前图0.571 0.515学习图0.619 0.559表4.不同tIoU阈值θ下mini-PKU-MMD上的mAP比较。该设计是为测试而设计的。“s_rc” 、 “t_rg” 和 “PI” 分别用于我们的 rc 、 t_rg 和特权信息。mAP @ tIoU阈值（θ）方法0的情况。10的情况。30的情况。5仅1次治疗0.2480.2350.2002 src+ trg0.5830.5670.5013 srcw/ PI+ trg0.6250.6100.5334 src+ trgw/ PI0.6260.6150.5595 srcw/ PI+ trgw/ PI0.6420.6290.5626 srcw/ PI+ trg0.6250.6100.5337 srcw/ PI+ trgw/ 1 PI0.6320.6150.5498 srcw/ PI+ trgw/ 2 PI0.6360.6240.5579 srcw/ PI+ trgw/所有PI0.6420.6290.562在尺寸上受限。为了在有限的训练数据上系统地评估我们的方法，如引言中所提出的，我们通过从其完整数据集中随机子采样5%的训练数据来为了评估，我们在完整的测试集上测试模型。与基线方法的比较。表3（a）显示了与使用特权信息的基线模型的比较（见第5节）。①的人。我们的方法优于有代表性的基线方法的事实验证了图蒸馏方法的有效性。蒸馏效率图。表3（b）比较了预定义和学习的蒸馏图的性能。所提出的学习图与空图（没有蒸馏），相等权重的均匀图，以及使用每个模态的交叉验证准确度计算的先验图进行结果表明，具有特定于模态的先验信息和特定于示例的信息的学习图结构在两个数据集上都获得了最佳结果。特权信息的效力。表4比较了我们在不同训练设置下的蒸馏和转移。测试时的输入是单深度模态。通过比较表4中的第2行和第3行，我们可以看到，在传输14Z. Luo等人(a)下降JJD25RGB深度431JJVJLD流(b)刷牙JJD13RGB深度425JJVJLD流见图4。图形蒸馏的可视化在NTU RGB+D上实现。数字表示蒸馏重量的等级，其中1是最大的，5是最小的。（a）Clas“falling”：我们的图形更接近于操作流，因为操作流在形式上保留了更多信息。（b）C1ass“brushingeeth”：在这种情况下，运动是可忽略的，并且我们的图向其分配最小的权重。相反，它会将最大权重分配给骨架数据。如果将视觉编码器与目标域相关联，则在源域中用特权信息预训练的视觉编码器比其对应物表现得更好。如3.2节所述，图蒸馏也可以应用于目标域。通过比较表4的第3行和第5行（或第2行和第4行），我们看到通过在目标域中应用图蒸馏实现了性能结果表明，我们的图蒸馏可以捕获有用的信息，从多个模态在源和目标域。拥有更多模式的功效。表4的最后三行示出了通过增加用作特权信息的模态的数量来实现性能增益。注意，测试模态是深度，第一特权模态是RGB，并且第二特权模态是骨架特征JJD。结果还表明，这些模态提供了彼此的补充信息，在图蒸馏。6结论本文解决了有限训练数据和部分观察模态的多模态视频中的动作分类和检测问题我们提出了新的图蒸馏方法，以协助培训的模型，利用特权模态动态。我们的模型优于代表性的基线方法，并实现了国家的最先进的NTU RGB+D数据集上的动作分类和PKU-MMD上的动作检测。未来工作的一个方向是将图蒸馏与高级迁移学习和域自适应技术相结合。谢谢。这项工作得到了斯坦福大学计算机科学系和临床卓越研究中心的部分支持。我们特别感谢李丽佳、黄德安、邹玉良和所有匿名评论者的宝贵意见。图蒸馏15引用1. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。国际机器学习会议（ICML）（2009）2. Buch，S.，Escorcia，V. Shen，C.，加尼姆湾尼布尔斯，J.C.：SST：单流临时行动建议。在：CVPR（2017）3. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。计算机视觉和模式识别（CVPR）（2017）4. 卡鲁纳河：Multitasklearningg. I n：Learningtoolearn，pp. 95-133 02TheDog（1998）5. 陈旭，Gupta，A.：卷积网络的Webly监督学习。国际计算机视觉会议（ICCV）（2015）6. Chung，J.Gulcehre角周，K.，Bengio，Y.：门控递归神经网络对序列建模的实证评估（2014）7. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。计算机视觉和模式识别（CVPR）（2009）8. 丁Z邵，M.，Fu，Y.：通过潜在的低秩卷积的丢失模态迁移学习。IEEETransacti onsonImagePr ocesing24 （ 11 ）， 4322- 4334 （ N o v2015）。https://doi.org/10.1109/TIP.2015.24620239. 丁Z王，P.，奥贡博纳，邮政编码，李伟：基于cnn的三维动作识别中不同骨架特征的研究arXiv预印本arXiv：1705.00835（2017）10. 杜，Y.，王伟，Wang，L.：基于骨架的动作识别的层次递归神经网络。计算机视觉和模式识别（CVPR）（2015）11. Escorcia，V.海尔布隆足球俱乐部尼布尔斯，JC Ghanem，B.：Daps：用于行动理解的深度行动建议。在：欧洲计算机视觉会议（ECCV）（2016）12. Fernando，B.，Habrard，A.，Sebban，M.，Tuytelaars，T.：使用子空间对齐的无监督视觉域自适应。在：国际计算机会议Vision（ICCV）。pp.296013. Girshick，R.：快速R-CNN。国际计算机视觉会议（ICCV）（2015）14. Gorban，A.，Idrees，H.江，Y.，Zamir，A.R.，拉普捷夫岛Shah，M.，Sukthankar，R.：Thumos挑战：具有大量类的动作识别。在：计算机视觉和模式识别（CVPR）研讨会（2015年）15. 古普塔，S.，Hoffman，J.，Malik，J.：监督转移的交叉模态提取计算机视觉和模式识别（CVPR）（2016）16. Haque ，A.，郭， M.，Alahi，A.， Yeung，S.，Luo， Z.， Rege， A.，Jopling，J.，北卡罗来纳州唐宁Beninati，W.，Singh，A.，Platchek，T.，Milstein，A.，李菲菲：面向基于视觉的智慧医院：一种用于跟踪和监测手部卫生依从性的系统。Proceedings of Machine Learning for Healthcare 2017（2017）17. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉和模式识别（CVPR）（2016）18. Hinton，G. Vinyals，O.，Dean，J.：在神经网络中提取知识。在：NIPS研讨会（2015）19. Hoffman，J.，古普塔，S.，达雷尔，T.：通过模态幻觉来学习附带信息计算机视觉和模式识别（CVPR）（2016）20. 江，L. Meng，D.，Mitamura，T.，Hauptmann，A.G.：首先简单的样品：零示例多媒体搜索的自定进度重排序。In：MM（2014）21. 金马，P.K.，Ba，J.：Adam：A Method for Stochastic Optimization（2015）16Z. Luo等人22. Koppula，H.S.，古

下载后可阅读完整内容，剩余1页未读，立即下载