图蒸馏驱动的多模态视频动作检测：克服训练资源限制

100 浏览量更新于2024-06-20 收藏 1.14MB PDF 举报

本文探讨了在源目标多模态视频动作检测的背景下，如何有效地解决在有限训练数据和目标域中不同模态之间存在的问题。作者提出了一种新颖的技术——基于图蒸馏的特权模态方法，它旨在克服迁移学习中忽视源域多模态信息的局限，并且与以往仅关注单一领域的多模态学习工作有所区别。在源域，研究者利用大量的多模态数据集，如RGB图像、光流、语音等，提供丰富的上下文信息。然而，实际应用中，目标域往往面临着数据稀缺的问题，特别是在视频动作检测任务中，由于获取标注数据的困难和成本高昂，导致训练样本有限且可能只允许在测试阶段使用单模态数据。例如，医疗领域的活动理解由于涉及个人隐私保护，可能只能获取到视频数据，而关键事件的标注极其稀少。图蒸馏这一创新方法，作为模态之间的桥梁，通过借鉴源域的特权信息，能够在保持模型鲁棒性的同时，帮助提升目标域的学习效率。它通过构建一个多模态图，将源域的知识转移至目标域，使得模型能够理解和融合不同模态间的关联，从而增强对动作的识别和检测能力。研究者针对NTURGB+D和PKU-MMD等多个基准测试进行了实验，结果显示，他们的模型在这些多模态视频任务上表现出了显著的优势，超越了当前最先进的模型。这证明了图蒸馏策略的有效性和实用性，尤其是在处理现实世界中数据和模态限制的情况下。总结来说，本文的核心贡献在于提出了一种有效的多模态视频动作检测框架，通过图蒸馏技术，巧妙地利用源域的丰富信息，改善了目标域模型的性能，为处理实际场景中的数据稀缺问题提供了新的解决方案。这项研究对于推动多模态学习在实际应用中的发展具有重要意义，尤其是那些涉及到数据安全和隐私保护的领域。

Z. Luo等人

出于隐私考虑，禁止录制RGB视频。解决这一挑战的现有方法包括使

用迁移学习[36，42]和利用来自Web查询的噪声数据[5，27，59]。具体

到我们的问题，通常将动作分类训练的模型转移到动作检测。迁移学

习方法被证明是有效的。但是，它要求源域和目标域具有相同的模

态。实际上，源域通常包含更丰富的模态。例如，假设深度视频是目

标域中唯一可用的模态，则将其他模态（

例如，深度视频）传输到目

标域中仍然是不平凡的。

RGB

、光流），即使它们在源域中是容易获

得的并且可以使模型更准确。我们的方法提供了一个实用的方法来利

用丰富的多模态信息

源域，使有限模态的目标域受益。

学习使用特权信息。Vapnik和Vashist [53]引入了一个

学生

教师

类比：

在现实世界的人类学习中，教师的角色

是对学生的学习过程至关重要

的，因为教师

可以

提供

他们提出了一种新的学习范式，称为使用特

权信息学习（LUPI），在训练时，将有关训练示例的附加信息提供给

学习模型。在考试时，特权信息不可用，学生在没有老师监督的情况

下操作[53]。

一些工作在SVM分类器上采用了特权信息（PI）[53，56]。Ding等

人。[8]使用潜在的低秩约束处理丢失的模态迁移学习。最近，特权信

息的使用已经与各种设置中的深度学习相结合，例如PI重建[49，

57]，信息瓶颈[38]和多实例多标签（MIML）学习[58]。与我们的工作

更相关的想法是蒸馏和特权信息的结合，这将在下面讨论。

知识蒸馏。Hinton等人[18]引入了知识蒸馏的思想，其中来自大模型

的知识被蒸馏到小模型，从而提高了小模型在测试时的性能。这是通

过增加一个损失函数来实现的，该损失函数将小网络的输出与大网络

的高温软输出相匹配[18]。Lopez-Paz等人[33]后来提出了一种广义蒸

馏，它结合了蒸馏和特权信息。[19]和[15]在跨模态知识转移中采用

了这种方法我们的图蒸馏方法与先前的工作[18，26，33，49]不同，

因为特权信息包含多种模态，并且蒸馏方向和权重是动态学习的，而

不是由人类专家预定义的。

方法

我们的目标是通过利用具有丰富示例和多种模态的源域数据集，在具

有有限标记数据和模态的目标域中辅助训练。我们通过从特权模态中

提取知识来解决这个问题形式上，我们对动作分类进行建模，并对

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

图蒸馏驱动的多模态视频动作检测：克服训练资源限制

基于视频的运动目标检测

视频中运动目标检测

多模态牙科图像自动配准：基于改进ICP算法的研究

多模态生物特征识别：基于人脸与人耳信息

T-CSVT多模态目标检测数据集：25个视频文件

多模态图像配准新方法：集成6种算法的高精度方案

质量相关多模态故障检测：基于偏最小二乘的新型方法

模态分析与参数辨识：基于实验的振动问题解决方案

隔热瓦损伤检测：基于模态分析的新方法

多模态多目标DE算法：解决非线性方程组的高效求解策略

最新资源