多模态蒸馏方法：基于多流网络的动作识别

54 浏览量更新于2023-10-13 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于多流网络的模态蒸馏动作识别努诺角Garcia 1，2[0000−0002−6371−3310]，Pietro Morerio1[0000−0001−5259−1496]，和Vittorio Murino1，3[0000−0002−8645−2328]1Istituto Italiano di Technologia2Universita3Universita{first.last}@iit.it抽象。不同的输入数据形式可以为多个任务提供互补的线索，通常会导致更强大的算法和更好的性能。然而，虽然（训练）数据集可以被准确地设计为包括各种感官输入，但通常情况是，在必须部署模型的现实生活（测试）场景中，并非所有模态都可用。这提出了如何在训练阶段利用多模态数据学习鲁棒表示的挑战，同时考虑测试时的限制，例如噪声或丢失的模态。本文提出了一种新的多模态视频动作识别的方法，开发的蒸馏和特权信息的统一框架内，命名为广义蒸馏。特别地，我们考虑从深度和RGB视频学习表示的情况，同时仅在测试时依赖RGB数据。我们提出了一种新的方法来训练幻觉网络，该网络通过时空表示的乘法连接来学习提取深度特征，利用软标签和硬标签以及特征图之间的距离。我们报告了最大的多模态数据集可用于此任务， NTURGB+D，以及UWA3DII和西北加州大学洛杉矶分校的视频动作分类的最先进的结果。关键词：动作识别·深度多模态学习·蒸馏·保密信息1介绍想象一下，您有一个大型的多模态数据集来训练深度学习模型，包括例如RGB视频序列，深度图，红外和骨骼关节数据。然而，在测试时，经训练的模型可以部署在并非所有这些模态都可用的例如，大多数相机仅捕获RGB，这是最常见和最便宜的可用数据模态。考虑到这一限制，我们想回答以下问题：当测试时缺少模态时，使用所有可用数据以学习要利用的鲁棒表示的最佳方式是什么？换句话说，2N. C. Garcia，P.Morerio和V.Murino通过利用更多的数据模态来训练模型，即使在测试时只能使用一个，是否有任何附加值？毫不奇怪，最简单和最常用的解决方案是只使用测试模式训练模型。然而，一个更有趣的替代方案是尝试利用可用数据的潜力，并使用所有模态训练模型，然而，意识到并非所有模态都可以在测试时访问这种学习模式，即当使用额外信息训练模型时，通常称为使用特权信息学习[30]或使用边信息学习 [11]。在这项工作中，我们提出了一个多模态流框架，从不同的数据模态学习，并可以部署和测试这些子集。我们设计了一个能够从RGB和深度视频序列中学习的模型，但由于其一般结构，它也可以用于管理任何组合还有其他方式。为了展示其潜力，我们评估了视频动作识别任务的性能。在这种情况下，我们引入了一个新的学习范式，如图所示。1，以将由深度传达的信息提取到半透明网络，这意味着在测试时间“模仿”丢失的流。蒸馏[10][1]是指将知识从先前训练的复杂模型转移到更简单模型的任何训练过程。我们的学习过程引入了一个新的损失函数，它受到了广义蒸馏框架[15]的启发，该框架正式统一了蒸馏和特权信息学习理论。我们的模型受到Simonyan和Zisserman [25]介绍的双流网络的启发，该网络在视频动作识别任务的传统设置中取得了显着的成功[2][5]。与以前的作品不同，我们使用多模态数据，为每个模态（在我们的情况下，RGB和深度）部署一个流我们框架的另一个鼓舞人心的工作是[11]，它提出了一个幻觉网络来学习边信息。我们建立在这个想法的基础上，通过设计一种新的机制来学习和使用这种幻觉流，通过更一般的损失函数和流间连接来扩展它。概括起来，本文的主要贡献如下：– 我们提出了一种新的多模态流网络体系结构，能够在训练时利用多个数据模态，而在测试时仅使用一个– 我们引入了一个新的范式来学习一个新的双流模型中的幻觉网络;– 在此背景下，我们实现了流间连接机制来改善幻觉网络的学习过程，并基于广义蒸馏框架设计了更一般的损失函数– 我们报告了最先进的结果- 最大的视频动作识别多模态数据集NTU RGB+D [ 23 ]，以及另外两个较小的数据集UWA 3DII [ 21 ]和西北-UCLA [33]。本文的其余部分组织如下。第2节回顾了类似的方法，并讨论了它们如何与目前的工作。第三节详细信息多流网络模态蒸馏3提出的架构和新的学习范式。第4节报告了在各种数据集上获得的结果，包括在NTU RGB+D数据集上进行的详细消融研究以及与最新技术水平的比较性能。最后，在第5节中，我们得出了结论和未来的研究方向。2相关工作我们的工作是三个主题的交叉点：特权信息[30]，网络蒸馏[10][1]和多模式视频动作识别。然而，Lopez等人 [15]指出，特权信息和网络蒸馏是同一个更具包容性的理论的实例，称为广义蒸馏。广义蒸馏在广义蒸馏框架内，我们的模型与特权信息理论[30]相关，考虑到额外的模态（在这种情况下，深度）仅在训练时使用，并且主要与蒸馏框架相关。事实上，我们的模型用于学习幻觉网络的核心机制来自蒸馏损失。更具体地，由教师网络（在这种情况下，处理深度数据流的网络）提供的监督信息被提取到利用损失函数中的教师在这种情况下，最接近我们建议的作品是[16]和[11]。Luo et. [16]解决了与我们类似的问题，其中模型首先在几种模式（RGB，深度，关节和红外线）上进行训练，但只在一种模式下进行测试。作者提出了一种基于图的蒸馏方法，该方法能够在训练时从所有模态中提取信息，同时还可以通过模态子集的验证阶段。这表明在动作识别和动作检测任务中达到了最先进的结果。我们的工作与[16]有很大的不同，因为我们受益于幻觉机制，包括使用教师网络（在我们的情况下处理深度数据流）提取的指导训练的辅助网络这种机制允许模型学习在测试时模拟缺失模态的存在Hoffman等人的工作。[11]介绍了一种模型，用于从RGB输入中产生深度特征，以用于对象检测任务。虽然使用幻觉流的想法与由此提出的想法类似，但用于学习它的机制在[11]中，作者在深度和超分辨率特征图之间使用了欧几里得损失，这是总损失的一部分，以及十多个分类和定位损失，这使得其有效性非常依赖于超参数调整以平衡不同的值，因为模型是通过优化上述复合损失在一个步骤中联合训练的。因此，我们提出了一个启发蒸馏框架的损失，它不仅使用了特征图之间的欧几里得距离和独热标签，而且还利用了深度网络的软预测此外，我们鼓励幻觉学习的设计，通过使用跨流连接（见节。4N. C. Garcia，P.Morerio和V.Murino（3）第三章。这表明，相对于[11]中提出的一步学习过程，我们的模型的性能得到了很大的提高。多模式视频动作识别。视频动作识别有着悠久而丰富的文献领域，从使用手工特征的分类方法[3] [31] [32] [13]到现代深度学习方法[12] [28] [34][2]，使用仅RGB或各种多模态数据。在这里，我们专注于多模态视频动作识别中一些更相关的工作，包括考虑NTU RGB+D数据集的最先进方法，以及与我们提出的模型相关的架构。Simonyan和Zisserman [25]引入的双流模型是视频分析的里程碑，从那时起，它激发了一系列变体，这些变体在不同的数据集上实现了最先进的性能。该架构由RGB和光流流组成，它们分别训练，然后在预测层融合视频动作识别[2]的当前技术水平受到这种模型的启发，其特征在于处理时间维度的3D卷积，而不是原始的2D卷积。在[5]中，提出了双流方法的进一步变型，其通过将运动流的信号注入到外观流的残差单元中来对时空特征进行结合两个流的想法也已经由相同的作者在[6]中探索过。相反，在[24]中，作者探索了RGB和深度数据的互补特性，将NTURGB+D数据集作为测试平台。这项工作设计了一个深度自动编码器架构和一个结构化稀疏学习机，并显示出实现了最先进的结果，为动作识别。Liu等人。 [14]还使用RGB和深度互补信息来设计一种用于视点不变动作识别的方法。在这里，首先从RGB数据中提取密集轨迹，然后将其编码在视点不变的深度特征中。然后，RGB和深度特征被用作字典来预测测试标签。所有这些先前的方法利用由多模态数据传达的丰富信息来提高识别。相反，我们的工作提出了一种完全卷积模型，该模型仅在训练时利用RGB和深度数据，并在测试时仅使用RGB数据作为输入，从而达到与在两个阶段中使用完整模式集的模型相当的性能。3多物流网络广义精馏本节从架构、用于学习不同网络的损失以及训练过程等方面描述了我们的方法。3.1交叉流乘法器网络通常在双流架构中，两个流被单独训练，并且预测通过后期融合机制进行融合[25][5]。这样的模型多流网络模态蒸馏5图1.一、培训程序见第3.3节（另见其中的文本）。第一步是指具有标准交叉熵分类损失的深度和RGB流的单独（预）训练，其中两个流都用ImageNet权重初始化。第2步代表教师网络的学习;使用来自步骤1的相应权重来初始化两个流，并且使用RGB和深度数据，利用交叉熵损失来联合训练这两个流，作为传统的双流模型。第3步表示学生网络的学习：两个流都用上一步的深度流权重初始化，但实际深度流被冻结;重要的是，超分辨率流的输入是RGB数据;使用等式5中提出的损失来训练模型。第四步也是最后一步是指微调步骤，也代表了我们模型的测试设置;根据来自前一步骤的相应权重初始化超分辨率流，并且根据来自第二步骤的相应权重初始化RGB流;使用交叉熵损失来微调该模型，并且重要的是，仅使用RGB数据作为两个流的输入。使用外观（RGB）和运动（光流）数据作为输入，这些数据在训练和测试中分别输入每个流。相反，在本文中，我们使用RGB和深度帧作为训练的输入，但在测试时仅使用RGB，如前所述（图1）。我们使用[5]中提出的基于ResNet-50的[8][9]模型作为我们模型的每个流块的基线架构。在那篇论文中，Feichtenhofer等人提出在几个层上用乘法连接来连接外观和运动流，而不是以前的模型，这些模型只在预测层进行交互。这种连接在图1中用符号“”表示。图2在多流架构的给定层说明了这种机制，但在我们的工作中，它实际上是在Resnet-50模型的四个卷积层潜在的直觉是，6N. C. Garcia，P.Morerio和V.Murino这些连接使模型能够学习更好的时空表示，并有助于区分需要组合的相同动作的外观和动作特征。最初，交叉流连接包括将运动流信号注入到另一个流的剩余单元中，而不影响跳过路径。ResNet的剩余单位正式表示为：xl+ l=f（h（xl）+F（xl，Wl）），其中xl和xl+ l分别是第l层跨流连接定义为xa=f（xa）+F（xa⊙f（xm），Wl），l+1l l l其中xa和xm分别是外观流和运动流，⊙是逐元素乘法运算。这种机制意味着两个特征图之间的空间对准，并且因此意味着两个模态之间的空间对准。当使用RGB和光流时，这种对齐是免费的，因为后者是以保留空间布置的方式从前者然而，这是一个我们通常不能做的假设。例如，深度和RGB通常是从不同的传感器捕获的，这可能导致空间上不对齐的帧。我们在该方法的初始化阶段（在补充材料中描述）处理该对准问题时间回旋。为了增强模型时间支持，我们在每个ResNet层的第二个残差单元中实现 1D 时间卷积（如 [ 5 ] 所示），如图所示。二、权重Wl∈R1×1×3×C1×C1是在特征级被初始化为恒等映射的卷积滤波器，并且在时间上居中，并且C1是层1中的通道的数量。最近在[29]中，作者使用时间卷积探索了各种网络配置，比较了视频分类任务的几种不同组合这项工作表明，将3D卷积解耦为2D（空间）和1D（时间）滤波器是动作识别任务中的最佳设置后一种设置的直觉是，在两个连续的卷积层中分解空间和时间卷积简化了空间和时间任务的训练（也符合[27]）。3.2幻觉流我们还引入并学习了一个幻觉网络[11]，使用了一种新的学习范式，损失函数和交互机制。幻觉流网络具有与外观和深度流模型相同的架构。该网络接收RGB作为输入，并且被训练以在不同级别（即，在特征层和预测层）“模仿”深度流。在本文中，我们探讨了实现这种学习范式的几种方法，包括训练程序和损失两方面，以及它们如何影响了tsp的整体表现该模型多流网络模态蒸馏7图二. ResNet残差单元的细节，显示乘法连接和时间卷积[5]。在我们的架构中，信号注入发生在四个ResNet块中的每一个的第二在[11]中，提出了幻觉和深度特征图之间的回归损失，定义为：Lhall（l）=λlσ（Ad）−σ（Ah）2，（1）l l2其中σ是S形函数，并且Ad和Ah是L l深度和幻觉网络。这种欧几里德损失迫使两个激活图相似。在[11]中，该损失与另外十个分类和本地化损失项一起加权，使得难以平衡总损失。在3.3节中描述的所提出的新的分阶段学习范例背后的主要动机之一是避免对如此多的损失权重进行低效的、基于启发式的调整，即超参数调整。相反，我们采用了一种受广义蒸馏框架[15]启发的方法，其中学生模型fs∈ Fs蒸馏教师模型学习的表示ft∈ Ft这被形式化为1Σnfs= arg minf∈Fsi=1L GD（i），n =1，… N（2）其中N是数据集中的示例数量。广义蒸馏损失定义为：LGD（i）=（1−λ）（yi，ς（f（xi）+λ（si，ς（f（xi），λ∈[0， 1]fs∈Fs，（3）是softmax算子，并且si是来自教师网络的软预测si= f（ft（xi）/T），T>0.（四）等式3中的参数λ允许通过分别对模仿地面实况硬或软教师目标yi和si给予更多重要性来调谐损耗。n8N. C. Garcia，P.Morerio和V.Murino这种机制确实允许从深度（教师）到幻觉（学生）网络的信息传输等式4中的温度参数T允许平滑由教师网络预测的概率向量。直觉是，这种平滑可以暴露在原始预测中不容易揭示的类之间的关系，进一步促进学生网络的提炼。我们建议，欧几里德和广义蒸馏损失确实是事实上，通过鼓励网络减少幻觉和真实深度特征图之间的距离，它可以帮助提取编码在广义蒸馏损失中的深度信息。因此，我们将最终损失函数形式化如下：L=（1−α）LGD+αLhall，α∈[0，1]，（5）其中α是在训练期间平衡两个损失项的贡献的参数。参数λ、α和T通过利用验证集来估计补充材料中提供了其设置的详细情况综上所述，广义蒸馏框架提出使用蒸馏理论中引入的学生-教师框架从特权信息源中提取知识。我们通过提出一种新的学习范式来探索这一想法，该范式我们将在下一节中描述。除了上面介绍的损失函数之外，我们还允许教师网络通过设计与学生网络共享信息，通过交叉流乘法连接。我们测试如何所有这些可能性影响模型3.3培训模式一般来说，所提出的训练范例，如图2所示。1、分为两个核心部分：- 第一部分（图中的步骤1和2）集中于学习教师网络，利用RGB和深度数据（在这种情况下是特权信息）;第二部分（图中的步骤3和4）集中于使用等式（1）中定义的一般幻觉损失来学习幻觉网络，在蒸馏框架中称为学生网络。五、第一个训练步骤包括分别训练两个流，这是双流架构中的常见做法。深度流和外观流都是在针对所有实验用预训练的ImageNet模型初始化之后最小化交叉熵来训练的。时间内核被初始化为[0，1，0]，即在开始时仅使用关于中心帧的信息-这最终随着训练的继续而改变。如[4]中所述，深度帧使用喷射色图编码成彩色图像。第二个培训步骤仍然侧重于进一步培训教师模型。由于在此步骤中训练的模型具有最后一个，并有机会获得这两种模式，其性能代表了我们正在处理的任务的上限。这是两者的主要区别之一多流网络模态蒸馏9我们的方法和[11]中使用的方法：通过将教师学习阶段与幻觉学习分离，我们能够学习更好的教师和更好的学生，正如我们将在实验部分中展示的那样。在第三个训练步骤中，我们专注于从教师模型学习幻觉网络，即，深度流网络刚刚训练好。这里，深度网络的权重被冻结，同时接收输入深度数据。相反，接收输入RGB数据的超分辨率网络用5中定义的损失进行训练，同时还从深度网络的交叉流连接接收反馈。我们发现这有助于学习过程。在第四步也是最后一步中，我们对由RGB和幻觉流组成的整个模型进行微调。此步骤仅使用RGB作为输入，并且与测试时使用的设置非常相似。交叉流连接将超分辨率信号注入到外观RGB流网络中，导致超分辨率特征图和RGB特征图的相乘。直觉是，幻觉网络已经学会通知RGB模型动作发生的位置，类似于深度模型对真实深度数据的处理4实验4.1数据集我们在三个数据集上评估我们的方法，而消融研究仅在NTU RGB+D数据集上进行。我们的模型使用ImageNet预训练的权重进行初始化，并在NTU RGB+D数据集上进行训练和评估。我们稍后在两个较小的数据集上对该模型进行微调，以进行相应的评估实验。NTU RGB+D[23]这是多模式视频动作识别的最大公共数据集。它由56，880个视频组成，以四种方式提供：RGB视频、深度序列、红外帧和25个关节的3D骨架数据。它是用Kinect v2传感器在80个不同的视角下采集的，包括40个执行60个不同动作的受试者。我们遵循最初在[23]中提出的两个评估协议，即跨学科和跨视图。与原始论文一样，我们使用约5%的训练数据作为两种协议的验证集，以选择参数λ，α和T。在这项工作中，我们只使用RGB和深度数据。掩蔽的深度图通过喷射映射转换为三通道图，如[4]所示。UWA3DII[21]该数据集由RGB，深度和骨架序列的1075个样本组成它的特点是10个主题执行30个动作，在5个不同的视图中捕获。Northwestern-UCLA[33]与其他数据集类似，它提供了1475个样本的RGB，深度和骨架序列。它的特点是10个主题执行10个动作，在3个不同的视图中捕获。10N. C. Garcia，P.Morerio和V.Murino4.2消融研究在本节中，我们将讨论为理解模型和训练过程的每个部分的贡献而进行的实验的结果表1报告了在几个训练步骤、不同损耗和模型配置下的性能。表1. 消融研究。一套完整的实验是为南大跨学科评价方案提供的。对于交叉视图协议，仅报告最重要的结果。# 方法测试模态损失跨学科交叉视图1 我们的-第1步，深度流深度x-入口70.44%75.16%2 我们的-步骤1，RGB流RGBx-入口66.52%71.39%3 Hoffman[11] w/o connections RGB当量（一）64.64%-4 Hoffman[11] w/o connections RGB当量（三）68.60%-5 Hoffman[11] w/o connections RGB当量（五）70.70%-6 我们的-第2步，深度流深度x-入口71.09%77.30%7 我们的-第2步，RGB流RGBx-入口66.68%56.26%8 我们的-步骤2RGB深度x-入口79.73%81.43%9 我们的-第2步，无连接RGB深度x-入口78.27%82.11%10 Ours -第3步，无连接RGB （大厅）当量（一）69.93%70.64%11我们的-第3步，带连接RGB （大厅）当量（一）70.47%-12我们的-第3步，带连接RGB （大厅）当量（三）71.52%-13我们的-第3步，带连接RGB （大厅）当量（五）71.93%74.10%14我们的-第3步，无连接RGB （大厅）当量（五）71.10%-15我们的-第4RGBx-入口73.42%77.21%行#1和#2指的是第一训练步骤，其中深度和RGB流被单独训练。我们注意到，正如预期的那样，深度流网络相对于RGB网络提供了更好的性能。表的第二部分（行#3-5）示出了使用Hoffman等人的结果。的方法[11]-即采用用来自第一训练步骤的预训练网络初始化的模型，并且使用深度网络初始化超幻觉网络。行#3是指原始纸张[11]（即，使用损失L霍尔，等式行#4和#5指的是使用等式1中的所提出的损耗L_GD和L分别为3和5。可以注意到，使用所提出的损失函数实现的准确度以显著的裕度（在总损失L的情况下约6%）克服了[11]中获得的表的第三部分（行#6-9）报告训练步骤2之后的性能行#6和#7是多流网络模态蒸馏11指由属于行#8的模型的深度和RGB流网络提供的准确度，单独地取最终模型构成了我们的幻觉模型的上限，因为它使用RGB和深度进行训练和测试。模型在中获得的性能12N. C. Garcia，P.Morerio和V.Murino分别具有和不具有交叉流连接的行#8和#9在绝对值上是最高的，因为使用了两种模态（对于交叉对象分别为大约78-79%，对于交叉视图协议分别为81-82%），大大优于仅使用一种模态（在行#6和#7中）获得表的第四部分（行#10-14）示出了在学习过程的几种变化、不同损失以及有和没有交叉流连接之后我们的幻觉网络的结果最后，最后一行#15报告了最后一个微调步骤之后的结果，该微调步骤进一步缩小了与上限的差距。跨流连接的贡献。我们声称由交叉流连接提供的信号注入有助于学习更好的幻觉网络。行#13和#14示出了从相同点开始并且使用相同损失的幻觉网络学习过程的性能。使用乘法连接学习的超幻觉网络比其对应物表现得更好，其中深度和RGB帧正确对齐。重要的是要注意，由于模态的空间未对准，因此在其他两个较小的数据集中没有观察到这一点，并且因此在特征图之间。拟定蒸馏损失的贡献（方程式（五）。蒸馏和欧几里德损失对幻觉网络的学习有互补的贡献。这通过查看行#3、#4和#5以及#11、#12和#13中报告的性能来观察。在Hoffman等人提出的训练过程中。[11]和我们的分阶段训练过程中，蒸馏损失比欧几里得损失更好，两者的组合比其余的都好。这表明欧几里德和蒸馏损失都有其自己的份额，并且不同地作用以对齐幻觉（学生）和深度（教师）特征图和输出的分布。拟议培训程序的贡献在这项工作中提出的分阶段训练过程背后的直觉可以归因于divide et impera（分而治之）策略。在我们的例子中，这意味着将问题分为两部分：学习实际任务我们的目标是解决和学习学生网要面对考试时间的限制.第5行报告了Hoffman等人提出的架构的准确性。，行#15报告了我们的具有连接的模型的性能。两者都使用相同的损失来学习幻觉网络，并且都从相同的初始化开始我们观察到我们的方法优于行#5中的方法，这证明了所提出的分阶段训练过程的合理性。4.3带噪声深度的推理假设在真实的测试场景中，我们只能访问产生噪声深度数据的不可靠传感器我们现在要解决的问题是：在某种程度上可以多流网络模态蒸馏13我们会相信这些嘈杂的数据吗换句话说，相对于使用具有噪声深度数据的完整教师模型（步骤2），在哪个噪声水平下使深度模态产生幻觉变得有利NTU数据集（Kinect）中使用的深度传感器是与IR相机耦合的IR发射器，并且具有非常复杂的噪声特性，包括至少6个不同的源[18]。研究影响深度通道的噪声模型超出了本工作的范围，因此，对于我们的分析，我们选择最常见的一个，即，乘性散斑噪声。因此，我们在深度图像I中注入高斯噪声以便模拟斑点噪声：I= I*n，n N（1，σ）.表2示出了当深度被具有增加的方差的这种高斯噪声破坏时网络的性能如何降级（仅NTU交叉视图协议）。结果显示，准确度相对于由我们的幻觉模型保证的准确度显著降低（77.21% -表1中的行#15），即使具有低噪声方差。这意味着，总之，训练幻觉网络不仅是避免丢失模态的问题的有效方式，而且也是解决问题的有效方式。处理影响输入数据通道的噪声。表2. 使用干净的RGB和噪声深度数据测试的模型的准确性。所提出的幻觉模型的准确性，即在测试时间没有深度的情况下，为77.21%。σ2精度无噪音10−310−210−1100101无效81.43% 81.34% 81.12% 76.85% 62.47% 51.43% 14.24%4.4与其他方法表3比较了不同方法在各种数据集上的性能。用于该任务和数据集的标准性能度量是分类准确性，根据我们正在比较的相应工作中报告的协议（训练和测试分割）进行估计。表的第一部分（由×符号表示）是指无监督方法，即使不依赖于学习表示中的标签，也能获得令人惊讶的高结果。第二部分是指监督方法（用△表示），根据用于培训和测试的方式进行划分。在这里，我们列出了在步骤1中训练的单独RGB和深度流的性能，作为参考。我们希望我们的最终模型比仅在RGB上训练的模型表现得更好，其准确性构成了我们学生网络的下限。UWA3DII和NW-UCLA数据集的第1步模型报告的值是指我们的NTU模型的微调。我们已经使用预先训练的ImageNet权重进行了训练，结果准确率降低了20%到30%我们14N. C. Garcia，P.Morerio和V.Murino还提出了我们的基线，包括在步骤2中训练的教师模型。它的精度代表了最终模型的上限，该模型在测试时将不依赖于深度数据。表格的最后一部分（由Q表示）报告了我们的模型在2个不同阶段的性能以及其他特权信息方法[ 11 ]。对于所有数据集和协议，我们可以看到我们的特权信息方法优于[11]，这是我们可以进行的唯一公平的直接比较（相同的训练测试数据）。此外，如预期的，我们的最终模型比“我们的-RGB模型，步骤1”表现得更好，因为它在测试时利用更多的数据，并且比“我们的-步骤2”表现得更差，因为它在测试时利用更少的数据。其他RGB+D方法表现更好（这是可以理解的，因为它们在训练和测试中都依赖于RGB+D），但不是很大。表3. 分类准确性和与最新技术水平的比较。我们的方法的几个步骤的性能用粗体突出显示。×是指与无监督学习方法的比较。△是指监督方法：这里的训练和测试模式一致。Q指特权信息方法：这里训练利用RGB+D数据，而测试仅依赖于RGB数据。第3列是指跨学科，第4列是指NTU数据集上的跨视图评估协议。其他两个数据集上报告的结果是针对交叉视图协议的。方法测试模块NTU（p1）NTU（p2）UWA3DII 西北-加州大学洛杉矶分校罗[17]罗[17]深度RGB百分之六十六点二56.0%------×[22]第二十二话RGB--67.4%百分之七十八点一HOG-2[19]深度百分之三十二点四22.3%--行动管[7]RGB--37.0%百分之六十一点五我们的-深度，步骤1深度70.44%75.16%75.28%72.38%我们的- RGB，步骤1RGB66.52%71.39%63.67%85.22%深度RNN[23]深度LSTM[23]关节关节百分之五十六点三百分之六十点七64.1%百分之六十七点三----△[23]第二十三话关节62.93%70.27%--[26]第二十六话关节74.3%百分之八十三点一--[24]第二十四话RGB+D74.86%---刘[14]RGB+D百分之七十七点五84.5%--[20]第二十话深度+接头75.283.1百分之八十四点二-我们的-步骤2RGB+D79.73%81.43%79.66%88.87%Hoffman等人[第十一届]我们的-步骤3RGBRGB64.64%71.93%-74.10%66.67%71.54%83.30%76.30%Q我们的-步骤4RGB73.42%77.21%73.23%86.72%多流网络模态蒸馏154.5反转模态- RGB蒸馏表4中给出的结果解决了本文其余部分研究的相反情况，即RGB数据丢失的情况。在这种情况下，超分辨率流在步骤3（图1）中从RGB流中提取知识。我们观察到，最终模型的性能下降了近1%，76.41%，与77.21%（cf.表2中的第15行）。更一致的设置是修改模型，在步骤3和4，从而使信息再次从深度流向RGB。#方法测试模态损失交叉视图13 a我们的-第3 深度（大厅）当量576.12%15 a我们的-第4 深度x-入口76.41%表4. RGB蒸馏（NTU RGB-D，交叉视图协议。）5结论和未来工作在本文中，我们解决的任务，视频动作识别的背景下，特权信息。我们提出了一种新的学习范式来教幻觉网络模仿深度流。我们的模型优于最近在NTU RGB+D数据集上评估的许多监督方法，以及[11]中提出的幻觉模型。我们进行了广泛的消融研究，以验证如何组成我们的学习范式的几个部分有助于模型的性能。作为未来的工作，我们想扩展这种方法来处理额外的模态，可能是在训练时间，如骨骼关节数据或红外序列。最后，由于时间卷积的存在，当前原则上，我们可以删除它们，并将我们的方法应用于静止图像和其他任务，如对象检测。引用1. Ba，L.J.，卡鲁阿纳河：深网真的需要深吗神经信息处理系统进展（NIPS）（2014）2. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：IEEE计算机视觉和模式识别会议论文集（2017）3. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议。第1卷，第100页。886-893. IEEE（2005年）16N. C. Garcia，P.Morerio和V.Murino4. Eitel，A.，Springenberg，J.T.，斯皮内洛湖Riedmiller，M.，Burgard，W.：用于鲁棒 rgb-d 对象识别的多模态深度学习在：智能机器人和系统（IROS），2015年IEEE/RSJ国际会议。pp. 681-687. IEEE（2015）5. Feichtenhofer，C.，Pinz，A.，Wildes，R.P.：用于视频动作识别的时空乘子网络IEEE计算机视觉和模式识别会议论文集。pp. 47686. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：卷积双流网络融合视频动作识别。IEEE计算机视觉和模式识别会议论文集。pp. 19337. Gkioxari ， G. ， Malik ， J. ：找活动管。在：计算机视觉和模式识别（CVPR），2015年IEEE会议上。pp. 759-768. IEEE（2015）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议论文集。pp. 7709. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。欧洲计算机视觉会议。pp. 630-645. Springer（2016）10. Hinton，G. Vinyals，O.，Dean，J.：在神经网络中提取知识。深度学习和表示学习研讨会：NIPS 2014（2014）11. Hoffman，J.，古普塔，S.，达雷尔，T.：通过模态幻觉学习附带信息IEEE计算机视觉和模式识别会议论文集。pp. 82612. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类。在：IEEE计算机视觉和模式识别会议论文集。pp.第172513. 拉普捷夫岛Marszalek，M.，施密德角罗森菲尔德，B.：从电影中学习真实的人类动作。在：计算机视觉和模式识别，2008。CVPR 2008。IEEE会议。pp. 1-8. IEEE（2008）14. 刘杰，Akhtar，N.，Mian，A.：基于rgb-d视频的视点不变动作识别。arXiv预印本arXiv：1709.05087（2017）15. Lopez-Paz，D.，博图湖Schölkopf，B.，Vapnik：统一蒸馏和特权信息。学习表征国际会议（ICLR）（2016）16. Luo，Z.，江，L.Hsieh，J.T.，尼布尔斯，JC李菲菲：图蒸馏用于具有特权信息的动作检测arXiv预印本arXiv：1712.00108（2017）17. Luo，Z.，彭湾黄地方检察官Alahi，A.，李菲菲：视频长期运动动态的无监督学习。IEEE计算机视觉与模式识别会议（CVPR）编号EPFL-CONF-230240（2017）18. Mallick，T. Das，P.P.，Majumdar，A.K.：kinect深度图像中的噪声特征：审查. IEEE Sensors Journal14（6），1731-1740（2014年6月）。https://doi.org/10.1109/JSEN.2014.230998719. Ohn-Bar，E.，Trivedi，M.M.：用于动作识别的关节角度相似性和hog2在：计算机视觉和模式识别研讨会（CVPRW），2013年IEEE会议上。pp. 465-470. IEEE（2013）20. Rahmani，H.，Bennamoun，M.：从深度和骨架视频中学习动作识别模型。IEEE计算机视觉和模式识别会议论文集。pp. 583221. Rahmani，H.，Mahmood，A.，Huynh，D.，Mian，A.：面向主成分直方图的跨视角动作识别。 IEEE Transactions on Pattern Analysis and MachineIntelligence38（12），2430多流网络模态蒸馏1722. Rahmani，H.，Mian，A.，Shah，M.：从新的视角学习人类动作识别的深度模型。 IEEE Transactions on Pattern Analysis and Machine Intelligence40（3），66723. Shahroudy，A.，刘杰，Ng，T. T.，王G：Ntu rgb+ d：用于3d人类活动分析的大规模数据集。IEEE计算机视觉和模式识别会议论文集。pp. 101024. Shahroudy，A.，Ng，T. T.，Gong，Y.，王G：rgb+ d视频中用于动作识别的深度多模态特征IEEE Transactions on Pattern Analysis and MachineIntelligence（2017）25. 西蒙尼扬，K.，齐瑟曼，A.：双流卷积网络用于视频中的动作识别在：神经信息处理系统的进展pp. 第56826. Soo Kim，T.，Reiter，A.：用时间卷积网络进行可解释的三维人体行为分析。在：IEEE计算机视觉和模式识别研讨会会议论文集。pp. 2017年10月20日27. 孙湖，加-地Jia，K.，杨D.Y. Shi，B.E.：使用因子化时空卷积网络的人类动作识别。在：IEEE计算机视觉国际会议论文集。pp. 459728. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：用3d卷积网络学习IEEE计算机视觉国际会议论文集。pp. 448929. Tran，D.，王，H.，托雷萨尼湖Ray，J.，LeCun，Y.，Paluri，M.：动作识别的时空卷积的进一步研究30. Vapnik，V.，Vashist，A.：一种新的学习模式：利用特权信息学习。神经网络22（5），54431. 王，H.，Kläser，A.，施密德角Liu，C.L.：通过密集轨迹识别动作计算机视觉与模式识别（ CVPR ）， 2011 年 IEEE 会议。 pp. 3169-3176. IEEE（2011）32. 王，H.，Schmid，C.：具有改进轨迹的动作识别IEEE计算机视觉国际会议论文集。pp.第355133. 王杰，聂，X.，夏，Y.，吴，Y.，Zhu，S.C.：跨视图动作建模、学习和识别。IEEE计算机视觉和模式识别会议论文集。pp. 264934. 王，X.，格尔希克河Gupta，A.，He，K.：非局部神经网络。arXiv预印本arXiv：1711.07971（2017）

下载后可阅读完整内容，剩余1页未读，立即下载