早期动作预测的渐进式师生学习

198 浏览量更新于2023-10-17 收藏 1.43MB PDF 举报

文件分析

动作识别

身份认证购VIP最低享 7 折!

30元优惠券

3556早期行动预测的渐进式师生学习Xionghui Wang1，Jian-Fang Hu1，3 Yuan，Jianhuang Lai1，3，Jianguo Zhang2，Wei-ShiZheng1，41中国中山大学;2英国邓迪大学3广东省信息安全技术重点实验室4机器智能与先进计算教育部重点实验室wxiongh@mail2.sysu.edu.cn，hujf5@mail.sysu.edu.cn，stsljh@mail.sysu.edu.cn，j.n. dundee.ac.uk，wszheng@ieee.org摘要早期动作预测的目标是从部分观察的视频中识别出不完整的动作执行，这与动作识别有很大不同预测早期动作是非常具有挑战性的，因为部分观察到的视频不包含足够的动作信息用于识别。在本文中，我们旨在通过提出一种新的教师-学生学习框架来改善早期行动预测。我们的框架包括一个教师模型，用于从完整的视频中识别动作，用于从部分视频预测早期动作的学生模型，以及用于跨越不同任务从教师到学生提取渐进知识的教师-学生学习块。在三个公开行动数据集上的大量实验表明，所提出的渐进式师生学习框架可以持续提高早期行动预测模型的性能。我们还报告了所有这些集上早期行动预测的最先进性能1. 介绍早期行动预测，即，在动作完全执行之前预测动作的标签是视频分析中最基本的任务之一，在监控、自动驾驶和人机交互等方面有许多实际应用。与传统的从完整视频中识别动作的动作识别任务不同，早期动作预测的目标是从部分观察到的具有不完整动作执行的视频中预测动作的标签。如图1所示，从部分视频中识别动作是非常具有挑战性的，特别是当所描绘的动作在非常早期的阶段（例如，当10%的*通讯作者观察到未观察到经验特征原始特征D rinking：0. 34E ating：0.Drinking：0.57吨EATIN G：0.部分视频知识蒸馏全功能Drinking：0. 85Eatin完整视频图1：示意图显示了我们提出从动作识别系统中提取知识以进行早期动作预测的动机。动作被执行）。然而，如果完全执行和观察这些动作，识别将变得容易得多[16，24]。具有-10的不同观察比率的视频如何从这些部分或完全观察到的视频中挖掘尽可能多的动作知识进行预测，是社区面临的主要挑战之一。已经提出了许多工作来利用部分和完全观察到的视频进行早期动作预测。例如，Kong et.al.[21]假设预测置信度随着观察到更多的视频帧而单调增加。Hu等人[16]打算为每个进度级别的视频学习软标签，以便可以在统一的回归框架中学习完整和部分视频。最近，Kong et.al.[24]学习从所有部分观察到的视频到完整视频的反射图。这些工作主要是开发一个联合学习框架来学习部分和完整视频中的早期动作预测器，他们并不寻求从完整视频中提取一些区分动作的知识来提高部分视频的早期动作预测。如图1所示，3557从完整视频获得的知识可用于驱动具有部分视频的早期动作预测。在本文中，我们制定了一个新的知识共享的早期行动预测框架。我们的框架包括一个教师模型，用于从完整的视频中识别动作，一个学生模型，用于从部分视频中预测早期动作，以及一个教师-学生学习模块，用于从教师到学生的知识提取。据我们所知，我们是第一个明确制定早期行动预测的师生学习框架，特别是将其视为跨不同任务的渐进知识蒸馏问题，在统一的框架中考虑均方误差（MSE）和最大平均差异（MMD实验结果表明，提出的渐进式师生学习框架有利于动作的早期预测，特别是在动作发生的早期阶段。总之，这项工作的主要贡献有三个方面：1）一种新颖的师生学习框架，用于跨不同任务从动作识别模型（教师）到早期动作预测模型（学生）提取渐进式动作知识;（2）以师生学习为基础，以知识升华为精神，将早期行为预测任务与行为识别相结合的早期行为预测系统;3)在三个数据集上对RGB-D和RGB视频的早期动作预测进行了广泛的实验分析，表明我们的早期动作预测系统达到了最先进的性能，并且所提出的师生学习框架可以通过知识蒸馏有效地提高预测性能。2. 相关工作动作识别。行动识别在社会上得到了广泛的研究。现有的方法主要是从具有完整动作执行的视频中提取一些有区别的动作特征。开发了一些代表性的手工特征，如立方体 [7] [44] [6] ，兴趣点云 [4] ， 3DHOG[20]，SIFT [33]和密集轨迹[41]等，用于表征时空运动信息，这对于描述人类行为至关重要。最近，随着深度学习的兴起，许多基于深度学习的方法，包括3DCNN [39] [5] [12] [40] [13]和双流CNN [36] [8] [46]等，对时空信息进行编码，并在UCF-101 [37]和Ki-netics [5]数据集上取得了满意的识别结果。除了从RGB视频中识别动作的这些进展之外，这些年来使用深度相机的动作识别一些研究人员发现，结合多种从RGB，深度和骨架序列中提取的模态特征可以捕获更多有用的动作信息并获得更好的识别性能[45][17][35][31]。然而，这些动作识别方法是专门为人类动作的事后预测而开发的（即，当动作被完全观察时），并且他们没有寻求建立用于预测不同进度水平的早期动作的模型，这特别需要对部分视频的内在表达能力进行建模。早期行动预测与动作识别不同，动作被假设为完全执行和观察，早期动作预测的目的是在动作完全执行之前识别动作[32，25，23，24，2，16，22]。由于缺乏足够的信息，早期阶段的行动很难被识别。Ryoo [32]倾向于通过观察随时间积累的特征中的一些证据来识别正在进行的行为Lan等人。[25]采用最大边际框架来预测分层特征表示的行为。Kong等人[23]开发了一种结构化的SVM公式来捕获人类行为的时间演变。Hu等人。[16]提出了一种软回归框架，用于从部分视频和完整视频中学习鲁棒的动作预测器。Aliakbarian等人[2]引入了一个多阶段LSTM架构来建模上下文感知和动作感知信息。最近，Kong et al.[24]提出了一种深度顺序上下文网络（DeepSCN），旨在从部分视频中提取的特征重建完整视频的特征。这些工作都没有提出利用动作识别任务进行早期动作预测，这可能会发现一些有用的动作知识用于早期动作预测。考虑到这一点，我们开发了一个新的教师-学生学习框架，从动作识别模型中提取知识，以提高早期动作预测的目的。知识升华。最近的研究表明，教师网络学习到的知识可以用来提高学生网络的性能[14，27，1，43]。在文献中，教师网络通常指的是一个沉重的，繁琐的模型和学生网络指的是一个简单的，轻量级的模型。教师网络和学生网络都面向解决相同的任务。例如，Romero et al.[1]提出了最小化教师和学生模型输出之间的MSE。Yim等人。[42]使用Gram矩阵损失来提取知识以改进图像分类。听着。[27]表明最小化神经风格转移中的Gram矩阵损失[9]相当于最小化MMD损失[11]。这些作品主要是为在静态图像和同一任务中提取知识而开发的。相反，我们的目标是转移识别模型中获得的序列知识，以提高我们的预测性能。因此，我们的方法试图在不同的视频分析任务中传递知识。3558X1…XNŚś识别SoftmaxCNNBiLSTM③❣FC…教师网络GT1GT2GTNMSEMSEMSE不MMDS学生网络Śś…GS1GS2GSNFCCNNLSTMSoftmaxX1…XN预测特征提取当地KD全球KD③ ❣图2：我们的渐进式师生学习早期行动预测的总体框架3. 我们的方法我们处理与[16，24，22]中相同的问题，即，来学习用于预测早期动作的公共早期动作预测器根据[16，24，21，32，25，26]中的现有设置，我们假设每个训练视频包含完整的动作执行，并将其均匀地划分为N个较短的片段。前n个分段（n = 1，2，...， N）形成具有进度水平n的部分视频，其观察比率被定义为n/N。让在这项工作中，我们专注于开发一个教师-学生学习框架，以改善早期的行动预测模型（简称学生）的协助下的行动识别模型（简称教师）。在下文中，我们首先描述我们的教师和学生模型，然后展示如何从教师模型中提取有用的知识来改进我们的学生模型。3.1. 教师和学生网络学生模特。 Hu et. [16]观察到，显式学习不同进度水平的视频之间的时间依赖性有利于早期动作预测。在这里，我们遵循这一观察结果，并采用标准的1层长短期记忆（LSTM）[15]架构作为我们的学生预测模型，以预测任何进展水平的早期行动。教师模型。在这里，我们通过以下方式指定教师模型：1层双向LSTM（BiLSTM）[10]架构，已广泛用于解决视频识别问题。我们使用BiLSTM模型作为我们的老师模型两个方面。首先，它可以提供一个潜在的特征，BiLSTM模型的动作信息通常比学生LSTM模型的动作信息更具鉴别力，特别是对于非常早期的动作然而，BiLSTM模型不适用于早期动作预测，因为在当前观察之后的帧在实践中通常是尽管如此，我们证明它仍然可以用于早期行动预测。特别是，它可以作为一个教师模型来指导我们的学生学习。为此，我们提出了一种师生学习方法，利用教师模型获得的丰富的潜在特征来改善我们的早期行动预测。3.2. 渐进式教师学生学习通过前面描述的教师模型，我们的目标是从教师模型中提取一些有用的知识，以促进学生预测模型的学习。在这里，我们通过开发教师-学生学习块来实现知识蒸馏，该学习块将链接由教师网络和学生网络获得的渐进式潜在特征表示，如图2所示。在下文中，我们详细描述了我们的师生学习模块的公式。师生学习区。让我们分别用Si和Ti表示第i个视频样本的所有进度水平上的教师和学生网络的潜在特征表示这里，Si和Ti是两个D×N大小的矩阵。D表示特征尺寸，N是用于早期行动预测的进度级别总数然后，我们的知识蒸馏可以通过最小化1美元表示任何进度级别的视频，这与学生模型一致。第二，由于BIL-L= Ii=1（LC（Si，yi）+LTS（Si，Ti））（1）STM有一个前向LSTM和一个后向LSTM层，它们可以分别从历史帧和未来帧接收信息，获得潜在特征，其中LTS表示知识蒸馏（KD）损失，LC是学生模型的预测损失。指示第i个视频样本的地面实况动作标签。3559我F我我我2FFKD 损失LTS （ Si ， Ti ）。我们将KD 损失定义为αLMSE+βLMMD，其中LMSE用于通过计算教师和学生模型的潜在特征之间的均方误差（MSE）以渐进方式因此，它可以在每个单独的进度水平上捕获关于视频的一些局部动作知识以用于蒸馏。损失LMMD用于测量教师识别模型（具有完整视频）和早期动作预测模型（具有部分视频）之间的最大平均差异（MMD）最小化LMMD可以从全局分布的角度提取所有进度级别的视频的知识我们将LMSE表示为Siw−Tiw2。w是指示MSE损失的贡献的权重向量关于每个单独的进度水平的视频。S i是一个逐元素乘法运算符，将Si的每一列乘以w的相应元素。最小化LMSE是为了减少教师和学生为每个单独的进度水平的视频模型获得的知识相比之下，MMD被广泛用于测量两个分布之间的距离[11]。这里，采用损失LMMD来控制所有进度级别的视频的全局分布差异我们的MMD损失可以定义为为了简化，我们直接将学生LSTM模型的潜在特征表示馈送到FC层（具有参数WF）以进行预测。注意，对于不同进度水平的所有视频共享分类器权重WF那么我们的预测损失可以定义为：ΣNLC（Si，yi）=l（pn，yi）（6）n=1这里，l（pn，yi）是在进度水平n处的预测结果pn与地面实况动作标签yi之间的标准交叉熵损失，其中pn=softmax（WFSi（：，n））。模型学习在我们的教师-学生学习框架中，教师模型被假设为预先确定的，这意味着它是从训练数据中训练出来的，然后固定下来学习学生模型1。与其他师生学习框架[1]类似，我们也采用两阶段优化方法来获得鲁棒的学习效果。对学生模型的估计在第一阶段，我们直接最小化LSTM参数上的KD损失（没有FC层），而不考虑预测损失，这需要学生预测教师网络的潜在特征。我们根据经验发现，以这种方式训练LSTM层可以为调整学生模型提供良好的初始化。在第二阶段，我们学习LMMD（Si，Ti）=1ΣNNn=1φ（Si（：，n））−1ΣNNn=1φ（Ti（：，n））2（二）LSTM参数和分类器一起通过最小化等式中的L来实现。（一）.我们在第5节中的实验表明，以这种方式学习的学生模型可以获得更好的结果。φ 是将潜在特征表示映射到再现核希尔伯特空间（RKHS）的函数，其对应于核函数k（x，y）=φ（x），φ（y）>。<我们遵循[27]中的建议，并将其设置为特定的二阶多项式核函数k（x，y）=（x<$y）2。那么MMD损失可以等效地重写为：4. 实验我们在三个基准数据集上使用RGB-D和RGB视频测试了我们的早期动作预测方法：N-TU RGB-D action[34]、SYSU 3DHOI [17]和UCF-101设置[37]。下面，我们将介绍一下实施情况-LMMD（Si，Ti）=<$GSi−GTi<$2这里，GSi和GTi是格拉姆矩阵：GSi=SiS，GTi=TiT（三）（四）详细介绍了实验过程，并对实验结果进行了详细的分析.4.1. 实现细节对于RGB-D动作数据集的早期动作预测我我(i.e.、NTU RGB-D和SYSU 3DHOI集），我们遵循其中G∈RD×D，（·）R表示矩阵转置。注意，表示Si和Ti在每个进度水平处被标准化以避免显著差异。总的来说，KD损失可以表示为LTS（Si，Ti）=α<$Si <$w−Ti<$w <$2设置[16]并将每个视频剪辑划分为N=40个较短的片段。而对于RGB动作数据集上的预测（即，UCF-101集），我们使用[24]中的设置并将每个完整视频分为N=10个较短的片段。特征提取的详细信息。为了提取视觉特征-+βSiS−TiT2（五）从RGB-D数据集（NTU和SYSU）中的视频中提取，我们i i F其中，α和β分别用于控制MSE损失和MMD损失在与方程中的预测损失结合时的影响。（一）.预测损失。至于预测，我们将早期动作预测视为从具有未知进度水平的正在进行的视频（部分或全部）中在[16]中，[17]是一个[18]，[19]是一个[19]。从每个视频剪辑中截取16帧，从中裁剪出一组包含演员的图像块，以便减少杂乱背景的影响。这些补丁1事实上，我们没有观察到通过联合训练教师识别模型和学生模型对预测性能的详情请参阅第5节。3560n=1NTUSYSUUCF-101图3：来自NTU RGB-D、SYSU 3DHOI和UCF-101数据集的一些帧示例，前两行表示来自NTU集的RGB和深度帧。接下来的两行提供了SYSU 3DHOI集合中的一些示例。最后一行给出了UCF-101集的示例。然后沿着时间维度连接（调整大小后），以形成16×299×299大小的张量。然后，我们基于从RGB和深度视频生成的张量微调了16通道InceptionResNetV22[38由于SYSU集合中的所有动作都涉及人类-对象交互，我们遵循[18]中的建议，从人体部位的图像块中提取CNN特征。为了从3D骨架序列中提取特征，我们遵循[34]中的预处理步骤，并将人体关节的3D位置从相机坐标系转换为身体坐标系。我们从每个部分或完整的骨架序列中采样10帧，然后将它们送入RNN模型以提取相应的特征。最后，从RGB、深度和骨架数据中提取的特征被连接起来，以获得表示。我们采用所有进度水平上的交叉熵损失作为教师学习的损失。对于学生模型，我们训练了一个1层序列-序列LSTM网络，隐藏层集的大小为512，以便与教师模型输出的潜在特征相匹配。我们在[16]中设置w，因为我们通过实验发现从头开始学习它只能获得微小的改进。控制MSE和MMD损失的权重（α，β）在NTURGB-D 、 SYSU 上设置为（ 0.1 ， 0.02 ）、（ 25 ，0.002）、（4，0.023DHOI和UCF-101。SYSU数据集的学习率和批量大小分别设置为0.01和30，NTU和UCF-101数据集分别设置为0.1和256。在学生模型中使用了辍学，以减轻过拟合。我们使用了SGD优化器[3]和动量率0.9培训教师和学生网络。所有的前-n{xn}N每个进度级别的视频。实验在PyTorch中进行[30]。为了从无约束RGB动作集UCF-101中的视频中提取特征，我们使用了3D ResNeXt-101[13]在Kinetics数据集上进行预训练[19]，以提取一些时空特征，而无需对训练数据进行微调3。更具体地说，我们从每个视频剪辑（部分或完整）中采样了16帧，然后将其重新调整为3×16×112×112 张量。最后，将这些张量输入 3DResNeXt-101以提取视觉特征。师生学习的细节。我们训练了一个1层序列-序列Bi-LSTM网络作为我们的教师模型，其中每个方向（前向和后向）的隐藏层维度设置为256。因此，教师模型输出的潜在特征的维数为512。2https://github.com/Cadene/pretrained-models.pytorch网站3在我们的实验中，我们没有观察到通过微调3D ResNeXt-101对性能的任何改善4.2. NTU RGB D动作数据集据我们所知，NTU RGB-D动作数据集[34]是迄今为止用于3D动作识别和预测的最大公共集。它包含超过56，000个视频样本，约400万帧，来自60个动作类别。所有这些动作样本都是由Kinect v2设备从三个不同的视图记录的。为了收集这组数据，40名受试者被要求多次执行某些动作。一些行动框架可以在图3 .第三章。该集合对于早期动作预测非常具有挑战性，主要是由于其数量上的更大规模，动作类别的更大多样性以及人与人交互和人与物体交互的更复杂性。此外，这一组中考虑的许多行动在开始阶段很容易相互混淆。采取行动35610.80.70.60.50.40.30.20.10.850.80.750.70.650.60.550.50.450.40.350.90.80.70.60.50.400.10.20.30.40.50.60.70.80.91观测比(a) NTU RGB-D行动集00.10.20.30.40.50.60.70.80.91观测比(b) SYSU 3D HOI套件0.10.20.30.40.50.60.70.80.91观测比(c) UCF-101套装图4：（a）NTU RGB-D Action、（b）SYSU 3DHOI和（c）UCF-101套件的比较结果。图图例中的[*]代表通过相应方法获得的AUC（%）性能。表1：NTU RGB-D Action集的预测结果（%）。观测比百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分之七十百分之八十百分之九十百分百AUCKNN [16]7.459.5612.2516.0420.8925.9730.8534.4936.1537.0221.90RankLSTM [28]11.5416.4825.6637.7447.9655.9460.9964.4166.0565.9543.13[24]第二十四话16.8021.4630.5139.9348.7354.6158.1860.1860.0158.6243.24MSRNN [16]15.1720.3329.5341.3751.6459.1563.9167.3868.8969.2446.56学生25.9933.6843.9156.2065.5972.1276.1678.8280.0980.5359.24我们27.8035.8546.2758.4567.4073.8677.6380.0681.4782.0160.97比如对于实验，我们完全遵循[34，16]中的跨学科设置，并使用20个特定受试者的样本来训练我们的模型。其余受试者的样本被用来评估学习的模型。我们总共有40，320个完整的视频用于训练，16，560个完整的视频用于测试，这意味着我们总共有662，400个部分和完整的样本来测试训练模型。详细的预测结果如图4（a）和表1所示，其中我们将没有从教师模型中提取知识的学生模型表示为STUDEN。T.如图所示，在教师模型的帮助下，我们的学生模型在所有40个进度水平上的表现都得到了改善，特别是在非常早期的阶段。例如，当只使用前30%的片段进行预测时，我们的系统实现了46.27%的准确率，比传统模型高出2.36%。我们还观察到，来自完整视频的预测动作的准确率为82.01%，比STUDEN高1.48%T.这表明知识提取框架也有利于动作识别任务。从曲线下面积（AUC）的角度来看，它代表平均预测准确度，它从59.24%增加到60.97%，提高了1.73%，这意味着当使用我们的渐进式师生学习方法时，超过11，400个错误预测的动作样本被正确预测。表1显示了我们的方法与其他最先进方法的比较[16，24，28]。可以看出，我们的方法优于竞争对手的一个很大的标志，杜松子酒（AUC超过14%），这是在这个具有挑战性的数据集上进行早期行动预测的重大突破结果表明，我们的早期行动预测系统与知识蒸馏的有效性。4.3. SYSU 3DHOI数据集SYSU 3D人机交互（3DHOI）数据集[17]由Kinectv1捕获，具有来自12个动作类别的480个RGB- D序列，包括与NTU RGB-D动作集类似，收集器邀请了40个演员与6个不同的对象执行12个人机交互动作。图3中可以找到一些框架示例。这个集合对于早期动作预测是具有挑战性的，因为动作彼此非常相似，特别是在开始阶段。例如，“打电话”和“玩电话”的动作因此，系统不容易通过仅观察序列的一小部分来准确地推断动作按照与[16]相同的评价设置，前20名受试者执行的序列用于培训，其余用于测试。为了评估，将每个完整序列均匀地划分为40个段。因此，我们总共有9，600个视频片段（完整和部分）来测试该组中学习的预测模型。图4（b）和表2给出了该集合的详细预测结果。如图所示，我们的方法获得了75.35%的AUC，优于所有竞争对手，包括 Criminent ， RankLSTM [28] ，DeepSCN [24]和MSRN。N [16]。正如所料，建议师生学习我们的[60.97][59.24]MSRNN [46.56][43.24]RankLSTM [43.13]KNN [21.90]我们的[75.35][71.87]MSRNN [71.61]RankLSTM [68.59][62.18]KNN [54.74]我们的[89.64][88.39]MSRRN [87.25]Mem-LSTM [84.10][81.31]MTSSVM [77.41]IBOW [70.01]DBOW [51.37]精度精度精度3562表2：SYSU 3DHOI集的预测结果（%）。观测比百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分之七十百分之八十百分之九十百分百AUCKNN [16]35.8342.5050.4255.0057.9261.2563.3365.0063.3362.0854.74RankLSTM [28]48.7557.0865.4271.2573.7575.4277.0877.5077.9276.6768.59[24]第二十四话45.5051.7557.5858.8360.5067.1773.4273.8375.0874.6762.18MSRNN [16]47.5056.6766.6775.4278.3380.4281.6782.5081.6779.5871.61学生54.5861.2567.0872.9273.7577.5080.4282.5084.5884.1771.87我们59.5863.3368.3375.0078.3381.6784.1786.2587.5087.9275.35框架一直在很大程度上提高了我们的学生模型的性能（大约3. 5%），特别是在非常早期阶段的行动预测。通过只观察前 10%的视频，我们的系统可以获得59.58%的准确率，这明显超过了我们的学生模型在没有教师学习和其他竞争对手的情况下获得的性能。这些方面表明，所提出的渐进式师生学习框架可以有效地促进早期行动预测模型的学习4.4. UCF 101数据集UCF-101集是基于RGB视频的无约束数据集，已被广泛用于动作识别。它由101个动作类的13，320个完整视频组成，如大多数考虑的行动涉及人与物体的互动，身体运动，人与人的互动和体育。图3显示了这一组中的一些框架示例。为了进行评估，我们采用了与[22，16]相同的设置，并使用前15组视频进行训练，接下来的3组用于验证，其余用于测试。在这个设置中，我们有3，682个完整的动作视频用于测试，每个视频被分成N=10个片段，这意味着我们需要在这个实验中预测36，820个片段的动作。详细的预测结果见图4（c）和表3。正如预期的那样，本研究中获得的结果与NTU RGB- D动作和SYSU3DHOI集上获得的结果一致。我们提出的教师-学生学习框架可以持续提高我们的学生模型的预测性能，并优于其他最先进的模型[22，16，24]。值得注意的是，我们的系统可以获得83.3%的准确度来预测进度水平为10%的部分视频，超过最先进的方法[16] 5.32%的幅度当提供更多的视频帧时，精度将保持上升，直到观察到所有帧。总的来说，在这个集合上获得的预测精度比在NTU RGB-D和SYSU 3DHOI集合上获得的精度高得多，特别是对于非常早期阶段的动作预测。这是因为该集合中的许多动作可以通过仅观察每个单个帧中描绘的场景上下文来识别，例如，“表4：关于MSE和M-MD损失的影响的更多评估。S代表无知识蒸馏的知识，L代表有MSE的局部知识蒸馏，G代表有MMD的全局知识。观测比百分之十百分之三十百分之五十百分之七十百分百AUCS54.5867.0873.7580.4284.1771.87SYSUS+LS+G57.0857.5067.0866.6775.8376.6780.4280.4285.8385.0073.5373.08S+L+G59.5868.3378.3384.1787.9275.35S81.6487.5389.3390.2090.6388.39UCF-101S+LS+G83.1983.5788.4388.0290.2290.1491.2090.6390.9890.7189.2789.01S+L+G83.3288.9290.8591.2891.4789.645. 消融研究在这里，我们提供更多关于SYSU 3DHOI和UCF-101套件的评估结果。MSE和MMD损耗的影响。注意，我们的师生学习的KD损失包括两个分量，MSE和MMD，其中MSE用于捕获局部渐进式知识，MMD用于提取全局分布知识。在这里，我们研究了它们的影响，并在表4中报告了结果。可以看出，提取动作知识，无论是本地的还是全局的，总是有利于早期动作预测。在大多数测试用例中，它们的适当组合可以获得最佳性能。模型优化评价。在本文中，我们使用了两阶段的优化方法来确定学生参数（表示为两个）。直观地说，我们也可以直接优化目标函数L，阶段方式（由一个表示）。在这里，我们在表5中报告了使用这两种策略的结果。如图所示，两种优化方法都可以改善我们的早期行动预测，相比之下，只有certain。我们还注意到，在我们的实验中，两阶段优化方法可以获得比一阶段训练更好的结果。特别是在SYSU 3DHOI集上，基于两阶段的方法具有约1.8%的性能增益，这意味着学生模型正确预测了超过140个样本。形象化教学有利于师生互动学习. 在这里，我们使用t-SNE [29]来可视化我们的教师模型和学生模型输出的潜在特征t模型，分别有/无师生学习3563(a) （b）没有师生学习的学生 (c)师生学习图5：可视化结果。来自不同行动的样品用不同的颜色和数字标记表3：UCF-101组的预测结果（%）。观测比百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分之七十百分之八十百分之九十百分百AUCDBOW [32]36.2951.5752.7153.1353.1653.2453.2453.3453.4553.5351.37IBOW [32]36.2965.6971.6974.2574.3975.2375.3675.5775.7975.7970.01MTSSVM [23]40.0572.8380.0282.1882.3983.2183.3783.5183.6982.8277.41[24]第二十四话45.0277.6482.9585.3685.7586.7087.1087.4287.5087.6381.31Mem-LSTM [22]51.0280.9785.7387.7688.3788.5889.0989.3889.6790.4984.10MSRNN [16]68.0087.3988.1688.7989.2489.6789.8590.2890.4390.7087.25学生81.6485.2387.5388.5989.3389.7990.2090.3690.5890.6388.39我们83.3287.1388.9289.8290.8591.0491.2891.2391.3191.4789.64表5：对优化策略的更多评估。S代表没有师生学习的顺从。观测比百分之十百分之三十百分之五十百分之七十百分百AUCS54.5867.0873.7580.4284.1771.87SYSU一57.0866.2577.0882.5085.4273.57两59.5868.3378.3384.1787.9275.35S81.6487.5389.3390.2090.6388.39UCF-101一83.4188.5190.4791.3191.2389.51两83.3288.9290.8591.2891.4789.64表6：与vs.没有共同学习。观测比百分之十百分之三十百分之五十百分之七十百分百AUCSYSU毫不53.3359.5866.2568.3374.5878.3381.6784.1784.5887.9272.4975.35UCF-101与没有83.6083.3288.3588.9289.8290.8590.2091.2890.8591.4789.0789.64SYSU 3DHOI套件的测试视频结果如图5所示。教师模型在区分不同行为类型的样本方面优于studen- t模型，说明教师模型包含了更强的行为信息。通过将这些知识提取到学生模型中，我们的学生模型可以更好地分离样本，如图5（b）和图5（c）所示。这也表明我们的模型提取了一些有用的知识，以提高早期行动预测。师生共同学习。在模型训练过程中，教师模型先经过预训练，然后固定，我们还测试了教师和学生网络同时联合学习的情况。结果见表6. 值得注意的是，共同学习的教师和Student模型在我们的实验中获得了较差的性能，这可以归因于同时优化两个高度非凸问题6. 结论在本文中，我们提出了一个新的教师-学生学习的早期行动预测框架。在该框架中，在行动识别模型（教师）中获得的渐进知识我们通过最小化教师和学生模型之间的局部渐进式和全局分布知识差异来实现知识蒸馏。在两个RGB-D动作集和一个无约束RGB动作集上进行的大量实验表明了该框架的有效性。致谢本工作得到了国家重点研究发展计划（2018 YF-B1004903 ）、国家自然科学基金（ 61702567 ，61628212）、SF-中国的（ 61772570 ）、广州珠江科技新星计划（201806010056）、广东省胡建芳还获得了广东省信息安全技术重点实验室开放项目（ 2017 B030314131）和CCF-腾讯开放研究基金的支持。通讯作者是胡建芳。3564引用[1] 罗梅罗·阿德里亚娜，巴拉斯·尼古拉斯，K·萨米拉·易卜拉欣，查桑·安托万，加塔·卡洛和B·约瑟芬.Fitnets：薄而深的网的提示。2015年国际学习报告会议。二、四[2] Mohammad Sadegh Aliakbarian、F Sadat Saleh、MathieuSalzmann 、 Basura Fernando 、 Lars Petersson 和 LarsAndersson。鼓励地方标准化培训机制尽早采取行动。在IEEE计算机视觉国际会议上，2017年第1卷。2[3] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010的Proceedings施普林格，2010年。5[4] 马特奥·布雷贡齐奥，龚少刚，陶翔。将行动抽象为时空兴趣点的云在IEEE计算机视觉和模式识别会议上，第1948-1955页2[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，第4724-4733页，2017年。2[6] 彼得·多尔，文森特·拉博，加里森·科特雷尔，还有贝隆吉先生。基于稀疏时空特征的行为识别。在IEEE视觉监视和跟踪监视性能评估国际研讨会上，第65-72页2[7] Alireza Fathi和Greg Mori。通过学习中级运动特征进行动作识别在IEEE计算机视觉和模式识别会议上，第1-8页2[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议上，第1933-1941页，2016年。2[9] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议上，第2414-2423页，2016年。2[10] Al e xGr av es和J ür genSchmidhube r. 用双向lstm和其他神经网络结构进行帧式音素神经网络，18（5-6）：602-610，2005年。3[11] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。 Journal of Machine Learning Research ， 13（Mar）：723- 773，2012。二、四[12] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在IEEE国际计算机视觉研讨会上，第2卷，第4页，2017年。2[13] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？在IEEE计算机视觉和模式识别会议上，第6546-6555页，2018年。二、五[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。2014. 2[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。3[16] J. 胡，W.郑湖，澳-地妈，G.Wang，J.Lai和J.张某通过软回归进行早期行动预测。 IEEE Transactions onPattern Analysis and Machine Intelligence，第1一二三四五六七八[17] 胡建方，郑伟世，赖建煌，张建国。联合学习rgb-d活动识别的异构特征。 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 39 （ 11 ）： 2186-2200，2017。二、四、六[18] 胡

下载后可阅读完整内容，剩余1页未读，立即下载