持续学习的动作识别方法Else-Net及其应用

83 浏览量更新于2023-10-14 收藏 743KB PDF 举报

动作识别

持续学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13434Else-Net：基于骨架数据Tianjiao Li1Qiuhong Ke2Hossein Rahmani3Rui En Ho1Henghui Ding4Jun Liu1*1新加坡科技与设计大学2墨尔本大学3兰卡斯特大学4南洋理工大学{tianjiao li，ruien ho}@ mymail.sutd.edu.sg，junliu@sutd.edu.sglancaster.ac.uk @qiuhong.ke unimelb.edu.au，ding0093@e.ntu.edu.sg摘要大多数最先进的动作识别方法都集中在离线学习上，其中需要同时提供所有类型动作的样本。在这里，我们解决了动作识别的持续学习，其中随着时间的推移不断学习各种类型的新动作。这个任务是相当具有挑战性的，由于灾难性的for-getting问题，从先前学习的动作和当前的新的动作之间的差异，以学习。因此，我们提出了Else-Net，这是一种新型的弹性语义网络，具有多个学习块，可以随着时间的推移学习各种人类行为。具体来说，我们的Else-Net能够自动搜索和更新最相关的学习块w.r.t.当前的新动作，或者探索新的块以存储新的知识，保留不匹配的块以保留先前学习的动作的知识，并且减轻学习新动作时的遗忘此外，即使不同的人的动作可能在很大程度上作为一个整体，他们的局部身体部位仍然可以共享许多同质的特征。受此启发，我们提出的Else-Net挖掘来自不同动作的分解人体部位的共享实验结果表明，该方法能够有效地识别连续动作，并在两个大规模动作识别数据集上取得了良好的1. 介绍基于骨架的人类动作识别由于其研究意义[5，32，29]和与广泛应用的相关性，近年来已经引起越来越多的关注，例如，人机交互、自动驾驶车辆和安全监控[34，6]。大部分现有工程[7，30，38，20，13，17，26]主要*通讯作者。专注于使用离线学习策略来训练动作识别模型，即，当训练固定结构模型时，需要立即提供所有训练动作序列。然而，在现实世界中操作的识别模型可能暴露于新信息的连续流，即，新的看不见的动作可能不断地进来。例如，在现实世界的人机交互场景中，机器人在开放集下操作，并且总是可以遇到新的人类交互。给定看不见的人类交互，在所有先前观察到的交互上重新训练机器人会阻碍机器人进行有效的学习并提供及时的响应。在这种情况下，识别模型必须从非平稳数据分布中学习然而，由于灾难性遗忘问题[23]，在非平稳条件下对人类动作识别的持续学习是具有挑战性的，灾难性遗忘问题是指识别模型在学习新的看不见的动作时忘记先前学习的知识的趋势另一方面，人类具有非凡的能力，能够在其一生中不断地从外部环境和其历史经验中学习，而没有灾难性的遗忘问题，即，他们善于不断地获取和积累新的知识和技能。这是因为人类大脑可以通过搜索和巩固多个新皮层区域中最相关的记忆来学习新知识，或者通过激活新的新皮层区域来建立新的记忆[9，22]。通过这种方式，人类的大脑可以将新知识转化为长期记忆，以避免遗忘。此外，在学习每一个新知识时，人类不需要用所有的历史信息来重新训练，以避免忘记旧知识。在本文中，我们的目标是研究一个大脑启发的模型，可以接近人类智能的连续人类动作识别，即，该模型需要有效地从随时间推移的动作中积累新知识13435同时保留先前学习的知识。更具体地说，我们提出了一种新的弹性语义网络（Else-Net），由多层弹性单元。每个弹性单元包括存储来自不同人类动作的多样化知识的若干学习块，其中切换块用于选择最相关的块。与现有的离线学习方法[7，37]不同，它在学习过程中更新固定结构网络的参数，我们的Else-Net具有动态灵活地搜索和激活每个弹性单元中最相关的学习块的能力它还可以在给定当前输入信息的情况下探索新的学习块以存储新的知识。在选定的学习块的条件下，我们的Else-Net构建了一条最适合当前新人类行为的路径由于我们选择了与新动作最相关的学习块进行参数更新，因此我们的网络能够非常有效地学习新传入的动作。同时，由于未选择（不相关）块的参数被冻结，因此我们的模型同时也保留了先前学习的动作的知识。然而，可能难以在整体水平上为新传入的人类动作找到匹配的相关路径，因为看不见的人类动作可能与先前学习的动作整体上显著不同。无论整体人体，我们观察到，当前的新动作可以共享同质的功能与以前学到的动作在分解的语义身体部分的水平，这有利于搜索相关的块。受此启发，我们通过为分解的多个身体部位设计具有多个语义分支的Else-Net来利用同质性，其中每个语义分支由几层弹性单元组成。因此，我们的网络搜索和激活的最佳匹配的路径为每个语义体部分分别。2. 相关工作持续学习。持续学习旨在不断地学习新的技能，以接近人类智能在真实世界场景中的学习过程，是近年来新兴而有前景的重要研究方向。[8、21、28、2、1、4、41、25]。大多数现有的持续学习方法都集中在图像或对象识别上。海耶斯等人[4]提出了利用压缩表示而不是原始输入样本来有效地重放。Lopez-Paz等人 [21]引入梯度情景记忆来学习时间连续的数据，以减轻遗忘，并使知识受益于过去的任务。Pham等人。 [25]提出了一种上下文转换网络来模拟持续学习的特定任务特征。与这些工作不同，我们的目标是实现人类动作识别的持续学习有效处理在本课题中，考虑到人体动作的语义和人体结构，我们设计了一种新的Else-Net，它可以自动搜索和更新与每个语义身体部分最相关的学习块的参数，同时冻结每个身体部分的不相关块的参数。这使得能够有效地学习新动作，同时保留先前学习的动作的记忆。基于骨架的人体动作识别。各种基于骨架的动作识别方法[5，29，13，17，18，19，20、18、19、30、42、15、27、31、39、14]。Zhu等人 [42]提出了一种深度网络来识别人类活动，使用正则化方案来感知身体关节之间的共同出现。Ke等人。[7]利用2D卷积神经网络（CNN）从3D骨架数据中提取特征。Yan等人 [37]提出通过时空图卷积网络（ST-GCN）从骨架数据学习空间和时间信息在这里，我们解决了骨架数据中的连续动作识别问题，其中网络需要随着时间的推移有效且连续地学习新类型的动作而不会忘记。一个灵活的Else-Net与动态路径搜索和学习的目的是处理这个问题。动态网络体系结构。我们的网络也与动态网络设计相关[33，36，3，40，24]。Wang等人。[33]设计了一个动态网络，称为SkipNet，它通过基于输入数据选择或跳过卷积层来自适应地调整网络架构。 Wu等人。[35]提出了一种从粗到细的框架，自动调整和选择合适的网络结构，用于从输入数据中提取特征，从而在计算成本和准确性之间实现了良好的权衡Yang等人。[40]介绍了一种具有动态宽度和分辨率设计的动态卷积网络，以处理各种计算约束。不同的是，我们设计了一种新的Else-Net，根据身体结构和每种新动作类型动态选择最佳路径（网络块），以实现更好的连续动作识别。3. 弹性语义网络我们提出了一种新的弹性语义网络（Else- Net），用于不断学习动作识别，其中新的动作需要随着时间的推移不断学习。所提出的Else-Net能够有效地学习新的人类行为，并减轻先前学习的行为的灾难性遗忘问题。我们的主要思想是通过搜索和更新最相关的学习块，并探索新的学习块，以纳入新的知识，为新的行动构建最匹配的路径。下面我们将描述13436n····n····i=1i=1i=1--弹性单位1弹性单位n弹性单位N图1.所提出的Else-Net的整体架构的图示。我们的Else-Net由一个基本编码器，一个N个弹性单元的堆栈和一个分类模块组成。每个骨架序列首先被馈送到基本编码器以提取身体特征X。然后，特征通过弹性单元，每个弹性单元由多个学习块和一个开关块组成。弹性单元n中的开关块通过Gumbel Softmax技巧为输入特征xn选择最佳匹配的学习块，以产生独热匹配向量bn= [b1，，bB+1]T.通过在每个弹性单元中选择学习块，我们的Else-Net构建了最相关的路径（由红色箭头指示），即，选择该路径上的块来学习当前的新动作并产生潜在的新特征x’，用于预测当前新动作的标签。注意，仅更新所选择的学习块的参数，而冻结未选择的块。因此，我们的Else-Net也保留了以前学习的人类行为的知识。详细提出了Else-Net3.1. 块搜索和通路构建如图1，所提出的Else-Net包含N个弹性单元的堆叠，其中每个弹性单元n（n ∈{1，…，N}）由若干个学习块组成，并且独热向量bn= [b1，…，bB+1]T，其中最高分数（即，得分1）对应于最佳匹配块。值得一提的是，如果额外的新学习块获得最高匹配分数，则其将被永久地添加到弹性单元。否则，它将被删除。该过程可表述如下：开关块我们将第n个学习块表示为z= f（xn），i∈{1，…，B+1}， ⑴弹性单位为：{fθi，n（·）}Bn，其中 i，n是参数i，nθi，nn的第i个学习块，并且Bn是该弹性单元中的学习块的数量。这些学习块包含从先前学习的动作获得的多样化的先验知识由门控模块g和Gumbel Softmax组成的开关块负责根据第n个弹性单元的输入特征（xn考虑到可能会有新的知识bn= Gumbel Softmax（g（z1，n）;g（z2，n）;…;g（zBn+1，n））.（二）注意，如果第η个弹性单元的输入特征（Xη）与第i个学习块最佳匹配，则输出值g（zi，η）预期高于其他块。这是因为学习块中的卷积运算能够捕获当前输入特征xn和对应的学习当前不可见的动作要学习，一个额外的新的块fθi，n（·），即，xn和fθ越相关i，n（·）是，学习块fθBn+1，n（·）（表示为绿色块输出值g（fθ）越高i，n （xn））。然后在在图1中，将第n个弹性单元（图1中的第n个弹性单元）临时附加到第n个弹性单元内的现有块，作为用于存储新知识的候选学习块。更具体地，第n个弹性单元的输入特征xn被馈送到该弹性单元Gumbel Softmax技巧，具有最高输出值的学习块获得等于1的匹配分数该块根据输入特征x n被因此，来自该最佳匹配块的编码特征（zi，n）被用作第n个匹配块的输出单元，即，{fθi，n（·）}Bn+1，以产生对应的弹性单位通过选择最相关的学习块潜在特征：z i，nBn+1。如图1，然后使编码的潜在特征通过选通模块g，随后通过Gumbel Softmax以产生在每个弹性单元内对当前输入特征进行编码，我们的Else-Net可以利用当前输入特征和先前学习的知识b bb  Xnz3，nXGumbelSoftmaxGumbelSoftmaxGumbelSoftmaxGGG存储器块存储器块存储器块存储器块存储器块存储器块存储器块存储器块存储器块存储器块存储器块存储器块基本编码器分类模块13437联系我们j=1联系我们j=1j=1------存储在所选择的学习块中，以实现当前新动作的有效学习。此外，利用Gumbel Softmax来生成独热匹配向量还确保仅更新最相关的学习块的参数，而存储从其他动作学习的不相关知识的未选择的学习块的参数被冻结。这种选择性更新方案使我们的Else-Net能够尽可能多地保留先前学习的动作的知识，并减轻灾难性遗忘问题。选择性更新可以公式化如下：θi，n←θi，n−αθi，n[−bi，n·yklogyk]，（3）其中i1，…是第η个弹性单元中的第i个学习块的参数，yk和y（k）表示第k个新传入动作样本的地面实况标签和预测标签，对于第k个样本，第n个弹性单元内的第i个学习块的最佳匹配学习块为1，其他为0），α是学习率。注意，我们的Else-Net包含N个弹性单元（N个级别）。在这种多级结构中，不同的人类动作可以在不同的级别共享公共学习块，而不是穷尽地向每个弹性单元添加额外的块。如上所述，每个弹性单元能够选择其中最相关的学习块。其输入特性。因此，通过连接N个弹性单元的所有所选择的相关学习块，构建了最佳匹配当前输入特征Xi的有希望的更具体地说，图中的红色箭头。1示出了利用x和先前学习的知识之间的同质性的最佳匹配语义路径，即，x顺序地流过最相关的学习块（如红色框所示），以挖掘同质特征并产生潜在语义特征x′。因此，我们的Else-Net能够通过利用和加强最相关的块和先验知识来非常有效地学习新传入的动作，同时很好地保留存储在未选择的不相关块中的知识。3.2. 身体部位分支的路径构建尽管在Sec. 3.1动态地构造和更新最佳匹配的路径。在给定完整骨架的情况下，选择最佳匹配新传入动作的最佳路径仍然相当具有挑战性。这是因为新动作作为整体可能与先前学习的动作显著不同然而，这些动作仍然可以在分解的身体部位级别上共享一些同质知识。受此启发，所提出的Else-Net被进一步设计为能够在分解的身体部位级别挖掘和加强共享知识，即，实现有效左腿支图2. Else-Net的插图，其中包含分解的五个局部身体部位的五个分支。为了更好地利用同质特征，我们将整个身体分为五个局部部分。具体地，当前新输入骨架被馈送到基本编码器以提取身体特征X。给定全身特征x，我们将其划分为五个部分特征，然后将每个部分特征馈送到相应的分支进行特征学习。然后将编码的潜在部分特征连接成用于动作分类的整体全局特征（x’）。通过利用针对每个身体部位的先前学习的知识来学习新动作。具体地，我们将输入身体特征X划分为五个语义身体部位特征，如图1所示。二、分解的语义身体部位特征然后被馈送到对应的身体部位分支，即，左臂、左腿、躯干、右腿和右臂。这五个分支（没有参数共享）具有相同的架构，并且每个分支包含用于处理每个身体部位的特征的N个弹性单元。如在第二节介绍。3.1中，我们的Else-Net动态搜索并构造最匹配当前输入特征的因此，通过继承，每个身体部位分支能够针对每个对应身体部位的输入特征在每个弹性单元中搜索最佳匹配的学习块。由此，每个身体部分分支构造关于.当前输入语义部分的特征为Xpj（j∈ {1，…，5}），并产生信息性潜在特征x′pj（j1、…（五）。我们利用五个最佳有效学习输入语义特征的途径（xpj5）分别。最后，我们可以通过连接学习到的特征来获得强大的整体身体特征（x′x′pj五个并且在减轻灾难性遗忘问题的同时实现对当前新动作的有效学习。3.3. 训练和测试训练在之前的持续学习设置[4，21]之后，我们一次又一次地学习新的人类行为，xp1xp1右臂支Xxp2xp2X左臂支p3p3xp4xp4xp5p5基本编码器分类模块13438E∈Rj=1}×个·--图3.分解的五个局部身体部位的图示（即，躯干、左/右手和左/右腿）。也就是说，每个新的人的动作被认为是一个新的任务，在不断的学习设置。为了训练我们的Else-Net，我们通过最小化分类损失（分类交叉熵）来更新参数。优化我们的Else-线性层和双曲正切激活函数来归一化输出值。我们的Else-Net包含三层弹性单元（N= 3）。每个弹性单元初始化有三个学习块，并且学习块的数量可以在持续学习期间动态地增加。身体特征分解。如上所述，MS-G3 D [20]被用作我们的基本编码器来提取人体骨骼特征xC×V，其中C表示每个骨骼关节的特征大小，V是骨骼关节的总数注意，V骨架关节在空间上对应于V维提取的身体特征。因此，如图3，我们可以沿着空间维度将整个身体特征X划分为五个分解的语义身体部分特征Xp，j，5。分类模块。分类模块由两个完全连接的层组成。潜在语义Net包括两个阶段：外优化与内优化优化. 外部优化修复所有的参数车身部位特征{x′pi5i=1 由五个语义学习块，同时更新弹性单元中的开关块的参数内部优化在更新所选择的学习块的参数的同时固定具体来说，当学习每个新动作时，我们首先应用外部优化，然后应用内部优化。优化过程可以用公式表示如下：外部： θg←θg−αθg[−yklogyk]（4）内部：θm←θm−αθm[−b·yklogyk]其中θm和θg分别表示学习块和门控模块的参数，b表示学习块的匹配分数，并且yk和yk表示第k个新传入动作样本的基础事实标签和预测标签。试验. 在推理阶段，输入的人的动作首先馈送到基本编码器，以提取不同的语义身体部位特征。然后，给定分解的身体部位特征，每个语义路径自动搜索最相关的学习块，以挖掘当前新特征和先前学习的最后，将编码的身体部位特征结合并通过分类模块以获得用于动作分类的全局特征。3.4. 实现细节网络架构。考虑到通过解开多尺度聚合方案以捕获强大的骨架特征来表示人类骨架数据的强大能力，我们利用MS-G3 D [20]作为我们的基本编码器。每个学习块fθi，n（）由具有11个内核的卷积层和ReLU激活组成。注意，学习块保持输入特征的形状。开关块中的门控模块g（·）包括路径首先被连接，然后被馈送到这些完全连接的层以预测动作标签。情节记忆。在持续学习设置[4，25，21]之后，我们使用一个小的情景记忆存储一小部分观察到的数据（10%）用于重放。当新的人类行为被馈送到网络时，它们被同时用来对于每个训练迭代，情景记忆中的两个随机动作样本用于在学习新的人类动作时重放。4. 实验我们在两个大规模的基于3D骨架的人类动作识别数据集上评估了所提出的Else-Net：NTU RGB+D数据集[29]和PKU-MMD数据集[16]。实验在Nvidia RTX 3090图形卡上进行初始学习率α被设置为10−3。在持续学习设置[4，21]之后，新的人类行为被划分为多个任务。每次，仅使用一个任务来训练识别模型5次迭代，并且该任务将不会再次呈现给模型，即，顺序地学习多个任务，并且除了存储在小的情景存储器中的任务之外，每个任务通常仅观察一次。根据[4]中的设置，其中一些类别是连续学习的，而其他类别用于预训练以提供模型的先验知识，对于所有连续学习设置，我们连续学习10个新的不可见类别，而其他类别用于预训练。对于离线学习设置，我们遵循MS-G3 D [20]并在所有动作样本上训练50个epoch。4.1. 数据集NTU RGB+D[29]是一个大规模的动作识别数据集，广泛用于3D骨架动作识别。13439ΣΣ不{ΣNTU RGB+D数据集包含60个动作类和56，880个视频。请注意，该数据集包含40个人类主体和多样化的人类动作，因此当模型不断学习新的人类动作时，很可能会导致忘记旧的动作。NTU RGB+D数据集提供了两种标准评估协议，即交叉视图（CV）和交叉主题（CS）。在CS方案中在CV方案中，从2个视点捕获的序列用于训练，并且剩余序列用于测试。PKU-MMD数据集[16]是一个大型3D骨架数据集，提供51个动作类和1，076个未修剪的视频，包含由66个不同主体执行的21，545个标记动作实例。PKU-MMD的评估方案类似于NTU RGB+D的评估方案，即，交叉视图（CV）协议，其中2个视点用于训练，剩余视点用于测试;以及交叉主题（CS）协议，其中57个主题的动作视频用于训练，剩余视频用于测试。4.2. 评价标准为了评估所提出的Else-Net在有效学习新动作和减轻灾难性遗忘方面的能力，我们遵循[25]中介绍的用于持续学习性能评估的指标。这些指标包括平均准确度（ ACC ）、遗忘准确度（ FM ）和学习准确度（LA）。假设我们的模型旨在顺序地学习总共T个动作类，并且at，q表示在动作类t上训练模型之后对动作类q的识别准确率。平均准确度（ACC）被定义为在最后一个动作上训练模型之后所有观察到的动作的平均行动类别T）：不4.3. 关于PKU-MMD的我们将所提出的Else-Net与最先进的持续学习方法[21，4]进行比较，以执行PKU-MMD数据集上的持续动作识别任务。为了确保在持续学习实验中的公平比较，我们固定了传入动作的学习顺序，即，在动作类的相同序列上连续地训练模型。我们还使用所提出的Else-Net来进行离线动作识别（即，所有动作可以一次访问），并与用于离线学习的基于骨架的动作识别的最新方法进行比较。结果示于表1中。持续学习的结果与现有的持续学习方法相比，我们的Else-Net在跨学科和跨视图评估协议的所有指标上都实现了最佳性能[4，21]。显著的改进表明，所提出的Else-Net可以利用当前新动作和先前学习的人类动作之间的同质特征，有效地学习新知识并保留过去的知识。在连续学习设置之后，其中一些类别被顺序地学习，而其他类别被用于预训练，我们顺序地学习10个类别，并且其他类别被用于预训练。在测试阶段，所有的类别被用来评估我们的模型。值得一提的是，与现有的持续学习方法（如GEM[21]和Re- mind [4]）相比，我们的Else-Net在FM上实现了显着改进（越低越好）。这表明，通过选择和更新最相关的学习块，我们的Else- Net保留了过去的知识，从而避免忘记以前的人类行为。此外，如表1所示，我们的Else-Net达到了更高的LA，这表明它能够以持续学习的方式有效地学习新的传入任务这意味着使用块搜索策略构造的最优语义路径能够ACC=1a不q=1T，q（六）挖掘当前输入动作和先前学习的人类动作之间的同质特征，这使得遗忘度量（Forgetting Measure，FM）评估在模型已经被连续训练直到动作类T之后已经遗忘了多少知识。FM越低，模型越不可能忘记先前学习的动作。遗忘度量被公式化为：T−1提出了一个新的模型，以有效地学习新的行动此外，我们还进行了训练我们的脊椎编码器的实验MS-G3 D [20]以持续学习的方式。我们的网络在MS-G3 D上的显著性能改进进一步证明了所提出的块搜索和身体部分路径构建FM=一个T−1q=1Maxat ∈{1，2，…T−1}t，q-aT，q }（7）该方案具有有效学习新的人类行为和减轻灾难性遗忘的能力。学习精度（LA）评估模型在对该动作进行训练之后立即对动作类的识别离线学习的结果。为了进一步评估我们模型的能力，我们在离线学习设置下评估我们的方法，在离线学习设置下，可以一次访问所有动作类别。显示了离线学习的结果表1中所提出的Else-Net实现了LA=1 aTq=1q，q（八）艺术表现优于其他方法。这表明，虽然我们的Else-Net是专门指定用于连续的13440≥表1.PKU-MMD的性能比较（%）我们在持续学习设置下训练的模型优于其他持续学习方法，甚至与离线学习设置下训练的模型相比，取得了有竞争力的此外，在先前基于骨架的动作识别方法所使用的离线学习设置设置方法CVACCFMLAACCFMLA《GEM》[21]65.913.572.861.312.774.3持续提醒[4]71.27.585.175.38.781.3学习MS-G3D [20]65.317.077.268.023.772.7Else-Net84.64.086.887.07.290.8Li等人 [10个国家]90.4--93.7--线下学习HCN [11]RF-动作[12]MS-G3D [20]92.6-92.9-93.1----94.2-94.4-94.9----Else-Net95.3--97.2--表2.NTU RGB+D上的性能比较（%）CS人工学习、块搜索和身体部位路径构建策略也有利于基于离线学习的动作识别。4.4. NTU RGB+D我们在非常具有挑战性的NTU RGB+D数据集上进行了持续学习和离线学习设置的广泛实验，以评估所提出的网络的有效性。为了公平比较，在所有持续学习实验中，动作任务的顺序是固定的。在训练阶段，我们不断学习10个类别，其他类别用于预训练，为模型提供先验知识。在推理过程中，所有类别都用于评估。持续学习的结果。为了评估我们的模型的有效性，我们将所提出的Else-Net与现有的持续学习方法进行了比较。如图所示在表2中，所提出的Else-Net在ACC和LA上的性能大大优于现有方法，这表明为当前输入的人类动作选择最相关的学习块使得模型能够利用新输入的知识和先前学习的知识之间的同质性。此外，与其他方法相比，我们的Else-Net实现了更低的FM这表明，通过更新所选择的相关块的参数，同时冻结未选择的块，我们的Else-Net保留了存储在未选择的学习块中的过去的知识，以减轻遗忘问题。离线学习的结果。如表2所示，我们还将Else-Net与离线学习方法进行了比较与现有的离线学习方法相比，所提出的Else-Net实现了具有竞争力的性能。这进一步证明了我们的Else-Net的能力，该Else-Net被专门设计用于连续动作识别，甚至是在离线学习设置下的动作识别。4.5. 消融研究下面，我们在NTU RGB+D数据集（跨学科协议）上进行了广泛的消融实验，以从不同的角度评估我们提出的Else-Net的有效性。弹性单元数的影响。评价为了研究弹性单元（EU）数量的影响，我们在NTU RGB+D数据集（跨主题协议）上通过在每个语义路径中堆叠不同数量的EU来进行实验。如Tab.所示。3、随着弹性单元数的增加，ACC和LA增大，FM减小。这可以解释为，增加弹性单元的数量使我们的模型在挖掘当前新的人类动作和先前学习的动作之间的同质知识方面具有更多的代表性能力，并实现更好的持续学习性能。我们还观察到，当EU的数量为3时，性能的增加对于所有度量（包括ACC、FM和LA）而言变得微不足道。在选项卡中。与3个弹性单元相比，当Else-Net由4个弹性单元组成时，ACC和LA分别仅增加0.2%和0.1%，而FM仅降低0.1%。这表明，三个弹性单元可以有资格学习足够的代表性特征，以有效地学习新的人类动作并避免忘记过去学习的动作。表3.每个分支中不同数量的弹性单元（EU）的性能比较（%）。Num.超声内镜ACCFMLA180.27.784.0283.26.386.6384.45.187.6484.65.087.7身体部位分支的影响。为了评估采用分解的身体部位分支来利用同质特征的效率，我们比较了图1中所示的方法。2与图中所示的方法。1，其中全身特征被用作输入特征，而不是分解成语义部分特征。具体地，我们使用单个分支进行全身特征学习，即，“Else-Net w/o Part Branches”为了进行公平的比较，我们使用单个身体分支初始化模型，并使用具有相同数量的学习块的五个身体部分分支初始化模型。表5中的实验结果表明，当身体部位分支被单个全身分支替换时，识别性能下降并且遗忘度量FM增加。这是因为目前的新行动可能存在重大出入设置方法CVACC FMLAACC FMLA《GEM》[21]55.3 15.172.154.5 11.564.7持续提醒[4]56.0 9.566.559.8 9.468.9学习MS-G3D [20]46.3 25.456.454.5 23.158.5Else-Net84.4 5.187.687.9 8.089.3ST-GCN [37]81.5--88.3--线下2s-AGCN88.5--95.1--学习MS-G3D [20]91.5--96.2--Else-Net91.6--96.4--13441N表4.当模型被训练到最终任务时，学习块数量的增长率（GR）方法GRACCFMLAElse-Net（不含零件分支）1070%83.07.486.0Else-Net百分之六十八84.45.187.6和以前学过的动作。因此，用于整个人体的单分支网络在利用动作之间的同质性以通过利用其他动作的先验知识来有效学习新动作方面受到限制。相反，不同的身体部位分支能够通过分别利用来自不同局部身体部位的语义同质特征来促进当前新人类动作的学习，其中与先前学习的人类动作的共享同质性更可能被观察到，这可以被利用来有效地学习新动作。此外，与用于处理整个身体的单分支网络相比，我们的身体部分分支具有较低的生长速率（GR），如表4所示。具体地，增长率被计算为Δ，其中Δ表示学习块的增加的数量（即，添加的新学习块的数量），并且N表示在模型开始学习第一任务之前的初始学习块的数量。如表4所示，单分支模型的增长率比我们的Else-Net大十倍以上，这意味着当新任务进入时，单分支模型倾向于更详尽地探索全新的学习块，而不是搜索具有从先前动作学习的同质知识的相关块。然而，我们的Else-Net能够更好地利用以前学习的学习块，同时适度地探索新的块，因此它能够通过动态搜索和更新最相关的学习块来有效地学习新传入的人类动作并保留来自以前的人类动作的过去知识，从而实现良好的识别性能。块搜索的影响。我们进行实验，以评估块搜索和路径建设的影响。对于不同的Else-Net变体，我们利用相同数量的预定义学习块作为初始学习块的数量。代替选择每个弹性单元中最相关的块，由弹性单元中的所有学习块产生的所有潜在特征被连接并发送到全连接层中以融合来自所有学习块的信息。然后，将融合的特征顺序地馈送到下一个学习块。该设置（“Else-Netw/o Block Searching”）的实验结果我们分析，与我们的Else-Net相比，此设置（不使用块搜索）的性能差异可能来自两个方面：1）通过将所有编码的潜在特征连接在一起，表5.NTU RGB+D（CS）上的消融研究（%）方法ACCFMLAElse-Net w/o块搜索76.417.583.5Else-Net w/o选择性更新77.313.484.2Else-Net（不含零件分支）83.07.486.0Else-Net84.45.187.6来自不同学习块的领域知识是混合的。因此，不需要的无关噪声可能损害识别性能; 2）由于所有的学习块都被使用和更新，存储在学习块中的过去的知识可能被覆盖，导致遗忘问题。相反，我们的Else-Net根据当前输入动作动态搜索和更新最相关的块，以实现有效的学习，同时通过冻结不相关的块来保留过去的知识。选择性更新的影响。为了评估所选学习块的选择性更新的功效，我们在开关块中用Softmax函数替换Gumbel Softmax函数，并将此变体在这种情况下，所有块的匹配分数都是非零的，即，弹性单元中的所有学习块被更新为w.r. t。当前输入功能。如表5所示，当我们采用“Else-Net w/o Selective Updating”的变体时，性能下降我们分析，更新所有的学习块的参数干扰过去的知识，从以前学到的人类行动。当模型学习新的人类动作时，这也会引入不相关的噪声，导致性能下降。5. 结论在本文中，我们提出了一个大脑启发的弹性语义网络，即Else-Net，连续的人类动作识别。所提出的Else-Net能够动态地搜索关于最相关的学习块并利用当前新动作和先前学习的人类动作之间的同质特征来实现当前新人类动作的有效学习。此外，我们的Else-Net能够选择性地更新最相关的学习块的参数，同时冻结未选择的学习块以保留先前学习的知识，以减轻灾难性的遗忘问题。在所选择的相关学习块上进一步构建最优语义路径，以挖掘每个分解的局部身体部位上的同质性通过这样的块搜索和身体部分路径构建过程，所提出的Else-Net在学习新的人类动作和保存来自先前学习的人类动作的旧知识方面显示出极大的功效。致谢本工作得到 AISG-100 E-2020-065、 SUTD项目PIE-SGP-Al 2020 -02、SRG-ISTD-2020-153和TAILOR项目由欧盟地平线2020计划资助，GA编号952215。13442引用[1] Rahaf Aljundi 、 Lucas Caccia 、 Eugene Belilovsky 、Massimo Caccia 、 Min Lin 、 Laurent Charlin 和 TinneTuytelaars。在线持续学习与最大干扰检索。arXiv预印本arXiv：1908.04742，2019。二个[2] Arslan Chaudhry，Marc有效的终身学习与一个宝石。arXiv预印本arXiv：1812.00420，2018。二个[3] 克里斯托瓦尔·埃萨吉雷和阿尔瓦罗·索托。视觉推理的可微自适应计算时间在IEEE/CVF计算机视觉和模式识别会议论文集，第12817-12825页二个[4] Tyler L Hayes、Kushal Kafle、Robik Shrestha、ManojAcharya和Christopher Kanan。提醒你的神经网络防止灾难性的遗忘。欧洲计算机视觉会议，第466-483页。Springer，2020年。二四五六七[5] 胡建方，郑伟世，赖建煌，张建国。联合学习rgb-d活动识别的异构特征。在IEEE计算机视觉和模式识别会议论文集，第5344- 5352页，2015年。一、二[6] 胡建芳，郑伟世，马连阳，王刚，赖建煌。软回归法实时预测rgb-d活性。欧洲计算机视觉会议，第280-296页。施普林格，2016年。一个[7] QiuhongKe ， MohammedBennamoun ， HosseinRahmani ， Senjian An ， Ferdous Sohel ， and FaridBoussaid.用于基于骨架的动作预测的学习潜在全局网络。IEEE Transactions on Image Processing，29：959一、二[8] James Kirkpatrick，Razvan Pascanu，Neil Rabinowitz，Joel Veness ， Guillaume Desjardins ， Andrei A Rusu ，Kieran Milan，John Quan，Tiago Ramalho，AgnieszkaGrabska- Barwinska，et al.克服神经网络中的灾难性遗忘。美国国家科学院院刊，114（13）：3521-3526，2017。二个[9] 达山·库马兰，德米斯·哈萨比斯，詹姆斯·L·麦克莱兰.智能代理需要什么样的学习系统？补充学习系统理论更新。Trends in cognitive sciences，20（7）：512-534，2016. 一个[10] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。2017年IEEE多媒体博览会研讨会国际会议（ICMEW），第597-600页。IEEE，2017年。七个[11] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.从骨架数据中学习共现特征用于分层聚合的动作识别和检测。arXiv预印本arXiv：1804.06055，2018。七个[12] Tianhong Li ， Lijie Fan ， Mingmin Zhao ， YingchengLiu，and Dina Katabi.使不可见的变为可见的：通过墙壁和遮挡进行动作识别。在IEEE/CVF计算机视觉国际会议论文集，第872-881页，2019年。七个[13] 李天骄，刘军，张伟，段凌玉。硬网：用于3D早期AC的活性预测欧洲计算机视觉会议（ECCV），2020年。一、二[14] Tianjiao Li，Jun Liu，Wei Zhang，Yun Ni，WenqianWang，and Zhiheng Li. Uav-human：一个大型的无人机人类行为理解基准。在IEEE/CVF计算机视觉和模式识别会议论文集，第16266-16275页，2021年。2[15] Wenbo Li，Longyin Wen，Ming-Ching Chang，Ser NamLim，and Siwei Lyu.自适应rnn树用于大规模人体动作识别。在IEEE计算机视觉国际会议论文集，第1444-1452页二个[16] Chunhui Liu，Yueyu Hu，Yanghao Li，Sijie Song，andJiaying Liu.Pku-mmd：用于连续多模态人类动作理解的大规模基准。arXiv预印本arXiv：1703.07475，2017。五、六[17] Jun Liu，Amir Shahroudy，Mauricio Lisboa Perez，GangWang ， Ling-Yu Duan ， and Alex

下载后可阅读完整内容，剩余1页未读，立即下载