自适应局部感知图卷积网络在骨架动作识别中的应用

4 浏览量更新于2023-10-15 收藏 902KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6038自适应局部感知图卷积网络在单次骨架动作识别中的应用朱安琪1，柯秋红3，龚明明2，詹姆斯贝利11墨尔本大学计算与信息系统学院2墨尔本大学数学与统计学院3莫纳什大学数据科学AI系azzh1@student.unimelb.edu.au，qiuhong.ke @ monash.edu，{mingming.gong，baileyj}@wwwunimelb.edu.au摘要基于骨架的动作识别越来越受到人们的关注，因为骨架序列通过消除与动作无关的视觉信息来减少训练的复杂性。为了进一步提高样本效率，开发了基于元学习的一次性学习解决方案，用于基于动作的动作识别。这些方法根据实例级全局嵌入之间的相似性寻找最近邻进行然而，这种测量由于对平均局部不变性和噪声特征的不对等的广义学习而保持不稳定的代表性，而直观地，稳定和细粒度的识别依赖于确定关键的局部身体运动。为了解决这一限制，我们提出了自适应局部组件感知图卷积网络，它取代了比较度量与动作关键的空间/时间段对齐的本地嵌入的相似性测量的集中的总和在NTU-RGB +D 120公共基准上的综合性单次实验表明，我们的方法提供了比全局嵌入更强的表示，并帮助我们的模型达到最先进的水平。1. 介绍动作识别是计算机视觉问题之一，对于实现诸如自动监控系统[31]、视频检索[7]等现代应用具有实际重要性。过去的研究主要集中在基于RGB的输入，由于其广泛的可访问性。然而，基于像素的输入具有信息过度丰富的高风险，使得模型很容易被与任务无关的背景，亮度和颜色变化所混淆[28]。3-D骨架序列成为强输入替代方案之一[24]，因为它仅记录沿时间演变的3-D身体关节运动[3，13，26]。图1. NTU-RGB+D 120 [13]中“戴上帽子”（i）和“用东西打另一个人”（ii）的框架示例为了快速适应有效的识别，我们希望模型优先考虑绿色块中运动的相似性判别，并抑制红色块中的噪声特征。使用深度学习模型和大量带注释的训练样本，现有的基于机器学习的解决方案为预先已知的活动实现了高度准确的分类。但将预测扩展到国外课堂的研究还处于起步阶段。少样本学习（ few-shot learning ，FSL）是一个研究热点，如何利用稀疏的直接监督样本实现对新类的快速自适应特别是，这种情况被称为一个一次性学习（OSL）的问题时，只有一个例子可用于每个新的类。这些解决方案可以有效地帮助模型克服对数据密集型训练的依赖，并实现一次性/罕见情况下的学习，这通常更适合现实世界的场景[36]。在当前基于骨架的OSL解决方案中，早期研究首先将骨架序列转换为信号图像以作为统一的基于图像的分类来解决[19，20]。但这种变换使原始骨骼结构变形，从而导致相邻人体关节之间的空间连接信息丢失一种更好的方法是让模型通过比较基于本机的主干的输入嵌入的相似性来实现基于度量的OSL。[13，25]中的解决方案分别实现了不同的实现，但6039但是它们的结果仍然不如基于信号的解决方案。在它们的分类过程中，编码的特征被平均地汇集以生成单个全局嵌入作为用于相似性比较的输入通过足够的监督训练，这种表示可以在全局范围内为潜在的动作不变特征积累足够的区别学习。然而，对于来自少量新类别的稀疏示例，其全局嵌入的一般性可以容易地被局部特征所偏置，并且不能鲁棒地集中于用于精细识别的必要的不变特征。另一方面，我们观察到基于身体部位的分区或连续时间段下的特定局部特征直观地分离有效/无效识别线索的关键/不相关模式。如图1，虽然在所有身体关节和框架上概括绝对全局模式是困难的，但是对绿框中的模式的对齐辨别的线性组合应该有助于快速确定良好的识别。同样，红框中的模式显然与动作无关，对其嵌入的测量成为学习噪声，应该直接抑制以减少表征偏差。在本文中，我们提出了自适应局部组件感知图卷积网络（ALCA-GCN）作为第一个基于度量的方法，依赖于局部嵌入距离作为主要的决定因素，为一杆基于动作识别。它将实例级相似性比较分解为每个时间段下每个身体部位的局部测量值的选择性总和。为了实现这一点，我们从一个编码骨干，提取分层的时空特征的身体部分级别的模式和carton-level上下文。然后，我们的嵌入函数对编码特征执行平均池化，从而为每个分段局部分量生成独立的比较单元表示。当计算总相似度时，我们的模型顺序地聚合给定支持和查询输入之间的每个对齐单元的嵌入距离，并对来自动作关键/噪声单元的决策影响应用自适应强调/抑制。我们在NTU-RGB+D 120[13]上评估我们的解决方案，并使用官方OSL测试协议与所有以前的相关论文[13，19，20，25]进行比较。实验结果表明，该模型具有较好的性能。具体而言，我们的贡献是：• 我们提出了ALCA-GCN作为一种新的基于度量的OSL解决方案，基于动作识别。它将动作建模为空间（身体部位）和时间维度（平均时间部分）上的局部可比单位矩阵。• ALCA-GCN通过选择性的嵌入和来确定两个骨架序列之间的总相似性，丁所有对齐的比较单元之间的距离。• 在相似性聚合期间，ALCA-GCN自学习针对来自动作关键/不相关单元的比较重要性的强调/抑制。在使用NTU-RGB+D 120的广泛的一次性学习实验设置下，该模型呈现出比现有技术更好的结果。2. 相关工作2.1. 基于RGB的图像/视频FSL作为FSL的主要实验基础，已经开发了许多图像分类解决方案，系统地分为基于数据，基于模型和基于元学习的方法[36]。特别是作为元学习方法之一的基于度量的学习，由于其结构简单、组件可扩展性强等优点而备受关注2017年，Snellet al. [27]提出了一个主要的分类框架，该框架在一个广义的公共嵌入空间中，根据查询和类原型之间的最近欧氏距离进行分类。为了使训练特征分布与真正的少数测试任务相一致，Vinyalset al. [34]设计了情景学习策略，通过多任务学习过程训练模型。在训练时期期间，每个子任务模拟来自测试条件的相同N路K激发设置（即，对于N个候选类具有K个参考实例）。基于上述学习框架，进一步设计了各种解决方案来提高每个组件的少镜头生成能力，包括使用外部知识（例如，语义[4]），设计基于局部描述符的相似性匹配[11，39]，将学习能力赋予度量函数[9，21]等。基于RGB视频的动作识别的FSL需要对时间维度进行额外的学习。Tan和Yang [29]首先将其视为图像分类的变体，通过将输入视频压缩为静态动态图像。直到为视频特征量身定制的深度体积提取的突破[8，32]，许多论文[6，37，40，41]才开始采用具有常见FSL框架的新骨干。推广基于视频的嵌入空间的困难来自于样本方差和主干体积的指数增长[33]由于尺寸的扩大。因此，最近的论文开始寻找替代方案，以非参数的方式计算提取的特征的总相似性2021年，本-阿里等。[1]提出了一种基于度量的解决方案，其中查询和生成的类原型之间的相似性通过平均划分的时间段中的特征差异之和来测量。Cao等人[2]应用动态时间- poral Warping（DTW）来有序地聚合每个帧中最接近的嵌入匹配之间的相似性，6040两个视频。虽然这样的局部比较根据子动作顺序在时间上是可分解的，但是基于像素的输入难以为帧的空间局部特征定义有意义的和固定另一方面，表演者2.2. 基于骨架的动作识别近年来，骨架序列的深度特征提取研究得到了稳步发展.考虑到动作识别是一个时间建模问题，早期的解决方案采用了基于RNN/LSTM的提取，通过顺序馈送帧级身体关节数据并根据最后一帧中的累积学习状态进行预测[12，14]。[35]通过根据预定义的遍历路径在身体关节之间建立顺序连接，用另一个并行RNN模型进行精细的空间编码。由于递归网络在空间建模能力上不具竞争力，[5]用CNN取代了编码器，CNN对线性排列的相邻身体关节和帧的特征进行了卷积。2018年，研究表明，身体关节的原生多邻居连接中的动力学依赖性Yan等人[38]提出了一种时空图卷积网络（ST-GCN），它支持基于自适应多邻域采样方案的时空特征卷积。原方案只对人体关节2019年，李等[10]从多跳局部自然连接和基于动作的推理连接的混合关系中提出了更多样化的依赖学习。Parsa等人[22]提出了一种级联金字塔架构，以额外捕获身体部位级别范围内的特征相关性，并对不同粒度的预测进行平均。在我们的工作中，我们还设计了一个分层但并行的卷积，以获得独立的和更丰富的表示局部分区从自己的信息和骨架上下文。2.3. 基于动作识别在现有的解决方案中，该主题首先由Liu等人解决。[13]，他通过ST-LSTM骨干在共享全局嵌入空间上实现了基于欧氏距离的相似性比较[14]。为了弥补泛化能力的不足，该方法引入了外部预训练的关于人体关节名和实例标签之间语义关系的知识。相关性分数重新分配身体关节级特征对全局嵌入的贡献权重，以强调类相关学习。[25]从每个帧的归一化身体关节坐标平均值并将来自上一帧的特征作为实例级相似性比较的表示。[19 20]设计了一个预处理模块，该模块通过将身体关节排成行并将帧排成列来将骨架序列转换为信号图像。为了保持矩阵的一致性，压缩必须将多个人体关节之间的平行相邻关系简化为线性连接，这带来了信息损失。[18]最近证明，最大限度地保留解纠缠的联合级空间特征有利于增加表示的多样性和少数镜头类的可识别性在池化嵌入的聚类一致性和局部编码的信息丰富性之间进行权衡，我们的方法将相似性度量分解为局部分量测量的总和。此外，它自适应地强调对动作关键区域的区分学习，同时消除了由强但与动作无关的局部特征带来的比较多样性和偏见。3. 方法图2呈现了ALCA-GCN的架构。我们的方法遵循基于度量的解决方案的基本框架，包括编码骨干，用于建模的表示矩阵的嵌入器，和基于线性度量的分类器。为了消除视点差异，我们首先将所有输入统一到正面视角（见4.2节）。我们采用ST-GCN [38]网络F作为原型编码骨干，因为它允许在每个身体关节的多个邻居上进行空间特征卷积，遵循预定义的（子）结构。保持其原始的卷积级卷积，我们另外设计了用于身体部分级卷积的独立核矩阵。修改后的F现在捕捉每个关节的周围特征，根据其所属的身体部位和相对的全球关系，在骨架范围。我们使用F从预处理的输入x中获得总特征f，并将其合并为一个基于部分的全局表示Gf，它包含一组局部嵌入gf的4个身体部位（头，手，躯干和腿）下的3个时间段。它们是局部相似性匹配的基本比较单元。为了增强/抑制动作关键/无关组件上的区分学习，在 Gf 之后附加自适应依赖学习（ADL）模块，以自适应地调整每个单元一个平均的全球嵌入也聚集到每个单元作为一个实例级的约束，以im-pose类内聚类的一致性。最后，用给定查询的所有对齐单元与其所属类别支持示例之间的欧几里得距离和进行训练通过用其他高注意力上下文补充其原始嵌入来修正与噪声单元的差异。其余6041HKK∈∈∈×⊙××KKB× × ×我我出来KK在KKΛmn=KJ¯K{|∈ H}{|}KK图2. ALCA-GCN概述。每个输入x首先被预处理为正面观看。编码器F对x应用两种类型的卷积，用于身体部位级别的周围和身体部位级别的上下文特征。然后，嵌入网络部分地池化编码特征f，以在每个骨架的3个时间段下针对R个身体部位生成比较单元gf的嵌入将所有gf连接在一起形成描述x的完整全局表示Gf。ADL模块基于自注意机制突出了动作关键单元的上下文影响，并将实例级约束fglob聚合到每个修改的单元以施加类内聚类。最后，支持样本xs和查询样本xq之间的总相似度由它们的表示G′fq和G′fs上的元素级局部测量确定。进一步描述了每个模型组件的详细信息。（vi，vj）（vi，vj）（vt，vt+1）t （0，T）其中包括每个帧中的所有自然相邻的身体关节对，并且（vt，vt+1）是指时间对connec。我我图3. ALCA-GCN中空间卷积的相邻采样方案。局部感受野覆盖4个基于身体部位的相邻区域上的特征卷积，包括（i）头部，（ii）躯干，(iii)手，（四）腿。四肢对称分组，在相邻帧t和t +1之间的相同的身体关节Vi的位置。通过迭代空间和时间图卷积应用特征提取。空间卷积层包含两组可学习矩阵{W}KS和{E}KS。给定来自先前层或输入层的输入f′∈RC′×T ′×U，对于在每个t′∈T′处的其空间子特征f′n∈RC′×Uf′=KSW（f′×（AE）），（1）11避免偏手性差异。全局感受野（V），[38]在每个关节Ak=Λ−2A<$kΛ−2，（2）.Bi（Amj），如果m=nK3.1. 编码结构我们将输入骨架序列表示为xorigRC×T×U×M，其中M是指表演者的数量，U是指一个表演者的身体关节的数量，T是指帧的数量，C是指身体关节坐标维度的数量（通常为3）。从正面观察预处理中获得调整后的输入xRC×T×U×M，F首先将其编码为M个单独的序列x′RC×T×U，然后在将它们反馈到嵌入网络之前将它们连接起来。在原始的ST-GCN [38]中，x'被表示为{V，E}的图，其中包括来自所有帧的每个身体关节。具体地，V={v|v∈RC}和|V|=U×T。 E由物理和时间连接组成，E=0，否则其中KS= L R是应用卷积的总数。 Wk是具有形状C"C“1 1的第k个卷积矩阵，其中C"是层输出维度。Ek是用于对由Ak过滤的相邻特征重新加权的U U矩阵。是一个点积运算。 Λk是在等式（2）中应用度归一化的A <$k的度矩阵。Ak是一个预先定义的U其中A<$ij表示vj是否属于v i的卷积区域i。ST-GCN将骨架视为单个围绕身体中心关节展开的复杂图形[38]第30段。通过测量到脊柱的距离，它将每个关节的物理邻居分类本身）。为了应用一个内核的解决方案，A r会记录每一个邻居（由它们到身体中心的全局距离、（3）6042∈{|}RI--RRRJ×东凤企业股份有限公司⟨··⟩··F∈联系我们||| ∈ {}}RI|{PVTRIexp（−d（xq，xsp））J东凤企业股份有限公司fsp2.ΣVPΣP关节每个关节的卷积然后从其相应的R个相邻节点中采样，通过与A<$rr的矩阵乘法进行有序滤波R.由于我们的模型侧重于局部子区域（身体部位）下的类级我们的灵感来自于[30]并设计出额外的A¯来过滤身体关节的bor特征来自其所属身体部位下的所有局部连接（见图1）。（3）第三章。F或某个身体部位Pr，Ar过滤器为了获得两个输入之间的相似性度量，我们把每个gPm看作是一个局部比较单元的嵌入，并依次聚合两个对象序列中每个对齐单元之间的欧氏距离。在一次性学习场景中，如果使用情景学习算法[34]，对于每个时期，模型从一批从辅助集中随机采样的子任务中进行Meta训练。每个子任务具有与测试任务一致的相同的N路1激发设置。有一个在-即将到来的训练/测试查询输入xq和一些支持实例（xs1，s1），（xs2，s2），.，（xsP，s P）对于候选类s1，s2，.，s P，xq的分类是相同的vi的卷积面积Bi，通过：egory作为其最相似的支持实例xsmin 根据i到比较度量。换句话说，模型预测Br={vj|d（vi，vj）≤1，vi，vj∈VPr}，（4）x的概率分布属于s类通过：Aij=1、如果vj∈Bi0，否则、（五）Q nexp（−d（x，x））p（y q=s n|xq）= Σqsn、（8）五岛Pr是包含在r中的身体关节的集合。任何两个相邻身体部位之间的边缘关节重叠地包括在两个分区中，因此，局部的所有A<$r采样覆盖了每一个自然骨骼连接。一个温泉-d（xq，xsp）=d<$Gfq，Gfsp<$=3×R×Mgj−g，（九）最终卷积层应用L-内核组，4个身体部分子图和1个全局子图上的卷积因此，将存在总体KS= L 5并行卷积操作，并且每个卷积的权重用其自己的Wk和Ek来学习。对于时间卷积层，给定来自它的前一个空间层，我们仍然是3×1卷积[38]对于所有n=s1，s2，...，s P，模型参数为d（i）是指两个比较实例之间的相似性距离。d是计算它们的全局表示之间的总相似性聚合的实际度量函数，其是每对对齐的比较单元g j之间的欧几里德距离之和J在其时间子特征f′∈RC′×T ′在每个vi∈V。和g. 在训练期间，模型通过Sp在t′′负对数概率损失L=−logp（y=vi的卷积面积是vi在t−1时的子特征ϕϕq列t′+1。最后，F在连接回M个表演者的特征之后输出f=F（x）Rdfeat×Tfeat×U×M。dfeat和Tfeat是每个表演者的每个身体关节在空间和时间维度上的编码大小3.2. 基于零件的全局表示有了f，我们在对应的身体关节和时间维度上应用分段平均池化，以获得在时间部分i处表演者m的每个身体部位r的局部嵌入gPm。除了图中相同的身体部分划分之外3，我们平均分为3个时间段，称为开始，中间和结束阶段。因此：yQ列车xQ列车）从真实类别yQ列车S1列车的预测概率，.，s P列xq列。在测试过程中，具有训练的模型参数n′，满足 pn′ （ yqtest=sp redxqtest ） =maxpn′ （ yqtest=snxqtest）n s1test，.的类s pred，s P检验将成为x q检验的预测类。3.3. 自适应依赖学习（ADL）到目前为止的分类确定的总相似度的嵌入距离从所有比较单元的无偏和。它均衡了来自动作关键/噪声子区域的局部比较的决策影响，这阻碍了正确分类的泛化过程。强调对前者的学习依赖gm=RI1|V Pr||我不是|VPrv我不是fm，（6）不为了避免后者带来的负面学习，我们设计了一个基于自我注意的ADL模块，每个比较单元的实际意义。如图T i={t|t ∈（（i − 1）× Tdiv，i ×Tdiv]}，（7）其中R = 4是表演者的分割身体部分的数量，Tdiv=Tfeat/3是每个节奏部分的长度。然后，所有gPm被连接以生成矩阵Gf作为x的实例级全局表示。其中d（vi，vj）表示vj和Pp=160434 、我们准备了三个参数矩阵，称为值头V ：Rdfeat×Rdfeat，关键头K：Rdemb×Rdfeat和查询头Q：Rdemb×Rdfeat，其中demb是输出嵌入大小。在计算了一个全局表达式的KGf=K·Gf、QGf=Q·Gf和VGf=V·Gf后，6044⊗GFEMBt=1VT图4. ADL模块学习自适应地将每个单元的上下文比较焦点分布在与动作相关的局部嵌入内容上。表示Gf，我们生成归一化注意力分数AGf的矩阵，其捕获Gf中每个单元对每个其他单元的基于动作的上下文依赖性。以分数为权重，比较单元gf′的新内容是其输出的值头的加权和，原始嵌入在gf和每隔一个比较单元中。要将其表示为矩阵级操作：4. 实验与[19]对齐，我们在NTU-RGB +D 120数据集[13]上评估我们的模型，该数据集提供了大规模的动作识别场景。根据其官方协议[13]，数据集被分为100类辅助集和20类评估集，其中类不重叠，评估集中的每个类只有一个参考样本。我们的实验分为两个阶段。一种是基于其一次性测试协议的标准性能检查，检查从全辅助集训练的模型我们将我们的结果与之前所有相关论文的结果进行比较，并分析它们与我们的模型之间的差异其次，我们进行消融研究，以确定由每个模型组件带来的确切学习效果。4.1. 数据集和评价方案NTU-RGB+D 120[13]数据集是一个大型动作识别数据集，包含来自155个不同相机视图中106个受试者的120个动作类的114，480个骨架序列。行动标签的范围从日常/健康相关的个人或相互行动。由Kinect深度传感器获得，每个序列提供真实世界A=exp（（KGf·QGf）/Δemb）、（10）每个骨架的25个身体关节的三维坐标（上Gf3×R×Mj=1exp（（K·Q）/d）2名参加者）。我们的模型首先需要在可用的辅助集上进行训练，以提供通用的G′f=AGfGf+ C.（十一）这里指的是Hadamard乘法。纯局部嵌入表示聚类弱类内样本。因此，我们仍然是全球平均嵌入为任何新出现的动作类提供公共嵌入空间。在测试阶段，我们的模型预测的评估样本，找到他们最近的类参考邻居，根据他们的嵌入表示之间的局部组件为基础的比较。对于一般性能考试，我们使用整个100级辅助-fglob=1TfeatUMfmfrom all body辅助设置来训练模型。对于辅助还原实验，与[13]中的基准对齐，我们应用关节和时间特征维度作为一个简单的实例-水平约束，并通过expan将其添加到每个单元中。Sion矩阵C.我们现在以端到端的方式联合训练注意力矩阵和特征编码器。最终，在为每个单元计算新的嵌入另一方面，对于其原始特征是低关注度的单元（即，噪声）将抑制它们的旧信息，并且更多地被来自它们的相关高注意力单元或全局嵌入的上下文特征修正。最终，这促进了一个有针对性的学习方向，强调决策权重的相似性度量，根据本地和上下文的功能，从行动关键的单位，并抑制的影响，从行动嘈杂的单位。在20、40、60、80和100的范围内对辅助类大小进行可变控制。对于消融研究，我们在不同的辅助尺寸下保持相同的实验设置，但将其应用于我们模型的不同版本，并对每个特定组件进行相应的变量控制。4.2. 实现细节该模型在PyTorch中实现[23]。为了统一序列的时间长度，我们对长于/短于75帧的骨架序列应用平均帧采样/零填充（来自所有原始长度的差异的模式值）。对于前视预处理，我们借用[17]中的算法，并将第一帧中第一个演员具体地说，面计算为从骨架的左髋到其右侧方向的正交GFTfeat×U×Mv=1m=16045× → × →×[16]第16话最后一次见面完全连接[16] 42.1平均池化[15] 42.9APSR [13] 45.3TCN [25] 46.5[20]第二十话[19]第十九话ALCA-GCN（情节）57.6ALCA-GCN（传统）55.0表1. NTU-RGB + D120上的一般单次动作识别结果（%），所有100个辅助类都经过全面训练。臀部和从其中央臀部到脊柱的方向。然后对所有帧中的每个人体关节的三维位置进行垂直旋转，以转换到新视角下的坐标系中。除了卷积采样策略，我们的特征编码器与[38]对齐，由空间和时间卷积层的10个迭代块组成。对于每个空间卷积层，L被设置为1。每个块的输出维度演变为64412832563 .第三章。 ADL中的嵌入维数为256。我们在2个NVIDIA P100 GPU上进行每个实验，最多训练100个epoch并在验证精度在最近10个epoch中没有提高时应用早期停止使用Adam优化器和余弦退火来调度学习速率，初始值为10−3，权重衰减为10−6。在训练过程中，我们主要采用情景学习算法（见第3.2节），其中每个训练使用子任务具有与测试原型相同的20路1次设置作为一个对照实验，我们还尝试在传统风格下训练我们的模型，其中模型通过正常的批量学习进行训练，批量大小为64。对于输入样本的编码特征f，我们对G′f进行全局平均池化，得到一个256维的特征向量，然后将其与SoftMax分类器连接，通过标准的交叉熵损失来训练模型在测试过程中，我们断开了分类器，并使用训练过的编码器，嵌入器和ADL来执行与情景学习相同的基于最近邻的分类。4.3. 结果常规和训练集大小缩减。表1显示了我们的模型表2和图5给出了我们的模型在不同辅助大小下的相应学习效率，与[13，19，20]中的可用结果进行了比较。中的解决方案#培训课程20406080100APSR [13]29.134.839.242.845.3SL-DML [20]36.742.449.046.450.9[19]第十九话28.637.548.648.054.2ALCA-GCN（间歇性）38.746.651.053.757.6ALCA-GCN（传统）45.049.850.450.755.0表2. 1-在NTU-RGB+D 120上使用不同辅助训练集大小的镜头动作识别结果（%）。优于任何辅助条件下的现有解决方案。具体地说，我们通过传统学习训练的模型优于[20]中的先前最先进的模型，对于辅助大小20和40，边际分别为8.3%和7.4%，并且我们通过情景学习训练的模型优于[19，20]，对于辅助大小60，80和100，边际分别为2.0%，5.7%和3.4%。我们发现，传统训练在低辅助支持下为我们的模型提供了更有效的嵌入学习，这可能是因为此时训练已经模拟了与评估任务（20路分类）相似的学习样本分布，并且其更大的训练批次有助于我们的模型更容易摆脱局部最小值并找到最佳参数。另一方面，情景学习通过从逐渐丰富的辅助类进行元学习，观察不同辅助尺寸下的可视化学习进度图。5，我们看到，当辅助大小从40增加到60或60增加到60时，基于全局嵌入的方法[13]和我们的模型在传统训练下的准确率提高速度都降低了。80. 更严重的是，[19，20]当辅助大小从60增加到80时，会面临暂时的学习混乱，准确率下降2.6%和0.6%相比之下，我们的模型在情景学习下表现出稳定的学习增长，当辅助大小为80或100时，100.我们显示更多的性能差异混淆矩阵补充。材料60504030[13，15，16，25]都使用某种全局平均嵌入进行相似性比较，而[19，20]则将骨架序列转换为信号图像。结果表明，无论采用哪种训练策略，我们的模型总是能够执行20 40 60 80 100#培训课程图5. NTU-RGB+D 120上不同辅助训练集大小的可视化单次精度变化APSR [13]SL-DML [20][19]第19话准确度（%）6046消融研究。表3记录了每个模型组件带来的详细学习效果的消融研究结果（在与完整训练相同的配置下使用情景学习）。我们将研究对象分为三类：卷积采样策略、比较单元划分和实例级约束。对于卷积采样，我们通过仅使用原始卷积方案，[38]还是我们的身体部位计划对于比较单元划分，我们考虑了不同相似性度量下的学习效率，包括通过全局平均嵌入（标记为无，因为没有局部划分）、纯空间比较单元（根据身体部位分区划分时间平均特征）或纯时间比较#培训课程20406080100采样策略基于身体部位38.745.645.749.253.4基于骨架37.543.348.749.451.6没有一34.945.846.251.154.3划分策略空间方面31.435.540.440.247.444.250.346.552.950.0约束无ADL38.642.246.648.950.6没有全局约束31.345.847.151.655.1ALCA-GCN38.746.651.053.757.6表3.我们提出的模型中每个组件的NTU-RGB+D 120cal特征。尽管有这些好处，我们的模型的一个局限性是，动作是在视频中以固定的骨架顺序匹配的（即，它假定动作由执行者以恒定顺序执行）。而在实际情况下，一个动作可以由不同的人来执行。全球代表对相关执行者单位（根据时间部分划分身体关节平均特征）。对于实例级约束，该研究考察了当ADL模块或全局嵌入约束从原始ALCA-GCN中移除时的性能下降。结果表明，在任何辅助条件下，全ALCA-GCN都能获得对于空间卷积方案，无论是基于身体部位的邻近采样还是基于身体部位的邻近采样，所收集的视觉特征都为分类提供了相当的区分有效性。完整的ALCA-GCN将它们连接起来，以提供更全面的功能描述，并将辅助功能大小为40、60、80和100。对于仅在空间或时间维度上划分比较单元，也出现类似的情况我们观察到，当辅助大小为40、80和100时，使用全局平均嵌入比使用一维比较单元的预测效果好5.4%、0.8%和1.4%。但在全ALCA-GCN中使用二维比较单元在每种情况下都优于使用全局嵌入，其优势分别为3.8%、0.8%、4.8%、2.6%、3.3%。最后，ADL模块和全局嵌入约束都被验证为我们的相似性度量的积极规定其中，ADL对运动成绩的提高最为明显。除20个辅助班以下的情况外，当辅助规模增长到40、60、80和100类时，它稳定地提供4.4%、4.4%、4.8%和7.0%的增长。在较小的辅助尺寸下，仅具有基于身体部位的空间卷积或不具有ADL的模型可以实现与完整模型相似的学习结果，因为仅20个训练类的嵌入区分相对容易。随着辅助类的丰富和复杂，模型需要发展其广义嵌入能力，对潜在的类特异性运动进行更明确和更精细的模式识别，其中我们的ADL通过过滤与动作相关的损失做出了重要贡献因此不存在这个问题。这就需要进一步研究如何自适应地检测多个参与者之间的动作引用顺序.5. 结论在本文中，我们提出了一种新的基于度量的解决方案，基于单次动作识别。我们的方法将相似性比较分解为包含分层身体部分和时间特征的局部比较单元上的嵌入测量的自适应总和。为了强调/抑制动作相关/噪声单元上的区分学习，我们的ADL模块根据其实例级注意力自适应地调整每个单元的测量影响。我们检查了我们的模型的一般性能和烧蚀研究下，广泛的实验设置。结果证明，我们的模型优于基于全局嵌入和基于信号的方法，提供了一个更具代表性的动作相似性比较。该模型采用情景学习，在原有方法面临通用化瓶颈的情况下，通过元学习，从不断增加的辅助资源中稳定地发展其嵌入能力。我们的解决方案揭示了骨架序列中独特的物理性质可以提供不变的结构意义作为默认的先验知识，以促进少镜头学习。改进我们的方法与自适应行动参考，并将其扩展到更一般化的情况下，如人群活动分析将是未来有趣的方向探索。6. 确认这项研究是利用墨尔本大学的LIEF HPC- GPGPU设施进行的。该设施是在LIEF赠款LE170100200的协助下建立的。MG得到ARC DE 210101624的支持。6047引用[1] Rami Ben-Ari、Mor Shpigel Nacson、Ophir Azulai、UdiBarzelay和Daniel Rotman。TAEN：时间感知嵌入式网络，用于少数镜头动作识别。在IEEE Conf. Comput.目视模式识别Worksh. 第2786- 2794页。计算机视觉基金会/ IEEE，2021。[2] Kaidi Cao ， Jingwei Ji ， Zhangjie Cao ， Chien-YiChang，and Juan Carlos Niebles.通过时间对齐的少镜头视频分类。在IEEE会议Comput. 目视模式识别第10615-10624页。计算机视觉基金会/ IEEE，2020。[3] Chen Chen ， Roozbeh Jafari ， and Nasser Kehtarnavaz.UTD-MHAD：利用深度相机和可穿戴惯性传感器进行人类动作识别的多模式数据集。在IEEE国际Conf. 图像处理。第168-172页IEEE，2015年。[4] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.用于一次性学习的多级语义特征增强 IEEE Trans. 图像处理，28（9）：4594[5] 丁泽伟，王丕超，菲利普O.奥贡博纳，李万庆。基于cnn的三维动作识别中不同骨架特征的研究。在国际会议。多媒体和博览会工作。，第617IEEE计算机学会，2017年。[6] Sai Kumar Dwivedi 、 Vikram Gupta 、 Rahul Mitra 、Shuaib Ahmed和Arjun Jain。Protogan：Towards few shotlearning for action recognition.在国际会议计算中目视Worksh. 第1308-1316页。IEEE，2019。[7] Weiming Hu，Dan Xie，Zhouyu Fu，Wenrong Zeng，and Stephen J.梅班克。基于语义的监控视频检索。IEEE传输图像处理。，16（4）：1168-1181，2007.[8] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE传输模式分析马赫内特尔，35（1）：221[9] Aoxue Li ， Weiran Huang ， Xu Lan ， Jiashi Feng ，Zhengguo Li，and Liwei Wang.用自适应余量损失来增强少次学习。在IEEE Conf. Comput.目视模式识别第12573-12581页。计算机视觉基金会/ IEEE，2020。[10] Maosen Li，Siheng Chen，Xu Chen，Ya Zhang，YafengWang，and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE会议Comput. 目视模式识别第3595计算机视觉基金会/ IEEE，2019。[11] Wenbin Li ， Lei Wang ，Jinglin Xu， Jing Huo，YangGao，and Jiebo Luo.重新审视基于局部描述符的图像到类的测量，用于少量学习。在IEEE Conf. Comput.目视模式识别第7260-7268页计算机视觉基金会/ IEEE，2019。[12] Wenbo Li，Longyin Wen，Ming-Ching Chang，Ser NamLim，and Siwei Lyu.自适应RNN树用于大规模人体动作识别在国际会议计算中目视第1453- 1461页。IEEE计算机学会，2017年。[13] Jun Liu ， Amir Shahroudy ， Mauricio Perez ， GangWang，Ling-Yu Duan，and Alex C.科特NTU RGB+D120：A large-用于3D人类活动理解的尺度基准IEEETrans. 模式分析马赫内特尔，42（10）：2684[14] 刘军，Amir Shahroudy，Dong Xu，Alex C. Kot和GangWang。使用具有信任门的时空LSTM网络进行基于以太网的动作识别IEEE Trans. Pattern Anal.马赫内特尔，40（12）：3007[15] 刘军，Amir Shahroudy，Dong Xu，Alex C. Kot和GangWang。使用具有信任门的时空LSTM网络进行基于以太网的动作识别IEEE Trans. Pattern Anal.马赫内特尔，40（12）：3007[16] Jun Liu ，Gang Wang，Ping Hu，Ling-Yu Duan，andAlex C.科特用于3D动作识别的全局上下文感知注意力LSTM 网络。在IEEE Conf. Comput. 目视模式识别第3671-3680页。IEEE计算机学会，2017年。[17] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化视图不变的人类行动识别。Pattern Recognition，68：346[18] Ning Ma，Hongyi Zhang，Xuhui Li，Sheng Zhou，ZhenZhang，Jun Wen，Haifeng Li，Jingjun Gu，and JiajunBu.学习空间保持的骨架表示用于少数镜头动作识别。https：//zhoushengisnoob.github.io/papers/DASTM.pdf，2022年。[19] Raphae lMemmesheimer，SimonH？ring，NickTheisen，andDietrich Paulus.Eschereton-dml：深度度量学习用于基于统计的一次性动作识别。在IEEE Wint.会议应用程序计算目视第837-845页。IEEE，2022年。[20] Raphael Memmesheimer ， Nick Theisen ， and DietrichPaulus. SL-DML：用于多模态单次动作识别的信号级深度度量学习。在内部会议模式识别中第4573-4580页。IEEE，2020年。[21] 鲍里斯 ·N. Oreshkin ， PauRod r'ıguezLo'pez ， andAlexandreLa-coste.TADAM：

下载后可阅读完整内容，剩余1页未读，立即下载