全局-局部运动Transformer：无监督动作学习

124 浏览量更新于2023-12-01 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于全局-局部运动Transformer的无监督动作学习Boeun Kim1、 2、Hyung Jin Chang3、Jungho Kim2和Jin Young Choi11ASRI，部门欧洲经委会，首尔大学2韩国电子技术研究所3伯明翰大学计算机科学学院抽象的。我们提出了一种新的Transformer模型，用于骨骼运动序列的非监督学习任务。现有的Transformer模型用于无监督的基于机器人的动作学习，从相邻帧中学习每个关节的瞬时速度，而没有全局运动信息。因此，该模型在学习全身运动和时间上远离关节的全局注意力方面存在困难。此外，人与人之间的相互作用没有被考虑在模型中。为了解决全身运动，长距离时间动态和人与人之间的互动的学习，我们设计了全局和局部注意机制，其中，全局身体运动和局部关节运动相互注意。此外，我们建议一种新的预训练策略，多间隔姿势位移预测，在不同的时间范围内学习全局和局部注意力。所提出的模型成功地学习了关节的局部动力学，并从运动序列中捕获了全局上下文。我们的模型优于国家的最先进的模型显着的利润率在代表性的基准。代码可在https://github.com/Boeun-Kim/GL-Transformer上获得。关键词：无监督预训练，动作识别，Transformer1介绍在基于机器学习的动作识别中，为了避免监督学习的昂贵和耗时的注释，最近的研究集中在用于预训练的无监督学习技术上[40，30，18，37，16，25，27，35，31，8]。对于适用于动作识别的非监督预训练，学习整个运动序列的全局上下文以及学习局部关节动力学和拓扑结构是必不可少的。然而，现有的方法在有效地捕获全局上下文和局部联合动态方面存在局限性几种现有的无监督预训练方法利用基于RNN的编码器-解码器模型[40，30，18，37，16，25]。然而，基于RNN的方法在提取全局上下文方面存在困难，因为存在长程依赖性问题[10，6]。其他方法利用对比学习方案[27，35，17]。然而，据报道，这些方法的性能高度依赖于编码器模型的选择，因为对比度损失不会引起关节局部动态的详细学习[35，17]。arXiv：2207.06101v1 [cs.CV] 2022年7+v：mala2255获取更多论文2Kim等人最近，广泛应用于自然语言处理和图像识别的Transformer被应用于基于骨架的动作识别的无监督预训练中第一个也是唯一的模型是H变换器[8]，它学习预测每帧中关节瞬时速度的方向。H-transformer在学习全局注意力方面仍然存在局限性，因为仅预测瞬时速度会导致模型学习局部注意力，而不是全身运动中的全局上下文。此外，H-Transformer不考虑人与人之间的交互，而人与人之间的交互对于对两个或多个人执行的动作进行分类很在本文中，为了解决学习的全局上下文，长程时间动态，和人与人之间的互动，我们提出了一种新的Transformer为基础的预训练模型，这是所谓的GL-Transformer。为此，我们设计了包含全局和局部注意力（GLA）机制的GL-Transformer架构。GLA机制包括空间多头注意（spatial-MHA）和时间多头注意（temporal-MHA）模块。使用分解成全局身体运动和局部关节运动的输入身体运动，空间MHA模块执行三种类型的注意：局部（关节间）、全局（身体）-来自/到局部（关节）和全局（人）-到全局（人）注意。时间-MHA模块对每个人的序列在任意两帧之间执行全局和此外，提出了一种新的预训练策略，以诱导GL-变压器学习全局注意力的长范围序列。对于预训练，我们设计了一种多任务学习策略，称为多区间姿态位移预测（MPDP）。对于MPDP，GL-Transformer使用多个任务进行训练，以同时预测不同时间间隔内的多个姿势位移（每个关节的角度和移动距离）。GL-Transformer从小的间隔学习局部注意力，以及从大的间隔学习全局注意力。为了提高性能，我们在GL-Transformer中添加了两个因子首先，为了学习跨帧的自然关节动力学，我们施加自然速度运动序列，而不是采样到固定长度的序列。接下来介绍一个可训练的时空位置嵌入，并将其重复注入到每个GL-Transformer块中，以使用每个块中的顺序信息，这是运动序列的有价值的信息。我们通过对广泛使用的数据集NTU-60 [28]，NTU-120 [19]和NW-UCLA[34]进行广泛的实验评估来证明我们方法的有效性。在线性评估方案[40]中， GL- Transformer 的性能明显超过 H-Transformer[8] 和其他最先进（SOTA）方法。此外，我们的方法甚至在半监督设置中优于SOTA方法。本研究的主要贡献概述如下：1. 我们设计了一种新的Transformer架构，包括全局和局部注意力（GLA）机制，以模拟局部关节动力学并从多人骨骼运动序列中捕获3.2）。2. 我们介绍了一种新的预训练策略，多间隔位移预测（MPDP），以学习不同时间范围内的注意力（第二节）。3.3）。+v：mala2255获取更多论文全局-局部运动Transformer 33. GL-Transformer在三个代表性基准的广泛实验中更新了最先进的分数：NTU-60，NTU-120和NW-UCLA。2相关作品无监督的基于信标的动作识别。早期的基于神经网络的动作识别的无监督学习方法可以分为两类：使用基于RNN的编码器-解码器和对比学习方案。几种现有的方法利用基于RNN的编码器-解码器网络[40，30，18，37，16，25]。这些网络的解码器执行预训练任务以诱导编码器提取用于动作识别的适当表示。LongT GAN[40]的解码器以表示为条件重建随机损坏的输入序列。MS 2L[18]通过多任务学习来学习生成更一般的表示，它执行诸如比如运动预测和拼图游戏识别。最近，Colorization[38]采用GCN进行预训练，它回归了骨架序列的时间和空间顺序。基于RNN的模型受到长距离依赖性的影响，基于GCN的模型也面临类似的挑战，因为它们沿着固定路径顺序传递信息[26，10，6]。因此，基于RNN和GCN的方法在从运动序列（特别是从长运动）中提取全局表示方面具有局限性。其他方法利用对比学习方案[27，35，31]。这些方法对原始运动序列进行扩充，将其作为正样本，而将其他运动序列作为负样本。然后训练该模型以使用对比损失在正样本之间生成相似的表示AS-CAL[27]利用各种增强方案，如旋转，剪切，反转和掩蔽。对比学习方案有一个局限性，即除了它们自己之外的所有序列都被视为负样本，即使是属于同一类的序列CrosSCLR[17]通过使用从其他视图（如速度或骨骼序列）学习的表示来增加阳性样本的数量来解决这个问题。因为对比学习损失调整由编码器表示的最终表示之间的距离，所以难以训练编码器以通过损失明确地反映局部关节动态。为了解决这两类无监督动作识别的局限性，我们引入了Transformer[33]架构，用于对关节的局部动态进行建模，并从运动序列中捕获全局上下文。基于transformer的监督学习基于transformer的模型在各种使用运动序列的监督学习任务中取得了显着的成功，这是由于它们的注意力机制，适用于处理长距离序列。在监督动作识别任务中，最近的基于Transformer的方法[26，10，3，24]优于基于GCN的方法，后者在产生丰富的表示方面有局限性，因为固定的图形拓扑结构，人体的在运动预测任务中，[6，1]中的方法采用+v：mala2255获取更多论文4 Kim等人。Transformer 编码器用于捕获给定运动序列的时空依赖性，以及Transformer解码器用于生成未来运动序列。在3D姿态估计任务中，[39]中的方法将2D姿态序列强加于时空Transformer以对关节关系进行建模并准确地估计中心帧的3D姿态。基于transformer的预训练基于transformer的预训练已经成为自然语言处理的主要方法[11，20]，并且正在积极引入其他研究领域，如视觉语言[23，32，14]，图像[12，13，7，4]和视频[36，21]。H变换器[8]是第一个基于变换的运动序列预训练方法。所提出的预训练策略预测每帧中关节瞬时速度的方向。这种策略侧重于从相邻帧而不是从远处帧学习注意力。该模型旨在学习五个身体部位特征之间的空间注意力，其中不考虑全局身体运动。为了解决这些限制，我们提出了一个GL-变换器，它包含一个全局和局部注意力机制和一个新的预训练策略。我们的目标是通过在预训练过程中有效地建模局部和全局注意力来训练GL-变换器生成适合于下游动作识别任务的输入运动序列的表示。3该方法3.1总体方案我们的目标是建立一个Transformer架构，适用于骨架运动序列（第二节）。3.2）并设计一种新的预训练策略（第3.2节）。3.3）用于对运动序列的内部动态和全局上下文进行编码。如示于图1，该框架包括两个阶段：无监督的预训练和下游动作识别阶段。在第一阶段中，我们使用未标记的运动序列预训练所提出的基于变换的模型 GL-Transformer。接下来，我们验证GL-Transformer是否生成Fig. 1. 拟议框架的总体计划。GL-Transformer使用未标记的运动序列进行预训练，然后在下游动作识别任务中进行评估+v：mala2255获取更多论文不不不不不不不不不不不不不全局-局部运动Transformer 5图二. 模型架构。输入运动序列被分解为全局平移运动（红点）和局部运动（蓝点）。所提出的模型包括N个堆叠的GL-变压器块。在每个块中的空间MHA和时间MHA模块中实现全局和局部注意机制动作识别所需的适当的运动表示。在GL-Transformer之后附加了一个线性分类器。在将平均池化应用于时间轴的运动序列表示之后，将其传递到分类器。3.2模型架构我们的模型包括N个堆叠的GL-变压器块，如图所示每个模块依次包含空间多头注意（spatial-MHA）和时间多头注意（temporal-MHA）模块，如图2中右侧的蓝框所示。二、输入运动序列。如图1中左图顶部所示。2、输入的人体运动序列由两类信息表示：人体的全局平移运动（红点）和人体关节的局部运动（蓝点）。全局平移运动表示身体的中心关节，并且局部运动表示身体关节相对于中心关节的相对运动。中心关节在每个数据集中定义，例如，NTU数据集[28，19]将脊柱关节定义为中心关节。原始3D骨架运动序列由张量X=[X1，X2，.，XT]T，其中Xt是表示在t处的骨架姿态的矩阵。th帧。在rixXt处的位置m由yXt=[q1，q2，，qK]T，其中qk∈R3表示第k个关节坐标的三维向量。第k个关节的相对位置是rk=qk−qc，其中qc表示关节的坐标中间接头使用相对关节位置，局部运动的第t帧由矩阵Rt=[r1，···，r K] T表示，其中我们去除rc=（0，0，0），将其重新索引为K − 1维矩阵R t=[r1，···，rK−1] T。第t帧+v：mala2255获取更多论文不∈∈∈t，p不不{|{\fnSimHei\bord1\shad1\pos（200，288）}0不不6 Kim等人。使用向量gt=qc−qc计算全局平移运动的。作为图2，gt和rk被投影到D维嵌入向量中，g<$t=Wggt+bg，r<$k=Wrrk+br， k=1，···，K−1，（1）其中Wg，WrR（D×3）和bg，brR（D×1）分别表示全局平移和联合嵌入层的可训练权重和偏置。在包含两个或更多个人之间的交互的动作数据集的情况下，向量g t和矩阵R t分别由g t，p和R t，p表示，其中p表示角色的索引。类似地，嵌入向量表示为g′t、p和kt，p . 在下文中，我们描述了我们的方法，该方法考虑了在序列中的多个人之间。可训练和紧密的位置嵌入。通过扩展包含序列顺序信息的位置嵌入矩阵[33]的概念，我们引入了一个可训练的时空位置嵌入张量MRT ×PK×D，以从训练数据中学习时间帧和空间关节的顺序信息。注意，PK是P个人的联合指数的维数，D是嵌入向量的维数，与D以g′t、p和r′k为单位.关节顺序信息在骨架与句子或图像的情况相比，运动序列中的单个关节位置是没有意义的，直到我们知道关节属于身体的哪个部分。此外，框架顺序在动作检测中也起着重要作用。为此，我们提出了一种紧位置嵌入方法，在每个GL-变换器块中显式地使用顺序信息。以前的基于变换器的模型[11，12，39]在第一个变换器块之前应用位置嵌入。相反，我们将其应用于每个块的输入张量，如图2所示。在每个GL-变换器块中，位置嵌入被明确地应用于空间-MHA和时间-MHA模块两者中，如图3的右图所示。二、全球和地方关注机制。我们的目标是构建一个全局和局部注意力（GLA）机制，以提取全局语义信息，以及捕捉骨骼运动序列中关节之间的局部关系。GLA在空间MHA和时间MHA模块中实现。空间-MHA模块在一个帧内学习空间依赖性。在该模块中，通过与每个人的gt，p和Rt，p相对应的特征之间的注意力操作来学习全局（身体）自/至局部（联合）同样，人与人之间的依赖性也是通过多个人的特征之间的注意力来学习的gt，p，Rt，p p= 1，，P，其中P是人数。时间MHA模块使用由空间MHA聚合的姿态特征来学习跨序列的时间依赖性。时间MHA模块学习全身运动信息，从遥远的帧，以及从相邻帧的局部关节动力学空间MHA模块在第n个块的第t帧处的输入姿态特征表示为Zn∈RPK×D。对于第一块，多个r<$+v：mala2255获取更多论文t，pt，p不||≥·∈·∈不∈p=1t，p不我不我不我不不12不全局-局部运动Transformer 7人们沿着空间注意力轴连接在一起（见图1）。（2）作为Z0= ||PZ0，（2）0t，p=[g<$t，p，r<$1，···r<$K−1]T，t=1，···，T，（3）其中表示级联操作。第n（2）个块中的空间MHA接收前一个块的输出（Zn-1）空间MHA模块将姿态特征更新为Sn=空间-MHA（LN（Zn−1+Mt））+（Zn−1+Mt），（4）t t t其中MtRPK×D是位置嵌入张量M的第t个切片。LN（）表示层归一化算子[2]。对于空间-MHA（），我们借用了[33]中的多头自注意（MHA）机制，该机制被描述为贝洛 F或simplici ty，我们记LN（Zn−1+Mt）为Z<$n−1。首先，Zn−1是亲-t t t对查询Q、键K、值V矩阵进行如下处理：Q=Z<$n−1WQ， K=Z<$n−1WK， V=Z<$n−1WV，（5）t t t其中WQ、WK、WVRD×d是投影的权重矩阵，d表示投影维数。注意力机制表示为Attention（Q，K，V）= softmax（QK T/softd）V。（六）请注意，QKT是指查询Q中的每个投影联合向量与键K的点积相似性。高的关注权重被赋予高的相似性。在MHA中，第i个头执行等式中的注意机制。(6) 不同权矩阵WQ，WK，WV其他人的头，我我我Hi=Atette ntion（Z<$n−1WQ，Z<$n−1WK，Z<$n−1WV），i=1，···，h.（七）{Hi}的级联被投影到聚合的姿势特征，如（2）A=（||HHi）WH，（8）t i=1其中WH∈Rdh×dh是投影矩阵。为了在第n个块中执行时间MHA，我们将第t帧的姿态特征Sn∈RPK×D向量化为Sn∈RPK·D。然后，矢量化的姿态特征堆叠以形成姿态特征序列矩阵Sn=[Sn，Sn，. . .，s n] T∈RT×（PK·D）。在时间-MHA模块中，Eq. (8)但是应用不同的权重矩阵。然后，通过MLP（·）得到第n个GL-T变换器（Zn）的输出位姿序列特征，即，Z<$n=temporal-MHA（LN（Sn+M<$））+（Sn+M<$），（9）Zn=MLP（LN（Zn））+Zn，（10）其中M<$∈RT×（PK·D）是一个矩阵，其中的位置维数嵌入张量MRT×PK×D发生变化。在第N个GL变换器块中，通过使ZN通过2层MLP获得输入运动序列X的最终运动序列表示F，如下所示F= GL-变压器（X）= MLP（Z N）。（十一）Z+v：mala2255获取更多论文ori−···−···−t，p，np=1t，p，n8 Kim等人。图3. 多区间位姿位移描述自然速度运动序列的掩蔽注意力大多数动作识别方法[8，30，17，38]采用固定长度的运动序列，这忽略了运动速度的重要性。为了处理自然速度的运动序列，我们利用了注意力掩码[33]，这样我们的模型就可以跨帧学习自然的关节动态，并从不同的动作中捕捉速度特征。为此，我们将最大序列长度定义为Tmax。如果原始序列Xori的长度短于Tmax，则剩余的帧用填充伪令牌[PAD]∈RPK×3填充，其产生X =[X T，[PAD]，...， [PAD]] T∈ RTmax×PK×3。[PAD]的要素被设置为任意数字，因为与[PAD]令牌被排除在外。为了从虚拟值中排除注意力，我们屏蔽（设置为- ∞）列对应于QKT矩阵中的[PAD]令牌。3.3多区间位姿位移预测（MPDP）策略我们设计了一种新的预训练策略，多间隔姿势位移预测（MPDP），它在不同的时间间隔在不同的尺度上估计全身和关节的运动H-transformer[8]引入了一种预训练策略，用于估计瞬时关节速度的方向。该方法可以从相邻帧中获得关节在特定帧中的瞬时速度，从而引导模型学习局部注意力而不是长距离全局注意力。为了克服这一局限性，我们提出了一个MPDP策略，以有效地学习全局注意力以及局部注意力。如图3（a）所示，我们首先选择多个帧间隔t不，不，不。GL-Transformer被训练为预测第t帧和第（t n局部运动（相对关节位移）预测的帮助下，全球运动，反之亦然。此外，在预测运动时，还考虑了其他人的运动.位移由图3（b）和（c）中的橙色箭头表示。我们设计了位姿位移预测作为分类使用softmaxed线性分类器的任务。该模型被训练为预测每个间隔的方向和幅度类。对于间隔n的第t帧的预测表示为：∆ˆt,n=softmax(W δFt+bδ),Σˆt,n=softmax(W σFt+bσ),(12)无无无无无无无其中，Ft表示运动序列表示F的第t个切片，如图2所示。图的左侧。二、无，n=||P其中，δt，p，n=[δgˆ1t，p，n，···，δK−1]T，，δ+v：mala2255获取更多论文nt，p，nt，pKt，p，nt，pK（t-n），p−不Pp=1t，p，nt，p，nt，p，nt，p，nt，p，n布吕格t，p，n克t，p，n全局-局部运动Transformer 9∈RCδ表示全局预测方向类向量平移和第k个关节。Cδ是方向类的数量。无，n=||P其中，n=[σg，σ1，···，σK−1]T，且σg，σk∈表示全局平移的预测幅度类向量，并且th关节，分别。Cσ表示幅度类别的数量。Wδ，Wσ，bδ，n n n和bσ是区间n的线性分类器的可训练权重和偏差。为了训练模型参数，我们将第p个人和间隔n的第t帧处的方向δ和幅度σ的地面真值类定义为g t，p，n =class（n（gt，p-g（t-n），p）），δk=class（n）（rk-r（t-n），p）、（十三）g t，p，n =class（gt，p-g（t-n），p），σk=class（k）-r（t-n），p（14）其中，we设置g（t-n），p=gt，p和rkkt，p在t≤n时，因为我们没有在这种情况下是第（t-n）帧的信息。 c lass（·）表示·的类向量，其中幅度被量化为Cσ类之一，并且方向被指定为C δ=27类之一，其中XYZ方向具有三个类别：+、和无移动。除[PAD]标记外，计算所有间隔和帧的分类损失。总损失的定义如下：Ltotal=1000.λδ Lδ（t，p，n）+λσLσ（t，p，n）（15）t=1p =1n其中，方向损失Lδ（t，p，n）和幅度损失Lσ（t，p，n）是用于训练k_p，p，n和k_p，p，n的每一个的交叉熵损失的加权和，而λδ和λσ分别表示Lδ和Lσ4实验4.1数据集评价方案NTU-RGB+D. NTU-RGB +D 60（NTU-60）[28]是一个大规模数据集，包含56，880个由最多两个演员执行的3D骨架运动序列，并分为60个动作类。每个人有25个关节。我们遵循两个标准的评估标准：交叉主题（xsub）和交叉视图（xview）。在xsub中，训练集和测试集由不同的主体收集xview根据相机视图分割训练集和测试集。NTU-RGB+D 120（NTU-120）[19]是NTU- 60的扩展，包含120个动作类的 113 ， 945 个序列。 NTU-120 增加了新的评估标准交叉设置（xset），其训练和测试集由相机设置ID划分。加州大学洛杉矶分校西北西北加州大学洛杉矶分校（NW-UCLA）[34]包含10个受试者捕获的1，494个运动序列。每个序列由一个演员表演，每个人有20个关节。这些操作分为10个行动类。遵循标准评估协议，训练集包括来自相机视图1和2的样本，以及来自相机视图1和2的剩余样本。和δ，δδσ=rN+v：mala2255获取更多论文±···10Kim等人视图3被布置在测试组中。评价方案。我们采用线性评估协议[40，18，37，27，16，25，8]，这是评估无监督学习任务的标准。在该协议下，预训练模型的权重参数是固定的，并且仅用训练数据训练附加的单个线性分类器。此外，我们在半监督设置中评估了所提出的模型[31，29，17，38]。使用5%和10%的训练数据对预训练模型进行微调，然后评估动作识别准确率。4.2实现细节我们将NTU数据集的Tmax设置为300，将NW-UCLA数据集的Tmax设置为50。通过应用剪切[27]和插值来增强序列。对于插值，序列被插值到原始序列长度的由于NTU数据集包括两个人，因此我们将其设置为P= 2。使用四个Transformer块，每个接头的隐藏尺寸D= 6，八个头（h= 8）用于自注意。H变压器[8]使用四个变压器块，D= 256，用于五个身体部位中的每一个设λδ，λσ= 1。在无监督预训练阶段，我们使用AdamW[22]优化器，初始学习率为5e-4，并通过每个epoch乘以0.99来衰减它。该模型针对NTU训练了120个epoch，针对NW-UCLA训练了300个epoch，批量大小为128。在线性评估协议中，我们使用Adam[15]优化器，学习率为3e-3。线性层分别针对NTU和NW-UCLA训练120和300个epoch，批量大小为1024。4.3消融研究我们使用NTU-60数据集进行消融研究，以证明我们方法的主要组成部分的有效性。在线性评估方案中，GL-变压器的最终性能大大超过H-变压器[8]，xsub超过7.0%，xview超过11.0%。各组分的有效性解释如下：GLA和MPDP的有效性。在表1中，实验（1）利用原始姿态序列X，实验（2）利用局部运动Rt（t=1，· · ·，T），并且实验（3）利用全局平移运动g t（t=1，· · ·，T）和局部运动Rt（t=1，···，T）两者。关于（1），由于全局和局部莫-由于X中的运动是混合的，因此很难对全局和局部运动进行建模。的当模型从局部运动学习关节之间的局部动力学时，（2）的结果高于（1）的结果。进一步改进了（3）的结果，表明GLA在有效提取整个运动序列的表示方面起着重要作用。在表1中，实验（3）没有采用位移量预测损失，即λσ= 0。对于实验（4），λσ= 1，并且预测方向和幅度都表现出更高的性能。实验（4）至通过改变在MPDP中使用的帧间隔来执行（7）+v：mala2255获取更多论文关于我们关于我们位移解缠位移框架准确度（%）方向全局平移幅度间隔xsubxviewP2p准确度（%）注意一只猫。两人猫总类型准确度（%）xsub xview全局-局部运动Transformer 11表1. 使用线性评价方案在NTU-60数据集中验证GLA和MPDP有效性的消融研究H型变压器[8]✓{1}69.372.8实验（1）✓{1}71.173.5第1002章实验（二）✓运动（仅局部运动）{1}74.281.9第1003章实验（三）联系我们75.482.8第1004章实验（四）无菌{1}75.782.9第1005章实验（五）✓ ✓ ✓{1, 5}75.983.3第1006章实验（六）✓ ✓ ✓{1, 5, 10}76.383.8第1007章实验（七）{1，5，10，15}75.783.4表2. 使用线性评价方案验证NTU-120 xsub（左）中人与人之间注意力有效性以及NTU-60中可训练和紧密位置嵌入（右）的消融研究从区间n=1到n=1，5，10，性能逐渐增加，证明了长距离全局注意力在聚合整个运动序列的上下文方面是有效的。区间n=1，5，10，15对应的精度低于区间n=1，5，10对应的精度。这意味着最大间隔依赖于给定序列的帧间依赖性。人对人的注意力。为了验证人对人（p2p）注意力的效果，我们在表2中报告了使用和不使用p2p注意力训练的模型性能。NTU-120有120个动作类别，其中26个它们是两个人的互动，其余的是一个人的行动。P2P注意力提高了两个群体的绩效，尤其是在两个人的群体中，绩效提高得更多可训练的紧位置嵌入的有效性。对于位置嵌入，当采用可训练嵌入而不是固定正弦嵌入时，性能增加，如表2的右表所示。紧嵌入的使用进一步提高了性能。我们还验证了彼此靠近的帧被训练为具有相似的位置嵌入。补充材料中增加了相应的数字。此外，实验证明了自然速度输入的有效性添加到补充材料中。4.4学习注意力我们分析了注意力图，softmax（QK T/softd）在方程。(6)，每个预训练的GL-变换器块。空间和时间的注意力地图提取的空间-MHA和时间-MHA模块，分别。注意固定（正弦）75.583.3可训练76.083.6可训练紧76.383.8W/O63.071.664.9w/63.773.566.0+v：mala2255获取更多论文----12 Kim等人。见图4。在300个评估序列上平均的学习时间注意力图的示例（左）和关注帧距离的平均值（右）。黄色表示左图中的大值。蓝色（间隔{1，5，10}）和红色（间隔{1}）线表示每个区块图五. 学习空间注意力地图的例子平均超过300个评价序列。黄色表示较大的值在来自评估数据的300个运动序列上对图进行平均。每个Transformer块的每个头部指示各种类型的注意力地图，并且在图4和图5中示出了代表性样本。在图4中，我们表示前30帧的平均时间注意力图，因为测试序列的长度彼此不同。垂直轴和水平轴表示查询索引和关键字索引，以及每个像素的颜色指示查询关注键的程度。每个头部参加不同的时间范围，例如，近似相邻的10帧和5帧在块2-头3和块3-头8的注意力图中突出显示，而在块1-头4的注意力图中突出显示宽范围。图4中右侧的图说明了每个头的平均关注帧距离[12]。关注帧距离的平均值[12]被计算为帧距离的加权和，其中注意力被视为权重。当使用帧间隔1时，红色方块表示每个头部，当使用间隔1、5、 10时，蓝色圆圈表示每个头部。在每个块中，当模型以间隔进行预训练时，更多的头部关注远处的帧{1， 5， 10}与使用间隔{1}预训练模型时相比。空间注意力图的示例在图5中示出。第1和第26个索引分别用于对应于gt，1和gt，2的全局平移，在左图中表示为红色方块。在某些头部，第1和第26指数似乎与其他关节不同。例如，在Block 1-Head 5中，所有关节的查询关注其他关节的多个关键点的第1个和第26个关键点。在1- 4区，+v：mala2255获取更多论文全局-局部运动变换器Transformer 13表3. NTU-60数据集上线性评估协议的动作识别结果方法网络准确度（%）xsubxview[2018年]第40集编码器-解码器39.1 48.1P C（2020）[30]编码器-解码器50.7 76.3MS2 L（2020）[18]编码器-解码器52.6-PCRP（2021）[37]编码器-解码器54.9 63.4AS-CAL（2021）[27]LSTM（对比学习）58.5 64.6CRRL（2021）[35]LSTM（对比学习）67.6 73.8EnGAN-PoseRNN（2019）[16]RNN（编码器-解码器）68.6 77.8SeBiReNet（2020）[25]编码器-解码器-79.7‘TS’编码器-解码器71.6 79.9[17]第17话GCN（对比学习）72.9 79.9CrossSCR-bone（2021）[17]GCN（对比学习）75.2 78.8H-transformer（2021）[8]Transformer69.372.8GL-变压器Transformer76.383.8对应于每个人的关节之间的相关性被观察为注意力地图中的4个分区，如红色虚线所示。总的来说，所提出的模型学习浅块（即块1）处的全局关系，并学习更深块（即块1）处的细粒度关系块2和块3）。4.5与最先进方法的比较我们将我们的方法与用于无监督动作识别的最先进（SOTA）方法进行了比较：使用基于RNN的编码器-解码器模型的方法[40，30，18，37，16，25]，使用基于GRU的编码器-解码器模型的方法[38]，使用对比学习方案的方法[27，17]和基于变换器的方法[8]。我们使用一个线性评估协议来衡量动作识别的准确性。我们的方法的性能大大超过了H变换器[8]，它只关注身体部位之间和帧之间的局部关系如表3所示，GL- Transformer的性能超过H-Transformer 7. 0%，11。NTU-60数据集中的xview中为0%。此外，我们的方法优于所有的方法，由一个显着的保证金。在NTU-120数据集上，GL-Transformer的性能优于SOTA方法，具有显著的裕度，如表4的左表所示。它是验证，所提出的方法操作鲁棒性的数据集，包括更详细的行动。在 NW-UCLA数据集上， GL-Transformer在之前的方法中实现了最高的性能，证明了即使使用少量的训练数据，所提出的模型也是有效的，如表4的右表所示。此外，我们在表5中比较了NTU-60和NW-UCLA数据集上半监督设置的结果。SOTA半监督动作识别方法[29，31]的结果也与上述无监督方法进行了比较。GL-Transformer在使用5%和10%训练数据的两次评估中均超过SOTA性能。+v：mala2255获取更多论文14 Kim等人。表4. NTU-120数据集（左）和NW-UCLA数据集（右）中线性评估协议的动作识别结果表5. NTU-60和NW-UCLA数据集中半监督设置的结果方法NTU-605%（xsub）10%NTU-605%（xview）10%西北-加州大学洛杉矶分校5%10%MCC-ST-GCN（2021）[31]42.455.644.759.9- -MCC-2s-AGCN（2021）[31]47.460.853.365.8- -MCC-AS-GCN（2021）[31]45.559.249.263.1- -[2018年]第40集-62.0---59.9ASSL（2020）[29]57.364.363.669.852.6-MS2 L（2020）[18]-65.2---60.5CrossSCR-bone（2021）[17]59.467.757.067.3- -’TS’60.166.163.973.355.9 71.3[17]第17话61.367.664.473.5- -GL-变压器64.568.668.574.958.574.35结论我们介绍了一种新的Transformer架构和预训练策略，适用于运动序列。所提出的GL-Transformer成功地学习了全局和局部注意力，从而使模型有效地捕获了序列的全局上下文和局部动态我们的模型的性能大大超过了SOTA方法在下游的动作识别任务，在无监督和自我监督的方式。在未来的研究中，我们的模型可以扩展到一个模型，用于学习各种骨骼特征，如位置和骨骼，以编码更丰富的表示。通过使用稀疏注意力的概念[9，5]，期望减少模型的内存使用和计算，稀疏注意力在令牌之间相互注意。此外，我们的模型可以扩展到一个大参数模型，并使用从未指定的网络视频中提取的大量骨架序列进行预训练，以便更广泛地应用于处理人类动作的各种下游任务。致谢。本工作得到了IITP/MSIT的支持[B 0101 -15-0266，用于大规模实时数据分析的高性能视觉大数据发现平台的开发，1/4; 2021-0-01343，人工智能研究生院计划（SNU），1/4; 2021-0- 00537，通过自我监督学习恢复图像中不可见部分的视觉常识，1/4; 1711159681，通过基于深度学习的人体模型生成技术开发高质量的AI-AR交互媒体服务，1/4]方法准确度（%）xsubxsetP C（2020）[30]41.742.7PCRP（2021）[37]43.044.6AS-CAL（2021）[27]48.649.2CrossSCR-bone（2021）[17]53.350.6CRRL（2021）[35]56.257.0[17]第17话58.853.3GL-变压器66.068.7方法准确度（%）[2018年]第40集74.3MS2 L（2020）[18]76.8SeBiReNet（2020）[25]80.3CRRL（2021）[35]83.8P C（2020）[30]84.9PCRP（2021）[37]86.1‘TS’90.1H-transformer（2021）[8]83.9GL-变压器90.4+v：mala2255获取更多论文全局-局部运动变换器Transformer 15引用1. Aksan，E.，Kaufmann，M.，Cao，P.，Hilliges，O.：一种用于三维人体运动预测的时空Transformer。2021年国际3D视觉会议pp. 565-574. IEEE（2021）2. Ba，J.L.，Kiros，J.R.，Hinton，G. E.：层归一化。arXiv预印本arXiv：1607.06450（2016）3. 拜河，巴西-地Li，M.，孟，B.，Li，F.，Ren，J.，蒋，M.，Sun，D.：Gcst：用于动作识别的图形卷积骨架Transformer。arXiv预印本arXiv：2109.02860（2021）4. Bao，H.，东湖，Wei，F.：Beit：Bert图像转换器的预训练。arXiv预印本arXiv：2106.08254（2021）5. 贝尔塔吉岛彼得斯法医Cohan，A.：Longformer：长文档Transformer。arXiv预印本arXiv：2004.05150（2020）6. 蔡玉，黄湖，加-地王玉，查姆，TJ Cai，J.，袁，J，刘杰，杨，X.，Zhu，Y.，中国科学院，Shen，X.，等：学习渐进式联合传播用于人体运动预测。欧洲计算机视觉会议。pp. 226-242.施普林格（2020）7. 陈洪，王玉，郭，T.，徐，C.，邓，Y.，刘志，妈，S.，徐，C.，徐，C.，Gao，W.：预训练的图像处理Transformer。IEEE/CVF计算机视觉和模式识别会议pp. 122998. Cheng，Y.B.，陈旭，陈杰，Wei，P.，Zhang，D.，Lin，L.：Hierarchicaltransformer ： Unsupervised representation learning for candidate based humanaction recognition. 2021 IEEE International Conference on Multimedia and Expo（I

下载后可阅读完整内容，剩余1页未读，立即下载