STAR-Transformer：基于时空交叉注意力的动作识别模型

189 浏览量更新于2023-10-16 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3330STAR-变压器：用于人体动作识别的时空交叉注意力TransformerDasom Ahn1，Sangwon Kim1，Hyunsu Hong2，Byoung Chul Ko1*1部门韩国大邱Keimyung大学计算机工程系2Difine，城南，韩国{ektha772，eddiesangwonkim} @ gmail.com，phil@difine.co.kr，niceko@kmu.ac.kr摘要在动作识别中，虽然时空视频和骨架特征的结合可以提高识别性能，但需要一个单独的模型和平衡的跨模态数据的特征表示。为了解决这些问题，我们提出了Spatio-Temporal cRoss（STAR）-Transformer，它可以有效地视频帧骨架序列STARTransformer多特征空间将两个跨模态特征表示为可识别的向量。首先，从输入的视频和骨架序列，视频帧被输出为全局网格令牌和骨架被输出为联合地图令牌，分别。然后，这些令牌被聚合成多类令牌并输入到STAR-transformer中。STAR变换器编码器由一个完整的时空注意力（FAttn）模块和一个建议的锯齿形时空注意力（ZAttn）模块组成。类似地，连续解码器由FAttn模块和提出的二进制时空注意力（BAttn）模块组成。STAR-transformer通过适当安排FAttn、ZAttn和BAttn模块的配对来学习时空特征的有效在Penn-Action、NTU-RGB+D 60和120数据集上的实验结果表明，该方法与现有方法相比，在性能上有了很大的提高.1. 介绍动作识别是使用视频帧对人类动作进行分类的传统研究主题，并已应用于各种应用中，包括人机交互[3]，医疗保健[36]和视频监控[18]。随着深度学习的发展，动作识别的研究趋势分为三个方面.首先，在基于视频的方法中[56，4，46，30，22，33，21]，深度学习模型仅使用视频帧来*通讯作者图1.建议的STAR变压器需要多类-ken作为输入，并将其转换为类可分离的多特征表示。多类令牌是通过将视频和姿势序列馈送到共享CNN中而获得的全局网格和联合地图令牌的聚合。承认行动。这种方法由于来自野外的各种噪声（例如摄像机角度和人类目标的大小以及复杂背景的差异）而导致性能显著下降。第二种是基于网络的方法[41，6，12，17，43，19]。动作是使用不同时区的人体骨骼和关节骨骼作为深度学习模型的输入来识别的。然而，需要额外的深度学习模型来从图像中提取人体骨骼。此外，动作识别在很大程度上取决于骨架提取器的准确性和骨架的重叠程度第三种方法是将跨模态数据、视频和骨架一起使用深度学习模型一起学习视频帧的RGB和人类骨骼特征;因此通常显示出高识别性能。然而，结合视频和骨架数据是一个模糊的过程，需要一个单独的子模型进行跨模态学习。作为深度学习领域的一种新的学习范式，VisionTransformer（ViT）[16]最近因其在各种计算机视觉领域（如图像分类[26]、图像分割[48]、对象跟踪[52]和动作识别[9]）中的出色性能自我注意机制是ViT的一个关键要素，专门用于确定空间关系-多类令牌分享CNN3331···并有效地应用于图像分类。然而，在动作识别中，长帧的特征和随时间变化的多特征都必须考虑;因此，基于现有多头注意机制的ViT在高计算成本方面具有局限性[27]。在这项研究中，我们提出了一种多特征表示方法的基础上跨模态学习和时空cRoss Transformer（STAR-Transformer）attentation机制。对于跨模态学习，我们建议一种将时空视频的跨模态数据与骨架聚合成多类令牌的方法，解决跨模态动作数据的组合问题。STAR-transformer由一个新的交叉注意力模块组成建议的STAR变压器已通过各种实验证明了优良的性能。图1显示了STAR变压器的整体操作结构。两个跨模态特征被输入到共享卷积神经网络（CNN）模型中，并被分离成多类令牌。STAR变换器由L层编码器-解码器输出的可分离多类特征组成本文的贡献可以概括如下。跨模态学习：可以灵活地聚集时空骨架特征以及视频帧，并有效地学习跨模态数据以创建多类令牌。星形变压器：现有的自注意机制关注的是空间特征之间的关系，因此局限于动作识别的应用。因此，我们提出了一个STAR注意力机制，可以学习跨模态功能。STAR变换器的编码器和解码器由Z字形和二进制跳跃STAR注意组成。各种性能评价实验：基于几个基准数据集进行了性能评估，所提出的模型显示出比现有的最新技术水平（SoTA）模型更好的性能。2. 相关工作基于视频和图像的动作识别：它旨在仅使用顺序[56，4，46，30，43，19]或静止图像[22，21]来识别动作。基于视频的动作识别的一般过程涉及将动作分解为更小的语义组件，并理解每个组件在动作识别中的重要性[21]。由于这种方法使用视频帧，它可以使用一个简单的单一模型进行处理.然而，如果视频较长，识别速度将较慢，性能将受到来自野外的各种噪声的显著影响基于骨骼的动作识别：它旨在通过将从姿态估计器提取的视频帧的时空联合坐标列表应用于图卷积网络（GCN）[41，12，7]，3D-CNN [17]和CNN [6]来识别动作。骨架序列的优点是不受背景和照明变化等背景干扰的影响[17]，但缺点是识别性能在很大程度上取决于姿态提取器，需要额外的分类器进行识别。基于视频和视频的动作识别：它旨在通过将多模态（跨模态）信息融合到一组综合的判别特征中来实现高动作识别性能[15，14，39，35]。视频姿势网络（VPN）动作识别机制[14]使用跨模态特征和知识蒸馏将姿势注入RGB流，已经证明跨模态特征可以实现比单模态特征更好的性能。尽管该方法具有较高的识别率，但在跨模态学习子网络的设计和跨模态数据的组合方法基于transformer的动作识别：由于Transformer在使用自我注意模块[2]进行长距离时间建模方面是一个强大的工具，因此在该领域，特别是动作识别方面，已经进行了越来越多的研究[2，5，42]。大多数使用Transformer的动作识别方法将视频帧用作输入标记[45，20，47，53，50，33]，并且相对较少的方法使用 Transformer 的骨架 [38 ， 34 ， 33] 。然而，基于transformer的动作识别通常由于对视频中大量3D令牌的自我关注而遭受高计算成本 [27]。此外，使用Transformer耦合交叉模态信息的方法因此，这项研究是首次尝试使用时空交叉模态数据作为输入令牌的ViTs，而不应用单独的子模型。3. 方法图2显示了基于STAR-transformer模块的建议动作识别模型的总体结构。接收16个视频帧和相应的骨架序列作为输入。每个帧都经过预训练的ResNet混合卷积18（MC18）[43]来提取局部和全局特征图。ResNetMC18模型不适合所提出的锯齿形和二进制操作，因为它们在操作后会减小作为ResNet MC18最后一层的输出的全局特征图被转换为表示图像视觉特征的全局网格令牌（GG令牌）（图1）。第2（a）段）。局部特征图，ResNet3332p×GGn⊕nPGn1PJNJ1×N∈STAR Transformer！：类令牌：联合特征向量：全局网格特征向量：内积：帧：全球网格：接头输入（a）全球网格代币全球网格联合地图代币代币！！！ResNet-MC视频帧（c）联合地图代币Concat多类令牌！！！(b)联合热图位置编码骨架！！！MLP(d)STAR Transformer编码解码全方位关注曲折 -注意力全-注意力二元注意力添加规范前馈网络添加规范时空交叉注意令牌解耦添加规范全时空注意力（e）图2.所提出的动作识别模型的总体架构。(a)全局网格令牌，（b）联合热图，（c）联合地图令牌，（d）STAR变换器模块，以及（e）STAR变换器的编码器和解码器结构编码器和解码器具有相同的结构。MC18与联合热图相结合（图2（b）），然后转换为联合地图令牌（JM令牌），如图所示。第2段（c）分段。 JM标记表示每个骨骼关节的局部特征。这两个令牌被聚集成一个多类令牌，然后送入 STAR-Transformer，如图所示。2（d），推断最后行动标签。3.1. 跨模态学习（a）（b）位置编码！！！我们首先提出了一种跨模态学习方法，可以结合视频帧和骨架特征。视频类令牌令牌全球网格代币联合地图代币帧被馈送到ResNet MC 18，并从中间层和最后一层提取两个特征图。由于中间层的特征图比最后一层包含更详细的局部特征，因此它用于JM-令牌提取，而最后一层用于GG-令牌提取。全局网格令牌（GG-token）：设一个GG-tokenTg由P个记号组成的Tt ={g t，...，视频帧中的g t}图3.多类令牌聚合。(a)纯ViT的单类令牌生成和（b）提出了基于跨模态学习的多令牌聚合。得到了ResNet MC 18的映射F∈RC′×h′×w′。第n个联合热图hn∈Rh′×w′是将第n个联合投影到大小为h′×w′的临时地图上的结果。t.为了从第t帧中提取GG-令牌gt的元素，将输入帧调整为大小224224，并且通过ResNet MC 18生成的全局特征图具有大小h w。全局特征图再次被展平为大小为hw（P）的向量，其变为Tt的元素的数量。由于全局特征映射由C个通道组成，因此Tt并以σ的尺度应用高斯模糊。因为局部特征图由C ′个通道组成，Tt中每个关节元素的维数为jtRC′. 通过局部特征图F和第n个联合热图h t的级联（concatenation）获得第t个姿态上的联合元素jt，如以下等式所示：是gt∈RC。该过程针对每个视频帧继续，h′w′因此，我们可以获得T个时间GG-令牌，如图2所示。第2段（a）分段。tj，nC′c′=1 （f∈Fc′（i，j）×ht（i，j））.（一）I j联合地图令牌（JM-令牌）：在每个第t个姿势中，响应于第t个视频帧，我们获得N个联合热图，其强调每个帧的联合和JM-令牌集合Tt ={j t，.， j t}，基于这样的映射。一是地方特色Transformer位置编码！=不3333该过程针对每个姿势序列继续，并且因此我们可以获得T个时间JM令牌，如图1所示。第2段（c）分段。3334⊕4∈不S∈∈∈∈ΣΣDH（e）解耦（一）（b）第（1）款（c）第（1）款图4.提出了时空交叉注意模块。（a）完全时空注意力（FAttn），（b）锯齿形时空注意力（ZAttn），和（c）二元时空注意力（BAttn）模块。多类令牌：为了聚合使用跨模态数据生成的GG和JM令牌，我们提出了一个多类令牌聚合，如图3所示[16]如图所示。图3（a），专注于使用单类标记学习输入标记之间的全局关系。然而，所提出的动作识别模型必须协作地学习从跨域数据生成的多类令牌因此，所提出的多类标记的聚合方法有效地学习不同特征表示的特性，如图所示。3（b）款。多类令牌Z是通过连接（）GG-令牌（CLSglob）和JM-令牌（CLSjoint）的类令牌如下：Tg= CLSglobalTg，（2）图第4（c）段。没有必要关注时间维度T的所有token。相反，所有令牌被分为ZAttn和BAttn两个令牌组当ZAttn和BAttn应用于时间维度T和空间维度S的所有令牌时，由于时间维度中的令牌被分成两组，因此与具有O（1T2S2）的FAttn相比，计算复杂度降低了0.25倍。我们首先从多类令牌Z中获得相同大小的查询（Q）、键（K ）和值（V）RS×T矩阵，并计算FAttn输出，如下所示：Z=FAttn（Q，K，V）（5）Tj= CLS关节间隙（Tj+pos），（3）ΣΣQs和t·Ks，tZ=TgTj CLStotal（4）FAttn（Q，K，V）=不Softmax软件SVs，t（六）其中CLStotal是所有令牌的类令牌。与GG-令牌不同，对于JM-令牌，联合位置信息pos是重要的，并且因此pos仅被添加到JM-令牌。3.2. 时空交叉注意受[2] 的启发，我们首先提出了完全时空注意（FAttn），如图所示。4（a），其将注意力机制应用于时空维度内的所有令牌。当FAttn应用于时间维度T和空间维度S的所有令牌时，复杂度增加到O（T2S2）。然而，由于FAttn单独不足以处理时空特征，我们提出了两个额外的交叉注意机制，即，锯齿形ZAttn 学习改变动作的详细过程。为了计算ZAttn，Z中的奇数矢量被分成ZQ′RS× T/2，Z中的偶数矢量被分成ZK′和ZV′RS× T/2，如图所示。第4（b）段。相反，Z中的奇数标记被划分为ZK ′′和ZV ′′∈ RS× T/2，Z中的偶数向量被划分为分为ZQ ′′∈ RS× T/2。我们使用以Z字形方式提取的两种类型的矩阵使用以下公式分别计算a′RS× T/2和a″RS× T/2，然后将输出a′和a″连接为ZAttn的结果。MatMul（d）其他事项SoftMax缩放MatMul解耦MatMulSoftMax缩放MatMulMatMulSoftMax缩放MatMul3335时空注意力（ZAttn），如图所示。4（b）和二元时空注意力（BAttn），如图4所示。a′=T/2SSoftmax .Z-Q′s，t·ZK′s，tDHZV′s，t（七）t s3336ΣΣ√∈∈∈∈∈∈a"=T/2SSoftmax.ZQ′s′，t·ZK′s′，tDHZV′s，t（八）t sZAttn（Q，K，V）= a′a′′（9）BAttn也通过来回划分时间维令牌而被生成为两个组，如图所示第4（c）段。通过这个过程，可以了解动作开始和结束时的在BAttn情形下，将Z二分为两组后，分别计算前后向量BQ′RS× T/2和BK′，以及BV′RS× T/2矩阵.相反，Z中的前向量被划分为BK“”和BV“"RS× T/2，Z 中的后向量被划分为BQ”“RS×T/2。我们使用两种类型的矩阵，用ZAttn的相同公式计算单独的b′RS× T/2和b″RS× T/2，并将输出b′和b″连接为BAttn的结果。BAttn（Q，K，V）= b′b′′（10）3.3. 星型变压器编解码器所提出的STAR变换器遵循纯变换器[44]而不是纯ViT [16]的编码器第2段（e）分段。然而，编码器由一系列FAttn（自注意）和ZAttnL层组成，解码器由一系列FAttn和BAttn层组成。编码器使用ZAttn来关注动作中详细变化的学习关系，解码器使用BAttn来学习动作中大变化的关系。STAR变压器层的结构如下。<$zl=L N{FS TA（zl−1）+zl−1}，l∈{1，2，...，L}（11）z′l，z′l′=去耦（<$zl）（12）<$zl=LN{（STA（z′l）+z′l）<$（STA（z′l′）+z′l′）}（13）这里，l是Transformer层的数量，LN是层归一化，并且FSTA是用于FAttn的多头自注意。解耦是指曲折或二元分组。STA代表了对ZAttn和BAttn，MLP是一个多层感知器。STAR-transformer输出的多类令牌通过平均并馈送到MLP中以推断最终动作标签而组合成单个类令牌表1. 与Penn-Action数据集上其他最先进方法的性能比较（Annot，注释姿态（骨架）; Acc，准确度）。4. 实验结果在本节中，我们将描述实现细节，包括应用的数据集和训练超参数。在基于SoTA方法进行定量分析之后，对多表情学习的有效性、Transformer层数和时空交叉注意进行了消融研究和定性分析。4.1. 实验装置数据集描述：使用代表性动作识别数据集Penn-Action [54]、 NTU-RGB+D 60 [37]和120 [28]进行实验。的Penn-Action数据集包括15个不同的动作类，如棒球挥杆，跳跃和俯卧撑，总共2，326个RGB视频序列。NTU-RGB+D 60数据集是用于人类动作识别的大型数据集，包含从40个受试者收集的60个动作类的56，880个样本。动作被分为三个类别，具有40个日常动作（例如，饮用、进食和阅读），9个与健康有关的动作（例如，打喷嚏、蹒跚和跌倒），以及11种相互动作（例如，拳击、踢腿和拥抱），分别基于动作表征的多模态信息，包括深度图、3D骨骼关节位置、RGB帧和红外序列。NTU-RGB+D 60有两个评估原型，交叉主题（XSub）和交叉视图（XView）。NTU-RGB +D120扩展了NTU-RGB+D 60的这个版本，增加了另外60个类别，总共包含114，480个样本。NTU-RGB+D 120有两个评估协议，XSub和交叉设置（XSet）。实施详情：使用 PyTorch 实现了拟议的 STAR-Transformer，并将使用Kinetics-400预训练的ResNetMC 18用作骨干网络。在训练模型时，Penn- Action和NTU-RGB+D数据集使用了16个固定帧。对于所有数据集，我们使用了4300个epoch的批量大小，随机梯度下降（SGD）优化器，学习方法预训练特征Acc.RGB Annot姿势（%）3D Deep [8]✗98.1分[29]第二十九话✗98.2分多任务CNN [32]✗中国98.6HDM-BG [55]✗✓93.4Pr-VIPE [40]✓✓97.5UNIK [49]✓✓97.9STAR变压器✗中国98.73337方法预训练功能NTU60 NTU120表2.在NTU-RGB+D Action数据集上与其他最先进方法的性能比较（估计姿态（骨架）; XSub，跨学科; XView，交叉视图;XSet，交叉设置）。速率为2 e-4，动量为0.9。实验在配置有四个NVIDIATesla V100 GPU的环境中进行。4.2. 与最先进方法的Penn-Action数据集：表1示出了与用于Penn-Action数据集的其他SoTA动作识别技术的比较实验的结果：1）身体关节引导的3D深度卷积描述符（3D Deep）[8]，2）姿态估计图的演化（EV-Pose）[29]，3）多任务CNN [32]，4）贝叶斯分层动态模型（HDM-BG）[55]，5）视图不变概率嵌入（Pr-VIPE）[40]，以及6）基于骨架的动作识别（UNIK）的统一框架[49]。使用从Kinect-400 [25]数据集重建的Posetics数据集对UNIK [49]进行STAR-transformer和其他方法仅在给定数据上进行训练和测试，而没有任何预训练。预训练的UNIK [49]模型的准确度比所提出的模型低0.8% ，为 97.9% ，而 Pr- VIPE [40]模型的准确度为97.5%，比所提出的模型低1.2%。在实验过程中，STAR变换器和使用视频帧的RGB和姿势（骨架）特征的三种方法[8，29，32]一起显示出98%或更高的整体性能。然而，仅使用姿势特征的三种方法[55，40，49]显示出93%至97%的相对较低的性能。如表1中的结果所示，我们可以确认，当视频帧的RGB和姿势特征一起使用虽然STAR-transformer没有使用任何预训练，但最高的准确率是通过使用交叉模态特征的交叉注意力来获得的。NTU-RGB+D 数据集：表 2 示出了当应用 NTU-RGB+D数据集时与SoTA动作识别技术的比较实验的结果：1）使用3D LiDAR（PoseMap）进行长期定位[29]，2) 多模式传输模块（MMTM）[35]，3）视频姿势嵌入（VPN）[14]，4）多粒度时空图网络（DualHead-Net）[10]，5）骨架图神经网络（SkillgGNN）[51]，6）通道拓扑细化GCN（CTR-GCN）[11]，7）基于信息核查的GCN（InfoGCN）[13]，8）对比学习（3s-Aimmunogram）[23]，9）3D骨架和热图堆栈（PoseC3D）[17]，以及10）内核注意力自适应图Transformer网络（KA-AGTN）[31]。由于一个基于变换的动作识别方法，使用RGB的视频帧和跨模态特征的骨架一起尚未公布，我们比较的性能与KA-AGTN，一个SoTA的骨架和基于变换的动作识别。在该实验期间，分别测量NTU-RGB+D 60和NTU-RGB+D 120数据集的准确度，并且分别测量每个数据集的交叉主题（XSub）、交叉视图将同时使用视频帧的RGB和姿态的四种方法[17，14，35，29]以及仅使用姿态的六种方法[31，10，51，11，13，23]的性能与STAR变换器进行了比较。仅使用3s-Aimalloy进行预训练[23]。如表2所示，当RGB和姿态的交叉模态特征一起使用时，NTU 60和NTU 120的准确度高于应用单峰特征时的准确度。PoseC 3D [17]在NTU 60 XSub上的表现比拟议的STAR- Transformer好5%，在NTU 120XSet上好3.7%，因为PoseC 3D没有使用注释姿势，而是应用单独的预训练poseConv 3D模型进行3D姿势估计，以实现更好的动作识别。作为RGBEst. 构成安诺构成XSubXViewXSubXSet[29]第二十九话✗✓✓91.795.2--MMTM [35]✗✓✓91.9---VPN [14]✗✓✓95.598.086.387.8DualHead-Net [10]✗✓92.096.688.289.3[51]第五十一话✗✓91.696.787.589.2CTR-GCN [11]✗✓92.496.888.990.6[13]第十三话✗✓93.097.189.891.2[23]第二十三话✓✓86.992.880.180.9PoseC3D [17]✓✓✓97.099.695.396.4[31]第三十一话✗✓90.496.186.188.0STAR变压器✗✓✓92.096.590.392.73338多类令牌准确性（%）97.3✓98.7表3.多类代币的有效性结果表明，PoseC3D提取了适合自身模型的最优姿态特征并用于学习，因此具有较高然而，该方法仍然存在一定的缺点，因为它需要预先训练的模型用于额外的姿势检测，并且姿势检测和动作识别模型不能被10099989796951 2 3 45层数（L）作为单一模型进行端到端训练。KA-AGTN [31]使用了与我们的方法相同的Transformer结构但由于图5.根据空间数量的变化时间交叉注意层它只使用骨架信息，并使用Transformer仅对于关节之间的空间信息处理，性能不如所提出的方法高达1.6%的NTU60和高达4.7%的NTU120。虽然变换器需要使用大数据集进行预训练，但所提出的STAR变换器在没有任何预训练的情况下将RGB和注释姿态相结合，即使在更大的类数据集NTU120上也能实现有希望的准确性。特别是NTU 120 XSub和XSet表现出第二高的性能，准确率分别为90.3%和92.7%。这表明STAR- Transformer能够进行出色的动作识别，尽管动作类别增加或交叉视图改变。4.3. 消融研究在本节中，基于若干实验来验证构成所提出的STAR Transformer模型的模块的详细性能。所有实验均使用Penn-Action数据集进行。多表达学习的有效性：为了证实所提出的多表达学习的效果，表3展示了使用纯ViT [16]中使用的单类令牌和本研究中提出的多类令牌进行的比较实验。提出的多类令牌的性能比单类令牌高1.4%。虽然现有的单类标记没有有效地进行跨模态标记之间的学习，实验结果表明，在相同的跨模态条件下，所提出的多类令牌可以有效地提高模型的性能Transformer层数的有效性：图5示出了根据所提出的时空交叉注意模块结构的Transformer层的数量的性能差异。如图5、整体性能随着层数的增加而提高;然而，当存在多于四个时，注意结构准确度（%）表4.时空交叉注意机制之间的准确性差异。F表示FAttn，Z表示ZAttn，B表示BAttn。层，模型很容易过拟合。因此，基于实验结果，我们将Transformer层数设置为三层。时空交叉注意的有效性：图6示出了本研究中提出的时空交叉注意机制这些分数是用一个关注度展示栏计算出来的[1]来计算每帧的相对浓度。注意力卷展栏递归地接收嵌入注意力作为Transformer模型的每一层的输入，并计算标记注意力。在图6（a）中，具有类似于ViTs的结构的FAttn在最后一帧中示出了高分，这表明在动作识别中几乎不考虑前面的帧在这里，只有最后前三帧的投球后显着贡献的性能，因此我们可以看到，FAttn没有考虑整体的时间特性。在作为时空交叉注意机制的ZAttn和BAttn的情况下，重要性分数在所有帧中同样高，如图1B所示。6（b）和（c）。当检查ZAttn和BAttn的前三个帧时，依次改变帧，诸如在投球之前、在投球和在投球之后。准确度（%）编码器解码器F-FF-F96.1F-ZF-Z97.3F-BF-B97.8F-BF-Z97.3F-ZF-B98.73339(a)充分重视(b)Z字形注意(c)二元注意力注意力注意力分数前3帧图6.验证视频的16个输入帧的相对重要性分数。条形图显示了每帧的注意力得分。当只使用完整的时空注意力时，注意力分数在动作结束时看起来很高。在锯齿形时空注意的情况下，当动作较大时，在中间帧和最后帧获得较高的注意分数。在二元时空注意的情况下，高注意力分数出现在整个动作帧中。球被认为是性能改进。交叉注意模块的准确性差异：表4示出了根据时空交叉注意模块的结构的准确度的差异。基于实验结果，我们可以看到，当ZAttn（Z）和BAttn（B）一起使用时，性能高于单独使用FAttn时的性能。当FAttn和BAttn被同等地用于编码器和解码器（F-B，F-B）时，第二高的准确度达到97.8%;但是，整个框架的重要性仍然没有得到准确的反映，因此性能略低于F-Z和F-B组合。F-B和F-Z的组合，其中BAttn应用于编码器，ZAttn应用于解码器，表现出第二低的性能，为97.3%。在实验结果的基础上，我们采用F-Z作为编码器，F-B作为解码器。通过这些实验结果，我们可以看出，为了实现准确的动作识别，需要通过所提出的时空交叉注意机制在所有帧中均匀地学习帧特征。5. 结论在本文中，我们提出了星变换器，算法的基础上的时空交叉注意模块，同时使用视频帧和基于图像的用于动作识别的功能。此外，所提出的多特征表示学习方法能够使用多类令牌灵活地组合视频帧、骨架和关节轨迹的 RGB 。作为使用 Penn-Action 和 NTU-RGB+D动作数据集测试所提出的算法的结果，证实了所提出的STAR变换器模型与以前的SoTA方法相比取得了实质性的改进在未来的研究中，我们计划开发一种算法，该算法可以有效地学习模型而不会过度拟合，即使数据量很小。此外，通过将所提出的STAR变换器扩展为结合姿势估计而不是注释姿势的模型，我们将STAR变换器修改为端到端模型，该端到端模型可以模拟地应用针对动作识别而优化的姿势特征估计和动作致谢本研究由教育部资助的韩国国家研究基金会（NRF）的基础科学研究计划（2022R1I1A3058128）支持，并于2022年获得Keimyung大学学者研究资助的部分支持。3340引用[1] S. Abnar和W. Zuidema量化变压器中的注意力流。在计算语言学协会年会上，第4190-4197页，在线，2020年7月。计算语言学协会。[2] A. Arnab，M.Dehghani湾海戈尔德角孙，M。Lucic'，以及C.施密特Vivit：一个视频视觉Transformer。在国际计算机视觉会议（ICCV）中，第6836-6846页[3] C.班迪和U.托马斯基于自注意机制的人机交互动作在自动面部和手势识别国际会议中，第1-8页IEEE，2021。[4] F.巴拉代尔角Wolf，J. Mille，and G. W·泰勒。一瞥云彩：基于非结构特征点的人体活动识别。在计算机视觉和模式识别会议中，第469-478页[5] G. Bertasius，H.Wang和L.托雷萨尼时空注意力是否是在国际机器学习会议（ICML），第2卷，第4页，2021年。[6] C. Caetano，J. Sena，F. Bre 'mond，J. 一个多斯，和W.R. 史瓦兹骨骼情感：一种新的基于运动信息的骨骼关节序列表示方法用于三维动作识别。在高级视频和基于信号的监视（AVSS）中，第1-8页。IEEE，2019。[7] J.蔡，N. Jiang，X.汉，K. Jia和J. Lu. Jolo-gcn：挖掘以关节为中心的轻量级信息用于基于动作的识别。在计算机视觉应用冬季会议（WACV）中，第2735[8] C. Cao，Y. Zhang C.，中国古猿科Zhang和H.陆用于动作识别的身体关节引导的三维深度卷积描述符。IEEETransactions on Cybernetics，48（3）：1095[9] J.Chen和C. M.何Mm-vit：多模式视频转换器，用于压缩视频动作识别。在 Winter 计算机视觉应用会议（WACV）中，第1910-1921页[10] T. Chen ，中国粘蝇 D.Zhou ， J.Wang ， S.Wang ，Y.Guan，X.He和E.丁学习多粒度时空图网络用于基于动作识别。在ACM多媒体国际会议上，第4334-4342页，2021年。[11] Y. Chen，Z. Zhang C.，中国古猿科袁湾，澳-地Li，Y.邓小平和W.胡基于骨架的动作识别的通道拓扑细化图卷积。在国际计算机视觉会议（ICCV）中，第13359-13368页[12] K.郑，Y. Zhang，X.他，W。Chen，J.Cheng，和H.陆用移位图卷积网络进行基于神经网络的动作识别。在计算机视觉和模式识别会议（CVPR），第183-192页[13] H.- G. 奇，M。H. 哈，S。Chi，S.W. 李角，澳-地Huang和K. Ramani Infogcn：基于人体骨架的动作识别表示学习。在计算机视觉和模式识别会议（CVPR），第20186-20196页[14] S.达斯，S。夏尔马河，巴西-地Dai，F. Bremond和M.托纳特VPN：学习视频姿势嵌入日常生活活动。欧洲计算机视觉会议（ECCV），第72-90页。Springer，2020年。[15] M. Davoodikakhki和K.尹层次动作分类与网络修剪。在International Symposium on Visual Computing ，第 291-305页Springer，2020年。[16] A.多索维茨基湖 Beyer ， A.Kolesnikov ，D.Weissenborn，X.翟氏T.Unterthiner，M.德加尼，M。Minderer，G.海戈德S. Gelly等人一张图片相当于16x16个单词：用于大规模图像识别的变换器。在国际会议上学习表示（ICLR），第72-90页[17] H. Duan，Y. Zhao，K. Chen，中国粘蝇D. Lin和B.戴.重新审视基于信标的动作识别。在计算机视觉和模式识别会议（CVPR），第2969-2978页[18] O.Elharrouss ， N.Almaadeed ， S.Al-Maadeed ，A.Bouridane和A.贝格达迪一种用于监控视频序列的组合式多动作识别和摘要。应用情报，51（2）：690[19] C.费希滕霍夫X3d：扩展架构以实现高效的视频识别。在计算机视觉和模式识别会议（CVPR），第203-213页[20] R. Girdhar，J.卡雷拉角Doersch和A.齐瑟曼。视频动作Transformer 网络。在计算机视觉和模式识别会议（CVPR）中，第244- 253页[21] D. Girish，V. Singh，and A.拉列斯库理解静止图像中的动作识别。在计算机视觉和模式识别研讨会（CVPRW）会议上，第370-371页[22] G. Guo和A. Lai.基于静止图像的人体动作识别研究综述。Pattern Recognition，47（10）：3343-3361，2014.[23] T. Guo，H. Liu，Z. Chen，M. Liu，T. Wang和R.丁从极度增强的骨架序列中进行对比学习，在AAAI人工智能上，第36卷，第762[24] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库胡文3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），36（7）：1325[25] W. Kay，J. Carreira，K.西蒙尼扬湾Zhang C.，中国古猿科希利尔S. Vijayanarasimhan，F. Viola，T.格林，T.Back，P. Natsev，et al.人体动作视频数据集。arXiv预印本arXiv：1705.06950，2017。[26] S. Kim，J. Nam，and B. C. Ko. Vit-net：可解释的视觉转换器与神经树解码器。在国际机器学习会议（ICML）中，第1- 13页[27] Y. Liang ， P. 周河，巴西 - 地 Zimmermann 和 S. 燕 .Dualformer：局部-全局分层Transformer，用于高效的视频识别。arXiv预印本arXiv：2112.04674，2021。[28]J. Liu，中国粘蝇A.Shahroudy，M.Perez，G.王湖，澳-地Y. 段，和A. C Kot. Ntu rgb+ d 120：3D的大规模基准3341人类活动的理解。IEEE Transactions on Pattern Analysisand Machine Intelligence（TPAMI），42（10）：2684[29] M. Liu和J.Yuan。将人的动作识别为姿态估计图的演化。在计算机视觉和模式识别（CVPR）会议上，第1159- 1168页[30] X. Liu，S.L Pintea、F.K. 奈哈达斯尔岛Booij和J.C型车G.无框架遗留：全视频动作识别。在计算机视觉和模式识别会议（CVPR）中，第14892-14901页[31] Y. Liu，H. Zhang，L. Xu和K.他外图Transformer网络与时间内核的注意力，为基于动作识别。基于知识的系统，240：108146，2022。[32] D. C. Luvizon，D. Picard和H.塔比亚使用多任务深度学习进行2D/3D姿态估计和动作识别。在计算机视觉和模式识别会议（CVPR）中，第5137-5146页[33] 诉Mazzia，S.安加拉诺湾Salvetti，F.Angelini和M.奇-阿伯格。动作转换器Transformer：一种用于基于姿态的短时人体动作识别的自注意模型模式识别， 124 ：108487，2022。[34] C. Plizzari，M. Cannici和M.马泰乌奇通过空间和时间的Transformer网络进行基于以太网的动作识别。计算机视觉和图像理解（CVIU），208：103219，2021。[35] V. Reza，H. Joze，A.沙班湾L Iuzzolino和K.小石田多模式传输模块的有线电视新闻网融合。在计算机视觉和模式识别会议（CVPR）上，第13289-13299页[36] F. Serpush，M. B.门哈吉湾Masoumi，和B.卡拉斯菲智能医疗系统中基于

下载后可阅读完整内容，剩余1页未读，立即下载