没有合适的资源?快使用搜索试试~ 我知道了~
3403基于关节映射策略的高效骨架动作识别Min-Seok Kang,Dongoh Kang,HanSaemKim Kakao Enterprise韩国京畿道板桥{ahstarwab,kito9021,kensaem} @ gmail.com摘要图卷积网络(GCN)在基于卷积神经网络的动作识别方面取得了然而,高的计算成本和大的模型大小,使模型难以应用于现实世界的嵌入式系统。具体而言,GCN应用于自动监控系统中,预先需要行人检测和人体姿态估计等模型。因此,每个模型应该是计算轻量级的,整个过程应该是实时操作的。在本文中,我们提出了两种不同的联合映射模块,以减少联合表示的数量,减轻总的计算成本和模型的大小。我们的模型实现了更好的精度-延迟权衡相比,以前的国家的最先进的两个数据集,即NTU RGB+D和NTU RGB+D120,证明了适用于实际应用。此外,我们通过使用TensorRT框架测量模型的延迟,从实用的角度比较1. 介绍近年来,可靠的自动监视系统吸引了很多兴趣,其中紧急情况,如昏迷,战斗和绑架的情况下偶尔发生在任何时候。该系统应在紧急情况发生时立即可靠由于大数据集[1,2,3]和大模型[4,5],基于视频的动作 识 别 最 近 取 得 了 显 着 的 性 能 改 进 。 特 别 是 ,Transformer模型在性能上打破了基于CNN的模型的记录此外,基于视频的动作识别方法需要大量的训练数据来处理各种场景和杂乱的背景,但需要大量的努力来收集精细的视频数据集。另一方面,基于视频的动作识别与基于视频的动作识别相比,具有许多优点,动作识别方法首先,它可以减少噪声的影响,如在动态场景中的复杂背景的其次,模型的输入消耗的内存比视频对应物少得多。第三,骨架数据可以很容易地通过数据增强(如旋转手臂,调整人体高度,对坐标进行一些扰动等)来多样化。因此,基于骨架的动作识别可以在各种场景中产生更可靠和更普遍的结果。基于骨架的动作识别使用骨架数据,骨架数据可以表示为2D或3D坐标的矢量序列。早期的基于神经网络的动作识别方法使用RNN或CNN [9,10,11,12]来处理联合表示。之后,Yan等人首先介绍了一种用于基于骨架的动作识别的图卷积网络(GCN),称为ST-GCN,并且到目前为止,它已经成为大多数基于骨架的动作识别的强大基线它们利用骨架的图形结构,其中人体的关节和连接分别表示为顶点和边。为了学习人体关节的时空表示,他们将时间边缘添加到空间图中,以在连续帧中连接相同的关节早期的基于GCN的方法在整个层中使用启发式初始化的拓扑和相同的不可训练的拓扑。然而,它们在动作识别任务中表现出次优的性能,因为很难对远距离关节之间的依赖关系进行建模,并且关节特征的语义在层之间是不同的。为了缓解这些问题,Shi et al. [13,14]首先通过将固定图划分为两个可训练图来引入图拓扑的灵活设计,即,全局图和个体图。由所有数据样本共享的全局图用反映物理连接的拓扑初始化。通过自注意机制计算个体图,该个体图表示每个数据样本的唯一图近年来,大部分的研究工作都采用了类似自适应拓扑的形式,以增强系统的适应性和灵活性。3404GCN基本上采用人体关节的坐标,但也有一些研究引入了额外的功能,以提高模型的性能。Shi等人 [13]首先介绍了一种骨特征,它是两个关节之间的向量。骨骼可以提供信息以捕获有意义的关节表示,因为它表示关节的长度和方向。Zhang等人。 [15]利用一些额外的特征,如关节类型,帧索引和速度,将空间,时间和运动信息的语义纳入GCN。Song等人 [16,17]介绍了融合三种不同输入特征(如关节、骨骼和速度)的多分支结构,以捕获复杂关节序列的更丰富信息。一些最近的作品采用不同模型的集成学习,如关节,骨骼,速度和骨骼速度,以提高性能[18,19,20,21]。然而,它会显著增加训练和推理时间,使模型在现实世界的应用中变得不切实际。对于现实世界的应用,行人检测和人体姿态估计是GCN的先决条件,整个管道应该实时运行,并做出可靠的决策。轻量级行人检测[22,23,24]和人体姿态估计[25,26,27]模型的最新发展为实时和嵌入式监控系统带来了积极的影响,而许多GCN仍然在管道中引入了不可忽略的延迟开销特别是在人群场景中,随着场景中人数的因此,为了保证足够的批量大小,需要较小的模型大小和较快的推理速度最近的GCN工作已 经 努 力 减 轻 模 型 , 考 虑 到 参 数 和 浮 点 运 算(FLOPs)的数量然而,我们根据经验发现,延迟对于动作识别模型来说可能是更关键的因素,因为应该保证最小吞吐量来识别一些动作类,特别是快速动作,如打孔、站立等。我们还发现,GCN可用的空闲内存更大,因为它们使用2D或3D坐标而不是RGB帧,RGB帧是行人检测等先决条件模型的输入或和人类姿态估计器。因此,我们专注于最大限度地减少延迟,以在现实世界的系统中应用基于机器人的动作识别。许多神经网络具有层次结构,其中不同层中的特征的语义是不同的。也就是说,抽象特征在更高层中处理。为了反映分层特征,大多数用于分类任务的CNN通常将表示压缩到低空间维度,但GCN通常保持整个层的关节数量。因此,模型可能遭受计算负担并且性能可能是次优的。我们的工作是从整个关节是否有必要识别胡的问题产生的。男人的行动。此外,GCN必须捕获分开定位的关节例如,应当捕获在空间域中相距较远的手和脚趾之间的强相关性以区分GCN通常通过为整个层的拓扑供电来扩大联合感受野,因此,可能需要更多的层来捕获有效的感受野。在这项工作中,我们解决了这个问题,通过减少关节空间的尺寸手动和adaptively,使遥远的关节可达。总的来说,我们的工作重点是建立一个轻量级和低延迟的GCN,可以运行在资源受限的设备。虽然最近的GCN变得越来越小和更快,但它们仍然不能满足有限计算资源的低延迟要求作为迈向有效的基于行为的行动识别的一步,我们的贡献总结如下:1. 受CNN的分层结构的启发,减少了整个层的特征映射的空间维度与多分支结构一起,我们的模型实现了具有竞争力的性能,与最先进的模型相比,具有更低的计算成本。2. 所提出的联合映射的消融和跨两个公共数据集NTU RGB+D [28]和NTU RGB+D 120 [29]的广泛实验证明了我们工作的有效性。特别是,我们测量了最先进的模型和我们的TensorRT框架的延迟,以显示所提出的联合映射模块的效率3. 为了展示真实世界的部署和应用程序,我们在一些移动设备上测量了我们的模型的延迟,例如Jetson AGX Xavier和iPhone XR。实验结果表明,该模型可以为基于GCN的动作识别提供实际应用的启发2. 相关作品2.1. 基于GCN的动作识别基于GCN的方法已经被证明可以成功地捕获人体骨骼数据的运动。它们可以处理动态结构化的图,并且可以直接将人体关节图设计为邻接矩阵。ST- GCN [30]是许多最近工作的强基线,其是第一个在具有不可训练骨架拓扑的动作识别中采用GCN的。他们努力设计一个拓扑图,使其具有人体的物理结构,并在所有的空间上使用相同的图3405}E其中A(i,j)=1,如果v和v是连通的,并且0其他-ij∈睿的 由于G是无向图,A是对称的,我们pp{v1,…v J是J个关节的表示集,并且是Dp2 ApD2G =(V E)V =()=层,使其在整个层中保持固定然而,由于不同层的语义不同,在GCN的所有层中使用相同的图拓扑显示出有限的性能此外,难以对关节之间的复杂依赖关系建模以识别具有不可训练拓扑的各种动作。为了缓解这些问题,后续工作引入了不与不同层共享的自适应拓扑结构,以提高模型的灵活性Lei等人 [13]介绍了具有自适应拓扑结构的2S-AGCN,该拓扑结构可以处理数据样本的变体和远距离联合建模。具体来说,他们将固定图分为两个可训练图,即全局图和个体图。全局图如在ST-GCN中那样被初始化,但是其在训练过程期间被更新。个体图是自注意模块的输出,用于捕获两个联合特征之间的Shi等人 [14]引入了有向无环图来建模关节和骨骼之间的依赖关系。Liu等人。 [18]设计了一个称为MS-G3 D的模型,该模型解开了图卷积的尺度,以去除相邻关节的冗余依赖关系,并有效地捕获远距离关节的关系。它们还将时间卷积解耦成多个分支以聚合多个时间上下文,并引入运动模态以提高性能。Cheng等人[31]将联合特征通道划分为若干组,并为每个组分配不同的拓扑以学习丰富的表示。他们还介绍了新的丢弃技术的GCN,丢弃随机节点和它们的邻居节点在一起。Ye等人。 [32]介绍了静态和动态图拓扑,它们分别是物理连接的预定义拓扑它们在整个层中将两种拓扑结构结合起来,为静态图的物理信息添加补充信息。Qin等人 [21]引入了角度模态,以提供补充信息,以用于区分动作的模型。总的来说,最近的图拓扑设计变得可训练,并根据数据样本动态变化。此外,它们在不同的层上进行了单独优化,以考虑GCN模型的层次结构。有一些以前的作品是类似于我们提出的手动关节映射模块,在这个意义上,他们分区成几个身体部位的完整关节,但他们的角色是完全不同的。一些基于LSTM的方法将关节分为几个部分,用不同的LSTM编码器处理每个部分[33,28]。一些基于GCN的作品采用联合划分来补充部分特征,以通过特征级联[34]或求和[35]来补充联合特征。Song等人。 [16]对位于分类步骤的注意力模块采用联合划分,以关注分类动作的关键身体部位。Yang等人 [36]介绍了联合划分通过平均对应于每个部分的热图来进行手势识别。另一方面,这项工作试图手动或自适应地将关节映射到更少数量的节点中,以反映深度学习模型的层次结构并降低模型复杂度。据我们所知,我们的工作是第一个减少节点的数量在中间层的GCN的模型效率和实际应用的目的。2.2. 轻型GCN模型早期的GCN倾向于过度参数化而不考虑应用,但最近的工作越来越多地集中在开发计算效率高的网络上[37,15,17,20]。Peng等人。 [37]引入神经架构搜索(NAS)来构建一个内存高效的GCN架构,消耗低成本的计算资源。Zhang等人。 [15]介绍了一种轻量级网络,并利用具有帧索引的关节类型的语义作为输入来提高模型性能。 Cheng等人[38]引入沿关节轴的移位操作,以有效地混合关节和通道维度上的信息。 Song等人[17]旨在构建一个有效的GCN基线,以便他们采用复合缩放策略来调节模型的超参数,深度和宽度。Shi等人 [39]介绍了GCN的策略网络,以自适应地选择关节和通道,从而调整准确性-效率权衡。 Chen等人[20]引入根据联合表示之间的相关性计算的通道特定拓扑,以增强特征提取的灵活性。这些工作虽然极大地减轻了内存占用,降低了计算成本,但缺乏对延迟的考虑。在这项工作中,我们使用TensorRT转换GCN,这是一个用于高性能深度学习推理的SDK,以测量推理速度并发现硬件友好的模型。在TensorRT的帮助下,我们证明了我们提出的联合映射模块和我们的网络设计在Nvidia GPU上的效率3. 预赛在本节中,我们定义了我们工作的符号,并简要描述了ST-GCN,这是最流行的基线模型。3.1. 符号骨架图表示为,,其中边集该图可以由图拓扑A表示RN×N,由邻接矩阵集合Ai,i1,以保持整个层的身份特征。一=− 11是归一化邻接矩阵,其中3406∈× ×=∑lpLD(i,i)=∑+∑,p是拓扑yp =1的通道指数x==[×]()=[× ]()S我矩阵将k设置为任意小的数字以避免被零除。GCN处理关节表示,其中T、J、C是帧、关节和变化的数量。层L处的节理特征的nels。3.2. 图卷积网络大多数基于卷积的动作识别工作都建立在ST-GCN的基础上,ST-GCN在图卷积和时间卷积之间交替。我们在这一小节中解释了ST-GCN中使用的模块的基本概念3.2.1图卷积图卷积(GC)可以分为两个步骤:特征嵌入和联合连接的应用。特征嵌入将关节表示X变换为高维特征X,如下:XsteclC0nv2D11X1,(1)其中L表示层的索引。然后,拓扑被应用于聚合来自邻居的关节特征,如下所示:SX-A-Xstec,(2)S1其中S是遵循ST-GCN[30]中引入的空间配置的拓扑的数量,并且A反映X的特征空间中的关节的连接。最近的工作使拓扑结构可训练,以提取有用的信息,为特定的行动和捕捉遥远的关节之间的关系同样,我们采用自适应拓扑,因此,Ai,j表示vi和vj之间的相关性。3.2.2时间卷积时间卷积(TC)是具有如下沿时间轴跨越的1D内核的卷积X′Conv2DKt1X ?,(3)其中Kt表示沿时间轴的核大小。 我们采用多尺度时间卷积来学习多个时间上下文。多尺度时间卷积在[18]中首次引入,并且已经成为采用多尺度时间卷积用于GCN中的时间建模的常见实践,因为它在计算上是高效的,但有助于提高性能。具体来说,我们遵循[20]中介绍的多尺度时间卷积的设计,为了效率起见,它减少了分支的数量图1.概述我们基于信标的动作识别方法。GC和TC分别表示图形卷积和时间卷积。4. 提出方法我们参考[17]中介绍的多分支设计,并采用CTR-GC块作为基本模块。特别是,我们使用[15]中介绍的方法计算了两个额外的模态,例如骨骼和速度,以生成三个输入分支。CTR-GC包含用于空间建模的通道拓扑GC,具有更高的灵活性和用于时间建模的多尺度TC。基于结构和模块,我们引入映射策略来减少层中间的关节数量,这受到CNN模型的分层结构的启发,该结构减少了整个层中特征映射的空间大小所提出的映射模块具有若干益处。首先,冗余关节的影响和模型的复杂性随着关节的数量而降低。其次,它可以使遥远的关节容易到达,因此该模型可以有效地捕获长距离的空间依赖性。总体而言,我们提出的管道可分为三个步骤:(1)用于关节嵌入的GC和TC,(2)关节映射以减少关节的数量,(3)在减少的关节之间执行互相关并对动作进行分类。我们的方法的概述如图所示。1.一、4.1. 第一步:原始关节空间中的关节嵌入首先,我们需要用GC-TC模块在原始关节空间中编码关节输入。 我们采用CTR-GC [20]作为基本模块和[17]中使用的多分支结构,其处理三种不同的模态。CTR-GC采用对数据样本唯一的逐通道拓扑,从而通过更宽的拓扑通道提高灵活性。我们在提出的联合映射模块之前使用一些CTR-GC来处理原始联合空间中的联合表示。3407′′=′′′′′p′∈××∈B⎝⎠( 产品介绍到J′节点。 它有一个残余的连接与关节明智的沿着连接维度(1≤p≤5)连接到X中。其中池表示联合池化。fp是个瓶颈一A′腿编码器臂编码器体编码器CJNXYp#$CK VJ'XYYQC0&交叉属性Concat池一A′(a) 手动映射(MM)(b)自适应映射(AM)图2.我们的两种不同的联合映射策略概述:(a)手动映射(MM)和(b)自适应映射(AM)。Q、K、V和Cross-Attt分别被称为查询、键、值和交叉关注。Pool和Concat分别指联合平均池化和联合级联。在映射模块之后,关节的数量减少到J,从而导致计算和模型复杂度降低。4.2. 第二步:联合映射模块我们提出了手动和自适应关节映射策略,以减少从J到J的关节数量。手动映射模块基于物理连接的先验知识将J个关节映射到5个节点(J5另一方面,自适应映射学习将J个关节映射到J个节点(J可以变化),其中- 任何先验知识。两个映射模块的对应图二、4.2.1手动映射我们将原始关节空间中的关节表示分为其中,Wq、Wk和Wv分别是查询、键和值投影矩阵。dk是查询和键的维度。MM模块由三个瓶颈融合块组成,即手臂、腿部和身体编码器。每个编码器处理对应的关节以产生单个关节表示。具体而言,手臂和腿部编码器以相同的权重独立地处理每一侧(左或右)我们还添加了具有联合池化层的剩余连接,以保持前一层的通道激活。综上所述,我们将X分为五个部分Xp1p5,并对每个部分进行独立处理,如下所示:X′′=fp(X′[ip],O)+Pool(X′[ip]),(5)手臂(左和右),两条腿(左和右),和主身体部位p的融合,和iBp表示联合索引的集合身体该方法的一个关键动机是学习区分部分,去除冗余的联合依赖,用于分类动作类。手动映射(MM)采用[40,41,8]中使用的瓶颈融合,使用简单的交叉注意模块将信息从原始关节空间转移到减少的关节空间。具体地,瓶颈融合fb映射输入fea-真实XpRJp C到一个随机初始化的向量OR1C,这是一个联合表示在减少联合流形。请注意,Jp是零件p的接头数,C是通道数。该等式可以公式化为:′TBpvp在属于部件P原始关节空间中。X′p′aret′h′en4.2.2自适应映射我们试图在不使用任何先验知识的情况下将联合表示映射到更低维的空间。也就是说,我们尝试训练一个映射矩阵,将关节映射到数量减少的节点,这些节点不能在人类意义上表示,但可以训练为很好地分类动作类。自适应映射(AM)模块使用自适应映射-f(X′,O)=Softmax<$WqO<$WkXp(4)ping矩阵MG∈RJ×J′,可以训练它来映射J个关节五个部分基于人体的先验知识:二DK3408×′J′×′Kt为了方便起见,我们在整个实验中设置K′=′J不′′✓ ✓ ✓MM池化层AM模块中的过程可以用公式表示如下:X′′=MG×X′+池(X′),(6)其中表示矩阵乘法。4.3. 第三步:使用联合大小的内核通过时间进行2D卷积我们采用具有J大小内核的单个2D卷积层来对减少的节点的关系进行建模,如下所示:X′′=Conv2D[J′× Kt′](X′′)。(七)表1.在NTU 60(X-sub)上对MM和AM的不同位置进行消融研究。最佳结果以粗体突出显示,其位置将在整个实验中默认设置。输入如上所述,调整大小的内核沿着时间轴步幅以执行J’节点之间的互相关。在这项工作中,类型Acc. FLOPs 延迟J BV(%)(G)(ms)✓0.64 8.55.1. 数据集✓89.4 0.58 7.6NTU RGB+D(NTU60)[28]包含56880个视频片段是✓ ✓ ✓89.1 0.67 9.890.3 0.78 12.5三个Kinect V2摄像头同时拍摄。它还提供了估计的3D骨架与25个关节的最大两个人从剪辑。此数据集有两个基准:1)交叉主题(X-sub),训练和评估数据由主题划分,以及2)交叉视图(X-view),训练和评估数据由相机视图划分。120. biggest biggest NTU 120是NTU RGB+D 60的扩展版本,包含114480个视频剪辑和120个动作类。该数据集还有两个基准:1)训练和评估的跨学科(X-sub)-表2.消融研究输入分支的数量。J、B和V分别表示关节、骨骼和速度。使用Nvidia T4 GPU测量处理8个批次的延迟。类型NTU 60(%) NTU120(%)FLOPS Lat.X-subX视图X子X集(G)(ms)电话:+86-510 - 8888888传真:+86-510 - 8888888上午90.3 95.2 86.4 88.2 0.78 12.5X-6 89.7 94.6 85.7 87.0 0.66 11.2X-7 89.8 94.7 85.9 87.2 0.81 12.5评价数据按学科划分;2)交叉设置(X-设置),训练和评估数据根据相机设置而分离。5.2. 实现细节我们的网络的实现基于PyTorch。我们在整个实验过程中在单个Nvidia-Tesla V100上训练我们的模型。我们遵循CTR-GCN [20]的相同具体地说,我们采用的SGD动量为0.9,重量衰减为0.0004。初始学习率、总时期、批量大小和帧数分别设置为0.1、65、64和64。在前5个时期使用预热策略,并且学习率以因子0.1衰减在第35和第55个时期。由于NTU 60和NTU 120数据集每人有25个关节,因此J为25。MM和AM模块的J均设置为5,补充中提供了不同J设置下的消融我们遵循[15]中介绍的数据预处理。此外,我们在Nvidia T4GPU和Coremltools上使用TensorRT 8.2.1.85.2.0用于测量延迟。表3.使用(MM,AM)和不使用(X-6,X- 7)拟定联合标测模块进行消融研究Lat.表示使用Nvidia T4 GPU测量的延迟。5.3. 消融研究5.3.1两个映射模块我们用MM和AM的不同位置进行实验,而联合映射模块的通道数量如表1所示,我们观察到将联合映射模块放置在第6层会产生最佳结果,因此我们在整个实验中将模块的位置固定在第6层。详细参数设置见补充说明。5.3.2输入数量上的烧蚀考虑到最近的GCN比先决条件模型(行人检测器和5. 实验89.2 0.7310.790.8 0.8413.2类型POS.Acc.(%)参数数(M)FLOPs(G)590.40.790.69MM690.80.890.84790.60.980.99589.80.700.66是690.30.740.78790.10.840.933409✓✓⋆ ⋆ ⋆⋆✓∼⋆∈×型号Ens.NTU60(%)NTU120(%) #Params FLOPsLatency X-sub X-viewX-sub X-set(M)(G)(ms)[30] 10.5 10.3--1.08 16.32 46.4MS-G3D [18] 89.4 - 3.20 24.44 147.5MS-G3D [18]291.5 96.2 86.9 88.4 6.40 48.88-MST-GCN [19] 89.0 95.1 82.8 84.5 2.82 16.03 82.8MST-GCN [19]491.5 96.6 87.5 88.8 11.29 64.14-Eff-GCN-B0 [17] 90.2 94.9 86.6 85.0 0.29 2.73 30.4CTR-GCN [20] 90.2 95.2 84.9 86.6 1.43 1.79 14.1CTR-GCN [20]492.4 96.8 88.9 90.6 5.72 7.16-MM-GCN90.8 95.2 86.3 87.5 0.89 0.84 13.2AM-GCN90.3 95.2 86.4 88.2 0.74 0.78 12.5表4.与NTU RGB+D 60和120数据集(分别缩写为NTU 60和NTU 120)上评估的最先进方法进行比较。使用Nvidia T4 GPU测量处理8个批次的延迟。Ens表示模型是否采用集成学习,复选标记的后缀表示输入模态的数量带有星号的结果是从作者发布的代码中获得的我们提出的模型的结果以粗体突出显示。人类姿态估计器)关于它们的模型和输入的大小,我们主要集中于发现良好的准确性-延迟权衡模型。为了找到一个更好的模型,我们进行消融的输入分支的数量。如表2所示,具有三个输入的模型提供了最佳的准确性,但有一些延迟开销。我们默认使用具有三个分支的模型,因为与最近的GCN相比,它们仍然提供具有竞争力的性能的5.3.4将给出与最近GCN的比较5.3.3联合映射模块我们对关节标测模块进行消融研究以证明其有效性。具体来说,没有联合映射模块的模型不可能应用联合大小的内核(因为内核的大小太大而无法很好地优化),因此我们在最终分类器之前用单个(X-6)或两个CTR-GC块(X-7)替换它们,以使计算成本比较公平如在表3中的实验结果,所提出的联合映射模块带来的性能改善,约1 - 2 ms的延迟开销相比,没有任何映射模块的模型。有关参数设置的更多详细信息,请参见补充资料。5.3.4与SOTA方法的比较如表4所示,我们将这两种模型的性能与其他模型进行了比较。一些模型采用一些不同输入模态(例如关节、骨骼、运动和骨骼的运动)的集成学习,因为它们可以在准确性方面有益于模型性能。然而,集成学习可以显着增加训练和推理时间可能会使模型在应用中变得不切实际。与不使用集成学习的SOTA方法相比,我们的模型在四个基准测试中实现了具有竞争力或优越性的性能,具有更低的延迟我们从作者的源代码(#Params,FLOPs,Latency和Accuracy)或论文中获得表4中的结果。6. 讨论6.1. 模型可解释性在图3中,我们展示了两个模块的联合映射结果,以及指示哪些节点更活跃(取决于操作类)的饼图。饼图来自于加权类别激活映射(Grad-CAM)[42]。具体来说,我们计算时间节点空间上每个数据样本的Grad-CAM,并找到最大值的索引(例如,帧13处的第二个节点然后,我们计算NTU RGB+D数据集上每个类的每个数据样本的最大节点(例如第二节点)。图3-(a)中所示的MM的映射结果显示了简单的结果,因为我们使用我们的先验知识手动划分了五个部分例如,“挥手”的饼图解释了训练模型通过集中在右臂或左臂来确定“挥手”。此外,我们可以猜测,在NTURGB+D中,右撇子的被试者比左撇子多。另一个例子,该模型确定了另一方面,为了清楚起见,图3-(b)中所示的自适应映射的映射结果是近似。详细地,如果MGRJJ′的元素大于MG的平均值,则突出显示M G R J ′的元素。由于每个关节影响AM模块中的每个减少的节点,因此映射结果和3410”hand” rub two hands” sit“踢东西””hand” rub two hands” sit“踢东西”(a) 手动标测(MM)(b) 自适应映射图3.映射结果和从NTU RGB+D数据集的Grad-CAM结果导出的饼图。左图展示了两个联合映射的映射结果。此外,右侧的饼图指示了哪个部分在识别不同的操作类别时更活跃。(Best以彩色和缩放图像观看)。饼图更复杂。例如,图3-(b)中的饼图解释了模型通过关注身体和腿的运动来确定进一步讨论模型延迟(ms)XR(4个批次)AGX(16个批次)CTR-GCN 170.2 54.9MM-GCNAM-GCN 82.6可视化结果可在补充资料中找到6.2. 关于应用的我们测量了模型的延迟,并将结果与CTR-GCN进行比较[20]。通过考虑相机的环境条件(例如拥挤或不拥挤)和用于模型推断的硬件,仔细调整批量大小对于低延迟和高吞吐量都是重要的。如果检测到的人的数量大于批量大小,则对于当前帧需要更多的推断步骤。在这个实验中,我们计算处理64个联合序列(帧)的延迟,不同的批量大小取决于硬件容量。iPhone XR和Jetson AGX Xavier的批量大小分别设置为4和16我们将基于Pytorch的训练模型转换为Jetson AGXXavier的TensorRT模型,并转换为iPhone XR的CoreML模型。如表4和表5所示,我们的模型在准确性和延迟方面都超过了CTR-GCN。7. 结论在这项工作中,我们提出了两个不同的联合映射模块,以减少关节的数量,为ef-表5.在不同设备上处理16人的64个序列(iPhone XR)和25个关节的延迟。ficiency的缘故。大量的实验表明,所提出的模块与多分支结构显示没有表的结果,关于准确性-延迟权衡。此外,我们通过可视化映射结果和分析NTU-RGB+D上的Grad-CAM结果,演示了我们的联合映射模块的工作原理。我们希望我们的工作可以扩展到未来的研究基于骨架的动作识别和应用在现实世界中的appli-阳离子。确认本研究得到了韩国铁路研究院研发项目(事故情况下疏散控制和乘客安全的核心技术开发,PK2202A2)的资助3411引用[1] 李昂,M e ghanaThotakuri,D a vidA. Ross,JoaoCar-reira,AlexanderVostrikov,andAndrewZisserman.AVA-Kinetics本地化人类动作视频数据集。CoRR,abs/2005.00214,2020。[2] WillKay,JoaoCarreira,KarenSimon yan,BrianZhang,Chloe Hillier , Sudheendra Vijayanarasimhan , FabioViola,Tim Green,Trevor Back,Paul Natsev,MustafaSuleyman,and Andrew Zisserman.Kinetics人体动作视频数据集。CoRR,abs/1705.06950,2017。[3] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim , ValentinHaenel , IngoFründ , PeterYianilos ,MoritzMueller-Freitag , FlorianHoppe , ChristianThurau , Ingo Bax , and Roland Memisevic.“SomethingSomething”视频数据库,用于学习和评估视觉常识。在IEEE国际计算机视觉会议,ICCV,第5843-5851页[4] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和Kinetics数据集。在IEEE计算机视觉和模式识别会议上,CVPR,第4724-4733页[5] 杜特兰Bourdev,Rob Fergus,Lorenzo Torre- sani,andManohar Paluri.用3d卷积网络学习时空特征。在IEEEInternational Conference on Computer Vision,ICCV,第4489[6] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,Mario Lucic,and Cordelia Schmid. ViViT:视频视觉Transformer。在IEEE/CVF计算机视觉国际会议上,ICCV,第6816-6826页[7] Ze Liu , Jia Ning , Yue Cao , Yixuan Wei , ZhengZhang , Stephen Lin , and Han Hu. 视 频 摆 动Transformer。CoRR,abs/2106.13230,2021。[8] Shen Yan , Xuehan Xiong , Anurag Arnab , ZhichaoLu,Mi Zhang,Chen Sun,and Cordelia Schmid.用于视频识别的多视图变换器CoRR,abs/2201.04288,2022。[9] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议,第1110-1118页[10] Jun Liu,Amir Shahroudy,Dong Xu,and Gang Wang.带有信任门的时空LSTM用于3D人类动作识别。在欧洲计算机视觉ECCV会议论文集,第816-833页[11] 金泰秀和奥斯汀·瑞特。使用时间卷积网络进行可解释的3D人体动作分析。在IEEE计算机视觉和模式识别研讨会会议上,CVPR研讨会,第1623[12] 柯秋红,穆罕默德·本那蒙,森健·安,费尔杜斯·艾哈迈德·索赫尔,法里德·布萨伊德。一种新的用于三维动作识别的骨架序列表示法。在IEEE计算机视觉和模式识别会议上,第4570-4579页[13] 石磊,张一凡,程健,卢汉青。基于骨架动作识别的双流自适应图卷积网络。在IEEE计算机视觉和模式识别会议上,CVPR,第12026[14] 石磊,张一凡,程健,卢汉青。基于骨架的动作识别与有向图神经网络。在IEEE计算机视觉和模式识别会议上,CVPR,第7912-7921页[15] Pengfei Zhang , Cuiling Lan , Wenjun Zeng , JunliangXing,Jianru Xue,and Nanning Zheng.语义引导的神经网络用于基于骨架的高效人类动作识别。IEEE计算机视觉和模式识别会议,CVPR,第1109-1118页,2020年[16] Yi-Fan Song,Zhang Zhang,Caifeng Shan,and LiangWang.更强大,更快,更容易解释:一个图形卷积基线为基础的动作识别。在MM[17] Yi-Fan Song,Zhang Zhang,Caifeng Shan,and LiangWang.构建更强大、更快速的基线,以实现基于信标的动作识别。CoRR,abs/2106.15125,2021。[18] Ziyu Liu,Hongwen Zhang,Zhenghao Chen,ZhiyongWang,and Wanli Ouyang.基于骨架的动作识别的解缠和统 一图 在IEEE计算 机视 觉和模 式识 别会议 上,CVPR,第140-149页[19] 斩尘,李思成,杨冰,李清寒,刘洪。多尺度时空图卷积网络用于基于动作识别。在第35届AAAI人工智能会议上,第1113- 1122页[20] Yuxin Chen,Ziqi Zhang,Chunfeng Yuan,Bing Li,Ying Deng,and Weiming Hu.基于骨架的动作识别的通道拓扑细化图卷积。在IEEE/CVF计算机视觉国际会议上,ICCV,第13339-13348页[21] Zhenyue Qin,Yang Liu,Pan Ji,Dongwoo Kim,LeiWang,Bob McKay,Saeed Anwar,and Tom Gedeon.图神 经 网 络 中 高 阶 特 征 的 融 合 arXiv 预 印 本 arXiv :2105.01563,2021。[22] Zhi Tian , ChunhuaShen , Hao Chen , and Tong He.FCOS:全卷积一阶段对象检测。在IEEE/CVF计算机视觉国际会议上,ICCV,第9626-9635页[23] Zheng Ge,Songtao Liu,Feng Wang,Zeming Li,andJian Sun. YOLOX:2021年超越YOLO系列。CoRR,abs/2107.08430,2021。[24] Qiang Chen , Yingming Wang , Tong Yang , XiangyuZhang,Jian Cheng,and Jian Sun.你只看一个层次的功能。在IEEE计算机视觉和模式识别会议上,第13039-13048页[25] Changqian Yu,Bin Xiao,Changxin Gao,Lu Yuan,Lei Zhang , Nong Sang , and Jingdong Wang. Lite-hrnet:A3412轻量级高分辨率网络。在IEEE计算机视觉和模式识别会议上,CVPR,第10440-10450页[26] Yihan Wang,Muyang Li,Han Cai,Wei-Ming Chen,and Song Han. Lite pose:用于2D人体姿势估计的高效架构设计。CoRR,abs/2205.01271,2022。[27] Bin Xiao,Haiping Wu,and Yichen Wei.用于人体姿态估计和跟踪的简单基线。在欧洲计算机视觉ECCV会议论文集,第472-487页[28] Amir Shahroudy,Jun Liu,Tian-Tsong Ng,and GangWang.NTU RGB+D:用于3D人类活动分析的大规模数据集。在IEEE计算机视觉和模式识别会议,CVPR,第1010-1019页[29] Jun Liu , Amir Shahroudy , Mauricio Perez , GangWang,Ling-Yu Duan,and Alex C.科特NTU RGB+D120:三维人类活动理解的大规模基准IEEETrans. 模式分析马赫内特尔第2684-2701页[30] 严思杰,熊元军,林大华。用于基于骨架的动作识别的空间时间图卷积网络。在第三十二届AAAI人工智能会议上,第7444-7452
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功