没有合适的资源?快使用搜索试试~ 我知道了~
13328具有运动一致性和连续性的Yukun Su1,2,Guosheng Lin3†,and Qingyao Wu1,2†1华南理工大学软件与工程学院2大数据与智能机器人教育3南洋理工大学计算机科学与工程学院suyukun666@gmail.com,gslin@ntu.edu.sg,qyw@scut.edu.cn摘要最近,自监督学习(SSL)已被证明是非常有效的,它可以帮助提高性能的学习表示从未标记的数据在图像域。然而,很少有人探讨它的有用性在3D骨架为基础的动作识别理解。然而,直接将现有的SSL技术应用于3D骨架学习,遭受琐碎的解决方案和不精确的表示。为了解决这些问题,我们考虑..........(a) 运动一致性(b)运动连续性...在不同回放速度下接收运动的一致性和连续性是两个关键问题。为此,我们提出了一种新的SSL方法,以有效的方式学习3D骨架具体来说,通过构造采样动作序列的正剪辑(速度改变)和负剪辑(运动中断),我们鼓励正对更接近,同时推动负对以迫使网络学习内在动态运动一致性信息。此外,为了增强学习功能,骨架插值进一步利用人体骨骼数据的连续性为了验证所提出的方法的有效性,进行了大量的实验动力学,NTU60,NTU120,和PKUMMD数据集与几种替代的网络架构。实验结果表明,我们的方法的优越性,通过它,我们可以获得显着的per-perception的改善,而不使用额外的标记数据。1. 介绍近年来,基于骨架的三维动作识别通过学习判别式,取得了显著的进展†通讯作者。图1.说明性示例(即,(a)运动一致性。 虽然这两个片段分别是连续采样(1倍速)和交替采样(2倍速),但我们可以很容易地看出它们是相似的,因为它们共享相同的基本骨骼运动和一致的运动趋势。(b) 运动连续性。当采样间隔被设置为2帧时,间隔帧的补充运动应该使整个时间运动看起来自然且连贯。深度学习网络的特征[31,33,37,49]。然而,这些方法严重依赖于监督,并且收集这样的标签是非常耗时和劳动密集的。这使得无监督学习技术的发展和大量未标注数据的利用成为迫切的需求,其中一种强有力的方法就是自监督学习(SSL)。在图像领域,由于图像包含丰富的信息,有利于特征提取,许多有效的SSL技术[3,6,11,38]得到了很好的利用。相比之下,对于通过关键关节的3D坐标位置表示人的骨架数据的任务,利用SSL技术来学习有区别的运动表示变得非常具有挑战性。一些最近的方法[53,18]试图通过直接采用现有的视频SSL技术来解决这些挑战。1倍速.2倍速.13329例如使用运动预测[7]、拼图游戏识别[26]和时间剪辑顺序预测[48]作为借口任务。对于序列数据,回放速率感知[1,43]取得了巨大的成功,并且是对时空信息建模的最常见方式,其可以帮助网络学习代表性的运动特征。然而,直接将这些方法应用于骨架数据受到两个限制:(1)自然界中的人类骨骼运动以不同的速度移动,并且预测序列的不同绝对回放速度是不确定的,这将产生如[ 11 ]中提到的平凡解。也就是说,网络可以通过简单地记住某些帧来预测相应的速率,这对特征表示学习是有害的。(2)与视频数据不同,三维骨架只包含动态运动信息,而不包含外观信息。[46,43]中探索实例外观特征的方法不适合骨架数据,这将导致不精确的学习表示。因此,如何将现有的SSL方法扩展到骨架域是一个具有挑战性的任务,并且尚未得到很好的探索。动机受人类视觉直觉的启发,我们观察到感知运动的一致性和连续性是学习运动表示的两个关键问题。如图1(a)所示,具有不同回放速度的相同运动剪辑看起来彼此相似,因为它们共享内在运动一致性(即,运动一致性)。蹲下,抬腿)。进一步说,我们将不考虑加速的“行走”运动(即:,2倍播放速度)作为“跳跃”运动,因为它们没有相同的底层运动。此外,如图1(b)所示,我们认为,当我们完全了解运动时,我们可以想象丢失帧之间的相关性,因为每个剪辑都具有运动连续性的属性。基于上述观察,我们提出了一种新的SSL方法,以有效的方式学习3D骨架表示。具体来说,我们从相同的采样运动序列构建两个剪辑作为积极和消极的对,分别。然后,我们训练网络来区分其内在的运动一致性,而不是预测每个视频剪辑的特定播放速度正对具有相同的运动但不同的回放速度,而负对具有相同的回放速度但运动中断。我们的目标是拉积极的接近,而推动负进一步向原来的在这个意义上,网络可以更多地关注骨架动态运动信息,以便学习有区别的特征表示。此外,为了鼓励网络学习增强的运动特征,我们设计了一个骨架插值模块,旨在模拟人体骨架数据的运动连续性。在该任务中,在不同回放速度下的输入动作被重构为部分的动作曲线插值率也就是说,一些加速运动可以补充丢失帧的动态信息(例如,可以将2x回放速度运动内插到1x回放速度运动中),以建立运动相干性的学习,从而更好地表示潜在的运动特征。在提出的自监督框架中,我们利用不同的深度神经网络作为骨干来学习骨架表示。为了验证我们的方法在基于3D骨架的动作理解的深度学习中的有效性,我们进行了大量的实验,涵盖了不同的设置,包括自监督预训练,对下游任务进行微调和半监督训练。实验结果表明,我们提出的方法的优越性,我们可以显着提高性能,而不需要使用任何额外的标记数据。本文的主要贡献可概括如下:• 我们提出了一种新的自监督骨架表示学习方法,通过感知运动的一致性和连续性,我们可以驱动网络学习判别运动表示特征。• 通过构造速度变化和运动中断的剪辑,我们鼓励积极对更接近,同时推动消极对,以迫使网络学习内在的运动一致性信息。此外,骨架插值被进一步利用来模拟人体骨架数据的连续性,以增强学习特征。• 在几种设置下对三种网络架构进行了广泛的实验评估,结果显示了我们提出的由自监督预训练提供动力的方法的有效性。我们认为这些发现将鼓励更多的研究无监督的借口任务设计的三维骨骼动作理解。2. 相关工作2.1. 基于骨架的动作识别人体骨骼能很好地反映人类活动的本质一些早期的工作[40,41,44]通过使用骨骼和关节之间的几何关系来识别动作。然而,这些手工制作的基于特征的方法的性能是不令人满意的。得益于深度神经网络的发展,数据驱动的方法已经成为主流方法。基于CNN的方法[19,13,22]通过设计变换规则将骨架数据转换为伪图像数据,然后执行卷积运算。利用递归层的优点 , 许 多 作 品 [54 , 50 , 51] 利 用 递 归 神 经 网 络(RNN)来模拟不同动作的长短期时间演化。然而,RNN和CNN都不能13330i=1∈·̸× × ××--M {}因此,“骨架”完全表示骨架数据的结构,因为骨架数据自然地以图形的形式而不是矢量序列或2D网格的形式嵌入。最近,图CNN [5,25]在许多非欧几里德数据的任务中显示了图表示的优势ST-GCN [49]首先提出了旨在对动态骨架序列进行建模的时空图卷积随后,Shiet al.[32]采用双流法加入自适应动态学习模块,提高了动作识别的准确率。在[17]中,Li et al.从输入数据中探索A链接和S链接,以捕获动作依赖关系,然后在训练期间对其进行细化。此外,还有一些其他基于图的方法[52,4],具有较低的计算复杂度。2.2. 自我监督学习图像:自监督学习旨在从大量未标记的数据中学习特征表示,这通常通过设置不同的借口任务并利用易于获得的自动生成的监督来实现。在图像域中,[16]执行图像着色以建立从对象到颜色的映射。在最近的研究中,一些作品[26,45]试图解决拼图问题,以学习图像中不同块的信息Komodakis等人 [15]提出了一种简单的旋转变换,使网络能够预测图像的不同旋转程度,以识别对象的特征。后来,诸如缩放、扭曲和修补等变换被应用于最新的工作[11]。随着对比学习范式[3,9]的诞生,目前的研究[47,8]大多探索构造正对和负对进行特征学习。视频:就视频领域而言,2D领域的许多方法仍然适用于3D领域。一些先前的视频自监督学习方法专注于从静态图像[42]和使用光流[27]分割对象来学习特征。近年来,一些研究工作开始关注视频中时间信息的建模。Xu等人 [48]打乱了视频剪辑的顺序,并迫使网络预测不同的顺序。Luo等人。 [23]通过保留视频剪辑生成空白,并通过对保留的剪辑应用时空操作来创建选项最近,已经提出了许多作品[1,43]来通过区分回放速度来学习特征。骨架:如前所述,以前很少有关于骨架自监督学习的研究。虽然[53]提出了一种骨架修复架构来学习长期动态,[36]利用Predict Clus- ter方式学习特征。然而,他们忽略了骨架的高级语义和时空信息,因此可能产生较少的判别特征表示。报告此外,它们只在有限的设置下测量它们的能力。Si等人。 [34]提出了仅用于半监督设置的对抗SSL学习Lin等人 [18]将现有的SSL技术应用于骨架数据,我们已经讨论过它可能会受到一些限制。因此,我们提出了一个有效的自我监督的策略来学习的表示,这是有益的三维骨架为基础的动作识别。同时,我们希望统一评价标准(例如, 使用某些网络作为骨干,并对自监督预训练进行评估,对下游任务(如2D图像域)进行微调),以促进该领域的更多后续研究。3. 方法问题定义。设=m iN是包含N个序列的骨架运动集合。我们以r i回放速度从动作集中采样剪辑c im i。我们的目标任务是以自我监督的方式学习编码器f(;θ),该编码器将骨架剪辑c i建模为其对应的特征xi,其最佳地表示潜在空间中的运动的时空特征。3.1. 空间运动一致性给定骨架动作序列,我们首先分别以回放速度ri、rj和rk对3个剪辑c i、c j和ck进行采样。 考虑到动作序列间的时间模糊性,我们从每个片段中抽取固定长度的32帧作为学习样本,并随机选取每个样本的起始帧。通常,我们考虑4个回放速度候选,其中对应的速度r分别是1、2、4、8. 例如,当r= 2,并且从第10帧开始,它包含帧 10、12、14... 72、74,总长度为32帧。如果所需的训练剪辑比原始骨架长,序列样本,我们将从头开始循环它。如图2所示,运动建模模块的核心思想为此,我们分别对三个采样输入剪辑应用不同的变换以构建三元组,例如 :,basic b=S( ri,ci),positive samplep=S ( ri , ci ) , andn ∈ iv esamplen=B ( rk ,ck),其中ri=ri= rk,S(ri)表示以相同间隔帧r均匀采样的操作,B(ri)表示随机打破子采样骨架的操作(即,混洗数据)。我们观察到,与b相比,负n打乱了骨架序列,破坏了运动的基本内容,并且破坏了原始运动的运动语义。对于正p,它改变了速度,但保留了空间和结构信息,保持了与b相同的内在运动一致性。133315原始输入数据编码器606264输入输出55解码器60 6061 6162 6263 6364 64·LK--L×我X ∈Jn=1我 n(二)拉自我监督1112233344负推不图3.运动连续性建模模块。编码器与运动一致性建模模块共享。输入以r回放速度进行采样,输出是解码器利用插值进行上采样插值的运动。图2.运动一致性建模模块。正对由变速操作构成,而负对由运动中断操作构成。然后,我们将编码器的三元组映射到一个特征空间。 目的是拉近积极的对,同时推开消极的对。然后,我们训练网络编码器f(;θ)并将三元组(ci,cj,ck)投影到嵌入特征空间,并将它们分别称为xi,xj和xk 我们期望正对的特征与负对相比更接近。这背后的假设是,网络必须首先学会理解骨架运动的基本内容,然后才能区分三元组。形式上,我们可以通过使用三重态损失来实现这个目标[29],如下所示:L= max(0,γ-(d(xi,x j)-d(xi,x k),(1)其中γ> 0是边缘超参数,d(x,x)= ||x −L的lation rate可以通过操作S(r)从原始输入数据在线地采样输入S(r)的真实值。3.2. 时间-运动连续性运动连续性建模模块利用特征解码器网络来执行,如图3所示。更具体地,对于解码器,我们使用空间-时间卷积操作[49]进行4个卷积块,并在最后一层中添加简单修改的空间-时间与之前的工作[53]不同,我们不直接重建输入骨架动作序列,而是设置特定的插值率来进行高语义骨架序列的上采样插值。与重建原始的时间数据相比,我们的目标是对丢失的间隔帧进行插值和补充,以恢复整个动作,使整个时间运动看起来连贯和自然,这可以驱动网络更好地捕捉不同的时间。XJ||2且d(xi,xk)=||xi−xk||二、i j i相邻帧之间的动态关系,并了解运动的本质值得一提的是,我们只考虑在同一骨架动作序列内构造否定对在训练过程中,我们还可以使用其他动作序列作为负样本来训练我们的网络,以学习更多的深度运动表示特征。具体地,我们将(ci,cj )保持为正态对,并对K个剪辑进行c nn=1,以形成in(c i,c n)作为负对。我们将以[10]为基础,培训损失来实现这一目标:exp(d(xi,xj)/τ)LNCE=−logexp(d(x,x)/τ)+ΣKexp(d(x,x)/τ),为了预测插值运动,我们生成如图3中黑色箭头部分所示的我们假设内插速率设置为L,这意味着可以从跨r个帧的原始输入骨架数据在线采样内插的地面实况。即,内插帧的总长度是输入骨架样本的l倍。当输入的骨架片段以其原始速度以1速率采样时,我们重复该片段并将这些l片段拼接在一起。请注意,我们只考虑对来自编码器的速度改变的剪辑的输出进行上插值,而忽略运动中断的剪辑,因为运动中断的数据丢失原始动作的连续性,并对它们进行其中τ是影响分布浓度水平的温度超参数。我们使用大小为K的存储体来保存[9]中提出的特征。会破坏网络的学习能力形式上,表示插值地面实况Rn×3× T ′,其中n是关节数,T′表示关节数t-4t-2不t+2日t+4S(2x)变速运动-无接触积极t-2t-1tt+1t+2日S(1x速不动断基本t t-1t-2t+1t+2日B(1x.........13332·LITEPLLnT′i,:,ti,:,t21ΣΣ4.2.实现细节的帧。当我们获得预测的3D内插系数时,训练损失函数可以被定义为:nT′L=<$X <$− X <$2,(3)i=1t =1包含近20,000个动作实例和52个动作类别中的540万帧。 每个样本由25个人体关节组成。该数据集由两部分组成,它也被分成交叉主题(X-sub)和交叉视图(X-view)子集。最后,我们在两个任务上联合训练网络(运动一致性和连续性)。总目标函数可以用公式表示如下:L总 其中,λ1、λ2和λ3是三个权重超参数。4. 实验为了验证我们的方法,我们在四个数据集上对我们的配方进行了广泛的实验评估。首先,由于NTU 60-RGBD数据集[30]是最常用的然后,为了找出编码器f(;θ)是否可以学习具有自我监督的骨架序列的良好表示特征,我们在不同的设置下完成了其他实验。4.1. 数据集NTU 60-RGBD [30]:该数据集包含60个动作类中的56,000个动作片段。在骨架序列中,每个主体有25个关节。数据集的原始论文推荐了两个基准:1)具有用于训练和评估的40,320和16,560个剪辑的交叉受试者(X-Sub)基准; 2)交叉视图(X-View)基准37,920和18,960个剪辑。此设置中的训练剪辑来自摄影机视图2和3,评估剪辑全部来自摄影机视图1。NTU 120-RGBD [20]:数据集包含120个动作类中的114,480个动作样本。数据集的原始论文推荐了两个基准:(1)跨学科(X-sub)基准:将106个受试者分成训练组和测试组。每组包含53名受试者。(2)交叉设置(X-setup)基准:训练数据来自具有偶数设置ID的样本,并且测试数据来自具有奇数设置ID的样本。Kinetics-Skeleton [12]:这是一个用于400个类中的人类动作分析的大型数据集。数据集分为训练集(240,000个剪辑)和验证集(20,000个剪辑)。由于仅提供原始视频剪辑,因此可以通过使用OpenPose工具箱[2]估计某些像素上的关节位置来获得骨骼数据,并且每个样本由18个身体关节组成。PKUMMD [21]:PKU Multi-Modality数据集是人类行为理解的新的大规模基准。它训练 我们的网络建立在PyTorch库之上。我们使用随机梯度下降(SGD)作为优化策略。学习率初始设置为0.1,动量为0.9,权重衰减设置为0.0001。我们的方法中的参数由经验设定为λ1= 1,λ2= 1和λ3= 1。 温度因子τ设定为0.5,内插率L为2。我们设置γ= 0.15,并且K= 6536用于存储体大小。对于Kinetics-Skeleton数据集,批大小为256,对于其他三个数据集,批大小为64。由于我们采用三种不同的网络架构[49,32,17]进行实验,因此我们严格遵循原始论文中的其他设置,包括总训练时期,不同时期的学习率下降以及数据预处理。所有的实验都是在4颗TITANX GPU上进行的。设置. (1)自我监督的预训练:与从头开始训练和随机初始化网络的权重相比,我们使用从自监督任务中学习的权重初始化编码器,然后学习分类器进行动作识别。(2)半监督:编码器使用未标记的数据进行预训练,然后使用非常小的百分比(即,使用分类器进行训练)。5%-10%)的训练标记数据。(3)微调:编码器在较大数据集上用未标记的数据进行预训练,其中预训练的权重用作初始化,并且在目标下游任务(小数据集)上进一步细化。4.3. 消融研究为了探索我们所提出的方法的学习特性,我们将它们应用到三个不同的骨干网络的设置下的自我监督的预训练,研究的有效性。更多细节在下文中示出。借口损失的影响。如表1所示,与从头开始训练相比,使用不同的借口任务进行自我预训练有助于提高动作再认绩效。具体地,对于运动一致性借口任务,仅使用三元组比仅NCE更好地工作。这是因为我们使用其他视频片段作为负对,仍然存在许多人工线索[14]来区分两个视频以供网络解决任务,这将导致学习表示不佳当我们结合这些损失时,我们可以进一步提升网络性能,这验证了它可以学习更多的深度运动表示,正如我们在第2节中提到的那样第3.1条对于运动连续性任务,仅采用Itep也可以帮助三个骨干网改善不同的性能。13333目标帧训练前设置NTU 60 X-sub NTU 60 X-view表1.在NTU 60-RGBD数据集上探索不同的预训练设置。所有模型都是在NTU 60-RGBD数据集本身上进行预训练的,除了w/o预训练设置。正负NTU 60 X-sub NTU 60 X-viewS-改变M-抖动81.9 88.6S-改变的V-转换的81.7 88.7- M-洗牌81.8 88.6S-changed M-shuffled82.3 89.2插值表2.在NTU 60-RGBD数据集上探索构造运动对的不同操作。所有方法都在具有ST-GCN [49]骨架的NTU 60-RGBD本身上进行预训练。S、M和V分别表示速度、运动和视图t=4t=12 t=20 t=28 t=36方法NTU 60 X-sub NTU 60 X-view直接重建82.088.8特定速率插值82.589.4表3. NTU 60-RGBD数据集上不同运动连续性建模操作的探索。所有方法都在具有ST-GCN [49]骨架的NTU 60-RGBD本身上进行预训练。在准确性方面。当我们使用三种损耗对网络进行联合训练时,三个骨干网络都能达到最佳性能。运动一致性对的效果 我们还揭示了不同的操作来打破运动的一致性,以传导负对的学习。其中,M抖动和V变换意味着我们随机抖动骨架(例如,添加一些噪声以干扰骨架关节)并分别变换骨架点的坐标框架。如表2所示,从中我们可以得出结论,S-改变的正对和M-混洗的负对对于网络学习内在运动表示是有效的特定插值的效果表3中的结果表明,与直接重建相比,特定速率插值实现了更好的性能,并且它可以驱动网络学习更多的关键表示。如前所述,上采样插值可以帮助网络预测和模拟相邻帧之间的关系,这可以对相邻帧的时间连续性进行建模。图4.来自具有ST-GCN [49]主干的运动连续性建模模块的插值骨架动作样本我们在NTU 60-RGBD数据集中呈现了“玩手机/平板电脑”的动作内插运动和地面实况目标都被示出。动议虽然我们的自监督学习方法不是专门为插值人体骨骼而设计的,但是,如图4所示,我们的插值结果基本符合预期。通过这种自学习策略,可以使编码器提取出更高语义表示的特征。4.4. 评价自我监督的预培训。我们比较我们的方法称为MCC(运动C一致性和C连续性)与国家的最先进的无监督学习方法。除此之外,我们直接将视频领域中最新的现有SSL技术应用于骨架数据。如表4所示,我们的MCC在三个数据集上的所有骨干网络上都取得了最佳结果这表明我们提出的方法允许网络学习运动的潜在特征表示,并且它可以在不使用额外的标记数据进行训练的情况下提高骨架动作识别此外,研究结果还表明,现有的SSL策略不适合骨架数据,这符合我们在第二节中提到的限制。1.一、同时,在训练过程中,我们发现ST-GCN2S-AGCNAS-GCNST-GCN2S-AGCNAS-GCN无预培训81.588.586.888.395.194.2仅w/L三联体82岁3 +0。889岁。2 +0。787岁6 +0。88 9. 2 +0。9九十五九加零。894 九加零。7仅含LNCE81. 8 +0。389岁。0 +0。587岁2 +0。4八点八。7 +0。4九十五7 +0。694 5 +0。3仅w/LItep82岁五加一。089岁。3 +0。887岁6 +0。78 9. 四加一。1九十五九加零。8九十五0+ 0。813334方法架构NTU60 NTU120动力学表4.在NTU60、NTU120和Kinetics数据集上与其他自监督方法进行比较(* 表示我们的复制结果。)NTU-60网络5%数据10%数据 X-sub X-view X-sub X-viewNTU-1205%数据10%数据X-sub X-setup X-sub X-setup动力学10%数据首页-1首页-5ST-GCN [49]38.240.452.456.925.327.137.640.111.928.6+MCC(我们的)四十二四加四。24个4.七加四。355. 六加三。2五十九九加三。029. 七加四。431岁三加四。2四十七加三。1四三。四加三。3十四岁八加二。9三十二二加三。62s-AGCN [32]43.549.157.262.029.230.844.148.718.634.8+MCC(我们的)四十七四加三。95个3.三加四。2六十岁。八加三。6六十五八加三。8三点三八加四。6三十五一加四。3四十七0+ 2。95. 1. 八加三。121岁三加二。7三十七九加三。1AS-GCN [17]41.144.755.759.527.428.941.244.617.133.7+MCC(我们的)四十五五加四。44 9. 2 +4。5五十九二加三。563岁一加三。631. 六加四。2三十二九加四。044. 九加三。7四个七八加三。220块二加三。1三十七五加三。8表5.评估NTU 60、NTU 120和Kinetics数据集上的半监督结果,其中训练数据的标签为5%、10%。“+ MCC” indicates training thenetwork by initializing the self-supervised pre-trained weights of our proposed用自监督预训练权重初始化的网络可以加快收敛速度以达到所需的精度,这可以帮助我们在有限的骨干预训练数据集PKUMMD(Acc.)无预培训48.29. casino 六加一。4时间值得一提的是,我们首次在3个主流和具有挑战性的数据集(NTU60,NTU120,Kinetics)上评估了3D骨架的学习表示,这证明了其有效性和通用性ST-GCNNTU60X-vi e w5 1. 八加三。6NTU60X-sub5 2. 七加四。5NTU120X-setup5 0. 五加二。3NTU120X-sub5 4. 五加六。3我们的方法。半监督训练在某些情况下,我们可以使用的标记数据非常少,这使得我们很难如表5所示,当我们使用少量数据(即、5%、10%的数据)从头开始训练,模型的准确率会急剧下降。在我们采用自监督预训练的权重后,值得注意的是,与随机初始化模型相比,我们可以在所有网络结构中获得显着的提升。具体地,在三个主链中,下面的图5比较了表6.探索不同的预训练数据集,以在PKUMD第二部分子集上进行微调。当只有10%的Kinetics数据时,通过使用自监督学习和从头开始训练的骨骼响应可以看出,自监督训练后的模型学习每个骨架点之间的连接更令人尊敬,而不是仅仅记住某个骨架点或特征进行推理。对下游任务进行微调。作为图像和视频领域的常见实X-subX视图X-subX设置top-1top-5LongT GAN [53]AAAI单向GRU-49.6*----MS2L [18]ACMMM'2020BiGRU78.8*81.8*----VPD [24]ECCV'2020SeBiReNet-81.4*----ST-GCN82.188.676.076.831.353.5剪辑顺序预测[48]CVPR2S-AGCN89.095.880.682.536.859.7As-GCN87.594.978.480.035.657.4ST-GCN81.889.076.377.131.753.8拼图识别[14]AAAI2S-AGCN88.895.480.882.436.659.4As-GCN87.194.678.679.935.857.7ST-GCN81.588.875.875.931.353.6[1]CVPR'20202S-AGCN89.295.680.382.136.359.1As-GCN87.395.078.079.835.257.0ST-GCN83.089.777.077.832.354.6MCC(我们的)2S-AGCN89.796.381.383.338.160.8As-GCN88.495.579.480.836.458.613335践,他们在大规模ImageNet 上执行自监督预训练[28],13336→→从零开始自我监督学习图5.ST-GCN [49]主干最后一层中运动序列中所有关节(白点)的响应幅度太极视频序列选自UCF101 [35]数据集的剪辑,间隔为30帧。Kinetics [12]数据集,然后使用辅助核算辅助核算+微调图6.PKUMMD数据集上ST-GCN [49]骨架的最后一层特征的t-SNE [39]可视化(a)Sup使用监督目标从头开始训练标记样本(b)Sup + fine-tune通过自监督预训练从上游数据集微调学习的权重来训练。学习权重,最后在小数据集上训练验证学习表征的可转移性。首先,我们探索了不同预训练数据集对下游任务进行微调的影响(为了简单起见,我们在ST-GCN骨干上进行了比较实验如表6所示,当从头开始训练时,网络的准确率为48.2%。当我们在PKUMMD数据集上进行预训练时,我们可以获得1.4%的改进。当将NTU数据集应用于自监督预训练时,我们可以通过大幅度提高准确性。其中,NTU120 X-sub子集为我们带来了6.3%的提升,这说明了3D骨架中学习表示的转移能力的好处。接下来,我们将网络性能与PKUMMD数据集上的其他方法进行比较(除了w/o预训练设置之外,所有网络都在NTU数据集上进行了预训练)。如表7所示,MCC增加了accu-与随机初始化模型相比,在三种骨干网络结构上,RACY分别提高了6.3%、6.2%和5.6%。此外,尽管主干不同,但与LongT GAN [53](43.1%)相比,我们的方法可以获得更多的相对性能提升44.8%)和MS2L [18](45.7%45.8%)。 通过使用手动注释,完全支持用于微调的监督方法可以实现最佳性能,然而,地面真实标签难以收集,并且我们的SSL方法的结果接近于全监督方式的结果,这显示了从所提出的方法学习的区分性特征的益处。最后,如图6所示,在微调的益处下,Sup +微调的特征呈现出比Sup更具区分性的分布,其示出了紧凑的类内距离和更可区分的类间距离。5. 结论在本文中,我们提出了一种新的自监督学习的方法,基于骨架的动作识别。通过构造正负对剪辑,我们鼓励表7.PKUMD第二部分子集上动作识别迁移学习结果的比较(* 表示我们的复制结果。)网络来分离它们以学习内在的动态运动一致性信息。在此基础上,进一步利用骨架插值技术对人体骨架数据的连续性进行建模.广泛的评估证明了我们的方法的有效性。我们希望这些发现将鼓励更多关于3D骨架表示学习的研究。确认这 项 工 作 得 到 了 国 家 自 然 科 学 基 金 ( NSFC )61876208,广东省重点领域研究与发展计划2018 B010108002,中国中央大学资助D2192860和新加坡国家研究基金会AI新加坡计划(AISG Award No:AISG-RP-2018-003 ) 和 MoE 一 级 研 究 补 助 金 : RG 28/18(S)、RG 22/19(S)和RG 95/20。方法架构PKUMMD(Acc.)[53]第五十三话单向GRU44.8MS2 L [18]BiGRU45.8LongT GAN43.1*MS2 L45.7无预培训ST-GCN48.22S-AGCN54.6AS-GCN52.8LongT GAN48.4*MS2 L49.8*完全监督ST-GCN60.52S-AGCN66.8AS-GCN65.4ST-GCN54.5MCC(我们的)2S-AGCN60.813337引用[1] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet:学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集,第9922-9931页,2020年。二、三、七[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集,第7291-7299页,2017年。5[3] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。第1、3条[4] Ke Cheng,Yifan Zhang,Xiangyu He,Weihan Chen,Jian Cheng,and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第183-192页,2020年。3[5] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展,第3844-3852页,2016年。3[6] 风泽宇,常旭,大成涛。通过旋转特征解耦的自监督表示学习。在IEEE计算机视觉和模式识别会议论文集,第10364-10374页,2019年。1[7] Tengda Han,Weidi Xie,and Andrew Zisserman.通过密集预测编码的视频表示学习在IEEE/CVF计算机视觉研讨会国际会议上,第0-0页,2019年2[8] Kaveh Hassani和Amir Hosein Khasahmadi。图上的对比多 视 图 表 示 学 习 arXiv 预 印 本 arXiv : 2006.05582 ,2020。3[9] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页三、四[10] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过相互信息估计和最大化来学习深度表示。arXiv预印本arXiv:1808.06670,2018。4[11] Simon Jenni,Hailin Jin,and Paolo Favaro.引导自监督特征学习超越局部像素统计。在IEEE/CVF计算机视觉和模式识别会议论文集,第6408-6417页,2020年。一、二、三[12] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。五、八[13] Qiuhong Ke , Mohammed Bennamoun , Senjian An ,Ferdous Sohel,and Farid Boussaid.skele的一种新表示用于3D动作识别的色调序列。在IEEE计算机视觉和模式识别会议论文集,第3288-3297页,2017年。2[14] Dahun Kim,Donghyeon Cho,and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI人工智能会议论文集,第33卷,第8545-8552页,2019年。五、七[15] Nikos Komodakis和Spyros Gidaris。通过预测图像旋转的无监督表示学习。在国际学习代表会议(ICLR),2018年。3[16] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。欧洲计算机视觉会议,第577-593页。施普林格,2016年。3[17] Maosen Li,Siheng Chen,Xu Chen,Ya Zhang,YafengWang,and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE计算机视觉和模式识别会议论文集,第3595-3603页,2019年。三、五、七[18] Lilang Lin , Sijie Song , Wenhan Yang , and JiayingLiu.Ms2l:多任务自监督学习,用于基于骨架的动作识别。第28届ACM国际多媒体会议论文集,第2490-2498页,2020年。一、三、七、八[19] 刘红,涂隽慧,刘梦圆。 基于骨架动作识别的双流3d卷 积 神 经 网 络 。 arXiv 预 印 本 arXiv : 1705.08106 ,2017。2[20] Jun Liu,Amir Shahroudy,Mauricio Lisboa Perez,GangWang , Ling-Yu Duan , and Alex Kot Chichung.Nturgb+ d 120:一个大规模的三维人体活动的基准了解。IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。5[21] Jiaying Liu,Sijie Song,Chunhui Liu,Yanghao Li,andYueyu Hu.多模态人类行为分析的基准数据集和比较研究 。 ACM Transactions on Multimedia Computing ,Communications , and Applications ( TOMM ) , 16(2):1-24,2020. 5[22] 刘梦媛,刘红,陈晨。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功