无监督骨架云着色技术在3D动作识别中的应用

2 浏览量更新于2023-10-13 收藏 894KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13423用于无监督3D动作表示学习的杨思远1刘军2*石建路1孟华二1Alex C. Kot11南洋理工大学2新加坡科技与设计大学siyuan005@e.ntu.edu.sgjunliu@sutd.edu.sg{Shijian.Lu，emher，eackot}@ ntu.edu.sg摘要基于骨架的人体动作识别近年来受到越来越多的关注。然而，大多数现有的工作集中在监督学习，需要大量的注释的动作序列，往往是昂贵的收集。我们研究了骨架动作识别的无监督表示学习，并设计了一种新的骨架云着色技术，该技术能够从未标记的骨架序列数据中学习骨架表示。具体来说，我们将骨架动作序列表示为3D骨架云，并根据以下公式对云中的每个点进行着色：其在原始（未注释的）骨架序列中的时间和空间顺序。利用彩色化的骨骼点云，我们设计了一个自动编码器框架，可以有效地从骨骼关节的人工颜色标签中学习时空特征。我们评估我们的骨架云着色方法与动作分类器在不同的配置下训练，包括无监督，半监督和全监督设置。在NTU RGB+D和NW-UCLA数据集上的大量实验表明，该方法的识别性能明显优于现有的非监督和半监督3D动作识别方法，在有监督的3D动作识别中也取得了较好的效果.1. 介绍人体动作识别在人机交互、视频监控、游戏控制等领域有着广泛的应用，是一个快速发展的领域。根据输入数据的类型，人类动作识别可以被分组为不同的类别，诸如基于RGB的[2，35，38，42，47，48]。49、55、56]、基于深度的[26、28、45]和基于3D[1，9，17，18，20，21，31]等。在这些类型的输入中，通过3D空间中的关键点的位置来表示人体的3D骨架数据已经吸引了越来越多的人。*通讯作者。近年来引起了人们的注意与RGB视频或深度数据相比，3D骨架数据对人类行为的高级表示进行编码，并且它通常是轻量级的并且对于外观、周围失真、视点变化等的变化是鲁棒的另外，骨架序列可以容易地被深度传感器捕获，并且因此已经设计了大量的监督方法来学习用于基于骨架的动作识别的时空表示。深度神经网络已被广泛研究，以在监督场景下对骨架序列的时空表示进行建模[9，20，21，31]。例如，循环神经网络（RNN）已经被探索用于建模骨架动作，因为它可以很好地捕获时间关系[6，20，21，29，52]。卷积神经网络（CNN）也被探索用于通过将联合坐标转换为2D地图来构建基于骨架的识别框架[5，9，13，43]。此外，图卷积网络（GCN）由于其出色的性能而吸引了越来越多的关注[27，31，48]。然而，所有这些方法都是有监督的，这需要大量的标记训练样本，这些样本的收集成本很高。因此，如何学习有效的特征表示与最小的注释，成为至关重要的。据我们所知，只有少数作品[10，14，19，37，54]探索了从未标记的骨架数据中学习表示的动作识别任务，其中主要方法是通过某些编码器-解码器结构从编码特征中重建骨架序列。无监督的基于骨架的动作表示学习仍然是一个巨大的挑战。在这项工作中，我们提出将骨架序列表示我们把一个骨架序列作为一个时空骨架云堆叠在一起的所有帧的骨架数据，并着色云中的每个点，根据其在原始骨架序列的时间和空间顺序。具体来说，我们通过以下方式从相应关节的颜色中学习时空特征13424图1.我们提出的无监督表示学习方法的流水线，使用一种新的骨架云着色方案。给定3D骨架序列，我们首先将其堆叠成原始骨架云Pr，然后将其着色成3个骨架云Pτ、Ps和Pp（构造细节在图1A和1B中示出）图3和图4）分别根据空间、时间和人水平信息以三个彩色云作为自监督信号，三个编码器-解码器（具有相同的结构但没有权重共享）学习有区别的骨架代表特征。(The编码器和解码器细节在补充材料中提供利用如图1B所示的基于点云的自动编码器框架。1.一、通过重新绘制整个骨架云，我们的网络可以通过从未标记的骨架序列中学习空间和时间信息来成功地实现无监督的骨架表示学习。本文的贡献有三个方面。首先，我们将无监督动作表示学习表示为3D骨架云重绘问题，其中每个骨架序列被视为骨架云，并且可以直接使用点云自动编码器框架进行处理。其次，我们提出了一种新的骨架云colorization- tion计划，着色骨架云的时间和空间顺序的基础上，在骨架序列中的每个点。颜色标签“制造”自我监督信号，显著第三，大量的实验表明，我们的方法优于国家的最先进的无监督和半监督的骨骼动作识别方法的大幅度，其性能也与监督的基于骨骼的动作识别方法。据我们所知，这是第一个将无监督骨架表示学习问题转换为新的骨架云重绘任务的工作。2. 相关工作基于骨架的动作识别。基于骨架的AC-近来，特征识别吸引了越来越多的兴趣。与设计手工特征的传统方法不同[8，39，40，46]，基于深度学习的方法采用递归神经网络（RNN），卷积神经网络（CNN）和图形卷积网络（GCN）来直接学习骨架序列表示。具体地，RNN已被广泛用于对基于骨架的动作识别的时间依赖性进行建模。例如，[6]使用分层RNN模型来表示人体结构和身体关节的时间动态。[20，21]提出了一种2D时空LSTM框架，以同时在空间和时间域上使用动作相关信息的隐藏源。[52]在LSTM中添加了一个视图自适应方案来调节观察视点。基于CNN的方法[5，9，13，43]也被提出用于骨架动作识别。它们通常将骨架序列转换为相同目标大小的骨架图例如，[5，13]通过将关节坐标（x，y，z）视为像素的R，G和B通道，将骨架序列转换为图像。[9]将3D骨架数据转换为三个骨架剪辑，以进行鲁棒的动作特征学习。[43]提出了一个受人类3D骨架自然是拓扑图的观察的启发，GraphConvolutional13425×∈∈{|}{|}∈···∈···基于骨架的动作识别方法越来越受到人们的关注。例如，[48]提出了一种时空GCN，用于从骨架数据中学习空间和时间模式。[31]使用具有时空GCN的非局部方法来提高性能。[30]使用骨骼特征进行基于骨架的动作识别。[27]通过经由神经架构搜索在不同层搜索不同的图来识别动作尽管上述方法实现了非常令人印象深刻的性能，但是它们都是有监督的，需要大量的标记数据，这是非常耗时的收集。在这项工作中，我们研究了基于骨架的动作识别中的无监督表示学习这极大地减轻了数据标记约束。用于动作识别的无监督表示学习。无监督动作识别旨在通过预测输入序列的未来帧或通过重新生成序列来学习有效的特征表示。大多数现有的方法集中在RGB视频或RGB-D视频。例如，[36]使用基于LSTM的编码器-解码器架构来学习视频表示[23]使用基于RNN的编码器-解码器框架来预测用RGB-D模态计算的流[15]使用未标记的视频来学习视图不变的视频表示。无监督的基于骨架的动作识别在很大程度上被忽视，虽然一些作品试图解决这个具有挑战性的任务最近。例如，[54]提出了一个GAN编码器-解码器来重新生成掩码输入序列。[10]采用分层融合方法来改进人体运动生成。[37]提出了一种解码器弱化策略来驱动编码器学习区分性动作特征。上述方法均逐帧处理骨架序列，并从有序序列中提取时间特征。相反，我们把一个骨架序列作为一个新的彩色骨架云堆叠在一起的每个帧的人体关节。我们设计了一种新的骨架着色方案，并利用颜色信息进行无监督时空表示学习。3. 方法在本节中，我们将介绍我们的骨架云着色表示学习方法，该方法将骨架序列转换为骨架云，并通过其时空属性对云中特别是，我们提出了如何构建骨架云在第节3.1 并在第3.2节中描述着色步骤。管道重新喷漆和培训详情分别在第3.3节和第3.4节中描述。3.1. 数据处理给定全局坐标系下的骨架序列S，第t帧中的第j个骨架关节表示为图2.时间索引t和空间索引j的着色方案的图示。顶部：当改变t或j（其中t[1，T];j[1，J]）时每个颜色通道（RGB）的定义。底部：时间索引t和空间索引j的对应颜色。随着点的时间/空间顺序指数的增加（彩色效果v t，j=[x t，j，y t，j，z t，j]，t（一、，T），j（一、，J），其中T和J分别表示帧和身体关节的数量。通常，骨架数据被定义为序列，并且第t帧中的关节的集合被表示为V t=v t，j j=1，…J.我们建议通过将所有帧的数据堆叠在一起来将骨架序列中的所有关节作为一个整体来处理，并且图1示出了一种基于关节的骨骼模型1说明了堆叠框架。我们将堆叠的数据命名为骨架云，并将其表示为Pr= v t，j=[x t，j，y t，j，z t，j] t =1，... T; j = l，… J.因此，所获得的3D骨架云总共由N =T J个3D点组成。我们使用Pr来表示原始骨架云，以便将其与稍后描述的彩色云3.2. 骨架云着色骨架云内的点以3D空间坐标（x，y，z）定位，这类似于由无序点组成的正常骨架云点的空间关系和时间依赖性在基于骨架的动作识别中是至关重要的，但它们在上述原始骨架云数据中被很大程度上忽略了。我们提出了一种创新的骨架云着色方法，利用空间关系和时间依赖性的骨架云点的无监督的基于骨架的动作表示学习。时间着色：时间信息在动作识别中是至关重要的。为了给骨架云中的每个点分配一个时间特征，我们根据它们在原始骨架序列中的相对时间顺序（从1到T）对骨架云点进行着色已经报道了不同的着色方案，这里我们采用使用3个RGB通道的着色方案[4]，如图所示在图2中。在此配色方案下，生成的颜色实际上相对线性。因此，来自相邻帧的点在该分布下被分配有类似的颜色13426..}{||}t，j，n1}∪{v}.∈.p图3.时间彩色化和空间彩色化的流水线（a）给定骨架序列，时间着色基于序列数据中的相对时间顺序t（t∈[1，T]）对点进行着色。(b)空间着色基于关节j（j∈[1，J]）的索引对点进行着色。（彩色效果这有助于学习时间顺序信息。R、G、B通道的值分布可以用公式表示如下：τt，jτt，jbτ=−2×（t/T）+1，如果t=T/20，如果t >T/2=2×（t/T），如果t=T/2−2×（t/T）+2，如果t>T/2=.0，如果t<=T/2（一）（二）（三）图4.个人级别的彩色化。第一个人.0，如果j<= J/2BSt，j2×（t/T）−1，如果t>T/2扒了=2×（j/J）−1，如果j>J/2（六）有了这个着色方案，我们可以分配不同的我们将空间着色的骨架云为颜色从不同的帧的点基于帧的Ss s s指数测试如图所示。第3（a）段。更具体地，利用这种基于时间索引的着色方案，每个点将具有可以利用红色、绿色和蓝色通道（RGB通道）可视化的3通道特征。来表示其时间信息。与原始3D坐标信息一起，时间上的坐标信息可以是3D坐标。有序骨架云可以表示为vt，j =[x t，j，y t，j，z t，j，rt，j，gt，j，bt，j] t =1，...， T; j =1、…J.随着骨架中关节的空间顺序指数的增加，点将被分配有不同的从红到蓝再到绿的渐变色个人级着色：人类动作包含丰富的人的交互信息，如在NTU RGB+D [29]中，这对骨架动作识别很重要。我们τ τ τt，j因此，提出了一个人级的彩色化方案，[x t，j，y t，j，z t，j，rt，j，gt，j，bt，j] t = 1，...，T; j = l，… J.空间着色：除了时间信息之外，空间信息对于动作识别也是非常重要。我们采用类似的彩色化方案来对空间信息进行彩色化，如图1所示。二、该方案根据不同点的空间顺序j[1，J]（J是人的骨骼云中的关节总数）将不同的颜色标记给不同的点，如图3（b）所示。R、G、B通道的值的分布可以是动作识别我们专注于场景中的人类互动- volve两个人，并应用不同的颜色，以不同的人的点。具体地，我们用红色编码第一人4.第一章个人层面因此，彩色云可以表示为P p={v=[x t，j，n，y t，j，n，z t，j，n，1，0，0]|t = 1，…，T; j = l，… J; n =计算如下：pt，j，n=[x t，j，n，y t，j，n，z t，j，n，0，0，1]|t= 1，…，T; j =st，js t，j=−2×（j/J）+1，如果j<=J/20，如果j> J/2=2×（j/J），如果j<=J/2−2×（j/J）+2，如果j> J/2RGRG13427（四）（五）1、…J;n=2，其中n=1和n=2意味着点分别属于第一和第二人。给定原始骨架云，三个彩色化方案因此构建三个彩色化骨架云Pτ、Ps和Pp，其捕获时间依赖性、空间相关性和空间相关性。13428×v−v^ˆˆv^−v^Σ和人类交互信息。3.3. 管道重新喷漆受自监督学习成功的启发，我们的目标是通过学习以自监督方式重绘原始骨架云Pr来提取时间、空间和交互信息。如示于图1中，我们分别使用彩色骨架云（时间级P τ、空间级Ps和个人级P p）作为三种自我监督信号。该框架由编码器E（. ）和解码器D（. ）的情况。由于我们具有三个着色方案，因此我们具有三对编码器（Et（. ），E s（. ）和E（. ））和解码器（D（. ）、D（. ）和D（. ））。下面我们表1.与NTU RGB+D数据集上最先进的无监督骨架动作识别方法的比较评价设置如[10，19，25，37，54]中所示。（' TS'：时间流;'SS '：空间流;‘PS’：人员流）方法NTU RGB+DC-主题C-View[54]第五十四话39.152.1美国[19]52.6–P C FS-AEC [37]50.676.3P C FW-AEC [37]50.776.1EnGAN-PoseRNN [10]68.677.8[25]第二十五话–79.7‘71.679.9‘74.682.6‘75.283.1pτs p以时间彩色化流为例，说明了模型的结构和训练过程。模型架构：如第3.2节所述，获得的骨架云格式与正常点云的格式相似。因此，我们采用DGCNN [44]（被设计用于点云分类和分割）作为我们的框架的主干，并使用全连接（FC）层之前的模块来构建我们的编码器1。此外，我们采用FoldingNet [50]的解码器1作为我们的网络架构的解码器由于FoldingNet的输入和输出都是N3矩阵与3D位置tions（x，y，z），我们将特征维度扩大到6，重新绘制位置和颜色信息。假设输入是原始点集Pr，获得的re表2.与NW-UCLA数据集上最先进的无监督骨架动作识别方法的比较评估设置如[10，19，25，37，54]中所示。方法西北-加州大学洛杉矶分校[54]第五十四话74.3美国[19]76.8[25]第二十五话80.3P C FS-AEC [37]83.8P C FW-AEC [37]84.9‘90.1‘91.1重绘，以及编码器E（. ）和解码器D（. ）都P^τ=Dτ（Eτ（Pr）），重绘误差p通过使用倒角距离来计算地面实况时间着色Pτ与重绘Pτ之间的距离dCH（Pτ，Pτ）=Max{A，B}，其中（7）推送以区分人索引并学习交互信息。将Pr重绘为彩色骨架云是不平凡的。为了平衡颜色重绘和无监督特征学习，我们均匀地对Pr中的一半点进行采样以用于着色。尤其是在节奏上A=1Σmin vτ-v^τ2（八）ral彩色化流，奇数阶框架是彩色的，而其余的不是。在空间上，|Pτ|vτ∈Pτorization时，具有奇数索引关节的点将根据1B=..min v^−v（九）关节顺序和偶数索引关节不着色。. P^τ。τ τ2vτ∈P τvξ∈Pξ3.4. 骨骼动作识别的训练其中术语min强制任何3D点具有在重新绘制的点云中的匹配的3D点V1τ。的最小项vτ∈Pτ反之亦然。充分的时间，空间，互动功能，分别。与对于来自三个编码器的特征表示，我们包括简单的线性分类器f（. ）在编码器的顶部最大运算强制从Pτ到Pτ的距离反之亦然，需要同时很小。通过使用倒角距离，编码器Et（. ）和解码器 DT（. ）被迫经由所提出的重构时间顺序颜色的时间重绘方案来学习时间依赖性。类似地，编码器E（. ）和解码器D_s（. ）将在空间过程1编码器和解码器的详细结构见补充资料。以执行动作识别，如[10，19，25，37，54]中所示。我们采用不同的设置来训练分类器，包括无监督，半监督和监督设置。在无监督设置中，编码器仅通过骨架云重绘方法进行训练，然后我们通过以下先前的无监督骨架表示学习工作[10，19，25，37，54]来训练具有固定编码器的线性分类器。在半监督和监督设置中，编码器首先用无监督的rep-1训练。vτ∈Pτ时间着色骨架云Pτ中的vτ在自监督重绘之后，我们获得三个编码器（即，，E τ（. ）的情况。E s（. ），以及E p（. ）），捕捉13429表3.在NTU RGB+D数据集上比较动作识别结果与半监督学习方法。括号中的数字表示每个类别的标记样本的数量。方法%百分之五百分之十百分之二十百分之四十中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）假标记[11]––50.956.357.263.162.470.468.076.8增值税[24]––51.357.960.366.365.672.670.478.6增值税+企业最低––51.758.361.467.565.973.370.878.9美国（公告牌成人另类歌曲榜）[51]––48.455.158.163.663.171.168.276.9ASSL [34]––57.363.664.369.868.074.772.380.0[54]第五十四话35.2–––62.0–––––美国[19]33.1–––65.2–––––‘42.946.360.163.966.173.372.077.975.982.7‘48.151.564.769.370.878.275.281.879.286.0‘48.352.565.770.371.778.976.482.779.886.8表4.在NW-UCLA数据集上使用半监督学习方法的动作识别结果比较。v./ C. 表示每个类别的标记视频的数量。方法1%（1v./c。）5%（5v./c。）10%（10v./c。）15%（15 v./c。）30%（30v./c。）40%（40v./c。）假标记[11]–35.6–48.960,665.7增值税[24]–44.8–63.873.773.9增值税+ EntMin [7]–46.8–66.275.475.6美国（公告牌成人另类歌曲榜）[51]–35.3–46.654.560.6ASSL [34]–52.6–74.878.078.4[54]第五十四话18.3–59.9–––美国[19]21.3–60.5–––‘40.655.971.374.381.483.6‘41.957.275.076.083.084.9学习，然后用线性分类器进行微调，如[19]中所示。我们使用标准交叉熵损失作为分类损失Lcls。4. 实验我们在两个公开可访问的数据集上进行了广泛的实验，包括 NTU RGB+D [29] 和 Northwestern-UCLA[41]。实验的目的是评估我们的骨架云着色方案是否可以学习有效的无监督特征表示的骨架动作识别的任务。因此，我们评估不同的实验设置，包括无监督和半监督以及监督。4.1. 数据集NTU RGB+D [29]：NTU RGB+D由56880个骨架动作序列是基于骨架的动作识别研究中使用最广泛的数据集。在这个数据集中，动作样本由40名志愿者执行，并分为60类。每个样本包含一个动作，并保证最多有两个主题，由三个Microsoft Kinect v2摄像头从不同的角度捕获。该数据集的作者推荐了两个基准点：（1）交叉受试者（CS）基准，其中训练数据来自20个受试者，并且测试数据来自其他20个对象;（2）交叉视图（CV）基准，其中训练数据来自相机视图2和3，并且测试数据来自相机视图1。Northwestern-UCLA（NW-UCLA）[41]：该数据集由Kinect v1摄像头捕获，包含10名志愿者执行的1494个它包含10个动作类，每个主体有20个骨骼关节。按照[41]中的评估方案，训练集由来自相机视图1和2的样本组成，来自相机视图3的其余样本形成测试集。4.2. 实现细节对于NTU RGB+D，我们采用[31]中的预处理，并从每个骨架序列中均匀采样T=40帧。将采样的骨架序列构造成2000点骨架云。对于NW-UCLA，我们采用[37]中的预处理，并从骨架序列中均匀采样T=50帧骨架云有1000个点。在无监督特征学习阶段，我们使用Adam优化器，并将初始学习率设置为1 e-5，并通过余弦退火将其降低到1 e-7。编码器输出的维度训练持续150个epoch。在分类器训练阶段，我们使用具有Nesterov动量（0.9）的SGD优化器。我们将初始学习率设置为0.001，并通过余弦退火将其降低到1 e-5。NTU RGB+D和NW-UCLA的批量大小为32和64，训练持续100个时期。我们使用PyTorch实现了我们的方法，所有实验都在TeslaP100 GPU上进行，CUDA10.1。13430表5.与NTU RGB+D数据集上最先进的监督骨骼动作识别方法进行比较方法NTU RGB+DC-主题C-View监督方法ST-LSTM [21]69.277.7GCA-LSTM [22]74.482.8ST-GCN [48]81.588.3AS-GCN [16]86.894.22s AGC-LSTM [33]89.295.04s MS-AAGCN [32]90.096.24s Shift-GCN [3]90.796.5无监督预训练Li等人[第十五条]63.968.1美国[19]78.6–‘84.293.1‘86.394.2‘88.094.94.3. 与最新方法的我们在三种设置下进行了广泛的实验，包括无监督学习，半监督学习和监督学习。我们还研究了三种骨架云彩色化配置：1）‘ T - S t r e a m （ T S ） ’ ，其使用时间上着色的骨架云作为自我监督 ;2)使用空间着色骨架云作为自我监督的“S流（SS）”;以及3）使用个人级彩色云作为自我监督的“P-Stream（PS）”。无监督学习在无监督设置中，特征提取器（即，编码器E（. ））用我们提出的骨架云着色无监督表示学习方法进行训练。然后通过简单线性分类器f（. ），其在冻结编码器E（. ）的情况。这种无监督学习的实验环境已在先前的研究中被广泛采用和实践[10，19，25，37，54]。为了公平比较，我们使用与这些先前作品相同的设置。我们将我们的骨架云着色方法与NTU RGB+D和NW-UCLA数据集上的先前无监督方法进行比较，如表1和2所示。可以看出，我们提出的时间着色编码（即，“TS”着色）在NTU RGB+D数据集上优于先前的无监督方法，特别是在跨主题评估协议下。此外，所提出的+SS’着色和‘TS+SS+PS’着色在跨主题和跨视图协议两者上明显地表现出最先进的水平。对于NW-UCLA，如表2所示，我们的方法对于配置“TS”和“TS+SS”始终优于现有技术。半监督学习我们评估半监督学习与[19，34]中相同的协议进行公平比较。在半监督设置下，编码器E（. ）首先使用着色的skele-表6.与NW-UCLA数据集上最先进的监督骨骼动作识别方法的比较方法西北-加州大学洛杉矶分校监督方法[40]第四十话76.0HBRNN-L [6]78.5Ensemble TS-LSTM [2]89.2[53]第五十三话90.72s AGC-LSTM [33]93.31s Shift-GCN [3]92.54s Shift-GCN [3]94.6无监督预训练Li等人[第十五条]62.5美国[19]86.8‘92.7‘94.0表7. NTU RGB+D和NW-UCLA数据集上不同网络配置的无监督和监督设置结果的比较数据集NTU-CSNTU-CV西北-加州大学洛杉矶分校无监督设置基线-U61岁868岁478岁6‘七十一679岁。9九十1‘68岁4七十七。587岁0‘六十四2七十二8–‘74岁682岁691.1‘七十三。381. 4–‘69岁。678岁6–‘75.283.1–监督设置基线-S七十六。583岁483岁8‘84. 2九十三192. 7‘82岁391. 5九十4‘81. 1九十3–‘86岁。394 294.0‘86岁。494 1–‘八十五0九十三0–‘88.094.9–ton云，然后与线性分类器f（. ），动作注释的比例较小。按照[19，34]，我们分别通过从NTU RGB+D数据集的训练集均匀采样1%，5%，10%，20%，40%的数据，以及从NW-UCLA数据集的训练集均匀采样1%，5%，10%，15%，30%，40%的数据来获得标记数据表3和4分别示出了NTU RGB+D和NW-UCLA数据集上的实验结果。如表 3 所示，我们的方法在 NTURGB+D上对于所有三种配置（“TS”、“TS + SS”和“TS+ SS + PS”）始终比现有技术表现得更好西北-加州大学洛杉矶分校数据集，我们提出的时间着色编码（4. 此外，我们的监督学习。在监督评估之后-13431表8.在NW-UCLA数据集上使用半监督设置比较不同网络配置方法1%（1v./c。）5%（5v./c。）10%（10v./c。）15%（15v./c。）30%（30v./c。）40%（40v./c。）贝斯兰半34.346.454.961.869.170.2‘40.655.971.374.381.483.6‘39.154.266.370.279.180.8‘41.957.275.076.083.084.9表9.在NTU RGB+D数据集上使用半监督设置比较不同网络配置百分之一在[19]中的标准化协议中，我们用我们的无监督骨架着色方法预训练编码器，并通过使用标记的训练数据来微调编码器和分类器表5和6示出了实验结果。我们可以观察到，我们的方法在NW-UCLA上实现了优异的性能，并且它比以前的“无监督预训练”方法[ 15，19 ]（首先在无监督特征学习下训练，然后用标记数据微调框架）表现得更好在大规模NTU RGB+D上，我们的方法大大优于虽然我们的框架不是为监督设置而设计的，但其性能甚至可以与最先进的监督方法相媲美。4.4. 消融研究我们的骨骼着色效果：我们验证了骨架云着色在所有三种学习设置上的有效性，包括无监督学习、半监督学习和全监督学习。我们将我们的方法与三个基线进行比较：1）基线-U：其仅训练线性分类器并且冻结随机初始化的编码器; 2）Baseline-Semi：编码器使用随机权重初始化，而不是通过我们的无监督表示学习进行预训练; 3）Baseline-S：与Baseline-Semi相同。我们用动作标签联合训练编码器和线性分类器这三个基线的输入是原始的骨架云，没有颜色标签信息。表7、8和9示出了实验结果。可以看出，所有三种着色策略（即，时间级、空间级和个人级）与基线相比实现了显著的性能改进，证明了我们提出的着色技术的有效性。虽然个人级彩色化流在NTU RGB+D上的表现不如其他两个流，但它提高了整体性能，同时与其他两个合作。显色率的有效性：如3.3节所述，我们需要在重绘和时空有序特征学习之间取得平衡。我们观察到无监督性能从 65 提高。 7% 至 71 。 6% 的时间流上的 NTURGB+D（跨主题设置）时，50%的点的颜色信息，提供，证明了我们提出的彩色化方案的有效性详细的比较可以在补充材料中找到。5. 结论在本文中，我们解决骨骼动作识别中的无监督表示学习，并设计了一种新的骨骼云着色方法，能够从未标记的数据中学习骨骼表示我们通过将骨架序列堆叠成三维骨架云，并根据骨架序列中每个点的时间和空间顺序对其进行着色，从而获得彩色骨架云表示。另外，从来自未标记数据的对应关节的颜色有效地学习时空特征。实验表明，我们提出的方法实现了优越的无监督动作识别性能。谢谢。这项工作是在南洋理工大学的快速丰富对象搜索（ROSE）实验室完成的。本研究得到了南大-北大联合研究院（南洋理工大学与北京大学合作，由黄廷芳慈善基金会捐赠）、广州黄埔开发区科技基金会（2019 GH 16）和中新国际联合研究院（206- 2019）的部分支持。A018001。这项研究工作也得到了SUTD项目PIE-SGP-Al-2020-02的部分支持。方法百分之五百分之十百分之二十百分之四十中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）中文（简体）基线-半27.128.146.050.655.160.760.969.164.273.7‘42.946.360.163.966.173.372.077.975.982.7‘40.243.154.660.060.168.164.273.169.177.6‘37.940.151.256.056.863.261.970.265.874.59‘48.151.564.769.370.878.275.281.879.286.013432引用[1] 蔡玉军，王义伟，朱一恒，詹达仁，蔡剑飞，袁俊松，刘军，等.基于条件变分自动编码器的三维人体运动合成模型。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2021年10月。1[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。1[3] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第183-192页，2020年。7[4] VasileiosChoutas，PhilippeWeinzaepfel，Je´romeRev aud，and Cordelia Schmid.Potion：用于动作识别的姿势运动表示在IEEE计算机视觉和模式识别会议论文集，第7024- 7033页，2018年。3[5] 雍都、云浮、梁王。基于骨架的卷积神经网络动作识别。2015年第三届IAPR亚洲模式识别会议（ACPR），第579-583页。IEEE，2015年。一、二[6] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页，2015年。一、二、七[7] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统的进展，第529-536页，2005年。6[8] Mohamed E Hussein ， Marwan Torki ， Mohammad AGowayyed，and Motaz El-Saban.利用三维关节位置的协方差描述符的时间层次结构识别人类动作。2013年第二十三届人工智能国际联合研讨会。2[9] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.一种新的用于三维动作识别的骨架序列表示方法。在IEEE计算机视觉和模式识别会议论文集，第3288-3297页，2017年。一、二[10] Jogendra Nath Kundu 、 Maharshi Gor 、 Phani KrishnaUppala和Venkatesh Babu Radhakrishnan。姿势嵌入流形中人类动作轨迹的无监督特征学习。2019年IEEE计算机视觉应用冬季会议（ WACV ），第 1459IEEE ，2019。一、三、五、七[11] 李东贤伪标签：简单有效的深度神经网络半监督学习方法。在表征学习的挑战研讨会上，ICML，第3卷，2013年。6[12] Inwoong Lee 、 Doyoung Kim 、 Seoungyoon Kang 和Sanghoon Lee。使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。在IEEE计算机视觉国际会议论文集，第1012-1020页，2017年。7[13] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。2017年IEEE多媒体博览会研讨会国际会议（ICMEW），第597-600页。IEEE，2017年。一、二[14] Jingyuan Li和Eli Shlizerman。具有主动学习的稀疏半监督动作识别。arXiv预印本arXiv：2012.01740，2020。1[15] 李俊南，黄永康，赵奇，和莫汉·S·康康-哈利.视图不变动作表示的无监督学习。神经信息处理系统的进展，第1254-1264页，2018年。三、七、八[16] Maosen Li，Siheng Chen，Xu Chen，Ya Zhang，YafengWang，and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3595-3603页，2019年。7[17] Tianjiao Li ， Qiuhong Ke ， Hossein Rahmani ， Rui EnHo，Henghui Ding，and Jun Liu. Else-net：弹性语义网络-用于从骨架数据中进行连续动作识别。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2021年10月。1[18] Tianjiao Li，Jun Liu，Wei Zhang，Yun Ni，WenqianWang，and Zhiheng Li. Uav-human：一个大型的无人机人类行为理解基准。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议录，第16266二零二一年六月。1[19] Lilang Lin ， Sijie Song ， Wenhan Yang ， and JiayingLiu.Ms2l：多任务自监督学习，用于基于骨架的动作识别。第28届ACM国际多媒体会议论文集，第2490-2498页，2020年。一、五、六、七、八[20] Jun Liu，Amir Shahroudy，Dong Xu，Alex C Kot，andGang Wang.基于信任门时空lstm网络的骨架动作识别IEEE Transactions on Pattern Analysis and MachineIntelligence，40（12）：3007- 3021，2017。一、二[21] Jun Liu，Amir Shahroudy，Dong Xu，and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。欧洲计算机视觉会议，第816-833页。施普林格，2016年。一、二、七[22] Jun Liu ，Gang Wang，Ping Hu，Ling-Yu Duan，andAlex C Kot.用于3d动作识别的全局上下文感知注意lstm网络。在IEEE计算机视觉和模式识别会议论文集，第1647- 1656页，2017年。7[23] Zelun Luo ， Boya Peng ， De-An Huang ， AlexandreAlahi，and Li Fei-Fei.视频长期运动动力学的无监督学习。在IEEE计算机视觉和模式识别会议论文集，第2203- 2212页，2017年。3[24] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin Ishii。虚拟对抗训练：用于监督和半监督学习的正则化方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，41（8）：1979-1993，2018。613433[25] 聂强和刘云辉人体骨骼姿势的视图转换：

下载后可阅读完整内容，剩余1页未读，立即下载