没有合适的资源?快使用搜索试试~ 我知道了~
10预测聚类PREDICT CLUSTER:基于无监督骨架的动作识别Kun Su1,Xiulong Liu1,and Eli Shlizerman1,21美国西雅图华盛顿大学电子计算机工程系2美国西雅图华盛顿大学应用数学系行动0操作类AB CDDATT图1:预测集群:从身体关键点进行无监督动作识别。请参阅补充视频中的其他示例。摘要我们提出了一个新的系统,用于无监督的基于骨架的动作识别。给定在各种运动中获得的身体关键点序列的输入,我们的系统将序列与动作相关联。我们的系统基于编码器-解码器递归神经网络,其中编码器通过训练模型来执行预测任务,从而在其隐藏状态中学习可分离的特征表示我们表明,根据这样的非监督训练,解码器和编码器自组织其隐藏状态到一个特征空间,聚类相似的运动到同一个集群和不同的运动到遥远的集群。当前用于动作识别的现有技术方法是强监督的,即,依靠提供标签进行培训。已经提出了无监督方法相比之下,我们的系统是完全无监督的,在任何阶段都不需要动作标签,并且可以仅使用身体关键点输入进行操作。此外,该方法可以对身体关键点的各种维度(2D或3D)执行,并且可以包括描述移动的附加我们评估我们的系统上的三个动作识别基准与不同数量的动作和例子。我们的结果优于以前的无监督的基于RGB+D的方法,基于交叉视图测试和无监督的具有类似于基于监督的动作识别的性能。1. 介绍鲁棒的动作识别,特别是人体动作识别,是普适计算机视觉和人工智能系统的一项基本能力。虽然最近的方法在识别视频中的基本动作方面显示出显著的成功率,但当前的方法依赖于强有力的监督,伴随着动作标签的大量训练示例。大规模数据集的收集和注释对于各种类型的动作和应用是不可能的。此外,注释本身是一个具有挑战性的问题,因为它通常取决于注释者的解释来为给定序列分配有意义的标签。这在不清楚什么是基本事实标签的情况下尤其如此,例如,动物运动的注释。事实上,注释挑战在不同的运动上下文信息源中是常见的,例如视频(RGB)、深度(+D)和随时间跟踪的关键点。一方面,与RGB+D数据相比,关键点包含的信息要少得多,并且使用起来可能具有挑战性。然而,另一方面,关注关键点通常可以隔离操作,并为它们提供更强大的独特功能。对于人体动作识别,身体关节的时间序列(例如,96319632吨)随时间被跟踪,确实被认为是有效的动作描述器。在这里,我们专注于3D骨架时间序列,并提出了一个无监督的系统来学习特征,并根据它们将动作分配给类。我们称我们的系统为预测集群(PC),因为它是基于训练一个编码器-解码器类型的网络,以模拟预测和聚类骨架序列,使网络学习一个有效的隐藏特征表示的行动。实际上,由非分类无监督任务对分类监督任务的直观替换是尝试继续(预测)或重新产生(重新生成)给定序列,使得其引导隐藏状态捕获动作的关键特征。在编码器-解码器架构中,预测任务通常如下实现:给定动作序列作为编码器输入,解码器继续或生成编码器输入序列。由于输入是序列,解码器和编码器都是递归神经网络(RNN),其中包含序列中每个时间样本的隐变量。编码器的最终隐藏状态通常用于表示动作特征。虽然编码器包含最终动作特征,但由于训练期间的梯度从解码器流回编码器,因此解码器训练策略显著地确定表示的有效性具体而言,有两种类型的解码器训练策略被提出用于这种预测/重新生成任务[26]。第一种策略是条件策略,其中解码器的前一个时间步的输出被用作当前时间步的输入。采用这种策略,译码器的输出可望是连续的.相反,无条件策略将零输入分配到解码器的每个时间步长。先前的工作表明,解码器的无条件训练预计将具有更好的预测性能,因为它有效地削弱了解码器,从而迫使编码器学习更具信息性的表示。在我们的系统中,我们扩展这样的策略,以提高编码器表示。这导致在特征空间中的动作的增强的聚类和组织。特别是,我们提出了两种解码器训练策略,固定权重和固定状态,以进一步惩罚解码器。这些策略的实现引导编码器进一步学习它所处理的序列的特征表示。事实上,在这两种策略中,解码器都是“弱解码器”,即,解码器实际上没有被优化,并且起到将梯度传播到编码器以进一步优化其最终状态的作用。将这两种策略结合在一起,我们发现网络可以学习一个强大的表示,我们的结果表明,这种策略可以实现显着增强的性能比无监督的方法训练没有他们。我们证明了我们的有效性和普遍性,通过在三个广泛的基于RGB+D的动作识别数据集上评估我们的系统,提出了一种方法。具体来说,我们表明,我们的P-C无监督系统实现了高精度的性能和执行先前的方法。2. 相关工作动作识别的目的是将类别标签分配给具有关于所执行的动作的上下文信息的帧序列,图1。1.一、已经引入了许多方法,特别是用于人体运动动作识别。这样的方法使用视频帧(RGB)和/或深度(RGB+D)和/或骨架数据,即,跟踪身体关节(关键点)。执行排他性的基于信标的动作识别是特别有利的,因为需要少得多的数据,它相对容易获取,因此具有实时执行的潜力。与包括诸如背景的不相关特征的视频和深度相比,可以使用骨架数据来理解动作的排他性特征。事实上,近年来,各种监督和非监督的方法已被引入基于人体大多数基于机器学习的方法都经过了监督,其中应提供一组注释的操作和标签用于训练。在无监督的环境下,动作识别的问题更具挑战性.仅提出了几种基于无监督图像的方法,并且已经开发了几种无监督方法来使用更多的信息,例如视频帧和深度,即,无监督RGB+D。我们在下面回顾这些先前的方法,并将我们的结果与它们进行比较。对于基于监督SVM的动作识别,在深度学习方法之前,提出了经典方法来将动作从李群映射到其李代数,并使用动态时间规整、傅立叶时间金字塔表示和线性SVM(例如,LARP [28])。已经开发了深度学习方法来对骨架数据进行分类,特别是基于RNN设计用于 序 列 的 模 型 。 例 如 , Du et al.[3] 使 用 层 次 RNN(HBRNN-L)进行动作分类,Shahroudy等人。[21]提出 了 部 件 感 知 LSTM ( P-LSTM ) 作 为 使 用 NTURGB+D数据集进行大规模骨架动作识别的基线。由于骨架数据是有噪声的,主要是由于相机视图的变化,以 前 的 作 品 提 出 了 一 种 视 图 自 适 应 RNN ( VA-RNN),它学习从原始骨架数据到一般姿势的变换[35]。也已经提出了用于基于监督骨架的识别的基于CNN的方法。这种方法需要可以由CNN处理的身体关节的表示。时空骨架序列可以表示为矩阵,其中每个列向量rep-9633图2:预测集群系统摘要。A:系统概述。B:编码器-解码器架构。表示时间上的瞬间,矢量的元素是关节的坐标。然后可以将这样的矩阵转换为图像,在该图像上训练CNN进行分类[2]。此外,增强的骨架可视化方法已经与CNN分类结合开发,用于视图不变的人类动作识别[13]。最近,图神经网络(GNN)在基于神经网络的动作识别中得到了广泛的应用。这些网络中的数据结构是对应于人类骨架的图,即,顶点对应于关节,边对应于骨骼。通过图结构,网络学习受人体骨骼解剖结构约束的表示。在监督动作识别设置中,使用图卷积网络(GCN)实现GNN。特别是,时空GCN被设计为从骨架数据中学习空间和时间模式[33]。最近对该方法的扩展表明,具有两个流的有向GCN可以对骨架表示进行编码并自适应地学习图[22,23]。此外,还提出了包含预测模块的空间结构GCN,以增强动作识别[11]。虽然最近的监督方法显示出对动作识别的鲁棒性能,但无监督设置是有利的,因为它不需要标记序列,并且在引入初始训练集中不包括的附加动作时可能不需要重新训练非监督方法通常旨在通过预测输入动作序列的未来帧或通过重新生成序列来获得有效的特征表示非监督方法主要针对动作视频或具有深度或光流等附加信息的视频具体地,Srivastava et al.[26]提出了一种基于递归的序列到序列(Seq2Seq)模型作为自动编码器来学习视频的表示。这种方法是我们的身体关节输入数据的方法的核心。然而,正如我们所展示的,如果没有我们开发的特定训练策略来削弱解码器并加强编码器,该方法将无法实现有效的性能。随后,Luo et al.[14]开发了一种卷积LSTM,使用深度和光学流信息,使得网络对深度输入进行编码,并使用解码器来预测未来帧的光流。此外,Li et al.[10]提出采用具有相机视图的生成对抗网络(GAN)来帮助编码器学习更好的表示。与无监督RGB+D方法一样,基于机器学习的方法利用人体运动预测任务作为学习动作特征表示的底层任务。对于这样的任务,基于RNN的Seq 2Seq模型[15]与非Seq 2Seq RNN模型(如ERD [5]和S-RNN [7])相比,显示出更高的准确性GNN也被证明是有效的网络架构无监督GNN被证明可以有效地学习真实运动捕捉和运动跟踪数据中的动态[8]。最近,结合GAN的网络通过利用预测器网络RNN Seq2Seq和RNN Seq [6],在这项任务上实现了性能的由于从身体关节的坐标位置获得有效的特征表示是具有挑战性的,因此用于基于机器人的动作识别的无监督方法很少事实上,先前的非深度工作已经表明,表示在建模和预测3D人体骨骼运动中起着重要作用[34,18,19,1]。最近,已经提出了用于人体运动预测的深入方法特别地,Zheng et al.[36](LongT GAN)提出了一种GAN编码器-解码器,使得解码器尝试重新生成输入序列,而判别器用于判别重新生成是否准确。用于动作识别的特征表示取自编码器隐藏表示的最终状态。在训练期间,向解码器提供经掩蔽的地面实况输入。该方法在运动捕捉数据库上进行了测试,例 如 , CMUMocap , HDM05[17] 和 BerkeleyMHAD[18]。这些数据集由物理传感器(标记)捕获,因此比深度相机收集的无标记数据更干净,并且不测试显著影响动作识别性能的多视图方差。我们的基线网络架构类似于LongT GAN的结构,因为我们使用9634不t=0不不图3:根据视图不变变换对身体关键点序列进行预处理。编码器和解码器,并且我们还使用编码器的最终状态作为动作序列的特征表示。然而,正如我们所展示的,需要为系统开发特别是,而不是使用掩蔽的地面真相作为输入到解码器,我们提出的方法,以提高学习的编码器和削弱解码器。3. 方法身体关键点的预处理:身体关键点数据是从特定视图捕获的T帧的序列XV,其中每个帧表示J个关节关键点的N=3D坐标X V={x1,x2,. - 是的- 是的 ,xT},xt∈RJ× N.动作序列由深度相机(例如Microsoft Kinect)从不同视图捕获。3D人体关节位置通过实时人体骨架跟踪框架从单个深度图像中提取[24]。我们通过实现一个视图不变变换来对齐动作序列,该变换将关键点坐标从原始坐标系变换到视图不变坐标系XV→X。转换后的骨骼关节坐标-nates由xj=R−1(xj−dR),<$j∈J,<$t∈T,图4:编码器状态轨迹通过投影到3 PCA空间可视化。每种颜色代表一种操作类型(蓝色:戴上,红色:坐下,格林:进位,黑色:站起来)。十字符号表示最终状态。左:训练前;右:训练后。表示v2在v1上的向量投影以及v1和v2的叉积,关于iv ely。xRoot是初始帧[9]中根关节的坐标(见图3)。由于动作可以具有不同的长度,因此我们对每个动作序列进行下采样,使其最多具有固定长度Tmax,并且如果序列长度小于Tmax,则用零填充。隐藏状态聚类的自组织:我们在系统中利用的一个关键属性是最近的观察结果,即通过RNN传播输入序列将其自组织成网络隐藏状态内的集群,即,簇表示隐藏状态的嵌入中的特征[4]。这种策略是一种有前途的无监督多维序列聚类方法,如身体关键点序列[27]。正如我们所展示的,自组织是任何RNN架构所固有的,甚至适用于随机RNN,这些随机RNN使用随机权重初始化并保持固定,即,不进行训练。事实上,当我们将不同动作的身体关键点序列输入随机RNN时,隐藏状态空间中的特征变成了有效的过滤器。虽然这种策略是有希望的,但识别准确性结果似乎不是最佳的(表1P CRand)。因此,我们实现了一个编码器-解码器系统,我们称之为PRE-DICT集群(PC),其中编码器传播t t输入序列并将最后一个隐藏状态传递给解其中xj∈R3×1是第j个关节的坐标,编码器解码器用于重新生成编码器-第t帧,R是旋转矩阵,dR是旋转原点。这些是根据以下公式计算的:Σ。.Σ把序列。此外,我们利用随机网络设置(其不需要训练)来选择用于待训练网络的最佳超参数我们v1. 2. v1×v2根请在下面描述P CR=..,dR=xt=0,100万美元。2002年。v1×v其中v1=xspine−xroot是垂直于运动预测:在我们无人监督编码器-解码器RNN(Seq 2Seq)。 这样的网-工作模型被证明是有效的预测未来,t=0t=0多维特征时间序列的真实演化地面,v2=xhipleft-xhipright是差向量be-t=0t=0包括各种动作的骨架时间数据[15,6]。在每个初始帧中的左右髋关节之间在这些应用中,网络中的典型流是单向的,序列和V_(12)v2−Projv1(v2)v2−Projv1(v2). 项目v1(v2)和v1×v2方向性的 编码器处理初始序列,=9635不活动并将最后一个状态传递给解码器,解码器又基于该状态生成向前的演进。我们为我们的方法扩展了这样的网络结构(参见图1中的系统概述)。2)。我们提出了一个双向流,使网络可以捕获更好的长期依赖的动作序列。具体地,编码器是多层双向门控递归单元(GRU),其输入是对应于动作的身体关键点的整个序列。我们将向前和向后的方向表示为隐藏-−→将编码器的最后一层在时间t处的状态den为Et,以及←−Et分别,并将编码器的最终状态作为其图5:自动编码器和KNN分类器连接E−→←−不 ={ET,ET}。 解码器是一个uni-由编码器的隐藏表示提供的信息具有在时间t处的隐藏状态的定向GRU被表示为Dt。编码器的最终状态被馈送到解码器中作为其初始状态,即,D0=ET。在这样的设置中,解码器基于ET初始化生成序列。在典型的预测任务中,生成的序列将与相同序列的前向演化一致(预测损失)。在我们的系统中,由于我们的目标是执行动作识别,因此需要解码器重新生成整个输入序列(再生损失)。具体地,对于解码器输出,X={x=1,x=2,. -是的-是的,x<$T}再生损失函数是X与X之间的误差。特别是,我们使用从而提高编码器4.第一章1.固定权重解码器(FW):在这种配置中,解码器的输入是无条件的。解码器不被期望学习用于预测的有用信息,唯一地依赖于编码器传递的状态。解码器的权重因此可以被随机分配,并且解码器被用作序列的递归传播器。在针对重新生成丢失的训练中,预期这种配置将迫使编码器学习潜在特征,并使用传递给均方误差(MSE)L=1TTT不t=1(xt-x<$t)2或平均值译码器这种直观的方法被证明是计算-绝对误差(MAE)L=1损失t=1|t−t|似乎合理因为只有编码器正在训练,我们的结果表明,与超参数搜索:与任何深度学习系统一样,超参数会显著影响网络性能,需要调整以获得最佳状态。我们利用随机初始化RNN的自组织特征,以通过网络传播序列,并在训练之前使用网络性能作为超参数调整的优化。具体来说,我们评估的编码器的能力,通过传播的骨架序列通过编码器和评估性能的识别最终的编码器状态。我们观察到,当选择适合训练的最佳网络时,这种高效的超参数搜索显著减少了总训练时间。Training: With optimal hyper-parameter encoder being set,training is performed on the outputs of the decoder topredict (re-generate) the encoder’s input action sequence.用于预测的训练通常根据以下来执行:两种方法之一:(i)无条件训练,其中在每个时间步将零馈送到解码器中,或者(ii)有条件训练,其中将初始输入馈送到解码器的第一时间步中,并且后续时间步使用前一时间步的预测输出作为其输入[26]。基于这些训练策略,我们提出了两种解码器配置(i)固定权重解码器(FW)或(ii)固定状态解码器(FS)以削弱解码器,即, toforce it to perform the re-generation based upon the infor-KNN动作分类2.固定状态解码器(FS):在这种配置中,到解码器的外部输入是有条件的(到每个时间步的外部输入是前一个时间步的输出),然而,内部输入(通常是来自前一个步骤的隐藏状态)被编码器ET的最终状态替换。也就是说,在RNN单元ht=σ(Wx xt+Wh gt+bh),gt=ht−1→ET,yt=σ(Wy ht+by),xt+1=yt,其中xt是外部输入,yt是输出,ht是时间步t处的隐藏状态,ht-1项被ET替换。此外,我们还在外部输入和输出之间添加了残差连接,这在人体运动预测中已被证明是有用的[15]。最后的输出和下一个输入将是y_t=y_t+x_t和x_t+1=y_t,相对于i_v_y。该配置迫使网络依赖于ET,而不是先前时间步处的隐藏状态,并且消除了梯度的消失,因为在每个时间步处的反向传播期间,存在返回到最终编码器状态的定义的梯度特征级自动编码器:在训练预测网络之后,我们提取最终编码器状态ET作为与每个动作序列相关联的特征向量。以来特征向量是高维的,我们使用一个特征级9636..自动编码器,学习高维特征的核心低维分量,因此可以用于分类(图1)。(五)。具体来说,我们实现了自动编码器,表示为f,具有参数θ的编码器-解码器架构,使得E<$T= fθ(ET)<$ET。编码器和解码器是具有非线性tan的多层FC网络。h活化。n,我们执行以下操作-l o翼损失laec=. ET-ET。.K-最近邻分类器:为了评估我们在动作识别任务上的方法,我们在自动编码器特征向量的中间层上使用K-最近邻(KNN)分类器。具体来说,我们将KNN分类器(k = 1)应用于训练集中所有序列的训练网络的特征,以分配类别。然后,我们使用余弦相似度作为距离度量来执行识别,即,将每个测试序列放在一个类中。值得注意的是,KNN分类器不需要学习额外的权重动作放置。4. 实验结果和数据集实现细节:为了训练网络,所有身体关键点序列都根据视图不变变换进行预处理,并进行下采样,最多50帧(图)。(3)第三章。坐标也被归一化到[-1,1]的范围。使用超参数搜索,采用上面讨论的随机RNN 传 播, 我们 设置 以下 架构 :编 码 器: 3层 Bi-GRU,每层N= 1024个单元。 解码器:1-具有N=2048个单元的层Uni-GRU,使得它与编码器最终状态ET的尺寸兼容。所有的GRU初始化随机均匀分布。高级自动编码器:6个FC层,尺寸如下:输入特征向量(dim = 2048)→FC(1024)→FC(512)→FC(256)→FC(512)→FC(1024)→FC(2048)。除了最后一层是线性的之外,所有FC都使用tanh激活。自动编码器的中间层输出用作最终特征的256个元素的向量特征 我们使用Adam优化器和从10−4和0开始的学习率。每1000次迭代的衰减率为95如果范数大于25,则裁剪梯度以避免梯度爆炸。它需要0。7秒每训练迭代和0. 在一个Nvidia Titan X GPU上,以64的批处理大小向前传播需要1秒请参阅补充材料中的建筑选择的其他详细信息数据集:我们使用三个不同的数据集进行训练 , 评 估 和 比 较 我 们 的 PC 系 统 与 相 关 的approaches。这三个数据集包括从不同视图和不同主题捕获的各种数量的类、动作类型、身体关键点在这些数据集中,身体关键点由深度相机捕获,还 包 括 附 加 数 据 , 例 如 , 视 频 ( RGB ) 和 深 度(+D)。各种类型的动作识别方法已经应用于这些数据集,例如,有监督的骨架方法和无监督的RGB+D方法。我们在表1中列出了这些类型的方法及其在数据集中测试的性能。值得注意的是,据我们所知,我们的工作是第一个完全无监督的基于骨架的方法应用于这些广泛的动作识别测试。我 们 应 用 我 们 的 PC 系 统 的 数 据 集 是 ( i ) NW-UCLA,(ii)UWA 3D和(iii)NTU RGB+D。数据集分别包含10、30、60个动作类的三维人体关键点我们在下面简要介绍一下。西北加州大学洛杉矶分校(NW-UCLA)数据集[30]由Kinect v1捕获,包含10个动作的1494个视频。这些动作由10名受试者重复1至六次。每个动作有三个视图,每个受试者记录20个关节我们遵循[13],[30]使用前两个视图(V1,V2)进行训练,使用最后一个视图(V3)测试跨视图动作识别。UWA3D多视图活动II(UWA3D)数据集[20]包含由10名受试者执行4次的30个人类动作。记录15个关节,每个动作都从四个关节观察视图:正面、左侧和右侧以及顶部。 数据集是具有挑战性的,由于许多意见和所产生的自我闭塞,从只考虑他们的一部分此外,在动作之间存在高相似性,例如,“喝酒”和“接电话”这两个动作 NTU RGB+D数据集[21]是用于3D人类活动分析的大规模数据集。该数据集由56880个视频样本组成,使用Microsoft Kinect v2从40个不同的人类主体捕获。NTU RGB+D(60)包含60个动作类。我们使用三维骨架数据进行实验,使得每个时间样本包含25个关节.我们测试我们的PC方法的跨视图和跨学科的协议。5. 评价和比较评估:在所有的实验中,我们使用K-最近邻分类器,k=1计算动作识别精度和评估我们的PC方法的性能。我们测试了PC架构的不同变体&(第3节中描述的组件组合),并在论文中报告了其中的一个子集:无训练的基线随机初始化编码器(&PC-Rand)、具有FS解 码 器 和 特 征 级 自 动 编 码 器 的 全 系 统 ( PC-FS&-AEC)以及具有FW解码器和特征级自动编码器的全系统(PC-FW&-AEC)。我们在补充材料中报告了其余组合及其结果。图6示出了在训练期间再生损失(红色)和所得到的准确度(蓝色)9637图6:训练曲线(精度:蓝色; loss:red),从左到右依次为三个数据集:西北-加州大学洛杉矶分校(FW与无FW)、UWA3D(FS与无FS)、NTU-RGB+D交叉视图(FS与无FS)。表1:我们的PC系统的动作识别性能与监督骨架(蓝色)和无监督RGB+D(紫色)类型的最先进方法的比较;无监督骨架(红色))类型。图7:用于在三个数据集上测试&PC性能的混淆矩阵(从左到右):NW-UCLA(10个动作); UWA 3D V4(30个动作); NTU-RGBD交叉视图(60个动作)。方法西北-加州大学洛杉矶分校(%)方法UWA3DV3(%)V4(%)方法NTU RGB-D 60C-View(%)C-主题(%)监督骨架HOPC[20]74.2[29]第二十九话76.0HBRNN-L[3]78.5[35]第三十五话90.7AGC-LSTM[25]93.3监督骨架HOJ3D[32]15.328.22层P-LSTM[31]27.624.3IndRNN(6层)[31]30.747.2IndRNN(4层)[31]34.354.8ST-GCN[31]36.426.2[29]第二十九话45.040.4LARP[28]49.442.8HOPC[20]52.751.8[35]第三十五话70.973.2监督骨架HOPC[20]52.850.1HBRNN[3]64.059.12L P-LSTM[21]70.362.9ST-LSTM[12]77.769.2[35]第三十五话87.679.4无监督RGB+DLuo等人[14个]50.7Li等人[10个国家]62.5无监督RGB+D[16]第十六话40.946.2Luo等人[14个]53.261.4Li等人[10个国家]63.968.1无监督骨架P C Rand(我们的)72.0[36]第三十六话74.3P C FS-AEC(Our)83.8P C FW-AEC(Our)84.9无监督骨架P C Rand(我们的)48.551.5[36]第三十六话53.459.9P C FS-AEC(Our)59.563.1P C FW-AEC(Our)59.963.1无监督骨架[36]第三十六话48.139.1P C Rand(我们的)56.439.6P C FS-AEC(Our)76.350.6P C FW-AEC(Our)76.150.79638图8:NW-UCLA数据集上学习特征的t-SNE可视化。每个数据集。我们在补充材料中包括了额外的PC配置图。初始精度似乎很高,这归因于在训练之前对随机初始化网络进行的超参数搜索,我们将在第3 .第三章。事实上,我们发现,使用适当的初始化,编码器,没有任何训练,有效地指导类似的动作序列类似的最终状态。培训进一步增强了PC FW和PC FS配置中的性能。在多个训练迭代中,P C FW和P C FS在所有数据集中都比无FW和无FS实现更高的准确性。虽然损失曲线的收敛表明准确性的提高,但损失的值并不一定表明更好的准确性,这可以从UWA 3D和NTU-RGB+D上训练的损失和准确性曲线中观察到(图11)。6中,右)。我们在图中显示了三个考虑的数据集的混淆矩阵。7.第一次会议。在NW-UCLA(类最少)中,我们显示了10 x10矩阵的元素。我们的方法平均达到了高准确率(>83%),并且有三个动作(用双手拿起,放下垃圾,坐下),它以接近100%的准确率识别它们。我们还显示在图。图8NW-UCLA测试的学习特征的t-SNE可视化即使在这种2D嵌入中,也很明显,每个类的特征是很好地分离的。当考虑更多的动作类时,识别变得更加困难,并且还取决于训练数据的量。例如,虽然 NTU RGB+D 比 UWA3D 有 更 多 的 类 , 但 NTURGB+D的识别准确性更平滑,性能更好,因为它的数据比UWA3D多40倍我们的结果表明,我们的方法是兼容不同的数据大小和类的数量。比较:我们比较了我们的P C方法与先前相关的监督和无监督的方法应用于(从左到右):NW-UCLA、UWA 3D、NTU RGB+D数据集,见表1。特别是,我们将动作识别精度与基于监督骨架数据(蓝色)、非监督RGB+D数据(紫色)和无监督骨架数据(红色)。为了与无监督骨架方法进行比较,我们实现并重现了[36]中介绍的长期GAN模型(LongT GAN),并列出了其性能。对 于 NW-UCLA , PC 优 于 先 前 的 非 监 督 方 法(RGB+D和基于骨架的方法)。我们的方法甚至优于表1中列出的前三种监督方法。UWA3D被认为是许多深度学习方法的挑战性测试,因为序列的数量很少,而它包含大量的类(30)。事实上,许多监督骨架方法的动作识别性能很低(50%)。<对于这样的数据集,似乎无监督方法可能更有利,即,即使是P CRand也达到了每-50%的百分比。LongT GAN的性能略高于P C Rand,但不如P C FS/FW-AEC高,后者的性能为60%。只有一个单一的监督骨架方法,VA-RNN-Aug,能够执行比我们的无监督方法更好,见表1-中。在大规模NTU-RGB+D数据集上,我们的方法在交叉视图测试中表现得非常好。它优于先前的无监督方法(RGB+D和基于灰度的),并与ST-LSTM(第二最佳监督骨架方法)相当,参见表1-右。在跨主题测试中,我们获得了比先 前 的 无 监 督 骨 架 方 法 更 高 的 性 能 ( 包 括 P CRand),然而,我们的准确性并没有优于无监督RGB+D方法。我们认为,原因源于基于骨架的方法在跨主题测试中通常表现不佳,因为额外的方面,例如子模型参数,例如,需要考虑骨架几何形状总之,对于所有三个数据集,我们使用了单个架构,并且它能够在交叉视图测试中优于先前的无监督骨架方法,LongT-GAN[36],大多数监督的嵌入式方法和无监督RGB+D方法,以及在大规模交叉主题测试中优于一些监督骨架和无监督RGB+D。6. 结论提出了一种新的无监督人体动作识别模型。我们的系统达到增强的性能相比,由于新的训练策略,削弱了解码器和加强训练的编码器。因此,网络学习更多可分离的表示。实验结果表明,我们的无监督模型可以有效地学习三个基准数据集上的独特的动作特征,并优于以前的无监督方法。9639引用[1] Amor Ben Tanfous Hassen Drira和Boulbaba Ben Amor。编码肯德尔在IEEE计算机视觉和模式识别会议论文集,第2840-2849页3[2] 雍都、云浮、梁王。基于骨架的卷积神经网络动作识别。2015年第三届IAPR亚洲模式识别会议(ACPR),第579-583页。IEEE,2015年。3[3] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集,第1110-1118页,2015年。二、七[4] 马修·法雷尔,斯特凡诺·雷卡纳特斯,纪尧姆·拉霍伊,埃里克·谢布朗。递归神经网络通过动态平衡压缩和扩展来学习鲁棒的表示。2019. 4[5] 卡特琳娜·弗拉基亚达基,谢尔盖·莱文,潘纳·费尔森,和吉坦德拉·马利克.用于人体动力学的循环网络模型。在IEEE计算机视觉国际会议论文集,第4346-4354页3[6] Liang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,andJose 'MF Moura.对抗性几何感知人类运动预测。在欧洲计算机视觉会议(ECCV)的会议记录中,第786-803页,2018年。三、四[7] Ashesh Jain , Amir R Zamir , Silvio Savarese , andAshutosh Saxena.结构-rnn:时空图的深度学习。在IEEE计算机视觉和模式识别会议论文集,第5308-5317页3[8] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理。arXiv预印本arXiv:1802.04687,2018。3[9] Inwoong Lee 、 Doyoung Kim 、 Seoungyoon Kang 和Sanghoon Lee。使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。在IEEE计算机视觉国际会议论文集,第1012-1020页,2017年。4[10] 李俊南,黄永康,赵琦,和莫汉·康康-哈利.视图不变动作表示的无监督学习。神经信息处理系统的进展,第1254-1264页,2018年。三、七[11] Maosen Li,Siheng Chen,Xu Chen,Ya Zhang,YafengWang,and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE计算机视觉和模式识别会议论文集,第3595-3603页,2019年。3[12] Jun Liu,Amir Shahroudy,Dong Xu,and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。欧洲计算机视觉会议,第816-833页。施普林格,2016年。7[13] 刘梦媛,刘红,陈晨。增强的骨架-吨可视化视图不变的人类行动识别。Pattern Recognition,68:346-362,2017. 三、六[14] Zelun Luo , Boya Peng , De-An Huang , AlexandreAlahi,and Li Fei-Fei.视频长期运动动力学的无监督学习。InProceedings of the IEEE Conference计算机视觉和模式识别,第2203- 2212页,2017年。三、七[15] Julieta Martinez,Michael J Black,and Javier Romero.利用递归神经网络进行人体运动预测。在IEEE计算机视觉和模式识别会议论文集,第2891-2900页三、四、五[16] Ishan Misra , C Lawrence Zitnick , and Martial Hebert.Shuf- fle和学习:使用时序验证的无监督学习。欧洲计算机视觉会议,第527-544页。施普林格,2016年。7[17] M. Müller,T. R o¨ de r,M. 克劳森湾埃伯哈特湾Kru¨ge r和A.韦伯文档mocap数据库hdm05. 技术报告CG-2007-2,Un i versit aütBonn,2007年6月。3[18] Ferda Ofli,Rizwan Chaudhry,Gregorij Kurillo,Rene'Vidal和Ruzena Bajcsy。伯克利大学:一个全面的多模态人体动作数据库。2013年IEEE计算机视觉应用研讨会(WACV),第53IEEE,2013。3[19] Ferda Ofli、Rizwan Chaudhry、Gregorij Kurillo、Rene'Vi-dal 和 Ruzena Bajcsy 。 最 具 信 息 量 关 节 序 列(Sequence of the most informative joints,Smij):一种用于人体骨骼动作识别的新表示法Journal of VisualCommunication and Image Representation,25(1):24-38,2014. 3[20] Hossein Rahmani、Arif Mahmood、Du Q Huynh和AjmalMian。Hopc:用于动作识别的3D点云的定向主成分直方图 。在欧洲 计算机 视觉会 议上, 第742-757页。Springer,2014. 六、七[21] Amir Shahroudy,Jun Liu,Tian-Tsong Ng,and GangWang.Ntu rgb+ d:用于3D人类活动分析的大规模数据集在IEEE计算机视觉和模式识别会议论文集,第1010-1019页,2016年。二六七[22] 石磊,张一凡,程健,卢汉青。基于骨架的有向图神经网络动作识别在IEEE计算机视觉和模式识别会议论文集,第7912-7921页,2019年。3[23] 石磊,张一凡,程健,卢汉青。基于骨架动作识别的双流自适应图卷积网络。在IEEE计算机视觉和模式识别会议论文集,第12026-12035页3[24] Jamie Shotton , Andrew Fitzgibbon ,Mat Cook, TobySharp,Mark Finocchio,Richard Moore,Alex Kipman和Andrew Blake。从单个深度图像中实时识别部分人体姿势。CVPR 2011,第1297-1304页。IEEE,2011年。4[25] 司晨阳、陈文涛、王伟、王良、谭铁牛。基于骨架动作识别的注意力增强图卷积在IEEE计算机视觉和模式识别会议论文集,第1227-1236页,2019年。7[26] NitishSrivastava,ElmanMansimov,andRuslanSalakhudi-nov.使用lstms的视频表示的无监督学习。国际机器学习会议,第843-852页,2015年。二三五9640[27] 昆苏和伊莱·施利泽曼通过序列递归神经网络的可解释嵌入的时空特征的聚类和识别。4[28] RavitejaVemulapalli , FelipeArrate , andRamaChellappa.以谎言群中的点表示三维骨骼来识别人类行为。在IEEE计算机视觉和模式识别会议集,第588二、七[29] Jiang Wang,Zicheng Liu,Ying Wu,and Junsong Yuan.用 于 3d 人 体 动 作 识 别 的 学 习 actionlet 集 成 。 IEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功