基于骨架的动作识别中的时空NBNN应用

167 浏览量更新于2023-10-16 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4171Keystage键关节键运动时空朴素贝叶斯最近邻（ST-NBNN）在基于骨架的动作识别中的应用翁俊武翁超群翁俊松袁南洋理工大学电气与电子工程学院新加坡639798{WE0001WU，WENG0018}@ e.ntu.edu.sg，jsyuan@ntu.edu.sg摘要受先前使用非参数方法识别物体的成功的启发，例如，NBNN [2]中，我们将其扩展到使用骨架识别动作。每个3D动作都由一系列3D姿势表示。似-与NBNN相比，我们提出时空NBNN应用阶段到类的距离来分类动作。然而，ST-NBNN考虑了3D动作的时空结构，放松了NBNN的朴素贝叶斯假设。具体而言，ST-NBNN采用双线性分类器[19]来识别关键的时间阶段以及空间关节以进行动作分类。虽然只使用线性分类器，但在三个基准数据集上的实验表明，通过结合非参数模型和参数模型的优势，与使用深度学习等复杂模型的最新结果相比，ST-NBNN可以实现具有竞争力的性能。此外，通过识别每个动作类的关键骨骼关节和时间阶段，我们的ST-NBNN可以捕获基本的空间，图1. 挥右手动作的关键阶段、关节及动作图解。有趣的是，对于图像识别，非参数方法，例如，朴素贝叶斯最近邻（NBNN）[2]通过使用图像到类的距离对局部视觉基元的图像进行分类，表现出令人印象深刻的性能。受NBNN先前成功的启发，在这项工作中，我们将其扩展到识别动作。时间模式在识别动作中起着关键作用，这并不总是通过使用端到端模型来实现1. 介绍由于商品深度摄像机的发展，最近基于机器人的动作识别在计算机视觉社区引起迄今为止，领先的3D动作分类器是基于学习的分类器，特别是基于深度学习的方法（例如，[5，24，35，21，14，13]），在基准数据集中显示出有希望的结果。尽管使用基于学习的方法进行3D动作识别取得了很大的进展，另一方面，直接对数据进行分类决策并且不需要学习/训练参数的非参数分类器尚未被很好地探索用于3D动作识别。两个观察结果促使我们探索使用NBNN进行基于动作的动作识别：（1）类似于由局部视觉基元组成的图像，动作也由时空基元组成，例如，每个动作实例是骨架姿态的集合，并且每个姿态进一步是空间关节的集合。我们可以很容易地应用连续到类的距离来执行动作识别，它可以根据NBNN进行推广。(2)与由数百万或数十亿像素组成的图像和视频相比，骨架仅由数十个关节组成，因此其复杂度远低于图像和视频。我们认为，而不是依赖于一个复杂的端到端的模型，一个简单的非参数模型仍然可以获得这样一个轻量级的问题有希望的结果。在这项工作中，我们提出了时空朴素贝叶斯最近邻（ST-NBNN），NBNN的一个新的变化，分类3D动作。每个3D动作实例由3D4172姿态，并且阶段中的每个姿态由空间关节的集合呈现。在NBNN之后，我们的ST-NBNN应用阶段到类的距离来分类动作。它能很好地处理3D动作的长度变化和类内变化较大的情况。然而，并不是每个时间阶段和空间关节对动作的识别都具有同等重要性因此，识别识别关键阶段和骨骼关节对于识别至关重要。为了扩展NBNN用于3D动作分类，我们的ST-NBNN考虑了动作的时空结构。而不是简单地总结所有阶段到类的距离与朴素贝叶斯假设，我们提出这些距离作为一个时空矩阵的NN距离表示的动作实例。ST-NBNN进一步采用双线性分类器[19]来识别关键关节和阶段，并对NN距离的时空矩阵进行分类。我们提出的公式可以迭代优化，以学习空间关节和时间阶段的线性分类权重。我们使用图1来说明使用关键空间关节和时间阶段进行动作识别的想法。当执行右手挥动动作时，只有右手和手臂（关键关节）被激活。当观察右手和手臂抬起并向左水平移动的时间（关键阶段）时，我们可以说挥动右手的动作正在执行。这种时空模式描述的关键时间阶段和空间关节是至关重要的，以确定行动类。这些模式的发现不仅可以提高识别的准确率，而且可以回答是什么组成了这样的动作实例，以及我们为什么要识别它。通过使用阶段到类距离和双线性分类器[19]，我们提出的ST-NBNN结合了非参数模型和参数模型的优势。虽然只使用线性分类器，但在三个基准数据集上的实验表明，使用原始骨架特征的ST-NBNN已经可以获得与最先进的端到端模型（优化特征表示）非常有竞争力的性能此外，通过识别关键的时间阶段和空间关节，发挥关键作用的识别动作，我们的ST-NBNN可以捕捉到基本的时空模式，为每个动作类，并提供一个物理解释的动作行为。然而，这样的时空模式发现和显式解释并不总是经由端到端模型可用，端到端模型主要集中于实现更高的识别准确度而不是更好地解释模式。2. 相关工作基于骨架的动作识别近年来，基于机器人的动作识别问题吸引了大量的关注，并且已经提出了许多基于学习的方法[5，24，35，21，14，13，15]。由于鉴于这些工作的巨大数量，我们仅将我们的评论限制在基于时间序列的动作识别的时空建模上。空间域的建模主要是驱动的事实上，一个动作通常只以骨架关节的一个子集的相互作用或组合为特征[35]。通常使用两类方法来模拟行动的空间模式：基于零件的模型和子位姿模型。在基于零件的模型中，骨架被划分为几个组，并且每个组中的关节是彼此的骨架邻居。在HBRNN [5]中，骨架被分解为五个部分，两个手臂，两条腿和一个躯干，并建立一个分层递归神经网络来建模这些部分之间的关系。类似地，在[21]中，提出了一个部分感知的LSTM来构建身体部位之间的关系。在子姿态模型中，主要关注信息关节或它们之间的相互作用。在SMIJ [18]中，仅根据关节角度轨迹的平均值或方差等指标选择信息量最大的关节。这些信息关节的序列然后被用作动作的表示。在Orderlet [33]中，关节之间的相互作用通过关节原始特征的一些比较来建模，并且在动作识别中仅涉及关节的子集。在时间域上，图形模型[11，30]，时间金字塔匹配[28，32]和动态时间扭曲[20]是时间建模的常用方法。而在[27]中，序列模式挖掘方法被用于建模一组关键姿势的时间结构。除了空间建模或时间建模之外，我们还看到了在时空建模方面的努力在[14]中，LSTM模型被扩展到时空域以分析骨架。与这些方法相比，我们提出的ST-NBNN能够发现关键因素同时在空间和时间域上的动作。朴素贝叶斯最近邻NBNN [2]首先被提出用于图像分类。两关键因素帮助NBNN取得了非常好的结果。首先，它避免了使用矢量量化来编码原始特征，以便在分类中使用罕见但有区别的描述符。其次，它选择“图像到类”距离而不是“图像到图像”距离来进行决策，从而具有良好的泛化能力。由于它的成功，原始NBNN算法有一些变化。在[1]中，Behmo等人参数化NBNN以放松其所有类在特征空间中具有相似密度的限制性假设。在NBNN [22]的核化版本中，通过在图像表示之间引入核来批评独立假设与NBNN内核[22]相比，我们还通过结合动作数据的时空结构打破了独立假设。在NBNN之后，我们也看到了它的4173有序距离矩阵类集i=1i=1第1阶段第i阶段第N图2.拟定方法概述1）动作视频被均匀地划分为固定数量的阶段，并且由一组阶段描述符（橙色查询点）表示; 2）通过NN搜索计算阶段描述符到动作类集合（蓝色、绿色和红色）的距离：3）按时间顺序收集阶段描述符的距离以生成类相关的平方距离矩阵（由类相关的虚线矩形框标记）; 4）学习空间（矩阵的左侧）和时间（矩阵的顶部）域上的权重以发现动作的关键因素并预测动作标签在视频分析中的应用 Yang等人 [31]使用NBNN对由降维动作描述符EigenJoint表示的3D动作进行分类。在[34]中，NBNN被重新设计为基于朴素贝叶斯的互信息最大化（NBMIM）来解决动作检测问题。负样本参与最近邻匹配，提高了描述子的区分能力。最近，NBNN和CNN的结合[10]，以及加速NN搜索的努力[9]，重新激活了这种可能性长度如图所示。二、时间窗口中的每一个被称为时间阶段，其特征在于其对应窗口中的3D姿态。假设每个3D姿态对于其骨架具有J个关节，对于时间阶段描述符x，其第j帧中的3D姿态被表示为pj∈R3J，该姿态的相关速度记为vj∈R3J.然后x的姿态部分xp和速度部分xv定义如下，x =[（p）x，.，（p）]NBNNp1l（一）3. 该方法在本节中，我们将介绍所提出的方法如何预测动作并发现关键关节和阶段。我们的方法的概述如图所示。二、我们首先引入一组阶段描述符来表示3D序列（Sec. 第3.1节）。然后，NBNN [2]被用作对动作进行分类的基本框架（第二节）。3.2）。最后，引入了空间和时间权重的学习，以发现用于动作识别的关键姿势和空间关节（Sec.3.3）。3.1. 3D动作表示在基于姿态的动作识别中，每个3D动作是3D姿态的序列，但是不同的动作可以具有不同的时间长度。为了提供统一的表示，我们将每个动作划分为N个相等的xv=[（v1）x，.，（vl）]与[26]类似，我们也将xp和xv归一化，使l2范数等于1。在我们的实验中，它表明这样的归一化可以比使用原始特征执行得更好。由于我们使用原始3D姿态和其速度来表示3D动作，因此l帧的时间阶段描述符X被呈现为：x=[（xp）<$，（xv）<$]<$（2）最后，3D动作视频由其N个阶段描述符V={xi}N来描述。3.2. NBNN给定查询动作视频Vq={xi}N，目标是找到哪个类c∈{1，2，.，C}视频Vq属于时间权重：时间权重：时间权重：类相关时空权重查询集NN搜索权重学习4174C|i=1|我我⊙QQQ|Cc到. NBNN遵循最大后验概率（MAP）规则进行分类。当假设相等的先验p（c）=1时，预测类为：c=argmaxp（c|V）=argmaxp（V|（c）（3）许多作品都研究了如何选择重要的空间关节或时间姿势，但很少有作品能同时解决这两个问题。时空矩阵C c虽然我们假设阶段描述符是独立的，在朴素贝叶斯假设下（数据样本在-相互依赖），Eq。3可以写成，CC=arg maxp（V c）C在NBNN中，它们实际上在一定时空结构中相互依赖。因此，为了捕获3D动作表示的时空结构，我们将来自集合V={xi}N的3D动作表示为矩阵，=arg max p（x1，.，xNc）CYN如图1A的权重学习块所示。二、为对于具有N个阶段的给定视频样本，其时空矩阵被定义为= argmaxCi=1p（xi|c）（4）X=[X1，.，xN]（6）在[2]分析的基础上，可根据x与最近邻的距离估计出c类中每个本原x的概率密度，即p（xc）动作的阶段描述符按照时间顺序逐列重新组织我们进一步将c中X的最近邻矩阵定义为：类c中x的邻居，以及等式4然后重写为[NNc（x1），... ，NNc（xNC）]，以及平方距离ma-联系我们c= arg min2x−NN（x）（五）C类的定义为：Xc=（X−XNN）<$（X−XNN）（7）cc cc c c ci=1其中NNc（xi）是类c中xi的最近邻居。作为非参数模型， NBNN没有训练其中是元素级乘积。 CC被认为是类c的X的表示，并且它是测试sam的元素级到类距离的组合，相位对于查询3D动作Vq={xi}N，每个请。Xc中所有元素的和等价于i=1时间阶段将分别与C类匹配，ΣNii2i=1<$x−NNc（x）<$由方程式五、找到最佳匹配的时间阶段，即，最近的neigh-在那个班级里。匹配越好，即，NN距离越小，该时间阶段将投票给类别c越强。否则，如果时间阶段在该类中找不到好的匹配，它将不会向该类提供强投票由于Vq总共具有N个时间阶段，因此最终决策是对所有N个投票的求和，如等式（1）中所解释的。五、3.3. 时空NBNN对于一个特定的动作，通常只有一个子集的关节被激活执行动作，并且对于不同的动作，其激活的关节是不同的。因此，在动作分类中，我们只能关注激活的空间关节，考虑到Xc中元素的贡献不同对于分类，应该对NBNN进行参数化处理，以突出那些有鉴别能力的分类器。我们可以简单地将Xc向量化为Xc，并且NBNN决策函数Eq.然后，将权重重新定义为c=arg minwxc，其中权重w可以C用线性SVM学习。然而，由于Xc是一个大矩阵，要确定的权重的数量太多。这种策略不仅耗时，而且有过拟合的风险。因此，在我们的配方中采用双线性分类器。基于等式中的平方距离矩阵，7中，查询矩阵X到类c的分类得分然后由双线性函数fc（·）确定，其被定义为fc（Xc）=（us）<$Xcut（八）并同时抑制那些不具有辨别力的-C C由于遮挡或捕获噪声，其中us∈RM和ut∈RN是空间和速度，同时，对于一组时间阶段，不是每个阶段都是c c也没有同等重要。取决于动作类，某个时间阶段对于分类可以比其他时间阶段更具区分性如示于图2.阶段i的描述符（带阴影的橙色查询方块）比开始阶段和结束阶段的描述符更具区分性。到识别重要空间关节和时间作用类别c的权重。因此，分类成为f（x）= arg minf（X）（9）C4175N⊺从Eq.8，所提出的方法提供了时间阶段和空间关节的权重。经过一次调整，Eq。9可以表示为，阶段同时，我们建议利用双线性分类器[19]来学习两个阶段的我不知道√2Is在NBNN的框架下。尽管先前c= arg minCi=1uc（i）（x-NNc（x））uc（十）4176·stC联系我们其中β=βu。2CCCCS塞普茨CCC美国，美国CCCCC我ǁ2ΣK其中k是向量的逐元素平方根。值得注意的是，NBNN是ST-NBNN的一个特例当us和ut被分配给1时，等式10成为NBNNC c由方程式五、ST-NBNN通过打破朴素贝叶斯规则而不是假设每个阶段是独立的，我们引入了三维动作的时空结构到我们的框架。时空权重学习我们的目标函数类似于张量SVM。以下[3]的学习策略，我们采用了一对一的学习策略。所有的策略都是对行动进行分类。在经验损失的情况下，时空权重学习的目标函数被定义为表1.MSR-REPORT 3D上的结果比较（%）min12克朗u（u）限制如下所tci=1minu1βt2+λ2max（0，1−cf（Xi））2S.T ΣN ut（i）=N，ut≥0（十一）t2cCi=1国际商会（十三）2x>max（0，1 cf（Xi））S.Tut（i）=N，ut≥0i−i cci=1c ci> 0， i = 1，.，K其中，K是训练视频样本的数量，并且ci1，1是对应样本的动作标签。xi是c类中的第i个训练样本。λ是分类错误惩罚的参数。我们对时间权重而不是空间权重设置线性约束的原因如下。对于空间域，我们不知道将涉及多少关键关节（一些关节在识别中没有任何贡献实验结果还表明，空间域上的线性约束对性能没有任何贡献，但时间约束对性能有贡献。Eq. 11被认为是一个迭代过程。在每个迭代轮中有两个步骤，1）S2C迭代地操作该优化过程，直到目标函数方程11收敛4. 实验在本节中，我们在三个3D动作数据集上实验了所提出的方法，并将其性能与现有方法进行了比较。实施细节见第4.1. MSR-RISK 3D数据集[12]、UTKinect数据集[30]和Berkeley MHAD数据集[17]的比较结果在第2节中提供和讨论四点二。实验结果表明，ST-NBNN虽然简单，但能够实现最先进的三维动作识别性能，并有效地发现动作的关键因素4.1. 实施方式3D动作表示。一对一所有策略都被使用修复ut并更新us，2）修复us然后更新ut。 t是在这个方法中。为了确保线性函数C c cC cf（·）与其他每个r相当，每个样本X是初始化为1。C以μi为中心的平均值=ΣCc=1Csum（Xi）/（C×M×N），修复ut 更新us：关于UT 固定，Eq. 11是其中sum（·）对输入矩阵的条目求和。被视为l2正则化l2损失SVM问题，如下所示阶段编号的设置在第四点二。考虑到动作序列持续时间的变化3.1可能相互重叠minuc1β1us22ΣK+λi=12max（0，1−cifc（Xi））（十二）当给定的序列不是太长时的阶段。为了确保在SEC中引入的代表性。3.1是位置不变的，骨架的每个关节通过减去髋关节的坐标来其中β1= βut。c修复%u% s和更新%u% t：随着更新的us，等式 11是最近邻搜索为了增强最近邻搜索过程，在[16]中使用KD树实现。我们的方法被看作是一个凸优化问题2i=1ΣNǁ方法AS1AS2AS3Ave.NBNN-∞NBNN-1585.886.892.092.096.496.491.491.7NBNN+SVM90.690.396.492.4李群[25]95.483.998.292.5SCK+DCK [8]–––94.0HBRNN [5]93.394.695.594.5ST-LSTM [1]–––94.8基于图形的[29]93.695.595.194.8我们91.595.697.394.841770.8yc0.6aRuc0.4C一NBNN0.2NBNNST-NBNNST-NBNN0.8yc0.6aRuc0.4C一NBNN0.2NBNNST-NBNNST-NBNN1 1 10.95 0.95 0.95y0.9y0.9y0.9C c ca a aR r ru0.85u0.85u0.85C c cC c cA0.8A0.8A0.8NBNN0.75NBNN0.75NBNN0.75ST-NBNN ST-NBNNST-NBNN0.7 0.7 0.71 10.95 0.95y0.9y0.9C ca aR ru0.85u0.85C cC cA0.8A0.8NBNN0.75NBNN0.75NBNNST-NBNNST-NBNN ST-NBNN0.7 0.711950.950.90.9850.850.80.8750.75NBNNST-NBNN0.70.7精度C∞−∞∞#阶段：110.80.60.40.200 5 10#本地姿势#阶段：7#阶段：2100 5 10#本地姿势#阶段：9#阶段：310.80.60.40.200 5 10#本地姿势#阶段：11#阶段：5100 5 10#本地姿势#阶段：1310.950.90.850.80.750.70.0 5 10#本地姿势#Stage：150 5 10#本地姿势#Stage：170 5 10#本地姿势#Stage：190 5 10#本地姿势#Stage：210.表2. UTKinect上的结果比较（%）0.0 5 10#本地姿势0 5 10#本地姿势0 5 10#本地姿势0 5 10#本地姿势AS2，虽然训练精度已经达到图3.MSR-Action数据集的参数敏感性分析x轴指示所选的局部姿势数量。副标题表示所选择的时间阶段的数量。时空权重学习。的训练矩阵Xc采用“留一视频”策略生成，即在查询阶段描述符搜索最近邻时，将查询训练视频的所有阶段描述符排除在搜索区域之外在我们的优化中，us和ut是迭代学习的。到100% ，测试精度下降。此外，由于参数较多，NBNN+SVM的学习时间较传统方法长结果见表。1表明ST-NBNN具有比NBNN+SVM更好的与五个国家的最先进的方法的比较表明，所提出的方法达到目前最好的性能。此外，我们的方法优于非线性模型[29，8，25]和基于深度学习的方法[14，5]。我们还在这个数据集上评估了ST-NBNN的两个主要参数N和l。我们将l的范围从1到13，c cN为1至21。如图3所示，ST-NBNN需要一个足够的解决Eq.的SVM问题12，我们使用SVM工具-方框[4]由Chang等人实施。并且为了更新Ut，使用凸优化工具箱[6]。4.2. 结果和分析MSR-Action3D在这里，我们使用[12]中描述的评估协议。 20动作被分组为三个子集AS 1、AS 2和AS 3。每个动作集包含八个动作。在该实验中，局部姿态l的数量为10，阶段N的数量为15。我们将ST-NBNN与三种基线方法和五种最先进的基于神经网络的方法进行了比较。结果示于表中。1.一、比较中包括的三种基线方法是(1)无级设置的NBNN（NBNN-）;（2）15级NBNN（NBNN-15）;（3）基于线性支持向量机的带权值的NBNN（NBNN+SVM）。在NBNN-中，级数N由N=P确定l+1，其中P是动作视频的长度。表. 1显示从NBNN-到NBNN- 15有轻微的改进，这表明信息阶段确实存在，以帮助区分动作。在NBNN+SVM中，我们使用线性SVM来学习Xc中每个元素的权重。正如我们所看到的，学习的权重确实有助于提高性能，特别是在AS1中。然而，它也会导致过度拟合。在足够的阶段数来学习时空权重并获得良好的性能。当阶段数大于11时，ST-NBNN仍然可以帮助提高性能，每个阶段只有3个姿势然而，进一步增加N和l将不会改善性能。关键阶段，从MSR-Action 3D数据集发现的关节如图所示六、结果相当有趣。在这个数据集中，手抓和侧拳击不容易区分。然而，ST-NBNN专注于这两个动作的不同运动来区分它们。对于Hand Catch，ST-NBNN主要关注关键关节（右手）的x方向运动。而对于侧拳击，ST-NBNN更关心y和z方向，尽管x是该动作的主要方向。类似的情况也发生在前踢中。ST-NBNN不选择脚关节来关注，而是将更多的重量放在右手上，因为在向前踢中，右手总是同时向上移动（y方向）。此外，如图如图6 i）和j）所示，所提出的方法还可以指示动作的不同阶段。Pick Up和Throw的时间权重的两个峰值分别与Pick Up和Throw两个阶段相关UTKinect我们使用所描述精度精度精度精度方法精度NBNN-∞NBNN-1595.595.5NBNN+SVM94.0[27]第二十七话93.5简体中文[26]96.5ST-LSTM [1]97.0李群[25]97.1基于图形的[29]97.4SCK+DCK [8]98.2我们98.041784321098765CC×方法精度NBNN-∞NBNN-2088.088.0NBNN+SVM100.0[第18话]95.4元认知RBF网络[23]97.6Kapsouras等人 [七]《中国日报》98.2HBRNN [5]100.0ST-LSTM [1]100.0我们100.00 走1 坐下2 站起来3 拿起4 携带5 扔6 推7 拉8 摆手9 拍手图4. 时空权重矩阵和平方距离矩阵的示例（拉动动作的一个姿势特征）。ST-权重矩阵位于左上角，平方距离矩阵位于右侧。每个矩阵是60乘15。已发现节理的相关特征用红框标记。在[30]中评估我们提出的方法。在此基础上，我们进行了20轮的测试。在每一轮中，为时空权重学习选择的参数是相同的。局部姿态1的数量被设置为3，并且阶段N的数量为15。表. 2表明，我们的方法实现了2.5%的改善，从基线NBNN，和NBNN+SVM再次优于ST-NBNN。由于参数较多，NBNN+SVM会导致过拟合。与现有方法[27，26，25，14，29，8]的比较表明，ST- NBNN可以实现有竞争力的性能。在图4中，我们提供了从UTKinect数据集中的Pull动作学习的时空权重矩阵和平方距离矩阵Xc由于空间的限制，我们只提供了每个阶段的第一位置特征及其相关权重。空间-时间权重矩阵的元素ai j由aij=us（i）ut（j），i=1，.，M，j=1，…N.矩阵的元素越亮，元素的值越大红色方框标记的区域与右手（关节11和12）的x、y、z坐标相关在这个数据集中，要求受试者用右手执行Pull动作，图中显示ST-NBNN可以发现它。从右侧开始，矩阵7是最暗的矩阵，这意味着测试样品与动作7（拉动）的距离最小，并且表3.Berkeley MHAD结果比较（%）10.950.90.850.80.750 0.1 0.2 0.3 0.4 0.5噪音关节百分比图5. 噪声节理对Berkeley MHAD数据集因此，测试样品属于拉力。权重矩阵选择了矩阵中最具鉴别力的部分，证明了该方法能够发现关键因素。伯克利MHAD我们遵循[17]中描述的实验方案，这个数据集。由前七个受试者执行的序列用于训练，而由其余受试者执行的序列用于测试。由于高采样率，大部分数据是冗余的。我们通过每十帧中挑选一帧来对在该设置下，局部姿态l的数量为20，并且阶段N的数量为20。我们将ST-NBNN与三种基线方法和五种最先进的基于神经网络的方法进行了比较。结果示于表中。3 .第三章。表. 3表明，虽然NBNN的准确率只有88%，但在权重学习的帮助下，我们可以达到100%的准确率。此外，与以前的工作[18，23，7，5，14]的比较表明，我们的时空权重学习方法能够有效地发现动作的关键因素，并实现最佳性能。考虑到运动捕捉系统捕捉到的骨骼数据比Kinect深度传感器捕捉到的骨骼数据更精确，我们评估了ST-NBNN对骨骼数据随机噪声我们进一步增加噪音，NBNN-20NBNN+SVMST-NBNN精度4179a) 高臂波b）手抓c）画圈d）侧拳e）向前踢滚！侧踢g！慢跑h！高尔夫挥杆运动月1第2XyzX-Yx-zY-Z我！双手J波！捡球&投掷图6. 关键阶段和关键关节及其关键运动来自MSR-CNO 3D。着色关节的权重大于平均权重。信息量最大的关节用明亮的颜色标记，信息量第二大的关节用浅色标记。全局关键点运动由不同的颜色表示。例如，在x方向上定向的关键点运动对于信息量第一大的关节用亮红色着色，对于信息量第二大的关节用浅红色着色。仅标记第一和第二键关节的运动。每个动作的时间权重显示为灰色图像。图像中的每个方块代表一个时间阶段。正方形越白，时间权重越高。关键阶段用红框突出显示。我们用4个有代表性的3D姿势来说明每个关键阶段。下面的两个动作各有两个关键阶段。关节的骨架数据，看看我们的方法是否是强大的联合噪声，同时仍然可以挑选出信息关节。我们随机选择一个姿势的35个关节中的10%、20%、30%、40%和50%的关节，并且对于每个选定的关节，我们向关节坐标的每个维度添加范围从-5到5的噪声在最近邻搜索时，噪声的介入会导致特征相关维数的误匹配噪声关节对精度的影响如图所示。五、曲线表明，随着噪声节点百分比的增加，NBNN的精度急剧下降，而ST-NBNN在该数据集上仍能保持较高的性能。同时，NBNN+SVM在噪声关节设置下再次劣于ST-NBNN。ST-NBNN仍能提取出有信息的节点，并保持较高的性能.5. 结论在这项工作中，我们将NBNN扩展到ST-NBNN，用于基于手势的动作识别。与NBNN相比，ST-NBNN考虑了3D动作的时空结构，结合了非参数模型和参数模型的优点，以获得更好的性能。尽管仅使用线性分类器，但所提出的方法在三个基准数据集上的效果令人惊讶地好，并且与使用复杂的端到端模型的最新技术相比，实现了具有竞争力的结果。此外，我们提出的方法可以发现关键的空间关节和时间阶段，这对于捕获3D动作的时空模式至关重要，并且通过使用端到端模型（如深度学习）并不总是可以实现我们的研究结果表明，使用非参数的方法为基础的动作识别的潜力。确认这项工作得到了新加坡教育部学术研究基金Tier 2MOE 2015- T2-2-114的部分支持。其他关键关节4180引用[1] R. Behmo，P. Dalalyan和V.普里奈最优朴素贝叶斯最近邻。欧洲计算机视觉会议，第171-184页。施普林格，2010年。2[2] O. Boiman，E. Shechtman和M.伊拉尼基于最近邻的图像分类。在计算机视觉和模式识别，2008年。CVPR2008。 IEEE会议，第1-8页。IEEE，2008年。一、二、三、四[3] D. Cai，X.他，J。- R. Wen，J. Han和W.- Y. MA.支持张量机器进行文本分类。2006. 5[4] C.- C. Chang和C J. Lin Libsvm：支持向量机库。ACMTransactionsonIntelligentSystemsandTechnology（TIST），2（3）：27，2011. 6[5] Y. 杜，W.Wang和L.王. 基于骨架的动作识别的层次递归在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中，第1110-1118页，2015年。一、二、五、六、七[6] M. Grant和S.博伊德Cvx：用于约束凸规划的Matlab软件。6[7] I. Kapsouras和N.尼古拉迪斯使用dynemes和前向差异表示法对运动捕获数据进行动作识别。Journal of VisualCommunication and Image Representation ，25（ 6 ）：1432-1445，2014. 7[8] P. Koniusz，A. Cherian和F.波里克利基于核线性化的张量表示在三维骨架动作识别中的应用。arXiv预印本arXiv：1604.00239，2016。五、六、七[9] M. Kusner，S. Tyree，K. Q. Weinberger和K.阿格拉瓦尔随机邻居压缩。第31届机器学习国际会议（ICML-14），第622-630页，2014年3[10] I. Kuzborskij，F. M. Carlucci和B.卡普托当朴素贝叶斯最近邻满足卷积神经网络时。计算机视觉和模式识别（CVPR），2016年IEEE会议，2016年。3[11] W. Li，Z. zhang和Z.刘某基于显著姿势的可扩展数据驱动 IEEE Transactions on Circuits and Systems for VideoTechnology，18（11）：1499-1510，2008。2[12] W. Li，Z. zhang和Z. 刘某基于一袋三维点的动作识别。2010年IEEE计算机协会计算机视觉与模式识别会议-研讨会，第9-14页。IEEE，2010。五、六[13] Y. Li，C.兰，J。邢，W.Zeng C.，中国茶苔属袁和J.刘某基于联合分类回归递归神经网络的在线人体动作检测。在欧洲计算机视觉会议上，第203-220页施普林格，2016年。一、二[14] J. Liu，A. Shahroudy，D. Xu和G.王.具有信任门的时空lstm用于三维人体动作识别。欧洲计算机视觉会议，第816施普林格，2016年。一、二、五、六、七[15] J.Liu和G.王.用于3d动作识别的全局上下文感知注意lstm网络。在CVPR，2017年。2[16] D. M. Mount和S.艾莉亚用于近似最近邻搜索的库。1998. 5[17] F.奥夫利河Chaudhry，G.库里略河Vidal和R.巴伊奇Berkeley mhad：一个全面的多模态人类行动数据库计算机视觉应用（WACV），2013年IEEE研讨会，第53-60页。IEEE，2013。五、七[18] F.奥夫利河Chaudhry，G.库里略河Vidal和R.巴伊奇信息量最大的关节序列（smij）：一种新的人体骨骼动作识别方法. 视觉传达和图像表示杂志，25（1）：24-38，2014年。二、七[19] H. Pirsiavash，D.Ramanan和C.C. 福克斯用于视觉识别的双线性分类器神经信息处理系统的进展，第1482-1490页，2009年一、二、四[20] S.森佩纳湾联合Maulidevi和P. R.雅利安人使用动态时间规整的人体动作识别。在电气工程和信息学（ICEEI），2011年国际会议上，第1-5页。IEEE，2011年。2[21] A. Shahroudy，J.刘德铭T. Ng和G.王. Ntu rgb+d：用于3d人类活动分析的大规模数据集。在IEEE计算机视觉和模式识别会议中，2016年6月。一、二[22] T. Tuytelaars，M.Fritz，K.Saenko和T.达雷尔。nbnn内核 2011 年国际计算机视觉会议，第 1824-1831 页。IEEE，2011年。2[23] S. Vantigodi和V. B.拉达克里希南基于元认知rbf网络分类器的动作捕捉数据识别。在智能传感器、传感器网络和信息处理（ISSNIP）中，2014 IEEE第九届国际会议，第1-6页IEEE，2014。7[24] V. Veeriah，N. Zhuang和G.- J. Qi。用于动作识别的差分递归神经网络在IEEE计算机视觉国际会议论文集，第4041一、二[25] R. Vemulapalli，F. Arrate，和R.切拉帕以谎言群中的点表示三维骨骼来识别人类行为。IEEE计算机视觉和模式识别会议论文集，第588-595页，2014年五、六、七[26] C.王，J.弗林，Y. Wang和A. L.尤尔。在3d中使用动作片段和激活的简单的动作。2016年第30届AAAI人工智能会议。三六七[27] C. Wang，Y. Wang和A. L.尤尔。挖掘3d关键姿势主题用于动作识别。在IEEE计算机视觉和模式识别会议论文集，第2639-2647页，2016年。二六七[28] J. Wang，Z.Liu，Y.Wu和J.元挖掘actionlet ensem- ble用于深度相机的动作识别。在Computer Vision and PatternRecognition（CVPR），2012 IEEE Conference on，第1290-1297页中。IEEE，2012。2[29] P. Wang，C.Yuan，W.胡湾，加-地Li和Y.张某基于图的骨架运动表示和相似性度量在动作识别中的应用。欧洲计算机视觉会议，第370-385页施普林格，2016年。五、六、七[30] L. Xia，C.- C. Chen和J.阿加瓦尔基于三维关节直方图的视点不变2012年IEEE计算机协会计算机视觉和模式识别研讨会会议，第20-27页。IEEE，2012。二、五、七4181[31] X. Yang和Y.田利用特征关节进行有效的三维动作识别。 JournalofVisualCommunicationandImageRepresentation，25（1）：2-11，2014. 3[32] X. Yang和Y.田使用深度序列进行活动识别的超正态向量在ComputerVisionandPatternRecognition（ CVPR），2014 IEEE Conference on，第 804-811页中。IEEE，2014。2[33] G. Yu，Z. Liu，and J. Yuan.用于实时识别人-物交互的判别有序挖掘。2014年亚洲计算机视觉会议。2[34] J. Yuan、Z.Liu和Y.吴用于有效动作检测的判别子体积在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第2442-2449页。IEEE，2009年。3[35] W. Zhu，C.兰，J。邢，W.Zeng，Y.利湖，澳-地Shen和X.谢使用正则化深度lstm网络的共现特征学习用于基于骨架的动作识别。第三十届AAAI人工智能会议，2016。一、二

下载后可阅读完整内容，剩余1页未读，立即下载