分层动态模型：解决人体动作识别中的时空变化问题

150 浏览量更新于2023-10-18 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1人体动作识别赵瑞1，徐婉茹2，苏辉1，3，季强11RPI，2北京交通大学，3IBM研究院{zhaorui.zju，bjtuxuwanru}@ gmail.com，huisuibmres@us.ibm.com，qji@ecse.rpi.edu摘要人类动作识别仍然是一项具有挑战性的任务，部分原因是动作的表现存在很大的变化。为了解决这个问题，我们建议一种称为分层动态模型（HDM）的概率模型。利用贝叶斯框架，允许模型同时，生成学习过程允许模型为每个动作类保留独特的动态模式。通过贝叶斯推理，我们能够量化分类的不确定性，在决策过程中提供洞察力与现有的方法相比，我们的方法不仅在单个数据集内实现了有竞争力的识别性能，而且在不同数据集之间表现出更好的泛化能力。对缺失数据的实验也表明了该方法的鲁棒性。1. 介绍认识人的行为是理解人的意图的关键.在过去的几十年里，已经提出了许多方法来从视觉输入中识别人类动作[53]。最近，随着低成本3D感测设备和实时3D姿态估计技术的可用性，来自3D数据的动作识别变得流行[1][41，30，13]。尽管在这一领域取得了重大进展，动作识别仍然是计算机视觉中最具挑战性的问题之一，部分原因是主体行为，视图变化，遮挡，相机运动，杂乱的背景等引起的显着变化。特别是，人们的行为在执行一个动作的结果在空间和时间类内的变化的差异即使是同一个人也可能以不同的方式执行相同的动作。这种显著的类内差异使得类间差异变得模糊。在本文中，我们解决了类内时空变化的问题，以更好地识别动作。此外-因此，我们提供了一种量化与分类相关的不确定性的方法我们关注主要由行为差异而不是相机运动或遮挡引起的变化，并采用类似于[12]的定义空间变化被定义为呈现特定手势时的身体姿势和外观变化。时间变化涉及三个因素：速度、持续时间和过渡。速度是指执行动作的速度。持续时间表示完成动作的不同阶段所花费的时间。转换控制不同子动作之间的变化和顺序。作为一个例子，图1（左）示出了不同受试者进行保龄球动作的骨骼关节，其可以大致分为四个阶段，包括站立不动、向前迈步、手臂向后延伸和手臂向前延伸的身体前倾。对于空间变化，不同的受试者伸展手臂和腿的程度和方向都不同对于时间变化，不同的主体使用不同的相位顺序执行动作，并且在其中花费不同的时间量我们的具体贡献如下。首先，我们提出了层次动态模型（HDM），这是构建一个原则性的方式来模拟不同方面的变化。在两个方面处理时间变化首先，我们结合了概率持续时间机制，允许灵活的速度在每个阶段的行动。其次，通过不同隐藏状态之间的转移概率来模拟空间变化通过每个单独帧处的观测值的概率分布来建模。为了进一步提高处理类内变异的能力等级结构。其次，我们提出了一种学习算法来估计超参数，这些超参数在现有文献中通常被认为是固定的。此外，利用贝叶斯推理技术，我们提出了一种措施，以消除分类结果的不确定性。最后，我们在各种基准数据集上进行实验，以显示建模变化和量化动作识别的不确定性77337734⋯培训学习行动3⋯HDM3学习行动2⋯HDM2学习⋯⋯行动1HDM1测试推理标签查询��1（��“|��）��2��（|��）��3��（|��）不确定⋯⋯图1.左：来自UTD-MHAD数据集[6]的骨架数据示例显示了执行相同动作的不同受试者的空间和时间变化所有序列具有相同的时间尺度。不同的颜色表示不同的姿势群集分配。右图：识别过程概述。在训练过程中，我们通过将每个模型拟合到其相应的动作类型来学习一组模型（详情第3.2节）。在测试过程中，使用不同模型计算的预测似然性来确定类别标签和不确定性（详见第3.3节）。图像选自Gaming 3D数据集[3]。(Best彩色视图）我们证明了我们的方法具有竞争力的分类性能，数据效率，更好的推广，和鲁棒性缺失数据。2. 相关工作模拟空间和时间变化：为了考虑具有已知动态模式的空间变化，通过将观察概率与全局参数相关联，提出了参数HMM [54]和参数切换LDS [37]。文[12]还提出了一种更灵活的非参数观测模型的动态模型.尽管具有更好的灵活性，但由于变化，难以概括为偏离训练数据的姿势。我们的方法，而不是使用参数分布的姿态功能，并利用层次扩展更好的泛化。为了处理速度变化，提出了隐半马尔可夫模型（HSMM）[56]及其变体[11，34，33]来显式地对隐藏状态的持续时间进行建模。HSMM放宽了HMM中状态转移的马尔可夫假设，从而允许对动态过程进行更灵活的建模除了用结构扩展HSMM之外，在[15，19]中还提出了HSMM的贝叶斯扩展，另一种工作尝试通过构建数据的时不变表示来处理时间变化例如，时间扭曲方法的变体用于处理速度变化下的识别[31，46，49]。在[44，50，24]中探索了从不同时间尺度提取的聚合特征，其可以实现一定的时间不变表示。但其时间粒度是手动决定的。我们的方法侧重于对人类行为的动态建模。我们进一步改进了类内变异HSMM的建模能力，利用贝叶斯框架。与现有的工作相比，我们允许所有的参数作为随机变量变化，以同时考虑空间和时间的变化。此外，与以前的工作相比，固定的超参数，我们开发的学习算法的超参数估计。这种扩展的好处是双重的。首先，分层结构允许参数在不同数据之间变化，同时仍然通过从所有类内数据中学习的先验分布来共享属性。其次，先验可以正则化模型的复杂性。根据先验分布，模型参数可以在不增加模型复杂性的情况下适应数据变化，这有助于避免过拟合。行动认可框架：对于动作识别任务，通常采用判别框架，例如条件随机场（CRF）[23]及其扩展[39，52，27，44]。判别方法主要集中在对类别标签的条件分布进行建模，以便对不同的类别进行分类。因此，它缺乏对数据分布建模的能力，这限制了判别模型的使用，只能用于分类。最近，深度学习框架变得越来越流行，因为它可以自动学习有用的表示典型的方法要么使用深度模型来提取特征以提供分类器学习[17，55，28]，要么结合CNN和RNN的变体来执行端到端学习[9，43，16，40，21，42，45]。已经表明，建模空间和时间动态有助于识别[25，10]。然而，深度模型依赖于不断增加的模型复杂性来处理变化。它很容易过拟合，特别是在有限的数据下，因此适当的正则化是必不可少的[29，59]。Joshi等人[20个]7735t=1t=1t=1提出了一种贝叶斯神经网络，以更好地处理受试者相关的变化。我们选择使用生成模型，主要是因为它能够捕获受空间和时间变化影响的数据分布。此外，生成模型可以处理缺失值的数据与深度学习方法相比，HDM需要更少的训练数据，并且不太可能由于先验参数而过拟合。它也更容易用很少的模型参数进行训练。此外，贝叶斯推理的使用使我们能够量化预测的不确定性，以避免过于自信但可能不正确的预测[22]。3. 方法在本节中，我们将介绍我们的方法，首先是对模型的描述。然后我们介绍学习和推理方法。我们为每种类型的动作训练一个模型，1201212图2. HDM的拓扑结构3.1. 模型描述概述：图2显示了我们模型的拓扑结构。随机变量X ={Xt∈RO}T表示一个自相关的随机变量，我们使用高斯混合的发射分布，泊松的持续时间分布和多项式的初始状态和过渡分布。假定参数的先验分布相互独立且共轭使用先验，即， P（θ|α）= P（π|η0）P（A|η）P（τ |P）P（|λ）。详细的参数设置见下图-库存材料模拟时间变化：时间在两个级别上对变化进行建模。首先，在随机变量水平上，隐藏状态链Z模拟由初始状态分布P（Z1）和状态转移分布P（Zt|Dt−1，Zt−1）在等式中（一）. 每个状态的持续时间它主要由动作速度决定，可以用分布为P（Dt）的D来表示|Dt−1，Zt）在等式中（一）.第二，在参数水平上对时间变化进行建模，而不是为所有时间段固定一组参数。类内数据，我们允许参数{π，A，τ}作为随机变量在不同的序列中变化，其分布由超参数{η0，η，τ}指定。一方面，层次结构可以容纳大型类内项目，因为每个层序具有其自己的时间参数。另一方面，参数共享相同的先验，这是从所有类内数据中学习的。因此，整体类内时间动态被保留。模拟空间变化：与时间变化类似，空间变化也在两个层次上建模。首先，在随机变量水平上，观测Xt描述了给定时间t的姿态或外观，由发射分布P（Xt）指定|Zt）中的等式（一）.其次，空间参数λ也被视为随机变量，其分布由超参数λ指定。不同从时间参数来看，我们不改变不同序列的空间参数，以确保隐藏状态值的一致性。这种层次结构允许大的变化观测序列，其中O是每个观测序列的维数观察. Z={Zt∈ {1，.， Q}}T表示隐藏而不需要增加混合数，这使模型复杂性正则化并避免过拟合。毛皮-与观测关联的状态，其中Q是数量隐藏的国家。D={Dt∈ {1，.，T表示状态的持续时间，例如 Dt= d意味着状态链Z在接下来的d个时间戳内保持在当前值。Xt是连续的、可观测的，而Zt和Dt是离散的、隐藏的.对于不同的序列，T可以不同。参数θ={π，A，τ，θ}表示随机变量的条件分布。超参数是α={η0，η，λ}，它指定参数的先验分布。随机变量的联合分布为如下YTP（X，Z，D）= P（Z1）P（D1|Z1）P（Xt|Zt）（1）t=1YT然而，由于先验是从数据中学习的，并由所有空间参数共享，因此保留了整体类内空间现有模型的推广：我们的模型可以被认为是几个现有模型的推广。如果我们将所有超参数设置为固定的，则可以将其视为贝叶斯HSMM1。如果我们去掉所有的超参数-它退化为显式持续时间HMM [14]。如果我们进一步对所有t设置Dt=1，则它简化为HMM。3.2. 学习学习的目标是使用训练数据估计超参数α，这被认为是一种经验贝叶斯方法。我们为一个动作类拟合一个模型t=2[P（Zt|Dt−1，Zt−1）P（Dt|Dt−1，Zt）]1在[15]中提出的贝叶斯HSMM的一个特殊情况，只考虑了对持续时间参数的先验。7736使得每个模型仅捕获对应类中的类内变化以下学习过程适用于每个类的模型。最大似然估计是估计α的一种初步尝试，它需要对隐变量和模型参数进行积分。上述交替过程将产生一系列θ，α的估计，其增加log P（{Xn}，θ）的值|α）。在实验中，它往往收敛在几个迭代。为了初始化α，我们使用产生均匀初始、过渡、持续时间分布和混合的值α=arg max logP（{Xα}|α）（2）真正的重量。我们根据数据的均值和协方差来初始化模型为了初始化MAP-EM的θ，我们使用K-∫= arg max logαθYΣnZn，DnP（Xn，Zn，Dn|θ）P（θ|α）dθ是指对数据进行聚类，并将聚类分配作为隐状态值，由此估计模型参数。为了评估收敛性，我们使用其中n是序列的索引。然而，在过渡参数上的积分在不直接链接在一起的隐变量之间引入了额外的因此，不能再执行有效的前向-后向类型的对于长度超过中等的序列，求和变得困难。为了绕过积分挑战，我们改为如下估计α关于我们logP（{Xn}，θ|a）在两个连续迭代之间。Al-出租m1总结了整个学习过程。3.3. 推理推理的目标是计算未知数据X的后验预测似然。pl（X|απ），P（X| D，α）（6）∫Σ=P（X，Z，D|θ）P（θ| D，αθ）dθα=arg max logαnZn，DnP（Xn，Zn，Dn|θ）P（θ|α）（三）θZ，D其中D={Xn}是训练数据的集合为其中θ是θ的一个特定选择。这导致θ和α之间的交替估计过程。首先，我们在给定α的当前估计的情况下计算θ的MAP估计。该OB-估计的目标与Eq相同。(3)，除了目标变量变成θ。与第3.2节中讨论的原因相同，当量 (6) 是难以处理的，需要近似推理。我们用MonteCarlo估计从后验分布中抽样θ来近似积分1毫升θ*= argmaxθΣ日志nΣZn，DnP（Xn，Zn，Dn|θ）+log P（θ|α）pl（X|α） Ll=1Z，DP（X，Z，D|θ（l））（7）（四）我们求解Eq。(4)使用基于EM [7]的算法，我们称之为MAP-EM。详细信息请参见相关资料。第二，我们使用等式计算α的估计。(3)给定当前估计θ。因为hyperparame-在给定θθ的情况下，ters与随机变量无关。当量（三）简化为如下计算α其中θ（l）<$P（θ| D，αα，L为样本总数。为了从参数的后验分布生成参数样本，我们考虑两种方法。第一个是结构平均场变分推理[2]，它找到了一个最优的变分分布q（θ，H|φ），q（θ|φ）q（H|φ），其最大化logP（D）上的下限|α*）。这里φ是q的参数，H={Zn，Dn}是所有训练数据D的隐藏状态。∗ ∗α= arg max log P（θ |α）（5）在我们获得最佳φφ之后，然后对参数θ（l）进行采样α求解方程（5）可以对每个单独的超参数分别进行详细信息请参见相关资料。算法1学习HDM输入：Xn：观测序列输出：超参数α1：α，θ的θ2：重复3：通过求解方程更新θ（四）4：通过求解方程更新α（五）5：直到收敛第六章：返回αn7737我从q（θ|φφ）。第二种是分块吉布斯采样[19]，它在隐藏状态链{Zn，Dn}和参数θ之间交替采样。这个过程模拟了一个马尔可夫链，其平稳分布收敛于真实的后验分布样品在老化期后收集，我们通过参数的对数似然变化来确定老化期。使用Pyhsmm [18]和BNT [32]实现推理算法给定θ（l），等式中的每一项求和。(7)可以使用forward-recursion来计算[57]。对每个类模型执行相同的推理过程，其中超参数在第3.2节中学习。分类标准如下。y= arg max pl（X|（8）我7738（一）（二）（三）其中下标i是类索引。总的复杂度为O（KLQ2T2）.在我们的实验中，Q通常在10-20之间，其值由交叉验证确定. 通常小于200。K从11到27. L被设置为100，我们发现这足够了。3.4. 分类的不确定性贝叶斯推理的使用使我们能够消除分类结果的不确定性。具体来说，我们将类标签y视为随机变量，分类分布，即y=Cat（p），其中p =[p1，...，pK]是指定y是K个类别之一的概率的随机向量。的序列外X，我们通过归一化不同的可能性来获得p在X上评估的ent类我们评估我们的方法在不同数据集上的泛化能力。最后，我们进行动作识别与缺失的意见2。4.1. 动作数据集和特征提取我们的实验涉及四个基准动作识别数据集，其中所有数据集涉及多个主题和动作类型，从手部运动到全身运动。MSR 3D（MSRA）[26]包括来自20种动作的567个序列。UTD-MHAD（UTD）[6]包括来自27种动作的861个序列。Gaming 3D（G3D）[3]由20种动作类型的600个序列组成。UPenn Action（Penn）[58]包含15种运动的2326个RGB视频。我们选择一个子集1650个视频来自11个行动，不包括4个行动，（l）科索沃我（l）P（X|θi）/j=1P（X|θj ）的情况。为了产生不确定性，由于遮挡，大部分主体注释缺失。当然，我们首先计算y总协方差。鉴于相同的-的参数，总的协方差可以计算方程。（九）、证据在补充材料中提供。V[y|X]= Eθ[V [y|X，θ]]+ Vθ[E[y|X，θ]]（9）1在所有数据集中，只有骨架用于动作识别。骨架的位置和大小被归一化以确保平移和缩放不变性。除了位置之外，还通过计算每对关节的连续帧之间的差异来提取运动。在[1，3，51]中采用了类似的表示原始要素尺寸Ll=1lL−1l=1kk3D数据每帧266个，2D数据每帧117个其中Cl是对应于第l组参数的分类分布的协方差矩阵协方差项可以通过C（i，j）=δ（i，j）pi−pipj 计算。提出了全方差的一种类似分解在[22]中。为了获得不确定性y，我们计算总协方差矩阵的迹，即U（y），iV[y|X]（i，i）。当且仅当恰好为1时，轨迹达到其最小值0等于1，否则等于0。在这种情况下，预测是绝对肯定的。我们的不确定性度量表明预测的可信度。图3.左：高臂波中右手的直方图示例。为了紧凑，零计数箱被修剪。右：来自不同数据集的实际挥动动作序列。(1)（2）UTD;（3）G3D。(Best彩色视图）4. 实验首先，我们在选定的基准数据集上进行时空变化其次，我们评估了在单个数据集上的动作识别性能，并与基线和最先进的方法进行了比较，然后进行了不确定性分析。第三、我们进一步分别对位置和运动特征进行PCA，并在每帧上为每种类型的特征保留95%的能量。最后，将这两个特征连接起来。4.2. 时空变异分析我们首先介绍了一个定量的措施，类内变化的直方图表示的动作序列的基础上。我们将三维空间划分为5×5×5等体积的网格。然后对于每个序列中的每个关节，我们构造一个直方图，其柱的数量等于空间网格的数量。仓值等于关节位置占据栅格的次数我们保持bin值未归一化，以便它取决于空间姿势和时间步伐。图3示出了针对相同动作和相同关节的不同序列获得的直方图的示例。所有三个直方图均显示双峰分布。然而，由于手关节的位置和速度变化，具体的仓计数非常不同。在计算直方图之后，我们计算所有序列上每个bin值的标准差，并对所有bin求和，得到总变异。最后，在所有关节上对总变化进行平均，作为最终变化分数。这种度量满足以下性质。首先，如果所有序列都相同，则度量达到其最小值0。其次，度量随着类内变化的增加而增加。图4显示了不同数据集中不同操作的测量变异分数。此外，我们还评估了组合数据集上的变异得分，其中相同的2代码可在http://bit.ly/BayesianHDM获得7739仅UTD仅MSRA仅组合我们的HSMMHMMMSRA仅G3D仅组合我们的HSMMHMM仅UTD仅G3D组合我们的HSMM HMM9080706050403020100高手网球手网球慢跑抽X拿起画高臂1009080706050403020100706050403020100侧踢手网球向前慢跑网球高尔夫高臂10090807060504030201009080706050403020100慢跑步行网球手网球保龄手1009080706050403020100扔抓住摆动鼓掌服务&抛圆波鼓掌摆动冲头服务摆动波摆动波服务鼓掌图4.通过对组合数据集进行训练和测试，得到变异分数和相应的分类准确率。详情参见第4.5节。左：UTD和MSRA。中：MSRA和G3D。右：G3D和UTD。(Best彩色视图）为了尺度和平移不变性，对组合数据集应用预处理从图中我们观察到，动作涉及更大程度的全身运动，倾向于具有更大的变化，例如高尔夫挥杆和保龄球。解释不明确的动作也有很大的变化，例如高波。对于每个动作，组合数据集具有比每个单独数据集更大的变化分数。我们还绘制了在组合数据集上获得的类分类精度第节讨论了分类详细信息4.5.一般来说，我们的方法比基线方法表现得更好，特别是在具有较大类内变化分数的动作上。这显示了类内变化的显式建模的好处表1.比较具有不同基线模型的不同数据集上的识别准确率（%）。模型MSRAUtdG3dPennAvg.嗯67.882.868.182.375.3HSMM66.382.377.578.976.3LSTM74.777.082.290.381.1HCRF70.774.279.086.377.6HDM-PI70.384.479.489.881.0HDM-PL80.690.287.791.687.5HDM-BV82.191.487.790.888.0HDM-BG86.192.892.093.491.14.3. 单个数据集实验对于单个数据集实验，训练-测试分割遵循数据集作者建议的惯例。通过与不同简化模型的比较，我们进行了烧蚀研究。对于我们的模型，我们考虑四个变量，这取决于推理的执行方式。前两个是基于参数的点估计。在学习过程中获得参数的MAP估计，并且预测似然被简单地计算为MAP参数的似然对于PI，使用超参数的初始对于PL，使用学习的超参数。最后两种变体使用贝叶斯推断，其中预测似然性使用变分推断（BV）或吉布斯采样（BG）按照第3.3节计算。根据表1中的结果，我们有以下观察结果。首先，与非层次基线HMM和HSMM相比，HDM实现了一致的改进.此外，HDM优于HCRF和LSTM都没有明确考虑数据变化。这些结果证明了建模空间和时间变化的好处。第二，将两种点估计方法进行比较，使用学习的超参数可以使精度提高6.5%.这证明了学习超参数的好处第三，与点估计相比，贝叶斯推断将性能提高了0.5%（BV）和3.3%（BG）。这表明，通过在推断中平均掉模型的不确定性，我们可以改进预测。虽然变分推理更容易确定逼近的收敛性，但逼近的质量可能不是最优的。而吉布斯抽样只要有足够的抽样迭代次数和适当的混合条件，就能收敛到真后验。在实验中，我们观察到Gibbs抽样得到的正确模型的对数似然比变分推理得到的模型的对数似然要高，这也与其分类性能相一致。对于其余的实验，我们报告了HDM-BG的结果。表2.将识别准确率（%）与最先进技术进行比较。MSRAUtd方法Acc.方法Acc.[第38话]83.5融合[6]79.1美国[48]88.2DMM[4]84.2土耳其[8]92.0美国有线电视新闻网[51]87.9HDM86.1HDM92.8G3dPenn方法Acc.方法Acc.LRBM[35]90.5Actemes[58]86.5R3DG[47]91.1[36]第三十六话84.8美国有线电视新闻网[51]96.0JDD[5]93.2HDM92.0HDM93.4然后，我们比较我们的方法与国家的最先进的方法的性能。平均识别准确率如表2所示。与基于特征的方法相比，我们在UTD上实现了4.9%的改进对于G3D，我们的模型优于基于模型的方法[35]和基于骨架特征的方法[47]。另一种方法[51]需要依赖于数据集的特征编码，而我们对所有数据集使用相同的数据处理。在Penn数据集中，我们优于基于姿势特征的方法[58，36]，并且我们略优于外观特征变异得分准确度（%）变异得分准确度（%）变异得分准确度（%）7740图5.不同数据集的类不确定性，其中标准差由误差条表示。该曲线对应于类别准确度。两者之间的Pearson相关系数分别为MSRA：-0.5811，UTD：-0.5723，G3 D：-0.8999，Penn：-0.6215。方法[5]，它使用的信息比我们的更多。在MSRA上，我们和[8]之间的性能差距主要是由于使用了复杂的骨架特征编码，我们计划在未来的工作中探索。我们对所有数据集使用相同的运动学特征，而无需对特征进行大量工程设计。总的来说，这些结果表明，通过捕获类内变化，我们的模型在各种数据集上实现了具有竞争力的识别性能。4.4. 不确定性分析首先，我们验证了第3.4节中定义的拟议不确定性度量的有效性。我们计算从最确定到最不确定的数据的不同部分图6中的曲线表明，不确定性与错误率有很好的相关性例如，在MSRA中，当我们选择不确定性最低的30%数据时，错误率为0。当我们将该部分扩展到50%时，错误率增加到8%。我们还在图6中可视化了具有不同不确定性值的数据和相应的类概率。对于低不确定性数据，我们看到概率值几乎在正确类别处达到峰值。而对于右上角具有高不确定性的数据，我们看到一个分散的低概率值。然后，我们通过计算每个类别内不确定度的平均值和标准差来分析类别不确定度。图5绘制了类的不确定性和准确性。我们一般观察到，不确定性越高，准确度越低仅涉及小范围运动的动作例如，MSRA和UTD中的前5个不确定动作都是单手动作。有些动作有细微的区别，如有些动作涉及类似的运动，如图6.分类错误率与不确定性值的不同部分。(See详情见第4.4节输入MSRA更多的结果在文献资料中提供。这些结果表明，在分类决策中应考虑这项工作的一个未来方向是在测试过程中纳入不确定性，以自动优化模型。4.5. 多数据集实验进一步证明我们的模型在不同受试者和试验中的泛化能力。我们进行了两个涉及多个数据集的实验，包括：A. MSRA; B. UTD; C. G3D它们共享多个共同的动作类型。在第一个实验中，我们在组合数据集上训练我们的模型，并使用未包含在组合数据集中的受试者对每个单独的数据集对于组合数据集，我们预计会有显著的类内变化。结果显示在表3的第2-8列中。从结果中，我们观察到1）HDM始终优于实际：跳跃杰克。别名：JumpingJack类类实际：锤子。预测：高抛。概率概率7741表3.多数据集实验的分类准确率（%）。其他方法的结果是使用原始实现获得的。（A，B）、（A，C）、（B，C）和（A，B，C）的共享动作的数量分别为10、8、7和5动作名称如图4所示火车甲乙丙素八和218cAvg.和218c素八甲乙丙Avg.测试一B一CBC一BCHSMM73.782.589.087.091.083.284.465.361.942.556.5DMM[4]76.690.691.784.392.876.485.476.286.351.171.2R3DG[47]82.591.993.690.097.382.989.744.984.472.767.3DLSTM[59]83.993.188.187.082.980.986.070.885.038.964.9HDM86.991.993.692.697.391.092.289.275.061.275.1图7.缺失数据不同部分下的平均准确度和标准差（误差条）HSMM 由于层次结构的原因，缺乏改进的能力。2)HDM在六种情况中的五种情况下优于或达到与其他三种方法相似的结果[4，47，59]。平均而言，它优于所有其他方法，与第二好的方法相比，它使用复杂的方案来提取特征，提高了2.5%。这证明了我们的模型在第二个实验中，我们在两个数据集上训练不同的模型，并在剩下的一个数据集上进行测试。这是一个更具挑战性的场景，因为训练和测试中的数据收集设置非常不同。结果报告于表3第9-12列中。HDM显著优于非分层基线HSMM，平均改善18.6%。HDM也优于[4]，[47]分别下降3.9%、7.8%和10.2%。虽然所有方法的绝对性能都有所下降，但与其他方法相比，我们的方法的相对改进比成对的情况更显着这些结果进一步证明了HDM有足够的吸收大变化的能力。因此，它可以在不同的数据集上更好地泛化4.6. 缺失数据使用生成模型的好处之一是处理丢失的数据。在基于骨架的动作识别中，由于跟踪失败或遮挡等原因，观测值中可能存在缺失值为了证明所提出的方法在处理缺失值方面的鲁棒性，我们进行了一个实验，其中模型在具有随机缺失值的骨架数据上进行训练和测试。为了处理带有缺失值的输入，我们可以-估计似然P（Xt|Zt）仅使用X t 的观察部分。为了公平比较，其他方法使用了缺失值的相同数据。我们重复分类10次，结果如图7所示。我们的方法实现了最小的性能下降丢失部分的增加。这表明，将生成模型与贝叶斯推理相结合，保持了对数据缺失值的鲁棒性。5. 结论在本文中，我们提出了一个概率层次动态模型来处理类内时空变化的人类行为识别。通过将模型参数视为具有指定先验分布的随机变量，该模型能够更好地适应类内变化。提出了一种超参数学习算法。贝叶斯推理的使用不仅提高了模型的泛化能力，而且可以提供预测的不确定性度量，为决策提供参考。在单个数据集和多个数据集上进行的实验表明，所提出的HDM不仅可以捕获不同动作的潜在动态，而且具有足够的能力来允许大的类内变化。缺失值实验也表明了该方法的鲁棒性。确认这项工作得到了IBM和RPI合作的认知沉浸式系统实验室（CISL）的部分支持徐还支持NSFC 61672089和部分支持CSC奖学金。7742引用[1] Jake K Aggarwal和Lu Xia。从3D数据识别人类活动：审查. 模式识别快报，2014年。[2] 马修·比尔近似贝叶斯推理的变分算法。伦敦大学，2003年。[3] 维多利亚·布鲁姆，迪米特里奥斯·马克里斯，还有瓦西里奥斯·阿吉里奥. G3d：游戏动作数据集和实时动作识别评估框架。2012年CVPR研讨会[4] Mohammad Farhad Bulbul，Yunsheng Jiang，and JinwenMa.基于dmms的多特征融合人体动作识别。国际多媒体数据工程与管理杂志，2015年。[5] Congqi Cao，Yifan Zhang，Chunjie Zhang，and HanqingLu.动作识别与联合池3d深度卷积描述符。InIJCAI，2016.[6] Chen Chen ， Roozbeh Jafari ， and Nasser Kehtarnavaz.Utd-mhad：一个利用深度相机和可穿戴惯性传感器进行人类动作识别的多模式数据集。在ICIP，2015年。[7] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会会刊。1977年，B辑（方法）。[8] Maxime Devanne，Hazem Wannous，Stefano Berretti，Pietro Pala，Mohamed Daoudi，and Alberto Del Bimbo.基于黎曼流形上运动轨迹形状分析的三维Cybernetics，2015.[9] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR，2015。[10] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络CVPR，2015。[11] Thi Duong ， Dinh Phung ， Hung Bui ， and SvethaVenkatesh.用于人类活动识别的有效持续时间和分层建模。人工智能，2009年。[12] Ahmed Elgammal，Vinay Shet，Yaser Yacoob和Larry SDavis。基于范例的手势识别的学习动力学在CVPR，2003年。[13] 方浩树，徐元路，王文冠，刘晓柏，朱松春。学习位姿文法编码人体构形以进行 3d位姿估测。在AAAI，2018。[14] 杰克·D·弗格森语音的可变持续时间模型。在1980年的论文集上，他发表了一篇论文，题目是《Hysteresis toText and Speech》。[15] Kei Hashimoto，Yoshihiko Nankaku，and Keiichi Tokuda.一种基于隐半马尔可夫模型的语音合成算法。InINTERSPEECH，2009.[16] Zhiwu Huang，Chengde Wan，Thomas Probst，and LucVan Gool.基于骨架的动作识别的李群深度学习。在CVPR，2017年。[17] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维卷积神经网络TPAMI，2013年。[18] 马修·约翰逊贝叶斯时间序列模型与可标度推理。博士论文，麻省理工学院，2014年。[19] Matthew J Johnson和Alan S Willsky。贝叶斯非参数隐半马尔可夫模型。JMLR，2013年。[20] Ajjen Joshi 、 Soumya Ghosh 、 Margrit Betke 、 StanSclaroff和Hanspeter Pfister。使用分层贝叶斯神经网络进行个性化手势识别。在CVPR，2017年。[21] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.一种新的三维动作识别骨架序列表示方法在CVPR，2017年。[22] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？在NIPS，2017年。[23] 约翰·拉弗蒂安德鲁·麦卡勒姆费尔南多·佩雷拉条件随机字段：用于分割和标记序列数据的概率模型。ICML，2001年。[24] 兰正中，林明，李宣冲，亚历克斯G豪普特曼，和比丘拉吉。超越高斯金字塔：用于动作识别的多跳特征堆叠。CVPR，2015。[25] Quoc V Le，Will Y Zou，Serena Y Yeung和Andrew YNg。独立子空间分析学习分层不变时空在CVPR中。IEEE，2011年。[26] Wanqing Li，Zhengyou Zhang，and Zicheng Liu.基于一袋三维点的动作识别2010年CVPR研讨会。[27] 伊万·里洛阿尔瓦罗·索托和胡安·尼布尔斯空间-时间可组合人类活动的判别历史建模CVPR，2014。[28] Mengyuan Liu和Junsong Yuan。将人类动作识别为姿态估计图的演变。在CVPR，2018年。[29] Behrooz Mahasseni和Sinisa Todorovic。利用三维人体骨骼序列对动作识别的长短期记忆进行规则化在CVPR，2016年6月。[30] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d人体姿势估计。TOG，2017年。[31] 我是穆勒和蒂多·罗德尔。用于自动分类和检索运动捕捉数据的运动模板SIGGRAPH，2006。[32] 凯文·墨菲。matlab的贝叶斯网工具箱计算机科学与统计，2001年。[33] Pradeep Natarajan和Ramakant Nevatia。用于活动识别的耦合隐半马尔可夫模型。在WMVC，2007年。[34] Pradeep Natarajan和Ramakant Nevatia。在线实时跟踪和识别人类行为。在WMVC，2008年。[35] 聂思奇，王晓，季强。基于生成式限制玻尔兹曼机的高维运动数据建模方法CVIU，2015.[36] Xiaohan Nie，Caiming Xiong，and Song-Chun Zhu.视频中的联合动作识别与姿态估计CVPR，2015。[37] 吴桑民，詹姆斯M Rehg，塔克Balch，和弗兰克Del-laert.使用参数分段切换线性动态系统学习和推断运动模式。IJCV，2008年。7743[38] 埃谢德·奥恩-巴尔和莫汉·特里维迪用于动作识别的关节角度载于CVPRW，2013年。[39] Ariadna Quattoni，Sybor Wang，Louis-Philippe Mod，Mod Collins，and Trevor Darrell.隐藏的条件随机字段。PAMI，2007年。[40] Hossein Rahmani和Mohammed Bennamoun从深度和骨架视频中学习动作识别模型。InICCV，2017.[41] 杰米·肖顿，托比·夏普，亚历克斯·基普曼，安德鲁·菲茨吉本，马克·菲诺奇奥，安德鲁·布莱克，马特·库克，理查德·摩尔.从单个深度图像中实时人体姿态识别。ACM通讯，2013年。[42] 司晨阳、雅静、王伟、王良、谭铁牛。具有空间推理和时间堆栈学习的基于骨架的动作识别。ECCV，2018年。[43] Sijie Song，Cuiling Lan，Junliang Xing，Wenjun Zeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据识别人类动作。InAAAI，2017.[44] Yale Song，Louis-Philippe Mod，and Randall Davis.基于层次序列概括的动作识别。CVPR，2013。[45] Yansong Tang，Yi Tian，Jiwen Lu，Peiyang

下载后可阅读完整内容，剩余1页未读，立即下载