没有合适的资源?快使用搜索试试~ 我知道了~
层次贝叶斯神经网络用于个性化手势识别
65130使用层次贝叶斯神经网络进行个性化手势识别0Ajjen Joshi 1 Soumya Ghosh 2 Margrit Betke 1 Stan Sclaroff 1 Hanspeter P�ster 301 波士顿大学 2 IBM T.J. Watson研究中心 3 哈佛大学01 { ajjendj, betke, sclaroff } @bu.edu 2 ghoshso@us.ibm.com 3 pfister@seas.harvard.edu0摘要0构建在容易受到组或个体特定变化影响的数据上训练的鲁棒分类器是一个具有挑战性的模式识别问题。我们开发了层次贝叶斯神经网络来捕捉个体特定的变化,并在个体之间共享统计强度。利用最新的贝叶斯神经网络学习方法,我们构建了快速、可扩展的算法,用于推断层次结构中所有网络权重的后验分布。当只有少量个体特定的个性化数据可用时,我们还开发了适应我们模型到新个体的方法。最后,我们研究了在资源受限的情况下交互式标记个性化数据的主动学习算法。我们侧重于手势识别问题,其中个体之间的变化很常见,我们证明了我们提出的技术的有效性。我们在三个广泛使用的手势识别数据集上测试了我们的框架,在个性化性能上与最先进的方法相媲美。01. 引言0自动识别人类手势的问题一直是计算机视觉和模式识别研究的一个活跃领域。手势识别使人与计算机之间的交互变得自然和直观,因此在机器人、监控和游戏等各个领域都有广泛的应用。一个通用的手势分类器,通过训练集中所有个体的手势示例进行训练,预计能够对用户执行手势的变化具有鲁棒性。然而,当来自不同用户的手势信号表现出高方差时,这样的系统往往难以泛化。例如,考虑一个家庭成员用于控制智能家居设备的手势词汇。尽管每个人可能都能够一致地执行手势,但很可能手势是带有用户特定的个性化特点的,这可能导致较大的个体间变化。设计能够应对这种变化的系统是一个具有挑战性的问题。0图1.我们层次贝叶斯模型的图形模型表示。阴影节点表示观测随机变量。我们参数化组特定的条件分布 p(y_n | z_n = g, f(x_n,W_g)),其中 W_g 是参数化贝叶斯神经网络 f的组特定权重集合。类别标签 y_n 也取决于 z_n,它表示数据实例n的组成员身份。它被标记为蓝色,表示在训练期间被观察到,但在测试时可能未被观察到。0构建在容易受到组或个体特定变化影响的数据上训练的鲁棒分类器是一个具有挑战性的模式识别问题。0使用个体特定的训练数据来个性化手势识别系统是缓解这些困难的一种有希望的方法。本文侧重于个性化,我们构建了层次贝叶斯分类器(图1),通过使用个体特定的条件分布(图2)来适应新的个体。与现有的层次贝叶斯模型不同,我们通过多层贝叶斯神经网络参数化条件分布。它们使我们能够从有限数量的训练样本中学习个体的手势和类别标签之间的潜在复杂功能关系。此外,通过明确建模权重的不确定性,贝叶斯神经网络能够提供与预测的类别标签一起的良好校准的后验不确定性估计。利用可扩展的随机变分推断的最新进展,我们开发了用于学习层次结构中所有网络权重的后验分布的算法。我们进一步…………………… … 65140a) 分层贝叶斯神经网络 b) 个性化0图2. (a)给定由g个主体产生的手势示例,我们使用分层框架训练一个分类器,其中Wg是参数化贝叶斯神经网络的组特定权重集合。不同的形状对应于不同的手势类别,不同的颜色代表产生这些示例的主体。(b)给定来自新主体的少量训练数据实例,我们个性化我们的模型以学习特定于新主体的权重。0使用推断出的后验来驱动主动学习算法,指导对个性化手势进行交互式标记,给定一小组未标记的主体特定手势。我们在三个具有挑战性的手势识别数据集上系统地测试了所提出的模型和算法的各个方面——MSRC-12Kinect手势数据集[10],2013ChaLearn手势挑战数据集[8]和NATOPS手势数据集[29]。我们发现,即使是相对较浅的两个隐藏层网络,我们的方法在手势个性化系统的最新技术中也具有竞争力。我们还经验证明,即使使用天真的完全因子化的变分推理,贝叶斯神经网络也能提供有用的不确定性估计,用于指导主动学习过程。总之,本文在手势识别中提出了三个贡献。首先,我们开发了用于个性化手势识别的分层贝叶斯神经网络,以解决主体间变化的问题。其次,我们调整了降低方差的随机变分推理方法,用于学习模型参数的后验分布。第三,我们利用推断出的后验来驱动一个主动学习过程,始终优于天真的个性化方法。我们的结果证明了所提出的模型和算法在手势识别中的有效性。02. 相关工作0已经提出了使用各种机器学习方法进行手势识别系统,包括基于动态时间规整(DTW)距离的最近邻方法[1],隐马尔可夫模型(HMM)[30],隐条件随机场(HCRF)[28],随机森林[16]和深度神经网络[23]。虽然相关,但我们的主要关注点是个性化手势分类任务。已经为个性化方法开发了0语音[27],手写[7,17],面部动作单元识别[6]和手势[15]。关于领域适应的工作,无论是调整模型参数[33]还是特征表示[26],都与这些方法密切相关。我们的工作借鉴了之前在分层贝叶斯领域适应方面的努力[9]。我们通过将更灵活的贝叶斯神经网络参数化为组/领域特定的条件分布,扩展了这一工作。个性化系统面临的一个特殊挑战是个性化可用数据量很小。Yao等人[34]通过将问题重新定义为从预训练模型组合中选择表现最佳的模型来解决这个问题。由于没有进行新的学习,这种方法非常高效。然而,他们发现相对于在新的个性化实例中部分或完全重新训练模型的基准方法,这种方法的性能较差。我们通过使用贝叶斯神经网络来处理数据稀缺性。贝叶斯神经网络的开创性工作可以追溯到[5,21,22]。随着深度学习的进展以及可扩展推理的进步,对它们的兴趣重新被激发。之前已经提出了分层贝叶斯神经网络[13,20]。然而,它们依赖于昂贵的马尔可夫链蒙特卡罗推理,并且无法扩展到甚至中等规模的架构。相反,我们利用随机变分方法[3,32]来扩展大型架构和大型数据集。先前的工作已经为贝叶斯神经网络[3]和贝叶斯逻辑回归[32]模型开发了这样的算法。我们为分层贝叶斯神经网络引入了随机变分公式。此外,我们利用推断出的权重后验来引导主动学习[14]方法,这些方法在标记数据昂贵的情况下显著提高了系统的性能。p(y | W, z, x) =N�n=1G�g=1p(yn | f(Wg, xn))1[zn=g]. (1)p(Wg | W0, τg) =L�l=1Vl−1�i=1Vl�j=1N(wgij,l | w0ij,l, τ −1g ). (2)p(W0 | τ0) =L�l=1Vl−1�i=1Vl�j=1N(w0ij,l | 0, τ −10 ).(3)65150图3. MSRC-12数据集(左),ChaLearn 2013数据集(中)和NATOPS数据集(右)的手势示例03. 分层贝叶斯神经网络0给定一个数据集 D = { x n , y n } N n =1 ,其中包含 N个手势 x n ∈ R D 和标签 y n ∈ Y的配对,我们的目标是学习从手势到类别标签的功能映射,并对之前未见过的手势 x �进行类别预测。此外,我们关注的是数据集 D 是由 G个不同的主体生成的情况。为了保留主体特定的效果,我们为每个主体赋予其自己的条件分布,允许手势-标签映射在主体之间变化。条件分布通过多层前馈神经网络进行参数化,这使得模型能够捕捉手势和标签之间的潜在复杂映射。假设分布在数据实例上因子化,我们有,0这里,z n 是一个 G 维的分类随机变量,表示数据实例 n的主体成员身份。我们假设主体指示符 z = { z n } N n =1在训练过程中是可观测的。在测试过程中,即使相应的主体成员身份 z � 是未观测到的,我们也能推断出一个保持特征 x� 的类别标签 y � 。我们希望学习 W = {W 1 , . . . , W G },其中 W g 是参数化神经网络 f的主体特定权重集合,其隐藏层使用修正线性激活函数,输出层受到线性约束。这里需要注意的是,函数 f可以是任何可微分的函数。我们对 W g施加因子化的高斯先验,具有独立的主体特定方差,以建模我们的先验假设,即每个主体的功能映射是一个独立受损版本的共同潜在映射(由 W 0 参数化),0我们进一步对权重均值 W 0施加无信息先验——均值为零,方差为 τ − 1 0的高斯分布,0这里,V l 表示第 l 层的单元数,l = 0对应输入层。主体特定方差 τ − 1 g控制主体的手势-标签映射与均值之间的偏差量。手动指定它们可能很困难,过去的研究者 [34]采用交叉验证的方式进行设置。尽管交叉验证过程对于简单的模型可能是有效的,但在这里是不可行的。这样的过程将涉及在 G维连续空间上进行搜索,为每个参数候选重新训练模型。相反,我们对方差施加超先验,并与 W一起进行推断。Gamma分布是高斯分布的精度的共轭先验,因此是一个常见的选择 [2]。然而,最近的研究 [11]表明它不适用于在分层模型中指定无信息先验。根据 [11]的建议,我们改为使用半正态分布,方差为 v的大值,以指定主体特定标准差 τ − 1 / 2 g的无信息先验,0p ( γ g | v ) = N ( γ g | 0 , v ); τ − 1 / 2 g = | γ g |, (4)0在这里,我们引入了一个辅助变量 γ g,并使用性质,如果a � N (0 , σ 2 ) ,那么 | a | � Half-Normal (0 , σ 2)。由此可得 τ − 1 g = γ 2g。在下一节中,我们将看到辅助变量的表述简化了推断过程。最后,我们将观测到的类别标签建模为分类分布的随机变量,0y n | W , x n , z n � Cat ( y n | S ( f ( W z n , x n ))) , (5)p(W0, W, T , y | x, z, τ0, v) = p(W0 | τ −10 )(6)q(Wg|φg)q(γg|φγg),q(W0|φ0) =q(Wg|φg) =(8)− Eqφ[ln q(W0, W, T | φ)],(9)ˆL(φ) = 1S− Eq [ln q(W0, W, T | φ)],(10)=EN (ǫ|0,1)[∇µ,ψg(µ + ψ1/2ǫ)]= 1S�s∇µ,ψg(µ + ψ1/2ǫs); ǫs ∼ N(0, 1),(11)65160其中 S ( a ) = exp { a } / ∑ k exp { a k } 是将 f的实值输出映射到概率单纯形的softmax函数。我们可以总结模型指定的联合分布为,0g =1 p ( γ g | v ) p ( W g | W0 , τ − 1 g )0N0g =1 p ( y n | f ( W g , x n ))1 [ z n = g ] ,0其中 T = { γ 1 , . . . , γ G }。层次贝叶斯神经网络通过允许不同主体的数据的主体特定条件分布之间的系统变化来明确捕捉主体间的方差。同时,它们在主体之间共享统计强度 -对于特定主体观察到的样本不仅提供关于该主体分布的信息,还提供关于其他主体特定分布的信息。04. 可扩展的学习和推断0学习我们的模型涉及推断模型参数的后验分布 p ( W 0 , W ,T | D , z , γ 0 , v )。不幸的是,层次结构中的网络所采用的非线性激活使得后验分布难以处理,因此我们不得不采用近似推断技术。借助可扩展近似贝叶斯学习的最新进展,我们使用变分推断来学习对后验的可处理近似。我们将近似族限制为以下形式,0q ( W 0 , W , T | φ ) = q ( W 0 | φ 0 )0G0(7) 其中 φ = { φ 0 , φ 1 , . . . , φ G , φ γ 1 , . . . , φ γ G }表示变分自由参数。我们用完全因子化的高斯分布来近似权重后验分布,0L0V l− 10j =1 N ( w 0 ij,l | µ 0 ij,l ,ψ 0 ij,l ) ,0L0V l− 10j =1 N ( w g ij,l | µ g ij,l ,ψ g ij,l ) .0辅助变量 γ g 仅通过其绝对值 | γ g |影响模型。因此,我们还可以将 γ g 的后验限制为 q ( γ g |φ γ g ) = N ( γ g | µ γ g , ψ γ g ),即高斯分布。我们通过最大化期望下界(ELBO)来优化变分参数,从而最小化真实后验与变分近似之间的Kullback-Leibler散度KL ( q || p )0L ( φ ) = E q φ [ ln p ( W 0 , W , T , y | x , z , γ 0 , v )]0关于变分自由参数 φ 的变分自由参数 φ。神经网络参数化的分类分布和高斯先验之间的非共轭性导致ELBO中的期望是难以处理的。这使得传统的固定点更新不可用。相反,根据最近的工作[32, 3, 19,24],我们用无偏的蒙特卡洛估计来近似难以处理的期望,0s =1 ln p ( W s 0 , W s , T s , y | x ,z , γ 0 , v )0W s 0 , W s , T s � q ( W 0 , W , T | φ ) .0梯度 � φ L ( φ ) 然后用有噪声但无偏的估计值 � φ ˆ L ( φ )近似。计算 � φ ˆ L ( φ )需要对高斯变分近似的均值和方差进行梯度计算。在[19]中提出的非中心参数化方法 w � N ( µ, ψ ) � � � N (0 , 1) , w = µ+ ψ 1 / 2 � ,允许我们通过蒙特卡洛近似进行微分,� µ,σ Eq w [ g ( w )] �� µ,ψ E N ( � | 0 , 1) [ g ( µ + ψ 1 / 2 � )]0对于任何可微函数 g,都有 � µ,ψ g ( µ + ψ 1 / 2 � )的无偏梯度估计。有了无偏梯度估计,可以通过随机梯度上升 [4] 来优化方程 9。04.1. 局部重参数化0尽管随机梯度上升保证渐近收敛到局部最优解,但其非渐近性能取决于无偏梯度估计的方差。虽然方程 11中的梯度估计先前已被用于学习贝叶斯神经网络[3],但我们发现该估计器的方差太高,无法有效学习我们的层次模型。为了解决这个问题,我们注意到一个层中的权重仅通过该层的预激活影响 ELBO ( L ( φ ))。与其通过对权重的变分后验进行采样来估计ELBO,我们可以对数量明显较少的预激活进行采样,从而对应于隐含的变分分布。这就是[18]中引入的“局部重参数化技巧”,其中作者证明了相应的梯度估计具有可证明的较低方差。对于权重的分解高斯变分后验,相应的预激活分布也易于计算。p(y∗ | x∗, D)=�p(y∗|W, z∗, x∗)p(W0, W, T | D)dW0dWdT≈�p(y∗ | W, z∗, x∗)q(Wz∗ | ˆφz∗)dWz∗,(12)=≈(13)(14)65170高斯分布。第 l 层的第 i 个节点的预激活 b il 的分布为 N (µ T w il a, σ 2 T w il a 2 ),其中 a 是第 l 层的输入,µ w il和 σ 2 w il 是与节点 i相关的权重的变分后验的均值和方差。我们发现,局部重参数化提供了显著的计算成本节约、准确性提高,并且对于有效学习层次贝叶斯神经网络至关重要。04.2. 预测0给定一个来自观察到的主题 z � 的保留手势 x�,类别的后验预测分布如下:0在第二行中,近似值来自变分近似,ˆ φ z �表示最优变分参数。在我们的实验中,我们使用蒙特卡洛估计来评估积分。接下来,我们考虑当主题(z �)和类别(y�)成员都未被观察到且需要推断的情况。对 x �进行分类涉及对其主题成员进行额外的推断。由于这个推断需要在每个数据实例的测试时间进行,因此推断速度至关重要。为了促进主题成员的快速准确推断,我们使用一个推断网络[25, 12] h θ,另一个具有权重 θ 和 G 维度 softmax输出层的多层全连接神经网络。我们通过利用训练集中观察到 z的所有示例来学习这个推断网络。这个推断网络参数化了近似后验 q ( z | x )。由于在训练期间观察到了z,主题推断网络的训练可以独立于其他变分参数进行。在测试时间,推断未知主题成员的分布 q ( z � | x � , ˆ θ ) = Cat( z � | h ˆ θ ( x � )),只需要通过网络进行一次前向传递,其中ˆ θ表示估计的权重。我们使用推断网络与传统的均值场方法形成鲜明对比,传统方法中每个数据点被分配一个独立的变分参数,需要通过多次昂贵的优化迭代来优化,在测试时间。在存在新主题的情况下,我们向主题推断网络添加一个输出节点。然而,我们发现只更新与新节点相关的权重就足够了,网络不需要重新训练。通过边缘化联合后验预测分布,我们得到类别标签的预测分布:0p(y� | x�, D) =0∑z�=1 p(y�, z� | x�, D)0∑G.0∑z�=10∑ p(y� | W, z�, x�) p(W0, W, z�, T | D) dW0 dW dT.0∑z�=1q(z� | x�, ˆθ) ∫ p(y� | W, z�, x�) q(Wz� | ˆφz�) dW.0通过蒙特卡罗近似估计W的积分,p(y� | x�) ≈ ∑Gz�=1q(z� | x�, ˆθ) | W, z�, x�) p(Wz� |0t p(y� | Wt, z�, x�), Wt � q(W | ˆφz�, ˆθ).05. 个性化0在本节中,我们专注于将来自新的、以前未见过的主题的数据纳入模型并对其进行个性化调整。我们将这个过程称为个性化,并关注当有少量新主题的数据实例可用于训练时的情况。将新主题G + 1的手势表示为DG +1,我们学习一个特定于主题的模型WG + 1 | DG +1。通过观察到在给定W0的情况下{Wg} G + 1 g =1在给定D的情况下是条件独立的,因此在保持估计{Wg} Gg = 1 | D和W0 | D不变的情况下,我们只更新WG +1。我们还可以更新后验{Wg} G g = 1 | D ∪ DG + 1和W0| D ∪ DG + 1。然而,通常只有少量的适应实例DG +1可用,这些实例对后验{Wg} G g = 1 | D和W0 |D的影响很小。05.1. 主动学习0收集和标记个性化手势可能很昂贵。例如,考虑一个设计用于识别航空母舰上海军飞机操纵员所做的特殊手势的系统。不仅收集额外的手势可能具有挑战性,而且标记手势需要专业领域知识,成本可能过高。为了最大限度地利用有限的标记资源,我们接下来描述了一种主动学习过程,以在给定少量未标记的适应示例池的情况下指导手势的选择进行标记。通过使用贝叶斯主动学习通过不一致性(BALD)的后验分布而不仅仅是点估计,我们可以使用一种最先进的主动学习算法[14]。给定来自主题g的未标记手势池Xpool和在D上训练的模型,BALD依次选择手势xl,使得0xl = argmax x ∈ X pool H[y | x, D] - E Wg � p(Wg | D) H[y | x,Wg],65180图4. 对于ChaLearn数据集的15个随机的75-25分割,使用局部重参数化(lprm)和不使用(nolrpm)不同HBNN架构的模型,期望下界(ELBO)的平均对数与训练轮数的关系:具有一个隐藏层的HBNN(左),具有两个隐藏层的HBNN(中),具有三个隐藏层的HBNN(右)。0其中H[t] = - ∫ p(t) log p(t)dt。正如Houlsby等人所指出的[14],方程式14可以直观地解释:BALD寻找一个数据实例xl,使得模型在所有权重上平均时对y的不确定性较高(高H[y | x,D]),但是权重的个别设置对其预测具有较高的确定性(低E Wg � p(Wg | D) H[y | x, Wg])-即,当后验权重最不一致时。对于某些模型类别,可以使用近似方法有效地评估方程式14,但是这些方法不能扩展到我们的多类别分类问题。因此,我们采用蒙特卡罗方法。我们经验证实,即使只有少量样本,这些近似方法也明显优于随机均匀选择手势。06. 实验结果0我们使用了三个数据集来测试我们的框架,这些数据集都包含了主体执行手势的骨骼数据。MSRC-12Kinect手势数据集包含30个不同主体执行的12种不同手势,共约4900个手势实例(图3左)。手势是使用MicrosoftKinect录制的。2013年Chalearn手势挑战数据集包含了36个不同主体的20个手势示例。与Yao等人[34]一样,我们使用了包含约11000个样本的训练和验证数据。数据集中的手势是使用MicrosoftKinect录制的,代表了意大利语中常用的通信信号(图3中)。NATOPS数据集[29]包含20个不同主体执行的24个独特的飞机操纵信号,每个手势由所有主体重复执行20次(图3右)。身体特征(右手和左手的角关节速度的角度关节速度的12维向量)和手部特征(左手和右手的手形的概率值的8维向量)的12维向量,以及手部特征(左手和右手的手形的概率值的8维向量)。0由Song等人收集的手部数据(手势)作为数据集中所有视频的所有帧的特征提供。为了与之前的工作进行有控制的比较,我们使用了相同的特征表示-MSRC-12和Chalearn数据集中20个身体关节的原始x、y、z世界坐标。对于NATOPS,我们使用了[29]中提供的20维特征,每帧。我们通过在时间上均匀采样并连接每帧特征来提取帧,从而为三个数据集产生600维的输入特征向量。这使我们能够为三个不同的数据集使用相同的模型架构。在我们的实验中,我们训练了一个具有不同数量的隐藏层的分层贝叶斯神经网络,每个隐藏层有400个激活节点。我们将超参数v设置为100,τ-10设置为1000,并使用RMSprop [31]来优化ELBO。06.1. 局部重新参数化的好处0为了研究局部重新参数化ELBO梯度的有效性,我们训练了一个具有1、2和3个隐藏层的HBNN,每个隐藏层有400个激活节点,对ChaLearn数据集进行了100个周期的训练,重复了15次随机的75/25分割。图4显示了在训练过程中使用和不使用局部重新参数化(lprm)的ELBO演化情况。我们发现,对于所有三种架构,使用局部重新参数化梯度的模型取得了更好的进展,达到了更高的期望下界,性能差距随着深度的增加而增大。06.2. 手势识别0接下来,我们展示了使用贝叶斯神经网络对组特定条件分布进行参数化所提供的灵活性。对于所有数据集,我们训练了一个具有两个隐藏层,每个隐藏层有400个单元的HBNN,并与两个强基准进行了对比:我们的分层贝叶斯框架(HBMR)的多项式回归版本,以及一个将所有主体数据汇集到一个单一的两个隐藏层非分层贝叶斯神经网络。65190图5. 我们分层贝叶斯手势分类器不同版本的平均F1分数。对于这三个数据集(MSRC-12数据集(左)、Chalearn2013数据集(中)和NATOPS数据集(右)),我们训练了一个分层贝叶斯多项式回归分类器(HBMR)和一个分层贝叶斯神经网络(HBNN),并使用它们来预测测试数据的类标签。对于HBNN,当测试数据的组成员身份已知时,我们使用属于相应组的权重进行预测(HBNN(已知Z))。当测试数据的组成员身份未知时,我们使用朴素贝叶斯模型平均(HBNN-NBMA)和加权贝叶斯模型平均(HBNN-WBMA)得到的结果。我们将结果与基线BNN进行了比较,该BNN使用从所有主体汇集到一个组中的数据进行训练,其均值在图中以虚线黑线表示。0单一组成员。我们在数据的5个随机75/25复制上训练了所有模型50个epochs。图5展示了相应的结果。首先,关注当已知主体成员资格时(HBNN-Known Z和HBMR-KnownZ),我们发现非线性的HBNN模型在三个数据集上明显优于(条件上)线性的HBMR模型。HBNN模型还在三个数据集上优于非分层贝叶斯神经网络,清楚地证明了使用主体特定模型而不是汇总模型的好处。有趣的是,HBMR仅在MSRC数据集上优于非分层贝叶斯神经网络。这表明,与捕捉手势和标签之间的复杂非线性关系相比,建模主体特定的个体差异对于NATOPS和ChaLearn数据集来说不那么重要。与现有手势识别系统的进一步比较可在补充材料中找到。0未知主体成员资格。我们研究了我们提出的主体成员推断网络的有效性。当测试手势的成员资格未知时,我们比较了两种预测其类别标签的方法——朴素贝叶斯模型平均(HBNN-NBMA),其中我们均匀地平均了所有主体的后验预测分布;加权贝叶斯模型平均(HBNN-WBMA),其中权重由主体成员推断网络确定。在MSRC-12和NATOPS数据集上,我们发现HBNN-WBMA明显优于HBNN-NBMA。在ChaLearn数据集上,两种方法表现相似,但HBNN-WBMA在不同划分之间的方差较低。这些结果共同表明,在测试时不知道主体成员资格时,使用识别网络是有帮助的。0我们注意到,对于除ChaLearn数据集外的所有数据集,对手势的主体成员资格的先验知识会导致更好的预测性能。ChaLearn数据集更具挑战性,因为手势定义不够严格。这导致手势的变异性更大,并削弱了我们的假设,即每个受试者执行给定手势时都是一致的,并且与其他个体不同。这可能解释了为什么知道主体成员资格并没有显著提高性能。06.3. 个性化0最后,我们展示了HBNN模型的个性化能力的实验证明。给定来自新受试者的有限数量的训练实例,我们学习了调整到该受试者的模型参数。对于所有数据集,我们使用了一种留一受试者交叉验证方案,在此方案中,我们对G-1个受试者进行了预训练的个性化模型,并从测试受试者的每个类别中随机选择了七个(NATOPS为十五个)手势作为个性化的训练池。预训练和个性化模型都包含两个层,每个层有400个单元,并且训练了50个epochs。我们考虑了两种从个性化池中引入手势的方案:RAND,其中来自测试受试者的训练池的数据以随机均匀的方式添加;BALD,其中使用基于不确定性的抽样(公式14)选择训练池中的数据。对于每个测试受试者,我们重复了实验五次,在每次重复中随机选择个性化手势池。我们将这些方法与一个强大的非个性化基线进行了对比——一个非分层的BNN(具有两个400单元的隐藏层),该基线使用了所有受试者的数据进行训练。65200图6. 不同个性化方案的平均F1分数与每个手势的个性化实例数量的关系图。我们观察到,当个性化实例数量大于MSRC-12数据集的1个(左图),ChaLearn2013数据集的3个(中图)和NATOPS数据集的4个(右图)时,使用BALD进行个性化优于使用RAND进行个性化。我们的结果还与Yao等人提出的个性化方法进行了比较,他们报告了他们在MSRC-12和ChaLearn2013数据集上的结果。我们将个性化结果与将所有训练数据汇总到一个组中进行训练的基线BNN进行了比较,基线BNN的均值在图中以虚线黑线表示。0除了测试(个性化)主题汇集在一起。图6的结果显示,每个主题只有两个或三个手势示例时,HBNN在MSRC和NATOPS上的表现优于基准。在ChaLearn上,每个类别有五个手势示例的BALD的表现与非个性化基准相当。值得注意的是,ChaLearn上的个性化基准(图6)的F1分数比图5中呈现的非个性化基准更高。然而,图5中的基准对应于在所有主题的样本上训练的模型,但训练集大小限制为75%,而图6中的模型是在36个主题中的35个主题上训练的,相当于数据集的97%。对于ChaLearn数据集,主题内手势的变异远大于主题间的变异。因此,观察数据集的更多部分而不是来自同一主题的手势会导致更好的性能。这也是为什么HBNN在ChaLearn上需要更多(4个)个性化示例而不是其他数据集的原因。比较BALD和RAND,我们发现当训练实例的数量超过MSRC、NATOPS和ChaLearn数据集的一个、三和四时,BALD提高了个性化性能。这是一个有趣的结果,表明即使我们的天真的均值场近似提供了足够准确的预测不确定性估计,使得基于不确定性的BALD采样优于随机的RAND采样。此外,我们的实验表明,在标记资源有限的情况下,基于BALD的主动学习是构建个性化分类系统的一个有吸引力的选择。我们注意到,当只有很少的个性化实例可用时,BALD和RAND的性能相似。这可能是由于在非常少的个性化实例范围内不确定性估计较差。我们将我们的方法与现有的手势个性化技术[34]在MSRC和ChaLearn上进行了比较。0数据集(图6)。Yao等人[34]提出了三种个性化方法:完全个性化,指的是根据个性化数据完全重新训练随机森林分类器;自适应个性化,指的是根据个性化数据调整预训练随机森林的参数;以及组合方法,其中预先训练了一组随机森林分类器,并使用最佳表现的组合成员对来自新主题的数据进行分类。我们观察到,在MSRC上,当每个手势类别的个性化实例数量大于两个时,RAND和BALD的表现优于所有竞争方法。在ChaLearn上,BALD在观察到五个个性化实例后,优于组合和自适应方案,并且与完全个性化相差不大。07. 结论0我们使用层次贝叶斯神经网络开发了一个个性化手势识别系统,并描述了执行后验推断的算法。我们展示了层次模型相对于忽略主题特定手势变化的基准模型的优势,并证明了该模型学习复杂特征-标签映射的可扩展性。最后,我们使用推断得到的权重后验分布来指导个性化预训练模型的主动学习过程。我们的基于后验的主动学习算法始终优于随机选择手势。进一步扩展这项工作可能包括将该公式扩展到同时定位和分类输入流中的手势,以及在其他领域的个性化挑战中测试该框架。致谢。作者感谢Jessica Hodgins、LeonidSigal、Scott Watson、Jamie Robertson和MichaelHolton。本工作得到了迪士尼研究和NSF资助项目1551572和1337866的部分支持。65210参考文献0[1] J. Alon,V. Athitsos,Q. Yuan和S.Sclaroff。动态手势的同时定位和识别。在第七届IEEE计算机视觉应用研讨会,2005年。WACV/MOTIONS'05,卷2,第254-260页。IEEE,2005年。[2] C. M.Bishop。模式识别。机器学习,2006年。0[3] C. Blundell,J. Cornebise,K. Kavukcuoglu和D. Wier-stra。神经网络中的权重不确定性。在第32届国际机器学习会议(ICML-15)论文集中,第1613-1622页,2015年。[4] L.Bottou。神经网络的随机梯度学习。神经-尼姆斯会议论文集,91(8),1991年。[5] W. L. Buntine和A. S.Weigend。贝叶斯反向传播。复杂系统,5(6):603-643,1991年。[6] W.-S. Chu,F. De la Torre和J. F.Cohn。用于个性化面部动作单元检测的选择性传输机。在计算机视觉和模式识别(CVPR)2013年IEEE会议上,第3515-3522页。IEEE,2013年。[7] S. D. Connell和A. K.Jain。用于在线手写识别的编写者自适应。模式分析和机器智能,IEEE交易,24(3):329-346,2002年。[8] S. Escalera,J.Gonz`alez,X. Bar´o,M. Reyes,O. Lopes,I. Guyon,V.Athitsos和H.Escalante。多模态手势识别挑战2013:数据集和结果。在第15届ACM国际多模态交互会议论文集中,第445-452页。ACM,2013年。[9] J. R. Finkel和C. D.Manning。分层贝叶斯领域自适应。在人类语言技术会议论文集中的论文集,第602-610页。计算语言学协会,2009年。[10] S.Fothergill,H. Mentis,P. Kohli和S.Nowozin。为训练手势交互系统指导人们。在人因计算机交互系统SIGCHI会议论文集中,第1737-1746页。ACM,2012年。[11] A.Gelman和J.Hill。使用回归和多层次/分层模型进行数据分析。剑桥大学出版社,2006年。[12] S. J. Gershman和N. D.Goodman。在概率推理中的分摊推理。在第36届认知科学学会年会论文集中,2014年。[13] M. Ghosh,T. Maiti,D. Kim,S.Chakraborty和A.Tewari。分层贝叶斯神经网络:前列腺癌研究的应用。美国统计协会杂志,99(467):601-608,2004年。[14] N. Houlsby,F.Husz´ar,Z. Ghahramani和M.Lengyel。用于分类和偏好学习的贝叶斯主动学习。arXiv预印本arXiv:1112.5745,2011年。[15] A. Joshi,S. Ghosh,M.Betke和H.P�ster。用于个性化分类的分层贝叶斯神经网络。在贝叶斯深度学习的神经信息处理系统研讨会上,2016年。[16] A. Joshi,C.Monnier,M. Betke和S.Sclaroff。用于分割和分类手势的随机森林方法。在02015年IEEE国际自动面部和手势识别会议及研讨会(FG2015)。IEEE,2015年。0[17] W. Kienzle和K.Chellapilla。通过有偏正则化的个性化手写识别。在第23届国际机器学习会议论文集中,第457-464页。ACM,2006年。[18] D. P.Kingma,T. Salimans和M.Welling。变分丢失和局部重参数化技巧。在神经信息处理系统进展中,2015年。[19] D. P. Kingma和M.Welling。随机梯度VB和变分自动编码器。在第二届国际学习表示会议ICLR,2014年。[20] Y. Liang和A. G.Kelemen。用于基因表达时间模式的分层贝叶斯神经网络。遗传学和分子生物学的统计应用,3(1):1-23。0[21] D. J.MacKay。反向传播网络的实用贝叶斯框架。神经计算,4(3):448-472,1992年。[22] R. M.Neal。神经网络的贝叶斯学习,卷118。斯普林格科学与商业媒体,2012年。[23] N. Neverova,C. Wolf,G. W. Taylor和F.Nebout。多尺度深度学习用于手势检测和定位。在计算机视觉-ECCV 2014研讨会中,第474-490页。斯普林格,2014年。[24] R.Ranganath,S. Gerrish和D. M.Blei。黑盒变分推理。在AISTATS中,第814-822页,2014年。[25] D. J. Rezende,S. Mohamed和D.Wierstra。在深度生成模型中的随机反向传播和近似推理。在第31届国际机器学习会议论文集中,第1278-1286页,2014年。[26] K.Saenko,B. Kulis,M. Fritz和T.Darrell。将视觉类别模型适应到新领域。在计算机视觉-ECCV2010中,第213-226页。斯普林格,2010年。[27] K.Shinoda和C.-H.Lee。一种用于说话者自适应的结构贝叶斯方法。语音和音频处理,IEEE交易,9(3):276-287,2001年。[28] Y. Song,D.Demirdjian和R.Davis。使用时间平滑的隐藏条件随机场进行多信号手势识别。在2011年IEEE国际自动面部和手势识别会议及研讨会(FG2011)中,第388-393页。IEEE,2011年。[29] Y. Song,D.Demirdjian和R.Davis。用于手势识别的身体和手部跟踪:Natops飞机操作信号数据库。在2011年IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功