没有合适的资源?快使用搜索试试~ 我知道了~
432过渡森林:学习用于动作识别和检测的判别性时间转换伦敦帝国理工学院ggarciah@imperial.ac.uk伦敦帝国理工学院tk.kim邮件imperial.ac.uk摘要人类动作可以被视为一个人的身体姿势随时间的转变,其中转变描绘了两个因此,识别动作涉及学习对这些姿势转换以及静态姿势敏感的分类器。在本文中,我们介绍了一种新的方法,称为过渡森林,一个集成的决策树,都学习区分静态姿势和两个独立的帧对之间的过渡。在训练过程中,节点分裂是由交替两个标准驱动的:标准分类目标,最大限度地提高个别帧的区分能力,以及成对帧转换中的生长树倾向于将具有相似的相关联的过渡并且共享包含否则不可用的时间信息的相同动作标签的帧分组。与传统的决策树不同,在传统的决策树中,节点中的最佳分割是独立于其他节点确定的,过渡森林试图联合(在一层内)找到节点的最佳分割,以合并远处的节点过渡。当推断新帧的类别标签时,它被向下传递到树中,并且以高效和在线的方式基于先前的帧预测和当前帧预测进行预测我们将我们的方法应用于不同的骨架动作识别和在线检测数据集,显示其适用于多个基线和最先进的方法。1. 介绍识别和定位人类动作是计算机视觉中的一个重要和经典问题[1,7],具有广泛的应用,包括普及的医疗保健,机器人技术,游戏控制等。随着最近引入的具有成本效益的深度传感器和可靠的实时身体姿势估计[22],基于手势的动作识别已经变得流行,因为姿势特征在准确性和效率方面优于原始RGB 视频方法[33]。动作识别和定位的流行方法包括使用生成模型,如状态空间模型[14,31];或者将其作为整个序列[26,40],一小块帧[10,36]或深度递归模型[9,16]的分类问题来解决。性能最好的方法集中在使用时间序列模型[37]或识别关键姿势[38]对节奏动态进行建模,表明静态和动态信息都受此启发,我们考虑决策森林[3],由于许多期望的属性,它已被广泛应用于计算机视觉[22,24,33]:在叶节点中获得的聚类、可扩展性、对过拟合的鲁棒性、多类学习和效率。使用决策森林解决时间问题的主要挑战在于处理时间依赖性。先前的方法通过堆叠多个帧[10]、手工制作时间特征[34,40]或创建码本[34]来对特征空间中的时间变量进行编码。然而,这些方法需要的时间线索是explanatively给出,而不是自动学习他们。为了缓解这种情况,[11,33]添加了一个时间回归项,帧单独投票给动作中心,打破了时间连续性,因此没有完全捕捉时间动态。[14]提出了一种生成状态空间,而没有利用具有丰富标记数据的好处。[6]分组对遥远的帧,并使用手工制作的分裂函数来覆盖不同的标签转换来生长树,难以设计特定于域的函数,并使模型的复杂性随着标签的数量而增加。在这项工作中,我们提出了“过渡森林”,一个集合的随机树分类器,学习静态姿势信息和时间转换的歧视性的方式。在训练森林的同时学习时间动态(除了特征空间中的任何时间依赖性之外),并且通过考虑先前的预测来进行预测引入先前的预测使学习问题更具挑战性,因为“鸡和蛋”问题:在一个节点中做出的决策取决于其他节点的决策,433亦然为了解决这个问题,我们提出了一个训练过程,迭代分组对帧具有相似的相关帧转换和类标签在一个给定的水平的树。我们结合了静态和过渡信息,通过随机分配节点进行优化的分类或过渡标准。在树生长结束时,到达叶节点的训练帧有效地表示类标签和相关的转换。我们发现,在训练中添加这种时间关系有助于获得更鲁棒的单帧预测。使用单帧帮助我们保持低复杂性,并能够进行在线预测,这是使我们的方法适用于现实生活场景的两个关键条件。2. 相关工作基于骨架的动作识别。 生成模型[14,31,32]如隐马尔可夫模型(HMM)已被提出,其缺点是难以估计模型参数和耗时的学习和推理阶段。判别方法由于其优越的性能和效率而被广泛采用。例如,[29]从身体关节提取局部特征,使用傅立叶时间金字塔(FTP)捕获时间动态类似地,[26,27]将整个骨架表示为李群中的点,然后使用动态时间规整(DTW)和应用FTP在时间上对齐序列。[36]提出了一种使用姿势和原子运动信息的移动姿势描述符(MP),然后使用k-NN方法在时间上挖掘关键帧,与[12]使用DTW形成对比。[8,28,38]还研究了使用关键帧或关键运动单元,显示出良好的性能,表明静态信息对于识别动作很 重 要 。 最 近 , 已 经 提 出 了 使 用 递 归 神 经 网 络(RNN)[9]和长短期记忆(LSTM)[25,39]的深度模型来对时间依赖性进行建模,但表现出比显式利用静态信息[28,30]或非常适合的时间序列挖掘[37]的最近(离线)模型更差的性能。我们的森林以有区别的方式学习bost静态每帧和时间信息。基于以太网的在线动作检测。检测流数据上的动作[7]的探索比rec少识别分段序列,同时对真实场景更感兴趣。早期的方法[10]包括使用短帧序列或短运动信息[36]来投票是否正在执行动作。[20]提出了一种类似的方法,但添加了多尺度信息,而[17]提出了一种动态的特征袋。 最近,[16]介绍了一个更现实的数据集,基线方法,并显示了分类/回归RNN的最新性能,后来通过[2]使用RGB-D时空上下文和决策森林进行了改进。森林和时间数据。用于动作识别的标准森林方法,例如[10]直接堆叠帧并生长森林来对其进行分类[19,40]创建姿势袋并对整个序列进行利用树的聚类特性,[34]借助不同的启发式规则捕获结构信息来构建码本。这些方法需要将时间线索直接编码在特征空间中。为了缓解这种情况,[4,33,35]添加了一个时间回归项,并将外观和姿势特征映射到动作霍夫空间中的投票。[11]提出了轨迹霍夫森林(THF),它计算连续颜色和流轨迹补丁上的树路径的直方图,并将它们用作预测的权重。然而,在Hough框架中,时间信息被捕获为相对于独立样本的时间中心的时间偏移,打破了时间连续性并要求观察整个序列相反,我们明确地捕捉到丰富的时间动态,并能够进行在线预测。[6]提 出 了 用 于 面 部 表 情 识 别 的 成 对 条 件 随 机 森 林(PCRF),由手工制作的分裂函数对成对帧进行操作的这些对被形成为覆盖不同的面部动态,并被馈送到基于不同的标签转换有条件地绘制的决策树的多个子集中,从而使得总体大小与标签的数量成比例。相比之下,我们的逐层优化尝试基于单帧自动学习最佳节点分裂,最大化同一树中的静态和传输信息,因此不需要手工制作分裂函数或基于不同标签创建不同的树基于森林的生成方法包括动态森林模型(DFM)[14],它是自回归树的集合,在其叶节点存储多变量分布。这些分布对给定前k帧的短历史的观测概率进行建模。与HMM类似,决策森林针对每个动作标签进行训练,并执行最大化观察序列的最近,[5]提出学习平滑时间回归用于实时相机规划。我们与[5]分享了以我们自己以前的预测为条件进行在线预测的递归性质,但是我们的方法在学习和推理阶段如何定义递归方面有所不同我们在第4节中比较了一些相关的方法。基于树的结构化预测方法。 相关的工作[13,18,21,23]提出了用于图像分割的决策这些方法的目的是获得连贯的像素标签,并在为了连接多个像素的预测,决策森林与概率图形模型。虽然这些方法专注于图像空间中预测的空间一致性,但我们的方法试图捕获时间域中数据/预测的区别性变化。434不不我我12我2i+m23. 过渡林假设我们给定一个训练集S,该训练集由输入输出对{(x1,y1),.,其中,Xt是编码姿态信息的帧特征向量,并且Yt是其对应的动作标签(或背景在检测设置中)。我们的目标是使用决策树对每个给定的xt推断yt在决策树上,输入实例xt从根节点开始,遍历不同的内部节点,直到到达叶节点。每个内部节点i∈ N包含一个二元分裂函数f,其参数为θidecid-判断实例是否应该被定向到左子节点或右子节点。考虑在决策树的级别l上的节点集合Nl<$N令Si表示到达节点i的标记训练实例(xt,yt)的集合(参见图1)。对于每对节点i,j ∈ Nl,我们可以计算在d个时间步长中从节点i行进到节点j的帧对T j的集合,如下:1 21 2S1S21图1:代表两个不同动作的连续帧这些帧被分成对应于子节点1和2的两个不同子集S1和S2。我们将转换计算为d-距离帧对(在本例中d=1),并根据每个单独帧的路径对它们进行T1和T2只呈现一个跃迁,而T1呈现两个跃迁1 22j2Tj={{(xt−d,yt−d),(xt,yt)}|(每个类一个),T1为空。我不是 由θ0决定。(xt−d,yt−d)∈Si<$(xt,yt)∈Sj},(1)其中,我们将帧对Tj的集合称为过渡,3.1. 学习过渡森林我们训练转换树的方法是通过增长-一棵树,一次一层,类似于[23]。在每一个层面,从节点i到j。注意,Ti 取决于到达节点i和j以及时间距离d。为了达到-对于不同的时间模式,我们从1到k距离帧改变距离d在下文中,我们将参数k称为过渡森林的时间顺序。在图1所示的示例中,我们观察到f(θ0,S0)的判定是相当好的,因为它把S0分成两个集合,S1和S2,其中一个作用标号占优势。如果我们检查与这种分裂相关的转移,我们会看到我们得到两个纯集合T1和T2,一个混合集合T1和T2,我们为每个节点随机分配一个分裂标准,在分类和转换之间进行选择。分类标准最大化静态姿势的类别分离,而转换标准将共享相似转换的帧如上所述,为了最大化所学习的时间信息的跨度,我们学习d-距离帧对之间的转换(等式2)。1)从先前帧直到森林的时间顺序,k。对于每棵树,我们在上述范围内随机分配一个d值,并在生长过程中保持不变。1 2 2一个空集T2. 想象一下,我们现在观察到的如果我们在S1中的一个帧中,并且我们必须根据这个分割来做出决定或者,如果我们检查先前观察到的帧(在S2中)并检查其相关的转换T1,则不确定性现在为1/2,因此我们将不太倾向于做出错误的决定。从上面的例子中,我们推断,如果我们得到了一个更好的分裂,并且两个子节点都是纯的,我们肯定会通过只看子节点来做出一个好的决定。然而,如果在特征空间上没有很好地捕获时间动态,则很难学习好的分裂。另一方面,如果我们得到了一个使跃迁纯粹的分裂,我们也可以做出一个好的决定。这些观察促使我们研究如何学习帧之间的转换可以帮助我们通过引入否则不可用的时间信息来改善我们的预测。这棵特别的树对于M棵树的总体集合,我们将有用不同d值训练的树的子集:M = M1... Mk.考虑一个节点i∈Nl和一个决策θi。 根据θi,Si中的实例分别指向其左或右子节点2i+1和2i+2,因为S2i+1={(xt,yt)∈Si|f(θi,xt)≤0},S2i+2=Si\S2i+1.注意,分割函数f在单个帧上操作,这将在推理阶段表现出重要性在分裂之后,我们可以计算它们的子节点{2i +1,2i +2}<$Nl+1之间的转移集合为{T 2i+n}m,n∈{1,2}。注意,T i被分成四个不相交的集合,每个集合与与其子节点相关联的转换的组合。基于目标函数的最小化来选择决策θi目标函数目标函数具有两个相关项:一个用于单帧分类Ec,一个用于表示为Et的子节点之间的转换。的S010θ02不435不不分类项Ec是到达子节点{S2i+m}m∈{1,2}的样本集上的类分布的加权香农熵,如在标准分类森林中。愿意减少过渡的不确定性,同时增长的树,过渡期的目的是学习节点决策的一种方式,转移的子集在下一级更纯对于节点j∈N1,过渡项是其子节点之间的过渡的函数,并且它被定义为:Σ算法1学习转换树的第l层输入:在级别l和时间顺序d处的节点的集合Nl输出:分割函数参数集{θi}一曰:过程LEARNL EVEL(Nl)2:将Nl中的节点随机分配给Nc和Nt3:对于所有i∈Nc,4:使用Ec优化Nc5:保存并修复θi6:结束Et(θj)=|H(T2j + n),(2)|H(T 2j+n),(2)7:初始化{θj},j∈Ntm,n∈{1,2}2个j+m2个j+m8、当事情发生变化时,9:对于所有j∈Nt,其中T(·)在等式中定义(1)和H(T(·))是Shan-10:Θ←随机特征/阈值选择(·)(·)11:θ ←arg minE′(θ|{θ})在不同的标签转换上计算非熵这两项可以交替或加权求和作为单节点优化。然而,为了反映更远的节点之间的转换并捕获更多的时间信息,我们扩展了Et以考虑树的给定级别中的所有可用节点的集合(如图2所示)。J12:结束13:结束while14:结束程序θ′∈Θ不Jii/=j∈Nc<$Nt图2(a))。为此,我们随机分配一个子集的父节点Nc和Nt分别由Ec和Et假设节点之间的转换取决于不同节点处的分裂决策,则学习级别的任务可以被公式化为目标函数在与级别节点相关联的分裂参数上的联合最小化,如下所示:minEc({θi}i∈Nc)+Et({θi}i∈Nc<$Nt).(三){θi}优化. 最小化目标函数的问题(等式10)(3)很难解决。我们可以考虑随机地为{θi}赋值,并以类似于标准贪婪优化的方式选择使目标最小化的值E′的值在每次迭代中减小(或不变),从而间接地最小化Et。按照这种策略,它不太可能达到全球最低水平,但在实践中,我们发现这对我们的问题是有效的。注意,计算Eq. 4需要其他节点中的split参数可用,这迫使我们在第一次执行之前对其进行初始化。我们发现,初始化的节点使用Ec帮助算法收敛速度比使用随机初始化减轻我们的计算成本。3.2. 推理将我们自己限制在叶节点L的集合上,我们分配每个转移子集{Tj}i,j∈L是一个条件概率决策树的分解然而,搜索空间增长ij与树的深度成指数关系,并且同时对所有节点和样本评估Et我们的策略,以减轻这些问题中提出的算法1。假设Ec只依赖于Nc个节点的决策,我们可以使用标准的贪婪过程来优化这些节点。一旦优化并固定了Nc中的所有节点,我们就遍历Nt中的每个节点,以找到使Et的局部版本最小化的分裂函数,表示为作为E′,其保持除了所考虑的节点的一个之外的所有分裂参数固定 它被定义为节点j∈Nt,标记跃迁上的分布,记为πi(yt|yt−d)。这与分类森林不同,在分类森林中,分类概率πi(yt)是在到达叶节点i的所有训练实例集合Si上估计的。相反,我们关注依赖于叶节点(预测)到达的前一个D-远距离帧。注意,分割函数f是针对单个帧定义的,使得我们能够执行单独的帧预测。对于Md过渡树的集合,我们定义给定两个d-距离帧的预测函数:它依赖于其子节点和所有p(y|x,x1,y )=Σ (π(xt−d)(y|y))(m),从这些子节点到这些子节点的转换在jD不不t-dt-d|Md| m∈Md(xt)不t-d(五)E′(θj|{θi}iΣj∈N <$N)=¸|T2 j +nX`|H(T˛2j+n)其中,x1(xt)和x2(xt-d)是xt到达的叶节点tctΣm,n∈{1,2}2个j+m2个j+m和xt-d分别在第m棵树我们将其命名为proba-转换概率的概率。 我们将过渡+|T2i+n|H(T2i+n)+|T2j+n|H(T2j+n).`2j+m2j+mx`2i+m2i+mx不同的先前帧对的概率,直到k与分类概率(见图2(b))。Com-m,n∈{1,2}来自J我到J来自I(四)我436将静态分类概率与时间转移概率合并定义我们的最终预测方程437Nl我Tii我JTJ我不JJNl+1f(θi)f(θ)J2i+12i+22j+ 12j+2我d= 1D= 2TjEt(θi,θj)xt−2xt−1xtEc(θi)(a)(b)第(1)款图2:(a)转移树的生长水平同时取决于所有节点决策θi和θj。 每个Tj根据一对样本可以遵循的不同路线分为四个不相交的集合。(b)在推理中,每个单独的帧被传递到森林中,并且静态姿势分类与转移概率相结合。转移概率是使用为特定d-距离帧训练的树计算的(以不同的颜色显示)。 在这个例子中,k = 2,|M|= 2。对于时间顺序k的过渡森林:p(yt|xt,xt−1,., xt−k,yt−1,.,yt−k)=对给定的关节位置进行预处理,类似于[26],使它们对比例、旋转和视点不变。1 π(y)(m)1Σ p(y|x,x,y)。4.1. 基线|M|M(xt)不KD不不1≤d≤kt-dt-d(六)我们将我们的方法与下面详细介绍的五种不同的基于森林的基线进行比较。为了公平的比较,我们-对于每个帧xt,我们基于k个先前的预测获得帧属于一个动作(加上检测设置中的背景)的概率。在动作识别设置中,我们平均每帧结果来预测整个序列。另一方面,对于在线动作检测,我们定义了两个阈值βs和βe,以定位动作的开始帧和结束帧当一个动作的得分超过βs时,我们会汇总动作开始后的结果,并且不允许任何动作更改,直到得分小于βe。3.3. 实现细节如果训练数据不够,我们可能会在树的低层遇到空的转换子集。出于这个原因,我们设置了估计其概率分布所需的最小实例数该参数在概念上与要求最小数量的样本以保持分裂节点的停止标准相同4. 实验评价在下文中,我们提出了实验来评估我们的方法的有效性。我们开始评估动作识别的方法,然后进行在线动作检测。在所有实验中,我们进行了标准的方法在所有方法中使用相同数量的树,并且我们调整最大深度以获得最佳性能。随机森林[3](RF). 为了评估仅使用静态信息时决策森林的表现如何,我们仅使用Ec实现了基于单个帧的随机森林。[10]第十届中国国际汽车工业展览会为了将我们对时间动态的学习与堆叠多帧的策略进行比较,我们使用滑动窗口设置来实现森林,其中时间顺序k是窗口中先前帧的数量。Trajectory Hough Forest [11](THF)。为了与时间回归方法进行比较,我们实现了[11],并使其颜色轨迹适应姿势,并使其直方图处理时间顺序k。动态森林模型[14](DFM)。为了比较我们的判别森林方法与生成森林方法,我们的第三个基线是生成森林,其中k是其非线性马尔可夫模型的阶数。由于没有公开的实现,我们直接在[14]中报告结果。成对条件随机森林[6](PCRF)。为了评估区分性成对信息,我们实现了一个与用于表情识别的成对森林类似的成对森林[6]。我们生长并组合分类树,用于不同的成对时间距离k。yt−2yt−1yt不我不J我我不我不JJJ4389492908886841 2 3 4时间顺序(k)图3:不同基线的时间顺序k和我们在MSRC-12数据集上的方法。表1:MSRC-12:与使用不同帧表示的最新技术进行比较。9492908886分类过渡组合949392919089d = 1D =2D =3d = 4合并另一方面,我们的方法显示出最好的性能为所有的时间顺序。这表明,以有区别的方式结合静态和时间信息是非常有效的。在接下来的两段中,我们将分析这两种信息来源的贡献。学习转换的辨别力。 我们测量了第3.1节中介绍的过渡培训程序的影响。为此,我们训练了两种不同的跨-图4:(a)Ecvs.Ec+Et和方程中的项 六、 (b)附,附不同d阶树对转移概率如(a)所示,并在等式中定义。5个在MSRC-12上。4.2. 动作识别实验我们在三个不同的动作识别基准上评估所提出的算法:MSRC-12 [10]、MSR-3D [15]和Florence-3D [19]。首先,我们在MSRC-12数据集上进行了详细的控制实验和参数评估。接下来,我们将评估我们的方法与所有数据集上的基线和最新技术进行比较。4.2.1MSRC-12实验MSRC-12 [10]数据集由30个不同的演员表演的12个标志性和隐喻性手势组成。我们遵循[14]中的实验协议:仅使用6个图标手势,总共产生296个序列,并且我们执行5倍leave-person-out交叉验证,即,24个演员用于培训,6个演员用于测试。时间顺序k和与基线的比较。 在图3中,我们显示了针对所有方法改变时间顺序参数k的我们观察到,仅使用单帧(RF)上的静态信息来识别动作是有限的,可以通过堆叠多帧(SW)来改善。在THF中添加回归项有助于提高准确度。DFM使用与SW相同的精确输入窗口,同时由于其明确的时间建模而更加鲁棒。与其他基线相比,PCRF表明捕获成对信息对建模动作的时间动态是有效的。上一个只使用Ec,另一个使用Ec和Et。对于每一个森林,我们通过分解方程的项来显示性能6:(i)仅使用分类概率;(ii)仅使用转移概率(Eq. (5)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)(11)(10)(11)(12)(13)(14)(15)(16)(17)(18)(19)(10)(19 (六)。结果示于图第4(a)段。我们观察到,我们提出的训练算法提高了静态和过渡项的性能,导致了重要的整体改善。静态分类项实质性地改进,这意味着Et通过引入否则不可用的时间信息来帮助在特征空间上分离类别。在图4(b)中,我们显示了每个时间距离与方程中的总转移概率的关系。五、帧表示。除了来自上述实验的关节位置(JP)之外,我们还实验了两种不同的帧表示:一个是静态的,一个是动态的。静态模型由成对的关节相对距离(RJP)组成,证明比JP更稳健,同时非常简单[26]。动态的一个,命名为移动姿势(MP)[36]通过使用附近帧添加关节的速度和加速度来合并时间信息。在表1中,我们观察到,RJP和MP执行类似的良好执行比JP,表明我们的方法可以受益于不同的静态和动态特征表示。初始化。我们以两种方式初始化过渡节点Nt:随机和使用Ec。 我们发现,后者的初始化提供了略好的结果0。10次迭代后35%然而,在迭代次数加倍之后,差值减小到0。07%,从而得出结论,我们的算法是鲁棒的初始化,但正确的初始化减少了训练时间。基于RFSWTHFDFMPCRF我们ECE +EC不准确度(%)准确度(%)方法年实时在线累积(%)DFM [14]2014CC90.90ESM [12]2014✗✗96.76黎曼[8]2015✗✗91.50PCRF(我们的结果)[6]2015CC91.77[38]第三十八话2016✗✗94.04我们的(JP)2016CC94.22我们的(RJP)2016CC97.54准确度(%)439在这一点上,我们将迭代次数限制为10次。包围尺寸。最大深度为10的一棵树给了我们86的准确率。42%,六棵树93. 10%和12 94. 百分之二十二作为一个基于树的算法,增加更多的树预计将提高性能(饱和)的计算时间为代价。与最先进技术的比较。在表1中,我们将我们的方法与最先进的方法进行比较。我们观察到,使用简单的JP表示,除了ESM之外,我们实现了最佳效果[12]。然而,ESM使用DTW和MP表示的缓慢变体。使用RJP和MP表示,我们的方法实现了最佳性能,同时能够实时运行(1778 fps)。4.2.2MSR-E3 D实验。MSR-W3 D [15]数据集由10个不同的参与者执行的20个动作组成每个演员表演两到三次,总共有557个镜头。我们按照[15]提出的设置进行主要实验在该协议中,数据集被划分为八个动作的三个子集,命名为AS1,AS2和AS3。对每个子集分别进行分类,最终的分类精度是三个子集的平均值。我们执行跨主题验证,其中一半的演员用于训练,其余的用于使用十个不同的分割进行测试我们使用RJP框架表示,k=4和50棵树的最大深度为8。基线和最新技术水平比较分别见表2和表3。我们的方法实现了更好的性能比所有基线。离线最先进的方法[28,37]实现了最佳性能。专注于实时和在线的方法,HURNN-L [9]实现了最佳性能,它使用深度架构来学习端到端分类器。我们获得了比[9]更好的结果,无论是在线还是离线的口味。一些作者[25,36]显示了使用不同协议[29]的结果,其中考虑了所有20个动作。为了进行比较,使用该协议,我们实现了92.8%的准确度,这优于MP [36]的最新在线方法91.7%和dLSTM [25]的92.0%,但低于Gram矩阵[37]的离线方法94.7%。值得注意的是,这两种方法[36,37]的推理复杂度都随着不同动作的数量而增加,这与我们的方法不同,使其更适合现实场景。[37]报告了1523秒的测试时间(整个测试集运行10次),对于相同的设置,我们报告了289秒的显著更低的时间。4.2.3佛罗伦萨-3D实验Florence-3D数据集[19]由10个受试者执行的9个不同动作组成每名受试者均进行了我们的94.22 94.57 94.16表2:与森林基准的比较。方法年实时在线累积(%)[19]第十九话2013✗✗82.15李群[26]2014✗✗90.88PCRF(我们的结果)[6]2015CC91.23滚烂了[27日]2016✗✗91.40基于图形的[30]2016✗✗91.63[28]第二十八话2016C✗92.25我们2016CC94.16表4:Florence-3D:与最新技术水平的比较。动作两次或三次,总共215个动作序列。根据以前的工作[28,30],我们采用了留一个主题的协议,例如。九个科目用于训练,一个科目用于测试,共十次。我们使用了与上一个实验相同的参数。我们分别在表2和表4中将所提出的方法与基线和最先进的方法进行了比较。我们可以看到,我们的方法在所有基线和最先进的技术中实现了最佳性能。请注意,在此数据集上,我们的性能优于最近的关键姿势方法[28],该方法在MSR-RISK 3D数据集上实现了最佳性能。4.3. 在线动作检测实验我们在一个更现实的场景中结束我们的实验评估。我们在最近提出的在线动作检测(OAD)数据集上测试了我们的在线动作检测方法[16]。该数据集由59个长序列组成,包含由不同演员执行的10个不同的日常生活动作每个序列包含不同的动作/可变长度的背景周期,以任意顺序标注开始/结束帧。我们使用与[16]相同的分割和评估协议先前的工作[16]将所考虑的先前帧的数量固定为10,因此我们设置k=10。我们使用RJP表示和50棵树的最大深度20。根据经验将阈值βs和βe设置为0。79和0。分别为16。在表5中,我们报告了基线、最新技术水平和我们的方法的类别和总体F1分数。我们还报告的准确性开始和结束帧检测我们观察到,我们的方法优于所有基线。PCRF森林显示出最好的结果,方法MSRC-12MSR-Action3D佛罗伦萨-3DRF [3]86.8387.7785.46[第10话]87.8190.4888.44四氢呋喃[11]89.4691.3189.06DFM [14]90.90--440方法年实时在线AS1(%)AS2(%)AS3(%)平均值(%)BoF森林[40]2013✗✗---90.90李群[26]2014✗✗95.2983.8798.2292.46HBRNN-L [9]2015C✗93.3394.6495.5094.49基于图形的[30]2016✗✗93.7595.4595.1094.77Gram矩阵[37]2016C✗98.6694.1198.1396.97[28]第二十八话2016C✗---97.44PCRF(我们的结果)[6]2015CC94.5185.5896.1892.09HURNN-L [9]2015CC92.3893.7594.5993.57我们2016CC96.1090.5497.0694.57表3:MSR-E3 D:与最新技术水平的比较。最新技术水平行动RFSWPCRFRNN [39]JCR-RNN [16]我们饮用0.5980.3870.4680.4410.5740.705吃0.6830.5900.5500.5500.5230.700写作0.6400.6780.7030.8590.8220.758开放式橱柜0.3670.3170.3030.3210.4950.473洗手0.6980.7920.6130.6680.7180.740开口微波0.5250.7170.7170.6650.7030.717扫地0.5390.5830.6350.5900.6430.645漱口0.2980.4140.4640.5500.6230.633扔垃圾0.3400.2050.3500.6740.4590.518擦拭0.8230.7650.8230.7470.7800.823整体0.5780.5560.6070.6000.6530.712SL0.3610.3660.3780.3660.4180.514El0.3910.3260.4120.3760.4430.527推理时间0.590.613.583.142.601.84表5:在线动作检测(OAD)数据集上的性能比较基线的性能与RNN相当,表明时间成对信息是重要的。另一方面,RF在该数据集上表现得特别好,这表明除了时间信息之外,区分静态姿势也很重要在我们的方法中结合静态和时间信息使我们比当前最先进的JCR-RNN [16]更好地执行,后者在LSTM上添加了回归项来预测动作的开始和结束帧。效率我们测量的平均推理时间的9个长序列的平均3200帧。我们在表5的底部展示了在Intel Core i7(2.6GHz)和16 GB RAM上的C++所有比较的方法都是实时的,JCR-RNN在1778 fps的方法中实现了1230 fps,这表明我们可以在保持低复杂度的同时获得高性能。5. 总结和结论我们提出了一个新的基于森林的分类器,能够学习静态姿势和过渡的歧视性的方式。我们提出的训练程序有助于以比其他强森林基线更有效的方式捕获在生长树的同时引入时间关系,并将其用于推理,有助于获得更强大的逐帧预测,使我们在动作识别和在线动作检测这两个具有挑战性的问题中表现出最先进的性能目前,我们的学习阶段仅限于成对的转换,我们相信在同一棵树的学习中引入不同的时间顺序会很有趣。此外,考虑到我们工作的一般性,使用其他数据形式(如RGB/深度帧特征)或应用于其他需要有效和在线分类的时间问题来测试其性能将是有趣的441引用[1] J. K. Aggarwal和M. S.亮人类活动分析:审查. ACMComputing Surveys,2011. 1[2] S. Baek,K. I. Kim和T K. Kim. 实时在线行动使用时空上下文的检测森林。在WACV,2017年。2[3] L.布莱曼乱林。 机器学习,2001年。1、五、七[4] H. J. Chang,G. Garcia-Hernando,D. Tang和T.- K. Kim.时空霍夫森林于自我中心相机下有效侦测-在CVIU,2016年。2[5] J.Chen, H. M. Le,P. Carr,Y. Yue和J. J. 点学习使用递归决策树的实时相机规划的在线平滑预测器在CVPR,2016年。2[6] A. 达波尼湾Bailly和S.杜比森成对条件-用于面部表情识别的自然随机森林在ICCV,2015年。一、二、五、六、七、八[7]R. De Geest,E.Gavves,A.Ghodrati,Z.Li,C.斯诺克,T. Tuytelaars在线动作检测。在ECCV,2016年。一、二[8] M. Devanne , H. Wannous , P. Pala , S. Berretti , M.Daoudi和A.德尔·宾博结合人体姿势和运动单元的形状分析,用于动作分割和识别。InFG,2015. 二、六[9] Y.杜,W. Wang和L.王. 层次递归神经元用于基于骨架的动作识别的RAL网络。CVPR,2015。一、二、七、八[10] S. Fothergill,H. Mentis,P. Kohli和S.诺沃津指示-让人们来训练手势交互系统。InACM SIGCHI,2012.一、二、五、六、七[11] G. Garcia-Hernando,H.张岛塞拉诺岛Deniz和T.- K. Kim.转换霍夫森林为基于概率的行动识别。InWACV,2016. 一、二、五、七[12] H.- J. Jung和KS. 洪增强的序列匹配,从3D骨架数据进行动作识别。在ACCV中。2014. 二六七[13] P. Kontschieder,P.Kohli,J.Shotton和A.天啊Geof:用于学习耦合预测器的测地线森林。CVPR,2013。2[14] A. M. Lehrmann,P. V. Gehler和S. 诺沃津 高效人体运动的非线性马尔可夫模型CVPR,2014。一、二、五、六、七[15] W. Li,Z. zhang和Z.刘某 动作识别基于3D点的袋子。载于CVPRW,2010年。六、七[16] Y. Li,C.兰,J。邢,W.Zeng C.,中国茶苔属袁和J.刘某基于联合分类回归递归神经网络的在线人体动作检测。在ECCV,2016年。一、二、七、八[17] M. Meshry,M.E. Hussein和M.托奇线性时间使用一袋袋几何图形从3D骨架数据进行线动作检测。InWACV,2016. 2[18] S.诺沃津角Rother,S. Bagon,T.夏普湾姚和P. Kohli。决策树字段。见ICCV,2011年。2[19] L.塞代纳里河谷Varano,S. Berretti,A. Bimbo和P.帕拉将来自深度相机的动作识别为弱对齐的多部分姿势袋。载于CVPRW,2013年。二六七[20] A.沙拉夫M托尔基湾E. Hussein和M.艾尔萨班真的-从3D骨架数据进行时间多尺度动作检测在WACV,2015年。2[21] J. Shotton,M.Johnson和R.西波拉 语义基元用于图像分类和分割的森林CVPR,2008。2[22] J. Shotton,T.Sharp,A.Kipman,A.Fitzgibbon,M.Finoc-chio、黑腹拟步行虫A.布莱克M. Cook和R.摩尔从单个深度图像中实时人体姿态识别ACM的通信,2013年。1[23] J. Shotton,T. Sharp,P. Kohli,S. Nowozin,J. Winn和A.天啊决策丛林:紧凑而丰富的分类模型。在NIPS,2013年。二、三[24] D. Tang,T.-H. Yu和T.-K. Kim. 实时关节手使用半监督转换回归森林的姿态估计。InICCV,2013.1[25]V. Veeriah,N. Zhuang和G.- J. Qi。 微分递归用于动作识别的神经网络。在ICCV,2015年。二、七[26] R. Vemulapalli,F. Arrate,和R.切拉帕以谎言群中的点表示三维骨骼来识别人类行为。CVPR,2014。一、二、五、六、七、八[27] R. Vemulapalli和R.切拉帕 滚动旋转,用于接收-从3D骨架数据识别人类动作。在CVPR,2016年。二、七[28] C. Wang,Y. Wang和A. L.尤尔。 挖掘3D关键姿势-动作识别的模式。在CVPR,2016年。二七八[29] J. Wang,Z. Liu,Y. Wu,and J. Yuan.使用深度相机挖掘动作识别的actionlet引擎。CVPR,2012。二、七[30] P. Wang,C.Yuan,W.胡湾,加-地Li和Y.张某基于图用于动作识别骨架运动表示和相似性度量。在ECCV,2016年。二七八[31] D. Wu和L. 邵利用分层参数基于骨骼关节的动作分割和识别网络。CVPR,2014。一、二[32] L. Xia,C.- C. Chen和J.阿加瓦尔视图不变人使用3D关节直方图的动作识别载于CVPRW,2012年。2[33] A. Yao,J. Gall,G. Fanelli和L. J. Van Gool人类是否动作识别受益于姿态估计?.在BMVC,2011年。一、二[34] T.- H. Yu,T.K. Kim和R.西波拉实时动作识别通过时空语义和结构森林来进行认知。在BMVC,2010年。一、二[35] T.- H. Yu,T.K. Kim和R.西波拉基于动作检测和跨模态回归森林的无约束单目三维人体姿态估计CVPR,2013。2[36] M. Zanfir,M.Leordeanu和C.斯明奇塞斯库移动pose:一个高效的3D运动学描述符,用于低延迟动作识别和检测。InICCV,2013. 一、二、六、七[37] X. Zhang,Y.Wang,M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功