未来运动的自然和准确预测

107 浏览量更新于2023-10-17 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1人类和动物未来运动的自然和准确预测刘振光1，吴爽2，3，靳淑媛4，刘琦4，陆世坚3，罗杰·齐默尔曼4，李成2，51浙江工商大学，2生物信息研究所，A*STAR，3南洋理工大学4新加坡国立大学5阿尔伯塔大学liuzhenguang2008@gmail.com，wushuang@bii.a-star.edu.sg，shuyuanjin@u.nus.edu，leuchine@gmail.com，shijian.lu @ ntu.edu.sgrogerz@comp.nus.edu.sgexample.com，wwwchengli@bii.a-star.edu.sg摘要由于其非线性和高度随机性，预测3D关节对象的未来运动是具有挑战性的。当前的方法通常将关节连接对象的骨架表示为一组3D关节，其不适当地忽略了关节之间的关系，并且未能编码细粒度的解剖约束。此外，传统的递归神经网络，如LSTM和GRU，被用来对运动上下文进行建模，这在捕获长期依赖性方面存在固有的困难为了解决这些问题，我们建议明确编码的解剖约束建模的骨架与李代数表示。重要的是，一个分层的回流网络结构的开发，同时编码的局部上下文的个别帧和全球上下文的序列。我们继续探索我们的方法的applica- tions几个不同的数量，包括人类，鱼类和小鼠。大量的实验表明，我们的方法实现了更自然和准确的预测比国家的最先进的方法。1. 介绍对于人类来说，预测他们周围的运动物体的短期未来运动如果没有这种能力，我们将很难在拥挤的街道上行走，一场足球比赛，或避免运动中迫在眉睫的危险。同样，预测有关节的物体的运动，尤其是人类和动物的运动，对于机器在与人类和动物交互时调整其行为、计划其行动以及正确分配其注意力至关重要。自然和准确的未来运动预测对于包括高保真度在内的广泛应用也具有很高的价值*表示平等贡献游戏和电影中的动物模拟，人类或动物跟踪，以及智能驾驶[4，25，21，31]。在本文中，我们专注于预测的问题，未来的三维姿态的关节对象给定其先验骨架序列。由于人或动物运动的非线性动力学、高维性和随机性，传统的方法利用潜变量模型，如隐马尔可夫模型[18]，高斯过程[29]和限制玻尔兹曼机[26]以捕捉人类运动的时间动态。最近，引入了基于递归神经网络（RNN）比如说，[9]使用编码器-递归-解码器网络，其中在递归层中使用长短期记忆（LSTM）[17]将人体分为脊柱，手臂和腿，并使用多个RNN来模拟不同身体部位之间的相互作用。此外， [21] 和 [25] 采用残差门控递归单元（GRU）和修改的高速公路单元（MHU）来捕获运动上下文。仔细检查现有方法的发布实现[17，21，9]，可以观察到当前的方法在获得自然和准确的未来运动预测方面遇到困难。具体地，对于相对长期的预测，现有方法倾向于退化到无运动状态或漂移到非人类运动。对于短期预测，在先验姿势序列和第一次预测之间通常存在明显的不连续性[17]。有趣的是，定量评估显示，许多现有方法可能会被简单地预测未来作为其最后观察到的姿势的微不足道的基线所超越[21]。我们认为这些问题主要是由于以下原因。首先，当前的算法不尊重基于骨骼解剖的运动的物理定律。这通常会导致预测运动中的奇怪失真。第二，在对时间运动动力学建模时，当前的方法依赖于传统的递归单元，例如，1000410005LSTM和GRU，其中隐藏状态顺序读取帧并更新其值。然后，隐藏状态往往会被最近时间步中的输入所淹没，并且已知这种循环单元在捕获长期依赖性方面存在困难[2]。此外，这些体系结构的顺序更新特性在实践中可能导致不期望的计算瓶颈。为了解决这些问题，我们提出了一种新的架构，它由一个专用的分层运动递归（HMR）网络与李代数表示。具体地，我们表征关节对象的姿态，例如，一个人，一只老鼠或一条鱼，作为一个运动树组成的一个或多个运动链的基础上的数学形式主义的李代数。细粒度的解剖学约束是明确和自然编码的。然后将姿势序列馈送到我们提出的HMR网络中以学习其时间演化。运动上下文联合建模的状态层次结构consisting的个别帧的局部状态和整体序列级状态。在每个循环步骤中，帧在两个方向上与其相邻帧以及与序列级状态交换上下文信息与传统的RNN结构不同，我们的网络中的递归步骤的数量不随序列长度而变化从经验上讲，我们的方法可以有效地在大约10个循环步骤中对运动上下文进行建模。此外，现有技术的运动预测方法通常集中于人类。我们开发的原则性方法可以很好地概括对象类别，并且很容易适应动物运动建模。从经验上讲，我们的方法在H3.6m基准数据集上实现了最先进的结果，具有更高的长期熟练度，能够预测超过50秒的自然类人运动，并且在鱼类和小鼠等动物数据集上效果良好。总而言之，我们的主要贡献是：1）提出了一种新的分层RNN结构，有效地建模全局和局部运动上下文。2)李代数骨架表示遵循运动学身体结构被形式化，其明确地编码解剖学约束，并且适用于包括但不限于人体的一系列关节对象。3)我们的方法在短期和长期运动预测方面具有新的最先进水平，并且总体上提供了对使用RNN进行运动上下文建模的挑战的见解。我们的实现可以在https://github.com/BII-wushuang/Lie-Group-Motion-Prediction上找到。2. 相关工作基于骨架人类构成表示人体姿态表示是计算机视觉和图形学中的一个基本问题.基于牛顿的人体姿态表示由于它们对视点变化、人体比例和运动速度以及实时性能的鲁棒性，表示已经引起了强烈的关注[11，12]。许多现有的方法，如[4，13]直接利用原始3D关节位置来表示人体骨骼。[8]遵循这一工作路线，但将人体骨骼划分为层次化的身体部位，而[5]仅选择了信息量最大的关节的子集。[17]和[6]通过[10]中引入的指数映射来表征关节的定向。基于位移的骨骼表示也被探索为成对骨骼关节之间的位移，如[28]或位移w.r.t.全局参考关节（髋关节中心），如[19]所示。[15][27]用特殊欧几里得群SE（3）对每对关节之间的相对几何建模。运动预测常规运动预测方法通常利用浅模型，包括：使用隐马尔可夫模型[18]，高斯过程[29]和限制玻尔兹曼机[26]来学习人体运动的最近，基于深度学习的例如，[9]提出了一个编码器-递归-解码器网络，其中LSTM用于递归层，非线性变换被并入编码器和解码器中。[21]采用GRU作为RNN单元，并估计关节速度，而不是直接预测身体姿势。[17]将人体部位表示为由边缘RNN链接的节点RNN的结构化图。[25]介绍了一种使用改进的高速公路单元的运动上下文建模网络，而[3]开发了一种使用生成对抗网络的概率人体运动预测网络。动物数据集现在，让我们考虑我们在这项工作中研究的其他两个铰接对象，即，鱼和老鼠它们是生命科学界重要的模式生物，致力于开发采用计算机视觉和机器学习的视觉行为分析现有文献[7，23，22]大多集中在姿态估计和跟踪。[14，30]是两个最近的工作分析小鼠的社会行为，其中小鼠的特点是直线和椭圆，分别。3. 我们的方法问题公式化通过观察到的铰接对象的3D姿态序列P1，P2，···，Pt，我们感兴趣的是预测其未来的姿态序列pt+1，pt+2，· · ·，pt+T注意，姿态序列现在可以方便地由商品运动捕捉系统获取，或者使用姿态估计算法（例如，[24，32]）。人们一直在努力将姿势转换为所有骨骼关节的3D坐标[4]，这实际上是将关节10006我′Σ作为独立的实体，并且不能捕获内在的地理约束。预测结果可能会受到严重的体失真（见4.2小节）。更是SE（3）的元素。具体地，具有坐标x =（x，y，z）的关节是无约束的。坐标系i +1将具有.库鲁迪纳湾esx′=（x′，y′，z′）w.r.t坐标系i，重要的是，大多数现有方法只是采用LSTMx= RiΣ。 Σtix.或GRU，它不能对运动上下文进行建模，尤其是1 0 1 1长期依赖性，有效地[2，25]。方法概述为了解决这些问题，我们提出了一种由两个关键部分组成的方法： 1 ）分层运动递归网络（HMR）和2）统一的李代数表示形式主义。具体来说，我们开发了一个李代数表示关节对象，它遵循的身体和 explanetary 编码的几何约束和实际自由度（度）的各个关节的运动学结构。然后，姿态序列，与每个姿态表示在紧凑的李代数空间，被送入建议的HMR网络建模的动态演变的姿态。3.1. 李代数表示因此，整个前向链的姿势自然是重复的。被视为僵化变革的产物。从技术上讲，骨架姿势是SE（3）×SE（3）×中的一个元素· · ·×SE（3）是李群。一个姿势对应于在这个李群流形上的一个点，而一个运动量到流形上的曲线作为一个李群，流形也带有它的相关切空间或李代数（3），它具有向量空间结构，所以我们熟悉的线性代数技术可以工作。李代数se（3）在单位元SE（3）处的切空间称为它的李代数se（3）。SE（3）→se（3）的关联由对数分布图1log表示：.Σ0−ω3ω2ν1Rtω30−ω1ν2›→ ×=。一个有关节的物体可以被描述为一个运动学上的−ω2 ω10ν30 0 0 0由关节连接的坚硬的骨骼树所示图1（a），人体全身由运动学表示，它有一个封闭的解[20]。由五个运动链组成的树：脊柱和四肢，共有57个自由度。同样，一条鱼和ω1θR（3，2）−R（2，3）鼠标都被表示为单个运动链ω=<$ω2<$=ω32 sinθ<$R（1，3）−R（3，1）<$，（1）R（2，1）−R（1，2）分别具有44和12个自由度我们利用李群的理论[32，27]来表征-其中θ=arccos.ΣTr（R）−12调整两个连续骨骼之间的相对3D几何体给定两个连续的骨骼bi-1和bi，它们的相对值ge-ν1（I-R）ω+ωω−1几何学被建模为3D刚性变换（trans-transmitting）。v=v=3×t。（1）需要采取行动，的位置和2ǁωǁν3bi−1的方向。从数学上讲，3D刚性变换-元素是特殊欧几里德群SE（3）的元素，这是一个李群。因此，bi-1和bi之间的相对几何表示为SE（3）中的点，而整个骨架姿势表示为SE（3）中的点。.Σ×可以方便地映射为向量形式ν以上形式化了重铸.sk表示为se（3）参数化向量r，p=1K 表示所述SE（3）×SE（3）×···×SE（3）[27]，这是一个李群1m11mK被赋予了一个多方面的结构。运动对应于该流形上的曲线，并且运动预测相当于对未来曲线进行回归。然而，在这个曲流形上的回归是非平凡的，因此我们将曲线从SE（3）×SE（3）×· ··×SE（3）映射到它的李代数空间。下面我们详细介绍数学细节。采用简化的鱼类运动学模型，如图1所示。1（b）作为示例，将局部坐标系附着到每个骨骼，使得x轴与骨骼对准，并且原点与骨骼的起始关节对准。沿运动链下降，3D刚性变换将局部坐标系与成功岛ve bonees，表示为4×4矩阵Rt运动链的数量，mk为运动链中的关节数量chaink，并且kk是关节的李代数参数向量i在链k中。考虑到骨骼长度不变性，除第一个骨骼外，所有骨骼的3个平移自由度都是固定的。如果骨骼在解剖学上被约束为沿一个轴旋转，则我们的方案获得沿其他两个轴的旋转参数的零方差这确定了关节的确切DoF，我们通过将其非旋转元素固定为常数来显式编码。3.2. 层次化运动上下文建模未来姿态预测问题现在可以用公式表示如下：的形式0 1，其中R是3×3旋转矩阵，1.创新者。通过指数映射exp给出变换：并且t是3D平移向量。这种3D刚性变换<$×∈se（3）›→R0 1∈SE（3）.、不10007递归步骤日本语+1日本语+2�� +��−1��+1��…��−1（c，）��LSTMLSTM…LSTM��−��−11…��−1��−1��−1��−1��−1+1��…��−1（，）��LSTMLSTM...…LSTM…1�� − 1…��+ 1��时间…时间1��− 1+JJJGJJJJ1J25个关节; 57个自由度（一）（b）第（1）款图1：（a）三个铰接对象的显示，以及它们各自的关节和骨架。骨骼的第一个骨骼具有6个自由度，而鱼或小鼠骨骼中的所有其他骨骼具有2个自由度。第一个骨骼相当于位于脊柱中的骨骼，并从根关节开始。(b)一个简化的鱼类运动链的图解。bi和Jk分别代表第i个骨骼和第k个关节。每个骨骼都被分配了一个局部坐标系，该坐标系描述了其相对于其父（前一个）骨骼的刚性变换，刚性变换的序列表征了姿势。具体地，第一骨骼的刚性变换相对于全局坐标系。编码解码1��−1日本+1��−1图2：所提出的神经网络在循环步骤中展开局部隐藏状态hn被更新为hn−1，hn−1，hn−1，gn−1，cn−1，p。全局状态gn被更新为gn−1和hn−1，···，hn−1的函数。j−1jj+1jj1t−1参数化姿态生成对过度循环步骤的预测在递归步骤0，网络是pt+1，···，pt+T在传统的运动预测模式中，初始化为h0= c0 =Wpj+b且g0=c0=els，编码器和解码器通常由单个或t−1 h0，其中c0和c0分别表示单元格LSTM或GRU单元的堆叠层。姿势是输入的，t−1J JGj=1以模拟运动上下文隐藏的国家。输入必须按顺序处理，最终的隐藏状态在很大程度上受H0和G0的状态矩阵W和向量b是网络参数。随后，在每个递归步骤n，执行状态转换过程以将hn，gn，cn，cn更新为最近帧的输入[25]，无法正确捕获n−1n−1n−1J JGn−1长期依赖性[2]。为了避免这个问题，我们考虑了一种新的编码器-解码器架构，其中提出了分层运动递归（HMR）网络作为函数hj，g，cj ，cg . 图3示出了一步状态转移方程过程这个过程和可视化的数字。Σ. n n编码器，并且整个姿势输入序列是一次性而不是连续地馈送的。运动上下文通过由局部状态组成的分层状态S更新帧级状态如图所示，图的左侧面板3，在循环步骤n，通过与hn-1，hn-1交换信息，hn-1被更新（到hn），jj−1j+1hj用于单个帧和整体序列级状态G. 在每个循环步骤n，第j帧通过与其相邻帧交换信息来更新其运动上下文局部状态hn和hn，以及全局状态gn−1。总共有4种类型的遗忘门：fn，ln，rn和qn（前向，左，右和全局遗忘门），它们分别控制来自当前单元状态cn-1，左单元状态cn-1，右单元状态cn-1，j+1j−1jj−1j+1gn.随着循环步骤的增加，以及全局单元状态cn-1到最终单元状态cn。的G与h交换信息的帧的数量n变为nj输入门i控制来自姿态更大，这逐渐丰富了状态表示图图2展示了所提出的编码器网络展开输入pj。最后，通过输出门o n与双曲正切函数的Hadamard积得到第j帧隐状态hn根关节中间接头端部接头21个关节; 44个自由度5个关节; 12个自由度全局坐标系B1B2B3VJ1J2J3姿势1J40姿势2J10008GJt−1j=1j.n n图3：左侧面板显示帧级状态hj，cj的更新过程，右侧面板显示帧级状态h j，c j的更新过程。.Σ序列级状态 gn，cn.两个面板中的方程描述了过程，而图中则显示了浇口。激活的细胞状态矩阵Uk，Wk，Zk和偏置bk关节Ji的位置可以通过正运动学来获得是要学习的参数。k∈{f∈，l，r，q，i，o}..Σ。 Σ更新序列级状态gn，cn更新Yi从G开始的过程n−1 到gnG在右侧面板Ji=01exp（j×）0的情况。（二）1图3.第三章。fn和j=1GJ从cn-1和cn-1到全局单元状态的现有的工作，如[17，21]采用了简单的L2损失n ngj函数用于训练，不幸的是，cg。全局状态g是通过Hadamard乘积得到的同样，忽略了这个重要的运动链层次-的输出gateo_n与tanh_acted_c_n。Matri-jgch。一个直接的结果是，李代数pa-当W k，Zk和偏差bk，其中indexk∈{g，f，o}时，要学习的参数。编码器解码器在所提出的HMR方法中，我们的编码器学习整个输入序列的两级表示。它随后被传递到解码器，该解码器递归地输出未来的运动序列。如图所示2、我们的解码器采用两层堆叠计量器估计误差将沿着链快速累积。为此，我们提出以下损失：mΣ−1损失（p，p）=（m−i）lii−i2。（三）i=1.Σ⊺其中，p=p，···，p，表示预测的姿态，并且LSTM网络。对于解码器的两个层，单元1m状态输入为c=1t−1cn，即a在er上的平均值在最后的循环步骤n处的所有帧级单元状态。在对于第一层r，其隐藏状态输入被设置为表示骨i的长度。现在，如果在链条的前面的关节中存在错误，则会产生更高的损失。如第4.5小节所述，h =1t−1hn.类似地，提高预测性能。t − 1j=1 j。ΣΣ第二层被配置为h=1t-1hn+gn。4. 实验gtj=1j最后，在时间t的姿态pt用作解码器的初始输入姿态该解码器是执行以下图中所示的直接链接2、以递归方式产生姿态预测损失函数给定m个关节的运动链对于规定的李代数姿态p =（n，· · ·，n）n，4.1. 实验设置数据集实验在三个大型以及不同的有关节对象（即人、鱼和老鼠）的复杂数据集。对于人类，使用3D人体全身运动数据集H3.6m [16]。H3.6m包含1mtanhtanh�� −1 ��−1��−1 ��−1 ��−1��−1��− �� 1��+1��.Σ⊺en−1= hn −1<$，hn −1<$，hn−1<$jj−1jj+1f=σ U p+ W e+Z g+ bn.n −1n−1ΣF JFJFFn.Σl=σ U p+ W e+Z g+Bn−1n−1L JLJL l.r = σU p + W e+ Z g+Bnn−1n−1RJRJR r.ΣΣq=σ U p+ W e+Z g+Bnn−1n−1Q JQJQ Qi n= σ。U p + W en−1 + Z gn−1 +bΣI jIj我我cn=tanh. Up+Wen−1+Zgn−1+bΣJCJCJC ccn = ln<$ cn−1 + fn<$ cn−1 + rn<$ cn−1jj−1jj+1+qn<$cn−1+in<$c<$nGJo=σ U p+ W n+Z g+Bn.n−1n−1ΣJojojo o.Σh= o tanh c.n n nj j j传说姿态：姿态输入帧��−1: hidden state�� at step�� − 1��−1: global state�� at step�� − 1��步骤1-1中的本地小区状态��−1: global cell state at step�� − 1操作Sigmoid激活双曲激活Hadamard积总和输入门标签：global forget前向遗忘门左遗忘门右忘门输出门电子邮件：forgetgateforhiddenstatee你不放吗？��ሚ��:forgetgateforglo ba lstat e隐藏状态：隐藏状态在第二步全局状态：全局状态在步骤1000单元格状态：在步骤S102处的单元格状态步骤104：步骤106处的全局单元状态��tanh��ሚ1��ሚ��ሚ��−1��ሚ��−1,�� −11�� −11��−1��gn−1=1t−1Σt−1hn−1Jj=1.Σn=σ Whn−1+Zgn−1+bJFJFF.Σn=σ Wggn−1+Zggn−1+bgGcn=<$fn<$ cn−1+ Σt−1g g gn−1cn −1J Jj=1.Σon=σ Wogn−1+ Zogn−1+ bo我gn= ontanh（cn）.我G…⨀⨀⨀⨀⨀⨀⨁⨁⨀⨀⨀⨀⨀⨀⨁100093.6 100万个3D人体姿势，由7名受试者执行15项活动。根据现有的工作[25，17]，我们以每秒2到25帧（FPS）对运动序列进行下采样。对于动物，我们考虑[32]的鱼和老鼠数据集，其中包含6种不同鱼的14个鱼视频（50 FPS）和4只实验室老鼠的8个老鼠视频（25 FPS）通常，这些视频中的连续序列从2，250帧到24，000帧不等。对于所有的数据集，与现有的方法进行了比较，姿态序列参数化使用我们的李代数表示。参数设置隐藏状态大小，即对于人、鱼和鼠标运动预测，状态矢量h和g的长度分别被设置为300、800和100。所有其它设置和超参数在不同对象上是恒定的。循环步骤的默认数量设置为10，相邻上下文窗口大小为3。根据以前的工作[21，25]，我们不对全局平移进行建模，而是利用t=50个观察帧作为输入来预测训练中的未来T=10Adam优化器的初始学习率为0.001，每10，000次迭代衰减10%。使用的批大小为16，梯度剪切阈值设置为5。4.2. H3.6m数据集的评价首先，我们在H3.6m数据集[16]上对我们的方法进行了基准测试，其中采用了以前的作品[17，25，21]中采用的平均角度误差（MAE）度量在表1中，不同方法的性能以4种复杂活动的MAE表示，即“讨论”、“问候”、“摆姿势”和“遛狗”。总共比较了10种方法，包括ERD [9]，LSTM-3LR [9]，SRNN [17]，Res-GRU[21]，zero-velocity [25]，MHU [25]，我们的HMR网络和HMR的3种变体零速度是不断输出最后观察到的姿势的基线。我们复制了现有的方法，并遵循它们在GitHub2上发布的代码。对于所有方法，训练在所有活动类型上进行，训练输出窗口大小为T=10帧。从定量结果在表1中，第一个观察结果是我们的HMR净-该工作为复杂活动的短期和长期预测提供了最先进的结果有趣的是，许多现有的方法，如ERD和SRNN，往往优于简单的基线零速度，这再次证实了[21]中报道的发现。我们还可以观察到，预测误差随着我们对未来的预测而增加。我们进一步对所有其他11个活动进行了全面的实验，这再次证实了我们的方法始终优于现有的方法。由于篇幅所限，我们把它们放在除了定量评估外，我们还进一步直观地比较了最先进方法的性能。Exem-[25]的实施是不可用的，我们在他们的论文中报告了实验结果。步行活动长期预报的直观结果如图所示。4，其中呈现了未来50秒（1，250帧）的预测姿势。XYZ基线参与比较，其采用3个堆叠的LSTM层作为编码器，并使用原始3D关节坐标而不是李代数参数作为输入。这里，针对T=100帧的较长训练输出窗口大小，在单个活动类型上完成所有方法的训练。我们的见解是，期望长期准确预测是不现实的，更合理的目标是实现类似人类的运动。如图 4以及补充视频中，LSTM-3LR在1秒内收敛到静止状态; ERD表现出抖动（非平滑）和不切实际的运动; Res-GRU在5秒后收敛到静止姿势。XYZ产生良好的短期预测，但遭受骨长度变形（例如，更长或更短的手臂），导致长期可怕的预测。HMR能够在整个预测窗口中产生自然姿态预测。在这方面，我们的架构的一个重要亮点是能够产生长期的自然，骨骼长度不变，和人类一样的运动。对于作为输入的原始3D关节坐标表示，除了提供的XYZ基线之外，我们还尝试了其他编码器，例如Res-GRU [21]，ERD [9]和HMR中的编码经验证据表明，在长期预测中存在类似的严重身体扭曲。早期预测的轻微变形会失控，导致长期性能的极度恶化这表明了原始坐标表示的局限性（或挑战）以及明确编码运动学身体结构和解剖学约束的必要性4.3. 鱼类和小鼠数据集的评价尽管人类数据集提出了必须同时对多个运动链建模的挑战，但[32]的鱼和老鼠数据集提出了不同的问题，例如1）鱼类21个关节的长运动链和2）动物运动的随机性和数据集中缺乏活动类型分类。对于这两个数据集，我们评估了最先进方法的性能，定量结果见表2。HMR在这两个数据集上的表现始终显著优于其他方法。看一下视觉效果会更有启发性鱼数据集的样本预测结果如图所示。五、鱼类骨骼解剖学中的长运动链导致了竞争方法的建模困难在ERD和Res-GRU中，预测的鱼姿势显示出不自然的扭曲和不规则的轮廓，ERD尤其如此LSTM-3LR面临着快速收敛到静止状态的问题。与此相反，HMR保留了流线型形状和10010方法Discu锡翁格力婷80ms160Ms320Ms400ms560ms640Ms720ms1000ms80ms160Ms320Ms400ms560ms640Ms720ms1000msERD [9]2.222.382.582.692.892.932.943.111.702.042.602.813.293.473.553.43LSTM-3LR [9]1.802.002.132.132.292.322.362.440.931.512.272.542.973.053.123.09[第17话]1.161.401.751.852.062.072.082.191.331.601.831.982.272.282.302.31[21]第二十一话0.310.691.031.121.521.611.701.870.520.861.301.471.781.751.821.96零速度[21]0.310.670.971.041.411.561.711.960.540.891.301.491.791.741.771.80MHU [25]0.310.660.931.001.371.511.661.880.540.871.271.451.751.711.741.87HMR（从h的更新中删除l，r）0.300.590.931.021.421.561.671.800.540.891.301.441.681.661.701.85HMR（去除g）0.300.570.870.961.381.541.691.890.530.861.281.451.711.701.761.95HMR（移除第二解码器层）0.300.600.941.031.401.551.691.860.570.921.331.491.751.791.821.88HMR0.290.550.830.941.351.491.611.720.520.851.251.401.651.621.671.73方法构成遛狗80ms160Ms320Ms400ms560ms640Ms720ms1000ms80ms160Ms320Ms400ms560ms640Ms720ms1000msERD [9]2.422.773.263.393.433.423.453.871.581.782.022.102.312.372.482.60LSTM-3LR [9]1.221.893.023.534.254.574.834.600.761.291.912.182.723.013.303.78[第17话]1.741.892.232.432.672.732.793.421.571.731.931.962.132.172.232.20[21]第二十一话0.410.841.531.812.062.212.242.530.560.951.331.481.781.811.881.96零速度[21]0.280.571.131.381.812.142.232.780.600.981.361.501.741.801.871.96MHU [25]0.330.641.221.471.822.112.172.510.560.881.211.371.671.721.811.90HMR（从h的更新中删除l，r）0.270.561.221.521.761.912.082.600.560.891.331.491.731.821.902.00HMR（去除g）0.250.541.191.481.932.102.232.650.560.871.231.421.841.901.942.06HMR（移除第二解码器层）0.300.591.261.491.872.042.202.660.600.901.241.481.791.861.942.07HMR0.240.531.121.421.751.892.022.500.550.871.201.361.651.701.771.84表1：H3.6m数据集上4种不同操作类型比较方法的性能评价（MAE）。地面实况ERD（2015）LSTM-3LR（2015）Res-GRU（2017）XYZ基线HMR（我们的）25 50 75 100 1,000 1,025 1,050 1,075 1,1001,125 1,1501,1751200一千二百二十五一千二百五十帧图4：通过H3.6m数据集上的比较方法进行的步行活动的长期运动预测。25帧对应1秒。完整的视觉结果可以在补充视频文件中找到。方法鱼鼠标80ms160Ms320Ms400ms560ms640Ms720ms1000ms80ms160Ms320Ms400ms560ms640Ms720ms1000msERD [9]0.620.590.540.690.790.850.871.200.770.620.670.770.860.830.880.91LSTM-3LR [9]0.910.590.450.390.250.260.300.290.680.610.810.840.850.810.850.80[21]第二十一话0.520.560.520.390.260.250.260.260.400.480.660.700.740.710.720.74HMR（我们的）0.400.480.440.280.130.120.130.110.390.440.560.630.690.680.670.69表2：[ 32 ]鱼和小鼠数据集比较方法的性能评价（MAE）。预测的姿态保持平滑和自然。鼠标运动是高度随机的，导致准确预测的困难。比较的方法都趋向于收敛到静止状态。图1显示了小鼠数据集上的样本预测序列。六、ERD、LSTM-3LR和Res-GRU分别在30、15、45帧后收敛到静止状态HMR始终保持在运动中，对前40帧进行相当准确的预测。特别地，可以看出，HMR预测的小鼠身体取向保持与地面实况对齐，而比较的方法都错误地预测小鼠取向。4.4. 计算效率训练和测试时间以及不同方法所需的训练参数数量见表3。我们的架构是使用Ten- sorFlow 1.8 [1]实现的。所有的实验都在Nvidia GeForce GTX TITAN XGPU上进行。简而言之，HMR比现有方法需要更少的参数，并且其计算速度明显更快。4.5. 损失函数研究在本小节中，我们比较了方程中的损失函数。（3）防止常规L2损失。此外......这是什么？10011J地面实况ERD（2015）LSTM-3LR（2015）Res-GRU（2017）HMR（我们的）地面实况ERD（2015）LSTM-3LR（2015）Res-GRU（2017）HMR（我们的）帧Frame0 204060 800 153045 60图5：Fish数据集上的运动预测。鱼的头部被渲染得更宽（为了与实际的斑马鱼相似）。方法#参数训练时间/1，000次迭代测试FPSERD17,348,05442852.4LSTM-3LR20,831,05463233.7SRNN22,817,88894714.4Res-GRU6,684,72665173.5HMR（我们的）4,422,65433406.1表3：训练参数的数量和效率。对于所使用的MAE度量，我们还使用平均联合误差（MJE）作为补充度量。实验在H3.6m数据集上进行，结果在所有15个活动上平均。在实验中，我们保持网络结构固定为HMR，同时使用不同的损耗。如表4所示，建议的损失始终优于L2损失。通过尊重运动链的分层性质，我们提出的损失减少了根联合预测中的误差，这转化为对全局方向的更好估计，从而显著改进了MJE度量。动物实验结果（见4.3小节）也表明，采用建议的损失函数（在我们的工作中），而不是L2损失（采用在比较的作品中）在捕获骨架的解剖特征及其运动动力学方面更成功，例如更好地预测鼠标取向。时间（ms）801603204005606401000MaeL20.340.570.870.961.151.241.40我们 0.330.550.830.931.131.211.36MJEL267.678.383.186.497.6105.7113.4我们9.317.128.132.740.943.546.4表4：我们的损失函数与L2损失的比较，分别在MAE和MJE方面4.6. HMR网络的扩充与约简默认情况下，在HMR中，相邻上下文窗口大小的数量固定为3。随着步数的增加，与hn有信息交换的局部状态的数目也变大。有趣的是，我们可以看到放大或缩小相邻窗口大小的效果，我们在表5中报告了这一点。我们观察到，扩大邻近的上下文窗口大小并不一定会导致准确性的提高。最优递归数图6：Mouse数据集上的运动预测。鼠标形状以灰色渲染，关节沿脊椎标记出来。H3.6m数据集上的步长和隐藏状态大小也是经验确定的。这允许我们设定默认的隐藏状态大小300和循环步骤数10。隐藏大小Val. 损失Rec. 步骤Val. 损失尼赢了Val. 损失1000.17710.16910.1692000.16550.16230.1513000.151100.15150.1554000.172150.15970.1595000.175200.161110.158表5：在不同内部参数、隐藏状态大小、循环步骤的数目n和上下文窗口大小上的H3.6m上的验证损失。我们还报告了HMR网络的3种变体：1）在来自编码器的帧级状态h j的更新中移除左遗忘门和右遗忘门;2）从编码器中去除序列级状态g;以及3）去除表1中的第二解码器层。从我们的HMR编码器中移除序列水平状态g被观察到不会严重影响400 ms之前的预测（即，10帧），但是超过400 ms的性能明显下降。预测精度也受到了左和右遗忘门的去除或第二解码器层的去除5. 结论我们提出了一个分层的运动递归网络，它可以有效地建模运动上下文，并显着超过现有的工作，在短期和长期的运动预测。建议的网络incor- porates我们的李代数表示自然地保留了底层对象的骨架关节。在人类、鱼类和小鼠数据集上的广泛结果证明了我们方法的能力。未来的工作包括进一步研究群体水平的运动预测。6. 致谢本文得到了国家重点研究&发展计划（2004年）的部分资助。2017 YFB 1401304）、浙江省自然科学基金（批准号LQ 19 F020001）、新加坡A*STAR JCO基金、加拿大阿尔伯塔大学-华为联合创新中心的支持。感谢Yunphant Ltd.他们的建设性建议。10012引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在第12{USENIX}Symposium on Operating Systems Design andImplementation（{OSDI}16），第265-283页，2016年。7[2] D. 巴赫达瑙湾 Cho和Y. 本吉奥。神经机器翻译通过共同学习对齐和翻译。 CoRR ，abs/1409.0473，2014。二、三、四[3] E. Barsoum，J. Kender，and Z.刘某HP-GAN：通过GAN进行概率3D人体运动预测。CoRR，abs/1711.09561，2017年。2[4] J. Butepage，M. Black，D. Kragic和H.谢尔斯特伦用于人体运动预测和分类的深度表示学习。在CVPR，2017年。一、二[5] A. A. Chaaraoui，J.R. Padilla-Lopez，P.Climent-Pe'rez，

下载后可阅读完整内容，剩余1页未读，立即下载