基于递归神经网络的人体运动预测

198 浏览量更新于2023-10-16 收藏 1.9MB PDF 举报

递归神经网络

深度学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于递归神经网络的人体运动预测Julieta Martinez 2001，Michael J.布莱克2，哈维尔罗梅罗31不列颠哥伦比亚大学，温哥华，加拿大2MPI for Intelligent Systems，德国图宾根3Body Labs Inc.，纽约州纽约市julm@cs.ubc.ca，black@tuebingen.mpg.de，javier. bodylabs.com摘要二人体运动建模是图形学和计算机视觉交叉领域的一个经典问题，其应用范围涵盖了人机交互、运动合成以及虚拟现实和增强现实的运动预测随着深度学习方法在几个计算机视觉任务中的成功，最近的工作集中在使用深度递归神经网络（RNN）来建模人类运动，目标是学习执行短期运动预测和长期人类运动合成等任务的时间相关表示。我们对最近的工作进行了分析，重点关注文献中常用的评估方法，并表明，令人惊讶的是，通过一个简单的基线可以实现最先进的性能，该基线根本不试图对运动进行建模我们调查这一结果，并分析最近的RNN方法，看看在国家的最先进的方法中使用的架构，损失函数和训练过程我们对通常用于人体运动的标准RNN模型提出了三个变化，这导致了一个简单且可扩展的RNN架构，可以在人体运动预测方面获得最先进的1.510.50-400-300电话：+86-21 - 6666666传真：+86-21 - 66666666毫秒1. 介绍我们与世界互动的能力的一个重要组成部分如果我们不了解人们是如何移动的，也不知道他们在接下来的瞬间可能会做什么，那么把一个物体交给另一个人，进行体育运动，或者只是在拥挤的街道上行走都是非常具有挑战性的类似地，能够感知移动的人并与之交互的机器，无论是在物理环境还是虚拟环境中，都必须了解人如何移动。由于人体运动是两个物理限制的结果（例如，由肌肉施加的扭矩、重力、力矩保持）和受试者的意图（如何执行Julieta在MPI实习时进行的研究调节地面实况预测图1. 上图：不同运动预测方法的平均预测误差。底部：传递给网络的地面实况以灰色显示，短期运动预测以彩色显示。以前的工作，基于深度RNN，在预测开始时产生强烈的我们的方法产生平滑，低误差的预测。有意的运动），运动建模是一项复杂的任务，理想情况下应该从观察中学习。本文的重点是从运动捕捉（mocap）数据中学习人体运动模型。更具体地说，我们感兴趣的是人体运动预测，我们预测一个人在过去的运动中最有可能的未来3D姿势。这个问题已经引起了人们的兴趣，2891ERDLSTM-3LRSRNN我们我们SRNNLSTM-3LRERD地面实况误差2892广泛的领域，如社会意识机器人的动作预测[21]，计算机视觉中的3D人物跟踪[13，43]，计算机图形学的运动生成[22]或心理学中的生物运动建模[42]。传统方法通常以马尔可夫假设[25，32]、平滑或低维嵌入[48]的形式在其系统中强加有关运动的专家知识。最近，一系列基于深度递归神经网络（RNN）的方法在此任务上表现出良好的性能，同时试图在其假设中更加不可知。例如，[10]使用课程学习并将表征学习纳入架构中，[18]手动编码不同身体部位之间的语义相似性。这些方法受益于大量公开可用的运动捕捉数据集合[16]，以及时间序列建模优化的最新进展[9]。最近的工作已经通过两种补充方法验证了其性能：（1）短期内的定量预测误差，通常以角度空间中的均方损失测量，以及（2）较长时间范围的定性运动合成第一个评估指标对于计算机视觉应用特别有趣，例如人员跟踪，其中预测不断与新的视觉证据匹配和校正。第二个标准，与图形中的开环运动生成最相关，很难定量评估，因为人体运动在长时间范围内是一个高度不确定的过程。这个问题类似于最近对深度生成网络的研究中发现的问题[41]，其中基于负对数似然和Parzen window估计的数值评估已知远非完美。我们根据经验观察到，目前基于深度RNN的方法很难在这两项任务上获得良好的性能。当前的算法通常被训练为最小化短期预测的定量损失，同时通过调整架构或学习过程来努力实现长期的合理运动。因此，它们的长期结果遭受偶尔不切实际的伪影，例如脚滑动，而它们的短期结果由于第一预测中的明显不连续性而对于跟踪事实上，不连续性问题是如此严重，以至于我们已经发现，一系列简单基线（包括恒定姿态预测器）在数量上优于最先进的方法。虽然这个基线在长期内不会产生有趣的运动，但它突出了当前深度RNN方法中的短期性能差以及严重的不连续性问题在这项工作中，我们认为，（a）最近的工作所取得的成果是不完全令人满意的这两个问题，(b)试图同时解决这两个问题是非常困难的，特别是在缺乏适当的量化指标的情况下。评估长期可扩展性。我们专注于短期预测，这是视觉跟踪场景中最相关的任务我们通过分析几个因素，如网络架构和最先进的RNN方法中使用的训练过程，调查了最近的方法在这项任务上性能不佳的原因首先，我们考虑[10，18]中使用的训练时间表。RNN [5]和强化学习[36]中的一个已知问题是，如果网络在训练期间只被输入地面实况，则无法学习从自己的错误中[10，18]的作者在训练过程中引入了增加的随机噪声量来补偿这种影响。然而，该噪声难以调谐，使得难以基于验证误差来选择最佳模型相反，我们提出了一种简单的方法，在训练时间中引入实际误差，而不需要任何调度;我们只是简单地提供网络的预测，就像在测试时所做的那样。与仅在地面事实上训练的网络相比，这增加了预测的鲁棒性，同时避免了难以调整的时间表的需要。不幸的是，这种新的架构仍然不能准确地表示其隐藏表示中的调节姿势，这仍然导致预测的第一帧中的不连续性。我们从手部运动的统计研究中借鉴了一些想法[15]，并对速度而不是绝对关节角度进行建模，同时保持原始角度表示的损失以避免漂移。因此，我们提出了一种残差架构，该架构对一阶运动导数进行建模，从而实现平滑且更准确的短期预测。我们的两个贡献都可以使用一个比传统工作简单得多的特别是，我们从通常的多层LSTM架构（长短期记忆）转移这使我们能够在几个小时内在整个人类3.6M数据集上训练单个模型[16]。这与以前的方法不同[10，18]，后者仅从该数据集训练特定于动作的模型我们的方法在短期运动预测方面开创了最新的技术水平，并总体上深入了解了使用RNN进行运动建模的挑战。我们的代码在https://github.com/una-dinosauria/human-motion-prediction上公开可用。2. 相关工作我们感兴趣的主要任务是人体运动预测，重点关注最近的深度RNN架构[10，18]。我们的一个发现是，与[3，17]类似，一系列简单的基线优于最近的深度学习方法。下面我们简要回顾一下关于这些主题的文献2893人体运动模型。由于人体运动的高维性、非线性动力学和随机性，学习人体运动的统计模型是一项困难的任务。在过去的十年中，利用特定动作的人体运动的潜在低维性，大多数工作都集中在对遵循状态空间方程的潜变量模型的扩展上，例如隐马尔可夫模型（Hyndom）[26]，探索模型容量和推理复杂性之间例如，Wanget al. [48]使用高斯过程来执行非线性运动预测，并使用期望最大化和马尔可夫链蒙特卡罗来学习时间动力学。Taylor等人[40]假设二进制潜在空间和使用条件限制玻尔兹曼机（CRBM）的模型运动，其需要采样以进行推断。最后，Lehrmannet al. [26]使用随机森林来非线性地选择线性系统，该线性系统基于最后几次观察来预测下一帧。人体运动模型的应用。动作是动作的重要组成部分;因此，动作识别领域特别关注模型和表示人类的运动。在他们的开创性工作中，Yacoob和Black [51]根据主成分分析（PCA）计算的视觉特征的线性流形，最近的方法中使用了更复杂的模型，如Hacking [33，34]的混合物，视觉词的潜在主题模型[49]或LSTM [29虽然他们的目的（从姿势序列中进行动作分类）与我们的不同，但该领域包含了对运动预测的有趣见解，例如数学上合理的方向表示的重要性[46，47]或学习，紧凑的运动表示如何提高动作识别准确性[30]。运动模型的另一个流行的用途，特别是短期的，是姿态跟踪.简单线性马尔可夫模型[37]或PCA模型[44]的使用已经发展到局部线性模型（如因子分析器[28]）、非线性嵌入（如拉普拉斯特征映射[38]、Isomap [19]）、高斯过程潜变量模型（GPLVM）的动态变体[48，52]或基于物理的模型[8]。在动画中，类似的方法已经被用于生成人类姿势序列。Brandet al.[7]生成复杂的运动。Arikan和Forsyth [2]将完整的序列折叠成有向图中的节点，连接它们之间可能的转换，并在[24]集群树中提高路径可用性。最近，基于GPLVM的运动模型已被用于控制物理模拟器中的虚拟角色[27]。虚拟角色的运动生成概述见[45]。深度RNN用于人体运动。我们的工作重点是最近的方法，运动建模是基于深RNNs。Fragkiadaki等人[10]提出了两种架构：LSTM-3LR（3层长短期记忆单元）和ERD（编码器-递归-解码器）。两者都基于级联的LSTM单元，但后者增加了非线性空间编码器进行数据预处理。作者还指出，在推理过程中，网络很容易出现延迟错误，并很快产生不切实际的人体运动。因此，他们建议在训练过程中逐渐向输入中添加噪声（这在课程学习中很常见[6]），这迫使网络对预测误差更加鲁棒这种噪声调度使得网络能够在更长的时间范围内生成合理的运动，特别是在循环行走序列上。然而，调整噪声时间表在实践中是困难的。最近，Jainet al. [18]介绍了结构RNN（SRNN），这种方法采用手动设计的图，将有关RNN的语义知识编码为输入，并创建一个双层架构，将各个RNN单元标记为数据的语义相似部分。作者还采用了Fragkiadaki等人介绍的噪声调度技术，并证明他们的网络在短期预测的定量和定性方面都优于以前的工作。有趣的是，SRNN为更具挑战性的局部周期性动作（如进食和吸烟）产生合理的长期运动，并且不会在非周期性“讨论”序列中崩溃为不切实际的姿势在深度学习中重新审视基线。深度学习方法在对象识别等经典问题中的崛起和令人印象深刻的表现[23]鼓励研究人员使用深度神经网络的变体来解决新的和历史上的挑战性问题。例如，现在有大量关于视觉问题回答（VQA）的工作，即。通过查看图像来回答自然语言问题的任务，几乎完全基于端到端的可训练系统，具有用于视觉处理的深度CNN和用于语言建模的深度RNN [31，35，50]。然而，最近，Zhouet al. [53]已经表明，一个简单的基线，连接来自问题的单词此外，Jabriet al. [17]已经在VQA上显示出具有竞争力的性能，具有不考虑图像的简单基线，以及经过训练以利用问题，图像和答案之间的相关性我们的工作与Jabri等人的工作有些相似。[17]，因为我们已经找到了一个非常简单的基线，它超过了基于深度RNN的最先进的方法，用于短期运动预测。特别是，我们的基线优于Fragkiadi等人的ERD和LSTM-3LR模型。[10]，以及Jain等人的结构RNN（SRNN）方法。[18 ]第10段。基线的另一个例子2894在姿势模型领域中，可以在[25]中找到最近的工作，其中高斯姿势先验优于更复杂的GPLVM。3. 方法最近用于人类姿势预测的深度学习方法[10，18]提供了一个不可知的学习框架，可以与视频数据[10]集成或用于其他预测应用[18]。然而，对于运动预测的特定任务，我们注意到它们有一些共同的缺陷，我们希望加以改进。3.1. 问题第一帧不连续。虽然这两种方法都生成连续运动，但其结果中存在条件地面实况和第一个预测帧之间的明显跳跃（见图1）。这种跳跃对于跟踪应用尤其有害，因为短期预测会随着新的视觉证据不断更新。超参数调整。这些方法向网络超参数的典型集合添加了额外的一个，特别是难以调谐的：噪音时间表在时间序列建模中，通常需要将噪声建模为输入的一部分，以提高对噪声观测的鲁棒性。例如，在卡尔曼滤波中，少量的高斯噪声被显式地建模为标准状态空间方程的一部分。在运动合成等应用中，将方法暴露于网络在测试时将产生的错误对于防止预测的姿势离开合理的人体运动的流形强化学习中使用的DAGGER [36]等算法在训练过程中向“专家”提问，以便预测器学习如何纠正自己的错误。然而，如何使用这种方法进行姿势预测并不简单。我们使用的基本架构RNN通常不考虑训练和测试输入之间的这种不匹配，这使得它们在推理时容易积累错误。为了缓解这个问题，Fragkiadakiet al.建议使用噪声调度;也就是说，在训练时间内向输入注入幅度逐渐增加的噪声（见图1）。2，左），这对应于一种类型的课程学习。 Jain等人[18]类似地采用这种想法，并发现它有助于稳定长期运动合成。缺点是：（1）噪声分布和幅度调度都很难调整;（2）虽然这种噪声改善了长期预测，但它往往会损害短期预测的性能，因为它们与先前的观测结果不连续;（3）基于最低验证误差选择最佳模型的通用规则不再有效，因为最低验证误差误差通常对应于验证时期没有注入噪声。模型的深度和复杂性。LSTM-3LR、ERD和SRNN在其架构中使用多个RNN，堆叠两层或三层以增加模型容量。虽然更深层次的模型在经验上显示出在一系列任务（如机器翻译）上的最佳性能[39]，但众所周知，当数据稀缺时，深度网络很难训练此外，最近的工作表明，只要有大量的数据可用，具有最小表示处理的浅层RNN就可以在学习嵌入级嵌入等任务中取得非常有竞争力的结果[20]最后，更深层次的模型在计算上是昂贵的，这是在大规模训练数据集的背景下考虑的一个重要因素特定的网络。尽管视觉界最近受益于大规模的、公开可用的运动捕捉数据集[16]，但运动建模系统通常是在小的动作特定子集上训练的虽然将训练数据限制为连贯的子集使建模更容易，但众所周知，深度网络在暴露于大型和多样化的训练数据集时工作得最好[20，23]。这应该特别适用于像Human3.6M这样的数据集，其中不同的操作包含大量非常相似的数据（例如，坐着或走路）。3.2. 解决方案[39]第三十九话：我们将短期运动预测作为对将输入序列（调节地面实况）映射到输出（预测）序列的函数的搜索。在这个意义上，这个问题类似于机器翻译，其中序列到序列（seq2seq）架构很流行。在seq 2seq中，训练两个网络;（a）编码器，其接收输入并生成内部表示，以及（b）解码器网络，其获取内部状态并产生用于预测的最大似然估计。与机器翻译中的常见做法不同，我们强制编码器和解码器共享权重，我们发现这可以加速收敛。这种架构的好处是训练期间的编码-解码过程更类似于测试时使用的协议。此外，存在seq2seq体系结构的多种变体（例如，具有注意力机制[4]或双向编码器[35]），其可以潜在地改进运动预测。基于采样的损失。虽然在RNN中通常在每个训练时间步向网络提供基础事实，但这种方法的缺点是网络无法从自己的错误中恢复以前的工作已经解决了这个问题，通过调度网络看到地面实况或其自身预测的速率[5]，或者通过共同训练和对抗网络来强制2895线性噪声LSTMLSTMLSTM线性图2. 训练过程与以前的工作一样，以及我们提出的序列到序列残差架构。绿色简笔画代表地面实况，蓝色简笔画代表预测。左：LSTM-3LR架构，由Fragkiadaki等人介绍。[10 ]第10段。在训练过程中，在每个时间步将地面实况馈送到网络，并将噪声添加到输入中。右：我们的序列到序列架构;在训练过程中，地面实况被馈送到编码器网络，误差在解码器网络上计算，解码器网络馈送自己的预测。解码器还具有残余连接，这有效地迫使RNN内部建模角速度。RNN的内部状态在训练和测试期间是相似的[11]。然而，这些方法严重依赖于超参数调整，这是我们想要避免的。为了简单起见，在训练过程中，我们让解码器始终将其自己的样本作为输入来产生序列。这种方法完全不需要参数调优。这种方法的另一个好处是，我们可以直接控制我们训练的序列的长度。正如我们将看到的，训练以最小化长期运动的误差会导致网络在长期内产生合理的运动，而训练以最小化短期误差会降低前几个预测帧的错误率。残余结构。虽然使用基于采样的损失训练的seq2seq架构可以产生合理的长期运动，但我们观察到调节序列和预测之间仍然存在很强的不连续性。我们的主要见解是，运动连续性，一个已知的属性的人类运动，更容易表达的速度比姿势。虽然需要考虑的建模努力来表示所有可能的调节姿态，使得第一帧预测是连续的，但是仅需要对一个特定速度（零或接近零的速度）进行建模以实现相同的效果。这个想法在当前的深度学习架构中实现起来很简单，因为它转化为在每个RNN单元的输入和输出之间添加一个残余连接（见图1）。2，右）。我们注意到，尽管残差连接已被证明可以提高非常深的卷积网络的性能[14]，但在我们的案例中，它们可以帮助我们对有关人体运动统计的先验多行动模式。我们还探索训练一个单一的模型来预测多个动作的运动，相比之下以前的工作[10，18]，侧重于建立具体行动的模型。虽然对多个动作进行建模比对单个动作集进行建模更困难，但现在的常见做法是在多个数据模态上训练单个条件模型，因为这允许网络在大型数据集中利用数据集[12]。关于每个活动的语义知识可以使用独热向量容易地合并;即，在所述输入中连接处处具有零但在所指示的动作的索引中具有值1的15维向量4. 实验装置我们考虑了三组主要的实验来量化我们贡献的影响：1.Seq2seq架构和基于采样的损失首先，我们使用我们提出的具有基于采样的损失的序列到序列架构来训练特定于动作的模型，并将其与使用噪声调度的先前工作进行比较，并将其与在每个时间步提供地面实况的基线进行比较。这些实验的目的是验证使用不需要参数调整的基于采样的损失与先前关于短期运动预测的工作表现相当，同时仍然产生合理的长期运动。在这些实验中，训练网络以最大限度地减少1秒运动的损失。2. 残余结构。第二组实验探索使用残差架构的效果，该残差架构对一阶运动导数进行建模，同时保持原始角度空间中的损失。在这里，我们感兴趣的是学习残差结构是否改善了短期预测;因此，在这些实验中，网络被训练+++线性线性线性GRUGRUGRUGRUGRUGRU线性LSTMLSTMLSTM线性噪声线性LSTMLSTMLSTM线性噪声28961.81.61.41.21.00.80.60.40.20.02.52.01.51.00.50.0步行50100150200250300350 400毫秒吸烟50100150200250300350 400毫秒1.81.61.41.21.00.80.60.40.20.03.02.52.01.51.00.50.0吃ERDLSTM-3LRSRNN零海拔残留物补充（MA）50100150200250300350 400毫秒讨论50100150200250300350 400毫秒可扩展的seq2seq架构。在我们所有的实验中，我们使用了一个具有 1024 个单元的门控递归单元 [9]（GRU），作为LSTM的计算成本较低的替代方案，并且我们不使用任何与时间无关的层进行表示学习。在实验中，我们发现堆叠递归层会使架构更难训练，同时也会使其更慢;我们还发现在没有空间编码器的情况下获得最佳性能。然而，我们确实使用空间解码器将GRU的1024维输出反向投影到54维，即H3.6M中提供的独立关节角度的我们在多动作实验中使用0.005的学习率，在特定动作实验中使用0.05的学习率;在这两种情况下，批量大小都是16，我们将梯度裁剪到最大L2范数5。在训练和测试过程中，我们将2秒的运动馈送到编码器，并预测1秒（用于长期实验）或400毫秒（用于短期预测）的运动。图3.误差曲线比较ERD [10]，LSTM-3LR [10]，SRNN [18]和我们的方法（残差补充。(MA)在表1中）具有剩余连接、基于采样的损失和在多个动作上训练以及零速度基线。以最小化超过400毫秒的预测误差。3. 多行动模式。我们的最后一轮实验量化了在完整的Human 3.6M数据集上训练我们的架构的好处我们认为这两个监督和非监督的变种。监督变体通过将独热向量与15个动作类连接起来来增强模型的输入。相比之下，无监督变体在训练或预测期间不使用独热输入。在这些实验中，我们还训练了网络，以最小化接下来400毫秒的预测误差。数据集和数据预处理。根据以前的工作，我们使用Ionescu等人的人类3.6M（H3.6M）数据集。[16]，这是目前最大的公开可用的运动捕捉数据集。H3.6M包括七名演员表演15种不同的活动，如散步，吸烟，参与讨论，拍照和打电话，每种活动都有两个不同的试验。为了公平比较，我们采用[10，18]中的姿势表示和评估损失。姿态表示为每个关节的指数图表示，具有全局平移和旋转的特殊预处理（更多详细信息请参见[40为了评估，类似于[10，18]，我们在角度空间中测量了我们的预测与地面真实值之间的欧几里得距离，以增加时间范围。我们报告了八个随机抽样测试的平均误差解码器我们使用Ten- sorFlow [1]实现了我们的架构，它在NVIDIA Titan GPU上每次迭代的前向处理和反向传播需要75 ms。基线。我们比较了最近两种基于深度RNN的人体运动预测方法：LSTM- 3LR和ERD，Fragkiadaki等人[10]和SRNN的Jain等人。[18 ]第10段。为了重现以前的工作，我们依赖于ERD，LSTM- 3LR和SRNN公开的预训练模型和实现。这些实现代表了SRNN作者为重现Fragkiadaki等人报告的ERD和LSTM-3LR模型的结果所做的最大努力。[10]，因为该工作没有正式我们发现，开箱即用，这些基线产生的结果与Jain等人报告的结果略有不同（通常更好）。[18 ]第10段。我们还考虑一个不可知的零速度基线，不断预测最后观察到的帧。为了完整性，我们还考虑了最后两个和四个观察帧的运行平均值虽然这些基线很容易实现，但在最近使用RNN对人体运动建模的工作中还没有考虑过它们。5. 结果图3显示了ERD，LSTM-3LR和SRNN以及零速度基线和我们的方法在Human 3.6数据集的四个动作上获得的结果的总结。表1和表2更详细地描述了这些结果，并包括其余行动的结果。在本节的其余部分中，我们将分析这些结果。零速度基线。第一个引人注目的结果是基线的相对良好的性能，特别是序列，并使用5号实验对象的序列进行测试，而其余的序列用于训练。1https://github.com/asheshjain399/RNNexp平均角度误差平均角度误差平均角度误差平均角度误差2897走路吃饭抽烟讨论毫秒80160320400801603204008016032040080160320400ERD [10]0.931.181.591.781.271.451.661.801.661.952.352.422.272.472.682.76LSTM-3LR [1]0.771.001.291.470.891.091.351.461.341.652.042.161.882.122.252.23[第十八话]0.810.941.161.300.971.141.351.461.451.681.942.081.221.491.831.93运行平均值。40.640.871.071.200.400.590.770.880.370.581.031.020.600.901.111.15运行平均值。20.480.741.021.170.320.520.740.870.300.520.990.970.410.740.991.09零速度0.390.680.991.150.270.480.730.860.260.480.970.950.310.670.941.04零噪声（SA）0.440.711.161.340.390.651.131.360.510.831.481.620.571.472.082.30抽样损失（SA）0.920.981.021.200.980.991.181.311.381.391.561.651.781.801.831.90残差（SA）0.340.600.951.090.300.530.921.130.360.661.171.270.440.931.451.60残留物不稳定。（MA）0.270.470.700.780.250.430.710.870.330.611.041.190.310.691.031.12残留物补充（MA）0.280.490.720.810.230.390.620.760.230.390.620.760.310.681.011.09Untied（MA）0.330.540.780.910.280.450.650.830.350.621.031.140.350.711.011.09表1.运动预测的详细结果，以人类3.6M数据集的行走，进食，吸烟和讨论活动的平均角度误差测量顶部部分对应于以前基于深度递归神经网络的工作。“零噪声”是通过在每个时间步提供地面实况来训练的模型。“基于采样的损失”是通过让解码器提供自己的输出来训练的。SA代表最后方向问候打电话摆姿势购买坐毫秒80 160 320 40080 160 320 40080 160 320 40080 160 320 40080 160 320 40080 160 320 400零速度0.25 0.44 0.61 0.680.80 1.23 1.81 1.87 0.80 1.23 1.81 1.87 0.32 0.63 1.16 1.45 0.72 1.03 1.46 1.49 0.43 1.12 1.41 1.58Res. （SA）0.44 0.95 1.27 1.550.87 1.40 2.19 2.260.31 0.57 0.88 1.040.50 0.96 1.64 1.960.74 1.60 1.57 1.720.441.051.51 1.69Res. unsup. (MA)0.270.47 0.730.771.181.741.840.240.43 0.680.40 0.77 1.32 1.620.62 1.101.07 1.140.681.041.431.65Res. 辅助核算（马）0.470.720.840.75 1.17 1.74 1.830.23 0.430.69 0.820.360.711.221.480.51 0.97 1.071.160.411.051.491.63Untied（MA）0.31 0.52 0.77 0.890.79 1.19 1.72 1.83 0.27 0.46 0.68 0.85 0.42 0.77 1.29 1.58 0.52 1.01 1.07 1.16 0.51 1.13 1.56 1.74坐下来拍照等待遛狗一起散步平均毫秒80 160 320 40080 160 320 40080 160 320 40080 160 320 40080 160 320 40080 160 320 400零速度0.27 0.54 0.93 1.050.22 0.47 0.78 0.89 0.27 0.49 0.96 1.12 0.60 0.96 1.27 1.33 0.33 0.60 0.96 1.03 0.42 0.74 1.12 1.20Res. （SA）0.380.771.361.590.37 0.66 1.30 1.700.36 0.73 1.31 1.510.62 1.02 1.55 1.650.44 0.81 1.25 1.360.46 0.88 1.35 1.54Res. unsup. (MA)0.41 0.80 1.43 1.630.27 0.56 0.98 1.160.32 0.62 1.13 1.300.580.951.370.35 0.620.870.870.390.721.08Res. 辅助核算（马）0.39 0.81 1.401.620.240.510.900.280.531.020.56 0.91 1.26 1.400.31 0.58 0.870.910.36 0.67 1.02 1.15Untied（MA）0.47 0.89 1.57 1.720.30 0.56 0.95 1.12 0.38 0.64 1.18 1.41 0.61 0.98 1.42 1.54 0.40 0.69 0.98 1.03 0.42 0.74 1.11 1.26表2.我们的零速度基线和我们的主要预测方法对H3.6m数据集的其余11个动作的预测结果零速度的那个它们明显优于最先进的结果，突出了以前工作中条件和预测之间不连续性的严重性。基线的良好性能也意味着确定性损失不适合评估具有长时间范围的运动预测。基于采样的损失。在表1中，使用我们的基于采样的损失一致地实现了与现有技术竞争或优于现有技术的运动预测误差。此外，由于我们已经训练了我们的模型，以最大限度地减少1秒时间范围内的误差，因此从长远来看，网络保持了生成合理运动的能力。图4显示了使用这种方法的长期运动的一些定性示例鉴于我们提出的基于采样的损失不需要任何超参数调整，我们认为这是一种快速训练的有趣替代方案，可以替代先前使用RNN进行长期运动生成的工作。剩余架构和多动作模型最后，我们在表1的底部子组中报告了通过我们的架构获得的性能，该架构具有基于采样的损失、剩余连接并在单个（SA）或多个动作（MA）上进行训练。我们可以看到，使用残差连接大大提高了性能，并将我们的方法推向了最先进的水平，这突出了速度表示更容易通过我们的网络建模的事实。重要的是，我们的方法在训练多个动作时获得最佳性能;这个结果，加上我们方法的简单性，揭示了2898步行吃吸烟讨论图4.定性的长期运动生成，显示对不同活动的两秒运动预测灰色顶部序列对应于地面实况，红色序列对应于SRNN。第一个深蓝色序列对应于我们的方法，在特定动作上训练，没有残留连接，但使用基于采样的损失（表1中的基于采样的损失（SA））。该模型在长期内产生合理的运动，但在短期预测中确实存在不连续性。最后一个蓝色序列对应于我们的完整模型，包括残差连接，并在多个动作上进行了训练（残差sup. (MA)该模型在短期内产生平滑、连续的预测，但收敛于平均姿态。在学习短期运动动力学时大量训练数据的重要性。我们还注意到，高度非周期性的类，如讨论，方向和坐下仍然很难建模。此外，我们观察到，以动作标签的形式向网络添加语义信息在大多数情况下都有帮助，尽管幅度很小很可能，这是由于这样的事实，即对于短期运动预测，建模物理约束（例如，动量保持）比对高级语义意图建模更当分析图。4，很明显，最好的数值结果并不对应于最好的定性长期运动-一个结果，即使在训练中，以尽量减少损失在长期的视野（例如，1秒）。但是，我们很难责怪这种方法，因为我们的网络在独立验证集中实现了最低的损失。换句话说，网络在分配给它的任务中表现出色。为了产生更好的定性结果，我们认为，不同的损失，鼓励其他相似性措施（如。对抗的、基于熵的等）应该使用。我们的研究结果表明，使用RNN进行准确的短期预测（6. 结论和今后的工作我们已经证明，以前使用深度RNN进行人体运动建模的工作严重忽视了短期运动预测的重要任务，因为我们已经证明零速度预测是一个简单但难以击败的基线，它在很大程度上优于现有技术。基于这一观察，我们已经开发了具有残余连接的序列到序列架构，当在基于样本的损失上训练时，超越以往的工作。我们提出的架构，是简单的和可扩展的，可以在大规模的人体运动数据集上训练，我们发现这对学习人体运动的短期动力学是至关重要的。最后，我们已经证明，以动作标签的形式为网络提供高级别的监督可以提高性能，但未监督的基线仍然非常具有竞争力。我们发现这最后一个结果特别令人鼓舞，因为它背离了以前在人体运动建模中的工作，后者通常在小的、特定于动作的数据集上工作未来的工作可能会集中在探索以无监督的方式使用更大的运动捕捉数据集的方法。鸣谢。作者感谢Laura Sevilla- Lara校对我们的工作。我们还要感谢英伟达捐赠了一些用于本研究的GPU。这项研究得到了NSERC的部分支持。2899引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。6[2] O. Arikan和D. A.福赛斯从示例中生成交互式运动。TOG，21（3）：483-490，2002. 3[3] S.阿罗拉湾Liang和T. MA.一个简单但难以击败的句子嵌入基线。ICLR审查中，2017年。2[4] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器ICLR，2015年。4[5] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。2015年，在NIPS中。二、四[6] Y. Bengio，J. Collobert和J.韦斯顿当前学习。在ICML，第41-48页，2009中。3[7] M. Brand和A. 赫茨曼时尚机器。在SIG中-GRAPH，2000年。3[8] M. A.布鲁贝克D. J. Fleet和A.赫茨曼使用拟人步行器的基于物理的人物跟踪IJCV，87（1-2）：140-155，2010年。3[9] K. 乔湾，巴西-地 VanMerr ieenboer，D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性：编码解码器接近。arXiv预印本arXiv：1409.1259，2014。二、六[10] K. Fragkiadaki，S.Levine，P.Felsen和J.马利克人类动力学的循环网络模型。CVPR，2015。二三四五六七[11] A. Goyal，A.兰姆湾，澳-地Zhang，S.Zhang，中国古柏A.Courville和Y.本吉奥。迫教授：训练递归网络的一种新算法。在NIPS，2016年。5[12] A. Graves. 用递归神经网络生成序列 . arXiv 预印本arXiv：1308.0850，2013。5[13] A. Gupta，J. Martinez，J. J. Little和R. J·伍德汉姆通过非线性循环时间编码的跨视图动作识别的3D运动姿势。CVPR，2014。2[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。5[15] J. N. Ingram，K. P. 科丁岛S. Howard和D. M. 沃尔伯特自然手部动作的统计。Experimental Brain Research，188（2）：223-236，2008. 2[16] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库胡曼3.6米：自然环境中三维人体感知的大规模数据集和预测方法。TPAMI，36（7），2014. 二、四、六[17] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。在ECCV，2016年。二、三[18] A. 贾恩 A.R. Zamir ， S.Savarese 和 A. 萨克塞纳结构 -rnn：时空图的深度学习。在CVPR，2016年。二三四五六七[19] O.

下载后可阅读完整内容，剩余1页未读，立即下载