人体运动的深度表示学习

7 浏览量更新于2023-10-15 收藏 890KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6158用于人体运动预测和分类的深度表示学习JudithB ütepag和1 MichaelJ. Black2DanicaKragic1HedvigKüstrom？m11机器人、感知和学习系，CSC，KTH，瑞典2德国图宾根马克斯·普朗克智能系统研究所感知系统系butepage@kth.se，black@tuebingen.mpg.de，dani@kth.se，hedvig@kth.se摘要3D人体运动的生成模型通常限于少量活动，因此不能很好地推广到新颖的运动或应用。在这项工作中，我们提出了一个用于人类运动捕捉数据的深度学习框架，该框架从大型运动捕捉数据语料库中学习通用表示，并很好地推广到新的、看不见的运动。使用编码解码网络，学习预测未来的3D姿态从最近的过去，我们提取的特征表示的人体运动。用于序列预测的深度学习的大多数工作都集中在视频和语音上。由于骨骼数据具有不同的结构，我们提出并评估了不同的网络架构，对时间依赖性和肢体相关性做出了不同的假设。为了量化学习的特征，我们使用不同层的输出进行动作分类，并可视化网络单元的感受野我们的方法优于骨骼运动预测的最新技术水平，即使这些使用动作特定的训练数据。我们的研究结果表明，从通用mocap数据库训练的深度前馈网络可以成功地用于从人体运动数据中提取特征，并且这种表示可以用作分类和预测的基础。1. 介绍人体运动的表达不仅需要动作分类，也需要运动预测和生成。在不同的领域中，金属位姿和运动的一般表示有不同的用途.在计算机视觉中，运动的充分表示可以促进跟踪和识别。在机器人技术中，这种表示可以用于将人类运动映射到机器人该表示还可以为意图的推断和目标导向动作的解释奠定基础因此，需要一种充分且有效的表示，其可推广到新颖的运动并且具有高的可转移性因子图1：分层时间编码器中间层中不同单元的尖峰触发平均姿态[21]。每个序列覆盖1600 ms的持续时间。不同的应用。此外，这种表示需要对关节和肢体之间的相关性以及人体运动的时间结构进行这项工作的目的是开发和研究骨骼人体运动数据的学习表示，可用于各种任务，并没有调整到特定的运动模式。已经发现深度神经网络（DNN）可以自动学习可以根据网络结构和手头任务推广到新任务的特征[2]。深度架构相对于浅函数的优势已被归因于以分层方式发现稀疏分布式表示的能力[4]。假设高维观测数据点已经从低维流形生成，正则化的自编码器可以用于局部近似数据生成密度[1]。此外，卷积神经网络（CNN）结合了局部特征提取，权重共享和池化来提取不变的，越来越复杂的特征[17]。为了捕获诸如视频记录的时间数据中的相关性，已经提出了在时间和空间方向上6159[14 ]第10段。然而，最先进的卷积技术不能直接应用于人体运动捕捉（mocap）数据。图像的局部结构导致有意义的滤波器响应。由于人类身体的层次结构，这并不直接适用于mocap数据。肢体内的关节随时间相关，而不同肢体的关节可能高度不相关。为了捕获这种相关性，卷积滤波器需要覆盖整个关节范围，使得卷积仅在时间方向上发生。序列学习的一种不同方法是递归网络，例如长短期记忆网络（LSTM）[10]，其中网络单元具有递归连接，使得有关先前激活的信息可以随时间传播。虽然非常适合周期性数据，但当面对非周期性时间序列时，循环网络的表现就不那么好了。虽然人类的某些运动模式，如走路，是高度周期性的，但许多更复杂的运动并不属于这一类。因此，最近的方法为每个人类动作训练一个单独的模型。这严重限制了它们对新运动、动作和任务的推广。此外，已知这些模型的计算复杂度高于前馈网络，并且难以训练[20]。在这项工作中，我们提出了完全连接的网络与瓶颈，学习预测一些未来的mo- cap帧给定的窗口，以前的帧。因此，我们训练了一个人类运动的时间编码器由于数据的结构，我们假设完全连接的编码器比最先进的CNN架构更具表现力我们没有使用递归结构，而是直接将最近的历史传递给模型，从而避免了训练递归网络的困难及其周期性运动的趋势。我们研究了两种不同的结构先验如何影响表示。第一先验通过随时间的卷积来编码不同的时间尺度。第二个先验在全连接图网络的帮助在实验中，我们首先可视化学习的特征表示，其次将我们的模型与最先进的人体运动动作分类和预测模型进行比较。这项工作的主要贡献是：1. 我们开发了一个无监督的表示学习方案，用于长期预测日常人体运动，而不仅仅局限于一小部分动作。2. 我们在CMU mo- cap数据集的大部分上训练模型，产生通用表示。3. 我们证明了我们学习的低维表示可以用于动作分类，并且我们在运动预测方面优于更复杂的深度学习模型。4. 我们的方法可以被视为一种生成模型，一旦训练，计算复杂度低，这使得它适合在线任务。2. 相关工作我们将重点回顾与骨骼动作识别和人体运动预测和合成有关的工作。历史上，许多方法都是基于手工制作的特征或联合相关模式[9]。在这里，我们主要关注与我们的方法最相关的最新深度学习方法。为了保证准确的动作识别，不仅需要考虑人体姿态，还需要考虑随着时间的推移的轨迹。在[24]中，隐马尔可夫模型（HMRM）的突出使用与多层感知器相结合，以对动作相关的隐藏状态轨迹进行建模。为此，将观察到的笛卡尔骨架数据作为网络的输入，该网络预测隐藏状态特征向量，该特征向量被训练为以监督的方式表示当前动作。因此，可以对动作随时间的演变进行分类。与这项工作相反，我们不强迫潜在表示与动作保持一致，而是仅仅依靠无监督学习来保持尽可能通用的表示。在另一种方法中，采用分层RNN以监督的方式直接对笛卡尔骨架数据中的动作进行分类[7]。这个层次结构的层是双向RNN，它们在网络中的位置越高，就越能从更多的分支连续接收信息。重点仅仅在于动作识别的时间动态的帮助下。相反，我们的目标是表征学习和预测，并将识别主要用作验证工具。与我们的方法最相似的是[18]中描述的工作，该工作提出了用于 mocap 数据的深度稀疏自动编码器（DSAE）。该模型经过训练，可以在三个记录上重建0.2 sec- onds的后续mocap帧，其中包含七个不同的运动序列。为了验证，同样的七个动作是基于中间层的输出特征，用随机森林和支持向量机分类的。相反，我们的目标是一般运动的表示，考虑到各种各样的日常行动。此外，我们的方法在4.2节中显示优于他们的方法。除了动作分类之外，几个小组已经解决了运动合成和预测的问题。在早期的工作中，Taylor et al.[23]提出了一种具有二进制隐藏变量的自回归限制玻尔兹曼机，用于人体运动预测。实验仅限于步行、慢跑和跑步运动。相反，我们寻求一个更通用的模型，可以捕捉大量的各种行动。在[11]中，使用单层卷积自动编码器学习人体运动的低维流形为6160运动合成、学习的特征和高级动作命令形成前馈网络的输入，前馈网络被训练以重建期望的运动模式。虽然流形学习的想法类似于我们的方法，但由于模糊效应，卷积层和池化层的使用阻止了更深层次的实现[11]。[8]也应用了一种编码方案，他们使用编码器-递归解码器（ERD）模型来预测人体运动等。编码器-解码器框架学习重构关节角度，而递归中间层表示时间动态。由于整个框架是联合训练的，因此学习到的表示被调整为循环网络的动态，并且可能无法推广到新任务。最后，[13]以结构RNN（S-RNN）的形式引入了用于运动预测的通过构造一个结构图，其中节点和边都由LSTM组成，对单个肢体和整个身体的时间动力学进行建模。大小为f t的单个时间窗口由连接成矩阵Ft的数据帧的相应数量给出：（t+ ft-1）= [ft，ft+1，. . .，ft+t−1]的dimen-尺寸3×N个接头×N个接头数据集由输入组成帧窗口F（t-<$t+1）：t和输出帧窗口F（t+1）：（t+<$t），其中T是记录的长度。3.2. 时间编码器编码-解码框架通常旨在揭示高维输入数据到低维流形上的投影，并随后基于该投影预测输出数据。自动编码器构成这些框架的一个众所周知的子类别给定高维输入数据x∈RN，自动编码器优化min||f（g（x））||、（1）f、g其中编码器y=g（x）将输入数据映射到低维空间y∈RM，N> M，并且解码器如果没有低维表示的帮助，一个sin-x=f（y）映射回输入空间x∈RN。在为每个运动训练角模型。因此，计算-这种方法的理论和模型复杂性相当高。与以前的工作相比，我们开发了一个简单的人类运动动力学的表示学习方案，该方案（第4.3节）在运动预测方面优于最先进的方法，并且还能够预测比早期工作更广泛的运动（第4.4节）当我们想象提取的特征可推广到应用任务（如人机交互中的运动预测）时，我们需要一个强大而快速的系统来绕过卷积和递归网络的陷阱。下文描述了这种方法的细节3. 方法在本节中，我们将以数学术语介绍我们的时间编码方案。此外，我们描述了这个模型的三个变体：对称编码、时间尺度编码和结构编码。3.1. 数据处理和表示如[11]中所示，我们在笛卡尔空间中表示mocap骨架，即，时间t处的帧由下式给出：函数f和g一般由对称多层感知器表示。在这项工作中，我们提出了一种替代方法，以捕捉人体运动数据的时间相关性，而不是静态表示的人的姿态。在一般情况下，设xt∈RN是时间t的观测值，X（t − t +1）：t = [xt−t+1，xt−t+2，. . .，xt]∈RN×ntbe一个矩阵，由时间t的最后两个观测值组成。类似地，令 X （ t+1 ）：（ t+t ） = [xt+1 ， xt+2 ， . . . ， xt+nt]∈RN×nt是包含未来t时刻观测值的矩阵。然后，时间编码器（TE）优化min||X（t +1）：（t + t）− f（g（X（t − t+1）：t））||、（二）f、g其中编码器y=g（X（t-t+1）：t）将输入数据映射到低维空间y∈RM，（N×t）> M，解码器Xt（t+1）：（t+t）=f（y）∈RN×t映射回数据空间。不是纯粹的对称设置，函数f和g可以被不同地构造。虽然编码器必须考虑局部特征，但解码器需要学习全局有效的结构。在我们的应用程序中，输入和输出矩阵的维度为3×Njoints× Nt，使得编码器y=[fx，i，t，fy，i，t，fz，i，t]i=1：N，尺寸为3 ×N的接头g（F（t-t+1）：t）将输入数据映射到低维关节其中N关节是关节的数量空间y∈RM，（3×N 关节 ×t）> M，解码器为了标准化的目的，我们将关节角度转换为标准化身体模型的笛卡尔坐标[19]。关节位置以坐标系的原点为中心，即，我们忽略平移，同时保留骨架的全局旋转。对于每个记录的受试者和试验，我们减去整个试验的平均姿势。F（t+1）：（t+t）=f（y）∈R3×Njoints×t映射回数据空间。3.3.网络结构如图2所示，在这项工作中，我们提出了三种不同的时间编码器结构：对称编码、时标编码和分级编码。6161图2：三个不同的时间编码器的结构，它们对骨骼运动的最后一个时间帧（左）进行编码，并重建下一个时间帧（右），这里是举起手臂。层的数量和大小仅用于说明目的。蓝色层表示完全连接的层，而绿色层表示仅在时间方向上卷积的卷积层。a）S-TE：用于编码器和解码器的对称结构。b）C-TE：编码器考虑不同的时间尺度。c）H-TE：人体的层次结构直接由编码器合并。对称编码。如图2a）所示的对称结构遵循自编码器的一般思想由于解码器是编码器的镜像版本，因此解码器可以被视为编码器的逆的近似。在后面的章节中，该方法将由对称时间编码器（S-TE）表示。时标编码。由于人体运动可以在不同的时间尺度上描述，因此可以将此属性明确地引入到时间编码器。虽然如第1节所述，在关节上进行卷积是不切实际的，但可以对覆盖整个关节范围的滤波器进行时间卷积方向因此，对于给定的窗口大小，卷积滤波器的大小为3 × N joints× Nt w，其中3表示笛卡尔空间x、y和z中的三维。输入数据与不同大小的过滤器进行卷积。这些卷积层的输出被级联，并由全连接层以编码器-解码器的方式进一步处理，如图2b）所示。在后面的章节中，这种方法将由卷积时域编码器（C-TE）表示。分层编码。人体可以用树来表示，其中节点由连接到身体中相应肢体的节点的各个关节组成假设这棵树由L层组成，其中每层l∈[0，L−1]由Nl个节点组成，记为νl，i，i∈[0，Nl−1]. 每个父层l∈[1，L-1]连接到它的子层k=l-1由一组链接。对于图层中的节点il和节点j在层k中，链路由k（l，i），（k，j）表示。在在这项工作中，我们将这些节点建模为单个前馈层-时间解码器中的ER选择性地连接到它们的父层。底层中的每个节点接收来自单个关节的输入，即，N0=N个关节。子节点，这些节点由表示肢体的父节点连接，即，如果关节i属于肢体j，则<$（0，i），（1，j）= 1，否则<$（0，i），（1，j）= 0。以这种方式形成层次结构，直到单个节点代表整个主体，参见图2c）。这一单层作为输入的时间- poral编码器，这是共同训练的树图。在后面的章节中，该方法将由分层时间编码器（H-TE）表示。4. 实验我们的模型是在CMU mocap数据库的1035个记录上训练的[6]。该数据库包含144个不同受试者的2235个记录，这些受试者执行各种各样的复杂运动。由于许多记录的采样率为120 Hz，而其他记录的采样率为60Hz，因此我们将前一次试验的采样率降至60 Hz。为了进行评估，我们使用来自H3.6M数据集的记录[12]，这些记录如上所述进行了预处理。当前的模型是用100帧或大约1660 ms的时间窗口训练的。与[ 8 ]相比，这使得预测时间大大延长，[13 ]第10段。总而言之，输入和输出数据点由3 × N个关节× N = 3 × 24 × 100 = 7200维组成。所有模型都是使用Caffe深度学习框架实现和训练的[15]。为了防止过度拟合并保持学习的表示接近人体运动流形，我们在训练期间向数据层应用越来越多的丢弃噪声。Addi-通常，我们应用逐层预训练，这似乎减少了训练时间，但对最终性能没有显著影响。关于网络结构和培训细节的更多信息见补充材料。4.1. 特征可视化神经特征的可视化主要针对CNN，参见例如[25 ]第20段。从图像以外的方式的功能可视化一直不太突出。在这项工作中，我们应用计算神经科学领域的方法来检查学习的表示。在图1中，我们给出了激发H-TE中间层中许多单元的平均姿态。这个为了减少噪声，我们只考虑当sigmoid单元的输出超过0.8时的姿势和网络活动很明显，这些单元编码不同的运动。整个身体的旋转和姿势以及单肢运动都被表示。6162图3：H-TE中间层特征动力学的三维GPFA [5]。a）不同程度的全身旋转和再现“8字形”的行走轨迹b）拳击、挥手和行走的整个动作序列。这项工作的目标是学习一个低维表示的人体运动动力学编码的underlying行动。因此，在姿态空间中相似的数据点在该低维空间中应当彼此接近，并且较长的为了验证这是否适用于我们的模型学习的时间动态编码，我们使用高斯过程因子分析（GPFA）[5]。GPFA是一种考虑时间结构的与主成分分析相比，GPFA可以揭示时间数据中的非线性相关性最初用于分析尖峰序列，我们将GPFA应用于CMU数据集上不同动作的运动段上的网络中间层的输出在图3中，我们描述了GPFA揭示的三个主要因素维度随时间的不同行为全身不同程度的转动如图3a所示.这些单位所表达的动态似乎编码了转向的程度。当长度随转向度数增加而增加时，动力学接近封闭圆.“8字形”运动的表示图3b）显示了不同的操作。步行的圆形模式与拳击明显不同，挥手此外，拳击和挥动中的重复运动序列也反映在潜空间中。由于这两个动作主要涉及手臂运动，因此它们与步行轨迹很好地分离。4.2. 动作分类为了评估学习特征的表达能力，我们根据不同层的输出特征对底层动作进行对于每个动作，我们提取记录的每个时间步的输出特征，并将其与动作的标签一起存储。我们的分类器是一个两层全连接神经网络，其中softmax输出层经过训练，可以对给定层的输出特征进行分类。我们呈现了靠近数据的层（下层）、瓶颈层（中间层）和靠近输出的层（上层）的结果。为了进行比较，我们还直接对数据点进行分类，并使用PCA提取前75个主成分，这些主成分解释了数据中95%的方差。CMU数据集的分类率已经由许多团体报告，例如，[3]和[16]。这些方法专注于纯分类，并报告高达99.6%的准确率[16]，但不适合表示学习和生成未来运动。因此，我们将在这里将我们的结果与特征提取方法深度稀疏自编码器进行比较，如[18]所述，参见第2节。为了使结果具有可比性，我们在我们的数据集上训练DSAE，并将参数的数量调整为与H-TE的参数相同。我们对整个动作序列进行分类，而不是像[18]中那样对单个动作序列进行分类。为此，我们遵循[3]中描述的CMU mocap动作分类的实验设置。然而，我们通过对大多数列出的记录进行训练并对剩余记录的前8秒进行测试来执行交叉验证，以便对所有操作进行可比测量。因此，我们报告的结果是步行、跑步、拳击、拳击、跳跃、握手、笑、喝酒和吃的动作的平均分类率。结果示于表1中。很明显，单独的数据序列比用DSAE提取的表示产生更好的分类率。相比之下，我们的模型显示出相当或略高的分类率。这意味着表1：行动分类率，CMU mocap数据集方法分类率数据（1.6秒）0.76PCA0.73下层中间层上层DSAE [18]0.720.650.62S-TE0.780.740.67C-TE0.780.740.73H-TE0.770.730.696163图4：从H3.6M数据集预测步行序列。一秒的过去运动与由H-TE-F（中间）和H-TE（底部）做出的未来运动的1600ms预测一起被描绘。与基本自动编码器相比，时间编码从数据中提取更多的相关信息虽然我们的数据层的维度为7200，但下层和上层的维度为300，中间层的维度为100。因此，低维层的特征反映了关于包含在数据中的所执行的动作的基本信息。4.3. 特定动作在这里，我们将我们的三个模型S-TE，C-TE和H-TE的预测能力与最近提出的ERD进行[8]和S-RNN [13]模型，并遵循它们的例子，3层LSTM（LSTM 3L）。我们在H3.6M数据集上评估我们的模型[12]。为此，我们使用[13]公开提供的循环模型和实现的预训练版本。所有这些模型都使用H3.6M数据集的记录进行了训练。这些被下采样到25 Hz，关节角度被转换成指数图。由于我们的时间窗口覆盖约1660ms，因此循环网络初始化为40帧，这对应于1600 ms。对于每个动作，使用单独的预训练的递归模型。为了使这两种方法具有可比性，我们将指数映射预测转换到笛卡尔空间，如3.1节所述。然而，全局旋转和平移被设置为零，因为模型已经在没有此信息的情况下进行了训练。请注意，与递归网络相比，我们的模型没有在H3.6M数据集上训练。为了测试特定于动作的性能，我们针对每个测试动作微调H-TE，并分别报告结果，用H-TE-F表示。为此，训练对象是S1、S6、S7和S8，测试对象是S5。在[13]之后，我们评估了模型对行走、吸烟、进食动作的预测能力，并讨论了80 ms、160 ms和320 ms的短期预测以及560 ms和1000 ms的长期预测。为此，我们计算地面实况与每个模型针对给定帧所做的预测之间的欧几里得距离，并使用关节数进行归一化，重新组合关节上的均方误差的值表2：运动预测误差，单个动作方法短期长期80ms160Ms320Ms560ms1000ms步行ERD [8]0.180.230.340.450.57S-RNN [13]0.180.210.290.410.53LSTM 3L0.180.230.320.390.43S-TE0.330.350.370.370.4C-TE0.180.20.260.320.36H-TE0.170.180.230.280.31H-TE-F0.160.170.20.240.24吸烟ERD [8]0.350.390.430.490.58S-RNN [13]0.330.360.420.50.57LSTM 3L0.260.30.370.420.48S-TE0.40.40.40.420.49C-TE0.260.270.330.40.49H-TE0.260.260.290.350.41H-TE-F0.170.170.190.230.27吃ERD [8]0.230.270.340.420.52S-RNN [13]0.180.230.320.410.41LSTM 3L0.170.230.320.370.41S-TE0.330.340.350.370.42C-TE0.190.210.250.310.37H-TE0.20.20.230.290.37H-TE-F0.150.150.170.210.26讨论ERD [8]0.290.340.420.460.5S-RNN [13]0.350.370.480.550.54LSTM 3L0.440.460.540.560.57S-TE0.220.230.320.260.27C-TE0.150.170.20.250.31H-TE0.160.170.20.220.24H-TE-F0.130.140.180.20.226164图5：错误率的直观说明。源自进食（顶行）和行走（底行）的动作的两个不同姿态与导致误差率0.2、0.3和0.5的姿态一起被描绘。地面真相这里报告的是每个动作的八个随机选择序列的平均误差。结果示于表2中。图5直观地说明了不同的错误率虽然LSTM3L在初始预测方面优于我们的一些模型，但时间编码器在160 ms及以上的预测方面由于编码器被训练为联合预测整个时间窗口，它们较少受到扩散和传播误差的影响。因为“讨论”这个动作相比之下，我们的模型能够推断未来的帧。有趣的是，在大多数预测中，对称时间编码器S-TE和卷积时间编码器C-TE被分层时间编码器H-TE胜过。这表明结构先验对运动预测是有益的。如所预期的，对特定动作的微调降低了预测误差，并且在长期预测期间以及对于未包含在原始训练数据中的动作（例如“吸烟”）特别有效我们在图4中描述了对包含在H3.6M数据集中的大约1600 ms的整个范围内的行走序列的预测。微调模型（中间）以高精度预测地面实况（顶部）。一般模型的预测精度可达600 ms左右。请注意，超过560 ms的预测可能会偏离地面实况，这主要是由于人体运动的随机性[8]，同时对人类观察者仍然有意义。4.4. 通用运动预测为了测试我们的模型对未知数据的泛化能力，我们给出了H3.6M数据集中包含的受试者S1、S5、S6、S7和S8的所有记录为此，我们在每个记录上滑动一个窗口，并对每个时间步进行预测。表3中所示的预测误差是对所有受试者的所有记录的这些预测的平均值请注意，我们的模型是在CMU mocap数据库上训练的。因此，H3.6M数据集提出了新主题和行动的挑战为了比较，我们还提出了平均预测误差对我们举行了测试集（15%的数据）的CMU数据库。由于递归网络是针对特定行为调整的，因此它们无法像我们的模型那样进行推广在表3中，我们给出了4.3节中给出的四个动作的平均预测误差，这四个动作是由所有四个动作特异性模型对每个递归模型产生的。我们的模型的一般性能接近于4.3节中给出的单个动作的结果，而递归模型的一般性较低。有趣的是，C-TE在短期预测方面优于H-TE，而其长期预测性能接近S-TE。由于C-TE的卷积采用不同的时间尺度，因此该方法集中于局部时间信息。相比之下，S-TE编码关于整个输入数据的全局信息，因此更有可能做出准确的长期预测。表3：运动预测误差，一般运动方法短期长期80ms160Ms320Ms560ms1000ms1600msH3.6M（四个具体行动模型的ERD [8]0.390.440.530.60.670.7S-RNN [13]0.340.380.450.520.590.63LSTM 3L0.270.330.420.490.570.62H3.6MS-TE0.360.370.370.380.430.45C-TE0.210.230.270.340.420.45H-TE0.210.220.250.30.360.39CMUS-TE0.30.310.330.350.370.37C-TE0.180.210.250.300.330.35H-TE0.180.200.240.280.310.334.5. 缺失数据在实际应用中，时间编码器所揭示的表示因此，模型应该能够通过依赖于训练数据中的学习相关性来推断具有缺失输入数据的肢体的位置我们通过将整个输入窗口中属于同一肢体的所有关节的数据设置为零来测试这一假设如图6所示，通过目视特别是在图6b）中缺少手臂的情况下，模型能够预测，6165表4：运动预测误差，丢失数据方法短期长期80ms160Ms320Ms560ms1000ms吃S-TE0.330.340.350.370.42C-TE0.190.210.250.310.37H-TE0.20.20.230.290.37吃东西（右臂缺失）S-TE0.440.440.440.460.5C-TE0.310.330.360.40.46H-TE0.30.310.330.370.42吃（左腿缺失）S-TE0.410.410.420.420.47C-TE0.30.310.350.40.5H-TE0.310.310.330.370.43在未来的时间步长中两个臂都被抬起。为了定量地检验这些预测，我们测量了4.3节中描述的平均预测误差。在表4中，我们列出了我们的模型在“进食“期间缺失右臂和缺失左腿的误差更多结果见补充材料。一般来说，我们观察到，对于所有模型和所有预测时间，误差都会增加一位小数左右。然而，与表2中列出的经常性方法的误差相比，误差保持很低。因此，模型能够推断缺失肢体的姿势，并且不会显著偏离原始运动。图6：缺失数据的预测拍摄照片的动作的过去和未来时间步长，H3.6M数据集中的记录，输入数据中缺少手臂和腿。过去和未来都由大约640 ms组成。a）缺失手臂的地面真相。b）通过H-TE对缺失臂的预测。（3）一条腿不见了d）通过H-TE对缺失腿的预测。5. 讨论在这项工作中，我们提出了一个时间编码器方案的特征学习的人体运动。我们的主要目标是发现一个鲁棒的和一般的表示人类运动，可以用作生成模型和特征提取器。我们提出了三种解决这个问题的方法，都是基于瓶颈编码的思想-从过去到未来的帧解码。学习表示的可视化显示，这些层在结构化的低维空间中编码不同范围的运动。由于这种结构，直接对特征进行动作分类而无需微调成为可能。我们证明了我们的前馈网络在短期和长期预测方面优于递归方法，并且预测可以推广到新的主题和行动。最后，推断缺失肢体位置的能力表明了我们方法的鲁棒性。我们的前馈时间编码器在这些任务上的性能可以归因于方法的简单性和瓶颈结构，这迫使网络学习有效和充分的数据表示。虽然前馈网络需要一个预先指定的输入窗口，但支持递归网络的一个论点是，它们能够在更长的时间内对信息进行然而，它们更复杂，并且似乎比纯前馈连接更不通用和鲁棒由于骨架人类姿势数据与例如图像，具有长时间窗口的训练不会带来计算挑战。在这项工作中，我们利用了这一事实，并证明了基于滑动窗口的长期预测比周期性方法更准确我们的三种模型（为了正确理解这两个因素是如何相互作用的，还需要进一步的研究。此外，所有模型的一般观察结果是，长期预测的预测误差会增加。在实际应用中，可能需要用于预测的不确定性的度量，诸如由例如连续变分自动编码器[22]。在未来的工作中，我们计划扩展我们的方法来编码这些信息，并系统地研究窗口大小t.此外，我们计划测试其适用性，在实时应用程序的二维和三维骨骼数据。确认这项工作得到了欧盟通过socSMCs项目（H2020-FETPROACT-2014）和瑞典战略研究基金会的部分支持。6166引用[1] G. Alain和Y.本吉奥。正则化的自动编码器从数据生成分布中学习到什么。 Journal of Machine LearningResearch，15（1）：3563-3593，2014. 1[2] H. Azizpour，A.Sharif Razavian，J.Sullivan，A.Maki和S. 卡尔森通用卷积表示的可传递性因素。 IEEETransactionsonPatternAnalysisandMachineIntelligence，38（9）：1790-1802，2016。1[3] M. Barnachon，S.布瓦卡兹湾Boufama和E.吉卢正在进行的人类动作识别与运动捕捉。Pattern Recognition，47（1）：238-247，2014. 5[4] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新观点。 IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798 1[5] M. Y. Byron，J. P.坎宁安湾Santhanam，S. I. 龙K. V. Shenoy和M.萨哈尼神经元爆发活动的低维单次试验分析的高斯过程因子神经信息处理系统的进展，2009年。5[6] CMU。卡内基-梅隆Mocap数据库。4[7] Y. 杜，W.Wang和L.王. 基于骨架的动作识别的层次递归神经网络在IEEE计算机视觉和模式识别会议上，2015年。2[8] K. Fragkiadaki，S.Levine，P.Felsen和J.马利克人类动力学的循环网络模型IEEE国际计算机视觉会议，2015。三、四、六、七[9] F.汉湾Reily，W. Hoff和H.张某基于3D骨骼数据的人的时空表示：审查. arXiv预印本arXiv：1601.01006，2016.2[10] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735-1780，1997. 2[11] D. Holden，J. Saito，and T.小村一个用于角色运动合成和编辑的深度学习框架。 ACM Trans-actions onGraphics（SIGGRAPH），35（4），2016. 二、三[12] C. 约内斯库 D. Papava 、 V.Olaru 和 C. 斯明奇塞斯库Human3.6M：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325-1339，2014. 四、六[13] A. 贾恩 A.R. Zamir ， S.Savarese 和 A. 萨克塞纳结构 -RNN：时空图的深度学习。2016年在IEEE计算机视觉和模式识别会议上发表。三、四、六[14] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE Transactions on Pattern Analysisand Machine Intelligence，35（1）：221 2[15] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。4[16] H. Kadu和C.- C. 郭敬明自动人类mocap数据分类。IEEE Transactions on Multimedia ， 16 （ 8 ）： 2191-2202，2014。5[17] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 1[18] H. Liu和T.谷口基于深度稀疏自动编码器的人体运动特征提取与模式识别 IEEEInternational Conference onComputer and Information Technology，2014。二、五[19] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。 SMPL ：一个多人皮肤线性模型。 ACMTransactions on Graphics （ SIGGRAPH Asia ）， 34（6），2015. 3[20] R. Pascanu，T. Mikolov和Y.本吉奥。关于训练递归神经网络的困难。在2013年国际机器学习会议上。2[21] E.西蒙切利湖Paninski，J. Pillow和O.史瓦兹随机刺激下神经反应的表征。认知神经科学，3：327-338，2004。1、4[22] K. Sohn，H. Lee和X.燕.使用深度条件生成模型学习结构化输出表示。神经信息处理系统的进展，第3483-3491页，2015年。8[23] G. W. Taylor，G. E. Hinton和S. T.罗威使用二进制潜变量建模人体运动。神经信息处理系统进展，2006年。2[24] D. Wu和L.邵利用分层参数网络进行基于骨骼关节的动作分割和识别。IEEE计算机视觉与模式识别会议，2014年。2[25] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。在2014年欧洲计算机视觉会议上。4

下载后可阅读完整内容，剩余1页未读，立即下载