没有合适的资源?快使用搜索试试~ 我知道了~
7144结构化预测有助于3D人体运动建模Emre Aksan* Manuel Kaufmann* Otmar Hilliges苏黎世{firstname.lastname}@inf.ethz.ch图1:我们将结构化预测层(SPL)引入3D人体运动建模任务。SP层将姿态明确分解为各个关节,并可以与各种基线架构连接。我们表明,在H3.6M和最近的一个更大的数据集AMASS上,当用SP层增强时,各种基线模型都会受益摘要人体运动预测是计算机视觉应用领域中一个具有挑战性的重要课题。骨骼模型只是隐含地模拟了人体骨骼的空间结构.在本文中,我们提出了一种新的ap-proach,分解到单个关节的预测结构化的预测层,明确建模的联合依赖。这是通过一个小规模的神经网络的层次结构,类似地连接到人体中的运动链以及损失函数中的关节分解来实现的。所提出的层对底层网络是不可知的,并且可以与现有的运动建模架构一起使用。以前的工作通常利用H3.6M数据集。我们发现,一些最先进的技术在AMASS上训练和测试时表现不佳,AMASS是最近发布的数据集,大小是H3.6M的14倍。我们的实验表明,所提出的层提高了运动预测的性能,无论基础网络,联合角度表示,和预测范围。我们进一步表明,该层也提高了运动预测质量。我们在www.example.com上公开代码和模型https://ait.ethz.ch/projects/2019/spl。1. 介绍随着时间的推移对人类运动的建模在活动识别、人机交互、人类检测和跟踪以及机器人或自动驾驶车辆的背景下的基于图像的人类有能力以高精度预测短期范围内的姿势序列,并且可以想象任意时间尺度上的可能运动尽管最近在人体运动的数据驱动建模方面取得了进展[7,8,14,20,25,33],但对于机器来说,这项任务仍然很困难*前两位作者贡献相当。这项任务的困难是多方面的。首先,人的运动是高度动态的,非线性的,随着时间的推移成为一个随机的顺序过程,具有高度的内在不确定性。人类在自然运动中利用强有力的结构和节奏先验知识来保持连续性和规律性。然而,这些很难在算法上建模,i)关节之间的相互依赖性以及ii)高级活动对运动序列的影响(例如,从行走到跳跃的过渡)。事实上,许多最近的方法放弃了对人体运动的显式建模[14],而支持纯数据驱动的模型[8,20,25]。最初基于深度学习的运动建模方法集中在递归神经网络(RNN)[8,7,14],使用课程学习方案来增加对时间漂移的鲁棒性。Martinez等人[20]已经表明,一个简单的运行平均提供了一个令人惊讶的困难,击败基线方面的欧拉角误差。在此之后,已经提出了以自回归方式训练的序列到序列模型[20],有时使用对抗训练来解决长期预测中的漂移问题Pavllo等人[25]研究关节角度表示的影响,并表明基于四元数的参数化改善了短期预测。然而,已经观察到定量性能并不总是转化为定性有意义的预测[20,25]。此外,H3.6M基准正在变得饱和,限制了进展。这导致在这项工作中研究的两个主要研究问题:i)如何以有意义的方式测量姿态预测的准确性,使得低误差对应于良好的定性结果,以及如何提高这种性能?ii)如何利用人体骨骼的空间结构进行更好的预测?关于i),我们注意到许多文献依赖于H3.6M [12]数据集和基于欧拉角的度量作为性能度量,在有限数量的7145测试序列虽然可以对任务进行初步探索,但数据集的大小有限(大约3小时,210个序列),活动和姿势的多样性也有限,这导致了性能方面的饱和效应。在本文中,我们表明,现有的技术在更大和更多样化的数据集上训练时不能很好地扩展。为此,我们利用最近发布的AMASS数据集[19],它本身由多个较小的运动数据集组成,提供更多的样本(H3.6M的14倍)和更广泛的活动。为了进一步揭示运动建模技术的性能,我们引入了几个评估指标的任务,人体运动预测。我们的主要技术贡献是一个新的结构化预测层(SPL),解决了我们的第二个研究问题。我们通过明确地将姿势分解为单个关节来利用人体骨骼的组成结构。SP层对人体骨骼的结构进行建模,从而对关节之间的空间依赖性进行这是通过一个小规模的神经网络,类似地连接到人体骨骼的运动链的层次结构图中的每个节点接收关于父节点的预测的信息,并且因此信息沿着运动学链传播。我们还介绍了一个联合明智的分解损失函数的SPL的一部分。所提出的层对底层网络是不可知的,并且可以与大多数先前提出的架构结合使用。我们的实验表明,引入这一层现有的方法提高了各自的方法的性能这种影响在更 大和更具挑战性的AMASS数据集上最为明显。这表明,我们的方法确实是一个步骤,成功地利用空间先验的人体运动建模,反过来又允许经常性的模型,以捕捉时间的一致性更有效。我们全面评估了H3.6M和AMASS上的SP层。在AMASS上,对于任何基础模型、任何度量和任何输入表示,使用SP层是有益的。此外,如果与SP层配对,则即使是被零速度基线[20]优于的简单架构也具有总而言之,我们贡献:i)深入分析最先进的运动建模方法及其评估。㈡关于最近大得多的AMASS数据集的新基准和评估协议。iii)一种新的预测层,结合结构先验。iv)结合几个基本模型对SP层对运动建模的影响的全面评估2. 相关工作为了简洁起见,我们简要回顾了关于人体运动建模的最相关文献,重点是深度学习。深度递归模型早期的工作利用特定的深度信念网络进行运动建模[30],而最近的工作利用递归架构。例如,Fragkiadakiet al. [7]提出了编码器-递归解码器(ERD)框架,该框架将姿势数据映射到一个潜在空间中,在该空间中,姿势数据通过LSTM单元随时间传播。在时间步t的预测被反馈作为时间步t+1的输入。这种方案很快导致误差累积,因此随着时间的推移会发生灾难性的漂移为了增加鲁棒性,在训练期间添加高斯噪声在缓解漂移问题的同时,这种训练方案难以微调。对公开可用的H3.6M数据集[12]进行定量和定性评估欧拉角上的联合欧几里得距离用作评估度量。大多数后续工作都遵循这一设置。受[7]的启发,Duet al. [6]最近提出将三层LSTM与编码到损失函数中的生物机械约束相结合,用于行人姿势和步态预测。与[6]一样,我们也将先前的知识纳入网络设计中,但通过输出层的特定设计来实现,而不是在损失函数中强制执行物理约束与[7]相似,Ghoshet al.[8]通过在去噪自动编码器的输入层上应用辍学来稳定长期预测范围的预测在这项工作中,我们专注于短期预测,但也直接在输入上应用辍学,以考虑测试时模型的噪声预测。与[8]相反,我们的模型可以端到端训练。Martinez等人[20]采用使用单层GRU单元的序列到序列架构[4]。该模型在训练期间使用其自己的预测进行自回归训练。解码器上的残差连接导致更平滑和改进的短期预测。Martinez等人还表明,简单的运行平均基线令人惊讶地难以击败的欧拉角计量。目前在H3.6M上的最佳性能由Wang等人报道。[33]第33段。他们还使用了一种经过对抗性损失训练的序列到序列方法来解决漂移问题并创建平滑的预测。突出了以前使用的L2损失的一些问题,[33]提出了一个更有意义的测地线损失。在这项工作中,我们表明,序列到序列模型,尽管在H3.6M上表现良好,但在更大,更多样化的AMASS数据集上表现不佳虽然用我们的SP层增强它们可以提高它们的性能,但它们的性能优于使用相同SP层的简单RNN。为了更好地表征运动建模性能,我们还引入了几个新的评估指标。Jainet al. [14]建议解释- 通过自动转换,7146不一个st-图到一个RNN(S-RNN)。骨架分为5个主要的集群,其相互作用,然后手动编码到一个st图。我们的模型也是结构感知的。然而,我们的方法不需要一个粗略的细分关节,不需要手动定义的ST-图。此外,我们的层对底层网络是不可知的,可以与大多数现有的架构接口。Bütepage等人[2]建议使用从末端效应器开始的运动链(称为H-TE)的密集层分层编码姿势,这类似于我们的SP层。与这项工作相比,H-TE操作的输入,而不是输出,并已被证明与非经常性的网络时,使用3D位置参数化的姿态。结构感知网络架构也已用于图像的3D姿态估计[16,29,21,17,31]。[17]和[31]都学习结构化的潜在空间。[21]仅通过将姿态编码到距离矩阵中来隐式地使用结构,然后距离矩阵用作网络的输入和输出。[16]和[29]最接近我们的工作,因为他们明确地修改网络以考虑骨架结构,无论是通过损失函数[29],还是使用骨架中每个关节的LSTM细胞序列[16]。[16]在架构中引入了许多新的层,需要超参数调优才能最有效。相反,我们提出的SP层是简单的实现和训练。我们表明,它提高了性能的几个基线架构的开箱即用。参数化 大多数工作将关节角度参数化为相对于每个关节的父节点的指数贴图Pavllo等人[25]显示与使用四元数的最新技术水平竞争的结果他们的模型QuaterNet由2层GRU单元组成,类似于[20]使用跳过连接。四元数的使用允许可微分正向运动学层的集成,便于以3D关节位置的欧几里德距离的形式进行损失计算。对于短期预测,QuaterNet直接优化了[7]引入的基于欧拉角的度量。我们表明,QuaterNet也受益于增强与我们的SP层,表明SPL是独立的底层关节角度表示。Bütepage等人[2,3]和Holdenet al. [10]将数据直接转换为3D关节位置。这些作品不使用经常性的结构,这需要提取固定大小的时间窗口进行训练。[2]和[10]专注于学习潜在表示,这被证明有助于各种任务,例如去噪,预测或沿给定轨迹的运动生成[9]。[3]延伸[2]通过将条件变分自动编码器(VAE)应用于人机交互中的在线运动预测任务我们使用人体姿势的位置表示以计算预测质量的信息度量。然而,对于学习,我们使用关节角度,因为它们更好地编码对称性,并且本质上是骨骼长度不变的。3. 方法我们工作的目标是提供一个通用的解决方案人体运动建模的问题。为此,我们的动机是观察到,人体运动的空间结构的骨骼强烈调节。然而,到目前为止,将这种结构集成到深度神经网络架构中并没有产生比仅显式建模时间依赖关系的在本节中,我们概述了一种新的结构化预测层(SPL),它显式地捕获空间连接性。该层被设计成与底层网络无关。我们的经验表明,在Sec。图5和图6所示的方法改进了各种现有模型的性能,而与所使用的数据集或数据表示无关。3.1. 问题公式化运动样本可以被认为是序列X={x1. . . 其中在时间步长t处的帧Xt∈ R N表示N维身体姿势。N取决于数量和每关节表示的大小M(角度-轴、旋转矩阵、四元数或3D位置),即N=K·M。由于它们的时间性质,运动序列通常是用自回归方法建模。这样的模型将运动序列的联合概率分解为如下条件的乘积:YTpθ(X)= pθ(xt|x1:t−1)(1)t=1其中联合分布由θ参数化。在每个时间步长t处,给定过去的姿态来预测下一姿态。虽然这种自回归设置显式地对时间依赖性进行建模,但仅隐式地处理空间结构。换句话说,给定一个姿态向量xt,模型必须在下一个时间步预测整个姿态向量xt+1这假设关节在给定特定上下文的情况下彼此独立(即,过去帧的神经表示)。然而,人体是由层次关节和运动链之间的空间依赖性介绍。3.2. 结构化预测层为了解决这个缺点,我们提出了一种新的结构化预测层(SPL)。这是通过将模型预测分解为单个关节而形成的这个腐烂的-位置是由人类运动链的空间先验指导的,如图所示二、形式上,xt∈RN是K个关节x(k)∈RM的级联:xt =[x(髋关节),x(脊柱)。. . x(lwrist),x(lhand)]t t t t t t7147不不图2:SPL概述。考虑到过去的背景图3:致密层和SP层之间的差异,有2个接头。当所有虚线权重为零时,密集隐藏层相当于忽略层次的SP层在帧中,通过遵循由底层骨架定义的运动学链来分层地进行关节预测为了清楚起见,仅可视化关节的子集。为了与现有架构对接,SP层将上下文表示h t作为输入。这里,假设ht概括直到时间t的运动序列。 不失一般性,我们假设这是一个隐藏的RNN状态或其投影。虽然现有的工作通常利用几个密集层来从h_t预测N维姿态向量x_t,但我们的SP层利用单独的较小网络单独预测每个关节YK一个密集层,隐藏单元uk通过w1,k和w2,k.因此,梯度wL/wuk受两个关节的影响,而在SPL中,只有w2,k受设计影响跨许多设置和指标的底层体系结构为什么会出现这种情况的一个潜在原因可以在由此产生的网络结构及其对网络训练的影响中找到。图3将我们的结构化方法与使用密集层的传统一次性预测进行了比较。因为每联合分解导致许多小的分离网络,所以我们可以将SP层视为密集层,其中通过利用领域知识将一些连接显式地设置为零。这种分解改变了梯度w.r.t.隐藏层中的单元pθ(x t)= pθ(x(k)|parent(x(k)),h t)(2)t tk=1其中parent(x(k))提取第k个关节的父节点重要的是,全身姿势xt是通过遵循图1中的骨架层次来预测的2如下:它们现在只受来自它们所建模的关节层次在传统的设置中,作为所有关节的平均值计算的误差可以很容易地以任意方式分布在所有网络权重上。(臀部)(脊柱)(臀部)3.3. 每节损失pθ(x t)= pθ(xt |h t)pθ(xt|(3)在该公式中,每个关节接收关于其自身的配置和直接父关节的配置的信息,这两种情况都是通过对父关节的预测的调节来解释的,并且隐含地通过上下文h t来解释联合概率我们还建议在目标函数中执行类似的分解,从而进一步改进。 训练目标通常是欧氏空间中地面真实姿势xt和预测xt之间的度量:等式1在空间域中进一步分解:L(X,X)=1 ΣTT· Nf(xt,xt)(5)YTpθ(X)=YK pθ(x(k)|parent(x(k)),ht)(4)t=1t tt=1k=1其中,f是损失函数,例如,NLP范数。 损失f为这种结构化预测方法的好处是双重的.首先,所提出的因式分解允许以分层架构的形式集成结构先验在整个姿势向量上计算,并在时间和空间域。在我们的工作中,我们使用稍微修改的版本,以保持关节完整性:其中每个关节由不同的网络建模这允许模型根据ΣTL(X,X)=ΣK f(x(k),x∈ N(k))(6)因此节省了模型容量。其次,类似于消息传递,每个父节点将其预测传播到子节点,从而允许更精确的局部预测,因为节点可以访问其所依赖的信息父母在我们的实验中(cf.秒5和6),我们表明,这一层提高了预测性能的多样性集t tt=1k=1其中首先在每个关节上计算损失f,然后求和以计算整个运动序列的损失。在这项工作中,我们使用f的MSE,但公式允许对特定域的损失进行简单的调整,7148例如[33]提出的测地线距离7149不不4. 人体运动建模我们现在评估我们的SP层的任务,人体运动建模。我们在两个数据集和三个不同的底层架构上进行实验,这些架构使用三种不同的数据表示。在下文中,我们将更详细地解释数据集和模型。4.1. 数据集为了便于与现有技术进行比较,我们首先报告来自H3.6M数据集的结果。我们遵循与[14,20]中使用的相同的实验方案。考虑到H3.6M的小尺寸和测试结果的报告方差[25],我们建议使用最近引入的我们从[11]下载了数据集,因为[19]的数据在撰写本文时尚未发布。AMASS由公开可用的数据库组成,例如CMU Mocap 数据库[5]或HumanEva [26],并使用SMPL模型[18]来表示运动序列。该数据集包含8′593个序列,其中包括以60 Hz采样的 总 共 9′084′918 这 大 约 相 当 于 42 小 时 的 记 录 , 使AMASS比H3.6M(50 Hz时632′894我们将AMASS数据集分为训练、验证和测试部分,分别由大约90%、5%和5%的样本组成。类似于H3.6M协议,输入序列为2秒(120帧),目标序列为400-ms(24帧)长。H3.6M基准使用了15个类别的120个测试样本。这是一个相对较小的测试集,据报道会导致高方差[24]。在我们的H3.6M实验中,我们使用此设置来确保公平比较。然而,在AMASS上,我们通过在运动序列上移动2秒的窗口来使用测试分割中的每一帧,从而提取3'304个测试样本。H3.6M和AMASS分别用21个和15个主要关节对人体骨骼进行建模我们实现单独的SP层对应的底层骨架。4.2. 模型我们SP层的模块化特性允许灵活部署不同的基础模型集在我们规范化和正则化操作。类似地,通过四元数乘积实现从输入到输出的残差连接。在我们的实验中,我们将最终的线性输出层替换为SP层,并保持其余设置不变。RNN使用单层递归网络来计算上下文ht,我们将其馈送到SP层。与Seq2seq和QuaterNet设置相反,我们通过旋转矩阵表示姿势为了解释误差累积问题在测试时[7,8,14],我们直接在输入上应用dropout该架构类似于ERD [7],但额外增加了[20]的剩余连接在SP层中,每个关节仅用一个小的隐藏层(64或128个单元)建模,然后进行ReLU激活以及到联合预测x∈RM的线性投影。我们在SPL中试验了不同的分层配置(参见秒6.3)其中遵循真正的运动学链表现最好。与仅使用直接父节点相比,某些模型从输入运动链中的所有父节点中获益。请注意,我们仅根据需要更改了现有的Seq2seq和QuaterNet模型,以便将它们与SPL集成。为了确保公平的比较,我们微调了超参数,如学习率,批量大小和隐藏层单元。参见附录第8.1有关详细信息5. 对H3.6M数据集的评价在我们的第一组比较中,我们使用欧拉角度量在H3.6M数据集上对所提出的SP层进行基线,这是文献中的常见做法。5.1. 度量设w=θa表示θ绕单位轴a∈R3的旋转。w是单个关节角度的角度-轴(或指数映射)表示的通过首先使用Rodrigues公式将其转换为旋转矩阵R=exp(w),然后按照[27]计算角度α =(α x,α y,α z),从w中提取欧拉角这假设R遵循z-y-x顺序。此外,如[27]所述,α总是存在两个解,[14]从中选择导致最小旋转量的解。时间步长t的欧拉角度量为在实验中,我们使用文献中提出的以下三种代表性架构来到1Leul(t)=Σ。Σ(α(k)−α(k))2(7)为了简化SPL和其他基础架构的实验,我们提供了所有代码和预训练模型|Xtest|t txt∈X检验khttps://ait.ethz.ch/projects/2019/spl网站。Seq2seq是Martinez等人提出的模型。[20]由单层GRU单元组成。它含有一种残留物输入和预测之间的联系。输入姿势表示为指数贴图。QuaterNet使用四元数表示[24,25]。该模型使用基于四元数的RNN进行扩充其中,α(k)是在时间点处关节kt. X测试由[14]定义,由120个序列组成5.2. 结果选项卡. 1总结了在H3.6M数据集上具有和不具有SP层的模型的相对性能,并将其与最新技术进行了比较。公开备查的7150¨¨不˜走路吃饭抽烟讨论毫秒80160320400801603204008016032040080160320400LSTM-3LR [7]0.771.001.291.470.891.091.351.461.341.652.042.161.882.122.252.23[14]第十四话0.810.941.161.300.971.141.351.461.451.681.942.081.221.491.831.93[20]第二十话0.390.680.991.150.270.480.730.860.260.480.970.950.310.670.941.04年龄[33]0.220.360.550.670.170.280.510.640.270.430.820.840.270.560.760.83Seq2seq-sampling-sup [20]0.280.490.720.810.230.390.620.760.330.611.051.150.310.681.011.09Seq2seq-sampling-sup-SPL0.230.370.530.610.200.320.520.670.260.480.920.900.290.630.900.99Seq 2seq-采样[20]0.270.470.700.780.250.430.710.870.330.611.041.190.310.691.031.12Seq2seq-sampling-SPL0.230.380.580.670.200.320.520.660.260.480.920.900.300.640.910.99QuaterNet [25]0.210.340.560.620.200.350.580.700.250.470.930.900.260.600.850.93QuaterNet-SPL0.220.350.540.610.200.330.550.680.250.470.910.880.260.590.840.91RNN0.300.480.780.890.230.360.570.720.260.490.970.950.310.670.951.03RNN-SPL0.260.400.670.780.210.340.550.690.260.480.960.940.300.660.951.05表1:不同预测范围内常用的步行、进食、吸烟和讨论活动的H3.6M结果。值对应于在给定时间测量的欧拉角度量。“Seq 2seq-sampling”和“Seq 2seq-sampling-sup”模型对应于“残差unsup. (MA)“和“残留物补充。(MA)”的模型[20]。请注意,当使用我们的SP层进行增强时,每个基本模型的相对性能改进。Seq2seq [20]和QuaterNet [25]模型使用我们的SP层进行了增强,但我们遵循各自基线模型的原始训练和评估协议。使用SP层显著提高了Seq2seq性能,并在步行类别中实现了最先进的性能。同样,SPL在短期吸烟和讨论动议中使用QuaterNet产生最佳性能,并且在大多数类别中略优于vanilla QuaterNet或与之相当。虽然我们的SP层也提高了RNN模型在行走,进食和吸烟运动类别中的性能,但性能仍然相似。为了直接可比性,我们遵循与以前工作相同的评估设置值得一提的是,由于测试样本数量较少,H3.6M报告的评估指标显示出较高的方差[24],并且低误差并不总是对应于良好的定性结果[20]。6. AMASS:一个新的基准在本节中,我们评估基线方法和我们的SP层的大规模AMASS数据集,详细信息在第二节。4.1. AMASS中运动样本的多样性和大量性增加了任务的复杂性,同时由于测试集的增大,也除了提出一个新的评估设置的运动建模,我们ples [14].不幸的是,欧拉角有12种不同的约定(不包括每个都可以使用内在或外在旋转定义的事实),这使得这个度量的实际实现容易出错。为了更精确的分析,我们从相关的姿态估计区域引入额外的度量[28,32,34]。为了增加鲁棒性,我们还建议i)求和直到时间步t,而不是报告时间步t处的度量,ii)使用覆盖测试数据集的更大部分的更多测试样本,以及iii)用补充度量评估模型。请注意,我们不会根据这些指标训练模型;它们仅作为测试时的评价标准。为了规避欧拉角度量中的潜在误差源,我们建议使用另一个基于角度的度量[11,32]。此度量计算将预测关节与目标关节对齐所需的旋转角度与Leul不同,该度量与旋转如何参数化无关。 它也类似于[ 33 ]提出的测地线损失。设R为给定关节的预测关节角度,参数化为旋转矩阵,以及相应的目标旋转R。旋转的差异可以计算为R〜=RRT,由此我们构建时间步长t处的度量如下:建议为任务使用一组更通用的指标。1L(t)=Σ1Σ¨日志.(k)R(八)6.1. 度量到目前为止,运动预测的基准是角度|X检验|¨t¨xt∈X检验Kk2H3.6M使用目标和预测欧拉角之间的欧几里得距离[14,20,25,33]。数字通常是每个动作在某些时间步长报告平均超过8 sam-其中R(k)是关节k在时间t的旋转矩阵。在与Leul相比,我们通过在计算L角之前首先展开运动链来计算全局关节角的损失。7151不Kütt¨2欧拉关节角位置PCK(AUC)毫秒100200300400100200300400100200300400100200300400[20]第二十话1.915.9311.3617.780.371.222.443.940.140.480.961.540.860.830.840.82Seq2seq [20]*1.465.2811.4619.780.240.952.163.870.090.350.801.410.910.870.870.83Seq2seq-SPL1.575.0010.0116.430.270.942.013.450.100.360.791.360.910.870.870.84Seq 2seq-采样[20]*1.715.159.7115.150.321.001.973.140.120.390.771.230.880.860.870.85Seq2seq-sampling-SPL1.715.139.6014.860.310.971.913.040.120.380.741.180.890.860.880.85Seq2seq-dropout1.264.419.2415.460.230.841.823.130.090.330.711.210.920.880.880.85Seq2seq-dropout-SPL1.264.268.6714.230.230.811.742.960.090.320.681.160.920.890.890.86QuaterNet [25]*1.494.709.1614.540.260.891.833.000.100.340.711.180.900.870.880.85QuaterNet-SPL1.344.258.3913.430.250.831.712.830.090.320.671.100.910.880.890.86RNN1.695.2310.1816.290.311.052.173.620.120.410.851.430.890.850.860.83RNN-SPL1.334.138.0312.840.220.731.512.510.080.280.570.960.930.900.900.88表2:具有和不具有提议的SP层的基础模型的AMASS结果。我们报告了PCK值的标准化曲线下面积(AUC)(越高越好,最大值为1)。对于其余指标,越低越好。“Seq 2seq”和“Seq 2seq-dropout”通过使用地面实况输入来训练。“-dropout”适用于0。输入端1个压差。“*” indicates our evaluation 注意,除了“Seq2seq”模型的短期预测之外,具有SPL的模型表现更好位置跟随Pavllo等人s [25]的建议,我们引入了一个位置度量。该度量简单地执行xt和xt上的ward运动学,以获得3D关节位置pt和pt,相对于vel y。然后计算每个关节的欧氏我们规范化骨架骨骼,使右大腿骨具有单位长度。1Σ1 Σ¨ ¨与H3.6M不同,对于Seq2seq和RNN模型,LSTM细胞在AMASS上的表现始终优于GRU。与[20]不同的是,我们还通过在类似于我们的RNN架构的输入上应用dropout来训练Seq2seq模型。QuaterNet在GRU单元中提供了最佳性能,同时需要对教师强制比率进行一些微调在所有设置中,Seq2seq模型都无法提供竞争力。Lpos(t)=|X检验|¨p(k)−p¨(k)¨xt∈X检验k(九)在这个大规模的任务上的有效 性能,有时优于由Martinez 等 人 提 出 的 零 速 度 基 线 。 [20] 第 20 段 。QuaterNet表现出强劲的性能,PCK在出现较大误差的情况下,Lpos的值可能会产生误导。因此,遵循3D(手)姿势估计文献[13,22,28,34],我们通过以下引入PCK:计算位于目标关节位置周围的球形阈值ρ内的预测关节的百分比,即,1ΣΣ¨ ¨Σ实际上是最接近SPL变体的vanilla模型然而,我们的SP层仍然进一步改善了QuaterNet结果SP层的贡献在RNN模型上是最好观察的。在更大数据集的帮助下,所提出的RNN-SPL在不同度量和预测范围下实现了最佳结果。图4比较了两种基线方法,PCK(x,x,ρ)=I<$p(k)−p<$(k)<$≤ρods用于400毫秒预测,ttKütt¨2K针对阈值ρ的不同选择的SPL扩展。的Lpck(t,ρ)= |X1测试|Σxt∈X检验PCK(xt,xt,ρ)(十)RNN-SPL始终优于其他方法。 更结果见附录Sec. 8.3其中,如果I[·]的输入为真,则返回1,否则返回0。注意,对于PCK,我们不求和,而是平均,直到时间步长t。6.2. 结果选项卡.图2总结了三种模型变体的性能,每种变体都有SP层和没有SP层。我们以最小的修改训练了基本模型,即设计,培训目标和规则保持不变。我们分别使用Seq2seq,QuaterNet和RNN模型的角度轴,四元数和旋转矩阵表示为了进行公平的比较,我们对批量大小,细胞类型,学习率和隐藏层大小进行了超参数搜索。7152图4:最佳Seq2seq变体和QuaterNet在AMASS上具有和不具有SPL的400ms预测的PCK曲线。更多结果见附录Sec。8.37153图5:AMASS的定性比较。我们使用2秒种子序列并预测下一个1秒(60帧)。种子的最后姿态和预测序列的第一姿态是连续帧。请注意,没有过渡问题。上图:地面实况序列。中间:快速恶化的vanilla RNN的输出。下图:使用SP层增强的相同RNN模型它产生准确的短期预测以及自然的长期运动。还请注意表1中建议指标的补充效果2. Seq 2seq-dropout-SPL模型在100 ms时显示出显著的改善(1.26)w.r.t.欧拉角度量,实际上实现了所有模型的最佳结果。然而,当我们查看所提出的指标时,情况不再如此在这些指标中,该模型的表现略差于表现最好的模型RNN-SPL由于错误的旋转,靠近运动链根的关节对整体姿势的影响要大积累H3.6M传播到链上的所有子关节。当只考虑局部旋转时,这种效应可能会被忽略,这是Leul的情况。L角度和L位置通过首先展开运动链来说明这一点。与[25,33]一致,我们报告说[20]的残差连接对于短期预测非常有效。我们训练的所有模型在残差连接的情况下都表现得更好,无论数据集或姿势表示如何。6.3. 消融研究为了更深入地研究SPL,我们进行了一项消融研究,如表1所示。3.我们观察到,主要的per-turbine提升是通过输出层的分解和等式中的每联合损耗来实现的。(六)、而单独的每关节损失(即,没有SPL)在H3.6M上是没有好处的,在AMASS上,它的单独应用已经有帮助(RNN-每关节)。假设独立的关节,而不对任何层次进行建模(RNN-SPL-indep. )进一步改善了结果。以相反或随机顺序将层级引入预测层通常执行类似或更好。然而,根据运动链(RNN-SPL)引入空间依赖关系会产生最好的结果,除了位置度量。表3:AMASS和H3.6M的消融研究(步行)400ms预测。每个条目是5个随机初始化训练的平均值。请参阅Sec。6.3的详细解释和更多结果的附录。7. 结论我们通过结构化预测层(SPL)将有关人体骨骼结构的先验知识引入神经网络。SP层将姿态明确我们还介绍了AMASS,一个大规模的运动数据集,和几个指标的运动预测的任务。在AMASS上,我们根据经验表明,对于任何基线模型,任何度量和任何输入表示,最好使用所提出的SP层。在新的AMASS基准测试中,用SP层增强的简单RNN模型达到了最先进的性能鸣谢我们感谢审稿人富有洞察力的评论和Martin Blapp富有成效的讨论。这项工作得到了ERC Grant OPTINT(StG-2016-717054)的部分支持我们感谢NVIDIA公司捐赠用于这项工作的GPU。欧拉关节角度POS.步行RNN16.443.5701.3960.900每关节RNN13.132.5730.9860.950RNN-SPL-独立12.962.5520.9820.836RNN-SPL-随机12.982.5470.9800.863RNN-SPL-反向13.032.5430.9730.849RNN-SPL12.852.5330.9750.7727154引用[1] Martin Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo , Zhifeng Chen , Craig Citro, Greg S.Corrado,Andy Davis , Jef- frey Dean , Matthieu Devin , SanjayGhemawat,Ian Goodfel- low,Andrew Harp,GeoffreyIrving,Michael Isard,Yangqing Jia,Rafal Jozefowicz,Lukasz Kaiser , Manjunath Kudlur , Josh Levenberg ,Danish Mané , Rajat Monga , Sherry Moore , DerekMurray,Chris Olah,Mike Schuster,Jonathe Shlens,Benoit Steiner , Ilya Sutskever , Kunal Talwar , PaulTucker,Vincent Vanhoucke,Vijay Vasudevan,Fernanda Viégas , Oriol Vinyals , Pete Warden , MartinWattenberg , Martin Wicke , Yuan Yu , and XiaoqiangZheng. TensorFlow:异构系统上的大规模机器学习,2015年。软件可从tensorflow.org获得。[2] Judith Bütepage,Michael J.布莱克,丹妮卡·克拉吉奇,和海德·维格·卡斯特姆.用于人体运动预测和分类的深度表示学习。2017年IEEE计算机视觉和模式识别会议(CVPR),第1591-1599页[3] Judith Bütepage 、 Hedvig Kjellström 和 Danica Kragic 。Anticipatingmanyfutures : Onlinehumanmotionprediction and generation for human-robot interaction. 在2018年IEEE国际机器人和自动化会议上,ICRA 2018,澳大利亚布里斯班,2018年5月21日至25日,第1-9页[4] Kyungh yunCho,BartvanMerriënboer,ÇaglarGülçehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk,and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在2014年自然语言处理经验方法会议(EMNLP)的会议前,第1724-1734页,卡塔尔多哈,10月14日。2014.计算语言学协会。[5] 费尔南多·德拉托瑞,杰西卡·霍金斯,亚当·巴格泰尔,泽维尔·马丁,贾斯汀·梅西,亚历克斯·科拉多,和佩普·贝尔特兰。卡内基梅隆大学多模态活动数据库指南。机器人研究所,第135页,2008年。[6] 杜晓晓,拉姆·瓦苏德万,马修·约翰逊-罗伯森. Bio-lstm:一个生物力学启发的递归神经网络,用于3D行人姿势和步态预测。IEEE Robotics and Automation Letters(RA-L),2019年。接受。[7] Katerina Fragkiadaki,Se
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功