基于轨迹线索的人体运动预测模型研究

35 浏览量更新于2023-10-14 收藏 1.64MB PDF 举报

浙江大学

吉林大学

身份认证购VIP最低享 7 折!

30元优惠券

13299基于轨迹线索的浙江大学杭州，浙江省，中国liuzhenguang2008@gmail.com吉林大学吉林省长春市，中国supx19@mails.jlu.edu.cn吴爽南洋理工大学50 Nanyang Ave，Singaporewushuang@outlook.sg吉林大学吉林省长春市，中国xjshen@jlu.edu.cn郝彦斌吉林大学吉林省长春市，中国chenhp@jlu.edu.cn梦王中国科学技术大学安徽合肥haoyanbin@hotmail.com合肥工业大学中国安徽合肥eric. gmail.com摘要从历史姿势序列预测人体运动是计算机视觉中许多应用的核心。当前最先进的方法集中于学习姿势空间中的运动上下文，然而，人体姿势的高维性和复杂性使得提取这样的上下文存在固有的困难。在本文中，我们提倡在关节轨迹空间中建模运动上下文，作为关节的轨迹是平滑的、矢量的，并且为模型提供了足够的信息。此外，大多数现有的方法只考虑骨骼连接关节之间的依赖关系，忽视了先验知识和几何分离关节之间的隐藏连接。受此启发，我们提出了一个半约束图显式编码骨架连接和先验知识，同时自适应学习关节之间的隐式依赖关系。我们还探讨了我们的方法的应用程序，包括人类，鱼类和鼠标的对象范围。令人惊讶的是，我们的方法在4个不同的基准数据集上设置了新的最先进的性能，一个显着的亮点是，它比当前最先进的平均精度提高了19.1%。为了方便将来的研究，我们在https上发布了我们的代码//github.com/Pose-Group/MPT网站。1. 介绍机器预测和模拟人类运动动力学的能力在广泛的应用中是非常令人垂涎的[29]，例如自动驾驶，人类跟踪和调节机器人与人类交互时的响应。因此，未来运动预测在过去十年中引起了相当大的关注[9，41，46，6，39]。尽管现有方法实现了对几个最近的未来帧的准确预测，但仍然难以期望长期的准确和自然的预测，因为隐藏在人类的有意识活动中的信息为了应对挑战，我们寻求在基本级别（即表示空间级别）降低运动上下文建模的复杂性，并捕获长范围依赖性以产生短期和长期的准确和自然的预测。基本上，人体运动预测旨在学习将历史骨架姿势序列桥接到未来姿势序列的映射函数。工程方法采用高斯过程[40]、隐马尔可夫模型[20]和受限玻尔兹曼机[38]来预测未来的人类骨骼姿势。不幸的是，这些模型对运动动力学施加了诸如高斯分布的强假设，导致不令人满意的结果。最近的方法探索使用不同种类的深度神经网络来解决这个问题[24，16，36，23，19，4]。45、1、35]。一条工作线[8，12，13，22]使用重复-13300图1.跑步过程中右手腕和左踝关节的运动轨迹租用神经网络（RNN）和各种RNN变体来对运动上下文进行建模。另一项工作[7，32，43]建立在图卷积网络（GCN）的成功基础上，以更好地表征关节之间的空间连接。还有其他采用生成对抗网络（GANs）[2，18]或考虑使用多个网络来学习骨架结构和时间动态的努力[13]。先前作品的主要缺点是它们倾向于以学习直观和直接的姿势空间中的运动上下文。姿势在技术上转换为所有关节的配置。因此，在姿势空间中建模运动上下文隐含地包含所有关节，将运动预测任务置于不必要的高维人身上。我们可以利用的一个可取之处是，在运动期间施加在关节上的力通常是逐渐或线性变化的。因此，各个关节的运动轨迹趋于平滑，这可以从跑步运动期间右手腕和左脚这些事实和[32]促使我们考虑在关节轨迹空间中建模运动上下文，利用关节的平滑轨迹来预测其未来。一个创举[32]将关节轨迹转换到频域并将其表示为离散余弦变换系数。相比之下，我们将轨迹转换为关节位置及其（一阶）速度。这有两个关键优势。首先，它避免了频谱分解（在频域中），因此不会遭受任何信息损失。其次，通过引入速度，我们得到了轨迹构形空间的完整特征，这与动力系统的拉格朗日形式是一致的此外，我们将姿势分解为单独的联合轨迹，利用轨迹的平滑度来预测其未来。与结构化姿态配置空间（如FC-GCN [32]，SDMTL [26]）中的输入集相比，我们提出的轨迹表示具有至关重要的优势。光滑和低维的阶段。现有工作的另一个严重限制是，它们仅考虑相邻关节之间的连接性，而忽略了在几何上分离的关节之间的运动协调。切断这些额外的线索导致不充分的上下文建模和不准确的预测。为了解决这个问题，[32]在每对关节之间引入了密集连接，[7]参与了动态图，[22]采用多尺度图来建模关系。然而，该问题仍然没有被有效地解决，并且有用的现有知识，诸如肢体镜对称趋势（例如，肢体镜对称性），也没有被有效地解决。两个臂之间的对称趋势）和交叉侧同步趋势（例如，左臂和右腿之间的同步趋势）被忽略。在本文中，我们提出了一种新的图卷积网络，使用半约束图显式编码骨架连接和有用的先验知识，同时自适应地学习关节之间的灵活连接。我们想强调的是，所提出的卷积网络在采用高效的矩阵运算和保持有利于训练的约束方面具有优势有趣的是，大多数现有的方法通常集中在3D人体运动预测。在本文中，我们探索应用我们的方法，包括人类，鱼类和老鼠的对象范围。在包括H3.6M和CMUMo-Cap在内的大型基准数据集以及涉及鱼和小鼠运动的动物数据集上进行了广泛的从经验上讲，我们的方法在短期和长期运动预测方面都优于最我们的代码被释放，希望能激发未来的研究。贡献总结，本文的主要贡献是：1）提出了一种新的运动表示方法，它在轨迹空间而不是传统的姿态空间中建模运动上下文。2)提出了一种半约束图卷积网络来全面学习关节之间的关系，该网络同时考虑了骨骼连接、先验知识和关节之间的隐式依赖关系。3)我们的方法设置了新的最先进的，适用于一系列的对象，并提供了更有趣的见解整体。2. 相关工作人类运动预测传统方法通过利用诸如高斯过程[40]、隐马尔可夫模型[20]和限制玻尔兹曼机[38]的浅层模型来处理人类运动预测任务。随着深度学习在各个领域的成功[47，10，42，25，44，28，11]，以及包括Human3.6M [14]和CMU MoCap [5]在内的大规模公共数据集的可用性，最近已经提出了各种深度学习方法来解决这个问题，这些方法可以大致分为三类：RNN，GCN和RNN。13301····图2.运动上下文建模网络的架构，其包括图形语义丰富的GCN模块、GRU层和姿态重建块。GCN模块对关节之间的骨架和已知的先前连接进行编码，并学习隐含连接。GRU层处理序列数据，姿态重构块将预测结果转换到姿态空间。基于GAN的方法。例如，[8]提出了一种编码器-递归-解码器架构，该架构依赖于长短期记忆（LSTM）层来预测未来的人类姿势。[30]利用分级循环网络同时对各个帧的局部上下文和运动序列的全局上下文基于GAN的方法[2，18]试图预测多个未来序列，而[13]提倡使用两种不同的模型来学习局部空间结构和时间动态。[32]采用离散余弦变换对时间信息进行编码，采用前馈网络对动态信息进行[7]设计了一个基于图卷积网络（GCN）和对抗学习的生成模型。[22]构建动态多尺度图网络，以提取各个尺度的特征并融合不同尺度的特征[3]引入了一种基于变换器的体系结构来捕获人类运动的空间相关性和时间平滑性。结构连接建模人体运动是一个涉及多个关节的协调运动。最近，一组模型试图编码关节之间的空间依赖性或物理约束，其中包含用于预测的有用信息。[15]提出了一种时空图来显式地建模人体姿态的结构信息。 [30]将姿势特征化为运动学树的基础上表示的李代数显式建模的解剖约束。[43]将人体关节划分成几个身体部分，并构造一个图形来捕获关节依赖性。[7]和[32]设计新型GCN图10示出了用于经由将姿态视为通用图来捕获空间依赖性的架构[22]开发了一种新的人体表示，以多个尺度表征身体以捕获更全面的相关性。[3]采用全局注意机制和渐进解码策略提取关节间的长程结构3. 我们的方法问题定义用历史姿势序列 P0 表示： t=p0 ，p1，，pt，我们感兴趣的是预测其未来的姿态序列p~t+1，p~t+2，，p~t+T。姿势P1可以方便地被认为是所有身体关节的3D坐标。方法概述所提出的方法MPT（利用轨迹线索的运动预测）由两个关键部分组成。(1)MPT将关节j的历史轨迹投射为其逐帧速度和其最终（最后观察到的）位置。(2)然后将轨迹线索馈送到一个新的运动上下文建模网络中，用于未来的轨迹预测，该预测考虑了关节之间丰富的语义依赖性。在下文中，我们将分别阐述这两个组件。3.1. 轨迹表示传统上，人体姿势被描述为所有关节的3D坐标或角度，然后使用递归神经网络来吸收历史姿势序列并输出未来序列。这是姿势13302-∈∈··i=1∈Σ∈·∈∈∈◦.Σ∈∈我i=1我i=1- -不∈并且所有关节混合在一起，这给提取运动动力学带来了固有的困难。相比之下，关节轨迹直接传达每个关节的时间运动动态[32]，这自然降低了基础水平上运动上下文建模的复杂性受这些事实的启发，我们在关节轨迹空间中表示姿势序列。形式上，给定历史姿态序列P0，P1，，pt，关节j的轨迹可以被公式化为：Γ=（υ1，υ2，···，υt，st），⑴其中UiR3表示j在相邻的第i帧和第i 1帧之间的位置位移，并且是j在第t帧（最后观察到的帧）中的位置。换句话说，Uit对逐帧速度进行建模，而st描述j的最终（最后观察到的）位置。我们进一步将速度υi分解为速度大小mi∈R(1) 骨骼关节之间的自然骨骼连接在运动上下文建模中显然是有意义的。我们使用骨架邻接矩阵As对这种连接进行建模。（2）运动先验知识大多数现有方法倾向于仅考虑骨架连接。然而，几何上分离的接头也可能显示出强相关性[7，32]。例如，在拍手、走路和游泳时，两忽略这些有价值的先验知识可能导致严重的性能下降。因此，我们显式地编码这些有用的先验知识中的语义邻接矩阵AP。更具体地，在Ap中，考虑到镜像对称趋势，我们分别对两个臂和两个腿之间的连接进行编码，并且对臂（例如，左臂）和腿（例如，右腿）在相对侧上的同步趋势。很容易看出，该模型可扩展到其他先验知识。（3）学习除了编码在As和Ap中的固定连接之外，我们参数化可训练矩阵和速度方向。最后，我们到达配方：Γ =（{m}t ，{o}t，s）。（二）f，其被自适应地调整以学习关节之间的灵活和隐式依赖性，从而提供重要的互补连接。此外，接头之间的连接强度是总的来说，在人体骨骼和关节中存在n个关节。n个关节由n个历史轨迹表示在Eq.（2）具有以下优点。(1)使用等式(2)，我们可以很容易地恢复整个关节轨迹，没有信息丢失。同时，关节的速度和位置的显式建模导致用于预测其未来的更丰富的运动上下文。(2)在数学上，在该问题中，拉格朗日量对应于关节位置和关节速度的乘积空间，并且学习动力学演化相当于求解欧拉-拉格朗日方程。位置st对应于势能，而速度υi对应于动能。通过将它们，我们有一个完整的表征的轨迹配置空间，这是一致的拉格朗日制定的动力系统。从经验上讲，与传统模型相比，该表示也转化为显著更好的性能。3.2. 基于语义增强的GCN运动上下文建模和姿态序列预测到目前为止，我们已经讨论了将运动预测问题简化为外推所有关节的轨迹。然而，当我们考虑运动时，考虑这些关节之间的相互依赖和相互作用是至关重要的。为了应对这一挑战，我们将人体建模为半约束图。特别是，为了充分描述关节之间丰富的空间依赖性，我们明确考虑三种类型的关节连接。在训练期间学习而不是恒定的，其由权重矩阵W[32]捕获骨架邻接矩阵As中的对角元素被设置为1以考虑自邻接。通常，一般图卷积层的操作由下式给出：Xr+1=σ（AXrM r）（3）其中XrRn× lr和Xr+1Rn× lr+1分别是第r层和第r +1层的特征。 n是图中节点的数量，其转化为该问题中的关节的数量。是第r层处的关节特征的长度 σ（）是激活函数，例如、ReLU. 矩阵MrRlr× ll+1是网络参数（变换矩阵）。过滤器矩阵A基于邻接y计算矩阵A乘以A=D~ −1/2A~D~ −1/2，其中A~=A+I，并且D~Rn×n是次矩阵，D~i，i=jA〜i，j.类似地，我们的GCN mod中的一层图卷积Ule被配制为：Xr+1=σ（As+Ap+Af）◦Wr Xr Mr（4）其中AsRn×n和ApRn×n分别编码骨架连接和先验知识连接。可训练的A f捕获隐式联合依赖性。符号表示逐元素乘积，WrRn×n是可训练的连接权矩阵。效益 A f自适应地提取关节之间的柔性和隐式连接，而固定的A s和A p约束训练。 A f、A s和A p互补，帽-13303i=t+1i=t+1K- -×个BKKK骨n·Tp=t+1b=1BBB其中L~p，并且Lp是估计的和真实的骨骼联系我们Kturing丰富的联合依赖关系。Wr使可学习的连接权重，而不是常数。在图卷积时，考虑关节之间的丰富依赖性。在数学上，通过结合与j相关的其他关节的轨迹特征来更新关节j的轨迹特征。更新的逐帧轨迹特征然后通过GRU层，如图1B所示。2，以逐帧速度（即速度）的形式输出未来轨迹所有关节的大小m（t+T）和方向（t+T）。最后，一个简单的姿态重建块被用来恢复3D姿态从预测的未来逐帧速度。损失函数。我们使用加权轨迹损失和骨长度损失来获得准确的运动预测。轨迹损失确保预测轨迹与地面实况一致。现有的方法，如[32，7]，对每个预测帧中的所有关节采用相等的权重这未能注意到不同关节在运动中不同地接合的空间方面和稍后的预测依赖于先前的预测的时间方面因此，我们为具有更宽运动范围的关节和预测中的早期帧分配更高的权重从形式上讲，• RQ3：我们可以从实证结果中获得哪些有趣的见解和发现？接下来，我们首先介绍实验设置，然后逐一回答上述研究问题。4.1. 实验设置数据集对于人体运动预测，大型基准运动捕捉数据集Human3.6M（H3.6M）[14][5]和CMU MoCap接合。对于动物运动预测，我们利用[30]的公共数据集。人体3.6MH3.6M数据集是用于评估人体运动预测方法的最广泛使用和最大的公共数据集它包含7个主题的360万个3D姿势和视频，每个主题执行15个不同的动作，例如吃饭，坐着和购物。遵循先前工作的数据处理模式[8，30，15]，我们将运动序列下采样到每秒25帧（FPS），使用6个受试者（S1，S6，S7，S8，S9，S11）进行训练，并使用受试者5（S5）进行测试。CMU MoCapCMU MoCap数据集包含40个物体在多个红外摄像机下的3D骨骼运动数据。我们采用与[21，7]相同的训练/测试分割策略。为了公平比较，序列也是向下的-L=1Σt+TΣnp=t+1¨（J~p−J p）◦λp¨（五）最高25 FPS鱼和老鼠数据集[30]的两个数据集其中，Jp表示图1中的第k关节的地面真值p帧，而J~p表示相应的估计。包含八个3D鱼姿势序列（50 FPS）和四个3D小鼠姿势序列（25FPS）。在gen-Jpkeral，序列长度从298帧到15，387帧不等k在轨迹空间中由从第p1帧到第p帧的第kλp是关联权重。具体地，空间权重被去-在运动链配置之后签名，而时间权重随着预测的进行而衰减。骨长度损失在帧间强制骨长度不变性，其可以被公式化为：跳转我们遵循[30]进行数据预处理。我们在PyTorch [34]上实现了我们的方法，并在Nvidia GeForceTitan V GPU上进行了实验。语义丰富的GCN的卷积核的大小为25二十五GRU的隐藏单元大小为128. 亚当优化器[17]与一个ini一起使用初始学习率为0.001，每10%衰减L=1Σt+TΣn−1¨（Lp−L~p）◦λp¨（六）时代批处理大小设置为16，渐变剪裁为在阈值5处使用并训练50个时期。我们利用t= 10（400ms）个历史帧作为预测未来的输入Bb的长度重量.B第p个骨骼中的第frame. λp是相关的训练中T=25（1，000ms在Eqs. (5)在等式（6）中，我们将逐渐减小的时间权重分配给预测帧。&的空间权重4. 实验在本节中，我们评估了三个不同的关节对象，即人，老鼠和鱼的大型基准数据集我们试图回答以下研究问题。• RQ1：与最先进的运动预测方法相比，所提出的方法如何• RQ2：MPT的不同组件对其性能的贡献有多大？不同的关节基于它们的空间移动范围来计算，其中经历较宽范围运动的关节被分配较高的权重。4.2. 与现有运动预测方法的比较（RQ1）我们首先将我们的方法与H3.6M和CMU数据集上的最先进方法进行比较。所有方法的性能都使用广泛采用的度量MPJPE（平均每关节位置误差）以毫米[32，7，30]进行评估，即得双曲余切值.Trajn·Tk=12213304表1.H3.6m数据集上短期和长期预测的位置误差（单位：毫米）比较我们的方法始终优于其他方法。饮食问候毫秒（ms）801603204005601,000801603204005601,000801603204005601,000LSTM3LR [8]36.952.188.3102.6117.6132.434.946.875.383.9112.7126.127.161.884.298.5109.7173.5Res-GRU [33]21.641.372.184.1101.1129.116.831.553.561.774.998.031.258.496.3108.8126.1153.9ConSeq2Seq [21]13.529.057.669.786.6115.811.022.440.748.461.387.122.045.082.096.0116.9147.3HMR [30]23.325.047.261.580.9116.99.213.934.647.161.384.812.931.955.682.5104.3123.2FC-GCN [32]12.624.448.258.472.2105.88.818.939.447.250.074.114.530.574.289.0103.7140.9LDR [7]13.123.744.550.9-78.37.615.937.241.7-53.89.627.966.378.8-129.7TrajNet [27]9.722.350.261.784.7104.28.518.437.044.859.271.512.628.167.380.191.484.3SDMTL[26]9.823.453.867.088.3107.98.216.433.842.453.968.811.725.361.975.088.789.0HRI [31]7.418.444.556.573.9106.56.414.028.736.250.075.713.730.163.878.1101.9138.8我们5.613.135.940.462.775.15.311.424.532.943.651.47.319.649.362.778.180.3坐下来拍照毫秒（ms）801603204005601,000801603204005601,000801603204005601,000LSTM3LR [8]34.157.195.2111.8127.4169.237.363.389.1121.5146.6199.725.447.971.674.697.3156.5Res-GRU [33]23.844.778.091.2113.7152.631.758.396.7112.0138.8187.421.941.474.087.6110.6153.9ConSeq2Seq [21]13.527.052.063.182.4120.720.740.670.482.7106.5150.312.726.052.163.684.4128.1HMR [30]12.625.644.760.776.4118.49.618.641.157.7101.7148.37.919.031.557.383.5108.5FC-GCN [32]10.724.650.662.076.4115.711.427.656.467.696.2142.26.815.238.249.672.5116.3LDR [7]9.223.147.257.7-106.59.321.446.359.3-144.67.113.829.644.2-116.4TrajNet [27]9.022.049.462.681.0116.310.728.855.162.979.8123.85.413.436.247.073.086.6SDMTL[26]8.722.252.265.583.9115.59.323.850.660.977.7118.96.014.036.147.067.191.1HRI [31]9.320.144.356.076.4115.914.930.759.172.097.0143.68.318.440.751.572.1115.9我们7.216.440.749.873.298.57.616.938.657.168.2113.04.810.624.836.358.978.9打电话摆姿势购物毫秒（ms）801603204005601,000801603204005601,000801603204005601,000LSTM3LR [8]30.154.668.489.3106.9131.135.170.3129.6157.5164.3179.439.068.588.2104.4116.2143.1Res-GRU [33]21.138.966.076.494.0126.429.356.198.3114.3140.3183.228.752.486.9100.7122.1154.0ConSeq2Seq [21]13.526.649.959.977.1114.016.936.775.792.9122.5187.420.341.876.589.9111.3151.5HMR [30]12.521.339.358.671.3112.813.623.562.5114.1126.3143.615.330.664.773.997.5122.7FC-GCN [32]11.520.237.943.267.8105.19.423.966.282.9107.6175.019.638.564.472.298.3139.3LDR [7]10.414.333.139.7-85.88.721.158.381.9-133.716.236.162.876.2-112.6TrajNet [27]10.718.837.043.162.3113.56.921.362.978.8111.6210.917.136.164.375.184.5115.5SDMTL [26]10.518.537.243.160.8112.36.820.564.082.4107.2204.718.438.861.168.280.9113.6HRI [31]8.618.339.049.267.4105.010.224.258.575.8107.6178.213.029.260.473.995.6134.2我们6.810.627.233.154.697.85.315.853.862.992.0108.49.724.256.962.875.9107.6等待遛狗平均毫秒（ms）801603204005601,000801603204005601,000801603204005601,000LSTM3LR [8]31.357.4100.5120.5122.8159.347.281.4123.9136.2153.5185.336.460.795.4111.8125.7157.7Res-GRU [33]23.844.275.887.7105.4135.436.464.899.1110.6128.7164.525.046.277.088.3106.3136.6ConSeq2Seq [21]14.629.758.169.787.3117.727.753,690.7103.3122.4162.416.633.361.472.790.7124.2HMR [30]12.824.545.285.187.5121.930.141.478.4100.1134.7157.413.323.244.763.886.1116.2FC-GCN [32]9.522.057.573.973.4107.532.258.0102.2122.7105.8142.212.125.051.061.378.3114.0LDR [7]9.217.647.271.6-127.325.356.687.999.4-143.210.722.545.155.8-97.8TrajNet [27]8.221.053.468.992.9165.923.652.098.1116.9141.1181.310.223.249.359.777.7110.6SDMTL [26]7.519.046.858.381.4159.221.054.9100.4119.8137.7181.59.822.748.058.274.5110.7HRI [31]8.719.243.454.974.5108.220.140.373.386.3108.2146.910.422.647.158.377.3112.1我们6.214.238.944.363.695.716.433.363.768.496.3138.78.318.839.047.965.396.4地面实况和预测之间的空间距离。根据文献惯例[33，37]，我们对短期（400 ms）和长期（400- 1，000ms）预测进行了评估。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于轨迹线索的人体运动预测模型研究

最新资源