人体运动预测模型中的时空聚合特征

111 浏览量更新于2023-12-06 收藏 13.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

conventional networks by temporal and spatial aggregation and toobtain high generalization performance by incorporating each aggre-gation model by adding appropriate information to the framework ofattention [18]. We propose a method to achieve a high generalizationperformance within each aggregation model by adding appropriateinformation to the framework.Temporal aggregation involves ‘‘translation generalization’’ and‘‘time scale generalization’’ as shown in Fig. 3. The generalizationof translation means acquiring features that do not depend on atwhich time in the input sequence a given action occurs. The gener-alization of time scales means acquiring features that do not dependon how long a behavior occurs and how fast the same behavior isperformed. Previous methods adopt mainly four approaches, includingconvolutional neural network (CNN) [11], recurrent neural network(RNN) [10,13], discrete cosine transform (DCT) [12] and attentionmechanism (Attention) [15,19]. CNN has excellent generalizability oftemporal translation, but it is not easy to generalize the time scalebecause the kernel size fixes the reference time time-length. RNNs havethe generalizability of time-scale in terms of the reference time-lengthstretch modeling. However, it belongs to the Markovian models, whichis not suitable for translational generalization, due to the accumulationof errors when the dominant features of the motion appear in theforward part of the sequence. DCT can acquire features referring tothe overall input time by transferring them to frequency space beforeprocessing them. The pose information transferred to the frequencyspace can be generalized for both translation and scale because thetime shift and frequency are separated. However, DCT has difficulties0Array 15（2022）1002120（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0在ScienceDirect上有目录列表0Array0期刊主页：www.elsevier.com/locate/array0用于人体运动预测的骨骼运动特征的时空聚合0上田樹�，宍戸秀彦，北原至0日本茨城县筑波市天顶台1-1-1，筑波大学0文章信息0关键词：人体运动李代数时间聚合空间聚合注意力0摘要0本研究提出了一种人体运动预测模型，可以适应各种人体运动模式中的紊乱并表示运动学约束。在人体运动预测中，获取捕捉运动间和关节间连接的特征被认为是有效的。为了生成适应于主要特征的参考时间和其交叉关节的链接，我们构建了一个基于注意力的网络，该网络在时间和空间上聚合运动序列。我们使用Human3.6M数据集评估了运动预测结果，使用平均角度误差和平均每关节位置误差的指标，并表明我们的方法优于其他最先进的方法。01. 引言03D人体运动预测是一个过程，它以数字人体姿势序列作为输入，并预测未来的姿势序列，如图1所示。运动预测是一项重要的技术，具有许多应用，如人机交互[1]，自动驾驶[2]，行人跟踪[3]。人体运动预测可能采用各种输入格式，包括视频[4]，场景网格[5]，物体信息[6,7]。特别是单个人的运动捕捉信息由于其在感知成本和准确性方面的实用性而被广泛使用。这些运动预测处理从运动捕捉中获得的骨骼信息的数值，例如关节位置和角度，如图2所示。由于人体运动涉及许多相互连接的关节，因此其特征的描述需要在时间和空间上具有高维信息。此外，预测任务是高度动态和非线性的，并且随着时间的推移固有地涉及高维不确定性。因此，对于运动预测所需特征的分析获取存在局限[8,9]。最近，基于数据驱动的方法，如[10-16]已成为主流。例如，在行走的情况下，左右手和脚在同一运动周期中占主导地位，而左右手和脚在相反的阶段链接。因此，自然人体运动的连续性和规律性具有很强的偏差。通过将姿势信息分离为时间和空间轴，并分别使用适当的网络结构对特征进行建模，基于数据驱动的方法已经改善了运动预测性能[17]。在本文中，我们提出了一种方法，通过时间和空间聚合来分类已经被传统网络泛化的特征，并通过向注意力框架添加适当的信息来获得高泛化性能[18]。我们提出了一种方法，通过向每个聚合模型添加适当的信息来实现高泛化性能。如图3所示，时间聚合涉及“平移泛化”和“时间尺度泛化”。平移泛化意味着获取不依赖于给定动作在输入序列的哪个时间发生的特征。时间尺度的泛化意味着获取不依赖于行为持续多长时间以及相同行为的执行速度有多快的特征。以前的方法主要采用了四种方法，包括卷积神经网络（CNN）[11]，循环神经网络（RNN）[10,13]，离散余弦变换（DCT）[12]和注意力机制（Attention）[15,19]。CNN在时间平移的泛化方面具有出色的泛化能力，但在泛化时间尺度方面并不容易，因为卷积核大小固定了参考时间长度。RNN在参考时间长度拉伸建模方面具有时间尺度的泛化能力。然而，它属于马尔可夫模型，不适合平移泛化，因为当运动的主要特征出现在序列的前部时，误差会累积。DCT可以通过在处理之前将姿势信息转移到频率空间来获取对整个输入时间的特征。转移到频率空间的姿势信息可以在平移和尺度方面进行泛化，因为时间移位和频率被分离。然而，DCT存在困难0� 通讯作者。邮箱地址：ueda.itsuki@image.iit.tsukuba.ac.jp（上田樹）。0https://doi.org/10.1016/j.array.2022.100212收稿日期：2022年1月26日；修订稿日期：2022年6月18日；接受日期：2022年6月21日2identical and share the rotation matrix applied between joints. Theyalso provide the importance that each node attaches to other nodesduring aggregation, as adjacency matrices, to represent the spatialdependencies between joints.The methods that use motion trees as adjacency matrices can de-scribe spatial proximity in link connection relationships, but they makeit difficult to reference distant joints. Wei et al. [12] enables referencingof distant joints by learning the adjacency matrix. Due to the lack ofinformation on the original connection relations of the motion tree, itwas not sufficient for acquiring global features such as capturing theentire near joints of arms and legs. Li et al. [13] gives the closeness ofjoints to each other by constructing a multi-scale graph that integratesclose joints. While wide-area features are easier to acquire, the choiceof which joints to integrate relies on heuristics. The generalization ofspatial dependence is still an unsolved problem.We focus on the fact that the generalization issues are differentbetween the two data description methods, position-based and angle-based, which have been evaluated separately as independent problems.Concretely, the position-based description can capture the features thatrepresent a wide range of motions, such as the interlocking of distantjoints in the kinematic tree due to the relative positional relationshipsof the joints. On the other hand, angle-based description has an ad-vantage in capturing features that represent local actions, such as localactions at a terminal joint, regardless of the posture of the root sidein the kinematic tree. Therefore, we employ an approach in whichthe angle-based description gives the features held by each node ofthe joint graph, and the position-based description provides the spatialdependence during feature aggregation.As shown in Fig. 6, we attempt to generalize both local and globalmotion features by building a predictor that handles angle-based fea-tures while incorporating position-based features suitable for represent-ing spatial dependencies. Since the rotation axis of each joint can varyfrom moment to moment as the human pose, Inverse Kinematics (IK),an algorithm that calculates the angle of each joint from the input posi-tion, requires the asymptotic computation of recursive equations. Sincethe inclusion of IK in the network degrades the prediction accuracy foractions far from the reference pose, adding a location-based descriptionto the input does not directly improve accuracy. Therefore, previousmethods use only angle-based or position-based descriptions for inputand output, such as Fig. 5 (see Fig. 4).The contribution of this work is to improve the performance ofmotion prediction by increasing the generalizability of motion featureacquisition, both in terms of temporal and spatial aggregation. Fortemporal aggregation, we introduce operations in frequency space inthe framework of RPE to Self-Attention to achieve generalization inboth translations of occurrence time and time width scale for thereference time of dominant motion features. For spatial aggregation,we derive position-based and angle-based pose descriptions that canbe linearly mapped in the vicinity of the input final pose throughthe parameter space of Lie algebra, and assign position-based featuresto angle-based features by Cross-Attention, which allows us to bothgeneralize the motion of individual joints and generalize the spatial0Array 15 (2022) 1002120上田等人。0图1.3D运动预测：模型将左侧的观测序列作为输入，并输出右侧的预测结果序列。从上到下，显示了地面真实值，Traj-GCN[12]的基于位置和基于角度模型，以及所提出方法的输出。所提出的方法产生了更接近实际值的姿势序列。0图2.描述姿势信息的示例。人体骨骼用链接和旋转关节建模。（左）每个关节的偏移��基于�姿势进行设置。（右）有两种量化姿势的方式：基于位置的描述，如关节�的3D位置，和基于角度的描述，如关节角度的旋转向量，��∈R3。有两种基于角度的描述。0泛化翻译，因为由于无环操作的边界条件，时间偏移保持绝对。注意力可以通过解释位置编码在时间点之间的接近程度，提供对整个时间区域的特征描述。虽然位置编码可以为翻译和尺度的泛化提供支持，但对于获取周期性运动特征，可能不如DCT，因为它为每对时间点不连续地提供接近度。在这种方法中，我们在注意力架构中提出了一种新的位置编码，它重现了在频率空间中的操作，如DCT。该方法通过相对位置嵌入（RPE）的框架向注意力的查询提供频率和时间偏移信息。该模型可以获取具有单独翻译和时间尺度的运动特征，这意味着当相同的运动事件以不同的时间和速度出现时，它可以使用相同的参数解释相同的运动事件。空间聚合在关节和关节之间的运动特征泛化方面至关重要。关节的运动特征泛化意味着无论关节如何，都可以获取独立的特征。例如，右膝盖观察到的运动特征也适用于左膝盖。关节之间的空间依赖性的泛化意味着获取关节之间的参考关系，以提供每个运动，例如，肩部、肘部和手腕的旋转连接产生手指的直线轨迹。以前的方法侧重于使用网络结构，如图卷积和图注意力来表达空间依赖性。具体来说，它们生成一个以每个关节为节点的关节图，然后分离关节特征和关节之间的空间依赖性。对于关节特征，它们考虑每个节点保留的特征维度。它们还提供每个节点在聚合过程中附加到其他节点的重要性，作为邻接矩阵，以表示关节之间的空间依赖性。使用运动树作为邻接矩阵的方法可以描述链接关系中的空间接近性，但它使得难以引用远距离的关节。Wei等人[12]通过学习邻接矩阵使得可以引用远距离的关节。由于缺乏运动树的原始连接关系信息，它对于获取全局特征，如捕获手臂和腿部附近关节的整体关系，是不够的。Li等人[13]通过构建一个集成近距离关节的多尺度图，给出了关节之间的接近程度。虽然更容易获取广域特征，但选择集成哪些关节依赖于启发式。空间依赖性的泛化仍然是一个未解决的问题。我们关注的是两种数据描述方法之间的泛化问题是不同的，这两种方法分别作为独立问题进行评估。具体来说，基于位置的描述可以捕获代表各种运动的特征，例如由于关节的相对位置关系而在运动树中远距离关节的相互锁定。另一方面，基于角度的描述在捕获代表局部动作方面具有优势，例如在运动树中末端关节的局部动作，而不考虑根侧的姿势。因此，我们采用一种方法，即基于角度的描述提供每个关节图节点持有的特征，而基于位置的描述在特征聚合过程中提供空间依赖性。如图6所示，我们尝试通过构建一个处理基于角度特征的预测器来泛化局部和全局运动特征，同时融入适合表示空间依赖性的基于位置特征。由于每个关节的旋转轴可以随着人体姿势而时刻变化，逆运动学（IK）是一种从输入位置计算每个关节角度的算法，需要递归方程的渐近计算。由于将IK包含在网络中会降低远离参考姿势的动作的预测准确性，因此在输入和输出中仅使用基于角度或基于位置的描述，如图5所示（见图4）。这项工作的贡献在于通过增加时间和空间聚合的泛化性能来提高运动预测的性能。对于时间聚合，我们在RPE框架中向自注意力引入频率空间操作，以实现发生时间的翻译和主导运动特征的时间宽度尺度的泛化。对于空间聚合，我们得出了基于位置和基于角度的姿势描述，可以通过李代数的参数空间在输入最终姿势的附近进行线性映射，并通过交叉注意力将基于位置的特征分配给基于角度的特征，这使我们既可以泛化单个关节的运动，也可以泛化空间0图3.时间特征的泛化：（左）行走时脚部受短时特征主导，而改变方向时重心受长时特征主导。（右）需要观察的特征，如运动变化，并不总是位于输入的后方。30Array 15（2022）1002120I. Ueda等0图4.（左）IK通常是非线性映射。（右）与最终姿势的切平面相关联的李代数可以定义位置和切平面之间的线性映射。0图5.仅以角度作为输入并输出的Transformer示例：（顶部）由角度描述的姿势嵌入到特征空间中。（底部）由Transformer Decoder聚合的未来姿势��由角度描述。0关节之间的依赖关系。我们使用Human3.6M [20]和CMU-Mocap[21]数据集进行运动预测的基准测试，并表明我们的模型与传统方法相比具有更优越的性能。02. 相关工作02.1. 时间聚合0对人体运动预测的建模很困难，因为其高维度、非线性动力学和人体运动的不确定性。已经提出了用于短期预测的分析方法，如高斯过程潜变量模型[8]、隐马尔可夫模型[9]和随机森林[9]。然而，由于模型的有限复杂性，这些方法的适用性有限。因此，近年来主流方法已经转向使用深度学习。以前的研究主要使用了四种模型，CNN、RNN、DCT和Attention，作为通过深度学习在时间序列数据处理中获取运动特征的有效方法。Li等人[11]构建了一个使用时间序列卷积的卷积序列到序列模型。由于该模型捕获的空间和时间依赖性范围由卷积滤波器的大小静态确定，因此它无法处理具有不同周期的行为。因此，基于回归的方法，如LSTM，被广泛使用，因为它们可以训练一个依赖于时间的范围[13,22,23]。然而，基于回归的方法假设马尔可夫性，这降低了在时间方向上的鲁棒性。DCT将时间离散输入序列转换为时间轴上的连续序列和频率轴上的离散序列。DCT在时间方向上集中聚合，并直接引用远距时间，这提供了特征尺度的出色泛化性能。另一方面，从离散值的转换需要外推，例如信号折叠以形成周期函数。因此，边界条件仍然存在，对于非循环过渡行为的平移的泛化具有挑战性。因此，有几项工作提出了一种使用DCT来预测频率空间而不是姿势空间的方法[12,14]。DCT在时间方向上集中聚合，并直接引用远距时间，这提供了特征尺度的出色泛化性能。另一方面，从离散值的转换需要外推，例如信号折叠以形成周期函数。因此，边界条件仍然存在，对于非循环过渡行为的平移的泛化具有挑战性。Aksan等人[15]提出了另一种方法，该方法使用Attention在不加区分地参考远距时间的特征。在Attention中，位置编码分配时间接近性。由于每个时间对存在接近性，因此特征的时间平移的泛化性能很高，并且由于可以广泛引用，特征尺度的泛化性能也得到了保持。然而，由于每个时间对存在接近性，因此它在周期操作方面不如使用DCT的方法。0图6.位置和角度的关联：（顶部）定义从关节角度到��附近位置的映射，并生成具有逆映射所需元素的基于位置的描述。（中部）特征提取和转换为基于角度的特征由Transformer表示。（底部）通过将位置和角度导出的特征与Transformer Decoder进行聚合来输出未来姿势。0它无法处理具有不同周期的行为。因此，广泛使用基于回归的方法，如LSTM，因为它们可以训练一个依赖于时间的范围[13,22,23]。然而，基于回归的方法假设马尔可夫性，这降低了在时间方向上的鲁棒性。DCT将时间离散输入序列转换为时间轴上的连续序列和频率轴上的离散序列。DCT在时间方向上集中聚合，并直接引用远距时间，这提供了特征尺度的出色泛化性能。另一方面，从离散值的转换需要外推，例如信号折叠以形成周期函数。因此，边界条件仍然存在，对于非循环过渡行为的平移的泛化具有挑战性。因此，有几项工作提出了一种使用DCT来预测频率空间而不是姿势空间的方法[12,14]。DCT在时间方向上集中聚合，并直接引用远距时间，这提供了特征尺度的出色泛化性能。另一方面，从离散值的转换需要外推，例如信号折叠以形成周期函数。因此，边界条件仍然存在，对于非循环过渡行为的平移的泛化具有挑战性。Aksan等人[15]提出了另一种方法，该方法使用Attention在不加区分地参考远距时间的特征。在Attention中，位置编码分配时间接近性。由于每个时间对存在接近性，因此特征的时间平移的泛化性能很高，并且由于可以广泛引用，特征尺度的泛化性能也得到了保持。然而，由于每个时间对存在接近性，因此它在周期操作方面不如使用DCT的方法。40Array 15 (2022) 1002120I. Ueda et al.0我们试图通过关注结构而不是网络结构来复制规模概化性能。0在位置编码框架中，通过专注于运动中占主导地位的频率分量，试图复制DCT的时间注意力的规模概化性能。位置编码有两种计算形式：绝对位置编码（APE）和相对位置编码（RPE）。Benyou等人[24]报告称，通过同时使用APE和RPE可以改善BERT的性能。Wu等人[25]提出了一种基于上下文的RPE的乘法位置编码。在这种方法中，我们提出了一种基于上下文的RPE，它可以在频率空间中复制操作，即在使用DCT时，作为姿势空间中的卷积。02.2. 空间聚合0空间聚合有两个基本方面：概括0例如，右膝和左膝的典型运动以及肩部、肘部和手腕之间的空间依赖的一般化，例如指尖的平滑轨迹，这与整体身体的姿势无关。为了概括这两个特征，传统方法侧重于通过网络结构表示关节之间的依赖关系。图卷积和图注意将运动树视为以每个关节为节点的图，并通过邻接矩阵表示空间依赖关系。Li等人[11]使用运动树的连接关系作为图卷积的邻接矩阵。图卷积可以表达空间单调性，即更近的关节更重要，因为它仅在每一层聚合相邻关节的信息。另一方面，在运动树中难以参考远距离或强烈同步的关节，例如手牵手时的左右手腕，尽管它们之间的空间依赖性很高。Wei等人[12]引入邻接矩阵作为可训练参数。他们将关节之间的连接视为完全图，并在边缘权重中描述空间依赖关系，从而实现了远距离关节的参考。另一方面，连接关系的原始信息丢失了，例如哪些关节彼此相邻。Li等人[13]构建了一个多尺度图，将接近的关节整合在一起，以获得全局特征，例如关注整个脚部的运动，而不是独立关节，例如膝盖和踝关节。虽然这种方法通过省略相似的关节使得更容易获得全局特征，但它依赖于启发式方法来选择要整合的关节。Emre等人[15]使用图注意力动态地输入邻接矩阵。与每种方法共同的问题是概括关节之间的空间依赖性。0我们专注于利用数据来概括空间依赖性0一般来说，网络利用基于位置或基于角度的描述来描述输入/输出姿势的数据结构。基于位置的描述直接使用由动作捕捉获得的每个关节的3D位置[26]等。基于角度的描述确定了骨架参考形状，如T形或A形。它使用欧拉角和旋转向量来描述每个关节相对于参考形状的旋转。0在基于位置的描述中，很容易获得空间连0对于末端关节的限制，例如当轴向脚在地面接触时停止时，踝部位置突变为零向量。基于位置的描述也适用于描述关节之间的关系，并从全局角度选择要注视的关节。它可以通过使用相对位置明确描述运动树中相距较远的关节之间的位置关系。另一方面，链接长度强烈影响关节位置的运动，而臀部关节和脚趾的行为尺度不同。例如，即使从肘部到脚趾的运动相同，动态坐标变换也取决于根部形状，使得难以识别运动特征。因此，更难以获得单个关节的广义特征和局部关节的特征。0与基于角度的描述进行比较。此外，如果将输出直接表示为3D位置，很难应用链接长度不变的约束，例如在运动过程中臂长不变。0使用基于角度的描述，很容易获得局部行为0特征，例如从肘部注视到肘部尖端，无论躯干行为如仰卧或蹲伏。此外，通过将输出描述为基于角度的，可以应用固定的链接长度。缺点是数据中丢失了链接长度信息，使得难以描述不直接连接的远距离关节之间的关系。这使得难以获取全局特征并动态建模关节之间的空间依赖关系。魏等人通过使用基于位置的描述进行直接运动预测，使用基于角度的描述将其转换为每个关节位置后，比较了Res-Sup、ConvSeq2Seq、Traj-GCN和Traj-GCN网络的性能。指出基于角度的描述的预测性能不如基于位置的描述。0在提出的方法中，获取特征和空间依赖关系0从基于位置的描述中引入到运动预测网络的中间特征，使用基于角度的描述使用交叉注意力。从位置信息到角度信息的转换，称为逆运动学，需要递归计算，因为旋转的叠加不能分解。由于即使是基于深度学习的预测器也存在显著误差，简单地将基于位置的描述添加到输入中并不能提高性能。我们将姿势序列分解为与最终输入姿势的差异，以分离粗略运动信息，如站立或行走，这有助于位置和角度的协调。在类似的方法中，刘等人提出了一个关节轨迹空间，可以通过将关节位置的描述分解为最终姿势和每帧速度，高效地分析运动上下文并保留关节轨迹信息。我们假设输入和输出姿势在最终输入姿势附近，并通过绕最终姿势的旋转矩阵的李代数实现位置和角度之间的关联。03. 我们的方法0图7显示了整个提出的方法。对于输入和输出，我们0使用每个关节的旋转矩阵形式的旋转。作为预处理步骤，我们根据最终姿势将输入转换为基于位置和基于角度的表示。全连接和图卷积将姿势信息作为特征向量提供给自注意力，并提供APE信息。该网络包括一个Transformer编码器，它以基于位置的描述作为输入并输出特征值，以及一个Transformer解码器，它以基于角度的描述作为输入并执行前向预测。0变量包含了时间注意力，用于聚合0时间点之间的空间注意力用于关节之间的聚合，交叉注意力用于将基于位置的特征导入解码器侧，以及前馈网络。解码器在每个时间和关节的所有耦合层中输出旋转向量数据。后处理通过找到与向量对应的旋转矩阵，使用矩阵指数函数并将其应用于最终输入姿势，获得输出姿势序列。03.1. 基于位置和基于角度的姿势描述0在这种方法中，基于位置和基于角度的特征是可观的0获得空间信息聚合以描述远距离关节的协调并概括每个关节。从关节位置到角度的逆运动学问题，即使使用最新的深度学习技术也很难解决误差。在本研究中，我们定义了从位置描述到5B = M𝐿,𝑖 + [𝐫]∧(1)[𝐫]∧ =⎛⎜⎜⎝0−𝑟3𝑟2𝑟30−𝑟1−𝑟2𝑟10⎞⎟⎟⎠(2)M= 𝑒𝑥𝑝𝐫M.(3)𝑇𝑖 =M𝑖𝐥𝑖𝑂1(4)(𝐩(0)𝑗1)= T0T1 ⋯ T𝑗−1⎛⎜⎜0001⎞⎟⎟(5)(𝐩(0)′𝑗1)= T0T1 ⋯(𝑒𝑥𝑝([𝐫𝑖]∧)001)T𝑖 ⋯ T𝑗−1⎛⎜⎜0001⎞⎟⎟(6))0001(8)(9)0Array 15 (2022) 1002120I. Ueda et al.0图7. 整体流程图。0角度描述并提前嵌入必要的信息，以避免误差的积累。具体来说，正向运动学可以提供从关节角到位置的可微映射，使用参考姿势中每个链接的偏移和旋转矩阵。旋转矩阵在参考姿势处取切平面，并定义李代数，可用于为每个关节创建3自由度参数表示。此外，通过使用位置描述定义雅可比矩阵，可以相互转换该参数空间。在本节中，我们首先介绍李代数的参数表示作为角度表示。然后，我们展示位置变化和李代数到参数空间的变换映射，可以用关节位置的局部坐标系来描述。我们将时间 � 处的姿势的角度描述表示为 � � = [ � �, 1 , … , � �,� ] 。每个 � �,� ∈ R 3×3是一个行列式为1的正交矩阵，是特殊正交群 �� (3)的成员。我们考虑与输入最终框架 M �,� 相关联的李代数。切平面上的矩阵 � ∈ R3×3 乘以李代数的源 [ � ] ∧ ，由旋转向量 � = [� 1, � 2, � 3] � 表示如下。0可以定义 � 以映射到 �� (3) 的矩阵指数函数。这意味着我们可以使用旋转向量 M �,�相对于输入最终框架计算旋转矩阵 M �,� ，如下所示：0通过使用 � � = [ � �, 1 , … , � �,� ] �作为角度描述，我们可以快速获得正向运动学给出的关节位置角度的导数。旋转的李代数参数提供了稳定的特性作为网络的输入-输出空间，因为它避免了像欧拉角这样的角度描述所带来的奇异性和唯一性问题。接下来，我们关注可以与基于角度的描述协作的基于位置的描述。为简单起见，我们假设链接连接为1，2，…，�，…，� − 1，�，…，�。在参考姿势处链接 � 的偏移为 � � ∈ R3，从参考姿势的旋转矩阵为 M � ∈ R 3×3，根的平移为 � 0，旋转矩阵 M 0 =I。链接 � 的齐次坐标变换矩阵 � � 如等式 (4) 所示。0每个关节的角度提供了正向运动学中关节位置在关节 � 的世界坐标系中的位置 � (0)�，如等式 (2) 所示。0我们推导了当链接 � 进一步以旋转向量符号 � � 旋转时的行为，基于 M 1，…，M�。应用 � � 后的联合 � 的旋转矩阵可以写成 M ′ � = �� ([ � � ] ∧ )M �。变换后的联合 �的位置 � (0)′ � 如下。0我们考虑一个联合坐标系 �，其从世界坐标系到联合坐标系的坐标变换由 T −1 � −1T −1 � −2 � T −1 0 给出，作为基于链接 � 的坐标系。对于链接 � 在联合坐标系 �中的位置 � ( � ) �，从等式 (4) 可以得到如下结果。 ( � ( � ) � 00= T −1 � −1 T −1 � −2 � −1 00( � (0) �00( � ( � )� 00= T � T � +1 � T � −10� � �0� �� 0将它们分配给方程（6），我们得到以下结果：（ � ( � )′ � 10= ( �� ([ � � ] ∧ 0) ( � ( � ) �10在 M 1 ，…， M � ∈ �� (3) 的邻域内，一个很好的近似是使用切平面上的源 [ � � ] ∧得到的 �� ([ � � ] ∧ ) ∈ �� (3) 。源和切平面上的位置描述之间的映射如下。（ � ( � )′ � 10= ( I + [ � � ] ∧ 10) ( � ( � ) �10� ( � )′ � − � ( � ) � = [ � � ] ∧ � ( � ) � (11)0由于李括号积的反交换性，表达式（11）可以转换如下：0� ( � )′ � − � ( � ) � = [ � ( � ) � ] ∧ � � . (12)6(14)(15)(17)(18)𝐸0𝑡 =⎛ W𝐺0 G𝑡,0⋮W𝐺𝑁G𝑡,𝑁⎞(19)E𝑙𝑡 = 𝜎(A𝑙E𝑙−1𝑡W𝑙)(20)Q𝑡 = E𝑡W𝑄𝑡𝑒𝑚𝑝𝑜𝑟𝑎𝑙,(21)K𝑡 = E𝑡W𝐾𝑡𝑒𝑚𝑝𝑜𝑟𝑎𝑙,(22)V𝑡 = E𝑡W𝑉𝑡𝑒𝑚𝑝𝑜𝑟𝑎𝑙.(23)A𝑡 = 𝜎(Q𝑡K𝑇𝑡 ).(24)0Array 15 (2022) 1002120I. Ueda et al.0同样，当每个关节被旋转 � 1 ，…， � �时，位置的变化量与角度的变化量相关如下：0� ′ − � = (B � J) � (13)0� =0� (0)1 � (0) �0� �� 0J =0M (0) 1 [ � (0) 1 ] ∧ � � (0) � [ � (0) � ] ∧ � � � (0) 1 [ � ( � )1 ] ∧ � � (0) � [ � ( � ) � ] ∧0� �� 0R = � 0� 1�0� � �� . (16)0注意B是表示关节之间父子关系的矩阵，在本例中是单位下三角矩阵。可以使用方程（2）从�计算�。因此，通过将�(0)�替换为参考姿势�中时间�的位置描述，将�(0)为目标姿势�′中时间�的位置描述，将��替换为旋转�，我们可以将角度描述与位置描−P�=(B�J�)��关联起

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人体运动预测模型中的时空聚合特征

使用rf非线性集成对预测值进行聚合,得出最终的碳价格预测结果

基于线性回归联邦学习的车辆价格预测系统的预测模型怎么构建

介绍什么是多层次特征聚合

详细说明 时空矩阵计算模型

局部特征聚合为全局特征

给出一个时空图卷积的模型

ST-GCN模型预测流程

Sixiao Zheng提出的特征聚合模块

基于联邦学习的车辆价格预测系统模型聚合的具体实现代码怎么写

详细阐述BGnet视差预测网络成本量聚合模块

联邦学习模型聚合方面算法

三维目标检测中的特征插值聚合是什么意思

如何从聚合梯度中提取来自各个客户端的模型梯度

spark项目交通时空大数据

题目要求：利用随机投影来提取图像中的局部特征，然后利用Kmeans或FV编码等聚类方法将局部特征聚合为一个全局特征用于人脸识别。谈谈你的理解

keras 模型聚合

从聚合后的梯度中提取聚合前的梯度可实现吗

python运动员信息的分组和聚合

时空图卷积神经网络(st-gcn)

最新资源

详细说明时空矩阵计算模型