人体运动预测的时空门控-邻接GCN技术研究与应用

128 浏览量更新于2023-12-18 收藏 984KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6447用于人体运动预测的时空门控-邻接GCN钟重阳1，2，胡磊1，2，张子豪1，2，叶永静1，2，夏世宏1，2*1中国科学院计算技术研究所;2中国科学院大学{zhongchongyang，hulei19z，zhangzihao，yeyongjing，xsh}@ ict.ac.cn摘要基于历史运动序列预测未来运动是计算机视觉中的一个基本问题，在自动驾驶和机器人领域有着广泛的应用。最近的一些工作表明，图卷积网络（GCN）是在不同的关节之间的关系建模工具。然而，考虑到人体运动数据的多样性和动作类型，解耦建模策略使得时空关系的交叉依赖性难以刻画，也可能加剧泛化不足的问题。因此，我们提出了时空门控邻接GCN（GAGCN）来学习复杂的时空依赖性在不同的交流，历史序列联合声明增强&融合&平衡时间相关性预测序列类型。具体地说，我们采用门控网络，通过混合候选时空邻接矩阵获得可训练的自适应邻接矩阵来增强GCN的泛化能力。此外，GAGCN解决了空间和时间的交叉依赖，平衡时空建模的权重和融合解耦的时空特征。对人类3.6M、AMASS和3DPW的大量实验表明，GAGCN在短期和长期预测方面都达到了最先进的性能。1. 介绍人体运动预测的目的是从给定的历史运动序列中预测出基于机器人的人体在未来一段时间内的运动趋势，这是一项重要的计算机视觉任务，在自动驾驶、人机交互、目标跟踪、运动规划等方面有着广泛的应用前景。基于分形的人体运动序列是一个结构化的时间序列，这意味着单个关节的运动受到与其他关节的空间连接耦合和时间轨迹趋势的影响。我们称这些复杂的时空关系为跨-*通讯作者。图1.我们的方法的说明。给定历史输入的人体运动序列，我们试图通过增强、平衡和融合两个关键因素，即联合依赖性和时间相关性来预测未来的运动序列。依赖运动预测面临的挑战主要有两方面。首先，基于递归神经网络（ RNN ）的早期文献（如 LSTM 和GRU）表明，预测长期序列将遇到固有的误差累积问题[5，7虽然后续的基于卷积的序列到序列预测方法[3，11，17]在一定程度上减少了长期预测的误差其次，由于基于骨架的人体运动是非常复杂和多样的，因此难以对时空关系进行建模。最近的研究尝试使用GCN来描述时空关系，而不是直接使用基本的运动表示（关节角度，位置和速度）或使用简单的全连接层提取运动的空间特征[6，18虽然基于GCN的工作在一定程度上有助于解决长期预测问题，但有两个问题需要探讨：1。关节间和帧间关系将随着运动方差和动作类型而改变，因此稳定的邻接矩阵将导致……6448对多动作运动固有的较差的概括性;2.将分离的时空特征直接拼接，不能充分挖掘时空关系的交叉依赖性。在本文中，我们提出了时空门控邻接 GCN（GAGCN）学习复杂的时空依赖不同的动作类型。为解决上述两个问题，我们的核心思想主要包括两个部分，即增强策略和平衡融合策略（如图1所示）。首先，给定不同的历史运动序列，GAGCN中的门控网络输出相应的混合系数，然后将其用于混合可训练的候选邻接矩阵。通过自适应混合邻接矩阵动态学习不同动作的关节间和帧间关系，增强了模型对多动作动作的泛化能力。其次，GAGCN可以通过调整候选矩阵的数量来平衡空间和时间建模的权重并融合时空特征，从历史运动序列中挖掘隐藏的时空关系交叉依赖。在Hu-man 3.6M [12]、AMASS [23]和3DPW [33]上进行了广泛的实验。我们证明我们的方法在短期和长期运动预测方面优于最先进的方法。我们工作的主要贡献可归纳如下：1. 据我们所知，我们是第一个使用门控网络来增强GCN对人体运动预测的泛化能力。通过混合候选矩阵获得的自适应邻接矩阵有助于增强我们的网络在多动作运动中的可扩展性2. 我们通过平衡和融合解耦的联合依赖性和时间相关性来捕获空间和时间的交叉依赖性，以学习更具表现力的嵌入特征。3. 我们在Human3.6M、AMASS和3DPW上进行了大量的定量和定性实验，以证明我们的方法的结果优于最先进的作品。2. 相关作品人体运动预测传统的运动预测工作尝试使用传统的统计方法，如隐马尔可夫模型[2]和高斯过程隐变量模型[36]，这些方法在处理人体运动的高维动力学方面具有局限性，并且产生不令人满意的结果。的发展深度神经网络，在运动预测方面取得了令人兴奋的进展。一些作品使用RNN来模拟人体运动的时间相关性[5，7然而，这些逐帧方法由于其固有的误差累积问题而在长期运动预测上表现不佳，并且基于RNN的网络遭受第一帧不连续性。为了解决这些问题，研究人员试图使用序列到序列残差模型[27]，生成对抗学习[10]和模仿学习[34]来改善基于RNN的网络的预测结果。与逐帧框架相比，序列到序列方法可以有效地减少长期预测中的累积误差，包括基于卷积的[3，11，17]和基于注意力的机制[4，24，26]。基于卷积的方法将历史序列视为一个整体并提取空间或时间维度上的运动特征，而基于注意力的方法使用注意力模型来学习关节到关节和帧到帧的依赖性。最近，图卷积网络（GCN）[16]在运动预测方面取得了最先进的成果[6，18研究人员使用GCN与可训练的邻接矩阵来模拟人体运动的联合依赖关系。这些方法通过将空间属性划分为骨骼连接和各个关节之间的隐式非物理连接来学习人体运动的空间属性[6]，为网络提供语义先验知识[22]，将人体划分为多尺度[19]。虽然上述工作已经取得了令人鼓舞的进展，大多数作品处理时间和空间建模在解耦的方式，并直接连接它们，而运动的空间依赖性往往是耦合的全局时间轨迹。针对这一问题，GAGCN通过平衡时空建模的权重和融合时空特征来学习时空的交叉依赖性，从而同时捕捉时空关系人体运动的时空建模据我们所知，同时建模时空关系的第一个工作是SRNN [14]。他们使用图模型来表示人体，其中关节节点和边缘节点由RNN组成，从而率先实现长期运动预测。另一项更紧密地结合时空建模的工作是STGCN [37]，其中他们将单个帧中人体关节的空间连接和帧之间相同关节的时间连接编码为GCN的单个邻接矩阵。虽然他们的工作在动作识别方面取得了令人瞩目的进展，但它受到常数邻接矩阵的限制。最近，一种新提出的名为时空可分离GCN的方法[28]通过对训练集进行因子分解来执行时空建模6449......这是什么？......这是什么？----S不S不关于我们平衡和融合块时空GAGCN编码器增强块融合选通网络……混和系数ω1ω2ω3ω4空间邻接时间邻接融合…融合邻接矩阵输入历史序列TCNX4X6输出预测序列图2.拟议的GAGCN网络概览。我们使用时空门控邻接GCN（GAGCN）作为编码器来学习历史运动序列的时空依赖性，然后使用TCN作为解码器。我们首先将前一层的特征分别送入空间门控网络和时间门控网络，获得混合系数{wi}和{wi}。然后，我们混合的空间（时间）邻接矩阵使用的混合系数，以创建自适应的空间（时间）邻接矩阵。最后，我们将空间和时间依赖性与Kronecker积融合，以输出下一层的特征能够将邻接矩阵转换为时间和空间，以实现最先进的运动预测性能。然而，考虑到人体运动数据的多样性和动作类型的多样性，稳定的邻接矩阵不能有效地捕捉关节间和帧间变化的依赖关系，导致GCN的泛化能力较差专家混合（MoE）[13，15]是一种传统的机器学习方法，它使用门控网络生成的混合系数来混合多个专家。对于人体运动，门控网络充当运动分类器，自动计算输入运动属于每一类运动的概率，并融合相关专家的结果以获得最优输出，这大大提高了多个人体运动模型的泛化能力[21，29受MoE的启发，我们在邻接矩阵上应用门网络来增强GCN的推广。该算法首先采用多个候选邻接矩阵作为MoE的样本，然后根据不同的输入混合候选邻接矩阵，利用门控网络学习自适应邻接矩阵。自适应邻接矩阵可以捕捉人体运动中的动态关系，这有助于在不同的动作类型之间进行泛化3. 我们的方法问题公式化基于机器人的人体运动预测的目的是预测未来的姿势序列，给定历史姿势序列的序列我们将历史姿态序列表示为X1：T= x1，x2，.，x T，其中T帧，并且未来t个时间步长的预测运动序列为 XT+1 ： T+t=xT+1 ，xT+2，.，其中xi通常表示为N个身体关节的3D坐标或关节角度。概述如图2所示，我们采用编码器-解码器结构来进行运动预测。为了更好地提取历史运动序列的跨时空依赖性，本文提出了门控邻接GCN（Gating-AdjacencyGCN，GAGCN）编码器。首先，将前一层的特征分别输入空间门控网络和时间门控网络，得到混合系数wi和wi。然后利用估计的混合系数对空间邻接矩阵和时间邻接矩阵进行混合，得到自适应邻接矩阵。最后，我们将空间和时间依赖性与Kronecker积融合，以输出下一层的特征对于解码器，给定经过6个GAGCN层后的潜在运动表示，我们使用时间卷积网络（TCN）来预测未来序列。3.1. 关于GCN近年来，基于GCN的神经网络在结构时间序列的时空相关性建模方面得到了广泛的应用，并取得了令人鼓舞的进展，为人体运动预测提供了一种手段6450∈G V E VE--∈∈∈∈Q--联系我们一联系我们KKK具体来说，我们将基于图像的姿势表示为图=（，），其中是联合节点集，是边缘集。关节节点特征是三维坐标或关节角度，边缘与邻接矩阵ARN× N相关。最先进的作品使用可训练邻接矩阵来代替常数邻接矩阵，它不仅可以建模骨骼连接，还可以建模没有自然连接的关节的隐式依赖关系，使GCN更强大的学习空间依赖关系。具有可训练邻接矩阵的单个层可以表示为：H1+ 1=f（H1;A，W）=σ（AH1 W1）（1）我们只使用选通网络来混合邻接矩阵。这可以使我们的网络轻量级，并确保只有特征学习过程受到影响，同时保持特征传输过程不受影响。具体而言，给定来自前一层的特征，我们的GAGCN中的选通网络输出几个混合系数参数，其可以表示如下：{ωi}=门控（H）=softmax（FC（H））（2）其中FC表示3个完全连接的层，softmax是激活函数，H是输入特征，ωi是混合系数的集合。然后使用混合系数混合候选可训练邻接矩阵以获得自适应邻接矩阵：其中，A、Hl RN×Fl和WlRFl×Fl+1是可训练邻接矩阵、输入特征和可训练变换。Ai·ω我（三）形成矩阵，分别。3.2. 时空门控-邻接GCN现有的时空关系建模方法大都是对时空关系进行解耦建模和直接拼接，而没有考虑时空关系的交叉依赖性，这使得时空关系的精确描述变得此外，由于关节间和帧间关系将随着运动方差和动作类型而改变，因此稳定的邻接矩阵将导致对多动作运动的固有的较差概括。因此，我们提出了时空门控邻接 GCN（GAGCN）来解决这些问题。如先前的工作[6，18-然而，当涉及到人体运动数据中的变体和不同的动作类型时，我们的因此，我们的目标是找到自适应的时空关系，以应付多行动的运动预测。专家混合（MoE）是一种经典的机器学习方法，已被证明能够增强人体运动模型的通用化[21，29门控网络被看作是一个运动分类器，自动计算输入运动属于哪个运动类别的概率。有关的前-混合PERT以获得自适应输出。因此，人体运动模型的推广在很大程度上是有效的。哪里 Ai是可训练邻接矩阵的集合，A是自适应邻接矩阵。时空建模以往的文献通常以分离的方式学习时空依赖关系，并直接将它们连接起来，因此时空信息的交叉依赖性仍未得到为了解决这个问题，我们提出了图2中左虚线框所示的平衡和融合策略。其核心思想是通过调整候选邻接矩阵的个数来控制和平衡时空建模之间的权重，然后利用Kronecker积进行时空特征融合。具体来说，我们的平衡策略设计如下：首先，我们将邻接矩阵A分为As和At，如图2的左边所示。在[35]之后，我们将关节的所有通道视为一个节点，而不是将关节的每个通道视为一个节点，这可以显着减少邻接矩阵的大小并保持同一节点的不同通道的重叠。AsRN×N表示关节与关节之间的相互依赖性，无论它们是否具有骨骼连接。同时，训练AtRT×T学习历史序列中的帧到帧依赖性。然后，基于Equ。2、Equ。3、采用两个选通网络分别学习空间和时间的混合系数，然后对候选邻接矩阵进行混合，得到自适应邻接矩阵。我们进一步将这两个方程更新为以下形式：{ωi}=门控k（H）， Ak=ΔAi·ωi，（4）我hanced。受MoE的启发，我们在GCN上应用门控网络来学习混合邻接矩阵，该混合邻接矩阵对不同的运动方差和动作类型具有自适应性。与传统的基于MoE的方法对所有专家网络参数进行加权求和不同其中k是自适应邻接矩阵，下标k s，t表示值得注意的是，候选邻接矩阵qn，m的数量可以调整，这表明了空间和时间建模的复杂性。拟议=A.我6451⊗˜˜S不MPJPEN· tIJIJ2不 NMaeN· tIJIJ∈ ∈Ai=1j=1GAGCN可以用来平衡空间和时间建模的权重，就像一个规模，通过调整候选矩阵的数量例如，我们在Human 3.6M上使用n=4，m=3，在AMASS上使用n=6，m=4至于融合策略，单层GAGCN可以用公式表示如下：H1+ 1=σ（（A1 <$A1）H1 W1）（5）4.1.数据集和基线我们实验中使用的数据集包括人类3.6M [12]，AMASS [23]和3DPW [33]。我们将介绍这3个数据集如下：Human 3.6MHuman 3.6M是运动预测领域人类的3.6M有3.6密耳-狮子3D姿势，包括15个动作类别，S t科目我们将帧速率下采样到25Hz。关注-其中H lRwl× N × T，W lRwl×wl+1，l和L分别是层L的输入特征、可训练变换矩阵、自适应空间邻接矩阵和自适应时间邻接矩阵。表示Kronecker乘积。通过Kronecker积融合时间特征和空间特征，保证从历史运动序列中发现隐藏的时空交叉依赖关系。融合后的特征被送入下一层进行进一步学习。通过6个GAGCN层，我们提取关节和帧之间的灵活和隐含的依赖关系表示为时空特征。最后，将特征传递到TCN解码器中以预测未来序列，这被证实比RNN [1]具有更好的性能和更少的3.3. 培训我们的培训过程是端到端和监督。在GAGCN编码器提取的高度表达的时空特征的帮助下，我们的网络使用相对简单的损失函数来获得最先进的结果。对于3D关节坐标表示，我们使用MPJPE损失：在[24，27]中，我们使用受试者1，6，7，8，9进行训练，受试者11进行验证，受试者5进行测试。AMASSThe Archive of Motion Capture as SurfaceMapping（AMASS）数据集是最近发布的人体运动数据集，它收集了18个现有的mocap数据集，如CMU，KIT和BMLrub 。我们将帧速率下采样到25Hz，如Human 3.6M。然后，在[24]之后，我们从AMASS中选择8个数据集用于训练，4个数据集用于验证，1个数据集（BMLrub）用于测试。3DPWThe 3D Pose in the Wild数据集包括室内和室外动作，其中包含51，000帧以30 Hz捕获的帧。我们将帧速率下采样到25Hz，如Human 3.6M。我们只使用3DPW来测试在AMASS上训练的模型的泛化。我们的模型可以在3D坐标表示和基于角度的表示上进行训练。因此，我们评估结果的三维坐标误差和角度误差。在[24]之后，我们采用MPJPE度量用于3D坐标表示，并采用MAE角度误差度量用于基于角度的表示。我们将我们的方法与Res-GRU [27]，ConSeq 2Seq[17]，LTD-10-25 [25]，HRI [24]和STSGCN [28]进行了比较。3.6M和LTD-10-25 [25]、HRI [24]和STSGCN [28]t N 在AMASS和3DPW上。我们调整代码和预-L=1p−p（6）i=1j=1作者发布的训练模型，以评估他们的重新结果。请注意，HRI [24]将过去的50帧作为输入其中，pij表示第j个的预测3D坐标，joint在第i帧中，并且pij是对应的地面真值。以预测未来25帧，而其他帧则将过去10帧作为输入来预测未来25帧。L=1mm|x−x|（七）其中，Xij表示第i帧中的第j个关节的指数映射中的预测关节角度，并且Xij是对应的地面实况。4. 实验在本节中，我们评估所提出的运动预测方法。首先，我们将在第二节中展示所使用的基准数据集和基线的详细信息。4.1.与最先进方法的定量比较结果将在第2.2节中给出。4.2.然后，我们将在第二节中分析我们的方法的主要组成部分。四点三最后，我们将在SEC中展示定性评估。第4.4条.执行细节见补充材料。用于测量运动预测的准确性，即MPJPE。在以前的工作中，我们预测未来的运动25帧（1000毫秒）的基础上，10（400毫秒）帧的历史运动序列。我们从Human3.6M中选取了14种动作类型，并为每个动作随机选取8个序列来计算平均误差。就像在桌子上。1，我们展示了我们的模型的短期和长期预测与人类3.6M基线的比较。我们的方法在几乎所有时间范围内都优于所有最先进的模型特别是，由于自适应邻接矩阵，我们的模型在难以预测的动作类型（如“摆姿势”和“坐下”）方面有了更大的改进。此外，我们的方法对于基于角度的表示，我们使用MAE损失：4.2. 与最先进方法的比较人类3.6M由于基于角度的表示的模糊性，最近的作品使用3D坐标，6452步行吃吸烟毫秒801603204005601000801603204005601000801603204005601000[27]第二十七话23.240.961.066.171.679.116.831.553.561.774.998.018.934.757.565.478.1102.1ConSeq2Seq [17]17.733.556.363.672.282.311.022.440.748.461.387.111.622.841.348.960.081.7[25]第二十五话12.623.639.444.551.860.97.715.830.537.650.074.18.416.832.539.551.373.6HRI [24]10.019.534.239.847.458.16.414.028.736.250.075.77.014.929.936.447.669.5STSGCN [28]10.716.929.132.940.651.86.811.322.625.433.952.47.211.622.325.833.650.0我们10.316.128.832.439.951.16.411.521.725.231.851.47.111.821.724.331.148.7讨论方向问候毫秒801603204005601000801603204005601000801603204005601000[27]第二十七话25.747.880.091.3109.5 131.821.641.372.184.1101.1 129.131.258.496.3108.8 126.1 153.9ConSeq2Seq [17]17.134.564.877.698.1129.313.529.057.669.786.6115.822.045.082.096.0116.9 147.3[25]第二十五话12.225.853.966.787.6118.69.220.646.958.876.1108.816.733.967.581.6104.3 140.2HRI [24]10.223.452.165.486.6119.87.418.444.556.573.9106.513.730.163.878.1101.9 138.8STSGCN [28]9.816.833.440.253.478.87.413.529.234.747.671.012.421.842.149.264.891.6我们9.717.131.438.953.176.97.312.830.334.545.869.911.820.140.548.462.387.7打电话构成购买毫秒801603204005601000801603204005601000801603204005601000[27]第二十七话21.138.966.076.494.0126.429.356.198.3114.3 140.3 183.228.752.486.9100.7 122.1 154.0ConSeq2Seq [17]13.526.649.959.977.1114.016.936.775.792.9122.5 187.420.341.876.589.9111.3 151.5[25]第二十五话10.220.240.950.968.7105.112.527.562.579.6109.9 171.715.532.363.677.399.4135.9HRI [24]8.618.339.049.267.4105.010.224.258.575.8107.6 178.213.029.260.473.995.6134.2STSGCN [28]8.213.726.930.941.866.19.918.038.245.664.3106.411.921.342.048.763.793.5我们8.813.525.528.741.166.010.117.035.545.163.399.111.920.741.847.662.185.1坐坐下来拍照毫秒801603204005601000801603204005601000801603204005601000[27]第二十七话23.844.778.091.2113.7 152.631.758.396.7112.0 138.8 187.421.941.474.087.6110.6 153.9ConSeq2Seq [17]13.527.052.063.182.4120.720.740.670.482.7106.5 150.312.726.052.163.684.4128.1[25]第二十五话10.421.445.457.378.5118.817.033.461.674.499.5144.19.920.543.855.276.8120.2HRI [24]9.320.144.356.076.4115.914.930.759.172.097.0143.68.318.440.751.572.1115.9STSGCN [28]9.115.129.935.047.775.214.423.741.947.963.394.38.214.229.733.647.076.9我们9.314.429.638.545.471.114.124.840.047.462.884.18.513.928.835.145.270.0等待遛狗平均毫秒801603204005601000801603204005601000801603204005601000[27]第二十七话23.844.275.887.7105.4 135.436.464.899.1110.6 128.7 164.525.346.878.289.9108.2 139.4ConSeq2Seq [17]14.629.758.169.787.3117.727.753.690.7103.3 122.4 162.416.633.562.073.592.1126.8[25]第二十五话10.521.645.957.175.1106.922.943.574.586.4105.8 142.212.625.550.661.981.1115.8HRI [24]8.719.243.454.974.5108.220.140.373.386.3108.2 146.910.422.146.557.576.6112.3STSGCN [28]8.614.729.635.247.372.017.629.452.659.674.7102.610.217.333.538.951.777.3我们8.514.129.833.845.969.317.028.850.159.470.191.310.116.932.538.550.072.9表1. MPJPE对Human 3.6M中14种动作类型的短期和长期预测的误差比较最佳结果以粗体显示。我们的方法在所有时间范围内的平均表现优于所有基线。值得注意的是，我们的模型在难以预测的动作类型上有较大的改进，例如“摆姿势”和“坐下”。此外，我们的方法在长期（1000ms）运动预测方面具有显着的优势。在长期（1000ms）运动预测方面具有显著的优势。尽管如此，我们的方法在很少的时间点上表现不佳。这些时间点是短期的，所有方法的预测误差都很小，因此有一个边际误差是合理的桌子的右下1是所有动作类型的平均误差，其中我们的方法在整个时间范围内的表现优于所有比较方法。此外，我们在表中展示了人体3.6M的平均角度误差2具有相同的MPJPE指标设置。结果表明，我们的方法在基于角度的表示中也AMASS 3DPW我们在表中展示了AMASS-BMLrub的短期和长期预测结果。3 .第三章。我们在AMASS的8个数据集上训练模型，使用BMLrub进行测试。AMASS比Human3.6M具有更多的主题和运动序列，更适合测试模型的泛化能力我们的方法优于AMASS上的所有基线，这证明了我们的模型确实可以提高GCN的泛化能力。在AMASS上训练的模型在3DPW上进一步测试，结果如表所示。四、与其他方法相比，显著更好的结果为我们的模型在不同数据集上的泛化提供了另一个强有力的证据4.3. 消融研究我们进行了消融研究，以评估我们的方法中的两个关键组成部分，即增强块，平衡块的效果融合阻滞的效果可以在6453人类平均3.6米毫秒801603204005601000Res-GRU0.360.671.021.15--conSeq2Seq0.380.681.011.131.351.82LTD-10-250.300.540.860.971.151.59HRI0.270.520.820.941.141.57STSGCN0.240.390.590.660.791.09我们0.240.380.540.650.741.02表2.人体3.6M的平均MAE角度误差比较（请注意，Res-GRU[27]没有长期预测结果）。最佳结果以粗体显示。我们的方法在基于角度的表示AMASS-BMLrub-平均值毫秒801603204005601000LTD-10-2511.020.737.845.357.275.2HRI11.320.735.742.051.767.2STSGCN10.012.521.824.531.945.5我们10.011.920.124.030.443.1表3. AMASS-BMLrub上的平均MPJPE误差比较最佳结果以粗体显示。我们的方法优于所有基线，这证明我们的模型确实可以增强GCN在数据集上的泛化能力。3DPW平均值毫秒801603204005601000LTD-10-2512.6 23.2 39.7 46.6 57.975.5HRI12.6 23.1 39.0 45.4 56.073.7STSGCN8.612.8 21.0 24.5 30.442.3我们8.411.9 18.7 23.6 29.139.9表4.3DPW上的平均MPJPE错误比较最佳结果以粗体显示。与其他方法相比，显著更好的结果提供了另一个强有力的证据，我们的模型的通用性。花絮增强块的效果我们已经在4.2中展示了我们的方法在不同数据集上的泛化，然后我们将进一步展示我们的方法在不同动作类型上的泛化。结果见表。五、我们通过测试看不见的动作类型（一起走）来探索我们模型的泛化。表中第二行的结果明显好于第一行，表明GAGCN有助于预测看不见的动作类型。第二行和第三行的结果非常接近，表明GAGCN对看不见的动作类型执行了准确的预测。平衡块的效果为了证明平衡块的效果，我们针对我们的方法设置了三个对比实验（如表所6）. 1.一、对比实验1说明了采用选通网络和人类3.6米-一起模型运动801603204005601000S TGCN看不见10.8 20.7 38.1 42.7 53.1 69.8GAGCN看不见8.914.0 26.8 31.1 38.0 51.6GAGCN看到8.813.8 26.2 29.9 37.8 50.4表 5. 增强阻滞效果的消融研究。 ”GAGCN” denotes ourproposed model and ”S“看见”和“未看见”表示在训练期间是否看见动作类型（一起行走）。结果表明，我们的方法可以提高泛化跨看不见的动作类型。人类平均3.6米毫秒801603204005601000我们的方法S4、T310.1 16.9 32.5 38.5 50.0 72.9CE1S4、T112.5 19.9 38.4 51.3 68.6 93.9S1、T313.1 22.3 40.9 54.1 67.1 91.1CE2S8、T611.4 18.1 33.6 42.5 53.7 76.9Ce3S3、T410.3 16.9 33.1 39.2 52.1 75.3表6.消融为平衡块效果S和T表示空间和时间邻接矩阵，下标表示矩阵的数量。“CE”表示对比实验。最佳结果以粗体显示。空间上和时间上。实验结果表明，在时空模拟中应用门控网络可以更有效地模拟时空依赖关系。二、对比实验2表明，候选矩阵越多，并不总是越好。我们根据经验将人体3.6M中的运动大致分为四类相似运动，从而使用四个空间候选矩阵过多的候选矩阵会增加网络的复杂性，导致欠拟合。3.对比实验3表明，时空建模的权重确实影响预测结果的准确性，因此我们通过调整候选矩阵的个数来平衡它们。4.4. 定性评价预测序列的可视化我们在Human 3.6M上对预测序列进行可视化，并将其与图3中的地面实况进行比较。对于周期性运动，如“行走”和“一起行走”，我们的预测几乎完全相同的地面真理在整个时间hori- zons。同时，对于更复杂的非周期运动，如非周期运动预测是一种更有挑战性的方法。64540.60.550.50.480.510.410.40.30.290.290.20.180.190.10.090.0400.130.350.070.110.120.19步行走在一起讨论构成图3. 80、160、320、560、720、880、1000 ms的预测序列与地面实况序列的可视化。我们演示了“Walking”、“WalkingTogether”、“Discussion”和“Posing”的预测一起走一起走讨论坐下1 2 3 4图4.4种行动类型的平均空间混合系数的可视化。ω1、ω2、ω3、ω4分别表示4个混合系数。不同的动作类型（如测试问题，特别是当测试数据集中的受试者与训练数据集中的受试AMASS上预测序列的可视化显示见补充材料。空间混合系数的可视化此外，我们从单个动作类型中随机选择16个序列来计算平均空间混合系数（时间混合系数的可视化可以在补充材料中找到）。然后我们对几种动作类型进行同样的操作，并将它们可视化（见图4）。我们可以看到，对于不同的动作类型，混合系数分布存在明显的差异。“一起走”的混合系数从4.3中的部分列车模型派生而来。由于这就是为什么我们的模型可以在之前没有看到的情况下实现对“一起走”的准确预测结果非周期运动如给定不同的输入，GAGCN可以生成相应的混合系数，这有助于学习不同动作类型的自适应邻接矩阵。自适应邻接矩阵的可视化可以在补充材料中找到。5. 结论和今后的工作在本文中，我们提出了一种新的方法称为GAGCN解决多动作运动的运动预测通过混合候选邻接矩阵，利用门控网络学习自适应邻接矩阵，有效地提高了对多动作运动的泛化能力。同时，GAGCN可以通过调整候选矩阵的数量来平衡时空建模。结合时空特征的融合，我们可以提取空间和时间关系的交叉依赖性，在几个广泛使用的基准数据集上实现最先进的结果。未来，我们将研究如何自动平衡时空建模的权重，而不是手动调整它们，并探索更有效的方法来提高GCN的泛化能力。鸣谢本工作得到国家冬奥科技重点研发计划（ No.2020YFF0304701 ）和国家自然科学基金（No.61772499）的支持。6455引用[1] 白少杰，J Zico Kolter和Vladlen Koltun。用于序列建模的通用卷积和递归网络的经验评估。arXiv预印本arXiv：1803.01271，2018。5[2] 马修·布兰德和亚伦·赫茨曼时尚机器。第27届计算机图形和交互技术年会论文集，第183-192页，2000年。2[3] Judith Butepage，Michael J Black，Danica Kragic，andHed- vig Kavelstrom.用于人体运动预测和分类的深度表示学习。在IEEE计算机视觉和模式识别会议论文集，第6158-6166页，2017年。一、二[4] Yujun Cai，Lin Huang，Yiwei Wang，Tat-Jen Cham，Jianfei Cai，Junsong Yuan，Jun Liu，Xu Yang，YihengZhu ， Xiao-hui Shen ， et al. Learning progressive jointpropagation for human motion prediction.在欧洲计算机视觉会议上，第226-242页斯普林格，2020年。2[5] Hsu-kuang Chiu ， Ehsan Adeli ， Borui Wang ， De-AnHuang，and Juan Carlos Niebles.不可知论的人类姿势预测。 2019 年 IEEE 计算机视觉应用冬季会议（WACV），第1423IEEE，2019年。一、二[6] 崔琼杰，孙怀江，杨飞。学习三维人体运动预测的动态关系在IEEE/CVF计算机视觉和模式识别会议上，第6519-6527页，2020年一、二、四[7] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的递归网络模型。在IEEE计算机视觉国际会议论文集，第4346-4354页一、二[8] Partha Ghosh ， Jie Song ， Emre Aksan ， and OtmarHilliges.学习人类运动模型进行长期预测。2017年国际3D视觉会议（3DV），第458-466页IEEE，2017年。一、二[9] Anand Gopalakrishnan ， Ankur Mali ， Dan Kifer ， LeeGiles，and Alexander G Ororbia.一种用于人体运动预测的神经时间模型。在IEEE/CVF计算机视觉和模式识别会议论文集，第12116-12125页，2019年。一、二[10] Guiang-Yan Gui，Yu-Xiong Wang，Xiaodan Liang，andJose 'MF Mr.对抗性几何感知人类运动预测。在欧洲计算机视觉会议（ECCV）的会议记录中，第786-803页，2018年。一、二[11] 亚历杭德罗·埃尔南德斯，尤尔根·加尔，弗朗切斯科·莫雷诺 - 诺格尔 . 基于时空内绘的人体运动预测。在IEEE/CVF计算机视觉集，第7134一、二[12] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：大规模数据集和自然环境中三维人体感知的预测方法。IEEE transactions onpattern analysis and machine intelligence ， 36 （ 7 ）：1325-1339，2013。二、五[13] Robert A Jacobs，Michael I Jorda

下载后可阅读完整内容，剩余1页未读，立即下载