人体运动预测中的时间和空间依赖性编码方法

139 浏览量更新于2023-10-13 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9489人体运动预测毛伟1，刘苗苗1，3，Mathieu Salzmann2，李洪东1，31澳大利亚国立大学，2CVLab，EPFL，3澳大利亚机器人视觉中心{wei.mao，miaomiao.liu，hongdong.lianu.edu.auepfl.ch}@ www.example.com，mathieu.salzmann@www.example.com摘要人体运动预测，即，在给定观察到的姿势序列的情况下预测未来的身体姿势，通常已经用递归神经网络（RNN）来解决。然而，如先前的工作所证明的，所得到的RNN模型遭受预测误差累积，导致运动预测中不期望的不连续性。在本文中，我们提出了一个简单的前馈深度网络用于运动预测，它同时考虑了人体关节之间的时间平滑性和空间依赖性在这种情况下，我们提出通过在轨迹空间中工作来编码时间信息，而不是传统上使用的姿势空间。这减轻了我们手动定义时间依赖性的范围（或时间卷积滤波器大小，如在先前的工作中所做的）。此外，人体姿势的空间依赖性通过将人体姿势视为由每对身体关节之间的链接形成的通用图（而不是人体骨骼运动树）来编码。我们设计了一个新的图卷积网络来自动学习图的连通性，而这允许网络捕获超出人类运动学树的远程依赖性。我们评估了我们的方法在几个标准的基准数据集的运动预测，包括 Human3.6M ， CMU 运动捕捉数据集和3DPW。我们的实验清楚地表明，所提出的方法达到了最先进的性能，并适用于基于角度和基于位置的姿态表示。该代码可从https：//github.com/wei-mao-2019/LearnTrajDep1. 介绍人体运动预测是需要预测未来的应用成功的关键，例如人类机器人交互[15]，自动驾驶[18]和人类跟踪[8]。虽然传统的数据驱动方法，如隐马尔可夫模型[3]和高斯过程潜变量模型[24]，已被证明对简单的周期运动和非循环运动有效，如图1. 人体运动预测左边的帧对应于观测。从上到下，我们展示了地面实况，以及通过[17]和[16]的方法以及我们对关节角度和3d坐标的方法获得的预测。我们的预测更好地符合地面事实。步行和高尔夫挥杆，更复杂的问题通常使用深度网络来解决[7，11，5，17，9，16]。由于感兴趣信号的时间性质，最常见的趋势包括使用递归神经网络（RNN）[7，11，17，9]。然而，如[9，16]中所述，除了众所周知的训练困难[19]之外，用于运动预测的RNN还存在几个缺点：首先，使用当前RNN步骤的估计作为下一个预测的输入的现有工作[7，17]倾向于在整个生成的序列中累积错误，导致推理时的不切实际的预测。其次，如[16，17]中所观察到的，早期的基于RNN的方法[7，11]通常在最后一个观察到的帧和第一个预测的帧之间产生强烈的不连续性。这些不连续部分是由于逐帧回归过程，其不鼓励序列的全局平滑性[9]。因此，一些工作已经提出依赖于前馈网络来进行运动预测[5，16]。在本文中，我们引入了一种新的前馈运动预测方法，比RNN更准确的预测，如图所示。1.一、当将前馈网络用于诸如运动预测的时间相关问题时，自然出现如何编码时间信息在[5，16]中，这是通过在观察到的姿势上使用跨时间的卷积来实现的。然而，这种方法可以编码的时间依赖性强烈依赖于大小。9490的卷积滤波器。为了去除这样的依赖性，在这里，我们引入一种截然不同的方法来对用于运动预测的时间信息进行建模受非刚性运动恢复结构文献[1]的启发，我们提出在轨迹空间而不是姿态空间中表示人体运动，并采用离散余弦变换（DCT）对时间信息进行编码。具体而言，我们表示每个人的关节的时间变化作为一个线性组合的DCT基地，并给定的DCT系数的观察到的姿势，学习预测那些未来的。该策略适用于基于角度的姿态表示和3D关节位置。如在我们的实验中所讨论的，与基于角度的相比，后者具有不遭受模糊性的优点，其中两个不同的角度集合可以表示完全相同的姿态。因此，在3D关节位置方面的推理允许在描绘等效姿态的同时不惩罚与地面实况不同的配置。在处理人体姿势时出现的另一个问题在[5]中，这是通过利用人体骨骼来实现的，在[16]中，通过定义相对较大的空间滤波器大小来实现。虽然前者不允许对跨不同分支的依赖性（诸如左右对称性）进行建模，但后者再次取决于滤波器的大小。在本文中，我们提出通过利用图卷积来克服这两个问题[13]。然而，我们引入了一种学习图连通性的方法，而不是像[13该策略允许网络捕获既不限于运动学树，也不由卷积核大小任意定义的联合依赖性。总之，我们的贡献是（i）一个自然的方式来编码的时间信息在前馈网络的运动预测通过DCT;（ii）可学习的图形卷积网络，以捕获运动数据的空间结构。我们在标准人体运动预测基准上的实验证明了我们方法的好处;我们的模型在所有情况下产生最先进的结果。2. 相关工作基于RNN的人体运动预测由于它们在序列到序列预测方面的成功[21，14]，RNN已经成为人类运动预测的事实模型[7，11，17]。该趋势由Fragki-adaki等人发起。[7]，他提出了编码器-递归-解码器（ERD）模型，其在递归层之前和之后并入非线性编码器和解码器。在这项工作中已经观察到错误积累，并在培训期间采用课程学习策略来防止错误积累。在[11]中，Jain等人提出了进一步编码姿态预处理的空间和时间结构通过依赖于高级时空图的结构RNN模型来解决问题。然而，这些图是手动设计的，这限制了框架的灵活性，无法发现不同肢体之间的长距离相互作用。虽然前两种方法直接估计绝对人体姿势，但Martinez等人。[17]引入了残差结构来预测速度。有趣的是，在这项工作中显示了简单的零速度基线，即，不断预测最后观察到的姿势，导致比[7，11]更好的性能。虽然[17]优于此基线，但RNN产生的预测仍然存在观察到的姿势和预测的未来姿势之间的不连续性。为了克服这一点，Gui等。提出依赖于对抗训练，以便生成与真实序列不可区分的平滑序列[9]。虽然这种方法构成了最先进的技术，但它使用对抗分类器，这是众所周知的复杂训练[2]，使得难以在新数据集上部署。人体运动预测的前馈方法。前馈网络，如全连接和CON-作为避免RNN产生的不连续性的替代解决方案[5，16]。特别地，在[5]中，Butepageet al.提出了将最近的姿态历史作为输入到完全连接的网络，并介绍了不同的策略，以通过卷积和空间结构通过利用运动树来编码附加的时间信息。然而，运动树的使用并没有反映这样的事实，即如[16]中所讨论的，稳定运动需要同步不同的身体部位，甚至是不直接由运动树连接的远距离部位。为了捕获这样的依赖性，Liet al. [16]构建了处理2维矩阵的卷积序列到序列模型，该2维矩阵的列表示每个时间步长处的姿态。然后，由该模型捕获的空间和时间依赖性的范围由卷积滤波器的大小确定。在本文中，如在[5，16]中，我们也依赖于前馈网络进行运动预测。然而，我们引入了一种截然不同的方式来建模时间信息，与[5，16]相比，它不需要手动定义卷积核大小。具体而言，我们建议在轨迹空间而不是姿势空间中执行运动预测。此外，为了对关节之间的空间依赖性进行建模，我们建议利用图卷积网络。图卷积网络（GCN）。 GCN将卷积运算一般化到其结构由图定义的数据，例如来自社交网络的用户数据、在3D网格上定义的数据和生物调节网络上的基因数据[4，6]。在这方面的主要进展可以分为光谱[13]和非光谱[22]方法。特别地，Kipf和Welling [13]使用依赖于图结构的过滤器，这限制了生成器。9491图2. 网络架构。我们首先应用DCT在轨迹空间中编码时间姿态信息。DCT系数被视为图形卷积层的特征输入。我们使用12块的图卷积层与残余连接和两个额外的图卷积层，一个在开始和结束，编码的时间信息和解码的特征的残余DCT系数，分别。在每个块中，我们描述了我们的框架如何通过学习的邻接矩阵从多个节点聚合信息他们的方法。相比之下，Velicko v ic´etal. [22]依赖于自我关注来确定要考虑的邻域结构，从而为网络提供更多的灵活性。一种直接利用图我们的时间编码旨在捕捉每个关节的运动模式。回想一下，X1：N的每一列表示特定时间步长处的人体姿势。相反地，X1：N的每一行描述每个X1：N的运动。用于运动预测的卷积将由依赖于关节（角度或坐标）。让我们用x~k为在运动树上定义图形。该策略已被用于动作识别[25]，通过使用GCN经由在时间上连接的运动树上定义的图来捕获人体关节的时间和空间依赖性。然而，对于运动预测，这将受到与上面讨论的[5因此，在这里，受[22]的启发，我们设计了一个GCN，能够自适应地学习手头的运动预测任务所需的连接性。3. 我们的方法现在让我们介绍我们的方法来人体运动预测。作为现有的方法，我们假设被给予his-（x k，l，x k，2，x k，3，...，x k，N）跨N个帧的第k个关节的轨迹。虽然我们可以直接使用这种方法--在运动预测的输入和输出中，受来自非刚性结构运动文献[1]的思想的启发，我们提出采用基于离散余弦变换（DCT）的轨迹表示。这背后的主要动机是，通过丢弃高频率，DCT可以提供更紧凑的表示，其很好地捕获人类运动的平滑度，特别是在3D坐标方面。关于所用DCT系数的数量的详细分析在补充材料中。具体地，y，given轨迹x，k，对应的l，h，DCT系数系数可以计算为存储器运动序列X1：N=[X1，X2，X3，...，XN]连续。2ΣN1.一、πΣ-N个连续的人体姿势的持续，其中xi∈RK，Ck，l=Nn=1xk，n√1+δl1cos2N（2n−1）（l−1）、（1）其中K是描述每个姿势的参数的数量我们其中δij表示K_r。eck erdelta函数，然后，目标是预测未来的姿态XN+1：N+Tδij=如果i=j，则为1（二）T时间步长。为此，我们建议利用对数据的时间和空间结构进行建模的前馈深度网络。下面，我们将介绍我们对这两种类型的信息进行编码的方法，然后提供我们的网络架构的细节。3.1. 基于DCT的时域编码在运动预测文献中，两种标准方式0如果ij。在实践中，l∈ {1，2，...，N}，但是通常可以忽略较高的值，在我们的上下文中，这转化为去除高运动频率。简而言之，Eq。1允许我们使用DCT系数对每个关节的时间信息进行。给定这样的系数，原始姿态表示（角度或坐标）可以经由逆D获得。离散余弦变换（IDCT）2ΣN1。πΣ表示人体姿势的是关节角度和3D关节坐标。xk，n=Nl=1Ck，l√1+δl1cos2N（2n−1）（l−1）、（3）坐标然而，这两种表述纯粹静态.在这里，相反，我们建议直接编码的时间性质的人类运动在我们的表示和工作轨迹空间。请注意，最终，我们仍然需要以标准表示产生人类姿势，并且正如我们的实验所证明的那样，我们的形式主义适用于上述两种。其中n ∈ {1，2，...，N}。注意，如果所有DCT系数使用时，所得表示是无损的。然而，在这方面，如前所述，截断某些高频可以防止产生抖动运动。为了利用DCT表示，我们将其重新表述为一个映射，而不是将运动预测视为学习从X1：N到XN+1：N+T的9492学习观察到的和未来的DCT系数之间的映射。具体地，给定时间序列X1：N，我们首先将最后一个姿势XN复制T次以生成长度N+T的时间序列。然后，我们计算该序列的DCT系数，并且旨在预测真实未来序列X1：N+T的DCT系数。这自然地转换为估计频率空间中的残差向量，并且由[17]中的零速度基线激发正如我们的实验中所示，这种残差方法，通过复制最后一个姿势进行填充，已被证明比其他策略有效得我们的DCT表示可以直接用于标准的全连接网络中，或者通过将所有关节的DCT表示堆叠在单个向量中，这将产生具有许多参数的网络，或者通过将不同的DCT系数视为不同的通道，因此使用K×L矩阵作为网络的输入，其中L是保留的DCT系数的而后者的战略--EGY导致更紧凑的网络，它不对关节之间的空间依赖性进行在下一节中，我们将介绍一种使用GCN实现此目的的方法。3.2. 图形卷积层为了对人体姿势的空间结构进行编码，我们使用GCN [13，22]。在这里，不是依赖于预定义的稀疏图，如在[13]中，我们提出在训练期间学习图连接性，从而基本上学习不同关节轨迹之间的依赖性。为此，让我们假设人体被建模为具有K个节点的全连接图。然后，该图中的边的强度可以由加权邻接矩阵A∈RK×K。图的卷积层p则将矩阵H（p）∈RK×F作为输入，姿态和序列X1：N+T的姿态。因此，我们设计了一个残差图卷积网络。网络结构如图所示二、它由12个残差块组成，每个残差块包括2个图卷积层和两个附加的图卷积层，一个在开始处，一个在结束处，以编码时间信息并将特征解码为残差DCT系数。分别每个层p依赖于大小为256×256的可学习权重矩阵W（p）和可学习加权邻接矩阵A（p）。对于每个图卷积层使用不同的可学习A允许网络适应不同的可学习A。连接不同的操作。这使得我们的框架比具有固定邻接矩阵的GCN具有更大的容量。然而，因为在每个层p中，权重矩阵W（p）由不同的关节共享以进一步从特征矩阵提取运动模式，所以整个网络保持紧凑;在我们的实验中使用的模型的大小是大约2. 6M，用于角度和3D表示。3.4. 培训如前所述，关节角度和3D坐标是人体姿势的两个标准表示，我们将在这两个方面评估我们的方法。下面，我们讨论在每种情况下用于训练网络的损失函数。对于关节角度，遵循文献，我们使用指数映射表示。给定训练角度，应用DCT得到相应的系数，训练我们的模型，并对预测的DCT系数应用IDCT，以检索相应的角度X1：N+T.为了训练我们的网络，我们使用地面真实关节角度和预测角度之间的平均1形式上，对于一个训练样本，这给出了损失其中F是由前一层输出的特征的数量。=1|xˆ--|、（五）例如，对于第一层，网络将a（N+T）Kn=1k=1k，nk，nDCT系数的K×L矩阵。给定此信息和一组可训练权重W（p）∈RF×F，图卷积层输出以下形式H（p+1）=σ（A（p）H（p）W（p）），⑷其中A（p）是层p的可训练加权邻接矩阵，并且σ（·）是动作函数，诸如t_n_h（·）。遵循标准的深度学习形式主义，多可以堆叠多个这样的层以形成GCN。因为所有的操作都是可微的，所以w.r.t. A（p）和W（p）两者，可以使用标准反向传播来训练所得到的网络。在下一节中，我们将提供有关实验中使用的网络结构的其他细节。3.3.网络结构其中，x（k，n）是帧n中的预测的kth角度，并且对应的地面实况。请注意，我们对未来和观察到的时间步长上的1这为我们提供了额外的信号来学习预测表示整个序列的DCT系数。对于基于坐标的表示，我们采用[10]的标准身体模型将关节角度转换为3D坐标。3D关节位置然后被预处理以便以原点为中心，并且全局旋转被移除。从3D坐标到DCT系数并返回遵循与角度情况完全相同的过程为了训练我们的模型，我们然后使用 [10] 中提出的平均每关节位置误差（MPJPE），对于一个训练样本，其转化为损失=1ΣN+TΣJp-第2页，（6）如3.1节所述，我们的目标是学习残差mJ（N+T）n=1j=1j，nj，n在输入和输出DCT表示之间。更确切地说，我们学习从输入序列获得的DCT系数与最后复制的DCT系数之间的残差。其中pj，n∈R3表示帧n中预测的第j个关节位置，pj，n表示相应的地面实况位置，J表示人体骨架中关节的数量。9493走路吃饭抽烟讨论毫秒80160320400801603204008016032040080160320400零速度[17]0.390.680.991.150.270.480.730.860.260.480.970.950.310.670.941.04残留物补充[17个]0.280.490.720.810.230.390.620.760.330.611.051.150.310.681.011.09convSeq2Seq [16]0.330.540.680.730.220.360.580.710.260.490.960.920.320.670.941.01[9]第九届全国政协副主席0.280.420.660.730.220.350.610.740.30.550.980.990.300.630.971.06[9]第九话0.220.360.550.670.170.280.510.640.270.430.820.840.270.560.760.83我们0.180.310.490.560.160.290.500.620.220.410.860.800.200.510.770.85方向问候打电话构成购买坐毫秒801603204008016032040080160320400 80160320400 80 16032040080160320400零速度[17]0.390.590.790.890.540.891.301.490.641.211.651.830.280.571.131.370.620.881.191.270.401.631.021.18残留物补充[17个]0.260.470.720.840.751.171.741.830.230.430.690.820.360.711.221.480.510.971.071.160.411.051.491.63convSeq2Seq [16]0.390.600.800.910.510.821.211.380.591.131.511.650.290.601.121.370.630.911.191.290.390.611.021.18[9]第九届全国政协副主席0.260.460.710.810.610.951.441.610.230.420.610.790.340.701.191.400.460.891.061.110.460.871.231.51[9]第九话0.230.390.630.690.560.811.301.460.190.340.500.680.310.581.121.340.460.781.011.070.410.761.051.19我们0.260.450.710.790.360.600.951.130.531.021.351.480.190.441.011.240.430.651.051.130.290.450.800.97坐下来拍照等待遛狗走在一起平均毫秒801603204008016032040080160320400 80160320400 80 16032040080160320400零速度[17]0.390.741.071.190.250.510.790.920.340.671.221.470.600.981.361.500.330.660.940.990.400.781.071.21残留物补充[17个]0.390.811.401.620.240.510.901.050.280.531.021.140.560.911.261.400.310.580.870.910.360.671.021.15convSeq2Seq [16]0.410.781.161.310.230.490.881.060.300.621.091.300.591.001.321.440.270.520.710.740.380.681.011.13[9]第九届全国政协副主席0.380.771.181.410.240.520.921.010.310.641.081.120.510.871.211.330.290.510.720.750.320.620.961.07[9]第九话0.330.620.981.10.230.480.810.950.240.501.021.130.500.811.151.270.230.410.560.620.310.540.850.97我们0.300.610.901.000.140.340.580.700.230.500.911.140.460.791.121.290.150.340.520.570.270.510.830.95表1.H3.6M上所有动作的关节角度的短期预测我们的方法在大多数时间范围内优于现有技术走路吃饭抽烟讨论毫秒80160320400801603204008016032040080160320400残留物补充[17个]21.738.158.968.815.128.654.867.420.839.066.176.126.251.285.894.6残留物补充3D[17]23.840.462.970.917.634.771.987.719.736.661.873.931.761.396.0103.5convSeq2Seq [16]21.837.555.963.013.324.548.660.015.425.539.344.523.643.668.474.9convSeq2Seq 3D [16]17.131.253.861.513.725.952.563.311.121.033.438.318.939.367.775.7我们11.119.032.039.19.219.540.348.99.216.626.129.011.323.741.946.6我们的3D8.915.729.233.48.818.939.447.27.814.925.328.79.822.139.644.1方向问候打电话构成购买坐毫秒80160320 40080160320 40080160320 40080 160 32040080160320 40080160320 400残留物补充[17个]27.944.863.578.229.356.0110.2125.628.750.988.099.730.559.4118.7144.733.358.285.493.732.665.2113.7126.2残留物补充3D [17]36.556.481.597.337.974.1139.0158.825.644.474.084.227.954.7131.3160.840.871.8104.2109.834.569.9126.3141.6convSeq2Seq[16]26.743.359.072.430.458.6110.0122.822.438.465.075.422.442.187.3106.128.453.882.193.124.750.088.6100.4convSeq2Seq 3D [16]22.037.259.673.424.546.290.0103.117.229.753.461.316.135.686.2105.629.454.982.293.019.842.477.088.4我们11.223.252.764.114.227.767.182.913.522.545.252.411.127.169.486.220.442.869.178.311.727.055.966.9我们的3D12.624.448.258.414.530.574.289.011.520.237.943.29.423.966.282.919.638.564.472.210.724.650.662.0残留物补充[17个]33.064.1121.714621.240.372.286.224.950.096.5114.053.890.9134.6156.919.738.262.972.327.951.688.9103.4残留物补充3D [17]28.655.3101.6118.923.647.494.0112.729.560.5119.9140.660.5101.9160.8188.323.545.071.382.830.857.099.8115.5convSeq2Seq [16]23.939.974.689.818.432.160.372.524.950.2101.6120.056.494.9136.1156.321.138.561.070.424.944.975.988.1convSeq2Seq 3D [16]17.134.966.377.714.027.253.866.217.936.574.990.740.674.7116.6138.715.029.954.365.819.637.868.180.2我们11.525.453.965.68.315.838.549.112.127.567.385.635.863.6106.7126.811.723.546.053.513.527.054.265.0我们的3D11.427.656.467.66.815.238.249.69.522.057.573.932.258.0102.2122.78.918.435.344.312.125.051.061.3表2.H3.6M上3D关节位置的短期预测方法名称中的3D否则，通过将角度预测转换为3D位置来获得结果请注意，我们的表现远远优于基线，特别是直接在3D上训练时。4. 实验我们在几个基准运动捕获（mocap）数据集上评估了我们的模型，包括 Human3.6M（H3.6M） [10]，CMU mocap数据集1和3DPW数据集[23]。下面，我们首先介绍这些数据集，我们使用的评估指标和我们比较我们的方法的基线然后，我们提出我们的结果，使用关节角度和三维坐标。4.1. 数据集Human3.6M. 据我们所知，Human3.6M（H3.6M）[10]是人体运动分析的最大数据集。它描绘了七个演员表演15个动作，如走路，吃饭，讨论，坐着和打电话。演员由32个关节的骨架表示关注-1可在http://mocap.cs.cmu.edu/上查阅通过[9，17]的数据处理，我们去除了全局旋转和平移以及恒定角度。序列被下采样到每秒25帧，并且我们在与先前工作[9，16，17]相同的受试者5（S5）的序列上进行测试CMU-Mocap。在[16]之后，我们还报告了CMU mocap数据集（CMU-Mocap）的结果。为了公平比较，我们采用与[16]中相同的数据表示和训练/测试分割，在其发布的代码和数据中提供基于[16]，在通过移除描绘多个人的序列、具有较少训练数据的序列和具有重复的动作来预处理整个数据集之后，选择八个动作进行评估。我们采用与H3.6M相同的预处理。3DPW。3D Pose in the Wild数据集（3DPW）[23]是最近发布的数据集，它具有超过51k帧的3D注释，用于挑战室内和室外AC。坐下来拍照等待遛狗走在一起平均毫秒80160320 40080160320 4008016032040080 160 32040080160320 40080160320 4009494(a)吸烟（b）散步（c）遛狗图3.对H3.6M的短期（“吸烟”和“散步”）和长期（“遛狗”）预测的定性比较从上到下，我们显示了地面的真相，和残差的结果。[17]，convSeq2Seq [16]，我们的方法基于角度，我们的方法基于3D位置。结果表明，我们的方法在这两种情况下都能产生高质量的预测。走路吃饭吸烟讨论平均毫秒5601000560100056010005601000560 1000零速度[17]1.351.321.041.381.021.691.411.961.211.59残留物补充[17个]0.931.030.951.081.251.501.431.691.141.33convSeq2Seq [16]N/A0.92N/A1.24N/A1.62N/A1.86N/A1.41[9]第九届全国政协副主席0.891.020.921.011.151.431.331.51.071.24[9]第九话0.780.910.860.931.061.211.251.300.991.09我们0.650.670.761.120.871.571.331.700.901.27残留物补充[17个]79.491.682.6110.889.5122.6121.9154.393.3119.8残留物补充3D [17]73.886.7101.3119.785.0118.5120.7147.695.2118.1convSeq2Seq [16]69.281.571.891.450.385.2101.0143.073.1100.3convSeq2Seq 3D[16]59.271.366.585.442.067.984.1116.962.985.4我们55.060.868.179.542.270.693.8119.764.882.6我们的3D42.351.356.568.632.360.570.5103.550.471.0表3. H3.6M上关节角度（顶部）和3D关节位置（底部）的长期预测活动我们使用官方的训练集、测试集和验证集。3D注释的帧速率为30Hz。4.2. 评价指标和基线指标. 我们遵循[17，16，9]中使用的标准评估协议，并报告欧拉角表示中的预测关节角和地面真实关节角之间的欧几里得距离。我们进一步报告结果的三维误差。为此，我们使用平均每关节位置误差（MPJPE）[10]（以毫米为单位），其通常用于基于图像的3D人体姿势估计。如稍后将示出的，可以通过直接在3D坐标上训练模型（在我们的情况下经由DCT）或者通过将预测角度转换为3D来测量3D误差。基线。我们比较我们的方法与最近的两个基于RNN的方法，即残差sup。[17]和AGED（w或w/o adv）[9]，以及一个前馈模型，这些基线的每个人。因为这些工作不报告3D错误，在这种情况下，我们依赖于[17，16]的作者提供的代码，我们对其进行了调整，以便将3D坐标作为输入和输出。请注意，[9]的代码不可用，并且我们无法重现他们的方法，以便使用他们的对抗训练策略2获得可靠的结果。因此，我们只报告了这种方法在角度空间中的结果。实作详细数据。我们使用Pytorch [20]实现了我们的网络，并使用ADAM [12]来训练我们的模型。学习速率被设置为0.0005，每两个时期延迟0.96。将批量大小设置为16，并且将梯度剪切到最大为1的2范数。在NVIDIA Titan V GPU上，一次正向传递和反向传播需要30毫秒。我们的模型训练了50个epoch。有关实验的更多细节包括在补充材料中。4.3. 结果为了与文献保持一致，我们报告了短期（500ms）和长期（>500ms）预测的<对于所有数据集，我们被给予10个帧（400毫秒）来预测未来的10个帧（400毫秒）用于短期预测，并且预测未来的25个帧（1秒）用于长期预测。人类3.6M。在表1中，我们将我们的结果与基线的结果进行了比较，用于在角空间中的短期预测convSeq2Seq [16]。当报告角度误差时，我们-直接利用各自pa-2中提供的结果注意[ 9 ]的测地线损失不适用于3D空间。9495篮球篮球信号指挥交通跳运行毫秒80160320400100080160320400100080160320400100080160320 4001000801603204001000残留物补充[17个]convSeq2Seq [16]0.500.370.800.621.271.071.451.181.781.950.410.320.760.591.321.041.541.242.151.960.330.250.590.560.930.891.101.002.052.040.560.390.880.61.771.362.021.562.42.010.330.280.500.410.660.520.750.571.000.67我们0.330.520.891.061.710.110.200.410.531.000.150.320.520.602.000.310.491.231.391.800.330.550.730.740.95足球步行洗窗平均毫秒80160320400100080160320400100080160320400100080160320 4001000残留物补充[17个]0.290.510.880.991.720.350.470.600.650.880.300.460.720.911.360.380.621.021.181.67convSeq2Seq [16]0.260.440.750.871.560.350.440.450.500.780.300.470.801.011.390.320.520.860.991.55我们0.180.290.610.711.400.330.450.490.530.610.220.330.570.751.200.250.390.680.791.33篮球篮球信号指挥交通跳运行毫秒80160320400100080160320400100080160320400100080160320 4001000801603204001000残留物补充3D[17]convSeq2Seq 3D[16]18.416.733.830.559.553.870.564.3106.791.512.78.423.816.240.330.846.737.877.576.515.210.629.620.355.138.766.148.4127.1115.536.022.468.744.0125.087.5145.5106.3195.5162.615.614.319.416.331.218.036.220.243.327.5我们的3D14.025.449.661.4106.13.56.111.715.253.97.415.131.742.2152.416.934.476.396.8164.625.536.739.339.958.2足球步行洗窗平均毫秒80160320400100080160320400100080160320400100080160320 4001000残留物补充3D[17]convSeq2Seq 3D[16]20.312.139.521.871.341.98452.9129.694.68.27.613.712.521.923.024.527.532.249.88.48.215.815.929.332.135.439.961.158.916.812.530.522.254.240.763.649.777.863.4我们的3D11.321.544.255.8117.57.711.819.423.140.25.911.930.340.079.311.520.437.846.862.8表4.CMU-Mocap上的关节角度（顶部）和3D关节位置（底部）的短期和长期预测毫秒200 400 600 800 1000残留物补充[17个]1.852.372.462.512.53convSeq2Seq [16]1.241.852.132.232.26我们0.640.951.121.221.27残留物补充3D [17]113.9173.1191.9201.1210.7convSeq2Seq 3D [16]71.6124.9155.4174.7187.5我们的3D35.667.890.6106.9117.8表5.关节角度的短期和长期预测（顶部）和3DPW上的3D关节位置（底部）H3.6M.表1报告了活动“行走”、“进食”、“吸烟”和“讨论”的错误，这些活动是文献中比较的焦点。它还提供了其他11项活动的结果和15项活动的平均值。请注意，我们的平均表现优于所有基线。我们在图中提供了定性比较。3.第三章。他们进一步证明，我们的预测比所有3个行动的基线更接近地面真相。补充材料中包括更多可视化为了分析我们的方法的失败情况，例如对于然后，我们惊讶地意识到，角度空间中的高误差不一定转化为3D空间中的高误差。这是由于角度表示是模糊的，并且因此两个非常不同的角度集合可以产生相同的姿势。为了避免这一点，在图。4中，我们在同一序列上绘制了三种方法的角度误差，包括我们的方法，以及通过简单地将角度转换为3D坐标而获得的相应的3D误差。请注意，虽然所有三种方法在角度空间中具有可比的误差，但其中两种方法（包括我们的方法）在3D空间中的误差远这使得我们认为角度不是评估运动预测的良好表示。受此观察的启发，

下载后可阅读完整内容，剩余1页未读，立即下载