多层感知器（MLP）：一个轻量级人体运动预测基线

100 浏览量更新于2023-10-16 收藏 911KB PDF 举报

多层感知器（MLP）

轻量级网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

48091234回到MLP：一个简单的人体运动预测基线WenGu o1*，YumingDu3*，XiShe n4†，VincentLepeti t3，X a vierAlameda-Pined a1，FrancescMoreno-Nogue r21Inria，Univ. Grenoble Alpes，CNRS，Grenoble INP，LJK，38000 Grenoble，France2Institut de Robo` tica i Informa` tica Industrial，CSIC-UPC，Barcelona，Spain3法国古斯塔夫·埃菲尔铁塔大学LIGM学院4腾讯人工智能实验室{wen.guo，xavier.alameda-pineda}@ inria.fr，{fmoreno}@ iri.upc.edu，{yuming.du，vincent.lepetit}@ enpc.fr，{shenxiluc}@ gmail.com摘要本文研究了人体运动预测问题，即从历史观测序列预测未来的最先进的方法提供了良好的结果，但是，它们依赖于任意复杂度的深度学习架构，例如递归神经网络（RNN），变压器或图卷积网络（GCN），通常需要多个训练阶段和超过200万个参数。本文结合离散余弦变换（DCT）、关节残余位移预测和速度优化等一系列标准实践，提出了一种基于多层感知器（MLP）的轻量级网络，该网络仅具有14万个参数可以超越最先进的性能。对Human3.6M，AMASS和3DPW数据集的详尽评估表明，我们的方法，名为SI MLP E，始终优于所有其他方法。我们希望我们的简单方法可以作为社区的一个强有力的基线，并允许重新思考人类运动预测问题。该代码可在https://github.com/dulucas/siMLPe 上公开获取。1. 介绍给定一个三维人体姿态序列，人体运动预测的任务旨在预测姿态序列的后续动作。预测未来的人类运动是许多应用的核心，包括防止自动驾驶中的事故[46]，跟踪人[17]或人机交互[27]。由于人体运动的时空特性，文献中的共同趋势是设计能够融合空间和时间信息的模型。转-*同等贡献。†通讯作者。图1. Human3.6M数据集上参数大小和性能的比较[23]。我们将1000 ms时的MPJPE度量（单位：mm）报告为垂直轴上的性能。越靠近左下角越好。我们的方法（SIMLPE，红色）用更少的参数实现了最低的误差。我们还展示了两种简单方法的性能：“重复最后一帧”系统地重复最后一个输入帧作为输出预测，而“One-FC”仅使用一个完全连接的层来预测未来的运动。建模方法主要依赖于隐马尔可夫模型[7]或高斯过程潜变量模型[60]。然而，虽然这些方法在简单和周期性运动模式上表现良好，但在复杂运动下却严重失败[42]。近年来，随着深度学习的发展，基于能够处理序列数据的不同类型的神经网络开发了各种方法。例如，一些作品使用递归神经网络（RNN）[43]来模拟人体运动[12，15，24，34，43]，以及一些更近的作品。4810××作品[13，19，32，33，38，41，42]提出了基于图卷积网络（ GCN ） [42] 的网络，或者尝试使用基于Transformers（[2]）的方法[2，10，41]来融合跨越人体关节和时间的运动序列的空间和时间信息然而，这些新方法的结构通常不简单，其中一些需要额外的先验知识，这使得它们的网络难以分析和修改。因此，一个问题自然产生：“我们能用一个简单的网络来解决人体运动预测吗？”为了回答这个问题，我们首先尝试了一个简单的解决方案，即重复最后一个输入姿势并将其用作输出预测。如图1所示，这种简单的解决方案已经可以实现合理的结果，这意味着最后输入的姿势受此启发，我们进一步只训练一个全连接层来预测未来姿势和最后输入姿势之间的残差，并实现更好的性能，这显示了构建在基本层（如全连接层）上的简单网络用于人体运动预测的潜力。基于上述观察，我们回到多层感知器（MLP），并构建一个简单而有效的网络，名为SI MLP E，只有三个组件：全连接层，层归一化[4]和转置操作。网络架构如图2所示。值得注意的是，我们发现即使是常用的激活层，如ReLU [45]也是不需要的，这使得我们的网络成为一个完全线性的模型，除了层规范化。尽管简单，但SI MLP E在与三种简单做法适当结合时可实现强大的性能：应用离散余弦变换（DCT），预测节理的残余位移，并优化作为辅助损失的速度。SIMLPE在几个标准基准上具有最先进的性能，包括Human3.6M [23]、AMASS [39]和3DPW [58]。与此同时，SIMLPE是轻量级的，并且需要比先前的最先进的方法少20到60个参数。SIMLPE和以前的方法之间的比较可以在图 1 中找到，图 1 显示了不同网络的Human3.6M上1000SIMLPE以高效率实现最佳性能。概括而言，我们的贡献如下：• 我们表明，人体运动预测可以用一种简单的方式进行建模，而无需明确地融合空间和时间信息。作为一个极端的例子，一个完全连接的层已经可以实现合理的性能。• 我们提出了SI MLP E，这是一种简单而有效的人体运动预测网络，只有三个组成部分：全连接层、层归一化和转置操作，实现了国家的最先进的perfor-mance与少得多的参数比现有的方法在多个基准，如人类3.6M，AMASS和3DPW数据集。2. 相关工作人体运动预测被公式化为序列到序列任务，其中过去观察到的运动被作为输入以预测未来的运动序列。传统方法利用非线性马尔可夫模型[30]、高斯过程动力学模型[59]和受限玻尔兹曼机[51]探索人体运动预测。这些方法已被证明是有效的预测简单的运动，并最终与复杂和长期的运动预测斗争[15]。随着深度学习时代的到来，人类运动预测通过使用深度网络取得了巨大成功，包括递归神经网络（RNN）[12，15，24，34，43]，图形卷积网络（GCN）[13，19，32，33，38，41，42]和变换器[2，10，41]，这是本节的主要焦点2.1. 基于RNN的人体运动预测由于人体运动固有的序列结构，一些工作解决了3D人体运动预测的递归模型。Fragkiadaki等人[15]提出一个编码器-解码器框架来嵌入人体姿势和LSTM来更新潜在空间并预测未来的运动。Jain等人[24]手动编码身体不同部位之间的语义相似性，并通过结构RNN转发它们。然而，这两种方法存在不连续性，并且它们仅在特定于动作的模型上训练，即，针对特定动作训练单个模型。Martinez等人[43]研究多行动而不是行动特定的模型，即，为多个动作训练一个单一的模型，这允许网络在大规模数据集中利用不同动作的规律。这被后来的大多数作品所广泛采用他们还引入了残差连接来模拟速度，而不是绝对值，以获得更平滑的预测。然而，上述方法受到RNN的多种固有限制首先，作为顺序模型，RNN在训练和推理过程中难以并行化其次，内存限制阻止RNN从更远的帧中探索信息。一些工作通过使用RNN变体[12，34]，滑动窗口[8，9]，卷积模型[20，31]或对抗训练[18]来缓解这个问题但它们的网络仍然很复杂，大量的参数。2.2. 基于GCN的人体运动预测为了更好地编码人类关节的空间连接性，最近的作品通常构建人类关节。4811∈∈×图2. 概述我们的方法SIMLPE用于人体运动预测。FC表示全连接层，LN表示层归一化[4]，Trans表示转置操作。DCT和IDCT分别表示离散余弦变换和逆离散余弦变换。构成FC和LN的MLP块（灰色）重复m次。构成一个图形，并采用图形卷积网络（GCN）[26，50]进行人体运动预测。GCN首先在Mao等人中被用于人体运动预测。[42]。他们用一堆积木组成- GCN、非线性激活和批量归一化来编码空间依赖性，并利用离散余弦变换（DCT）来编码时间信息。这项工作启发了近年来大多数基于GCN的运动预测方法。基于[42]，Maoet al.[41]通过将过去的观测切割成几个子序列并添加注意机制以找到与当前观测在过去类似的先前运动因此，未来序列被计算为观测到的子序列的加权和。然后，与[42]中相同的基于GCN的预测器用于编码空间依赖性。而不是使用DCT变换来编码输入- put序列[29]使用多尺度时间输入嵌入，通过对不同输入大小应用各种大小的卷积层，以在时域中具有不同的感受野。Ma等人[38]提出了GCN的两种变体来提取空间和时间特征。他们构建了一个多阶段结构，每个阶段都包含一个编码器和一个解码器，在训练过程中，模型通过中间监督进行训练，以学习逐步细化预测。[13，32，33]将人类姿势的图形扩展到跨抽象层次的多尺度版本，人类姿势。2.3. 基于注意力的人体运动预测随着变压器的发展[57]，一些作品[2，10，41]试图用注意力机制来处理这个任务。[41]使用注意力来寻找时间关系;[2]还使用注意力来映射不仅是时间依赖性，而且还通过并行组合“空间注意力”和“时间注意力”的架构来[10]使用了基于transformer的架构以及渐进解码策略来预基于运动树逐步确定目标关节的DCT系数。为了指导预测，他们还建立了一个基于记忆的字典，以保留训练数据中的全局运动模式。总之，随着近年来人体运动预测的发展，基于RNN/GCN/transformer的架构得到了很好的探索，并且结果得到了显着虽然这些方法提供了很好的结果，但它们的架构变得越来越复杂，难以训练。在本文中，我们坚持简单的架构，并提出了一个基于MLP的网络。最近，基于[52]的并发和独立工作[6]也采用了基于MLP的网络架构进行运动预测，而我们的网络更简单，因为我们不使用挤压和激励块[22]也不使用激活层。我们希望我们的简单方法可以作为一个基线，让社区重新思考人体运动预测的问题。3. 我们的方法：SIMLPE在本节中，我们将在3.1节中阐述问题并给出DCT变换的公式，在3.2节中详细介绍网络架构，在3.3节中介绍我们用于训练的损失。给定过去的3D人体姿势序列，我们的目标是预测未来的姿势序列我们将观察到的3D人体姿势表示为x1：T=[x1，..，xT]RT×C，由T个连续的人体姿势组成，其中第t帧xt处的姿态由C维向量表示，即，xtRC.在这项工作中，类似于以前的工作[38，41 - 43 ]，x t是第t帧处关节的3D坐标，C = 3 K，其中K是关节的数量。我们的任务是预测未来N个运动帧xT+1 ：T+N=[x<$T+1，.， x<$T+N]<$∈RN×C。3.1. 离散余弦变换我们采用DCT变换对时间信息进行编码，这被证明是有益于人类运动的。4812†∈∈∈∈..D∈F∈∈∈∈Σ表1.不同预测时间步长（ms）的Human3.6M结果我们报告的MPJPE误差毫米和参数的数量（M）每种方法。越低越好。每个动作测试256个样本。表示结果取自论文[41]，他指出，这些结果来自论文[38]。请注意，ST-DGCN [38]使用两种不同的模型来评估其短期/长期-长期表现，在这里我们报告他们的结果，一个单一的模型，表现更好的长期公平比较。我们还展示了两个简单基线的结果：“重复最后一帧”将最后一个输入帧重复25次作为输出，“一个FC”仅使用一个完全连接的层进行预测。时间（ms）80160320MPJPE（mm）↓400 5607208801000#参数。(M)↓重复最后一帧23.844.476.188.2107.4121.6131.6136.60一个FC14.033.268.081.5101.7115.1124.8130.00.003Res-RNN †[43]25.046.277.088.3106.3119.4130.0136.63.4416.633.361.472.790.7104.7116.7124.215.58ConvSeq2Seq †[31]12.225.450.761.579.693.6105.2112.42.56[42]第四十二话11.223.447.958.978.393.3106.0114.02.55[42]第四十二话10.422.647.158.377.391.8104.1112.13.24[41]第四十一话11.324.350.861.980.0--112.96.30[13]第十三话ST-DGCN-10-25[38]10.623.147.157.976.390.7102.4109.73.80SIMLP E（Ours）9.621.746.357.375.790.1101.8109.40.14预测[38，41，42]。更准确地说，给定T帧的输入运动序列，DCT矩阵DRT×T可以计算为：其中z0RT×C是全连接层的输出，W0RC×C和b0RC表示全连接层的可学习参数。在实践中，这是Di，j=2 1T1+δi，0cosπ（2j+ 1）i，2T（一）相当于对全连接层应用转置操作，然后转置回输出特征，如图2所示。其中δi，j表示克罗内克δ：然后，一系列的m块被引入到仅操作-在时间维度上，即，只是为了合并信息-δi，j =1如果i=j0如果i=j.（二）跨帧的操作每个块由一个完全连接的层组成，然后进行层规范化，形式为：转换后的输入为（x1：T）=Dx1：T。我们应用逆离散余弦变换（IDCT）将网络的输出转换回原始姿态表示，表示为D−1和D的逆。3.2. 网络架构图2显示了我们网络的架构我们的网络只包含三个部分：全连接层、转置操作和层归一化[4]。对于所有完全连接的层，其输入维度等于其输出维度。形式上，给定3D人类姿势的输入序列x1：T为[x1，..， x<$T]<$RT×C，我们的网络预测未来姿态序列 x′T+1 ： T+N=[x′<$T+1 ， .. ，x′<$T+N]<$∈RN×C：x′T+1：T+N=D−1（F（D（x1：T），（3）哪里表示我们的网络。在DCT变换之后，我们应用一个完全连接的层来仅对变换后的运动序列D（x1：T）∈RT×C的空间维度进行操作：z0=D（x1：T）W0+b0，（4）zi=zi−1+LN（Wizi−1+bi），（5）其中ziRT×C，i[1，.，m]表示第i个MLP块的输出，LN表示层归一化操作，WiRT×T和biRT是第i个MLP块中全连接层的可学习参数。最后，与第一个全连接层类似，我们在MLP块之后添加另一个全连接层，以仅在特征的空间维度上操作，然后应用IDCT变换来获得预测：x′T+1：T+N=D−1（z′Wm+1+bm+1），（6）其中Wm+1和bm+1是最后一个全连接层的可学习参数。注意，长度T和N不需要相等。当T> N时，我们只取预测的前N帧，在T N<的情况下，我们可以通过重复最后一帧来将输入序列填充到N，如[41，42]所做的那样3.3. 损失如第1节所述和图1所示，最后一个输入姿势启发.4813∈−LL表2. Human3.6M上不同预测时间步长（ms）的逐行结果。越低越好。每个动作测试256个样本。†表示结果取自论文[41]，<$表示结果取自论文[38]。行动步行吃吸烟讨论时间（ms）804005601000804005601000804005601000804005601000Res-RNN †[43]23.266.171.679.116.861.774.998.018.965.478.1102.125.791.3109.5131.817.763.672.282.311.048.461.387.111.648.960.081.717.177.698.1129.3ConvSeq2Seq †[31]12.344.450.760.37.838.651.575.88.239.550.572.111.968.188.9118.5[42]第四十二话11.142.953.170.77.037.351.178.67.537.549.471.810.865.888.1121.6[42]第四十二话10.039.847.458.16.436.250.075.77.036.447.669.510.265.486.6119.8[41]第四十一话10.842.453.363.76.936.050.875.47.537.550.572.110.465.087.0116.8[13]第十三话ST-DGCN-10-25[38]11.242.849.658.96.536.850.074.97.337.548.869.910.264.486.1116.9SIMLP E（Ours）9.939.646.855.75.936.149.674.56.536.347.269.39.464.385.7116.3行动方向问候打电话构成时间（ms）804005601000804005601000804005601000804005601000Res-RNN †[43]21.684.1101.1129.131.2108.8126.1153.921.176.494.0126.429.3114.3140.3183.213.569.786.6115.822.096.0116.9147.313.559.977.1114.016.992.9122.5187.4ConvSeq2Seq †[31]8.858.074.2105.516.282.6104.8136.89.850.868.8105.112.279.9110.2174.8[42]第四十二话8.054.976.1108.814.879.7104.3140.29.349.768.7105.110.975.9109.9171.7[42]第四十二话7.456.573.9106.513.778.1101.9138.88.649.267.4105.010.275.8107.6178.2[41]第四十一话7.756.275.8105.915.185.4106.3136.39.149.867.9104.710.375.9112.5176.5[13]第十三话ST-DGCN-10-25[38]7.556.073.3105.914.077.3100.2136.48.748.866.5102.710.273.3102.8167.0SIMLP E（Ours）6.555.873.1106.712.477.399.8137.58.148.666.3103.38.873.8103.4168.7行动购买坐坐下拍照时间（ms）804005601000804005601000804005601000804005601000Res-RNN †[43]28.7100.7122.1154.023.891.2113.7152.631.7112.0138.8187.421.987.6110.6153.920.389.9111.3151.513.563.182.4120.720.782.7106.5150.312.763.684.4128.1ConvSeq2Seq †[31]15.278.199.2134.910.458.379.2118.717.176.4100.2143.89.654.375.3118.8[42]第四十二话13.975.999.4135.99.855.978.5118.815.671.796.2142.28.951.772.5116.3[42]第四十二话13.073.995.6134.29.356.076.4115.914.972.097.0143.68.351.572.1115.9[41]第四十一话13.377.899.2134.59.855.577.6115.915.473.8102.4149.48.954.477.7121.9[13]第十三话ST-DGCN-10-25[38]13.274.095.7132.19.154.675.1114.814.770.094.4139.08.250.270.5112.9SIMLP E（Ours）11.772.493.8132.58.655.275.4114.113.670.895.7142.47.850.871.0112.8行动等待步行狗一起走平均时间（ms）804005601000804005601000804005601000804005601000Res-RNN †[43]23.887.7105.4135.436.4110.6128.7164.520.467.380.298.225.088.3106.3136.614.668.787.3117.727.7103.3122.4162.415.361.272.087.416.672.790.7124.2ConvSeq2Seq †[31]10.459.277.2108.322.888.7107.8156.410.346.356.065.712.261.579.6112.4[42]第四十二话9.254.473.4107.520.986.6109.7150.19.644.055.769.811.258.978.3114.0[42]第四十二话8.754.974.5108.220.186.3108.2146.98.941.952.764.910.458.377.3112.1[41]第四十一话10.462.474.8105.524.9112.9107.7145.79.243.256.269.511.361.980.0112.9[13]第十三话ST-DGCN-10-25[38]8.753.671.6103.720.484.6105.7145.98.943.854.464.610.657.976.3109.7SIMLP E（Ours）7.853.271.6104.618.283.6105.6141.28.441.250.861.59.657.375.7109.4通过这种观察，我们让我们的网络预测未来姿势xT+t和最后输入姿势xT之间的残差，而不是从头开始预测绝对3D姿势。正如我们将在4.4节中展示的那样，这简化了学习并提高了性能。目标函数我们的目标函数L包括两项Lre和Lv：L=Lre+ Lv。（七）Lre的目标是最小化预测值之间的L2运动x′T+1：T+N和地面实况1xT+1：T+N：Lre = L2（x′T +1：T + N，xT +1：T + N）.（八）v旨在最小化预测运动的速度v′T+1：T+N与地面实况速度vT+1：T+N之间的2范数：Lv=L2（v′T +1：T+N，vT+1：T+N），（9）其中vT+1：T+N=[vT+1，.，vT+N]RN×C，vt表示帧t处的速度，计算为时间差：vt=xt+1xt.我们在第4.4节中提供了对损失条款的全面分析。4814×∼∼表3.不同预测时间步长（ms）的AMASS和3DPW结果我们以mm为单位报告MPJPE误差。越低越好。该模型在AMASS数据集上进行训练。上述方法的结果取自[41]。数据集AMASS-BMLrub3DPW时间（ms）80160320 400 560 720880100080160320400 5607208801000convSeq2Seq [31]20.636.959.767.679.087.091.593.518.832.952.058.869.477.083.687.8[42]第四十二话10.319.336.644.661.575.986.291.212.022.038.946.259.169.176.581.1[42]第四十二话11.020.737.845.357.265.771.375.212.623.239.746.657.965.871.575.5Hisrep [41]11.320.735.742.051.758.663.467.212.623.139.045.456.063.669.773.7SIMLP E（Ours）10.819.634.340.550.557.362.465.712.122.138.144.554.962.468.272.2表4. Human3.6M和AMASS上不同预测时间段的平均结果。这些结果是按照STS-GCN [49]和STG-GCN [61]的评价方法获得的，而不是[38，41，42]中采用的标准评价方案数据集Human3.6MAMASS-BMLrub时间（ms）80160320400 560720880100080160320 400 560 7208801000STS-GCN [49]10.117.133.138.350.860.168.975.610.012.521.824.531.938.142.745.5STG-GCN [61]10.116.932.538.550.0--72.910.011.920.124.030.4--43.1SIMLP E（Ours）4.59.822.028.139.349.257.863.76.110.819.122.829.535.139.742.74. 实验在本节中，我们介绍了我们的实验细节和结果。我们在第4.1节介绍了数据集和评估指标，在第4.2节介绍了实施细节，在第4.3节介绍了定量/定性结果。在第4.4节中提供了过度消融分析。4.1. 数据集和评估指标Human3.6M数据集[23]。Human3.6M包含执行15个动作的7个Actor，每个姿势标记32个关节。我们遵循与[41]相同的测试协议，并使用S5作为测试集，S11作为验证集，其他作为训练集。以前的作品使用不同的测试采样策略，包括每个动作8个样本[42，43]，每个动作256个样本[41]或测试集中的所有样本[13]。由于8个样本太少，并且采取所有测试样本无法平衡具有不同序列长度的不同动作，因此我们每个动作采取256个样本进行测试，并在[38，41AMASS数据集[39]。AMASS是多个Mocap数据集的集合[1，3，5，11，14，16，21，28，35，37，39，40，44，48，53我们遵循[41]使用AMASS-BMLrub [53]作为测试集，并将AMASS数据集的其余部分分为训练集和验证集。如[41]中所述，在18个关节上对模型进行评估。3DPW数据集[58]。 3DPW是包括室内和室外场景的数据集。姿势由26个关节表示，但我们遵循[41]并使用在AMASS上训练的模型评估18个关节以评估泛化。评价指标。我们报告3D关节坐标上的平均每关节位置误差（MPJPE），用于评估3D姿态误差的最广泛使用的度量。该指标计算预测和地面实况之间不同关节的平均L2范数与以前的工作类似[13，38，41，42]，我们忽略了姿势的全局旋转和平移，并将所有数据集的采样率保持为每秒25帧（FPS）。4.2. 实现细节在实践中，我们在Human3.6M数据集上设置输入长度T=50，输出长度N=10，在AMASS 数据集和3DPW数据集上设置N = 25。在测试过程中，我们以自回归的方式应用我们的模型，以产生更长时间的运动。特征维度C=3K，其中K是关节的数量，对于Human3.6M ，K=22，对于AMASS 和3DPW ，K =18。为了训练我们的网络，我们将批量大小设置为256，并使用Adam优化器[25]。我们的网络消耗的内存大约是1。5GB的训练。我们所有的实验都是在单个NVIDIA RTX 2080Ti显卡上使用Pytorch [47]框架进行的。我们在Human3.6M数据集上训练我们的网络，进行35k次迭代，学习率从一开始的0.0003开始，在30k步之后下降到0.00001。培训时间为30分钟。对于AMASS数据集，我们训练我们的网络进行115k次迭代。学习率从一开始的0.0003开始，在10万步之后下降到0.00001。培训时间为2小时。在训练过程中，我们只使用前后空翻作为数据增强，它会随机反转运动训练过程中的顺序4.3. 定量和定性结果在本节中，我们将我们的方法与不同数据集上现有的最先进方法进行比较。我们报告4815∼∼∼NB. 块#参数(M)↓80160320400 560MPJPE（mm）↓7208801000表5.在Human3.6M上消融MLP块的数量10.01212.728.559.772.193.6107.0116.8123.620.01410.924.952.364.083.297.3108.4115.460.02510.223.148.860.179.093.3105.1112.6120.0419.922.447.258.377.191.5103.3110.9240.0739.722.046.857.776.490.8102.6110.348（我们的）0.1389.621.746.357.375.790.1101.8109.4640.1809.621.846.557.576.090.1101.9109.7960.2669.721.946.757.876.390.5102.1109.8表6.在人类3.6M上消融我们网络的不同组件。’LN’ ’DCT’ 温泉“仅”意味着所有FC层都在空间维度上（在MLP块之前/之后没有转置操作）。温度“仅”意味着所有FC层都在时间维度上（没有任何转置操作）。消融80160320 400 560 720 880 1000Spa.仅，不含LN23.7 44.0 75.5 87.6 106.3 120.4 130.5 135.6Spa. 只23.8 43.0 73.4 85.2 102.0 116.3 125.3 131.9温度只9.922.4 47.2 58.477.291.1102.8 110.5不含LN12.7 29.0 62.3 76.297.4111.6 121.6 127.3不带DCT9.922.4 47.3 58.476.991.2102.8 110.5SIMLP E（我们的）9.621.7 46.3 57.375.790.1101.8 109.4表7.在Human3.6M上消除数据增强。我们只使用前后空翻作为我们的数据增强，我们在训练过程中随机颠倒运动序列。80 160 320 400 560 720 8801000不含8月 10.022.648.359.778.292.0 103.4110.88月w9.621.746.357.375.790.1101.8109.4在高达 1000 ms 的不同预测时间步长下的 MPJPE（mm）。Human3.6M数据集。在表1中，我们将我们的方法与Hu-man 3. 6 M数据集上的其他最先进的方法进行了比较。我们的方法优于所有以前的方法在每帧少得多的参数。如第4.1节所述，一些不同的方法采用了不同的测试抽样策略。在[41]之后，我们选择在22个关节上使用256个样本进行测试。使为了公平比较，我们使用相同的测试协议评估所有方法。我们的方法在每一帧上的性能都优于所有其他的方法，而且参数的数量要少得多。此外，以往的作品通常报告短期（ 0500ms）和长期（500 ms1000ms）预测-[38]报告了短期/长期结果使用两种不同的模型。在我们的表中，所有从 01000ms由单个模型预测，对于[38]，我们报告了他们的模型的结果，该模型在长期预测方面取得了最佳性能。此外，我们还在表1中的Human3.6M数据集上评估了第1节中提到的两种简单方法：ing Last-frame这些结果表明，人体运动预测的任务可以以一种完全不同的和简单的方式建模，而无需显式地融合空间和时间信息。此外，与所有先前的工作类似，我们还在表2中详细说明了动作方面的结果。AMASS和3DPW数据集。在表3中，我们报告了在AMASS上训练并在AMASS-BMLrub和3DPW数据集上测试的模型的性能，遵循 [41] 的评估方案与Human3.6M数据集不同，其中训练和测试数据来自不同参与者执行的相同类型的动作，该协议下的训练和测试数据之间的差异要大得多，这使得任务在泛化方面更具挑战性。如表中所示，我们的方法在长期预测方面始终表现得更好更多-我们的型号要轻得多例如，我们模型的参数大小是Hisrep的0.4%[41]。虽然常用的评估协议是考虑不同时间步长的预测误差，但一些作品[49，61]通过从第一时间步长到某个时间步长的平均误差来报告其结果。我们在所有表格中报告了不同时间步长的预测误差，除了表4，其中我们报告了与[49，61]比较的平均误差。我们的方法也取得了更好的性能比这两种方法。定性结果。除了定量结果外，我们还在图3中提供了我们方法的一些定性结果，显示了Hu-man 3. 6 M数据集上的一些测试示例。我们可以发现，我们的方法的预测完美地匹配地面实况的短期预测，并在全球范围内适合地面实况的长期预测。当观察更长的预测时，误差变得更大，这是如表1和表3所示的所有运动预测方法的共同问题。这是因为目前大多数方法使用自回归来预测较长的未来，这将使误差累积。此外，在预测人体运动时，不确定性随着时间的推移而迅速增长。4816L图3. 定性结果表明，我们的方法SIMLPE。浅色的背景色是输入（0ms之前）和地面实况（0ms之后）。那些深色的代表预测的运动。我们的预测结果接近地面实况。4.4. 消融研究我们在下面评估了我们的方法的不同组成部分对Human3.6M数据集的影响MLP块的数量。我们在表5中烧蚀MLP块的数量m。我们提出的架构已经取得了良好的性能，只使用2个MLP块与0。014M参数。该网络使用48个MLP块实现其最佳性能。网络架构。在表6中，我们消融了网络的不同组件。如表所示，时间特征融合和层归一化对我们的网络都至关重要如果网络只是沿着运动序列的空间维度操作，而没有合并不同帧之间的任何信息，则会导致结果降级。然而，如果网络只是沿着时间维度运行，网络仍然可以实现相当的性能。此外，采用DCT变换还可以进一步提高性能.数据扩充。在表7中，我们消除了前后翻转数据增强的使用，并发现数据增强略微提高了性能。损失在表8中，我们评估了训练过程中使用的不同损失术语如表中所示，在速度损失v的帮助下，网络在长期预测方面实现了更好的性能，同时在短期内保持了相同的性能。学习残余位移。在表9中，我们分析了建议的剩余位移的重要性，并将其与以前使用的其他类型的剩余位移进行了表8.Human3.6M上不同损失项的消融LreLv80 160 320 400 560 720 880 1000✓✓ ✓表9. Human3.6M上不同类型的残余位移分析。SIMLPE预测每个未来帧与最后一个观测值（在 IDCT 之后）的差异。 ’Consecu- tive’ ’w/o resid- ual’剩余80160320400560720880 1000不含残差SIMLP E（我们的）9.6 21.7 46.3 57.3 75.7 90.1 101.8 109.4作品[42，43]。我们的方法旨在预测每个未来的姿态和最后观察到的姿态之间的差异，后IDCT变换。当直接预测绝对3D姿态（“w/o residual”）时，性能急剧下降。我们还通过在[ 42 ]之后应用IDCT变换之前5. 结论在本文中，我们提出了SIMLPE，一个简单而有效的人体运动预测网络。SIMLPE仅由全连接层、层归一化和转置操作组成。因此，唯一的非线性操作是层归一化。虽然使用的参数少得多，SIMLPE在各种基准测试中实现了最先进的性能。所报告的消融研究还表明了各种设计选择的兴趣，突出了时间信息融合在这项任务中的重要性。我们希望SIMLPE的简单性将有助于社区重新思考人体运动预测的任务。6. 确认本研究得到 ANR-3 IA MIAI （ ANR- 19-P3 IA-0003）、ANR-JCJC ML 3RI（ANR-19-CE 33 -0008-01) ，H2020 SPRING（由EC根据GA #871245资助），由西班牙政府通过MoHuCo PID 2020 - 120049 RB-I 00项目和亚马逊研究奖资助。该项目得到了CHIST-ERAIPALM项目

下载后可阅读完整内容，剩余1页未读，立即下载