基于TransformerVAE的行动条件3D人体运动合成

154 浏览量更新于2023-10-16 收藏 15.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

has corresponding action labels. In particular, we constructa Transformer-based encoder-decoder architecture and trainit with the VAE objective. We parameterize the human bodyusing SMPL [43] as it can output joint locations or the bodysurface. This paves the way for better modeling of inter-action with the environment, as the surface is necessary tomodel contact. Moreover, such a representation allows theuse of several reconstruction losses: constraining part rota-tions in the kinematic tree, joint locations, or surface points.The literature [37] and our results suggest that a combina-tion of losses gives the most realistic generated motions.The key challenge of motion synthesis is to generate se-quences that are perceptually realistic while being diverse.Many approaches for motion generation have taken an au-toregressive approach such as LSTMs [15] and GRUs [46].However, these methods typically regress to the mean pose109850基于Transformer VAE的行动条件3D人体运动合成0Mathis Petrovich 1 Michael J. Black 2 G¨ul Varol 101 LIGM，´Ecole des Ponts，Univ Gustave Eiffel，CNRS，法国 2 Max Planck Institutefor IntelligentSystems，T¨ubingen，德国{mathis.petrovich，gul.varol}@enpc.fr，black@tue.mpg.de0https://imagine.enpc.fr/˜petrovim/actor0摘要0我们解决了行动条件下生成逼真且多样化的人体运动序列的问题。与完成或扩展运动序列的方法不同，这个任务不需要初始姿势或序列。在这里，我们通过训练生成式变分自编码器（VAE）来学习人体运动的行动感知潜空间。通过从这个潜空间中进行采样，并通过一系列位置编码查询特定的持续时间，我们可以合成以分类动作为条件的可变长度运动序列。具体而言，我们设计了一种基于Transformer的架构ACTOR，用于对从动作识别数据集估计的参数化SMPL人体模型序列进行编码和解码。我们在NTURGB+D、HumanAct12和UESTC数据集上评估了我们的方法，并展示了超越现有技术的改进。此外，我们还提供了两个用例：通过将我们合成的数据添加到训练中改进行动识别，以及运动去噪。代码和模型可在我们的项目页面上找到[53]。01. 引言0尽管在对建模人体运动进行了数十年的研究[4,5]，生成逼真且可控的序列仍然极具挑战性。在这项工作中，我们的目标是通过一个语义动作标签（如“投掷”）生成无限数量的逼真的3D人体运动序列，这些序列的长度各不相同，看起来像真实的投掷（图1）。许多先前的工作都集中在获取一个姿势或一系列姿势，然后预测未来的运动[3, 6, 21, 67,70]。这是一个过于约束的情况，因为它假设已经有一个运动序列，只需要更多的运动。另一方面，许多应用程序，如虚拟现实和角色控制[26,57]，需要生成给定类型（语义动作标签）和指定持续时间的运动。我们通过使用具有相应动作标签的3D人体运动数据来训练一个行动条件的生成模型来解决这个问题。特别地，我们构建了一个基于Transformer的编码器-解码器架构，并使用VAE目标对其进行训练。我们使用SMPL[43]对人体进行参数化，因为它可以输出关节位置或身体表面。这为更好地建模与环境的交互铺平了道路，因为表面对于建模接触是必要的。此外，这种表示方法允许使用多种重构损失：约束运动树中的部分旋转、关节位置或表面点。文献[37]和我们的结果表明，损失的组合可以得到最逼真的生成运动。运动合成的关键挑战是生成既具有感知逼真性又具有多样性的序列。许多运动生成方法采用了自回归方法，如LSTM [15]和GRU[46]。然而，这些方法通常会回归到平均姿势。0图1：目标：行动条件的TransformerVAE（ACTOR）学习根据分类动作和持续时间T合成人体运动序列。通过从单个运动表示潜向量z中进行采样，并通过一系列位置编码查询特定持续时间，我们可以合成以分类动作为条件的可变长度运动序列。特别地，我们设计了一种基于Transformer的架构ACTOR，用于对从动作识别数据集估计的参数化SMPL人体模型序列进行编码和解码。我们在NTURGB+D、HumanAct12和UESTC数据集上评估了我们的方法，并展示了超越现有技术的改进。此外，我们还提供了两个用例：通过将我们合成的数据添加到训练中改进行动识别，以及运动去噪。代码和模型可在我们的项目页面上找到[53]。109860经过一段时间[46]，并且容易发生漂移。我们Transformer模型的关键创新之处在于为解码器提供位置编码，并一次性输出完整的序列。位置编码已经在最近的神经辐射场研究中得到了推广[47]；我们还没有看到它在我们这样的运动生成中使用。这样可以生成可变长度的序列，而不会出现运动回归到平均姿势的问题。此外，据我们所知，我们的方法是第一个创建动作条件的序列级嵌入的方法。最接近的工作是Action2Motion[20]，它提出了一种自回归方法，其中潜在表示在帧级别上。获得序列级嵌入需要汇集时间维度：我们引入了一种新的方法，将Transformer和VAEs结合起来实现这一目的，这也显著改善了基线的性能。我们行动条件生成问题的一个特殊挑战是，存在与不同动作标签配对的有限运动捕捉（MoCap）数据，通常大约有10个类别[29,59]。相反，我们依赖于单目运动估计方法[35]来获得动作的3D序列，并在UESTC动作识别数据集的40个细粒度类别上呈现出有希望的结果[30]。与[20]不同的是，我们不需要多视角摄像机来处理单目轨迹估计，这使得我们的模型可能适用于更大的规模。尽管存在噪声，但单目估计足以进行训练，并且作为我们模型的一个附带好处，我们能够通过我们学习的运动表示进行编码-解码来去噪估计的序列。行动条件生成模型可以增加现有的MoCap数据集，这些数据集昂贵且规模有限[45,59]。最近的工作为训练行动识别模型渲染合成的人体动作视频[61]，显示了运动多样性和每个动作的大量数据的重要性。这些方法可以从无限的行动条件运动合成中受益。我们通过行动识别的实验来探索这一点。我们观察到，尽管存在领域差异，生成的运动可以作为额外的训练数据，特别是在低数据情况下。最后，人体运动的紧凑行动感知潜空间可以用作其他任务中的先验，例如从视频中估计人体运动。我们的贡献有四个方面：（i）我们引入了ACTOR，一种基于Transformer的条件VAE，通过从序列级潜向量中进行采样来训练它生成行动条件的人体运动。（ii）我们证明了使用从单目视频估计的噪声3D身体姿势学习生成逼真的3D人体运动是可能的；（iii）我们对架构和损失组件进行了全面的消融研究，在多个数据集上获得了最先进的性能；（iv）我们在行动识别和MoCap去噪两个用例中展示了我们模型的应用。代码可在我们的项目页面上找到[53]。02. 相关工作0我们简要回顾了与运动预测、运动合成、单目运动估计以及VAEs中的Transformer相关的文献。未来的人体运动预测。人体运动分析的研究历史可以追溯到20世纪80年代[5, 16,18,49]。在给定过去的运动或初始姿势的情况下，预测未来的帧被称为运动预测。在早期的研究中使用了统计模型[7,17]。最近，随着神经网络生成模型的进展，如GANs[19]或VAEs[34]，一些工作展示了有希望的结果。例如，HP-GAN[6]和循环VAE[21]用于未来的运动预测。大多数工作将人体视为骨架，尽管最近的工作利用了完整的3D人体形状模型[3,70]。与[70]类似，我们也超越了稀疏关节，并将身体表面的顶点纳入考虑。DLow[67]专注于从预训练模型中多样化采样未来运动。[10]使用关于对象交互的上下文线索进行条件未来预测。最近，[39]提出了一种基于Transformer的舞蹈生成方法，该方法以音乐和过去的运动为条件。段等人[13]使用Transformer进行运动补全。还有一系列关于运动“中间插值”的工作，它同时考虑了过去和未来的姿势，并在它们之间“填充”了合理的运动；更多信息请参见[22]。与先前的工作相比，我们的目标是在没有任何过去观察的情况下合成运动。人体运动合成。虽然关于未来预测的文献很多，但从头开始合成的研究相对较少。早期的工作使用PCA [48]和GPLVMs[60]来学习循环运动（如行走和奔跑）的统计模型。在多个不同的动作上进行合成是更困难的。DVGANs[40]训练了一个以MoCap数据集（如Human3.6M [28,29]和CMU[59]）中的动作为条件的生成模型。Text2Action[1]和Language2Pose[2]类似地探索了将运动生成与文本描述相结合的方法。Music-to-Dance[36]和[38]研究了音乐条件下的生成。QuaterNet[52]专注于生成基于地面轨迹和平均速度的运动动作，如行走和奔跑。[65]提出了一种基于卷积的生成模型，用于生成逼真但不受限制的运动，而不需要指定动作。类似地，[69]合成了任意序列，重点是时间上的无限运动。许多用于无约束运动合成的方法通常以行走和奔跑等动作为主导。相比之下，我们的模型能够从更一般的、非循环的、预定义的动作类别中进行采样，与动作识别数据集兼容。在这个方向上，[71]引入了一种贝叶斯方法，其中使用隐藏半马尔可夫模型来联合训练生成模型和判别模型。与我们类似，[71]表明他们生成的运动可以作为额外的训练数据用于动作识别。然而，他们生成的序列是伪造的。Problem definition. Actions defined by body-motions canbe characterized by the rotations of body parts, independentof identity-specific body shape. To be able to generate mo-tions with actors of different morphology, it is desirable todisentangle the pose and the shape. Consequently, withoutloss of generality, we employ the SMPL body model [43],which is a disentangled body representation (similar to re-cent models [50, 51, 54, 64]). Ignoring shape, our goal,is then to generate a sequence of pose parameters. Moreformally, given an action label a (from a set of predefinedaction categories a ∈ A) and a duration T, we generatea sequence of body poses R1, . . . , RT and a sequence oftranslations of the root joint represented as displacements,D1, . . . , DT (with Dt ∈ R3, ∀t ∈ {1, . . . , T}).Motion representation. SMPL pose parameters per-framerepresent 23 joint rotations in the kinematic tree and oneglobal rotation. We adopt the continuous 6D rotation repre-sentation for training [72], making Rt ∈ R24×6. Let Pt be109870图2：方法概述：我们展示了基于Transformer的VAE模型的编码器（左）和解码器（右），该模型生成以动作为条件的运动。给定一系列身体姿势P1，...，PT和一个动作标签a，编码器输出分布参数，我们定义KL损失（LKL）。我们使用每个动作的可学习令牌（µ token a和Σtokena）来从Transformer编码器中获取µ和Σ。使用µ和Σ，我们从运动潜在表示z∈M中进行采样。解码器接受潜在向量z，动作标签a和持续时间T作为输入。动作确定可学习的b tokena加性令牌，持续时间确定要输入到解码器的位置编码（PE）的数量。解码器输出整个序列P1，...，PT，对其进行重建损失LP的计算。此外，我们使用可微分的SMPL层计算顶点损失LV。在训练中，z是作为编码器的输出获得的；在生成中，它是从高斯分布中随机采样的。0根据鉴别器的分类结果，我们的条件模型可以合成以动作为控制的运动，例如平衡的训练集。与我们的工作最相似的是Action2Motion[20]，它是一个基于GRU架构的逐帧VAE。我们的序列级VAE潜在空间结合基于Transformer的设计提供了显著的优势，如我们的实验证明。其他最近的工作[23，68]使用归一化流来解决人体运动估计和生成问题。一些工作[27，33，63]学习运动流形，并将其用于运动去噪，这是我们的一个应用场景之一。在该领域还有大量的图形学文献，主要关注动画师的控制。例如，学习运动匹配的[25]和角色动画的[37]。这里最相关的是相位函数神经网络[26]和神经状态机[57]。两者都利用了动作由正弦函数的相位驱动的概念。这与位置编码的思想相关，但与我们的方法不同，它们的方法需要手动分割动作并构建这些相位函数。单目人体运动估计。从视频中估计运动[32，35，44]最近取得了重大进展，但超出了我们的范围。在这项工作中，我们采用VIBE[35]从带有动作标签的视频数据集中获得训练运动序列。TransformerVAE。Transformer在语言任务中的最近成功增加了对基于注意力的神经网络模型的兴趣。一些工作在生成式VAE训练中使用Transformer。特别的例子包括故事生成[14]，情感分析[9]，回应生成[41]和音乐生成[31]。[31]的工作学习每个时间段的潜在嵌入，而[9]对隐藏状态进行平均以获得单个潜在代码。另一方面，[14]执行注意力平均以在时间上进行汇总。与这些工作不同，我们采用可学习的令牌，如[11，12]中所述，将输入总结为序列级嵌入。0问题定义。由身体动作定义的动作可以通过身体部位的旋转来表征，与身体形状无关。为了能够生成具有不同形态的演员的动作，最好将姿势和形状分离。因此，不失一般性，我们采用SMPL身体模型[43]，它是一个分离的身体表示（类似于最近的模型[50，51，54，64]）。忽略形状，我们的目标是生成一系列姿势参数。更正式地说，给定一个动作标签a（来自预定义的动作类别集合a∈A）和持续时间T，我们生成一系列身体姿势R1，...，RT和表示为位移的根关节的平移序列D1，...，DT（其中Dt∈R3，�t∈{1，...，T}）。运动表示。每帧的SMPL姿势参数表示运动树中的23个关节旋转和一个全局旋转。我们采用连续的6D旋转表示进行训练[72]，使得Rt∈R24×6。设Pt为03. 动作条件的运动生成109880Rt和Dt的组合表示了单帧中身体的姿势和位置，t表示帧的索引。完整的运动是序列P1，...，PT。给定生成器输出的姿势Pt和任何形状参数，我们可以使用[43]以可微分的方式获得身体网格顶点（Vt）和身体关节坐标（Jt）。03.1. 动作的条件Transformer VAE0我们采用了条件变分自编码器（CVAE）模型[56]，并将动作类别信息输入编码器和解码器。具体而言，我们的模型是一个动作条件的TransformerVAE（ACTOR），其编码器和解码器由Transformer层组成（参见图2）。编码器。编码器将任意长度的姿势序列和动作标签a作为输入，并输出运动潜在空间的分布参数μ和Σ。使用重参数化技巧[34]，我们从该分布中采样得到一个潜在向量z∈M，其中M�Rd。所有输入的姿势参数（R）和平移（D）首先线性嵌入到一个Rd空间中。由于我们将任意长度的序列嵌入到一个潜在空间中（序列级嵌入），我们需要对时间维度进行汇聚。在其他领域中，已经引入了一个[class]令牌用于汇聚目的，例如在NLP中使用BERT[11]，最近在计算机视觉中使用ViT[12]。受到这种方法的启发，我们类似地在输入前添加可学习的令牌，并且只使用相应的编码器输出作为汇聚时间维度的一种方式。为此，我们为每个动作包括两个额外的可学习参数，μ token a和Σ tokena，我们称之为“分布参数令牌”。我们将嵌入的姿势序列附加到这些令牌上。得到的Transformer编码器输入是与正弦函数形式的位置编码的求和。我们通过取与分布参数令牌对应的编码器的前两个输出（即舍弃其余部分）来获得分布参数μ和Σ。解码器。给定一个单独的潜在向量z和一个动作标签a，解码器在一次生成中为给定的持续时间生成逼真的人体动作（即非自回归）。我们使用Transformer解码器模型，其中我们将时间信息作为查询（以T个正弦位置编码的形式）输入，将潜在向量与动作信息组合作为键和值。为了融入动作信息，我们简单地添加一个可学习的偏置b tokena来将潜在表示转移到与动作相关的空间。Transformer解码器输出一个Rd中的T个向量序列，我们通过线性投影得到最终的姿势P1，...，PT。我们使用可微分的SMPL层根据解码器输出的姿势参数获得顶点和关节。03.2. 训练0我们定义了几个损失项来训练我们的模型，并在第4.2节中进行了消融研究。姿势参数的重建损失（LP）。我们使用一个0地面真实姿势 P 1 ，...，P T 和我们的预测姿势 � P 1 ，...，�P T 之间的L2损失，即 L P = � T t =1 ∥ P t − � P t ∥ 22。注意，该损失包含了SMPL旋转和根部平移。当我们通过丢弃平移来进行实验时，我们将这个项分成两个：L R 和 LD ，分别用于旋转和平移。顶点坐标的重建损失（LV）。我们将SMPL姿势 P t 和 � P t输入到一个可微分的SMPL层（没有可学习参数），并使用平均形状（即 β = � 0 ）获得网格的以根部为中心的顶点 V t和 � V t 。我们通过与地面真实顶点 V t进行比较定义了一个L2损失，即 L V = � T t =1 ∥ V t − � Vt ∥ 2 2。我们进一步尝试在更稀疏的点集上使用损失 L J，例如通过SMPL关节回归器获得的关节位置 � J t。然而，正如将在第4.2节中展示的那样，我们在最终模型中不包括这个项。KL损失（LKL）。与标准的VAE一样，我们通过鼓励潜在空间与高斯分布相似来对其进行正则化，其中 µ 是零向量，Σ是单位矩阵。我们最小化编码器分布与目标分布之间的Kullback-Leibler（KL）散度。最终的总损失定义为不同项的求和：L = L P + L V + λ KL LKL。我们在实验中经验性地展示了使用 λ KL（相当于 β-VAE [24] 中的 β项）进行加权的重要性，以获得多样性和真实性之间的良好平衡（请参见附录的A.1节）。其余的损失项均等加权，通过调整可能进一步改进。我们使用固定学习率为0.0001的AdamW优化器。小批量大小设置为20，我们发现性能对这个超参数非常敏感（请参见附录的A.2节）。我们在NTU-13、HumanAct12和UESTC数据集上分别训练了2000、5000和1000个时期。总体上，更多的时期会产生更好的性能，但我们停止训练以保持低计算成本。请注意，为了加快迭代速度，对于损失和架构的消融实验，我们在NTU-13上训练了1000个时期，在UESTC上训练了500个时期。其余的实现细节可以在附录的C节中找到。04. 实验0首先介绍我们实验中使用的数据集和性能度量（第4.1节）。接下来，我们进行了消融研究（第4.2节）并与之前的工作进行了比较（第4.3节）。然后，我们展示了在动作识别中的应用案例（第4.4节）。最后，我们提供了定性结果并讨论了限制（第4.5节）。04.1. 数据集和评估指标0我们使用了三个最初用于动作识别的数据集，主要用于基于骨架的输入。每个数据集在每个序列中都围绕一个动作进行了时间修剪。接下来，我们简要介绍它们。UESTCNTU-13LossFIDtrFIDtestAcc.Div.Multimod.FIDtrAcc.Div.Multimod.LJ3M∗3M∗3.3±0.2267.68±346.06153.62±50.620.49±0.0093.6±0.27.04±0.042.12±0.01LR292.54±113.35316.29±26.0542.4±1.723.16±0.4714.37±0.080.23±0.0095.4±0.27.08±0 .042.18±0.024M∗4M∗2.7±0.2314.66±476.18169.49±27.900.25±0.0095.8 ±0.37.08±0.042.07±0.01109890真实 2 . 93 ± 0 . 26 2 . 79 ± 0 . 29 98 . 8 ± 0 . 1 33 . 34 ± 0 . 32 14 . 16 ± 0 . 06 0 . 02 ± 0 . 00 99 . 8 ± 0 . 0 7 . 07 ± 0 . 02 2 . 27 ± 0 . 010L R + L V 20.49 ± 2.31 23.43 ± 2.20 91.1 ± 0.3 31.96 ± 0.36 14.66 ± 0.03 0.19 ± 0.00 96.2 ± 0.2 7.09 ± 0.04 2.08 ± 0.010表1：重建损失：我们定义了对SMPL姿势参数的损失，这些参数表示运动学树中的旋转（L R ），它们的关节坐标（L J ），以及顶点坐标（LV）。我们表明，同时约束旋转和顶点坐标对于获得平滑运动至关重要。特别是，仅基于坐标的损失无法在UESTC上收敛到有意义的解（*）。→表示当度量接近真实时，运动更好。0NTU RGB+D数据集[42,55]。为了能够与[20]的工作进行比较，我们使用他们的13个动作类别的子集。[20]提供了通过VIBE估计获得的SMPL参数。他们通过多视图约束获得的3D根部位移不公开，因此我们使用了他们的近似以原点为中心的版本。我们将这些数据称为NTU-13，并将其用于训练。HumanAct12数据集[20]。同样，我们使用这些数据进行最先进的比较。HumanAct12是从PHSPD数据集[73]中适应而来，该数据集为1191个视频提供了SMPL姿势参数和相机坐标中的根部位移。HumanAct12将视频进行时间修剪，将其注释为12个动作类别，并仅提供它们在规范帧中的关节坐标。我们还处理SMPL姿势以将其对齐到正面视图。UESTC数据集[30]。这个最新的数据集包含40个动作类别的25K个序列（主要是锻炼动作，还有一些循环运动）。为了获得SMPL序列，我们对每个视频应用VIBE，并选择与Kinect骨架最匹配的人物轨迹，如果有多个人物。我们使用所有8个静态视角（舍弃旋转摄像机），并将所有身体规范化到正面视图。我们使用官方的跨主体协议来分离训练和测试集，而不是使用跨视图协议，因为对于我们的模型来说，生成不同视角是微不足道的。这导致我们有10650个训练序列用于学习生成模型和识别模型：这个集合的有效多样性可以看作是每个动作平均有33个序列（10K除以8个视角，40个动作）。剩下的13350个序列用于测试。由于NTU-13和HumanAct12上的协议不提供测试集，我们依赖UESTC进行识别实验。评估指标。我们遵循[20]中使用的性能度量标准进行定量评估。我们测量FID、动作识别准确性、整体多样性和每个动作的多样性（在[20]中称为多模态性）。对于所有这些指标，我们使用预训练的动作识别模型，用于提取运动特征来计算FID、多样性和多模态性；或者直接用于识别准确性。对于NTU-13和HumanAct12的实验，我们直接使用[20]提供的基于关节坐标的识别模型。对于UESTC，我们训练了自己的基于姿势参数的识别模型。0作为6D旋转进行压缩（我们观察到[20]的基于关节的模型对全局视点变化敏感）。我们使用不同的随机种子生成20组序列，并报告平均值以及95%的置信区间。更多细节请参考[20]。我们评估的一个不同之处是在从网格获取关节坐标时，使用了平均形状参数（β = �0）来获取真实和生成序列的关节坐标。还请注意，[20]仅报告与训练集（FID tr）的FID分数进行比较，因为NTU-13和HumanAct12数据集不提供测试集。在UESTC上，我们还提供了测试集上的FID分数（FID test ），我们主要依赖该分数来得出结论。04.2.消融研究0我们首先在受控环境中消融了我们方法的几个组成部分，研究了损失和架构。损失研究。在使用参数化的SMPL身体模型的VAE时，我们首先尝试使用（i）仅旋转参数LR，（ii）仅关节坐标LJ，（iii）仅顶点坐标LV，以及（iv）组合的LR+LV进行重建损失的形成。在这里，我们最初舍弃了根部平移，只评估姿势表示。请注意，为了表示旋转参数，我们使用了[72]中的6D表示（关于使用不同旋转表示的损失的更多研究可以在附录的A.4部分找到）。从表1中可以看出，单一损失不足以约束问题，特别是坐标上的损失在UESTC上无法收敛到有意义的解。在NTU-13上，从定性上来看，我们还观察到无效的身体形状，因为仅仅使用关节位置无法完全约束肢体轴向的旋转。我们在定性分析中提供了一些示例。我们得出结论，使用组合损失可以显著改善结果，更有效地约束姿势空间。我们进一步在附录的A.1部分对权重参数λKL对KL散度损失项LKL的影响进行了实验，并指出它对于获得高多样性性能的重要性。根部平移。由于我们从单目相机估计3D人体运动，对于真实的训练序列，获取根关节的3D轨迹并不容易。109900UESTC NTU-13 架构 FID tr ↓ FID test ↓ 准确率 ↑ 多样性 → 多模态 → FID tr ↓ 准确率 ↑ 多样性 → 多模态 →0真实数据 2.93±0.26 2.79±0.29 98.8±0.1 33.34±0.32 14.16±0.06 0.02±0.00 99.8±0.0 7.07±0.02 2.27±0.010全连接 562.09±48.12 548.13±38.34 10.5±0.5 12.96±0.11 10.87±0.05 0.47±0.00 88.7±0.6 6.93±0.03 3.05±0.010GRU 25.96±3.02 27.08±2.98 87.3±0.4 30.66±0.33 15.24±0.08 0.28±0.00 94.8±0.2 7.08±0.04 2.20±0.010Transformer 20.49±2.31 23.43±2.20 91.1±0.3 31.96±0.36 14.66±0.03 0.19±0.00 96.2±0.2 7.09±0.04 2.08±0.010a)带自回归解码器 55.75±2.62 60.10±4.87 88.4±0.6 33.46±0.69 10.62±0.10 2.62±0.01 88.0±0.5 6.80±0.03 1.76±0.010b)无µ token a，Σ token a 27.46±3.43 31.37±3.04 86.2±0.4 31.82±0.38 15.71±0.12 0.26±0.00 94.7±0.2 7.09±0.03 2.15±0.010c)无b token a 24.38±2.37 28.52±2.55 89.4±0.7 32.11±0.33 14.52±0.09 0.16±0.00 96.2±0.2 7.08±0.04 2.19±0.020表2：架构：我们在NTU-13和UESTC数据集上比较了各种架构设计，如VAE的编码器和解码器以及Transformer模型的不同组件。0并且受到深度模糊的影响。我们假设一个固定的焦距，并根据3D身体高度与2D投影高度之间的比例来近似相机距离。与[61]类似，我们观察到xy图像平面上的可靠平移，但z深度上的噪声较大。尽管如此，我们仍然使用这种类型的数据进行训练，并在图3中可视化生成的示例，包括有和没有平移损失LD。某些动作是通过它们的轨迹定义的（例如，“左伸展”），尽管数据噪声较大，我们仍能够生成语义相关的平移。与真实序列相比，我们观察到我们生成的序列中噪声要少得多（请参见[53]的补充视频）。架构设计。接下来，我们对几个架构选择进行了消融实验。首先的问题是，基于注意力的设计（即Transformer）是否比更常用的选择（如简单的全连接自编码器或基于GRU的循环神经网络）更有优势。从表2中可以看出，我们的Transformer模型在两个数据集上的性能远远优于全连接和GRU编码器-解码器架构。与全连接架构相比，我们还能够处理可变长度的序列。我们进一步注意到，我们的序列级解码策略是获得Transformer改进的关键，而不是像[62]中的自回归Transformer解码器（表2，a）那样的自回归模型在训练时使用教师强制，即使用前一帧的真实姿势。这在测试时会产生差距，我们观察到自编码重构的质量较差，例如将左手挥手编码解码为右手挥手。我们还通过改变TransformerVAE的某些块来进行了一项受控实验。具体来说，我们移除了µ token a和Σ tokena分布参数令牌，而是通过对编码器的输出进行平均，然后经过两个线性层来获得µ和Σ（表2，b）。这导致性能大幅下降。此外，我们还研究了将加法b tokena令牌替换为动作标签的one-hot编码与潜在向量连接，然后进行线性投影（表2，c）。尽管这在NTU-13数据集上稍微改善了结果，但我们观察到在具有更多动作类别的UESTC数据集上性能大幅下降。基于对数量的架构消融研究，我们得出结论：0左侧拉伸跳绳0有有无无0前蹲0有无0左侧拉伸跳绳0有有无无0前蹲0有无0图3：生成3D根部位移：尽管我们的模型从嘈杂的3D轨迹中学习，但我们展示了我们的生成结果是平滑的，并且捕捉到了动作的语义。我们在UESTC数据集中提供了x（'左侧拉伸'），y（跳绳）和z（'前蹲'）的平移示例，包括有和没有根部位移损失LD的情况。0图4：生成可变长度序列：我们评估在UESTC上训练的模型在（左）固定大小的60帧和（右）变长为[60,100]帧之间的不同持续时间上生成能力。我们报告准确率和FID指标。对于固定模型，我们观察到在持续时间为60的情况下测试时性能最佳，但即使在[40,120]帧范围内，准确率仍保持在85%以上。当模型在训练中先前看到持续时间变化时，性能总体上得到改善；在已看到的范围之外，性能下降较小（用虚线表示）。0Transformer层（见附录A.3），我们将此参数设置为8。使用可变长度序列进行训练。使用Transformer等架构进行序列建模的一个关键优势是能够处理可变长度的动作。在生成时，我们通过为解码器指定一系列位置编码来控制模型应该合成多长的序列。通过合成不同持续时间的序列，我们可以轻松地生成更多的多样性。然而，到目前为止，我们使用固定大小的输入（即60帧）来训练我们的模型。在这里，我们首先分析固定大小训练的模型是否能直接生成可变大小的序列。这在图4（左）中展示。我们绘制了在不同长度为40到120帧之间的多组生成上的性能109910NTU-13 HumanAct12 方法 FID tr ↓ Acc. ↑ Div. → Multimod. → FID tr ↓ Acc. ↑ Div. → Multimod. →0真实数据[20] 0.03±0.00 99.9±0.1 7.11±0.05 2.19±0.03 0.09±0.01 99.7±0.1 6.85±0.05 2.45±0.040真实数据* 0.02±0.00 99.8±0.0 7.07±0.02 2.25±0.01 0.02±0.00 99.4±0.0 6.86±0.03 2.60±0.010CondGRU ([20]†) 28.31±0.14 7.8±0.1 3.66±0.02 3.58±0.03 40.61±0.14 8.0±0.2 2.38±0.02 2.34±0.040Two-stage GAN [8] ([20]†) 13.86±0.09 20.2±0.3 5.33±0.04 3.49±0.03 10.48±0.09 42.1±0.6 5.96±0.05 2.81±0.040Act-MoCoGAN [58] ([20]†) 2.72±0.02 99.7±0.1 6.92±0.06 0.91±0.01 5.61±0.11 79.3±0.4 6.75±0.07 1.06±0.020Action2Motion [20] 0.33±0.01 94.9±0.1 7.07±0.04 2.05±0.03 2.46±0.08 92.3±0.2 7.03±0.04 2.87±0.040ACTOR（我们的模型） 0.11±0.00 97.1±0.2 7.08±0.04 2.08±0.01 0.12±0.00 95.5±0.8 6.84±0.03 2.53±0.020表3：最新技术比较：我们与NTU-13和HumanAct12数据集上的[20]最新工作进行比较。请注意，由于实现的差异（例如，随机采样，使用零形状参数），我们对真实数据（Real*）的度量与他们的论文中报告的度量略有不同。我们的基于Transformer的模型的性能改进显示出与Action2Motion明显的差距。†由[20]实现的基线。0在40到120帧之间的不同长度的多组生成上进行了多次测试（步长为5）。由于我们用于评估指标的识别模型是在固定大小的60帧输入上训练的，因此在这个长度之外，我们自然会观察到性能下降。然而，准确率仍然保持较高，这表明我们的模型已经能够生成多样的持续时间。接下来，我们通过在60到100帧之间随机采样一个序列来训练具有可变长度输入的生成模型。然而，仅仅从随机的权重初始化开始这样训练会导致一个糟糕的解决方案，使得所有生成的动作都停滞不前。我们通过在固定大小的60帧上进行预训练，然后在可变大小上进行微调来解决这个问题。我们可以看

下载后可阅读完整内容，剩余1页未读，立即下载