基于演员-评论家的3D舞蹈生成：Bailando

59 浏览量更新于2023-10-25 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11050Bailando：3D Dance Generation by Actor-CriticGPT with Choreographic Memory李思瑶1于伟江2顾天培3、4林春泽4汪泉4陈倩4陈变来1刘子伟1陈1南洋理工大学2中山大学3加州大学洛杉矶分校4商汤科技siyao002@e.ntu.edu.sgweijiangyu8@gmail.comgutianpei@ucla.edu{林春泽，王全，钱晨}@ sensetime.com{ ccloy，ziwei.liu} @ ntu.edu.sg断裂：易断裂House Dance：能量升降图1：我们提出的方法在各种类型的音乐上生成的舞蹈示例。角色来自Mixamo [1]摘要驱动3D角色跟随一段音乐跳舞是非常具有挑战性的，因为编舞规范对姿势施加了空间此外，生成的舞蹈序列还需要保持与不同音乐流派的节奏一致性。为了应对这些挑战，我们提出了一个新的音乐到舞蹈框架Bailando，它有两个强大的组件：1）学习将有意义的舞蹈单元从3D姿势序列总结为量化码本的舞蹈编排记忆器，2）将这些单元组成与音乐连贯的流畅舞蹈的演员-评论家生成预训练的Transformer（GPT）。利用学习到的编舞理论，在满足高编舞标准的量化单元上实现舞蹈生成，使得生成的舞蹈序列被限制在空间约束之内。为了实现不同的运动节奏和音乐节拍之间的同步对齐，我们引入了一个基于演员-评论家的强化学习计划的GPT与新设计的节拍对齐奖励功能。在标准基准测试上进行的大量实验表明，我们提出的框架在定性和定量方面都达到了最先进的性能。No- tably, thelearned choreographic memory is shown to dis- coverhuman-interpretable dancing-style posesinanunsu-pervisedmanner. 代码和视频演示可在https://github.com/lisiyao21/Bailando/上获得。通讯作者1. 介绍基于音乐的三维舞蹈生成是一项重要的任务，因为它具有巨大的潜力，可以促进各种现实世界的应用，协助人类艺术家编排并驱动虚拟角色的表演。然而，由于两个主要挑战，在给定音乐上产生令人满意的舞蹈序列仍然非常困难：1）空间限制：并非所有物理上可行的3D人体姿势都适用于舞蹈。舞蹈体式的子空间对身体有着严格的位置标准，并根据舞蹈规范有选择性地具有视觉表现力和情感感染力。2）与音乐的时间一致性：生成的舞蹈序列应与各种类型节拍的音乐节奏一致，同时保持整个动作流畅。大多数现有的舞蹈生成研究都打算在一个巧妙设计的网络中解决这两个挑战，该网络直接将音乐映射到高维连续空间中的3D联合序列[3，19，37，11，2，30]。然而，这样的方法在实践中通常是不稳定的，并且倾向于回归到舞蹈子空间之外的非标准姿态，例如，冻结或无意义的摇摆。因为没有对目标域的显式约束来限制合成的舞蹈在空间上是合格的。为了处理空间限制，一些作品收集真实的舞蹈片段作为舞蹈单元，并通过拼接这些单元来编排[43，18]。虽然这些方法通过直接操纵真实数据来保证生成的舞蹈的空间质量，但是舞蹈单元的收集花费了巨大的人工努力，并且它们与不同的节奏不兼容此外-芭蕾爵士舞：单脚尖旋转中嘻哈：不经意的脚步11051量化特征舞蹈CNN解码器音乐特征均p0起始姿势代码位姿码序列均p0p1生成图2：Bailando的舞蹈生成管道。给定一段音乐，演员-评论家运动GPT根据音乐特征和起始姿势代码自回归地预测未来的上下姿势代码对。姿势代码序列然后通过学习的舞蹈记忆嵌入到量化特征中，最后由基于CNN的解码器解码成舞蹈序列。然而，由于其固定的长度和速度，这些单元不能重复用于不同类型的音乐节拍。针对现有方法的不足，本文提出了一种新的舞蹈生成框架Bailando，该框架包含两个主要部分，分别针对空间和时间的挑战。首先，为了解决空间的挑战，一个有限的字典量化的舞蹈单位，即舞蹈记忆，通过总结基本的和可重用的成分，从舞蹈风格的子空间中的运动。代替手动指示舞蹈单元，我们利用VQ-VAE [38]的最新进展以无监督的方式将3D关节序列编码和重新编码到码本中，其中每个学习的代码被示出为表示唯一的舞蹈姿势。为了进一步扩大编舞记忆可以表示的范围，我们将3D姿势分成组成的上半身和下半身，并分别学习半身的VQ-VAE，使得任何舞蹈片段都可以表示为成对姿势代码的序列。其次，为了生成时间谐波舞蹈序列，引入了一个类似GPT [34]的网络，称为运动GPT，由于3D姿势在舞蹈记忆中被分成合成的半个身体，我们用提出的交叉条件因果注意力层来增强我们的运动GPT，以保持生成的身体的连贯性。此外，为了在不同的运动节奏和音乐节拍之间实现准确的时间同步，我们应用了一种基于策略的强化学习方案，通过新设计的节拍对齐奖励函数进行演员-评论家[22]微调来进一步改善运动GPTBailando的推理过程如图2所示。给定一段音乐和一个起始姿势代码对，演员-评论家GPT自回归预测未来的姿势代码序列，然后将其嵌入到舞蹈记忆中的对应量化特征中，并最终由学习姿势VQ-VAE的专用基于CNN的解码器解码并合成为3D舞蹈序列我们的工作的贡献可以概括为三个方面：1）创建了一个舞蹈记忆来编码和再现舞蹈风格的3D姿态，这是由VQ-VAE以无监督的方式实现的。2）调整多样性运动节奏与不同类型的音乐节拍，一个演员-评论家的GPT结合舞蹈记忆和交叉条件因果注意。3）大量实验表明，我们提出的Bailando在自动度量和可视化判断方面都显着优于现有的最新技术水平。代码和模型将在验收后发布。2. 相关工作运动合成和音乐舞蹈。产生真实的人体运动已经研究了很长时间。一类典型的方法是基于图的方法。它们是基于“裁剪和粘贴”的思想开发的对于跳舞的音乐，对音乐节奏的进一步约束，包括源-目标音乐相似性[27]，节拍运动连接性[10]和深度节奏签名[18]，被引入到基于图形的方法的链接规则中，以将运动与音乐节拍对齐。然而，由于裁剪的舞蹈单元的节奏、长度和速度是固定的，基于图的方法会在不同的节奏上遇到时间冲突例如，在4/4拍号的音乐中裁剪的舞蹈单元不能合成3/4的运动，而60拍每分钟（BPM）的运动节奏不能适应80 BPM。因此，这类作品在有限的节奏范围内表现得很好近年来，随着深度学习的出现，许多作品设计了专用的网络结构，包括CNN [14]，RNN[37，3，40，15]，GCN[41，35，9]，GAN [25，36]和Transformers [29，30，28]，将给定的音乐直接映射到连续人体姿势空间的联合序列。由于缺乏明确的约束以将所生成的姿态保持在空间约束内，这样的方法将在推理期间回归到超出跳舞子空间除了各种方法之外，还从mocap和重建[37，3，44]中制作了不同的3D舞蹈序列数据。最近，一个大规模的3D舞蹈数据集AIST++ [30]是从多摄像机视频以及不同风格和速度的音乐Actor-CriticMotion GPT14 1314 1327 68编排存储器码本Z上/Z下07………01……N-2个N-111052姿态解码器DP∈∈∈ǁ −ǁZZ上/下半身序列...T（J3）e=arg minke-zkV...q，izj2Zij2量化T3图3：3D Pose VQ-VAE的结构。建议的3D姿态VQ-VAE学习编码和总结有意义的舞蹈单元到舞蹈记忆，并从量化的特征重建目标姿态序列。编码器和解码器的参数以及码本在训练期间被联合学习。从而促进对该任务的培训和测试。两个阶段的世代。两阶段方法，首先对数据进行编码，然后学习概率模型以生成编码，已应用于多个生成领域[7，42，8]。例如，Dhariwalet al. [7]提取音频特征并根据歌词生成歌曲，而最近Esser等人。[8]将感知丰富的图像成分编码为量化的补丁，并驯服Transformer以生成大分辨率的上下文合理的图像在我们的工作中，我们将有意义的舞蹈成分编码并存储到舞蹈记忆中，并通过将音乐和现有动作共同翻译为有针对性的未来姿势来生成视觉上令人满意的舞蹈3. 我们的方法我们的舞蹈生成框架Bai-Bai的概述如图2所示。与其他基于学习的方法不同，我们不学习从音频特征到3D联合序列的连续域相反，我们首先对空间标准舞蹈进行编码和解码，移动到有限码本Z={z}N-1中作为家务，舞蹈动作的编排过程可以看作是舞蹈动作位置的组合与连接虽然舞蹈在风格或速度上有很大的不同，但它们都有共同的舞蹈姿势。我们的目标是以无监督的方式将这些舞蹈位置总结成丰富且可重用的码本，而不是通过大量的人工努力来指示固定的舞蹈单元，使得任何舞蹈PRT ×（J×3），其中T是时间长度，J是关节量，都可以由码本元素序列表示其中T′=T/d，d是时间下沿。采样率，并且C是特征的通道维度。为了收集独特的姿势代码以及将它们有效地重建回表示的舞蹈序列，我们设计了如图3所示的3D姿势VQ-VAE。在该方案中，我们首先采用一维时间卷积网络E将三维联合序列P编码为上下文感知特征eRT'×C。然后，我们通过将每个时间特征ei替换为其最接近的码本元素zj，e q，i=arg min eizj。（一）zj∈Z3.1节中的图形存储器，其中ii=0最后，我们通过CNNDP解码量化的特征eqN是码本长度，并且每个码Zi被示出为表示具有上下文语义信息的舞蹈类姿势具体来说，我们分别学习上半身和下半身的VQ-VAE，并将舞蹈动作表示为一系列组成的上下姿势代码对p=[pu，pl]。然后，我们引入了一个运动GPT来翻译音乐特征和源姿态代码到第3.2节中的未来姿态代码。此外，为了实现生成的运动节奏和音乐节拍之间的同步对齐，我们在第3.3节中提出了对运动GPT的演员评论家学习以及我们新设计的节拍对齐奖励。生成的姿态码序列最后由VQ-VAE解码器解码合成3.1. 具有舞蹈记忆的3D Pose VQ-VAE并重建了舞蹈动作。合成人体姿势表示。为了通过在有限的舞蹈数据上训练来表示更大范围的运动，我们训练独立的3D姿势VQ-VAE，并分别为上半身和下半身学习两个单独的码本u和l，这样我们就可以组合不同的上下码对来扩大学习的码本可以覆盖的舞蹈位置的范围同时，为了避免由关节的全局移位（例如，相同的运动在其处于不同位置时可以被编码为不同的特征），我们对输入P的绝对位置进行归一化，即，将根关节（髋关节）设置为0。为了实现整体运动，我们增加了一个单独的解码器分支DV，它预测全局运动速度V∈RT×3，根据下面的位码舞蹈姿势，即，舞蹈动作中的意味姿态，是舞蹈作品的基本组成部分其中，V_t表示根关节在第（t+1）帧和第t帧。舞蹈记忆编码特征码本Z上/ Z下01量化特征N-2个N-1的t0C的t0C…姿势编码器ET（J 3）P全局速度解码器DVP…eQ11053位置嵌入FSF一上/下半身姿势代码动作概率舞蹈记忆01生成舞蹈Npu0波乌pu1pu+……一个u1波乌2特征嵌入前1选择2波乌3pl0p1LLp1LCNN解码器pl一2（3T0）C第2页LL（3T0）N音乐节拍…vu++vlTD错误（3T0）1Transformer层fvBeatAlign/HalfBodyConsistency奖励RL-2N -1电话+1LLZ∈ Z·L∈∈××K不0...不0...不142733136868273333686877图4：演员-评论家GPT。GPT学习顺序翻译上半身和下半身的源位姿代码[pu，pl]t t随着音乐功能m的目标得到未来的姿态代码[pult+1]中。通过交叉熵损失LCE与地面真相和演员-评论家损失LAC。学习稳定的3D姿势VQ-VAE。姿态编码器E和解码器DP经由以下损失函数与码本同时学习：LVQ=Lre c（P，P）+sg [e]−eq+βe−sg [eq]。（二）全局速度解码器分支是通过损失固定VQ-VAE其他部分的参数来学习的功能rec（V，V），其中V是地面真值全局速度rec是约束预测的3D关节序列与地面实况。在这种损失中，我们不仅回归了关节的原始3D点，而且还回归了运动的速度和加速度：3.2. 交叉条件运动GPT既然我们可以用一系列量化的位置代码来表示任何一段舞蹈，那么舞蹈生成任务就被重新定义为根据给定的音乐和现有的动作从代码簿中选择合适的代码用于未来的动作。对于任何目标时间t，我们估计每个z i的概率，并选择具有最大可能性的一个作为预测的姿态代码pit。由于我们将上半身和下半身分别建模，为了保持组合体的一致性和避免异步情况（例如，上半部分的方向与下半部分的方向相反），对未来AC的预测L（P，P）=P−P+α<$P<$′−P ′<$+α<$P<$′−P′<$，应在现有的上层和rec1 1 1 21（三）更低的移动以充分利用互信息：其中P′和P′′表示三维节理序列的一阶（速度）和二阶（加速度）偏导数布丘布勒=argmaxkP（zu|m1...t，pu=argmaxkP（zl|m1... t，pu−1，pl−1，pl−1）−1）不P的时间，而α1和α2是权衡权重。Exper-k...不0...不（四）初步结果表明，(See第4.2节）VQ的第二部分是学习码本条目的由于等式2的量化运算不可微分，为了端到端地训练整个网络该操作的反向传播是通过简单地传递eq到e的梯度来实现的。习得的舞蹈记忆代码是可解释的。在姿势VQ-VAE的训练过程之后，码本中的每个量化特征被解码为唯一的舞蹈位置。任何排列组合代码可以被解码成一段流畅的运动，我们引入了强大的GPT模型[34]来估计动作概率，如图4所示。给定一个长度为T′的舞蹈位置码序列，我们首先嵌入可学习特征uRT'×C的上下位姿代码和lRT′×C，并在时间维度上将它们与音乐特征m连接。然后，我们将学习的位置嵌入添加到这个连接的（3T′）C张量，并将其馈送到12个连续的Transformer层，其结构如图4所示。最后，我们使用线性变换和softmax层将Transformer层的输出映射到归一化动作概率a∈R（3×T′）×N，其中N是学习的码本的大小，并且at，i揭示了针对时间t+1预测的姿态码zi∈ Z的概率。上的动作概率下半部分的身体指数为au'=aT'：2T'-1l0：T−1线性Transformer层Transformer层辍学线性格卢线性层规范化交叉条件因果注意层规范化，p.11054对应的舞蹈姿势(See第4.3节）和a0：T '-1= a2T'：3T '-1。…线性/SoftmaxTransformer层Transformer层Transformer层Transformer层11055Σ×t=0--√0不 -1，而后6层Transformer沿不电话+1CET′不电话+1由决策网络决定。εR（T'−1）×1表示所谓的TD误差，计算如下：(a) 完全注意（b）因果注意（c）交叉条件注意图5：不同类型的注意力层次。提出的交叉条件因果注意实现了因果推理的内部(gray线）和帧间（蓝线）不同种类的组件（灰色和蓝色圆圈）。为了简洁起见，这里显示了两种成分，但实际上有三种（音乐，上半身，下半身）在Transformers [39]中，注意力层是确定数据的顺序元素之间的计算依赖性的核心组件，并且被实现为3.3. 演员-批评学习虽然用于运动GPT的监督学习方案是直接的并且易于训练，但是进一步涉及所生成的舞蹈的更灵活的约束（例如，加强舞蹈节拍的一致性的正则化项）转换为等式（6），因为监督目标是代码数，其不可微以计算对最终舞蹈序列的定量约束。为了解决这个问题，并实现不同的运动节奏和音乐节拍之间更准确的同步对齐，我们将演员-评论家学习应用于具有新设计的奖励函数的运动GPT。特别地，我们将GPT运动的前6个Transformer层视为“state network”.QKT+ MΣS s时间到'C（五）其中Q、K、V表示来自输入的查询、键和值，M是掩码，其确定注意层的类型。最常见的两种注意类型是与线性softmax层被视为网络此外，我们添加一个单独的三层Transformer分支作为v= vu+ vl= fv（s）T'：2T'−1+ fv（s）2T'：3T'−1。（七）对于定义良好的奖励函数R（t）=R（a，s），计算感兴趣时间的状态。因为我们的目标是不在推断未来的舞蹈位置代码时，我们采用了因果注意。然而，自从上一代和下一代强化学习的目标是最大化预期的累积奖励：半体是相互依赖的，我们不能像以前的工作[8，7]那样仅仅通过重新排序输入序列来适应因果关系来实现推理。因此，我们提出了一个注意层，即交叉条件注意，T'−1J=Eτt=0R（t）环，（8）满足音乐特征与上半身、下半身之间的因果交叉条件，其中M被设计为一个3 3重复的分块矩阵，其元素为一个大小为T ′的下三角矩阵。如图所示在图5中，建议的注意力可以交换信息-不同的组件之间的连接，并保证未来的信息不会被传送回过去。其中τ=atT'−1是决策网络预测的行动轨迹。然后，使用以下损失函数将该目标转换为优化决策网络的参数LAC=学习运动GPT。运动GPT通过以下方式进行优化：在动作概率a上具有交叉熵损失的监督训练：1T'−2t=0CrossEntropy .阿哈，帕哈Σ·sg[εt],T'−1其中p= arg maxah 是姿势代码前的数字L=1Σ交叉熵。ah，phΣ。（六）电话+1it，i∈给定姿势代码序列p0：T'-1和相关音乐特征m1：T'作为输入，学习的GPT一次性输出动作序列a0：T'-1以预测p1：T'。这种并行特性使Transformer成为强化学习的理想模型[16，5]。在下面的小节中，我们采用学习的运动GPT作为预先训练的策略制定者，并提出了一种新的基于演员-评论家的微调ε0：T'−2=r0：T'−2+sg[v1：T'−1]−v0：T'−2，（10）其中rt=R（t）。公式（9）的详细推导可以在补充文件中找到。同时，通过对v0：T'-2和R（at，st）+v1：T'-1之间的差异进行自举训练来优化评价值网络：Attention（Q，K，V，M）=softmaxVT′−1h=u，l（九）t=0h=u，l11056计划，以进一步提高其业绩作为补充12对上述监督培训的贡献。Lv=T′− 1 <$ε<$2。（十一）11057音乐节拍舞蹈节拍1111- 1RbnuXZnunlnlXZ时- 平面LLL×、、、××线性变换块大小TGPT的设置为Rc（t）=XZXZXZXZL0天2天3天4天5天(a)（b）第（1）款图6：设计奖励。（a）节拍对齐奖励惩罚具有音乐节拍的间隔的舞蹈节拍的缺失。(b)半身一致性奖励是根据半身法线方向之间的角度计算的，以防止混淆。演员-评论家损失AC的计算取决于由运动GPT预测的实时动作，并且优化方向取决于TD误差的值当ε t为正时，对AC的优化将增强对预测码p_t+1 的相关性，而在相反的情况下，对p_t+1的估计概率将降低。TD-错误的值和学习效率强烈地受到奖励函数R的影响。在这项工作中，我们设计了一个运动音乐节拍对齐奖励，以产生更准确的音乐节奏的舞蹈。如图6（a）所示，节拍对齐奖励定义为：R（t）=.−1，musicbeat<$$dancebeats∈P<$Edge是配对音乐和运动的最大的公共可用数据集。该数据集包含992个SMPL格式的高质量60FPS 3D姿势序列[31]，其中952个用于训练，40个用于评估。实施详情。在这项工作中，上半身和下半身的编排记忆码本大小N被设置为512，而编码特征的通道维度C为512，编码器的时间下采样率d为8。卷积编码器和解码器的结构在补充文件中提供。在训练VQ-VAE时，将舞蹈数据裁剪为T=240（4秒）的长度，并以32的批量大小进行采样。V Q中的提交损失权衡β为0。1，而α1和α2rec都被设置为1。我们采用亚当优化器[21]其中β1= 0。9和β2= 0。99训练姿势VQ-VAE400个时期，学习率为3 10−5。对于运动GPT，我们遵循结构镜像[20]，其中通道维度为768，并且注意力层在12个头中实现，丢弃概率为0。1.一、通过对公共音频的处理，提取了音乐特征工具箱 Librosa [17] ，包括梅尔频率倒谱系数（MFCC），MFCC增量，恒定Q色谱图，温度图和起始强度，总共438-dim，并通过学习映射到GPT的相同维度′b1，否则，（十二）29岁在训练时，舞蹈序列首先被编码为姿势代码p，并被采样为长度30，其中p0：28是其中P0：T−1=D（p0：T'−1）是舞蹈动作序列从预测的舞蹈位置代码中解码出来同时为为了避免在演员-评论家学习过程中上半身和下半身之间的成分一致性，我们引入了成分一致性奖励，以在上半身和下半身处于相反方向的情况下施加惩罚：Rc（t）=infRc（t），t∈[dt，d（t+1）），（13）哪里. . nu（t），nl（t）n，. nu（t），nl（t）0<用作输入，p1：29是监督标签。使用Adam优化器优化运动GPT，其中β1= 0。5和β2= 0。99，其中学习率初始化为310−4，并在200个epoch后衰减，因子为0的情况。1.一、在演员-评论家微调过程中，我们采用110−5的小学习率来学习10个epoch的fa和fv 回报权衡γb和γc分别为5和1在我们的实验中，姿态VQ-VAE和运动GPT是在GPT的学习过程中，VQ-VAE的权重是整个框架在一个Tesla V100 GPU上学习三天。在测试过程中，运动GPT采用一对起始姿势代码，1，否则。（十四）可以手动指示或随机采样，如这里，nu（t），nl（t）是上和下的法线方向，输入并自回归地生成运动序列，XZ XZ投影到x-z平面上的P射线的下半部分，如图6（b）所示最后的奖励是R b和Rc的加权组合，R = γ b R b+ γcRc。在微调过程中，我们固定状态参数，网络Fs，并使用上面介绍的损失以小的学习率交替地训练策略制定网络Fa和临界值网络Fv After suchfinetuning, the proposed framework will be furtherenhanced.4. 实验数据集。我们对[30]中提出的AIST++数据集进行训练和评估，据我们所知，只要目标音乐。评估指标。在量化评价方面，我们从生成舞蹈的质量、动作的多样性和音乐节奏与生成动作的一致性三个方面对生成舞蹈进行了具体而言，对于舞蹈质量，我们计算了基因化舞蹈与AIST++数据集的所有运动序列（包括训练和测试数据）之间的Fre'chetInceptionDistances （ FID ） [13] ，运动特征 [ 33]（表示为对于多样性，我们计算平均特征距离舞蹈速度td：（t+1）d11058†-2σ2L表1：AIST++测试集的定量结果。最佳值和亚军值分别用粗体和下划线表示。在比较的方法中，DanceNet和FACT复用了AIST++基准测试[30]的相同结果，而DanceRevolution [15]则使用官方发布的代码进行了最佳设置。FIDk和DIVk从[30]中获取，而FIDg和DIVg使用官方更新的评估代码重新计算* 生成的舞蹈高度抖动，使其速度变化极高，这也在[30]中报道。运动质量运动多样性用户研究方法地面实况FIDk↓17.10FID<$g↓10.60Divk↑8.19Div↑g↑7.45Beat Align得分↑我们的方法获胜0.2374 40.0%± 25.2%Li等[29日]86.4343.466.85公斤3.320.1607 100.0%± 0.0%[44]第四十四话69.1825.492.862.850.1430 92.7%± 12.1%[15]第十五话73.4225.923.524.870.1950 84.5%± 10.8%事实[30]35.3522.115.946.180.220998.2%± 3.9%Bailando（我们的）28.169.627.836.340.2332[30]后的动作。关于音乐和生成的运动之间的对齐，我们计算每个音乐节拍和其最接近的舞蹈节拍之间的平均时间距离作为节拍对齐分数：Bailando能够生成具有高舞蹈多样性的舞蹈而不是收敛到少数模板，并且还实现了音乐与运动之间的相关性的改善。用户研究。为了进一步了解真正的视觉性能-根据我们的方法，我们在1|BM| tm<$∈Bmexp.mintd ∈Bd <$t d− tm<$2，（15）每种方法生成的舞蹈序列和AIST++测试集中的地面真实数据。实验分别由11名参与者进行。对于每个部分-其中Bd和Bm分别记录舞蹈和音乐中的节拍时间，而σ是归一化参数，在我们的实验中设置为34.1. 与现有方法的我们比较我们提出的模型，包括李等几个国家的最先进的方法。[29]，DanceNet [44]，DanceRevolution[15]，FACT [30].对于每种方法，我们在AIST++测试集中生成40段舞蹈，并对生成的长度为20秒的舞蹈序列进行采样，以计算上述评估指标。我们还计算了AIST++测试集中地面真实数据的定量分数，并将其与生成的舞蹈进行比较。定量结果示于表1中。根据比较，我们提出的模型始终表现优于所有其他现有的方法对所有评估。具体来说，我们的方法改进了7。19（20%）和12。49（56%）分别比FID k和FID g上的最佳比较基线模型FACT，甚至比地面实况（9. 62对10个。第60段）。如果仔细观察这两种特征的指标运动学特征以运动速度和能量为基础，反映了舞蹈的物理特征; 2几何学特征以多个人工动作模板为基础，反映了舞蹈的编排质量我们的方法的舞蹈质量指标的优越性表明，Bailando不仅合成更真实的动作比比较基线的方法，但也取得了优异的表现组织的动作舞蹈通过建议的演员-评论家GPT计划与学习的编舞记忆。同时，我们随机播放50组长度约为10秒的对比视频，每组包含我们和一名参赛者在同一音乐中的结果，并要求参与者指出“哪一统计数据如表1所示。值得注意的是，我们的方法显着超过了最先进的方法，至少有84。5%的胜率。即使在com-实话实说，我们生成的舞蹈中有40%是在平均水平上被评为最佳根据反馈从参与者的角度来看，我们生成的舞蹈更加“节奏稳定”，具有“更高的多样性”，而我们的各舞种的详细胜率分布可参见补充文件。4.2. 消融研究我们分别对姿势VQ-VAE和运动GPT进行消融研究。定量评分见表2。本研究的视觉比较也可参考补充视频。VQ-VAE姿势我们探索以下组件的有效性：（1）上下半体分离，（2）全局速度预测分支，（3）rec中使用的速度和加速度损失。我们分别在没有这三个组件的情况下训练三个变体模型。VQ-VAE测量的运动质量基于AIST++测试集的地面真实值的重建结果。如表2所示，变体上/下”在12岁时变得更糟。98（46%）和3。22例（25%）。VQ-VAE全身训练Σ11059表2：AIST++测试集上的消融研究实验分别在姿势VQ-VAE和GPT上进行。方法FIDk↓FIDg↓BAS↑地面真理17.10 10.60w/o。上/下41.21 15.85w/o。全球vel70.95 18.52w/o。vel./ acc. 亏损30.91 11.87POS全姿态VQ-VAE28.2312.63–w/o。量化42.71 147.28w/o。交叉条件att.37.41 15.52w/o。演员评论家28.75 11.82 0.2245全演员-评论家GPT28.169.620.2332不能有效地重建测试集的舞蹈姿态。因此，上半身和下半身的分开表征对于扩大舞蹈记忆所能涵盖的姿势范围是必要的。对于全局速度分支，“w/o.全球vel”急剧下降42. 72（151%）和5。89（47%），这表明孤立的速度预测是关键的代表舞蹈运动。为了“不”。vel./在“acc. loss”变体中，FID k恶化2。68岁虽然FIDg值的vel./损失”略有改善0。76，如果不采用vel./辅助视频中训练的ACC丢失。运动GPT。对于建议的演员-评论家GPT，首先，我们通过训练变体GPT直接回归到3D关节序列的编码特征，通过L2损失来探索量化的编舞记忆的效果。所示表2 ，FID g下降 135 。 41 为变式“w/o”。quantiza ，quantiza（与“w/o”相比）演员评论家生成的舞蹈序列包含频繁的视觉抖动，这表明舞蹈位置的量化对于我们提出的框架是必要的。其次，为了验证所提出的交叉条件因果注意的有效性，我们将其替换为因果注意，并分别训练上半身和下半身的两个运动GPT。“w/o. 交叉条件 att.”下降8. 66（30%）和3。70例（31%）。其主要原因是生成的舞蹈中存在频繁的上半身和下半身的重叠而提出的交叉条件注意层可以通过半身之间的信息交互来有效地防止这种情况最后，我们比较了具有（表示为“完全演员-评论家GPT”）和没有演员评论家微调（表示为“w/o”）的模型演员评论家”）。在演员-评论家学习之后，运动GPT的节拍对齐分数（BAS）从0增加。2245比0 2332，证明了强化学习方案的有效性与提议的节拍对齐奖励。同时，通过约束与音乐的一致性，演员-评论家微调过程也可以提高编舞的运动质量，并显着提高FID g得分2。20人（19%）。p0，p 0Dp1，p1Dp0， p1D图7：编排内存代码的可解释性。单个代码的序列被解码为静态姿态，而两个不同代码的序列被解码为两个姿态之间的平滑过渡，这意味着每个代码代表舞蹈风格的姿态，并且解码器将不同代码的姿态与运动相关联。4.3. 舞蹈记忆在这项工作中，我们提出了通过姿势VQ-VAE以非监督的方式将有意义的为了了解在舞蹈记忆中学习到了什么样的舞蹈单元，我们将潜在代码可视化如图7所示，第一行和第二行分别是从p0=[4，4]和p1=[5，5]解码的3D姿态，其中前一行是右腿抬起，后者是右二头肌卷曲。解码后的姿态对于重复编码保持静态，并在不同编码的姿态之间进行平滑过渡。如图7的第三行所示，[p0，p1]的解码3D姿态从p0的姿态开始，同时逐渐放下腿并将手臂朝向p1的姿态混合。此外，对于学习的舞蹈记忆代码的任意组合有了这样的特点，舞蹈编排过程成为解释在拟议的Bailando作为一个过程中的选择和排序的量化的舞蹈位置从学习的舞蹈记忆，而不是一个黑盒子，因为大多数以前的作品。5. 讨论和结论在本文中，我们通过提出一种名为Bailando的新框架来解决3D舞蹈生成的空间和时间挑战，该框架由舞蹈记忆器和演员评论器GPT组成，舞蹈记忆器通过编码和量化舞蹈风格的姿势来解决空间约束，演员评论器GPT用于实现与音乐的时间一致性，翻译和对齐各种运动节奏和音乐节拍。在标准基准上的实验（即，AIST++数据集）以及用户研究表明，Bailando在定性和定量方面都达到了最先进的性能谢谢。这项研究由新加坡国家研究基金会在其人工智能新加坡计划（AISG AwardNo.：AISG2-PhD-2022-01-031）。这项研究是与SenseTime合作这项工作是由NTU NAP和A*STAR通过产业联盟基金-产业合作项目赠款支持。我们感谢李瑞龙、杨珊和陈志远在这项工作中的帮助。e VQ-VAEGPT11060引用[1] 米萨莫 https：//www.example.comwww.mixamo.com/。[2] Hyemin Ahn 、 Jaehun Kim 、 Kihyun Kim 和 SonghwaiOh。从音乐合成三维舞蹈动作的生成自回归网络 IEEERobot. 自动的。Letters，5：3501 - 3508，2020。[3] OmidAlemi ， JulesFrancóoise ， andPhilippePasquier.Groovenet：使用人工神经网络的实时音乐驱动的舞蹈动作生成。网络，8（17）：26，2017。[4] Okan Arikan和David A Forsyth.从示例生成交互式运动ACM TOG，21（3）：483[5] Lili Chen，Kevin Lu，Aravind Rajeswaran，Kimin Lee，Aditya Grover，Michael Laskin，Pieter Abbeel，AravindSrinivas，and Igor Mordatch.决策Transformer：通过序列建模的强化学习。arXiv预印本arXiv：2106.01345，2021。[6] Xinlei Chen，Kaiming He.探索简单的连体表征学习。在CVPR，2021年。[7] Prafulla Dhariwal、Heewoo Jun、Christine Payne、JongWook Kim、Alec Radford和Ilya Sutskever。音乐的生成模式。arXiv预印本arXiv：2005.00341，2020。[8] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在CVPR，2021年。[9] Jo aPedroKlockFerreira，ThiagoM. 蒂亚戈？库蒂尼奥戈麦斯、何塞·弗朗西斯科·内托、拉斐尔·阿泽维多、雷纳托·马丁斯和埃里克森·R·纳希门托学习跳舞：图卷积对抗网络，从音频中生成逼真的舞蹈动作。 Comput.Graph. ，94：11[10] 鸠山悟和后藤正孝。音乐内容驱动的自动编排与节拍明智的运动连接约束。SMC，第177-183页[11] Shiry Ginosar ， Amir Bar ， Gefen Kohavi ， CarolineChan，An- drew Owens和Jitendra Malik。学习个人风格的会话手势。CVPR，2019年。[12] Deepak Gopinath和Jungdam Won。fairmotion -加载、处理和可视化运动捕捉数据的工具。Github，2020年。[13] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，30，2017。[14] 丹尼尔·霍尔登斋藤纯和高村拓用于角色运动合成和编辑的深度ACM TOG，35（4）：1[15] Ruozi Huang，Huang Hu，Wei Wu，Kei Sawada，MiZhang，and Daxin Jiang.舞蹈革命：通过课程学习与音乐一起进行长期的舞蹈ICLR，2021年。[16] Michael Janner，Qiyang Li，and Sergey Levine.强化学习是一个大的序列建模问题。在NeurIPS，2021年。[17] Yanghua Jin，Jiakai Zhang，Minjun Li，Yingtao Tian，Huachun Zhu，and Zhihao Fang.基于生成对抗网络的动画角色自动生成。arXiv预印本arXiv：1708.05509，2017。[18] Chen Kang，Zhipeng Tan，Jin Lei，Song-Hai Zhang，Yuan- Chen Guo，Weidong Zhang，and Shi-Min Hu.编舞：舞蹈编排导向的音乐驱动的舞蹈合成。在SIG-GRAPH，2021年。[19] 高宣凯和李肃。时间引导的音乐到身体运动生成。ACMMM，2020年。[20] 安德烈·卡帕西https：//github.com/karpathy/minGPT，2020.[21] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。见ICLR，2014年。[22] Vijay R Konda和John N Tsitsiklis。演员-评论家算法。在NeurIPS，2000中。[2

下载后可阅读完整内容，剩余1页未读，立即下载