多舞种舞蹈生成：MNET基于Transformer架构的条件生成对抗网络

129 浏览量更新于2023-10-25 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3490一种全新的舞蹈伙伴：多舞种Jinwoo Kim1，Heeseok Oh2，Seongjean Kim1，Hoseok Tong1 and SanghoonLee*1 1延世大学2韩星大学摘要当提出运动短语时，编舞者都有自己的习惯，因为他们习惯于自己熟练的舞蹈类型。因此，他们倾向于返回他们所熟悉的舞蹈流派的某些节拍。如果人工智能可以用来帮助编舞者通过建议各种舞蹈来混合舞蹈类型，并且与他们的编舞风格相匹配，那会怎么样？自回归网络的许多特定任务变体已经被开发用于舞蹈生成。然而，一个严重的限制仍然是，所有现有的算法可以返回重复的模式，为一个给定的初始姿态序列，这可能是在-劣。为了缓解这个问题，我们提出了MNET，一种新的和可扩展的方法，可以执行音乐条件下的多元舞蹈生成合成的多个舞蹈流派，只使用一个单一的模型。在这里，我们通过训练利用Transformer架构的条件生成对抗网络来学习舞蹈类型感知的潜在表示我们在AIST++上进行了大量的实验以及用户研究。与现有的方法相比，本文的方法能够根据多种舞蹈类型综合出合理的、多样的1. 介绍舞蹈一直被认为是一种比语言更能有效地分享情感的通用语言如今，许多人通过TikTok和Youtube Shorts等短视频应用程序分享他们的生活日志[27，54]。然而，舞蹈是一个高度创造性和艺术性的过程，因此经常遵循专业训练，以表达一种优雅和有节奏的感觉，在一个简短的视频自己的故事。为*通讯作者。由于这个原因，尽管取得了显著的进展，但音乐调节的舞蹈产生是一项具有挑战性的任务，它应该有节奏地捕捉高运动学复杂性。最近，深度自回归网络已被用于合成舞蹈动作，学习与输入音乐的长期大多数最先进的（SOTA）方法[21，29，37，38]利用RNN或Transformer架构，并为给定的初始姿势序列生成舞蹈与音乐虽然以前的研究产生的时间上的一致性序列根据音乐，我们发现，所有现有的算法仍然严重有限的多样性，通过延长一个给定的初始姿态序列到一个重复的模式。虽然熟练的舞者和编舞者经常重复舞蹈模式，但他们试图巧妙地使舞蹈线条多样化。因此，缺乏多样性的问题是至关重要的舞蹈合成。本文主要探讨由多种舞蹈体裁合成的音乐制约的多元舞蹈生成问题。多元舞蹈生成的关键挑战是产生与音乐节拍一致的感知现实和各种运动。为了克服这一挑战，我们提出了一种通用的新方法，通过Transformer Conditional GAN弥合了音乐条件序列到序列学习和最近的无条件生成架构之间的差距。具体来说，我们利用Transformer解码器的生成能力，通过自注意模块嵌入条件和随机表示。通过注入一个潜在的代码，并查询一定的音乐和初始姿势序列的持续时间，所提出的模型，使合成的多样性和一致的舞蹈，如图1所示。然而，在多领域的翻译任务中，为了合成由多个舞蹈类型控制的舞蹈，注入带有条件的潜在代码是一个无效的过程，它不能扩展到越来越多的领域。如在多域图像到图像变换中所讨论的3491图1. 目标：我们学习一个音乐条件Transformer网络（MNET），以产生不同的舞蹈动作后的节拍。给定音乐，我们的模型不仅在一个舞蹈流派（左两行）内生成不同的序列，而且在音乐期间合成不同的舞蹈流派（右两行）。Lation文献[4，22，28，42，46]中，给定k个域，需要k（k-1）个生成器来充分处理每个域之间的转换，从而限制了它们的实际使用。为了解决可扩展性问题，我们采用了两个模块，一个映射网络和一个多任务神经网络，用于受[10]启发的序列到序列生成学习。映射网络学习将随机高斯噪声转换为每个舞蹈流派代码，这被称为特定领域的风格代码对于多任务识别器，我们将分类器的角色赋予Transformer编码器，其中该模块按照标准GAN设置执行每个样式的分类。考虑到多个域，两个模块都有多个输出分支。最后，我们的生成器学会了成功地合成不同的舞蹈动作在多个领域与一个单一的模型，利用一个对抗的框架。本文的主要贡献有三个方面：（1）引入了一个新的基于transformer的条件GAN框架MNET，并通过对多个舞蹈类型的（2）我们证明了在视觉质量和经验度量方面，学习生成可扩展到多种舞蹈类型的逼真和多样化的舞蹈动作是可能的（3）我们在AIST++数据集上对结构和损失分量进行了深入的消融研究，该数据集包含从与音乐和多种舞蹈类型配对的真实舞者重建的3D运动代码将用于研究目的。专题主页2. 相关工作从音乐到舞蹈的一代。与常见的运动合成不同[2，3，7，17-由于2D人体姿势估计的成功[8]，大多数早期的作品都是通过从在线舞蹈视频中提取大量成对的姿势和音乐，在2D姿势背景下进行研究[16，29，32，53，55]。而3D舞蹈生成则需要捕捉高运动复杂度的动态合成。已经提出了各种方法来处理此任务，其中已经探索了LSTM [31，61，67]，GAN [29，57]和序列到序列方法[1，21]最新的方法采用基于transformer的架构。TSMT [37]采用双流运动Transformer来计算输出姿态的离散表示，这会降低运动质量。FACT [38]提出了一种基于全注意力的跨模态Transformer，其采用序列到序列学习来生成更逼真的3D舞蹈序列。与之前的作品接近，DanceNet3D [35]也采用了transformer架构，但他们进一步引入了运动链网络，使模型能够适应运动的时间局部性。与这些先前的工作相比，我们的目标是通过Transformer架构以受控的方式嵌入条件和随机表示来合成舞蹈动作跨模态序列到序列学习。跨模态序列到序列生成任务的大多数示例通常由视觉和文本之间的建模主导，例如图像/视频字幕[25，41，59]和文本到图像生成[52，62] 。随着最近多头注意力模块的成功，基于transformer的方法现在接近于实现许多序列到序列学习任务的SOTA性能的事实架构[13，23，36，56，64]。3D舞蹈生成天生需要同时考虑舞蹈和音乐之间的一致性。该框架与学习一种通用的多模态生成任务的研究密切相关多域合成。多域合成已经讨论了很久，特别是在图像到图像的翻译中，旨在学习不同视觉域之间的映射。大部分作品都注入了低维的潜3492≫|×∈t=1∈t=1不t=m+1图2. 方法概述：我们说明了我们基于transformer的条件GAN的生成器（左）和生成器（右），以生成由多种舞蹈类型合成的各种舞蹈动作。映射网络将潜在代码转换为多种舞蹈类型的风格代码。该生成器以种子运动序列和乐曲序列为查询，以风格码为键和值，输出远程未来运动。给定具有对应音乐作品的真实（假）运动的序列，该方法区分来自多个域的真实运动和假运动。代码到生成器中，并在生成图像时将两个域之间的采样代码映射为各种风格[22，22，28，42，45]。但是，它们仅限于扩展不断增加的域数量。为了解决多域可扩展性，StarGAN [9]使用单个生成器学习所有可用域之间的映射，但仅限于学习每个域的确定性映射。为了在多个域中获得不同的图像，StarGAN 2 [10]引入了一个映射网络，用从随机高斯噪声中采样的特定样式代码替换其域标签受图像到图像翻译成功的启发，我们的工作探索了考虑多种舞蹈流派的音乐条件Transformer生成对抗网络。最近，跨前模型在语言任务中表现出了示范性的表现 [6 ， 11 ， 58] 。视觉Transformer增加了人们对神经网络模型的兴趣[12，14，39]。几项工作利用Transformer作为生成式对抗训练，从采样的潜在噪声中学习数据分布，该噪声完全没有卷积[24，33]。在这项工作中，我们采用变压器的强大表示能力，以弥合音乐条件序列到序列学习和无条件生成架构之间的差距，为条件和随机表示。3. 音乐条件下的多元舞蹈问题定义。假设我们有一个数据集D={x，y}，其中x={xt}m是运动序列，y={yt}n是一个音乐片段。上一篇：Dance Gener-由运动x和较长的音乐序列y的快速样本调节的运动x∈={x∈}m′，其中nm′。这导致只有一个解决方案与固定的舞蹈流派。相比之下，我们的目标是从p（x=x，y，s）中采样，其中s是多种舞蹈流派的任意风格。运动和音乐表现。对于3D舞蹈生成，我们采用SMPL姿态参数[40]，其表示运动树中关节旋转的243个标量值。我们将所有24个关节的6维旋转矩阵表示[30，34，65]与3维全局平移向量相结合，得到xtR147运动表示。对于音乐数据，我们遵循先前的工作，通过采用公开可用的音频处理工具箱Librosa[43]来提取包含1-dim包络、20-dim MFCC、12-dim色度、1-dim one-hot峰值和1-dim one-hot节拍的ytR353.1. 条件Transformer GAN目标是在给定x、y和s的情况下，使用Transformer生成器G生成由多种舞蹈流派合成的多样舞蹈。因此，模型可以基于G（x，y，sj）生成dance x，其中j是多个域的index。在这里，我们首先提出映射网络F生成每个舞蹈流派的风格代码s。然后，我们介绍了我们的序列到序列的架构，Transformer解码器G，选择了多元化的舞蹈生成。最后，我们介绍了一个变压器编码器D的多任务判别器的作用。该过程在图2中描绘。映射网络。受现有工作的启发[10]，映射网络工作从gi v en生成样式代码sj=Fj（z转换方法试图为所有可用的舞蹈类型重建未来潜在代码z的序列，其中j是索引3493·∈Z∈ ZΣ¨Σ¨L−Σ¨ ¨ ΣLL L− L每个领域。F由堆叠的MLP组成，具有对应于所有可用域的多个输出分支。这使得F可以通过对潜在代码z进行采样来产生多样化和可扩展的风格代码。发电机设计。设计一个基于transformer架构的G是一个不平凡的任务。一个挑战是，GAN训练在与对抗训练期间受到高方差梯度阻碍的多头注意力模块因此，我们根据经验选择了架构设计，并在第4.4节中讨论了几个基线。对于我们的选择，我们采用了一个Transformer解码器作为G。给定种子运动x和音频特征y，这些被连接并作为查询馈送。相反，来自映射网络的样式代码s作为键和值被馈送。Transformer解码器通过线性投影输出x的序列鉴别器设计。与G类似，基于Transformer的BLOGD采用串联的实数（假实数）运动xm+1：m′ （x=m+1：m′）和音频特征y，但我们采用Transformer编码器作为编码器。以允许G用于合成反映所有流派风格的舞蹈序列，D是多任务的子系统，其由多个输出分支组成每个分支Dj将舞蹈分类为其域j的真实和虚假。3.2. 培训总的来说，该架构使用对抗性损失以及一些额外的损失进行训练。我们在第4.4节中介绍了一项关于功能丧失的消融研究。对抗性损失。给定种子运动x及其舞蹈流派索引j和对应的音乐特征y，我们采样潜在代码z，并提取目标风格代码sj=Fj（z）。生成器G取x，y和sj，以通过原始对抗损失生成输出舞蹈序列G（x，y，sjLori=Ex[logDj（xj，m+1：m′，y）]+（1）Ex，z[log（1−Dj（G（xj，y，sj），y））]，其中，Dj（）的目标是将生成的运动序列与对应于特定域j的真实运动序列区分开。而G通过映射网络F学习使用风格码sj，并生成与域j的真实运动序列不可区分的输出。我们的目标是不仅要产生不同的舞蹈动作，但也合成序列的风格代码，代表多种舞蹈流派。假设我们有一个舞蹈动作xj，代表风格sj作为种子动作，我们将其用作生成器的输入，以使用不同的风格si合成一个舞蹈动作G（xj，y，si）。我们发现，Transformer条件GAN侧重于种子运动序列，该种子运动序列根据xj而附着于样式变体，并且忽略输入样式变体si。为了进一步保证生成的运动序列正确地保留特定于域的风格，而不管种子运动xj如何，我们采用风格聚焦项Lsty=Ex，z[logDj（G（xj，y，si），y）+（2）log（1 − Di（G（xj，y，si），y））].通过间接地将每个子分支的输出分开，生成器可以更专注于样式代码，鼓励每个域学习分解的表示。因此，新的对抗性损失现在可以被合并-Ladv=Lori+Lsty外观匹配损失。该模型的输出是未来的运动序列监督的外观匹配损失使用姿态参数和顶点坐标。因此，我们使用L2损失之间的地面实况姿态序列xm+1：m′我们的预测x<$m+1：m′ 为G（x，y，sj）为p=Exxm+1：m′xm+1：m′二、F或姿态参数，我们包含SMPL旋转全球翻译。对于全局一致性，我们进一步最小化地面实况和预测顶点之间的距离 [49]我们将把一个人，具有平均形状（即，β=β0）作为a部分端到端框架，以获得以根为中心的网格的顶点vm+1：m′ 和v<$m+1：m′-是的通过最小化顶点 L2 距离，我们定义顶点损失为 Lv=Evvm+1：m′−v<$m+1：m′二、最后，我们的外观匹配损失由Lapp= Lp+ Lv给出。风格多样性丧失。为了进一步鼓励发电机G为了产生多元的舞蹈动作，我们通过多样性损失明确地正则化G[10，42]Ldiv=Ex，z1，z2，j[<$G（x，y，sj，1）−G（x，y，sj，2）<$2]，（3）其中，由F产生的t_r_get样式码sj，1和sj，2以两个随机噪声z1和z2为条件。映射序列G（x，y，sj，1）和G（x，y，sj，2）在同一个舞蹈类型j更可能被折叠成相同的模式。通过最大化同一体裁中的div，我们的模型更多地关注有助于输出多样性的输入样式代码的变化。整体损失。因此，总损失可归纳如下：min maxadv+appλdiv div，（4）G、F和D其中λdiv是权重的重要性，用于确定多样性和真实运动序列之间的权衡（参见附录的B在我们的实验中，剩余损失项的加权因子具有相同的权重3494−∈∈∈∈∈∈运动的可能性产生多样性运动音乐的缺点。用户研究FID k↓FID g↓FID s↓Acc. ↑距离m，k↑距离m，g↑距离m，s↑ BeatAlign↑ MNETWinRate表1. 最先进的比较：我们比较了最近的三种方法。我们的模型生成合理的运动序列比其他基线的FID，更好地代表了舞蹈流派的风格，通过Acc.其中的分数评估所生成的舞蹈风格的一致性。我们的模型显示了更多样化的舞蹈动作时，不同的音乐和更一致的结果与输入的音乐节拍。↓数值越低越好。↑值越高越好。3.3. 实现细节在我们的实验中，我们将种子运动序列的输入设置为m = 120帧（2秒），并将音乐序列设置为n =240帧（4秒），然后进行随机设置[38]，其中两个序列在第一帧上对齐。我们的生成器的输出是未来的运动序列，其中m′m=60帧，由专业人员监督，造成损失。在推理过程中，我们不断生成以自回归的方式预测未来的运动。种子运动被新生成的运动所取代，音乐被移位60帧，以在每一步馈送到生成器中。我们使用一个8块的Transformer编码器的Discrim- inator和我们增加了块的数量为12的Transformer解码器的发生器。所有两个变压器都有8个注意力头，d=512个隐藏尺寸。我们通过实验发现，在条件GAN训练期间，增加头部数量并不能提高性能，我们将在B节中讨论。此外，我们对所有Transformer架构使用相对位置编码，而不是绝对位置编码[12，58]。根据[20，39]，相对位置偏差BRNq×N为包括在计算自我注意力注意力（Q，K，V）=SoftMax（QKT/T+B）V，（5）其中，QRNq×b，K，V RNN×b分别是查询、键和值度量，Nq是长度为的查询序列，N是长度为的键值序列。我们使用AdamW优化器，固定学习率为λ= 1e−4，所有权重都随机初始化。我们所有的实验都是用10个小批量训练的。性能对这个参数很敏感，我们在B节中讨论。训练结束后， 500k 步8 个 GPU ，累积VRAM96 GB。如果硬件允许，则启用164. 实验4.1. 数据集和基线AIST++数据集。3D舞蹈生成方法中最大的瓶颈之一是数据问题。敬米提-门这个问题，最近的作品[16，21，29，35]收集了大量的舞蹈视频在互联网上，并提取3D姿态序列与同步音频。然而，大多数数据没有公开发布，并且由于2D到 3D 深度的模糊性而可能不可靠。相比之下，AIST++[38]是从校准的多视图视频捕获的大规模3D人类舞蹈该数据集有各种各样的3D运动与音乐配对，其中包含1408个序列，30个主题和10个舞蹈流派。所有的实验都是在AIST++数据集上进行的。基线。对于综合评估，我们主要将我们提出的方法与FACT [38]进行比较，FACT[38]显示了3D舞蹈生成的当前SOTA结果。此外，我们采用SOTA 2D舞蹈生成方法Dancenet [66]和DanceRevolution [21]。我们采用这一点与小的修改，以产生3D关节位置，使定量和定性的直接比较。这些模型被重新训练，直到在使用AIST++的每个研究中提出的相同实验设置之后收敛4.2. 定量比较为了评估我们的方法，我们按照[21，37，38]测量（1）运动可行性，（2）世代多样性和（3）运动音乐一致性。对于所有标准，我们的模型与基线相比表现出更好的性能，如表1所示。运动可扩展性。我们测量几何和运动学的Fre'chet起始距离（FID）的运动可扩展性。为了测量生成的舞蹈和地面实况舞蹈的分布，采用了两个精心设计的运动特征提取器[44，47]，其产生动力学特征zkR72和几何特征zgR33。此外，委员会认为，我们对10个舞蹈流派的舞蹈动作训练了一个风格分类器，并利用它提取了一个风格特征zR512用于给我跳舞。我们将基于这些几何特征、动力学特征和样式特征的FID表示为FIDk、FIDg和FIDs，re-fold。此外，我们使用风格分类器来衡量舞蹈类型的预测准确率。AIST++---98.610.398.488.910.29242.3%丹麦[66]56.6716.4738.4943.62.102.642.760.22090.38%[21]第二十一话42.9314.8526.5372.93.823.312.450.21584.17%事实[38]33.0811.8211.3776.15.835.285.310.24162.39%MNET（我们的）29.529.367.9083.76.936.776.320.246-3495FIDg↓距离s，g↑距离，秒↑ 3.75 3.19 4.68 5.35 5.17 3.79 2.35 2.97 3.62 4.81表2. 比较不同的舞蹈类型。我们定量地研究了单个舞蹈类型的动作相似性和生成多样性。我们的模型合成舞蹈动作现实和多样的所有舞蹈流派。这表明映射网络有效地分离了所有域。图3. 世代差异：我们用不同种类的音乐来说明世代差异.我们修复潜在的代码，并选择相同的舞蹈流派（休息）在迭代推理。我们证明，我们的模型是能够通过捕捉音乐的变化产生不同的更多的结果可以在补充视频中找到然而，测量运动的可扩展性是很难的多元化的舞蹈一代，因为我们的目标是得到不同的，但合理的解决方案，为给定的条件。地面实况舞蹈只是许多解决方案中的一个，并且在真实序列和生成序列之间计算的度量是不可测量的。因此，我们从20种音乐中为每10种舞蹈类型生成10个序列，总共产生2000个样本。与[63]类似，我们假设每个舞蹈类型的前1个样本（按多任务排序）接近原始地面实况。我们生成T=1200帧（20秒）的运动序列。如表1所示，记录的所有FID评分均显著低于我们的基线，这意味着我们生成的样本更接近真实样本。对舞蹈类型的预测准确率达到83. 百分之七。世代多样性。与基线方法相比，我们的模型不仅可以通过不同的音乐生成多个序列我们使用特征图4.运动-音乐一致性：我们可视化了音乐和生成的舞蹈之间的节拍对齐的示例图中的橙色和绿色虚线分别表示提取的音乐运动学拍被计算为动力学速度的局部最小值（蓝线）。空间为了测量不同音乐的多样性，我们生成40个运动序列，并使用几何、运动学和风格特征计算距离，分别表示为Distm，k、Distm，g和Distm，s。我们的模型在所有指标上都获得了更高的分数，这意味着我们的模型比基线方法更依赖于输入音乐，从而为相同风格的不同音乐片段提供了多个舞蹈动作。表1示出了各种音乐的多样性的结果图3通过各种音乐可视化舞蹈动作。与音乐变化多样性相似，我们使用几何、运动学和风格特征提取器计算来自相同音乐的风格代码的多样性。我们从随机选择的30个音乐片段中为每种舞蹈类型生成20个样本，并在三个特征空间中计算距离，这三个特征空间被表示为Dists，k，Dists，g和Dists，s。表2定量地显示了各个舞蹈类型的动作可重复性和生成多样性所有舞蹈类型的记录得分显示所有度量的相似值，这表示每个舞蹈类型的风格代码被适当地解开。动作音乐的一致性。由于熟练的编舞者根据音乐节拍有节奏地移动，因此训练有素的舞蹈生成模型的输出需要运动节拍和音乐节拍之间的一致性。我们使用[38]中介绍的节拍对齐分数来评估运动与音乐的一致性。搏动对齐分数定义为运动学搏动之间的平均距离中断（s0）Pop（s1）锁定（s2）中嘻哈（中三）洛杉矶风格嘻哈（s4）房屋（第5条）Waack（s6）Krump（s7）街头爵士乐（第八季）芭蕾爵士（第9节）FIDk↓26.319.0323.449.1730.1011.3931.4812.8729.859.6830.7510.2829.1011.9522.4910.8934.189.3232.729.05FIDs↓距离s，k↑10.825.116.859.855.796.339.393.687.757.653.976.477.374.715.247.424.755.968.394.166.839.186.565.188.273.665.317.065.173.943496ΣJJ图5.定性结果：我们说明了我们这几代人的多样性的两个方面。左边是由潜在代码引导的可视化输出请注意，每行中的运动共享具有不同潜在代码的音乐和舞蹈类型正确的可视化输出由样式代码指导请注意，每行中的运动共享音乐和潜在代码，但风格代码在迭代推理期间由映射网络的多个分支不同地选择更多结果可在补充视频中找到。和它最近的音乐节拍Mminxy2在风格码合成的puts中，我们固定了潜码，并通过选择BeatAlign= 1Mi=1exp（−ty ∈By ||ti − tj||2σ2）、（6）在重复的未来运动生成过程期间映射网络这样做，我们这一代人只能专注于风格代码的变化，其特定领域的-其中，Bx={tx}是运动拍，其是低-地图绘制网络已经处理了编队问题。我动能速度By={ty}是音乐我们观察到，我们的方法成功地使独特的使用Librosa [43]提取的节拍，并且σ是归一化参数，其中我们在所有实验中设置σ=3如表1所示，与这些基线相比，我们的模型显示出更好的音乐和运动一致性。此外，我们还展示了运动节拍和音乐节拍的可视化图4的一致性。4.3. 定性结果在这里，我们从两个角度可视化了我们生成的几个示例：潜在代码指导的生成和样式代码指导的生成。然后，我们比较用户的偏好，我们的方法与基线方法。我们将在C节中进一步讨论定性比较。潜在代码引导生成。图5的左侧提供了由不同的潜在代码引导的可视化示例。我们展示了每种舞蹈类型的三代人。我们的模型通过映射网络获取3个不同采样的噪声，并从多个分支中选择一个舞蹈流派，其中每个风格代码表示相同的舞蹈流派，但产生于不同的我们证明，该模型产生不同的方式来区分不同的潜在代码在相同的舞蹈流派。样式代码引导生成。图5的右侧提供了由不同样式代码指导的可视化示例。在模型经过训练后，我们在测试时以自回归方式生成连续运动。为了展示-所有舞蹈流派的风格顺序。用户研究。我们比较用户的偏好，我们的方法与基线方法。对于用户研究，每个受试者被要求在我们的结果和随机选择的一个对应结果之间选择一个，以回答“哪个人更适合音乐跳舞？”的问题。23名受试者参与了用户研究。如表1所示，与所有基线相比，我们的方法获得了大多数投票此外，值得注意的是，AIST++和生成运动之间的偏好是竞争性的。4.4. 消融研究在本节中，我们分别验证了我们的贡献的选择和效果我们在结构设计和损耗研究方面进行了以下烧蚀使用运动可扩展性（FIDk）、生成多样性（Distm，k）和运动音乐一致性（BeatAlign）来测量有效性。建筑设计。对于舞蹈一代，基于注意力的方法（即，Transformer）与几种架构设计（如简单的自动编码器或几项先前研究中的基于GRU的递归神经网络）相比具有明显的优势[35，50]。然而，挑战在于GAN训练在与Transformer架构耦合时趋于不稳定[24，33]。在这里，我们研究了基于变压器的GAN设计的主干3497LLσL图6. 发生器架构：两种合理的基线架构。(a)通过与输入条件连接来嵌入样式代码。(b)在Transformer体系结构中用自调制层规范代替规范化。在发电机和逆变器方面。设计一个基于Transformer的发电机是一个非传统的任务.挑战来自于在密集注意过程中正确地嵌入潜在代码。我们首先讨论两个合理的基线架构，如图6所示。这两个基线都使用了一个Transformer编码器，并从嵌入中生成运动。图6（a）通过与输入条件连接来获取样式代码。或者，图6（b）通过用自调制层规范（SLN）[33]替换Transformer架构中的层规范[5SLN（h，s）=γ（s）hl−µ+β（s），（7）发电机鉴别器FID k↓距离m，k↑BeatAlign↑图6（a）MNET35.27 5.320.225图6（b） Mnet59.84 3.910.206MNET Motion-dis.29.406.200.239MNET29.526.930.246表3. 架构设计的消融研究：我们比较了关于发生器和识别器的合理架构设计。FIDk↓ Distm，k↑ BeatAlign ↑A Adversarial LossLorg59.584.57 0.197B +姿态参数Lp33.84 4.20 0.239C +顶点坐标Lv31.71 4.39 0.215D +多样性Ldiv29.88 6.71 0.207E +风格-聚焦Lreg29.52 6.93 0.246表4. 损失函数的消融研究：我们通过添加不同配置的损失函数来比较定量评分特别是对于FIDg。这表明外观损失有效地约束了姿势空间，但通过将采样的潜在代码折叠到类似的空间中来限制多样性。然后，我们通过增加多样性损失（D）来改进此基线。然而，根据多样性损失的加权参数λ div，在多样性和真实运动序列之间存在折衷。我们根据经验确定λdiv，并在C节中进行讨论。最后，我们引入正则化来理清不同舞蹈类型的风格代码，进一步改进了结果。其中μ和σ是层内求和输入的均值和方差，γl和βl计算由样式代码s控制的可学习参数。这些模型使用与所提出的方法相同的设置进行训练。表3显示了不同发电机架构下的定量性能。我们发现图6（a）工作良好，但与我们提出的生成器存在很大的性能差距。图6（b）由于训练的不稳定性而表现不佳，这意味着SLN与自我注意力的交互很差。此外，我们的发生器与使用GRU捕获顺序运动的运动捕获器一起工作[26]。结果表明，该方法与基于变换器和基于RNN的鉴别器兼容。损失研究。在这里，我们研究的影响，我们的Transformer GAN的目标函数。对于所有的实验，我们固定了原始的对抗损失，并连续添加了建议的损失函数。如表4所示，当使用单一对抗性损失时，我们的模型不足以学习高运动学复杂度（A），其中输出产生具有显著抖动的运动相比之下，当我们使用外观损失（B和C）时，性能有所改善5. 结论我们提出了一个新的基于transformer的GAN模型来生成由多个舞蹈流派合成的音乐调节的多元舞蹈动作，将一个舞蹈流派的动作翻译为目标舞蹈流派的不同动作，并支持多个目标舞蹈流派。我们提供了一个详细的讨论，以评估我们提出的方法定量和定性的不同组成部分实验结果表明，我们的模型可以生成跨多个领域的具有丰富风格的运动，在自动度量和人工评估方面都显着优于基线目前，我们的模型需要种子运动来生成未来的运动。探索如何在没有种子运动的情况下生成多样化的舞蹈运动是一个更实际的用途和令人兴奋的方向。谢谢。这项工作得到了韩国政府（MSIT）资助的韩国国家研究基金会（NRF）资助（编号2020 R1 A2C3011697）和2021年延世大学研究基金（2021- 22-0001）的3498引用[1] Hyemin Ahn 、 Jaehun Kim 、 Kihyun Kim 和 SonghwaiOh。从音乐合成三维舞蹈动作的生成自回归网络。IEEE Robotics and Automation Letters，5（2）：3501-3508，2020。2[2] Emre Aksan，Peng Cao，Manuel Kaufmann，and OtmarHilliges.请注意：用于三维人体运动预测的时空变换器。arXiv预印本arXiv：2004.08692，2，2020。2[3] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在IEEE/CVF计算机视觉国际会议论文集，第7144-7153页，2019年。2[4] Amjad Almahairi、Sai Rajeshwar、Alessandro Sordoni、PhilipBachman 和 AaronCourville 。 Augmentedcyclegan：从非配对数据中学习多对多映射。国际机器学习会议，第195PMLR，2018。2[5] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。8[6] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， et al. Language models are few-shot learners.arXiv预印本arXiv：2005.14165，2020。3[7] Judith Butepage，Michael J Black，Danica Kragic，andHed- vig Kavelstrom.用于人体运动预测和分类的深度表示学习。在IEEE计算机视觉和模式识别会议论文集，第6158-6166页，2017年。2[8] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence，43（1）：172-186，2019。2[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。3[10] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页，2020年。二、三、四[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。三、五[13] 段旭光，黄文兵，甘闯，王敬东，朱文武，黄俊洲。视频中的弱监督密集事件字幕。arXiv预印本arXiv：1812.03849，2018。2[14] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议上，第12873-12883页，2021年。3[15] 威廉 · 法尔孔等人， Pytorch 闪电。 GitHub. 注：https://github.com/PyTorchLightning/pytorch-lightning，2019年3月。12[16] 若昂·P·费雷拉、蒂亚戈·M·库蒂尼奥、蒂亚戈·L·戈麦斯、何塞·F·内托、拉斐尔·阿泽维多、雷纳托·马丁斯和埃里克森·R·纳西曼托。学习跳舞：一个图形卷积对抗网络，从音频中生成逼真的舞蹈动作。计算机图形，94：11-21，2021。二、五[17] 亚历杭德罗·埃尔南德斯，尤尔根·加尔，弗朗切斯科·莫雷诺-诺格尔。经由时空内绘的人体运动预测。在IEEE/CVF计算机视觉国际会议论文集，第7134-7143页，2019年。2[18] 丹尼尔·霍尔登斋藤纯和高村拓用于角色运动合成和编辑的深度ACM Transactions on Graphics（TOG），35（4）：1-11，2016。2[19] Daniel Holden，Jun Saito，Taku Komura，and ThomasJoyce.用卷积自动编码器学习运动流形。SIGGRAPHAsia 2015技术简报，第1-4页。2015. 2[20] Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络。在IEEE/CVF计算机视觉国际会议论文集，第3464-3473页，2019年。5[21] Ruozi Huang，Huang Hu，Wei Wu，Kei Sawada，MiZhang，and Daxin Jiang.舞蹈革命：通过课程学习与音乐进行长期的舞蹈创作。 arXiv 预印本 arXiv ：2006.06119，2020。一、二、五、十四[22] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页，2018年。二、三[23] 弗拉基米尔·亚辛和伊萨·拉赫图。多模态密集视频字幕。在IEEE/CVF计算机视觉和模式识别研讨会会议中，第958-959页2[24] Yifan Jiang ， Shiyu Chang ， and Zhangyang Wang.Transgan：两个变压器可以使一个强大的根。arXiv预印本arXiv：2102.07074，1（3），2021。三、七[25] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE

下载后可阅读完整内容，剩余1页未读，立即下载