没有合适的资源?快使用搜索试试~ 我知道了~
50580跨模态转换器的舞蹈风格转移0尹文杰*,尹航*,Kim Baraka†,Danica Kragic*,M˚arten Bj¨orkman*0* 瑞典皇家理工学院,斯德哥尔摩,瑞典†阿姆斯特丹自由大学,阿姆斯特丹,荷兰0yinw@kth.se,hyin@kth.se,k.baraka@vu.nl,dani@kth.se,celle@kth.se0图1:CycleDance在两种舞蹈风格之间进行的舞蹈风格转移:左)锁舞,右)芭蕾爵士舞。CycleDance框架使用不配对的舞蹈动作和音乐背景进行训练。0摘要0我们提出了CycleDance,一种舞蹈风格转移系统,可以将一种舞蹈风格的现有动作片段转换为另一种舞蹈风格的动作片段,同时尽量保留舞蹈的运动背景。我们的方法扩展了现有的CycleGAN架构,用于建模音频序列,并集成了多模态转换器编码器,以考虑音乐背景。我们采用基于序列长度的课程学习方法来稳定训练。我们的方法捕捉了运动帧之间丰富且长期的内在关系,这是运动转移和合成工作中的一个常见挑战。我们还引入了衡量舞蹈动作转移强度和内容保留的新指标。我们进行了广泛的消融研究和人体研究,包括30名具有5年或更多舞蹈经验的参与者。结果表明,CycleDance生成了具有目标风格的逼真动作,在自然性、转移强度和内容保留方面显著优于基线CycleGAN。101 在https://youtu.be/kP4DBp8OUCk上进行演示。01. 引言0风格转移方法可以为图像[16]和音乐[4]等媒体的目标风格的艺术创作提供便利。类似的方法对于创作者来说,可以将现有的舞蹈序列作为起点,生成不同运动风格的变化。在视频游戏的背景下,这些风格变化可以与具有不同属性或个性的不同角色相关联。在编舞的背景下,这样的工具可以促进人工和艺术的创造过程,通过风格转移来迭代初始编舞素材的有趣、意想不到或互补的变化。0现有的关于人类运动风格转移的研究主要集中在简单的运动或锻炼动作[30, 12,1]以及成人和儿童之间的领域转移。用于转移此类序列数据的技术方法包括循环一致性对抗网络(CycleGAN)[46]和自适应实例归一化(AdaIN)[24]。然而,将类似的技术应用于更复杂的动作(如舞蹈动作)的风格转移仍存在研究空白。舞蹈动作通常没有明确的功能目的,并且往往在姿势、节奏和构成方面表现出丰富性。In recent years, style transfer has achieved impressiveprogress in computer vision, speech processing, music pro-cessing, natural language processing, motion animation,etc. In computer vision, the pioneering work of Gatys etal. [16] introduces the concept of style transfer and usesconvolutional neural networks (CNNs) to merge the styleand content between arbitrary images. Huang et al. [21]propose an adaptive instance normalization (AdaIN) layerto directly apply arbitrary target styles to an image. Zhu etal. [46] propose CycleGAN, using a pair of generators anddiscriminators to translate image style. The general ideaof CycleGAN has been further developed and improved inStarGAN [7], with domain labels as additional input, so thatimage styles can be transformed to multiple correspondingdomains, such as facial appearances and expressions.In research on voice conversion (VC), Kaneko andKameoka [22] develop CycleGAN-VC based on Cycle-GAN, but with gated CNNs and an identity-mapping loss.This is further improved by CycleGAN-VC2 [23] whichadopts two-step adversarial losses, a 2-1-2D convolutionstructure, and PatchGAN. Fu et al. [14] further incorporatetransformers and curriculum learning in voice conversion.Research has also been conducted to transfer symbolic mu-sic styles, with examples such as Groove2Groove [8], whichemploys an encoder-decoder structure and parallel data, and[4] for MIDI music with a CycleGAN-based approach.For style transfer in natural language processing (NLP),Mueller et al. [31] propose recurrent variational auto-encoders (VAE) to revise text sequences. Fu et al. [15] con-struct a multi-decoder and a style-embedding model to learnindependent content and style representations with adver-sarial networks. Dai et al. [9] propose a Style Transformer50590舞蹈动作的生成可能特别具有挑战性,因为它需要采用多层次的方法,捕捉关节动力学的协调以及与运动的产生和感知相关的社会文化因素。与此同时,不同舞蹈风格中存在着各种各样的特征,这些特征源于不同的历史背景。舞蹈风格更通常地可以被认为是执行某种舞蹈动作的风格,而不仅仅是严格的舞蹈流派。这给特定目标风格的高质量舞蹈动作的生成增加了另一层复杂性。所有这些挑战都需要能够在时间上捕捉高频特征和长期依赖关系的计算模型,从而生成具有美感和连贯性的逼真舞蹈。此外,舞蹈通常伴随着音乐,音乐可以为理解和构成动作提供巨大的线索。最近的研究表明,基于音乐的舞蹈合成[39,6]是有效的,可以根据音乐上下文直接生成舞蹈动作。然而,目前尚不清楚音乐背景是否也能促进风格转移任务,以及在这种情况下如何处理这种多模态输入。在本文中,我们提出了一种多模态系统CycleDance(见图1)用于舞蹈风格转移。CycleDance采用了一种生成方案,通过扩展CycleGAN-VC2[23]来处理不配对的数据。为了解决上述所述的挑战,我们利用了一种跨模态转换器架构[39],旨在有效地捕捉不同模态之间的相关特征,以增强风格转移质量。具体而言,我们设计了一种基于两个路径的变压器架构,用于在风格转移的上下文中提取时间上对齐的动作和音乐表示。我们进一步提出了使用Fu等人[14]的课程学习方案逐步训练CycleDance。这减轻了训练大型对抗模型的不稳定性和过早收敛导致性能下降的问题。我们在AIST++[37]舞蹈数据库上评估了我们的框架,重点分析了不同舞蹈流派之间的转移。我们提出了基于概率分歧和选定关键姿势帧的两个新指标,以定量评估舞蹈风格转移的质量。此外,我们邀请了一组具有丰富舞蹈经验的人类参与者提供主观评估和专家视角的见解。这些评估结果显示,CycleDance在基线方法及其消融版本上表现出色。作为说明,可以在https://youtu.be/kP4DBp8OUCk上找到生成示例的视频。总之,我们的主要贡献如下:0•据我们所知,我们的方法是首次将复杂的舞蹈动作和音乐背景结合在风格转换任务中,为舞蹈、游戏和动画等领域的艺术和科学创新以及舞蹈工具开发提供了潜在的应用。0•我们对所提出模型进行了广泛的用户研究。经验丰富的舞蹈演员群体的评估和见解揭示了设计这类系统的重要方面。0•我们引入了基于概率分歧和选定关键姿势帧的新度量标准,用于衡量舞蹈动作的转移强度和内容保留。0•在本节中,我们首先概述了关于一般风格转换的先前工作(第2.1节),然后重点介绍了运动风格转换(第2.2节)。作为另一个相关主题,我们还将简要回顾从多模态数据中合成运动的研究(第2.3节)。02. 相关工作02.1. 风格转换50600我们的工作专注于转移运动数据,特别是舞蹈动作。我们采用了CycleGAN-VC2,之前用于语音转换,作为我们框架的基础,并通过额外的音乐模态增强训练。02.2. 运动风格转换0早期的运动风格转换工作依赖于手工制作的特征[2, 38, 42,3,20],而大多数现代研究主张通过从数据中提取特征来进行学习[19, 12, 18, 35, 27, 29, 33,11]。目前使用的典型模型包括卷积自编码器[19],CycleGAN[11],时间不变的AdaIN层[1],自回归流[41]和时空图神经网络[33]。一些研究还关注实时风格转换的高效生成[43, 35,29]。所有这些工作都针对相对简单的人类运动,例如运动和锻炼,其风格变化通常是有限的,例如在成年人和儿童运动之间进行转换[11]。我们的工作处理的是具有丰富姿势、节奏、转换和艺术风格的舞蹈动作的转换,因此对于视频游戏或电影行业可能具有更大的实证价值。为了处理这样的复杂性,我们的方法与已经研究的工作有很大的不同,我们在CycleGAN-VC2的基础上采用了Transformer和课程学习,以更有效地训练更复杂的运动数据。02.3. 音乐条件下的动作合成0大量的研究工作集中在人体动作合成上[5, 44, 17, 45,28]。由于舞蹈通常与音乐结合,跨模态动作生成是一个新兴的研究课题,探索不同模态之间的关联,以更好地理解人体动作和音乐条件下的动作合成。早期的研究主要集中在统计模型[34, 13,25]上,通常通过选择来生成动作。具体来说,这意味着通过选择数据库中与每个音乐片段的特征(如节奏、结构和强度)匹配的动作片段来合成动作。随着深度学习的发展,也开始探索基于学习的方法。例如,在ChoreoMaster[6]中,设计了一个嵌入模块来捕捉音乐和舞蹈之间的联系。Sun等人[36]提出了DeepDance,一个跨模态关联系统,将舞蹈动作与音乐相关联,Lee等人[47]提出了一种分解-组合框架,利用MM-GAN进行基于音乐的舞蹈单元组织。在DanceNet[47]中,音乐上下文感知编码器融合了音乐和动作特征,而在DanceFormer [26]中,运动学增强的变压器引导网络。0最近,跨模态变换器已成功应用于建模音乐和动作之间的分布[39]。音乐条件下的舞蹈合成旨在生成与给定音乐上下文相关联的舞蹈动作序列。我们的工作探索了舞蹈风格转换任务,重点是在保持上下文信息的同时操纵现有舞蹈动作的风格。音乐模态对于我们的风格转换模型的工作并不是必需的,但在数据可用时可以加入以提高生成质量。03. 方法论0本节阐述了我们的目标问题并建立了本文中使用的符号表示。还介绍了CycleGAN和CycleGAN-VC2的基本知识,以便自我完整性。在此基础上,我们提出了贡献的技术框架CycleDance。03.1. 问题形式化0我们的目标是在两个领域X和Y之间学习映射函数,而不依赖于这些领域之间的配对数据。在我们的场景中,我们在给定舞蹈样本x � PX和y �PY的情况下,在两个风格领域X和Y之间转移舞蹈。舞蹈样本可能与关联的风格音乐mx ∈ Mx和my ∈My配对,尽管音乐模态在转移任务中只是可选的。03.2. 对抗训练损失和策略0我们使用类似CycleGAN的架构[46]来解决所制定的问题,如图3所示。该架构包括两个鉴别器DX和DY,用于区分真实数据和生成数据,以及两个映射GX→Y和GY→X,用于生成目标风格的模式。映射也进行循环,使生成的模式可以转换回原始领域。为此,我们遵循CycleGAN-VC2[23]并结合了四种类型的损失,也见图3。对抗损失LX→Yadv:该损失衡量转移数据GX→Y (x,mx)与目标y之间的差异,其中鉴别器DY试图区分转移数据和真实数据:0L X → Y(y)]0+ E x � PX [log(1 - DY(GX→Y(x, mx)))] . (1)0相应地,对于 G Y → X 和鉴别器 D X ,可以定义对抗损失L Y → X adv。循环一致性损失 L cyc:通过 G X → Y (x, mx ) 和从生成的模式中恢复原始 x 和y,考虑到上下文信息的丢失。 (4)(5)50610图2:CycleDance架构。在生成器中,有一个运动路径和一个音乐路径。每个路径都以下采样块开始,然后是一个2D-1D块。运动、音乐和跨模态变换器块都是标准的全注意力变换器编码器。然后,融合路径后面是一个1D-2D块和上采样块。在鉴别器中,与Kaneko等人[23]一样,最后一层使用卷积。0图3:两步对抗生成训练策略。完整的目标包括四种类型的损失:对抗损失Ladv,循环一致性损失Lcyc,身份映射损失Lid和第二个对抗损失Ladv2。有关符号的定义,请参见第3.2节。0GY→X(y, my):0Lcyc 0+ Ey�PY [∥GX→Y(GY→X(y, my)) − y∥1]. (2)0身份映射损失Lid:当GX→Y和GY→X应用于另一个域时,进一步通过强制进行身份转换来鼓励输入保留:0Lid 0+ Ey�PY [∥GX→Y(y, my) − y∥1] (3)0两步对抗损失Ladv2:这是第二个对抗损失,用于减轻循环一致性损失中的过度平滑重建统计[23]。请注意,这引入了一个额外的鉴别器DX'和LY→X→Yadv2可以0可以类似地定义为:0LX→Y→Xadv2 = Ex�PX [log DX'(x)]0+ Ex�PX [log(1 − DX'(GY→X(GX→Y(x, mx))))]0最终的目标可以写成上述项的加权和0Lfull = LX→Yadv + LY→Xadv + λcycLcyc + λidLid0+ LX→Y→Xadv2 +0其中λcyc和λid权衡了一致性损失和身份损失项。此外,我们采用了一种课程学习算法作为训练方案。其基本思想是通过从简单数据开始逐渐处理更复杂的数据,使训练更加有效。这种策略已经应用于各种应用和场景中,显示出提高收敛速度和泛化能力、提供更好的训练稳定性的能力[40]。我们采用基于长度的课程学习策略,通过训练数据截断来逐渐增加输入序列的长度,使模型能够从短样本学习到长样本。03.3. 网络架构0我们的CycleDance框架采用CycleGAN-VC2作为骨干,并通过跨模态变换器进行扩展,如图2所示。跨模态变换器将运动和音乐编码的两个路径连接起来,这两个路径通过一系列层(包括2D卷积(图2中的紫色块)、2D-1D重塑(红色)、残差卷积(绿色)和模态特定的变换器(黄色))获得。2DCNN层用于执行下采样,同时保留原始的时序结构。下采样后的特征被重塑为50620并通过1DCNN的残差块进行处理。重塑后的1D序列通过变换器进行处理,变换器采用位置嵌入并输出捕捉时间步之间时序关系的编码。最后,生成器将连接的编码输入并将其馈送到1D-2D重塑块(红色)和上采样块(紫色)以合成转移的舞蹈动作。在这些块中,我们采用门控线性单元(GLUs)[10]作为可调节的激活函数,以学习顺序和层次结构。对于鉴别器,CycleDance还使用2DCNN对运动数据进行下采样。我们只在最后一层使用卷积以减轻训练不稳定性,正如[23]中所建议的那样。输出层使用sigmoid激活来预测运动片段是真实的还是生成的。04. 实验和评估0在本节中,我们首先描述了使用的数据集(第4.1节),以及它们是如何处理和具体的实验设置。然后我们详细介绍了我们的评估,包括客观评估(第4.3节)和主观评估(第4.4节),并报告了在对比不同舞蹈风格转移方法和消融研究方面的结果。04.1. 数据集0我们从现有的AIST++舞蹈数据库[27]中生成带有配对音乐的3D舞蹈动作样本。AIST++使用SMPL参数[37]从AIST舞蹈数据库的多视角视频中重建3D动作。为了获得动作特征,我们将所有动作数据下采样到每秒30帧(fps),并使用AutodeskMotionBuilder将动作重新定位到具有21个身体关节的骨骼上。与[39]类似,我们使用指数映射参数化3D旋转来表示所有关节(非根关节)。根关节(髋部)有四个额外的特征,表示垂直根位置、地面投影位置变化和2D朝向角变化。总之,每个舞蹈序列的动作帧由一个63维向量表示。音乐特征与[37]类似,使用Librosa工具箱进行提取。我们结合了20维MFCC、12维色度、1维独热峰值和1维独热节拍,总共35维音频特征。所选的舞蹈风格包括芭蕾爵士舞、锁舞、waack舞、嘻哈舞、流行舞和house舞。作为数据统计的例子,芭蕾爵士舞集和锁舞集分别包含141个动作序列,6首歌曲,持续时间分别为1910.8秒和1898.5秒。04.2. 基准模型和消融研究0我们使用PyTorch实现了提出的CycleDance模型和CycleGAN-VC2基准模型,并在预处理的数据集上训练了两个模型。为了评估所贡献的设计选择的重要性,例如跨模态转换器和课程学习策略,我们还实施了消融研究。0模态转换器和课程学习策略,还实施了三种替代架构进行消融研究。第一个消融配置是CycleTransGAN,它去除了音乐路径和跨模态转换器,并禁用了课程学习策略。我们希望通过这个比较来突出引入的转换器架构的实用性。第二个消融配置CycleTransGAN+CL,在CycleTransGAN中应用课程学习。我们旨在评估通过在训练过程中精心调节模型所暴露的样本复杂性而获得的性能提升。最后一个消融配置CycleCrossTransGAN,也使用跨模态转换器来处理运动和音乐信息作为编码器。然而,该配置没有采用课程学习。我们旨在通过分析CycleTransGAN和CycleCrossTransGAN之间的差异来观察跨模态转换器的影响。04.3. 客观评估0所有这些模型的主要任务是将舞蹈风格从源风格转移到目标风格。为了对舞蹈中常见的复杂动作模式进行彻底的质量评估,我们从客观和主观的角度进行评估。在客观评估中,我们使用每种风格的17个舞蹈序列。我们为每个消融模型转移风格并评估两个指标,这些指标捕捉了风格转移的效果以及内容保留的程度。为此,我们设计了基于Fr´echet距离的度量标准,类似于[39]。转移强度。风格转移的最重要方面是转移强度,它衡量了从源风格到目标风格的转换程度。为了评估转移强度,对于一个舞蹈风格,我们使用真实舞蹈动作和生成舞蹈动作之间的Fr´echet距离。具体而言,我们使用两个连续的原始姿势(xi−1,xi)将真实动作和生成动作的表示转换为关节速度vi,而不进行归一化。类似地,我们使用三个连续的姿势(xi−1,xi,xi+1)来计算关节加速度ai。我们称这个度量为运动Fr´echet距离(MFD),并用它来衡量生成的动作与目标风格的真实动作的接近程度。内容保留。风格转移的另一个不可或缺的评估指标是内容保留。对于这个维度,对于一个舞蹈动作,我们使用关键姿势xk的分布的Fr´echet距离。包含这些姿势的关键帧是通过检测关节加速度的局部极大值来提取的。为了使帧可比较,关键帧中的骨骼姿势被归一化为以髋部为中心的原点。我们称这个度量为姿势Fr´echet距离(PFD),并评估在转移后这些显著姿势的保留程度。表1总结了该项目的定量结果。CycleGAN-VC29.94303.40631.43541.26452.28411.95150.48970.34990.48470.33130.52120.5625CycleTransGAN3.56430.78861.05640.94641.55151.53540.47490.25010.47540.28340.40480.5215CycleTransGAN+CL2.91880.58481.08470.98471.48521.55210.48970.25430.46440.28820.41250.4185CycleCrossTransGAN2.74460.58190.98721.07821.42541.52510.44190.22440.44900.28800.38410.4126CycleDance2.61090.57550.87520.95011.34521.48550.42160.22300.44850.29600.39540.382750630表1:定量客观评估:动作Fr´echet距离(MFD)和姿势Fr´echet距离(PFD)对于五个竞争模型,包括基线模型、我们提出的CycleDance以及消融研究。BJ2LC表示从芭蕾爵士舞转移到锁舞。相应地,LC2BJ表示从锁舞转移到芭蕾爵士舞。类似地,WK、HP、PO、HO表示waacking、hip-hop、pop和house舞蹈。0方法 MFD PFD BJ2LC LC2BJ WK2HP HP2WK PO2HO HO2PO BJ2LC LC2BJ WK2HP HP2WK PO2HO HO2PO0提出的模型和消融研究。我们在三对舞蹈流派之间进行了舞蹈风格的转移,包括“芭蕾爵士舞到锁舞”(BJ2LC)和“锁舞到芭蕾爵士舞”(LC2BJ),以及“waacking到hip-hop舞”(WK2HP)和“hip-hop到waacking舞”(HP2WK),以及“pop到house舞”(PO2HO)和“house到pop舞”(HO2PO)。0图4:将锁舞序列(顶部,蓝色y-bot)通过CycleGAN-VC2(中间,红色x-bot)和CycleDance(底部,红色x-bot)转移到芭蕾爵士舞的示例。0图5:将芭蕾爵士舞序列(顶部,红色x-bot)通过CycleGAN-VC2(中间,蓝色y-bot)和CycleDance(底部,蓝色y-bot)转移到锁舞的示例。0我们观察到基线模型CycleGAN-VC2在这个风格转移任务中表现困难,这可以从基线模型的MFD远高于所有其他消融方法的结果中看出。完整的框架CycleDance在两个度量指标上表现最好,几乎在所有转移对中都表现出色。这凸显了在这个任务中引入的所有技术的必要性。一个合成动作片段的示例如下所示:0图4展示了从锁舞到芭蕾爵士舞的舞蹈风格转移。顶部的关键帧序列显示了原始的锁舞。中间的序列是由CycleGAN-VC2生成的,底部的序列是由提出的CycleDance生成的。图5中的另一个示例展示了从芭蕾爵士舞到锁舞的舞蹈风格转移。通过比较每一列的姿势,可以观察到提取的关键动作代表了姿势序列。CycleDance与源动作更相似,因此在保留更多内容的同时与目标舞蹈风格更好地对齐。此外,通过消融研究,我们观察到CycleTransGAN(CycleGAN-VC2和Transformer的组合)实现了更低的MFD,这可以看作是模型通过捕捉帧之间更丰富的内部关系而受益于Transformer的帮助。通过比较CycleTransGAN和CycleCrossTransGAN,MFD和PFD都得到了改善。我们将此视为音乐信息有助于准确生成目标风格,并且这种上下文信息成功地被跨模态Transformer编码的证据。CycleTransGAN和CycleTransGAN+CL之间的比较表明,课程学习极大地提高了转移强度,显示了通过使用更长的片段进行训练逐渐增加难度的有效性。04.4. 主观评估0除了客观评估之外,我们还进行了用户研究,通过评分三个方面来评估我们的模型和基线模型:动作自然度、转移强度和内容保留。我们还提出了一些开放性问题,以收集可能未涵盖在上述方面的意见,为未来的工作提供建议。我们的分析主要集中在芭蕾爵士舞和锁舞上,因为这些舞蹈的特点已经被舞蹈专业人士充分理解。用户研究通过在线调查的方式进行,涵盖了“锁舞到芭蕾爵士舞”和“芭蕾爵士舞到锁舞”的转移任务。我们使用Blender渲染了8秒钟的视频片段,其中包括一个x-bot角色(用于芭蕾爵士舞)和一个y-bot角色(用于锁舞)。50640对于每个源舞蹈序列和目标舞蹈序列,我们邀请了参与者播放视频片段并熟悉动画舞蹈。在实际调查中,参与者被要求观看源舞蹈视频片段和相应的生成目标舞蹈片段。目标舞蹈视频片段可以是由CycleDance生成的,也可以是由基准模型生成的,目标舞蹈片段的顺序是随机选择和平衡的,以减轻潜在的顺序效应。参与者在回答三个问题之前可以重复播放视频片段:0•动作自然性:您对以下陈述有多大程度上的认同?—风格转移后生成的动作片段看起来自然。(Likert项目范围从1(非常不同意)到5(非常同意))。0•转移强度:您对以下陈述有多大程度上的认同?—风格转移后生成的动作片段看起来像目标舞蹈风格。(Likert项目范围从1(非常不同意)到5(非常同意))。0•内容保留:您认为原始视频和结果视频之间最保留的特征是哪些?—空间方向;—肢体形状;—身体主干形状;—节奏模式—其他:(可以选择这四个方面中的一个或多个)。此列表是基于舞蹈分析师在分析表现性动作时关注的最显著特征[32]。0在这项研究中,我们招募了30名具有至少5年(累计)舞蹈经验(包括培训、表演、编舞或教学)的参与者。参与者年龄在20至41岁之间(中位数30岁),男性占37.9%,女性占58.6%,其他人占3.4%。根据人口统计问题,参与者对芭蕾爵士舞和锁舞的熟悉程度分别为M=3.93(SD=1.05)和M=3.03(SD=1.18),其中1表示完全不熟悉,5表示非常熟悉。由于生成的动作是使用虚拟角色展示的,我们还统计了参与者玩视频游戏的频率,其中34.5%每周玩,13.8%每月玩,13.8%每年玩,37.9%很少玩。我们分析了主观反馈以为用户研究结果提供统计支持,并评估了提出的方法是否可以进一步改进。图6展示了动作自然性和转移强度的反应。在这两个方面上,专家们普遍认为CycleDance比基准模型更高。通过Wilcoxon符号秩检验统计显著性比较了主观反应。动作自然性的中位数值( Z = − 9 . 2262 ,p <0 . 0001 )和转移强度( Z =0图6:关于动作自然性和转移强度的主观评价结果。误差线表示平均值的标准误差。统计学显著性是Wilcoxon符号秩检验的结果,比较中位数( � � � 表示 p < 0 . 0001 )。0图7:关于内容保留的主观评价结果。CycleDance在空间方向、肢体形状、身体主干形状和节奏模式方面优于基准模型。统计学显著性表示Wilcoxon符号秩检验的结果,比较中位数( � � � 表示 p < 0 . 00001 , �� 表示 p < 0 . 0001 ,n.s. 表示 p > 0 . 05 )。0− 8 . 7677 , p < 0 . 0001)与基准模型相比,CycleDance在舞蹈专家眼中更受青睐,因为它在自然性和与目标舞蹈风格的相似性方面得到了改善,这与我们从客观定量结果(第4.3节)中观察到的一致。至于内容保留的反应,图7总结了对四个方面的统计数据。在这四个方面上,专家们更倾向于选择CycleDance而不是基准模型,当被问及他们认为哪些具体特征被保留时。我们进行了McNemar检验来评估这些差距的统计学意义。检验结果显示没有显著差异。50650图8:CycleDance将芭蕾爵士舞(顶部,红色x-bot)转移到锁舞(底部,蓝色y-bot)的示例。0基线模型和CycleDance在“空间定位”(p =0.1724)和“肢体形状”(p =0.1573)之间存在统计学差异。在“身体躯干形状”(p =0.000002)和“节奏模式”(p =0.00004)的中位数值方面,McNemar检验显示出对所提出的CycleDance模型的强有力支持。在这四个方面中,CycleDance和基线模型在节奏模式和空间定位上都获得了更高的分数。这意味着在进行舞蹈风格转移时,保持舞蹈定位和节奏相对较容易。CycleDance在保持身体躯干形状方面优于基线模型。另一方面,保持肢体形状似乎更具挑战性。对于“芭蕾爵士舞到锁舞”的开放性问题,舞蹈专家评论称,两种方法都具有模仿流行舞蹈的颤抖风格。图8中的示例经常被提到,作为有经验的舞者从视觉上看到锁舞风格的主要迹象。对于将“锁舞转移到芭蕾爵士舞”的CycleDance样本,舞蹈专家回应说,角色的手臂明显是爵士舞或芭蕾舞,并且非常擅长保持“传统”的形状。舞蹈专家还对一些限制进行了评论。其中一个常被提到的观点是一些动作看起来摇摆不定,这可能表明需要应用一些滤波器来平滑生成的结果。专家还指出,芭蕾爵士舞通常要求舞者脚尖,而生成的动作总是显示屈脚踝关节。这显示了目前考虑的数据的局限性,目前尚未捕捉到细微的脚部动作。这也导致一些物理上不现实的效果,例如角色有时在地板上没有接触点时出现漂浮的情况。05. 社会影响的讨论0这项工作为风格转移提供了一个框架,旨在为舞蹈领域提供艺术和科学创新。在短期内,我们可以预见对产业和社会的几个影响。积极的影响将是0编舞实践和舞蹈研究的进展,为舞蹈材料的混合人工创作和人工创作开辟了新的可能性。某些行业部门也可能受益,例如视频游戏和动画行业(例如,每个角色具有不同动作风格的群舞)。这些影响可能导致工作岗位的转移,并向更多依赖创造力和自动化组合的工作岗位转变,以及开发新的用户友好界面和工具。我们也预见到潜在的负面影响或滥用。这项技术可能会在创造过程中模糊所有权的界限,即谁是创作者。对于超越舞蹈的运动风格,如果这些转移模型在非代表性数据集上进行训练,可能会通过学习群体成员与运动风格之间的有偏见关联来强化某些社会群体的运动刻板印象,例如老年人或残疾人。06. 结论和未来工作0这项工作探索了对具有丰富变化和复杂帧依赖性的顺序数据进行风格转移的挑战。所提出的CycleDance通过利用表达性数据编码器、跨模态上下文和基于课程的训练方案来缓解这些挑战。相似度度量和人工专家评估的定量结果证实了CycleDance的有效性。据作者所知,这是第一个在舞蹈或一般动作风格转移中使用音乐背景的工作。未来,我们计划将骨干网络从CycleGAN模型扩展到StarGAN或AdaIN模型,以处理两种以上的舞蹈流派。还需要研究来解决保持肢体形状的已知限制。基于这些技术,我们设想在舞蹈动作设计、编舞、电影工业和视频游戏等领域中出现新的工具。0致谢0本研究得到了欧盟Horizon2020研究和创新计划在824160号协议下的资助(EnTimeMent)。50660参考文献0[1] Kfir Aberman,Yijia Weng,Dani Lischinski,DanielCohen-Or和BaoquanChen。从视频到动画的非配对运动风格转移。《计算机图形学协会交易》,39(4):64–1,2020年。0[2] Kenji Amaya,Armin Bruderlin和TomCalvert。来自动作的情感。在《图形界面》中,第96卷,页222–229。加拿大多伦多,1996年。0[3] Andreas Aristidou,Qiong Zeng,EfstathiosStavrakis,KangKang Yin,Daniel Cohen-Or,YiorgosChrysanthou和BaoquanChen。对非结构化舞蹈动作的情感控制。在《ACMSIGGRAPH/Eurographics计算机动画研讨会论文集》上,页1–10,2017年。0[4] Gino Brunner,Yuyi Wang,Roger Wattenhofer和SumuZhao。用CycleGAN进行符号音乐风格转移。在《2018年IEEE第30届人工智能工具国际会议》上,页786–793。IEEE,2018年。0[5] Judith Butepage,Michael J Black,DanicaKragic和HedvigKjellstrom。用于人体运动预测和分类的深度表示学习。在《IEEE计算机视觉和模式识别会议论文集》上,页6158–6166,2017年。0[6]陈康,谭志鹏,雷进,张松海,郭元琛,张卫东和胡世民。Choreomaster:面向舞蹈合成的以音乐为驱动的编舞。《计算机图形学协会交易》,40(4):1–13,2021年。0[7] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim和JaegulChoo。Stargan:统一的生成对抗网络用于多域图像到图像的转换。在《IEEE计算机视觉和模式识别会议论文集》上,页8789–8797,2018年。0[8] Ondˇrej C´ıfka,Umut S¸ims¸ekli和Ga¨elRichard。Groove2groove:一次性音乐风格转移与合成数据的监督。《IEEE/ACM音频、语音和语言处理交易》,28:2638–2650,2020年。0[9] Ning Dai,Jianze Liang,Xipeng Qiu和XuanjingHuang。Styletransformer:无需分离的潜在表示的非配对文本风格转移。arXiv预印本arXiv:1905.05621,2019年。0[10] Yann N Dauphin,Angela Fan,Michael Auli和DavidGrangier。带门控卷积网络的语言建模。在《国际机器学习会议》上,页933–941。PMLR,2017年。0[11] Yuzhu Dong,Andreas Aristidou,Ariel Shamir,MosheMahler和EaktaJain。Adult2child:使用CycleGAN进行运动风格转移。在《Motion, Interaction and Games》中,页1–11。2020年。0[12] 杜瀚,Erik Herrmann,Janis Sprenger,NoshabaCheema,Somayeh Hosseini,Klaus Fischer和PhilippSlusallek。带条件变分自动编码器的风格化运动建模。在《Eurographics (Short Papers)》中,页9–12,2019年。0[13] Rukun Fan,Songhua Xu和WeidongGeng。基于示例的自动音乐驱动传统舞蹈动作0综合。《IEEE可视化与计算机图形学交易》,18(3):501–515,2011年。0[14] Changzeng Fu,Chaoran Liu,Carlos ToshinoriIshi和HiroshiIshiguro。Cycletransgan-evc:基于CycleGAN的情感语音转换模型与Transformer。arXiv预印本arXiv:2111.15159,2021年。0[15]付振鑫,谭晓烨,彭南韵,赵东岩,严锐。文本风格转移:探索与评估
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功