Style-ERD:灵活高质量的在线运动风格转换方法

193 浏览量更新于2023-10-25 收藏 19.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Animators commonly seek to create stylized motions toexpress the characters’ personalities or emotions, thus mak-ing characters more lifelike. Since many computer anima-tion techniques are based on motion capture data, the vari-ety and diversity of the motion data play an essential role inthe quality of the resulting animation. However, a capture-everything approach scales poorly if there is a need to cap-ture every style, e.g., childlike or depressed, for every mo-tion type. Hence, animators usually capture motion in aneutral style and then stylize them by hand, which is againlaborious. This motivates automated methods for stylizingexisting motions according to desired target-style labels.In this work, we develop a novel motion style transferframework capable of stylizing streaming input motion datafor online applications, which we define as Online MotionStyle Transfer. As shown in Fig. 1, current motion styletransfer methods [1, 5, 17, 19, 38, 54] with deep learningmodels require a motion segment as input, and produce atransferred motion segment as output, and where the input65930Style-ERD: 响应式和连贯的在线运动风格转换0陶天鑫 1 詹晓航陈中泉 2 Michiel van de Panne 101 英属哥伦比亚大学 2 加利福尼亚大学戴维斯分校0{ taotianx,van } @cs.ubc.ca xiaohangzhan@outlook.com czqchen@ucdavis.edu0摘要0运动风格转换是丰富角色动画的常用方法。运动风格转换算法通常设计用于离线设置，其中运动以片段形式处理。然而，对于在线动画应用，例如从动作捕捉实时生成角色动画，需要以流式方式处理运动并保持最小延迟。在这项工作中，我们实现了一种灵活、高质量的运动风格转换方法。我们提出了一种新颖的风格转换模型Style-ERD，采用编码器-循环-解码器结构对运动进行在线风格化，并结合特征注意力和时间注意力的新颖鉴别器。我们的方法使用统一模型将运动风格化为多个目标风格。尽管我们的方法针对在线设置，但在运动逼真度和风格表现力方面优于以前的离线方法，并在运行时效率方面提供了显著的提升。01. 引言0(a) 离线运动风格转换。0(b) 在线运动风格转换。0图1. a) 离线运动风格转换处理运动片段，而b)在线运动风格转换处理运动流。0这些方法的启动延迟由于等待所需的多个帧而导致。对于在线运动风格转换，模型仅处理当前帧，这使得可以直接处理运动数据流。我们认为这样的转换方法更适合许多需要流式运动数据的新颖应用。例如，在为人类角色动画制作动画时，需要在线捕捉运动以实时为虚拟角色提供动画，并且需要以最小延迟处理流式运动数据。在线运动风格转换还可以轻松地与实时运动系统的工作流程集成，例如游戏、互动展览和增强现实，而几乎不增加额外的延迟。运动风格转换一直是一个长期存在的研究问题，由于几个困难，其中包括：（1）缺乏用于运动的标准化定性风格表示，（2）处理和生成时间相关数据的困难，（3）不同风格的时间注册运动数据的缺乏。一些方法旨在通过手动设计的模型解决这个问题。然而，它们往往无法很好地推广到具有各种风格的大型运动数据集。研究人员随着深度学习技术的快速发展开发出了更可扩展的方法。然而，只有少数方法能够将运动转换为多个目标风格，并且65940一个统一的模型[1,38]。除了上述挑战之外，在线动作风格转换还面临更多困难，因为风格和内容在一个帧内是模糊和无法识别的，导致转换结果质量低下。当前的离线动作风格转换方法通常在多个输入帧的条件下进行，以理解动作语义，从而在引入非常规延迟的情况下实现更好的转换。虽然离线方法可以通过用过去的帧填充当前帧来适应在线设置，但没有机制来保证输出帧之间的连续性。为了实现高质量、高效的动作风格转换，并且具有最小的延迟，我们将关于前一帧的知识嵌入到动作转换模块的记忆中，以推断和跟踪风格和内容。因此，即使只提供当前帧，转换模块也能意识到内容和风格的上下文。我们通过设计新颖的循环残差连接来捕获每种风格的特征，将编码器-循环-解码器（ERD）框架调整为在线动作风格转换任务。我们将这种新颖的架构命名为Style-ERD。在Style-ERD中，我们使每个残差连接能够学习其自己的初始隐藏状态h0，该状态取决于风格和内容标签。学习到的隐藏状态对于风格转换结果的响应性至关重要。此外，为了产生时间上连贯的动作，我们设计了一个具有特征和时间注意力的新鉴别器，FT-Att鉴别器，以监督转换后的风格。因此，我们的深度学习模型展示了在最小延迟下执行所需的动作风格转换的强大能力。本文的贡献如下：（1）我们介绍了在线动作风格转换问题，并旨在激发未来在这一领域的研究，以促进实时动画应用。（2）我们提出了一种新颖的框架Style-ERD，以及一个新的监督模块FT-Att鉴别器，实现了在最小延迟下进行风格转换的目标。与当前最先进的方法相比，我们的风格转换框架计算时间减少了5倍。（3）我们的方法可以将动作转换为具有高保真度的风格对应物，与离线方法相比，显示出更好的风格转换效果。02. 相关工作02.1. 动作合成和控制0动作合成一直是计算机动画和计算机视觉领域的一个长期研究问题。早期的方法是围绕动作图和搜索算法[3,25-28,33,43,52]或主成分分析（PCA）[4,50]设计的。这些方法通常是非参数化的，因此需要大量的0具有有限泛化能力的完整数据集。最近，深度学习方法也被应用于动作合成，这是由于它们具有可扩展性、泛化能力和计算效率的潜力。Holden等人[18]引入了一个名为Phase-Functioned NeuralNetworks（PFNN）的前馈神经网络模型，其中包含了一种特殊的权重混合机制。后续的工作在PFNN的权重混合机制上进行了改进，提高了其泛化能力[61]、交互性[48]和响应性[49]。循环网络，包括由长短期记忆（LSTM）及其变种实现的网络，也是广泛采用的动作生成结构。Fragkiadak等人[7]使用ERD框架预测给定当前姿势的下一个姿势。Martinez等人[35]提出了一种残差序列到序列的架构，用于学习连续姿势之间的差异。ERD框架进一步扩展为在关键帧条件下生成动画[13,14]。在给定基于物理的模拟器的情况下，最优控制技术[24,41,51]和强化学习方法[39,40,58,59]也解决了带有参考轨迹的动作生成问题。02.2. 图像风格转换0[9]中探索了图像的风格转换，通过卷积神经网络提取特征。Johnson等人[22]提出了一种特定形式的感知损失来加速该过程。后来，提出了实例归一化（IN）来规范图像的风格[53]，允许通过改变IN的均值和方差来操纵风格。最近，取得了令人印象深刻的进展，以提高图像质量[45,62]，实现用户控制[10,42]，改善运行时效率[8,29,30]和实现任意风格转换[12,21,55]。在我们的工作中，内容监督模块受到感知损失[22]和通过IN引入的风格归一化效果的启发[53]。02.3. 运动风格转换0在早期的工作中，Hsu等人[20]提出使用线性时不变（LTI）模型来表示运动风格的变化。Wu等人[56]通过缩短训练时间和简化输入进一步改进了LTI模型的性能。Shapiro等人[46]采用独立成分分析（ICA）将运动分解为不同的风格成分，可以调整这些成分以形成风格化的运动。频谱域特征也被用来捕捉运动之间的风格差异，这种差异在很大程度上对内容不变[60]。Xia等人[57]提出了一种局部自回归模型混合，用于提取运动风格之间的复杂关系。然而，这些模型存在可扩展性问题，对于运行时使用仍然可能较慢，这促使最近关注神经网络方法。Holden等人[17,19]提出了一种65950(a) 风格转换模块：Style-ERD。0(b) 风格和内容监督模块。0图2. 框架概述。(a) 输入帧被编码，传递到循环模块，最后解码为原始运动格式的关节旋转。(b)在训练时，要求输出运动段在保持内容的同时实现目标风格。0风格转换框架由预训练的运动流形和Gram矩阵组成，用于监督内容和表示运动的风格。在[47]中，作者构建了一个姿势网络、一个脚接触网络和一个时间网络，利用前馈层实现了出色的运行时效率。Aberman等人[1]采用了IN和应用于图像风格转换的AdaIN层，提出了一种不需要成对运动数据的转换算法。在此基础上，Park等人[38]将1D时间卷积结构替换为空间-时间图卷积。残差模型也可以用来提取运动的风格成分[36]。Wen等人[54]提出了一种具有生成流的风格转换框架。受到[1,17]的启发，我们的框架采用了风格和内容的双向约束。与这些先前的深度学习模型相比，我们的框架可以在单个输入帧的情况下运行，同时以目标风格提供高质量的运动，并在在线环境中具有更高的计算效率。03. 方法论0我们的目标是开发一种具有高质量转换和最小延迟的在线运动风格转换算法。特别是，我们希望减少每个时间步骤所需的输入帧数，以合成目标风格的当前帧。然而，较少的输入帧可能导致风格转换模型在解释风格和内容时出错。因此，我们利用循环模型来维护风格和内容的相关估计。我们的框架包括三个组件：风格转换模块、风格监督模块和内容监督模块。我们的方法概述如图2所示。0受ERD框架[7]的启发，我们将风格转换模块命名为Style-ERD。它的特点是多个循环残差连接和具有学习初始值的隐藏状态，这些初始值是根据输入进行条件化的。新颖的循环残差连接在我们的方法的成功中起着关键作用，因为过去帧的记忆提供了关于当前帧的风格和内容信息，而残差则捕捉了每个风格的特征。Style-ERD模型实现了从每个单帧输入实时进行风格转换的目标。当仅使用重构损失时，风格转换模块（Style-ERD）的风格转换效果较差。在转换任务之前和之后对风格和内容进行条件化可以增强风格转换效果。两个监督模块接受多帧运动作为输入。我们提出了一种新颖的注意机制，它跨越了风格鉴别器FT-Att鉴别器中特征空间和时间空间，使得风格转换模块能够避免模式崩溃问题，否则会限制所需的风格和内容的多样性建模。内容监督模块采用感知损失[22]的思想，其特征侧重于运动的内容。03.1. 架构0运动转换模块。我们的风格转换模块Style-ERD由三个部分组成：编码器E用于压缩输入帧xt，循环模块R由残差连接组成，用于学习不同风格的偏移量，解码器D将潜在代码映射回表示为关节旋转的转移运动帧x′t。65960图3.FT-Att鉴别器结构。鉴别器通过两个注意力向量的外积形成权重矩阵，然后通过Hadamard乘积将注意力矩阵应用于提取的特征上。0输入帧xt包含单位四元数rt∈R4×J的关节旋转、根节点偏移的关节位置pt∈R3×J和线性关节速度vt∈R3×J（在时间步t），其中J是关节数量。此外，编码器在输入帧xt的风格标签S和内容标签C上进行条件化，而解码器在目标风格标签ˆS上进行条件化。风格和内容标签都由独热向量表示。编码器由一个两层MLP（多层感知器）组成，将输入压缩到低维空间z。我们选择压缩输入的原因有两个：（1）低维潜在空间可以简化对抽象风格表示的捕捉；（2）通过这个低维瓶颈和给定的训练任务，编码器可以将输入帧的风格规范化为中性风格。循环模块设计为LSTM层的堆叠，即R=[r0,r1,...,rnS]，每个LSTM层学习一个特定风格相对于中性风格的风格偏移量。在这里，我们将循环分支r0分配给学习中性风格的特征，它作为所有其他风格偏移量的基础。然后，目标风格分支rˆS(zt)计算的残差值被添加到中性分支输出r0(zt)上。因此，我们的循环模块的操作可以表示为：z′t=r0(zt)+rˆS(zt)此外，对于前几帧进行风格转换是具有挑战性的，因为LSTM层的记忆可能还没有看到足够的信息来推断所需的风格信息。初始化隐藏状态的常见方法包括将隐藏状态设置为零[31]或随机噪声[63]，并将初始隐藏状态视为网络学习的参数[13]。为了提高前几帧的性能，我们提出学习多个初始状态h0=[h00,h01,...,h0nS]，这些初始状态以风格标签S和内容标签C为条件。具体而言，假设有nC个不同的内容标签；中性分支r0同时学习nC个初始隐藏状态，并选择与内容标签对应的隐藏状态。0标签。类似地，每个风格分支都学习其相应风格的初始隐藏状态。条件解码器D将潜在代码zt'通过四个MLP层扩展回四元数表示的关节旋转和线性关节速度，进一步根据目标风格标签ˆS进行条件化。通过关节旋转的正向运动学计算也可以得到关节位置。风格监督模块。我们提出了一种新颖的鉴别器DS，带有注意机制FT-Att鉴别器，用于监督风格转换任务。图3显示了FT-Att鉴别器的结构。与风格转换模块不同，我们的鉴别器接收T（T=24）帧的片段作为输入来推断输入动作的风格。每一帧由关节位置（由根节点pt∈R3×J偏移）和线性关节速度vt∈R3×J的连接表示，正如Aberman等人[1]发现的，位置比旋转更能代表风格。鉴别器试图根据风格标签S和内容标签C区分生成的动作和真实的动作样本。我们采用类似于[1,32]的一维时间卷积结构来提取2D特征矩阵ms∈RC'×T'，但添加了基于风格和内容的新颖注意模块。注意模块由带有风格和内容标签的MLP层组成，并输出特征注意向量wf∈RC'和时间注意向量wt∈RT'。然后，我们计算特征注意wf和时间注意wt的外积，形成权重矩阵ws∈RC'×T'：ws=wf�wt。最后，通过Hadamard乘积，即逐元素相乘，将权重矩阵ws应用于特征矩阵ms。因此，给定特征图ms和权重矩阵ws，鉴别器的输出可以表示为：0DS(pT, vT|S, C) =0C' 0i=00j=0 (ms◦ws)[i, j] (1)0内容监督模块。在传输风格的同时，我们希望运动的内容保持不变。我们使用基于预训练内容分类网络DC的感知损失[22]来保留内容。分类网络与鉴别器相同的卷积层一起工作，接受联合旋转、关节位置和速度作为输入。受到IN[1,21]的风格归一化效果的启发，每个卷积层后面都跟着IN，使得分类网络专注于运动内容，忽略风格的影响。03.2. 训练0(5)T65970生成器Style-ERD的目标是重建输入帧并将其风格化为目标风格，以欺骗鉴别器FT-Att鉴别器，而FT-Att鉴别器的目标是区分转换后的动作与真实数据样本。我们在鉴别器中添加了感知损失，并采用了梯度惩罚来改善整个训练过程。为了简化和清晰起见，我们使用(.)'表示转换结果的属性。重建任务是给定一个动作输入xt和一个与原始风格相同的目标风格标签ˆS，动作转换模块应该输出一个相同的帧x''t=[r''t, p''t,v''t]。这个重建任务可以被视为一个辅助任务，用于学习每个残差分支的解耦风格变化。重建损失应用于四元数表示的关节旋转rt、关节的平移位置pt和速度vt：0Lquat(rt, r''t) = ��cos-1(|rt ∙ r''t|)��2, (2)0L rec t = Lquat(rt, r''t) +102∥pt - p''t∥2 + ∥vt - v''t∥2,(3)0其中Lquat表示两个旋转之间的角度差异，以弧度表示。有关Lquat的更多详细信息，请参见补充材料。0样式转换。我们采用最小二乘生成对抗网络（LSGAN）[34]框架来训练FT-Att鉴别器。我们假设中性样式运动作为其他样式的共同基础。在训练时，我们将所有中性运动的目标样式设置为数据集中的任何其他现有样式，而除中性以外的其他样式的运动应该转换为中性样式。通过这些训练目标，我们期望编码器E将输入运动归一化为中性样式。因此，对抗损失被应用于通过欺骗评论家来操纵运动的样式。同时，评论家被训练来区分生成的假运动和真实运动样本：0L adv = ��Ds(p'T, v'T | ˆS, C)��2, (4)0L cri = ∥Ds(pT, vT | S, C) - 1∥20+ ��Ds(p'T, v'T | ˆS, C)) + 1��2.0梯度惩罚。已知GAN训练存在不稳定和收敛问题，已经提出了多种方法来解决这个问题[15, 16, 23, 37,44]。在这项工作中，我们对真实样本应用了梯度惩罚，以防止鉴别器创建非零值。0生成器产生真实数据分布时，梯度正交于数据流形[37]：0L gp = �� ˆxDs(ˆx)|ˆx=(pT, vT | S, C))��2 (6)0感知损失。为了在转换之前和之后保留内容，我们向生成器添加了感知损失[22]Lper，其中包括预训练的多类内容分类网络DC。感知损失鼓励分类网络在转换之前和之后提取的卷积特征图ϕ匹配：0L per = ∥ϕ - ϕ'∥2. (7)0应用于运动样式转换模块（生成器）的最终损失是重建损失、对抗损失和感知损失的加权和，同时在鉴别器损失中添加了梯度惩罚：0L gen =0t = 0 L rec t + w adv L adv + w per Lper，(8)0L dis = L cri + w gp L gp, (9)0其中我们设置 w adv = 1，w per = 0.1和w gp = 128。04. 实验0我们根据Xia等人提供的数据集对我们的框架进行了测试[57]。我们首先将样式转换结果与先前的离线样式转换方法[1,38]进行比较。我们采用了[38]中提出的定量Fréchet运动距离（FMD）指标来评估转换结果的质量，该指标是FréchetInception距离（FID）[16]的变体。我们训练了一个去噪自编码器作为FMD的特征提取器。此外，我们根据样式表现力、时间一致性和内容保留三个标准对转换结果进行了定性评估。此外，我们进行了用户研究，评估了转换结果的质量，详细内容请参见补充材料。其次，我们衡量了我们方法的运行时效率，以评估其在实时在线应用中的可行性。我们还证明了输入帧不足可能会降低离线样式转换方法[1,38]的结果，并且我们的方法在在线转换设置中表现良好，延迟最小。然后，我们对转换模块的样式成分进行了插值实验。最后，我们测试了我们方法的泛化性能。为了更好地进行可视化和比较，我们建议读者参考我们的补充视频和材料。04.1. 数据集0我们的方法在Xia等人[57]提供的数据集上进行训练和测试。运动片段涵盖了nS = 7种不同的风格和nC =5种不同的内容类型。我们将原始的120fps运动数据降采样到60fps，总共得到约1500个运动片段。每个运动片段的帧数在28到80之间。为了确保模型对初始帧的选择不敏感，我们将每个运动片段进一步分割成T =24帧的多个窗口，窗口之间有4帧的重叠。运动片段被随机分配到训练集和测试集中，没有任何重叠。65980中性奔跑转换为愤怒风格中性踢转换为性感风格中性跳转换为童真风格0输入运动0Aberman等人[1]0Park等人[38]0风格参考0图4.风格转换比较：显示输入运动，我们的方法产生的风格转换结果，Aberman等人[1]和Park等人[38]的方法。红色圈出了一些伪影。风格参考是目标风格中现有的输入运动内容，由测试集提供。理想情况下，转换结果应该与风格参考相似，同时运动内容保持不变。0样式和nC =5个不同的内容类型。我们将原始的120fps运动数据降采样到60fps，总共得到约1500个运动片段。每个运动片段的帧数在28到80之间。为了确保模型对初始帧的选择不敏感，我们将每个运动片段进一步分割成T =24帧的多个窗口，窗口之间有4帧的重叠。运动片段被随机分配到训练集和测试集中，没有任何重叠。04.2. 风格转换质量0表1列出了我们的方法和其他方法[1,38]的FMD分数。我们的方法达到了最低的FMD，这表明其转换结果在概率意义上更接近真实的风格化运动样本，而不同的方法。图4显示了使用我们的方法和Aberman等人[1]、Park等人[38]提出的风格转换结果的三组样本。除了上述客观指标外，我们的方法转换的运动在目标风格中主观上与现有运动相似，而Aberman等人[1]的方法作为一种无监督模型，可能会出现有限的变化。0方法 FMD ↓ 消融研究 FMD ↓0Aberman等人[1] 563.41 我们的方法（Lgen = Lrec）285.17 Park等人[38] 190.94我们的方法（Lgen = Lrec + Ladv）75.40 我们的方法61.95 我们的方法（Lgen =Lrec + Lper）380.780我们的方法（无注意力）382.570我们的方法（无学习的初始状态）309.700表1.我们的方法和现有运动风格转换方法的定量评估，以及消融研究结果。0使用我们的方法和Aberman等人[1]、Park等人[38]提出的方法进行风格转换的结果。除了上述客观指标外，我们的方法转换的运动在目标风格中主观上与现有运动相似，而Aberman等人[1]的方法作为一种无监督模型，可能会出现有限的变化。65990风格（见图4c）。此外，我们的方法在整个运动周期中产生一致的风格效果，而[38]产生的结果在运动的开始和结束处可能存在伪影（见图4b）。就内容保留而言，我们的方法转换后的运动内容容易识别，并且与输入保持完全一致。相比之下，[1]和[38]产生的运动在风格转换后会出现一定程度的内容变化（见图4a和图4b）。我们的框架还可以对异构动作序列进行风格化处理，即一个包含多种内容类型的运动片段。结果包含在补充材料中。04.3. 效率0我们根据两个标准在在线环境中评估我们的方法：（1）启动延迟和（2）运行时间。启动延迟在在线运动转换任务中非常重要，因为延迟会直接影响用户交互。在表2中，我们列出了我们的方法和其他方法[1, 38,57]的运行时间，以及训练时设计的输入长度。尽管这些方法不限于特定长度的输入，但我们发现当使用较少的输入帧时，它们通常会导致运动转换的降级。因此，设计的输入帧可以作为流媒体应用中延迟的指标。在图5中，当只提供10帧作为内容输入时，[1,38]的运动转换结果在肢体旋转方面存在明显的伪影。另一方面，由于学习到的初始隐藏状态和循环结构，我们的框架可以从一开始就产生良好的运动转换结果。我们还在在线环境中以每帧的方式测量风格转换的运行时间，并提供多帧的额外测量结果作为参考。运行时间性能是在配备NVIDIAGeForce GTX 1060GPU（6GB）的PC上测试的，除了[57]的测量结果，我们使用他们的文档结果。由于之前的方法[1,38]不是为在线目的而设计的，我们在在线运行时测试中用过去32帧填充当前帧。就运行时间而言，我们的方法在在线环境中比其他转换方法表现出色，与第二快的Park等人的运行时间相比，提供了5倍的加速。较短的输入窗口可以降低处理流媒体运动数据的延迟，以产生逼真的转换结果。尽管Xia等人的方法[57]需要第二短的输入窗口，但其算法的运行速度比我们的默认k最近邻（kNN）实现要慢得多。当与长输入序列一起使用时，我们的方法的顺序性质会减慢运行时间，尽管这不是我们的重点。总之，我们的方法在运行时间和转换质量方面都大大优于以前的风格转换方法。0方法运行时间 (ms) 输入长度0在线 L=60 L=90 L=120 (帧)0Aberman等[1] 26.82 27.02 27.56 27.74 32 Park等[38] 10.21 10.20 10.2410.25 64 Xia等[57] 18.10 217.2 325.8 434.4 5 我们的方法 1.73 7.47 10.1813.22 10表2.在在线环境和不同的输入帧数L下的运行时间测量。输入长度表示输入段的理想长度，与延迟有关。0(a) 我们的方法0(b) Aberman等[1]0(c) Park等[38]0图5.前十帧的风格转换结果。任务：中立走入自豪风格。明显的关节比例不协调的伪影用红色圈出。0(a) α = 0.00(b) α = 0.30(c) α = 0.60(d) α = 1.00图6. 风格插值。任务：中立走入沮丧风格。α =0等同于对输入动作的重构。0时间和启动延迟。我们的方法在当前的在线流媒体应用中速度足够快，最高可达120 Hz。04.4. 风格插值0我们还尝试了风格插值。更具体地说，我们将潜在代码zt设置为两个目标风格ˆS、˜S的线性组合：zt = r0(zt) + α *rˆS(zt) + (1 - α) *r˜S(zt)，或者是指定目标风格的缩放值：zt = r0(zt) + α *rˆS(zt)，其中α是[0,1]范围内的标量。如图6所示，通过调整单个目标风格的系数α，可以产生具有不同风格强度的动作。在补充材料中，我们演示了生成混合风格动作的过程。04.5. 泛化能力0由于运动速度、演员骨架等原因，动作捕捉数据自然地包含显著的变异性。风格转换算法可能会遇到分布外的运动数据。为了检验对运动的鲁棒性66000来自Mixamo的输入动作我们的方法 Aberman等[1] Park等[38]0(a) 中立跳入自豪0(b) 中立跑入愤怒0图7. 泛化测试：我们的方法和其他方法[1,38]在Mixamo的运动数据上的风格转换结果。Mixamo的运动数据在训练时未见过，并且具有不同的运动模式。一些明显的伪影用红色圈出。0扰动，我们在Mixamo的重定目标公共动作数据上测试了我们的框架和[1,38]中提出的方法。如图7所示，我们的方法可以成功地将未见过的动作数据转换为所需的风格，而另外两种方法则包含明显的伪影。05. 消融研究0我们进行了广泛的消融研究，以验证我们框架中多个组件的相关性，包括生成器损失Lgen中的每个项，FT-Att鉴别器中的注意机制以及学习的初始隐藏状态。基于FMD的定量测量结果列在表1中，揭示了我们框架中模块的必要性。补充材料中包含了每个消融实验的定性可视化结果。在损失函数中哪些项是重要的？Mason等人[36]以前提出了使用重构损失生成风格化动作的残差模型。因此，我们评估了监督模块的必要性，并将训练目标Lgen设置为纯回归任务，使用方程式3中的Lrec。结果发现，当仅在重构目标上进行训练时，Style-ERD无法产生目标风格的动作，转换后的动作与输入动作几乎没有区别。由于FT-Att鉴别器中的注意模块依赖于内容和目标风格标签，鉴别器可以理论上同时监督运动的风格和内容。因此，我们从生成器损失中移除了感知损失，即Lgen= Lrec +Ladv。结果发现，一些风格转换结果在转换后经历了明显的内容变化，没有内容监督模块。我们还尝试仅从生成器损失中移除对抗性损失Ladv，即Lgen = Lrec +Lper。没有对抗性损失，Style-ERD模型的行为类似于自编码器，只能重构输入。0我们可以在鉴别器中舍弃注意机制吗？我们将提出的FT-Att鉴别器替换为[1,32]中使用的标准多类别鉴别器。多类别鉴别器具有共享的卷积特征提取器和每个风格鉴别任务的独立头部。我们发现完整模型产生的结果具有更具表现力的风格，而基准鉴别器无法捕捉到一些风格特征并且包含有瑕疵。可学习的初始隐藏状态是否有帮助？我们将LSTM层的初始隐藏状态设置为零，而不是作为可学习参数，就像[31]中所做的那样。我们发现转换结果可能会出现时间偏移，特别是对于短的运动片段。例如，一个运动的开始可能会转移到运动序列的中间阶段。06. 结论0总结一下，我们引入了一种新颖的风格转换模型，Style-ERD，采用编码器-循环-解码器结构来解决在线运动风格转换问题。在我们的风格建模框架中，记忆模块封装了过去帧的风格和内容上下文。我们引入了可学习的初始隐藏状态，以增强我们方法的响应性。此外，我们提出了一种新的鉴别器FT-AttDiscriminator，它在特征和时间维度上都具有注意力，以监督输出的风格。我们的方法能够在最短的延迟下对输入帧进行风格化，并在在线环境中显著加速转换过程。与之前的方法相比，我们的Style-ERD模型能够产生更逼真的风格转换动作，并且对输入的扰动具有鲁棒性。我们在补充材料中讨论了我们的工作的局限性和社会影响。66010参考文献0[1] Kfir Aberman, Yijia Weng, Dani Lischinski, Daniel Cohen-Or,和 Baoquan Chen. 从视频到动画的非配对运动风格转换. ACMTransactions on Graphics (TOG), 39(4):64-1, 2020. 1 , 2 , 3 , 4 ,5 , 6 , 7 , 80[2] Adobe's Mixamo. https://www.mixamo.com ,访问日期：2021-11-10. 80[3] Okan Arikan 和 David A Forsyth. 从示例中生成交互式动作.ACM Transactions on Graphics (TOG), 21(3):483-490, 2002.20[4] Jinxiang Chai 和 Jessica K Hodgins.通过低维控制信号进行性能动画. 在ACM SIGGRAPH2005论文集中, 页码686-696, 2005. 20[5] Yuzhu Dong, Andreas Aristidou, Ariel Shamir, MosheMahler, 和 Eakta Jain. 使用循环GAN进行运动风格转换.在Motion, Interaction and Games中, 页码1-11, 2020. 10[6] Han Du, Erik Herrmann, Janis Sprenger, NoshabaCheema, Somayeh Hosseini, Klaus Fischer, 和 PhilippSlusallek. 具有条件变分自编码器的风格化运动建模.在Eurographics (Short Papers)中, 页码9-12, 2019. 10[7] Katerina Fragkiadaki, Sergey Levine, Panna Felsen, 和Jitendra Malik. 用于人体动态的循环网络模型.在计算机视觉的IEEE国际会议论文集中, 页码4346-4354, 2015. 2, 30[8] Wei Gao, Yijun Li, Yihang Yin, 和 Ming-Hsuan Yang.快速视频多风格转换. 在IEEE/CVF Winter Conference onApplications of Computer Vision中, 页码3222-3230, 2020. 20[9] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络进行图像风格转换.在计算机视觉和模式识别的IEEE会议论文集中, 页码2414-2423,2016. 20[10] Leon A Gatys, Alexander S Ecker, Matthias Bethge, AaronHertzmann, 和 Eli Shechtman. 控制神经风格转换中的感知因素.在IEEE计算机视觉和模式识别会议中, 页码3985-3993, 2017. 20[11] Ian J. Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio。生成对抗网络，2014年。40[12]顾舒阳，陈聪亮，廖静和袁璐。具有深度特征重排的任意风格转换。在IEEE计算机视觉和模式识别会议论文集上，页码为8222-8231，2018年。20[13] F´elix G Harvey和ChristopherPal。用于角色运动的循环转换网络。在SIGGRAPH Asia2018技术简报中，页码为1-4。2018年。2,40[14] F´elix G Harvey，Mike Yurick，DerekNowrouzezahrai和Christopher Pal。稳健的中间动作。ACMTransactions on Graphics（TOG），39（4）：60-1，2020年。20[15] Tamir Hazan，George Papandreou和DanielTarlow。深度神经网络的对抗性扰动。2017年。50[16] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和Sepp Hochreiter。由GAN训练的0两个时间尺度的更新规则收敛到局部纳什均衡。神经信息处理系统进展，30，2017年。50[17] Daniel Holden，Ikhsanul Habibie，Ikuo Kusajima和TakuKomura。用于运动数据的快速神经风格转换。IEEE计算机图形学和应用，37（4）：42-49，2017年。1,2,30[18] Daniel Holden，Taku Komura和JunSaito。用于角色控制的相位函数神经网络。ACM Transactions onGraphics（TOG），36（4）：1-13，2017年。20[19] Daniel Holden，Jun Saito和TakuKomura。用于角色动作合成和编辑的深度学习框架。ACMTransactions on Graphics（TOG），35（4）：1-11，2016年。1,20[20] Eugene Hsu，Kari Pulli和JovanPopovi´c。人体运动的风格转换。在ACM SIGGRAPH2005论文集上，页码为1082-1089。2005年。1,20[21] Xun Huang和SergeBelongie。实时的任意风格转换与自适应实例归一化。在IEEE国际计算机视觉会议上，页码为1501-1510，2017年。2,40[22] Justin Johnson，Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议上，页码为694-711。斯普林格，2016年。2,3,4,50[23] Tero Karras，Timo Aila，Samuli Laine和JaakkoLehtinen。渐进增长的GAN用于改善质量、稳定性和变化。arXiv预印本arXiv:1710.10196，2017年。50[24] Nam Hee Kim，Hung Yu Ling，Zhaoming Xie和Mich

下载后可阅读完整内容，剩余1页未读，立即下载