语音驱动模板：共语言手势合成模型的学习与评估

25 浏览量更新于2023-10-16 收藏 15.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

110770语音驱动模板：基于学习模板的共语言手势合成0钱申瀚1* 屠智1* 支轶豪1* 刘文1 高胜华1,2,3†01 上海科技大学 2 上海智能视觉与成像工程研究中心 3 上海高效节能与定制AIIC工程研究中心0摘要0共语言手势生成是合成一个手势序列，不仅看起来真实，而且与输入的语音音频相匹配。我们的方法生成了一个完整上半身的动作，包括手臂、手和头部。尽管最近的数据驱动方法取得了巨大的成功，但仍然存在一些挑战，如种类有限、保真度差和缺乏客观指标。受到语音不能完全确定手势的事实的启发，我们设计了一种方法，学习一组手势模板向量来建模潜在条件，从而减轻了歧义。对于我们的方法，模板向量确定了生成的手势序列的一般外观，而语音音频驱动了身体的微妙运动，这两者都是合成逼真的手势序列所必需的。由于手势-语音同步的客观度量的复杂性，我们采用唇同步误差作为代理度量来调整和评估我们模型的同步能力。大量实验证明了我们的方法在保真度和同步性方面的优越性01. 引言0我们人类一直对制作自己的复制品充满热情。在生成明确行为方面取得了许多成功，例如唇同步[30]、面部交换[32]或姿势重新定位[8]。但是合成人类的隐含行为，在合成逼真的数字人时起着关键作用，却远未被充分探索。共语言手势就是这种隐含行为，指的是当有人说话时身体部位的移动，传达了丰富的非语言信息0* 平等贡献。† 通讯作者。1https://github.com/ShenhanQian/SpeechDrivesTemplates0语音音频0头向上，手向上0头向下，手向下0模板0向量0模板0向量0图1：我们的方法从一段语音音频中生成逼真的手势序列。使用不同的模板向量，我们的方法从相同的音频中产生了两个不同的手势序列，但手、头和嘴唇的动作是同步的0例如情绪、态度和意图。早期的共语言手势合成主要基于规则[7, 21,34]，但由于非语言信息过于微妙，无法用规则来描述，因此自然度较差。后来的研究[24, 15, 22, 14, 12,36]通过学习从收集到的数据中学习人类行为。数据驱动方法面临的一个重要障碍是从语音音频到可能的手势的多模态映射的本质。这意味着对于相同的输入音频，存在多个可行的解决方案，因此直接回归到真实手势会导致不一致的偏差映射，阻止模型学习数据集中的差异。在最近的方法中，解决这个挑战的一种常见方法是通过对抗学习[14, 1,36]，其中判别器缩小了生成和真实手势之间的差距。然而，这只能改善真实的050.20.30.40.5110780音频0音频0条件0条件回归0（一对一）0普通回归（一对多）0手势0手势0手势0手势0模型0模型0（a）普通回归与条件回归的对比。0步骤（千）00.7普通回归带模板（BP）带模板（VAE）0（b）训练集上的回归损失曲线。0图2：使用模板向量作为条件，将具有歧义的普通回归转化为条件回归，从而在训练集上降低回归损失。0手势的多样性与手势-语音同步无关，甚至可能对手势-语音同步造成干扰。因此，只要我们期望稳定的同步质量，回归损失应该是核心监督。鉴于回归损失是我们唯一可以依靠学习手势-语音同步的监督，而输入音频并不能提供足够的信息来确定手势序列，我们使用一个条件向量来补充输入。这个条件向量提供了缺失的信息（例如习惯、情感或先前状态），以排除除了真实手势之外的其他手势，从而将从一对多的映射转化为一对一的映射（图2a）。具体而言，我们将每个配对的音频-手势序列分配一个零向量作为初始条件，并随着网络参数的更新而更新向量，以在训练时最小化回归损失。这里的直觉是，如果网络只需通过音频就能轻松回归到目标手势序列，条件向量将保持不变；否则，条件向量将更新以显示差异。从所有学习到的条件向量中，我们可以选择一个并从任何音频剪辑生成一个手势序列。通过切换条件向量和语音音频，我们观察到一个有趣的现象：条件向量起到了手势模板的作用。条件向量决定了生成序列中手势的一般外观，而音频输入则在手势模板上添加细微的动作，使其栩栩如生并与语音匹配。因此，我们将这些条件向量称为我们方法的模板向量。在图1中，我们展示了从相同语音音频生成的两个手势序列，使用了两个不同的模板向量。生成的手势明显不相同，但在手、头部和嘴唇的动作上仍然很匹配，展示了我们方法的保真度、多样性和同步能力。0既然我们可以通过反向传播学习模板向量，为什么不直接通过重构学习它们呢？因此，我们训练一个VAE（变分自动编码器[20]）来建模手势序列的分布。通过这个VAE模型，我们可以将一个真实手势序列编码为一个模板向量，并学习从它和语音音频到真实手势序列的一对一映射。此外，我们还可以解码一个模板向量以可视化其对应的手势序列。通过反向传播或VAE，我们学习到一组模板向量，不仅在训练时有助于降低回归损失（图2b），而且使得具有多样性的生成成为可能，因为我们可以从学习到的模板向量中随机选择一个来调整合成手势序列的一般外观。尽管先前关于共语手势的工作[14, 1,36]将手势的范围限制在手和手臂，我们主张将头部运动纳入共语手势，不仅可以更统一和协调地合成上半身，而且便于评估。由于手势同步的模糊性，现有的工作严重依赖主观评估。我们建议采用嘴唇回归误差作为代理度量，假设为了学习良好的手势同步，模型应该能够学习良好的嘴唇同步，因为它们都依赖于语音，而后者更加确定性。此外，为了评估生成的手势序列的保真度，我们训练的VAE可以用于计算类似于Yoon等人提出的FGD的Fréchet模板距离（FTD），该距离在特征空间中衡量生成序列与真实序列之间的分布相似性。我们的贡献可以总结如下：0•我们提出了一种基于音频驱动的有条件学习的手势合成方法。通过学习模板向量，我们减轻了共同语言手势合成的歧义性，提高了保持同步质量的忠实度和多样性。0•我们通过借用唇同步误差作为代理度量来客观评估手势同步。此外，我们提出了Fréchet模板距离（FTD）来评估手势的忠实度。0•我们在主观和客观测试中展示了我们方法的优越合成质量，并提供了学习模板向量的直观可视化。02. 相关工作0共同语言手势合成。在机器人技术[23, 16, 37]、图形学[2,36]和视觉[14, 1,25]领域，合成共同语言手势一直是一个活跃的研究课题。这个任务的一个最新趋势是使用野外视频[14, 1,37]，而不是在实验室环境中使用传感器收集的视频，从而扩展了合成手势的数据来源。Lreg = 1F�i=1∥G(i) − ˆG(i)∥1,110790合成手势的多样性。然而，正如Ginosar等人所述[14]，实现逼真的共同语言手势生成的一个障碍是任务的歧义性，这导致了数据的欠拟合和结果的表现力不足。尽管可以像Ginosar等人[14]所做的那样，通过引入对抗学习来增强手势的忠实度，但模型仍然严重依赖回归损失来产生与音频同步的手势，因此结果是确定性的，没有多样性。Ahuja等人[1]通过将每个手势嵌入到跨主体的公共风格空间中，实现了手势的风格转移或保持，但这些风格是以每个主体为基础定义的，每个主体只有一个典型的手势。Alexanderson等人[2]基于正则化流[26]引入了概率模型MoGlow，用于对输入音频条件下的手势到高斯分布的映射建模。在推理时，该模型从高斯分布中采样潜在向量，因此能够优雅地建模一对多的映射。然而，正则化流[26]模型只支持线性操作，限制了模型的表现力。我们的模型通过学习模板向量减轻了一对多映射的歧义性，并通过在推理时对模板向量进行采样来实现多样化生成。0除了生成方法之外，另一个巨大的挑战是评估。由于共同语言手势的歧义性，先前的方法大多依赖于人类研究来展示其方法的有效性[14, 1,2]，这是合理但不客观的。至于诸如L1/L2距离、PCK（正确关键点百分比）等客观指标，[14, 1, 2,36]中报告的这些指标都是基于生成和真实值之间的距离，形成了误差越低多样性越大的矛盾。Yoon等人提出的FGD（Fréchet手势距离）是客观指标的一个有启发性的尝试，它衡量了特征空间中的分布相似性。0说话头部和唇同步。与先前的共同语言手势合成方法不同，我们将头部视为手势的一部分，不仅是为了使上半身代理完整，还为了传达头部运动所传递的不可或缺的非语言信息。代表性的面部操作方法[32, 35, 38, 5,13]采用姿态转移范式设计，从目标视频中继承面部关键点或模型参数[4]。另一类方法[19, 11, 10, 33, 27,31]专注于给定一段语音音频的面部表情或唇部操作。Karras等人[19]学习了一个潜在代码来建模情感状态。Prajwal等人[27]以离线方式训练鉴别器以增强唇同步。这些方法在唇部和语音之间实现了合理的同步，但它们不能或只能手动控制头部姿势，导致头部运动不匹配。后来，Chen等人[9]...0而Yang等人[39]则明确建模头部运动，以提高说话头部的自然性，但同步质量没有进一步评估。03. 方法0流程。给定一段语音音频作为输入，我们生成一系列具有自然姿势和同步动作的手势。我们模型的概述如图3所示。形式上，对于一个音频剪辑，我们按照之前的方法[14,2]将音频波形转换为梅尔频谱图，这是一个具有时间和频率的二维地图。然后我们将其送入音频编码器，得到音频特征 A ∈ R256 × F，其中 F是帧数。作为另一个输入，我们的网络接收一个模板向量 t∈ R C，并将其副本堆叠成模板特征 T ∈ R C ×F，以对齐音频特征的时间线。因此，我们模型的完整输入是 [A | T] ∈ R (256+ C) × F，即音频特征 A 和模板特征 T的连接。我们的手势生成网络是一个类似UNet的一维卷积神经网络，沿时间线滑动，具有7层编码器、6层解码器和跳跃连接。输出是一个手势序列 G ∈ R 2 K × F，其中 2 K对应于一帧中 K个上半身关键点的二维坐标，包括脸部、手部和臂部。作为主要监督，我们对回归的手势序列 G 应用 L 1 回归损失：0F0其中 G ( i ) 和 ˆ G ( i ) 是 G 中第 i帧的预测和地面真实手势向量。图像合成。为了方便对我们生成的手势序列进行视觉评估，我们训练了一个图像变形和平移模块，受到Balakrishnan等人[3]的启发。对于每一帧，我们首先通过局部仿射变换将源图像中每个身体部位的像素变形到目标位置，得到一个粗略结果，然后将粗略结果和关键点的热图连接起来，作为细化的输入，送入图像翻译网络。在训练过程中，源图像和目标图像是随机组合的。03.1. 用学习的条件补充音频0我们主要依靠回归损失来训练我们的模型，因为它是唯一可靠的监督来源，可以使手势序列与音频同步。然而，由于从语音音频到手势序列的映射不是唯一的，即存在许多其他可行的手势，简单地回归到地面真实手势序列会导致歧义，并产生过于平滑的结果。110800连接0语音音频0音频编码器0模板特征0�� ∈ � ��×��0UNet0音频特征0�� ∈ � 256×��0图像变形和平移0源手势目标手势0源图像0手势序列0模板向量0�� ∈ � �� KL � reg0复制 × ��0�� ∈ � 2��×��0梅尔频谱图0图3：我们的网络以音频特征 A 和模板特征 T 作为输入生成共语手势序列 G。模板向量 t可以通过反向传播进行更新或由VAE编码。F 是帧数，C 是模板向量的维度，K是关键点的数量。通过生成的手势序列作为中间表示，我们可以使用图像变形和平移模块合成逼真的视频。0为了消除歧义，我们应该为我们的模型提供更多的信息。具体来说，我们额外提供一个条件向量，如图2a所示。在这里，我们希望条件向量能够缩小潜在手势的范围，而不是指向特定的静态手势；否则，输入音频的作用将被削弱，这会损害手势和语音的同步。为此，我们为每个短手势序列（约4秒长）分配一个条件向量，而不是每个帧，并从音频和条件向量回归到地面真实手势序列。这样可以减轻语音和手势之间的歧义，为我们的方法奠定基础。0我们将这个条件向量称为我们方法的模板向量，因为这个向量决定了生成的手势序列的一般外观，而输入音频则添加了细微的运动以匹配语音和手势序列，就像模板和内容之间的关系一样。0通过反向传播学习模板向量。我们将每个语音-手势对的模板向量初始化为零向量，假设它们受相同条件的影响。训练时，我们通过反向传播回归损失并更新模板向量以及UNet的参数。这意味着模型在没有额外信息的情况下进行训练，因为所有模板向量都被设置为零；当出现歧义时，模板向量将被更新以消除歧义。通过存储训练好的模板向量，我们从数据集中提取每个样本的潜在条件。0为了规范化模板向量空间，我们应用了KL-0散度损失0L KL = D KL � N � µ t , σ 2 t � ∥N (0 ,1) �0其中 µ t ∈ R C 和 σ 2 t ∈ R C 是小批量中模板向量 t的均值和方差向量。然后总损失函数定义如下：0L = λ reg L reg + λ KL L KL ,0其中 λ reg 和 λ KL是应用于损失项的权重。我们在实验中将 λ KL 设置为1，λreg设置为1。通过反向传播更新模板向量带来了几个好处。首先，回归损失收敛速度更快，低于从音频中进行简单回归，表明更好地拟合了训练集（参见图2b）。其次，我们的模型可以通过从训练好的模板向量中随机采样任意模板向量来生成多样的手势，同时保持高度同步的手势和嘴唇。第三，模板向量的插值导致手势的平滑变化，例如切换手和改变头部方向，展示了紧凑的条件空间。尽管具有上述好处和启发，但该方法仍然存在一些局限性。首先，由于模板向量是以样本为单位分配的，每个模板只会在一个时期内使用和更新一次，这需要仔细调整超参数（例如学习率、时期数）以使模板向量收敛。其次，尽管我们可以观察到由于模板切换引起的手势变化，但我们仍然缺乏对模板的解释。第三，我们只能进行从模板向量到手势序列的映射，而不能反向进行。110810通过重构学习模板。为了解决上述限制，我们考虑使用VAE[20]通过重构学习模板向量。这个VAE首先将一个真实的手势序列ˆG编码成一个均值向量µt∈RC和一个方差向量σ2t∈RC，然后将它们解码成一个重构的手势序列G。同样，它由沿着时间线滑动的完全1D卷积构建，并且也是用L1损失和KL散度损失进行训练。一旦VAE训练完成，它将被冻结以用作计算FTD中描述的模板向量提取器。03.2. 生成共语言手势的评估0先前方法用于共语言手势的常见评估指标，如L1/L2距离、准确性或PCK（正确关键点的百分比），并不理想，因为它们衡量的是生成样本与真实样本之间的距离，忽略了给定音频片段的可行手势的多样性。因此，针对这些指标的目标将导致无聊和无表达力的合成。直观上，良好的手势合成应满足至少两个要求：自然性和同步性；但是，这两个要求都不能用基于距离的指标轻易衡量。接下来，我们提出了两个指标来评估手势的同步性和自然性。以嘴唇同步作为代理指标。与多样的身体手势不同，嘴唇形状几乎是一致的，因为发音一个音节通常需要特定的嘴形。此外，我们观察到嘴唇关键点的回归损失在验证集上的收敛性更好，这证实了从语音音频到嘴唇的映射的一致性。因此，我们采用生成的嘴唇关键点与真实关键点之间的距离作为整个手势的同步测量的代理指标。这个代理指标有两个原因：1）嘴唇关键点和其他关键点共享相同的网络和特征，我们的方法对嘴唇同步没有特殊设计；2）虽然良好的嘴唇同步质量不能保证良好的手势质量，但嘴唇同步的退化是不良手势同步的一个良好警示信号。形式上，我们使用的代理指标是归一化的嘴唇同步误差0E lip =01 F � F i =1 ∥ d ( i ) − ˆ d ( i ) ∥20max 1 ≤ n ≤ F ˆ d ( n ) (1)0其中d(i)是生成的手势序列G的第i帧的上唇和下唇中心关键点之间的距离，ˆd(i)是地面真实手势序列ˆG的相应距离。Fréchet模板距离。如前所述，直接测量生成手势之间的距离0序列和真实值之间的距离抑制了多样性。在这里，我们引入了FTD（Fréchet模板距离）作为FID（Fréchet InceptionDistance）[17]的一种变体。FTD测量了一组样本中合成和真实手势序列之间的分布距离，而不是单个样本。因此，为了获得更好的FTD分数，生成的结果不仅应该是自然的，而且还应该是多样的。在我们的实验中，FTD在整个测试集上计算如下：0FTD = | µ t − µ ˆ t | 2 + tr � Σ t + Σ ˆ t − 2 (Σ tΣ ˆ t ) 1 / 2 � ,0其中µ t和Σt是从用第3.1节中描述的VAE对测试集中的合成手势序列[G1，G2，...，GN]进行编码的模板向量[t1，t2，...，tN]的均值向量和协方差矩阵，其中N表示测试集中的样本数。µ ˆt和Σ ˆt是地面真实值的对应物。04.实验0数据集。我们在Speech2Gesture[14]数据集上测试我们的方法，因为它是唯一一个提供完整上半身注释，特别是面部关键点注释的数据集。然而，由于其他说话者的面部和手部关键点的质量不可用（使用OpenPose[6]获取的伪标签），我们只报告了该数据集中两位说话者Oliver和Kubinec的结果。有关其他说话者的结果，请参阅补充材料。此外，我们收集了两位普通话说话者Xing和Luo的数据，以测试我们方法的多功能性。这四位说话者的视频片段总共约有25.13小时，经过手动过滤错误注释后。我们分别在每位说话者上训练我们的模型，因为我们专注于特定说话者的手势学习。评估。我们报告三个客观指标进行公平比较：1）直接测量预测和真实值之间距离的L2距离；2）作为手势同步的代理度量的归一化嘴唇同步误差（Elip）；3）作为保真度量的Fréchet模板距离（FTD）。我们进行了广泛的人类研究，以感知地比较我们的方法与基线，并验证了我们提出的客观指标的可行性。我们创建了由相同的语音音频生成的不同方法的手势序列的视频，然后将它们发布为在线问卷进行人类评估。对于每位说话者，我们随机抽取8个语音音频用于视频生成。对于每个问卷，我们随机选择每位说话者的至少2个视频，形成一个包含10个视频片段的问卷。在测试期间，参与者逐个观看这10个视频。每个视频都与竞争方法的结果同步显示。110820音频。结果通过字母进行匿名化，并通过骨架图和合成图像进行可视化。观看每个视频后，参与者需要做出三个选择：1）具有最佳嘴唇同步质量的选择；2）具有最佳手势同步质量的选择；3）具有最自然手势的选择。最终结果通过每个问题中选择为最佳方法的百分比的平均值计算得出。测试结束后，我们总共收集了65份有效问卷。实施细节。在准备数据时，我们将视频分割为64帧的短片段，帧率为15FPS（约4秒）。为了消除说话者和视频分辨率之间的比例差异，我们根据每个说话者的平均肩宽重新调整骨架。在所有实验中，我们将模板向量空间的维度C设置为32。虽然我们的方法对C不敏感，但维度过大会导致手势同步的降级，而维度过低会限制模板空间的表达能力。我们在训练和测试中都使用批量大小为32。我们使用Adam优化器对模型进行100个epoch的训练。我们使用学习率0.0001，并在第90个和第98个epoch时降低10倍。在测试时，我们从训练集中随机抽取一个与片段对应的模板向量，使我们的结果多样化且非确定性。04.1. 使用学习的模板进行回归0作为我们方法的核心，模板向量学习使得仅通过回归损失就能学习到从一段语音音频到可行手势序列的一对多映射。在表1中，我们展示了不同模板配置之间的定量比较。没有模板的模型得到了最差的FTD，表明学习到的手势表现力较差。相反，逐帧模板向量的模型得到了最差的嘴唇同步误差（Elip），表明手势同步出现了退化。这是由于逐帧模板向量的过度表现力，因为模型可以简单地将逐帧手势存储在逐帧模板向量中，而不需要从音频信号中提取信息。与此同时，我们的具有逐段模板向量的模型（学习到的0表1：不同设置下模板学习的效果。红色数字表示列出模型中最差的结果。我们的具有逐帧模板的模型在同步和表现力之间实现了最佳平衡。0模板类型 E lip ↓ FTD ↓0无模板 - 0.17 1.660带模板-BP逐帧0.21 0.780带模板-BP逐帧0.17 1.26 带模板-VAE逐帧0.17 0.920图4：模板空间中的地面实况手势与生成手势的可视化。通过将手势序列输入到我们训练好的VAE的编码器中，我们获得其模板向量。为了可视化，我们通过PCA将模板向量投影到二维平面上。0通过反向传播或VAE）在同步和表现力之间实现了最佳平衡，具有相对较低的嘴唇同步误差和FTD。换句话说，我们的具有逐帧模板的模型产生了更多样化的手势，几乎不损害同步。为了确认我们结果的多样性，我们使用训练好的VAE的编码器获取地面实况和生成手势序列的相应模板向量，并通过PCA将它们投影到二维平面上进行可视化。如图4所示，对于没有模板的模型，编码向量聚集在原点附近。相反，我们的逐帧模板生成的结果的编码向量跨越了更大的空间，显示出更大的多样性，这与表1中较低的FTD值一致。04.2. 与基线模型的比较0基线模型。Speech2Gesture[14]是一个完全卷积模型，直接从梅尔频谱图回归到手势序列。为了添加面部关键点，我们增加了最后一个卷积层的通道数。为了在回归损失和对抗损失之间取得最佳平衡，我们将后者的权重设置为0.1。Audio to Body Dynamics[29]是一个顺序模型，使用单独的LSTM[18]模型对身体和手部关键点进行回归。我们再添加一个LSTM模型用于面部关键点。按照原始配置，我们输入一个28通道的MFCC。我们将LSTM模型的隐藏层维度从原始实现中的200调整为800，以获得最佳性能。MoGlow[2]是一种基于正态流的概率手势生成器[26]。我们修改了其输出通道以适应我们的任务。为了获得更好的性能，我们输入梅尔频谱图而不是MFCC，并设置隐藏层维度H =800和归一化步骤的数量K =12。客观比较。我们将我们的模型与上述基线模型在四个说话者上进行比较。如表2所示，我们的模型在所有说话者上产生了最小的归一化嘴唇同步误差和最小的FTD，表明其手势同步和表现力更优。同时，我们的0%5%10%15%20%25%30%35%110830表2：与Speech2Gesture[14]数据集（Oliver和Kubinec）中的两个英语说话者以及我们收集的两个普通话说话者（Xing和Luo）进行手势生成的基线模型比较。我们的模型在同步和表现力方面产生了优越的结果。请注意，较低的L2距离并不表示我们任务的更好性能。0Oliver Kubinec Xing Luo0L2距离 E lip ↓ FTD ↓ L2距离 E lip ↓ FTD ↓ L2距离 E lip ↓ FTD ↓ L2距离 E lip ↓ FTD ↓0音频转身体[29] 49.7 0.19 3.48 70.9 0.17 4.51 50.9 0.18 4.75 48.4 0.16 2.70 语音转手势[14] 53.5 0.23 8.30 64.9 0.20 4.53 48.00.19 4.49 63.7 0.20 3.10 MoGlow[2] 50.6 0.20 2.28 78.1 0.16 2.49 48.4 0.18 4.94 54.8 0.18 1.47 我们的（带模板-BP） 50.6 0.171.26 83.7 0.15 1.98 50.0 0.17 2.72 51.5 0.16 1.21 我们的（带模板-VAE） 62.4 0.17 0.92 100.7 0.15 1.07 57.8 0.18 1.72 80.8 0.170.690模型产生相对较高的L2距离。这是预期的，因为我们的结果是使用随机采样的模板向量生成的，这些向量不一定符合真实手势。主观比较。为了对方法进行感知比较，我们邀请志愿者观看匿名结果，并在三个方面选择最佳结果。图7展示了人类研究中使用的合成图像示例。根据图5中的柱状图，我们的模型在基线模型上显示出明显的优势。值得一提的是，这项人类研究验证了嘴唇同步和身体同步性能之间的强相关的嘴唇同步误差（E lip）度的代理度量的提议。0嘴唇身体总体0blna2b 5.94% 6.56% 7.34%0blns2g 11.09% 10.63% 11.09%0blnmog 25.16% 22.34% 20.78%0bp 28.28% 28.44% 29.06%0ext 29.53% 32.03% 31.72%0嘴唇同步身体同步自然度0音频转身体 5.94% 6.56% 7.34%0语音转手势 11.09% 10.63% 11.09%0MoGlow 25.16% 22.34% 20.78%0我们的（BP） 28.28% 28.44% 29.06%0我们的（VAE） 29.53% 32.03% 31.72%0音频转身体语音转手势 MoGlow 我们的（BP）我们的（VAE）0嘴唇同步0身体同步0自然度0图5：参与者对不同方法在嘴唇和身体同步性以及自然度方面的偏好（以百分比表示）。04.3. 模板空间的可视化0为了更好地解释模板向量，我们探索了向量空间的属性。我们通过将向量分别输入训练好的VAE解码器，将特定模板向量及其相反向量的相应手势可视化。我们采用了由Shen和Zhou[28]提出的闭式因式分解算法来发现潜在语义。我们对VAE解码器的第一层的权重矩阵进行特征值分解，并保留具有最大特征值的特征向量。从图6中Oliver和Xing的结果中，我们观察到高度的语义对称性，如头部和手的位置和方向。0Oliver0Xing0图6：模板向量空间的可视化。每个散点图是一个主体的模板向量空间的投影，接近于高斯分布。散点图中的绿点是采样模板向量的终点，橙色点是其相反向量的终点。每个骨骼序列的线条对应一种颜色的模板向量。对于每个主体，相反模板向量的手势序列呈现出明显的语义对称性。0为了更好地解释模板向量，我们探索了向量空间的属性。我们通过将向量分别输入训练好的VAE解码器，将特定模板向量及其相反向量的相应手势可视化。我们采用了由Shen和Zhou[28]提出的闭式因式分解算法来发现潜在语义。我们对VAE解码器的第一层的权重矩阵进行特征值分解，并保留具有最大特征值的特征向量。从图6中Oliver和Xing的结果中，我们观察到高度的语义对称性，如头部和手的位置和方向。04.4. 使用模板进行长期生成0现在我们可以通过切换模板向量来生成外观多样的手势序列，那么生成一个更长的序列如何呢？考虑到我们网络的构建块是卷积，我们的方法天生具备对更长的输入音频进行泛化的能力。然而，使用固定的模板向量，我们的方法仍然会显得重复。HierarchicalElip ↓FTD ↓110840图7：使用我们的图像合成模块从生成的手势序列合成的图像帧示例。第1行和第2行是来自Speech2Gestrure[14]数据集的Oliver和Kubinec。0在更长时间内生成手势序列是具有挑战性的。因此，我们面临的下一个问题是如何对模板向量在帧之间的过渡进行建模。为了实现这个目标，我们提供了一个简单的解决方案。这里的关键思想是从随机信号中生成一个长而多样的模板向量序列。我们的模板序列生成器将从高斯分布中采样的驱动信号序列S ∈ RC × F作为输入，并输出一个长的模板序列T ∈RC × F。为了确保T中每个帧的模板向量t ∈RC类似于训练过的逐段模板向量，我们将t输入到一个鉴别器中。此外，我们应用邻接损失（L adj）来强制模板序列T的局部连续性，并应用KL散度（L KL）损失来鼓励整个模板序列上的模板向量扩散。长期模板序列生成的总损失函数定义如下：0L T = L GAN + λ KL L KL + λ adj L adj，0在我们的实验中，λ KL = 1，λ adj =1。长期生成的结果可以在补充视频中找到。04.5.消融研究0转置实例归一化。在我们的实验中，我们观察到通过将批归一化（BN）替换为实例归一化（IN）可以显著改善E lip和FTD，如第1行和第2行所示。0表3：对归一化操作和身体表示进行消融研究。在Oliver上进行了没有模板向量的模型的实验。IN�表示我们提出的转置实例归一化。Hierarchical表示手势关键点被分为四个部分，每个部分都有自己的根节点。0表3中的行）。分层手势表示。考虑到人体的运动学，我们尝试通过分层身体表示来解耦身体部位，为面部、手臂和手的关键点提供单独的根节点。0BN 0.20 7.01 IN 0.19 1.54 IN � 0.19 1.53 IN � � 0.17 1.6605.结论0通过比较表3的第3行和第4行，我们可以看到嘴唇同步（Elip ）明显改善。0致谢0本文旨在根据语音输入合成完整上半身的手势序列。基于语音无法完全确定手势的事实，我们提出学习一组手势模板，以减轻模糊性并增加合成手势的多样性和保真度。此外，我们提出使用归一化的嘴唇同步误差作为手势同步的代理度量，并使用FTD作为保真度的测量。在两种语言的四位演讲者上进行的定量和定性结果显示了我们方法的优越性。0参考文献0该工作得到了中国国家重点研发计划（2018AAA0100704）、国家自然科学基金（#61932020）、上海市科技委员会（Grant No.20ZR1436000）以及上海市教育发展基金会和上海市教育委员会的“曙光计划”的支持。我们感谢上海联合数据科技有限公司协助收集普通话说话者的数据。References110850[1] Chaitanya Ahuja, Dong Won Lee, Yukiko INakano和Louis-Philippe Morency.用于共同语音手势动画的风格转移：一种多说话者条件混合方法。在欧洲计算机视觉会议中，2020年。1, 2, 30[2] Simon Alexanderson, Gustav Eje Henter, TarasKucherenko和Jonas Beskow.使用归一化流进行风格可控的语音驱动手势合成。在计算机图形学论坛中，第39卷，第487-496页。Wiley OnlineLibrary，2020年。2, 3, 6, 70[3] Guha Balakrishnan, Amy Zhao, Adrian V Dalca, FredoDurand和John Guttag.合成未见姿势的人类图像。在IEEE计算机视觉和模式识别会议论文集中，第8340-8348页，2018年。30[4] Volker Blanz和Thomas Vetter.用于合成3D面部的可变模型。在第26届计算机图形学和交互技术年会论文集中，第187-194页，1999年。30[5] Egor Burkov, Igor Pasechnik, Artur Grigorev和VictorLempitsky.具有潜在姿势描述符的神经头部再现。在IEEE/CVF计算机视觉和模式识别会议论文集中，第13786-13795页，2020年。30[6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-EnWei和Yaser Sheikh.Openpose：实时多人2D姿势估计使用部分亲和力场。IEEE模式分析与机器智能交易，43(1)：172-186，2019年。50[7] Justine Cassell, Catherine Pelachaud, Norman Badler,Mark Steedman, Brett Achorn, Tripp Becket, Brett Douville,Scott Prevost和Matthew Stone.动画对话：基于规则的多个对话代理的面部表情、手势和语调生成。在第21届计算机图形学和交互技术年会论文集中，第413-420页，1994年。10[8] Caroline Chan, Shiry Ginosar, Tinghui Zhou和Alexei AEfros.每个人都跳舞。在IEEE/CVF国际计算机视觉会议中，第5933-5942页，2019年。10[9] Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, YiXu和Chenliang Xu.具有节奏头部运动的说话头生成。在欧洲计算机视觉会议中，第35-51页。Springer，2020年。30[10] Lele Chen, Zhiheng Li, Ross K Maddox, ZhiyaoDuan和Chenliang Xu.一瞥中的唇部运动生成。在欧洲计算机视觉会议论文集中，第520-535页，2018年。30[11] Joon Son Chung, Amir Jamaludin和Andrew Zisserman.你说过那个吗？arXiv预印本arXiv:1705.02966，2017年。30[12] Ylva Ferstl, Michael Neff和Rachel McDonnell.多目标对抗手势生成。在Motion, Interaction andGames中，第1-10页，2019年。10[13] Guy Gafni, Justus Thies, Michael Zollhofer和Matthias Nießner.用于单目4D面部头像重建的动态神经辐射场。在IEEE/CVF会议论文集中。0计算机视觉和模式识别会议论文集，第8649-8658页，2021年。30[14] Shiry Ginosar, Amir Bar, Gefen Kohavi, Caroline Chan,Andrew Owens和Jitendra Malik.学习对话手势的个体风格。在IEEE计算机视觉和模式识别会议论文集中，第3497-3506页，2019年。1, 2, 3, 5, 6, 7, 80[15] Dai Hasegawa, Naoshi Kaneko, Shinichi Shirakawa,Hiroshi Sakuta和Kazuhiko Sumi.使用双向LSTM网络评估语音到手势生成。在第18届智能虚拟代理国际会议论文集中，第79-86页，2018年。10[16] Dai Hasegawa, Naoshi Kaneko, Shinichi Shirakawa,Hiroshi Sakuta, and Kazuhiko Sumi.使用双向LSTM网络评估语音到手势生成。在第18届智能虚拟代理国际会议论文集中，第79-86页，2018年。计算机协会。20[17] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.Advances in neural information processingsystems，30，2017年。 50[18] Sepp Hochreiter and J¨urgen Schmidhuber. 长短期记忆.Neural Comput.，9(8):1735-1780，1997年11月。 60[19] Tero Karras, Timo Aila, Samuli Laine, Antti Herva, andJaakko Lehtinen.音频驱动的面部动画：姿势和情感的联合端到端学习. ACMTransactions on Graphics (TOG)，36(4):1-12，2017年。 30[20] Diederik P. Kingma and Max Welling. 自动编码变分贝叶斯.在第2届国际学习表示会议ICLR2014，Banff，AB，加拿大，2014年4月14日至16日，会议论文集中，2014年。 2, 50[21] Stefan Kopp, Brigitte Krenn, Stacy Marsella, Andrew NMarshall, Catherine Pelachaud, Hannes Pirker, K

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

语音驱动模板：共语言手势合成模型的学习与评估

语音信号处理-语音合成

利用语音技术完成语音识别和语音合成训练 ZSPT智能校园 客服模型，并应用：围绕新生入学中山职业技术学院会遇到的问 题，采用语音提问，语音播放回答，展示效果

python调用vit语音合成模型

python怎么做语音合成模型

深度学习模型评估流程图

学习语音识别需要掌握哪些知识

能在unity里使用的离线语言合成

python训练自己语音模型

有什么语音合成方法可以提高语音合成质量

什么是大语言模型,有什么用途?

深度学习实现语音合成和语音识别

个人如何应用AI语言模型进行创造

国内有好用的语音模型吗

用matlab语音合成

什么是语音合成，语音合成根据应用算法思想不同，可以分为哪几类，请详述一下

语音信号处理中的语言模型

大语言模型 有哪些方面的应用

基于paddlepaddle实现的语音合成工具

大语言模型 有哪些方面的应用？

写一份过程分别为语音采集、语音识别、自然语音处理、语音合成、语音播报的基于语音交互技术的导盲杖设计技术路线的

最新资源

利用语音技术完成语音识别和语音合成训练 ZSPT智能校园客服模型，并应用：围绕新生入学中山职业技术学院会遇到的问题，采用语音提问，语音播放回答，展示效果

大语言模型有哪些方面的应用

大语言模型有哪些方面的应用？