V2C：可视化语音克隆——填补语音克隆中的空白

74 浏览量更新于2023-10-25 收藏 987KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21242V2C：可视化语音克隆Qi Chen1* Mingquui Tan2 Yuankai Qi1 Jiaqiu Zhou2，3 Yuanqing Li2，3< $Qi Wu1<$1阿德莱德大学2华南理工大学3琶洲实验室{qi.chen04，qi.wu01} @ adelaide.edu.au，qykshr@gmail.com{auyqli，mingkuitan}@ scut.edu.cn，mszjq@mail.scut.edu.cn摘要现有的语音克隆（VC）任务旨在将段落文本转换为具有由参考音频指定的期望语音的语音。这极大地推动了人工语音应用的发展。然而，也存在许多场景不能很好地被这些VC任务所反映，例如电影配音，这要求语音具有与电影情节一致的情感。为了填补这一空白，在这项工作中，我们提出了一个新的任务，名为可视化语音克隆（V2C），它旨在将文本的paragraph转换为语音与所需的语音特异性，以及由参考视频指定的期望情感。为了促进这一领域的研究，我们构建了一个数据集V2 C-Animation，并基于现有的最先进的（SoTA）VC技术提出了一个强大的基线。我们的数据集包含10,217个动画电影剪辑，涵盖了各种类型（例如，喜剧，幻想）和情感（例如，快乐、悲伤）。我们进一步设计了一套评价指标，命名为MCD-DTW-SL，这有助于评估地面实况语音和合成的相似性。大量的实验结果表明，即使SoTA VC方法不能为我们的V2C任务生成令人满意的语音。我们希望所提出的新任务以及构建的数据集和评估指标将有助于语音克隆领域和更广泛的视觉和语言社区的研究源代码和数据集将在www.example.com上发布https://github.com/chenqi008/V2C。1. 介绍语音克隆（VC）[2，9，20，30]旨在将文本的段落转换为具有来自参考音频的所需语音的语音。然而，现实世界中存在许多应用，这些应用要求所生成的语音不仅使用模板语音，而且还具有丰富的情感（例如，生气、高兴和悲伤），例如电影配音。这是-*部分工作在Qi Chen在琶洲实验室实习时完成。†通讯作者。图1. (a)语音克隆（VC）与（b）可视语音克隆（V2C）。给定输入三元组（即，字幕/文本、参考音频和目标视频），我们的V2 C任务寻求将文本转换为语音，该语音应该具有参考音频的语音和从参考视频导出的情感请注意，参考音频只提供预期的声音，而其内容是不相关的。超出了传统VC任务的范围（图1（a）），因为没有额外的指导信息可以用于生成所需的音调和节奏。考虑到我们人类利用来自视觉观察的最多参考来完成电影配音任务（例如，通过观看电影来把握人物的情感），提出了VC的一个扩展任务，即可视语音克隆（V2C）。所提出的V2C任务的示例在图1（b）中示出。与传统的VC任务不同，传统的VC任务仅在参考音频的帮助下将文本转换为语音，我们的V2 C任务将三元组（文本/字幕、参考音频、参考视频）作为输入，并期望得到具有相同语音但从参考视频导出的不同情感的结果语音。文本/副标题是生成的演讲需要涵盖的内容。所述参考音频包含来自不同通信网络的所述目标说话者的预先记录的语音。文本艾尔莎：你想堆雪人吗？内容参考音频声音讲话(a)语音克隆（VC）文本艾尔莎：你想堆雪人吗？内容参考音频声音参考视频…情感讲话(b)可视化语音克隆（V2C）模型模型21243剪辑.我们的目标是用参考音频中的声音和参考视频中人物的视觉情感来生成语音这项新任务提出了若干新的挑战。首先，传统的语音克隆（VC）方法[2，6，9，20，30]不能很好地解决V2 C任务，因为它们仅关注如何将输入文本转换为具有参考音频中所示的语音/音调的语音，而不考虑新语音的情感和上下文。然而，在我们的V2C任务中（例如，电影配音）语音情感对于生成类人语音至关重要。第二，在我们的V2C任务中，语音情感应该从参考视频而不是来自不相关剪辑的参考音频中导出。以电影配音为例，它要求人类通过观看相应的电影片段和观察他们的表演来把握人物的情感（例如，面部表情或动作）。尽管几种改进的VC方法[37，47]也尝试将语音情感注入到其生成的语音中，但它们从参考音频中捕获情感和语音，这不能满足V2C任务的要求。在我们的V2C任务中，理想的方法应该能够分别从参考音频和参考视频中分离语音和情感。由于没有现成的数据集适合V2C任务，我们收集了第一个V2C动画数据集，以促进该领域的研究。该套短片共10，217段，包括26部动画电影，153个角色（即发言人）。我们的V2C数据集涵盖了三种模式（即，文本、音频和视频），而不像现有的文本到语音数据集[19，31，49，51]或电影描述数据集[36，41]，其仅关注文本和音频或文本和视频。此外，我们还提供情感注释（例如，快乐或悲伤）的每个音频和视频剪辑一样[14]。为了减轻背景音乐的影响，我们只提取了中心扬声器的声道，这主要集中在说话字符的声音。通过这种方式，我们可以确保所有的音频片段只包含说话角色的声音。为了解决V2C任务的上述挑战，基于广泛使用的文本到语音（TTS）框架（即，FastSpeech 2 [34]），我们提出了一种称为可视语音克隆网络（V2 C-Net）的新方法，考虑了从参考视频帧中获得的情感信息。此外，基于MCD [24]，我们设计了一个评估度量，称为MCD-DTW加权语音长度（MCD-DTW-SL），寻求有效和自动评估生成的语音。概括而言，我们的贡献包括：• 我们提出了一个新的任务，即可视化语音克隆（V2C）。给定一个三元组（即，文本/字幕、参考音频和参考视频），该任务试图将文本转换成具有分别从参考音频和参考视频导出的语音和情感的语音。• 我们收集了第一个V2 C-Animation数据集，包括26部动画电影，153个角色，10，217个视频片段，并带有对齐的音频和字幕，涵盖三种形式（文本，音频，视频）和说话者• 我们设计了一种新的方法，称为可视化语音克隆网络（V2 C-Net）。此外，为了对生成的语音进行自动评价，本文提出了一种改进的自动评价指标MCD-DTW-SL。2. 相关工作由于V2C是一个新的课题，这里我们简要回顾了几个在文本到语音，语音克隆和韵律传输领域密切相关的工作。文本到语音。已经提出了许多文本到语音（TTS）合成方法[3，8，21，26，46，50然后，基于WaveNet，DeepVoice [3]将TTS模型划分为几个模块，这些模块被独立优化。Wang等人[46]提出了一种新的框架Tacotron，它集成了文本到语音合成中的所有必要阶段，并使语音合成模型能够以端到端的方式进行优化。最近，TransformerTTS [26]将transformer [ 44 ]的结构引入TTS任务，而Ren etal. [35]提出了一种更有效Transformer（即，Fast-Speech）。在FastSpeech的基础上，他们进一步设计了一种改进的Fast-Speech 2 [34]，它试图通过调整音调和能量来控制生成的语音。然而，TTS任务主要集中在如何将自然语言文本转换为正确发音的语音。相反，我们的V2C任务要求生成的语音另外具有合适的语音情感和音调。声音克隆。与仅用单个声音合成语音的TTS方法不同，声音克隆（VC）任务[11，32，40]试图生成具有不同声音的多个语音。基于Deep Voice [3]和Tacotron [46]，Deep Voice 2 [11]将来自不同说话者的语音映射到一个公共空间，并使用来自该公共空间的低维嵌入作为辅助生成过程的条件。Jia等人[20]提出了一个多说话人TTS框架，它由三个子模块组成（即，编码器、合成器和声码器），其能够从给定文本合成高质量语音。最近的扩展[2，6，9，30]专注于仅使用几个样本合成看不见的人的声音。具体地说，为了仅从几个音频样本合成一个人[2]研究了两种方法：说话人自适应和说话人编码。说话者自适应试图使用几个音频-文本对来微调用于看不见的说话者的经训练的多说话者模型，而说话者编码试图从看不见的说话者的音频直接估计说话者嵌入。Chen等人[9]提出了一个自适应TTS系统，通过使用元学习方法。不同于212442019 - 01 - 25 01：18：18阿伦黛尔应该和你站在一起YZ{}VC任务，我们的V2 C还需要生成的语音的韵律/音调与参考视频相匹配。韵律转换。为了产生逼真的语音，韵律迁移（PT）[5，17，37，38，43，47，48]试图掌握参考视频…号1340参考音频的韵律。具体而言，从Tacotron [46]，Skerry-Ryan等人延伸。[37]提出了一种编码器体系结构，以从参考频谱图切片学习韵律的表示，所述参考频谱图切片从参考音频导出。全局风格令牌（GST）[47]使用可解释的嵌入来模拟不同说话者的风格，这可以用作传输不同说话风格时的条件。基于变分自动编码器（VAE）框架[22]，Hsu等人。[17]设计了一个神经序列到序列TTS模型，它将说话风格分类为几个潜在属性，并通过调整这些属性来控制说话风格。为了转移说话风格，这是在数据集中，Whitehill等人。[48]提出了一种用于多参考神经TTS系统的对抗性周期一致性训练过程。总体而言，韵律转换的目标是从参考音频中捕获语音和情感，因此该任务在不使用来自视觉侧的信息的情况下被定义。相比之下，V2C任务被提出来从参考视频中推断语音情感，其具有许多现实世界的应用，例如电影配音。3. V2C任务和V2C动画数据集3.1. V2C任务给定三元组=Z文本、Z音频、Z视频（即，文本、参考音频和参考视频），我们可视语音克隆（V2C）任务旨在生成语音波（即，时域中的波形），其应当使用参考音频Z音频的语音并且具有从参考视频Z视频导出的情感。在图1中，我们以电影配音为例。给定一个电影剪辑（即，参考视频），字幕（即，文本）和参考音频，我们寻求根据从电影中得到的角色的情感和来自参考音频的语音两者从字幕合成语音。3.2. 面向V2C任务V2C任务的数据集应涵盖所有三种模态，并且来自不同模态的样本需要彼此对齐。由于没有现成的数据集适合这个新任务，我们收集了第一个V2 C数据集，称为V2 C-Animation。数据收集。我们搜索带有相应字幕的蓝光动画电影，然后选择一组26部不同类型的电影具体而言，我们首先根据细微之处将电影剪辑成一系列视频片段。在这里，我们使用SRT类型的字幕文件。除字幕/文本外，SRT文件还包含起始字幕图2.如何根据SRT字幕文件将电影剪切成一系列视频剪辑请注意，SRT文件包含每个视频剪辑的开始和结束时间戳号1340是指当前话语的序列号以及结束时间戳以确保字幕与视频和音频匹配，以及字幕的顺序号（例如，图2中的编号1340），其指示每个视频剪辑的索引。基于SRT文件，我们使用FFmpeg工具包[42]（一种自动音频和视频处理工具包）将电影切割成一系列视频片段，然后通过FFmpeg从每个视频片段中提取音频。请注意，为了减轻背景音乐的影响，我们只提取中央扬声器的声道，主要集中在说话角色的声音上。数据注释和组织。受LibriSpeech数据集组织的启发[31]，我们将获得的视频剪辑，音频和字幕分类为相应的字符（即，通过众包服务（crowd-sourced service）。为了保证出现在视频片段中的字符与说话的字符相同，我们手动重新移动不满足要求的数据示例。然后，遵循FER-2013 [14]（用于人类面部表情识别的数据集）的类别，我们将收集的视频/音频片段分为8种类型，包括愤怒，快乐，悲伤等。通过这种方式，我们总共收集了10，217个带有配对音频和字幕的视频片段的数据集。所有的注释，时间戳的挖掘电影剪辑和工具，以提取三元组数据将被释放。我们随机抽取60%的样本作为训练数据，10%的样本作为验证数据，30%的样本作为测试数据。3.3. V2 C-动画数据集与相关数据集我们将我们的V2C动画数据集与VC、TTS和PT任务。此外，我们考虑了一些电影描述（MD）数据集和唇读句子（LRS）数据集，它们包含像我们这样的视频和文本。具体而言，VC/TTS/PT数据集包括LJ Speech[19]、LibriSpeech [31]、VCTK [49]和LibriTTS [51]，MD数据集涉及MPII-MD [36]和MovieQA [41]，而LRS数据集包含LRS 2 [10]1。从表1中，统计结果表明，我们的V2 C-1LRS 2数据集有两个子集： LRS 2-main 和 LRS 2-pretrain 。在LRS2预训练中，每个视频的话语可能包含多个句子。但每个视频只对应LRS 2- main上的一句话。在LRS 2-pretrain和LRS 2-main集合之间存在一些重叠…21245·数据集文本音频视频身份情感#电影#视频剪辑#音频剪辑发言人数量Avg. SAvg. A/V（s）[19]第十九话LibriSpeech [31]VCTK [49]LibriTTS [51]√√√√√√√√√√√√--------131002506984407037508612484108245617.2332.557.4116.866.5714.103.595.62MPII-MD [36][41]第四十一话√√√√94140683376771-----六点二十3.88202.67LRS2-main [10]LRS 2-预训练[10]√√√√√√--48164963184816496318--7.1321.431∼2∼10V2C动画√√√√√2610217102171536.512.40表1.我们将我们的V2C动画数据集与几个现有的多模态数据集进行了比较。标记 S“A/V数据集LJ Speech LibriSpeechAvg. P（Hz）127.27±11800.96 88.15 ± 7313.39数据集LibriTTS V2 C-动画（我们的）Avg. P（Hz）93.97±9295.67 117.99 ± 16910.77表2.我们比较了我们的V2C动画数据集和相关数据集的音高的平均值和方差“平均值。P动画数据集是唯一的，涵盖所有三种模式（即，文本、音频和视频），同时具有身份和情感注释，而大多数其他的仅关注于这两种模态，并且所有这些都没有情感注释。为了进一步比较我们的V2 C- Animation数据集和相关数据集之间的差异，在[37]之后，我们可视化了来自我们的数据集和其他数据集的样本的音高轨迹。具体而言，我们分别从LJ Speech、LibriSpeech和LibriTTS中随机选择音频样本。由于音频的长度不同，为了公平的com-因此，我们从每个比较的样本中截取两秒的音频。如图3所示，来自现有数据集的音频音高更平滑，频率（Hz）的范围比我们的窄。此外，我们还提供了音高技巧的平均值和方差值。表2显示我们的V2C动画的方差最大，这进一步证明我们提出的数据集具有更宽的频率范围（Hz）。视觉和统计结果都表明，由于韵律的变化，我们的V2C动画数据集更具挑战性。4. 可视化语音克隆网络（V2 C-Net）对于V2 C任务，我们提出了一个基线模型，称为可视语音克隆网络（V2 C-Net），它基于广泛使用的TTS框架FastSpeech 2 [34]。如图4所示，我们的模型包含三个主要组成部分：多模态编码器，合成器和声码器。图3.来自现有文本到语音（TTS）数据集的示例（即，LJ语音，LibriTTS和LibriSpeech）和我们的V2 C-动画数据集。0Hz的音高是指清音段。我们输入一个三元组（即，文本、参考音频和参考视频）输入编码器并输出三种类型的特征（即，音素、扬声器和情感）。基于这些特征，我们使用合成器生成梅尔频谱图（见图4右侧），这是音频信号的时频表示。最后，我们将生成的梅尔频谱图转换为波形（即，语音，见图4右下角）。4.1.用于特征提取的给定三元组Z={Z文本，Z音频，Z视频}，来自多模态编码器的输出X={X1，…xL}= f（Z），（1）其中L是输入句子的长度（即，音素的数量 f（）是多模态编码器，主要包含三个子模块：文本编码器ftxt、说话者编码器fspk和情感编码器femo。给你，21246Z文字，21247艾尔莎：你想堆雪人吗？文本编码器LR参考音频扬声器扬声器嵌入编码参考视频情感…讲话MRFConvTranspose梅尔谱图添加LR长度调节器音素嵌入…⊕⊕⊕O{}L L LL--XXD{}X{}Y{}durL我我1Σ情感嵌入…多模态编码器合成器声码器图4.V2 C-Net概述它由三个主要部分组成：多模态编码器，合成器和声码器。三重态（即，文本、参考音频和参考视频）被馈送到多模式编码器（第二节）。4.1），它输出三种类型的嵌入。基于这些嵌入，合成器（Sec.4.2）生成梅尔光谱图。最后，梅尔频谱图被转换成波形（即，（二）声码器（vocoder）。4.3）。Z音频和Z视频分别指示输入文本、参考音频和参考视频我们得到第i个输出指示器、音调预测器、能量预测器和梅尔频谱图解码器。合成器的损耗函数为特征xi=oiuv，其中oi是第i个音素来自文本Z文本。使用的嵌入LS=LMel +λ1L dur +λ2L 间距 +λ3L 能源、（二）和v分别是Fspk和Femo的输出。符号表示逐元素加法的操作文本编码器。遵循FastSpeech2的结构，我们采用4个前馈Transformer（FFT）块[35]作为我们的文本编码器。基于这样的文本编码器，我们产生一系列音素嵌入=o1，...，oL来自输入文本Z文本。在数学上，这个过程可以定义为O= f txt（Z text）。哪里梅尔，杜尔，俯仰和能量分别指梅尔频谱图、持续时间预测器、音高预测器和能量预测器的损失。λ1、λ2和λ3是超参数，并且我们在实践中设置λ1=λ2= λ3= 1。详情如下所述持续时间预测器。为了减轻输入嵌入X和梅尔频谱图帧Y之间的长度失配问题（即，L T），我们引入一个杜-扬声器编码器。探讨嗓音特点，不同的扬声器，我们采用扬声器编码器fspk，它具有与[45]相同的架构，包括3个LSTM层和一个线性层。扬声器编码器首先通过LSTM将从参考音频导出的梅尔频谱图帧序列转换为一系列隐藏嵌入，然后通过线性层将最后一个隐藏嵌入映射到固定维向量。为了方便起见，我们将该过程定义为u = f spk（σ（Z audio）），其中u指的是扬声器嵌入，而σ是一个映射函数，将音频从波形转换为梅尔频谱图。情感编码器。为了充分利用视频中的情感信息，我们设计了一个情感编码器E E，它捕获整个视频片段Z视频的嵌入。具体来说，我们使用I3D模型[7]作为我们的情感编码器f emo，并通过v = f emo（Z视频）计算情感嵌入v。4.2.用于Mel谱图生成的比率预测器Sd，其将嵌入如─预测持续时间=d1，.，我，d L=S d（x1），.，S d（xi）.，S d（xL）。第i个音素持续时间di指示第i个音素嵌入xi的副本数量。然后，我们使用长度调节器（LR）：Xmel=LR（X，D）=LR（X，Sd（X）），（3）其中mel是长度为T的扩展音素嵌入2。为了优化持续时间预测器，我们使用蒙特利尔强制对齐（MFA）[28]工具来获得地面真实音素持续时间序列，然后计算平均值地面实况D和预处理之间的平方误差（MSE）损失dictedD. 形式上，损失可以定义为LL=（d− d）2。（四）i=1从条件音素嵌入生成 mel- 声谱图=x1，…xL，我们引入了一个受FastSpeech 2 [ 34 ]启发的合成器，并获得了预测的mel频谱图帧=y1，.，yT，其中T是梅尔频谱图帧的数量。这里，合成器主要包括Mel谱图解码器能源能量预测器间距基音预测器持续时持续时间预测器21248四个部分：持续时间预处理，Pitch和Energy预测器为了影响语音的韵律和音量，在[34]之后，我们分别采用音高预测器 Sp和能量预测器Se。具体来说，为了预测音高轮廓，我们使用连续例如，如果di= 2，则Xmel将是Xmel={...，xi，xi，. {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}为了简单起见，我们将X mel重新定义为Xmel={x1，...， xt，.xT}21249--Σ1ǁYYY/间距CC不不不能源不不不不不K1Σ2小波变换（CWT）将连续音高转换为音高频谱图[16，39]，并将其作为地面实况，通过MSE损失优化音高预测器Sp不L=（p−p），（5）t=15. 实验我们从三个方面来评价生成语音的质量：1）客观评价，2）主观评价，3）身份和情感的准确性。客观主观评价指标旨在评估质量，其中，p_t和p_t=S_p（x_t）分别表示第t个真实音调值和预测音调值。对于能量，我们遵循[34]中的操作，计算每个短时傅立叶变换（STFT）帧的振幅的L2范数并将其作为能量。相应的损失函数为不通过与地面实况比较生成的语音的一致性一个。相比之下，身份准确性和情感准确性集中在所生成的语音是否涉及期望的语音（即，身份）和情感。我们在V2 C- Animation数据集上提供了定量和定性结果更多细节见下文。L=1<$（e<$−e）2，（6）其中，e_t和e_t=S_e（x_t）分别是第t个地面实况和预测能量值。最后，我们将每个音高和能量值分别编码到嵌入层φ和φ中，然后将音高和能量嵌入添加到前一个嵌入层中。倾向音素嵌入Xmel。在数学上，梅尔光谱图Y可以由下式生成：其中g（·）是指梅尔频谱图解码r，由客观评价指标。为了评估生成语音的质量，我们使用Mel倒谱系数失真（MCD）[24]度量，该度量比较Mel频率倒谱系数（MFCC）向量C={c1， c2，...，ci，…cM}和C′=c′1，c′2，. c′j，.，c′N从生成的语音中提取和地面真相。我们把欧几里得距离求和-第一个K（K=13）MFCC值的比值MCD（C，C′） =1。，（c）−c′）2，6个FFT块的运算[35]。为了优化预测的梅尔-我们使用损失函数：Tt不t=1不 t=1k=1t，kt，k（九）L梅尔不=yt不t=1-yt，（8）其中M=N=T是指语音/音频帧的数量。ct，k和c′t，k表示来自生成的和地面实况的第t语音帧的第kMFCC值其中，yt表示地面实况梅尔频谱图的第t帧，而yt∈Y是预测帧。4.3.用于语音合成的在图4中，将生成的梅尔频谱图转换为时域波形波，我们使用HiFi-GAN [23]作为我们的声码器，它主要关注GAN [ 13 ]从梅尔频谱图生成原始波形。HiFi-GAN的生成器可以分为两个主要模块：转置卷积（ConvTranspose）网络和多接收场融合（MRF）模块。具体来说，我们首先通过ConvTranspose对梅尔频谱图进行然后，我们将上采样的特征馈送到MRF模块中，该模块由多个残差块[15]组成，并将这些块的输出之和作为我们的预测波形。在这里，我们遵循[ 23 ]的设置，使用具有不同内核大小和膨胀率的残差块来确保不同的接收场。我们通过包含基于LSGAN的损失[27]、梅尔频谱图损失[18]和特征匹配损失[25]的目标函数来优化声码器。在实践中，我们使用HiFi-GAN官方代码中提供的语音，而Ct=（Ct，1，Ct，2...，c t，K）和c′t=（c′t，1，c′t，2.，c′t，K）。注意MCD度量要求两个输入语音的长度相同（即，M=N）。当M=N时，现有的语音克隆方法（如[37]）只是通过填充将较短的语音扩展到较长的语音的长度0表示时域波形。这样一来，如果失配发生在两个语音的开始处，则MCD的值可能变得非常大。为了避免这一点，Battenberget al. [4]使用改进的MCD度量，称为MCD-DTW，其采用动态时间扭曲（DTW）[29]算法来找到两个语音之间的最小MCD。然而，只要两个语音之间存在匹配，MCD-DTW将实现更好的值。这是不合理的，因为更好地生成的语音应该具有与地面实况相似的长度。为了缓解上述问题，我们提出了一个MCD-DTW加权语音长度（MCD-DTW-SL），它评估两个语音之间的长度和对齐质量在MCD-DTW-SL中，为了评估两个语音（即，和′）对齐后，仍然使用DTW算法计算它们之间的最小距离。具体来说，我们计算累积距离γi，j=d（ci，c′j） +min（γi−1，j−1，γi−1，t=15.1.评估指标21250j，γi，j−1），其中γ i，j是到索引（1，1）的最小累积距离。21251≤−--我Hd=1五十九百分之三十八RM，N最小值（M，N）方法MCD↓MCD-DTW↓MCD-DTW-SLId. Acc. ↑情绪化Acc. ↑ MOS-自然度↑ MOS-相似度↑地面实况00.0000.0000.0090.6284.384.61 ±0.154.74 ±0.12SV2TTS [20]SV2TTS*[20][第34话]21.0817.4112.0812.8711.1610.2949.5615.9210.3133.6238.2159.3837.1941.2453.132.03 ±0.223.20 ±0.203.86 ±0.071.92 ±0.153.09 ±0.333.75 ±0.06V2 C-Net（我们的）11.7910.0910.0562.5056.253.97±0.063.90±0.06表3.与最先进的方法进行比较。我们提供了两个目标的结果（即，MCD、MCD-DTW和MCD-DTW- SL）和主观评价度量（即，MOS-自然性和MOS-相似性）。“Id. Acc.”和“情绪” Acc.” 分别是所生成的语音的身份和情感准确性。带“*”的方法是指将视频（情感）嵌入作为附加输入的变体。“地面测试结果”表示地面真实样本的结果。 ↑（↓）表示值越高（越低）越好。到（i，j）。然后，将R个距离累加得到目标最小距离γ M，N，其中max（M，N）

下载后可阅读完整内容，剩余1页未读，立即下载