多语言TTS对话生成系统

161 浏览量更新于2023-10-25 收藏 19.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Hyoung-Kyu Song* 12, Sang Hoon Woo* 1, Junhyeok Lee1, Seungmin Yang12,Hyunjae Cho13, Youseong Lee13, Dongho Choi3, Kang-wook Kim3{hksong35, shwoo, jun3518, myaowng2, chohyunjae, staru}@mindslab.ai{dongho.choi, full324}@snu.ac.krVideos withKorean Speech!"# $%&'()*"+,-0多语言TTS的对话生成01 MINDsLab Inc.，韩国 2 KAIST，韩国 3 首尔国立大学，韩国0摘要0最近的对话生成研究集中于构建一个可以从任何源语音泛化到任何目标身份的模型。许多研究已经声称这种功能，并补充说他们的模型也可以泛化到任何语言。然而，我们使用来自不同语系的语言表明，当训练语言和测试语言足够不同时，这些模型的泛化能力并不好。我们将问题的范围缩小到在已知身份上构建一个语言鲁棒的对话生成系统，即目标身份与训练身份相同。在这项工作中，我们介绍了一个可以泛化到不同语言的对话生成系统。我们使用多语言文本到语音系统评估了我们系统的有效性。我们将联合文本到语音系统和对话生成系统作为神经配音系统。我们的演示可在https://bit.ly/ml-face-generation-cvpr22-demo上找到。此外，我们的屏幕录像已上传至https://youtu.be/F6h0s0M4vBI。01. 引言0对话生成是一项将嘴唇与输入语音同步的任务，是神经视频生成中最受欢迎的研究课题之一。当与文本到语音（TTS）系统结合时，联合系统允许用户仅通过文本输入创建一个带有语音的对话视频，并具有新闻广播、虚拟讲座和数字礼宾等潜在应用。将该任务扩展到支持多种语言将大大减少扩大目标受众到全球人口所需的工作量。最近的对话生成研究声称他们的模型支持任何语言的输入语音。0* 表示相等贡献。0训练数据0目标0语言0• 韩文0• 英文0• 日文0• 中文0输入文本0对话0面部视频0源视频0预处理器0多语言TTS0对话生成0图1.演示概述。用户可以通过文本、语言和源视频制作包含与文本相对应的声音的面部视频。对于训练数据，我们记录了韩语演讲者的两小时录像。0然而，我们观察到这些模型在某些输入语音语言（例如韩语）上无法泛化。我们假设这些模型的鲁棒性取决于训练语音语言与输入语音语言之间的相似程度。因此，我们将使用来自不同语系的语言的演讲来验证多语言对话生成模型的泛化能力。对于多语言对话生成的实际应用，应该保留说话者的声音特征。由于往往无法获得所需说话者的多语言语音数据集，多语言对话生成系统需要一个多语言的0能够进行跨语言语音合成的全球TTS模型。虽然许多关于多语言TTS的先前研究讨论了跨语言语音合成，但对于语言的选择尚未得到充分探索。因此，现有的工作在不同语系的语言之间进行跨语言合成的能力是可疑的。在这项工作中，我们提出了一个多语言对话生成系统，如图1所示。我们还描述了多语言TTS模块和对话生成模块中使用的两个模型：VITS的多语言适应版本，能够在保持说话者声音特征的同时进行跨语言语音合成，以及能够从合成的语音中生成面部视频的对话生成模型，无论语言如何。我们在这项工作中的贡献如下：0•我们引入了一个系统，可以为单语言说话人合成四种语言（韩语、英语、日语和中文）的说话人脸视频。0• 我们构建了一个对不同输入语音语言具有鲁棒性的说话人脸生成模型。0• 我们的演示可以以每秒25帧以上的速度生成512×512的面部图像序列。02. 相关工作02.1. 文本到语音（TTS）0传统上，文本到语音系统采用两阶段流水线，每个阶段的模型都是独立开发的。第一阶段使用声学模型[13，14]根据输入文本生成中间语音表示，即梅尔频谱图。在第二阶段，声码器模型[7，12]将语音表示转换为原始波形。已经有一些尝试[1，13]将文本到语音系统简化为完全端到端的过程，但它们需要复杂的输入条件[13]或速度较慢[1]。最近，Kim等人[6]提出了VITS，一种非自回归的端到端架构，超过了最先进的两阶段模型。在与语音合成相关的研究中，一些工作集中在具有跨语言能力的多语言文本到语音模型上。Zhang等人[21]首次提出在多语言文本到语音训练中使用领域对抗训练来减轻文本表示中的说话人依赖性。然而，生成的语音质量高度依赖于源说话人的语言和目标语音的语言。Maiti等人[9]利用双语说话人数据计算说话人嵌入空间中不同语言之间的修改。之前的工作没有探索来自不同语系的语言的跨语言语音合成。02.2. 说话人脸生成0最近的说话人脸生成研究主要集中在将模型推广到任何语音和视觉身份，即从任何输入语音到任何目标人脸。在这些研究中，有些成功地构建了使用基于GAN的方法生成具有逼真面部的视频的模型[11，18]。Vougioukas等人[18]提出了包含循环层的时间GAN，以实现时间一致性。Prajwal等人[11]建议使用修改后的SyncNet[2]来确定生成的图像和相应的音频是否同步。上述两个网络的输出分辨率较低；Vougioukas等人[18]的输出为96×96图像，Prajwal等人[11]的输出为96×128图像。输出图像的低分辨率也限制了最终输出视频的最大分辨率。之前的说话人脸生成研究声称他们的系统是训练语言无关的，即他们的模型可以生成带有任何语言的语音的视频，而不管模型训练时使用的数据的语言如何。虽然这样的说法对某些语言是成立的，但在测试与训练语言不同语系的语言时，输出的质量往往会显著下降。这种现象可以在[11]的官方交互演示中观察到。这种情况通常需要使用所需语言的数据重新训练模型。03. 具有多语言TTS的人脸生成03.1. 总体架构0所提出的系统由三个主要模块组成：预处理模块、多语言TTS模块和说话人脸生成模块。首先，预处理模块将输入文本转换为音素序列。然后，多语言TTS模块根据音素序列和指定的说话人身份生成原始语音波形。随后，说话人脸生成模块将根据输入语音同步生成具有嘴唇运动的最终输出视频。03.2. 预处理器0尽管每种语言的预处理步骤的细节有所不同，但共同的目标是将原始文本转换为音素序列。预处理器首先通过删除任何不属于指定语言的字符或符号来清理文本。然后，文本经过规范化处理，将非口头文本（例如数字、日期和单词的缩写形式）转换为其口头化形式。最后，预处理器将文本中的所有字素映射到音素。我们在设置中为每种语言使用不同的音素集；韩语、英语、日语和中文的音素集分别是Hangul、ARPA-bet、Hiragana和Pinyin。对于韩语和μ!, σ!ℎ"#$"!" #$%&'()*!+,--'.-/'0'/12'1'.32'0'4,せかいのみなさん5こんにちは！678'9:;8'<97='>7?=,Real? Fake?0后验编码器0�0切片0解码器0原始波形0文本编码器0音素0持续时间预测器0噪声0归一化流0说话人0嵌入0语言嵌入0停止梯度0说话人分类器0说话人ID？0单调对齐0搜索0线性频谱图0解码器0生成的帧0图像编码器RNN层0线性频谱图0帧0判别器0音频编码器0负帧0掩码GT帧0(a) 多语言TTS的训练架构 (b) 说话人脸生成的训练架构0图2.多语言TTS模型和说话人脸生成的训练流程。在(a)中，多语言TTS模型被训练以合成从语言嵌入条件化的原始波形。在(b)中，说话人脸生成模型使用来自目标说话人的韩语语音的面部视频进行训练。对于推理，TTS系统可以根据多种语言的音素序列生成音频。0对于英语，我们使用我们内部的字素到音素算法。对于日语和中文的字素到音素转换，我们使用开源库SudachiPy[1]和pypinyin[2]。预处理器可以使用可选的语言翻译系统，用于下游应用，如神经配音员。03.3. 多语言TTS0我们使用多语言TTS模块的基础模型是多说话人VITS[6]。为了实现多语言语音合成，我们为每种语言添加了嵌入并将其输入到子模块中。我们的初步实验表明，将语言嵌入注入到文本编码器和持续时间预测器中可以得到最佳结果。我们将这种设置称为多语言VITS。03.4. 说话人脸生成0对于说话人脸生成，我们使用内部的说话人脸生成模型，输出图像分辨率为512×512。我们的人脸生成模型包括三个组件：图像编码器、音频编码器和解码器。图像编码器和音频编码器分别从输入图像和音频中提取特征。01 https://github.com/WorksApplications/SudachiPy 2https://github.com/mozillazg/python-pinyin0我们将两个编码器提取的特征连接起来，并将它们馈送给解码器，解码器会生成与嘴唇同步的面部图像。我们模块的三个组件都是基于CNN的模型。音频编码器采用额外的RNN层来保持时间一致性。因此，我们的模块可以以最小的自回归计算生成图像序列，从而减少网络延迟。03.5. 数据集收集0对于我们目标身份的训练数据，我们录制了目标说话人用韩语说话的两个小时的素材。录制的视频和音频数据分别重新采样为25fps和22050Hz。我们只使用图像帧中的面部区域作为说话人脸生成模型的输入。为了从图像区域提取面部区域，我们首先使用[4]提供的预训练模型估计面部标志。之前的研究[18]在检测到的面部周围紧密裁剪面部区域。然而，我们发现如果裁剪区域不包括整个头部，最终输出的图像会出现边界不连续性。为了缓解这个问题，我们扩大面部区域，包括整个头部和额外的边距。对于多语言VITS的训练数据，我们使用我们的内部数据集和开源数据集的混合。0语言0模型（a）Wav2Lip（未见）（b）Wav2Lip（已见）（c）我们的模型 0.2秒 0.4秒 0.6秒 0.8秒 1.0秒 0.2秒 0.4秒 0.6秒 0.8秒 1.0秒 0.2秒 0.4秒0.6秒 0.8秒 1.0秒0韩语0中文0英语0日语0图3.输出图像序列的比较。对于（a），我们使用Wav2Lip的官方交互演示。在（b）中，模型使用与（c）相同的目标身份数据集进行训练。所有输出图像都使用与我们系统的面部区域裁剪相同的方法进行裁剪。每个模型-语言对的图像序列每0.2秒拍摄一次，持续1.0秒。请注意，所有模型都使用相同的输入语音和源视频。0我们的内部数据集包括来自25位说话人的28小时的韩语语音和来自13位说话人的13小时的英语语音。我们还将几个开源的文本到语音数据集作为我们的训练集的一部分：韩语单一说话人语音数据集[10]用于韩语，LJ语音数据集[5]和LibriTTS数据集[20]用于英语，声优语料库3，JSUT数据集[16]和JVS数据集[17]用于日语，以及AISHELL-3数据集[15]用于中文。总体而言，我们的训练集包括来自472位说话人的206小时的语音。03.6. 训练细节0多语言VITS的训练过程与原始VITS训练[6]基本相同。我们在原始VITS训练的基础上采用了一些技术来提高多语言语音合成的质量。首先，我们应用领域对抗训练[3]来最小化说话人信息泄漏到编码的文本表示中。根据Zhang等人的方法[21]，我们在文本编码器之后添加了一个带有梯度反转层的说话人分类器。对于分类损失的缩放因子λ，我们遵循[3]中的计划。在初始实验中，我们观察到直接将说话人嵌入输入到持续时间预测器会降低输出语音的质量。我们假设语言嵌入和说话人嵌入的未见组合引入了不稳定性。为了解决这个问题，我们在损失中添加了一个正则化项，使得所有说话人嵌入的均值被推向零向量。在推理过程中，如果说话人的原始语言与输入语言不匹配，我们将使用零向量代替说话人嵌入，类似于Zhang等人的方法中使用零向量作为残差编码[21]。03 http://voice-statistics.github.io/0在训练我们的说话人脸生成模型时，我们遵循Prajwal等人的方法[11]，使用掩码的真实帧和负面帧，即来自视频不同部分的帧。此外，我们还应用了各种增强技术，例如平移、旋转、放大/缩小面部区域，而不是将面部区域归一化以减小空间变化。这使得生成器在生成人脸时对颈部旋转或面部与图像的大小比例更加稳健。我们还采用了多尺度鉴别器的对抗训练[19]作为辅助训练，以提高感知视觉质量。04. 实验0在图3中，我们将我们模型的输出与两个版本的Wav2Lip模型的输出进行了比较。对于Wav2Lip的两个版本，我们观察到输出图像中存在许多降低整体图像质量的伪影。首先，在输出图像的下巴附近可以清楚地看到边界线。此外，与我们模型的输出相比，两个模型生成的图像模糊且缺乏细节。在Wav2Lip（未见过）的输出中，我们观察到大多数帧中嘴巴内部都被黑色填充，擦除了包括牙齿在内的细节。Wav2Lip（已见过）的输出显示出不同的伪影；当嘴唇闭合时，上唇和下唇之间的边界消失。我们认为对抗性训练迫使我们的模型生成更精细的细节，从而提高了整体图像质量。我们还报告了模型对于训练语言之外的演讲的输出特征。Wav2Lip（未见过）的输出显示出非英语演讲的突然嘴唇运动，表现为突然闭合嘴巴。另一方面，Wav2Lip（已见过）的输出与其他两个模型的输出相比，嘴唇运动较小。无论输入的演讲语言如何，我们的模型都能产生更渐进和多样化的嘴唇运动，这表明我们的训练方法构建了一个对不同输入演讲更具鲁棒性的模型。在生成面部图像序列后，我们将这些图像与源FHD视频中的面部区域合并，然后将最终视频发送给最终用户。具体而言，我们用生成的面部图像序列替换源FHD视频帧的面部区域。我们将系统的端到端延迟定义为用户请求和包含最终视频的服务响应之间的持续时间。我们在一台搭载AMD Ryzen 7 3800XT和Nvidia GeForceRTX3080的台式机上部署我们的系统，并测量了系统的速度。如表1所示，整个系统的速度超过了实时。请注意，视频编码时间是针对预先加载到系统中的参考视频进行测量的；如果系统支持自定义参考视频，即用户输入的参考视频，系统将需要额外的预处理时间。在此演示中，我们选择了MP4作为输出格式，这是一种适用于任何设备的通用视频文件格式。然而，MP4格式不允许在整个视频生成之前进行流式传输，从而导致最终用户的延迟更长。切换到更适合流媒体的格式，例如MKV，将显著减少端到端延迟并提高其适用性。0阶段时间（秒）帧率0TTS (a) 总计 0.0655 -0说话人脸生成0(b.1) 人脸生成 0.3964 63.10(b.2) 视频编码 0.2981 -0(b) 总计 0.6945 36.00(a) + (b.1) 0.4619 54.10(a) + (b) 0.7600 32.90整个系统 (c) 总计 0.8251 30.30表1.整个系统中每个阶段的吞吐量。第二列中的时间值是生成一秒音频或视频所需的时间。请注意，原始视频的帧率为25 fps。0语言演讲；在Wav2Lip（已见过）的输出图像中，与其他两个模型的输出相比，嘴唇运动较小。无论输入的演讲语言如何，我们的模型都能产生更渐进和多样化的嘴唇运动，这表明我们的训练方法构建了一个对不同输入演讲更具鲁棒性的模型。在生成面部图像序列后，我们将这些图像与源FHD视频中的面部区域合并，然后将最终视频发送给最终用户。我们将系统的端到端延迟定义为用户请求和包含最终视频的服务响应之间的持续时间。我们在一台搭载AMD Ryzen 73800XT和Nvidia GeForce RTX3080的台式机上部署我们的系统，并测量了系统的速度。如表1所示，整个系统的速度超过了实时。请注意，视频编码时间是针对预先加载到系统中的参考视频进行测量的；如果系统支持自定义参考视频，即用户输入的参考视频，系统将需要额外的预处理时间。在此演示中，我们选择了MP4作为输出格式，这是一种适用于任何设备的通用视频文件格式。然而，MP4格式不允许在整个视频生成之前进行流式传输，从而导致最终用户的延迟更长。切换到更适合流媒体的格式，例如MKV，将显著减少端到端延迟并提高其适用性。05. 更广泛的影响0与现有的说话人脸生成作品不同，我们系统的目标不是支持对未见过身份的推理。相反，我们专注于生成目标身份在训练中出现的高分辨率说话人脸视频。所提出的系统可以促进生产0基于视频媒体的内容，例如虚拟新闻广播或在线辅导等，我们的系统结合语言翻译系统，允许用户生成四种不同语言版本的视频，显著提高内容的可访问性。虽然这项技术带来了好处，但我们也意识到它也可能被用于恶意目的。由于该系统可以基于任何文本生成视频，对手用户可能会尝试创建带有有害内容的深度伪造视频。关于这种漏洞，我们首先指出，训练该系统所需的数据很可能无法在未经目标身份同意的情况下获得，从而大大减少了可以训练该系统的实体数量。该系统还可以采用内容过滤器，例如仇恨言论过滤器，以进一步降低生成恶意内容的风险。此外，我们坚信通过跟踪每个生成的视频的使用来进行适当的责任管理，该系统可以安全地使用并承担最小的责任。06. 结论0在这项工作中，我们提出了一个与多语言语音兼容的强大的说话人脸生成系统，该系统来自语音合成模型。我们描述了一个对输入语音语言具有鲁棒性的说话人脸生成模型，以及将最先进的TTS模型配备多语言合成能力的技术。通过结合面部生成模型和TTS模型，我们构建了一个可以在没有多语言并行数据集的情况下生成四种语言的说话人脸视频的系统。我们通过评估来自不同语言家族的语言来展示我们系统在语言上的泛化能力。我们还展示了我们的系统在工业环境中的可行性，通过在没有外部计算资源的桌面上部署我们的演示。我们希望我们的系统可以帮助内容创作者在语言障碍上提高其作品的可访问性。07. 致谢0本研究得到了韩国政府（MSTI）信息通信技术规划与评估研究所（IITP）资助（编号2021-0-00062-002，基于任务感知的联合工作自动化管理软件技术的开发）。0参考文献0[1] Nanxin Chen，Yu Zhang，Heiga Zen，Ron J. Weiss，MohammadNorouzi，Najim Dehak和William Chan。WaveGrad2：用于文本到语音合成的迭代细化。在Interspeech会议论文集中，第3765-3769页，2021年。20[2] Joon Son Chung和AndrewZisserman。时间不足：野外自动唇同步。在亚洲计算机视觉会议上，第251-263页。斯普林格，2016年。20[3] Yaroslav Ganin，Evgeniya Ustinova，HanaAjakan，Pascal Germain，Hugo Larochelle，FrançoisLaviolette，Mario Marchand和VictorLempitsky。领域对抗训练神经网络。机器学习研究杂志，17（1）：2096-2030，2016年。40[4] Jianzhu Guo，Xiangyu Zhu，Yang Yang，FanYang，Zhen Lei和Stan ZLi。快速，准确和稳定的3D密集人脸对齐。在欧洲计算机视觉会议上，第152-168页。斯普林格，2020年。30[5] Keith Ito和Linda Johnson。LJ语音数据集。0https://keithito.com/LJ-Speech-Dataset/，2017年。40[6] Jaehyeon Kim，Jungil Kong和JuheeSon。具有对抗学习的条件变分自动编码器用于端到端文本到语音。在第38届国际机器学习会议论文集中，第5530-5540页。PMLR，2021年。2，3，40[7] Jungil Kong，Jaehyeon Kim和JaekyoungBae。HiFi-GAN：用于高效和高保真度语音合成的生成对抗网络。神经信息处理系统进展，33，2020年。20[8] Avisek Lahiri，Vivek Kwatra，Christian Frueh，JohnLewis和ChrisBregler。LipSync3D：使用姿势和光照归一化从视频中学习个性化3D说话人脸的数据有效学习。在IEEE/CVF计算机视觉和模式识别会议论文集中，第2755-2764页，2021年。10[9] Soumi Maiti，Erik Marchi和AlistairConkie。使用基于双语说话人数据的说话人空间转换生成多语言声音。在IEEE国际声学、语音和信号处理会议（ICASSP）论文集中，第7624-7628页，2020年。20[10] Kyubyong Park.KSS数据集：韩语单人演讲数据集。https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset. 40[11] KR Prajwal，Rudrabha Mukhopadhyay，Vinay PNamboodiri和CVJawahar。一个唇同步专家就足以实现野外语音到唇部生成。在第28届ACM国际多媒体会议上，第484-492页，2020年。1，2，40[12] Ryan Prenger, Rafael Valle, and Bryan Catanzaro. Waveg-low: 一种基于流的语音合成生成网络. 在IEEE国际声学、语音和信号处理会议论文集中, 页码3617–3621,2019. 20[13] Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, ZhouZhao, and Tie-Yan Liu. FastSpeech 2:快速高质量的端到端文本到语音. 在国际学习表示会议论文集中,2021. 20[14] Jonathan Shen, Ruoming Pang, Ron J. Weiss, MikeSchuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, YuZhang, Yuxuan Wang, Rj Skerrv-Ryan, Rif A. Saurous, YannisAgiomvrgiannakis, and Yonghui Wu. 自然TTS合成-0通过在Mel频谱图预测上条件化Wavenet进行语音合成. 在IEEE国际声学、语音和信号处理会议论文集中,页码4779–4783, 2018. 20[15] Yao Shi, Hui Bu, Xin Xu, Shaoji Zhang, and Ming Li.AISHELL-3: 一个多说话人的普通话TTS语料库. 在 Interspeech会议论文集中, 页码2756–2760, 2021. 40[16] Ryosuke Sonobe, Shinnosuke Takamichi, and HiroshiSaruwatari. JSUT语料库:免费的大规模日语语音语料库用于端到端语音合成. arXiv预印本arXiv:1711.00354 , 2017. 40[17] Shinnosuke Takamichi, Kentaro Mitsui, Yuki Saito,Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari.JVS语料库: 免费的日语多说话人语音语料库. arXiv预印本arXiv:1908.06248 , 2019. 40[18] Konstantinos Vougioukas, Stavros Petridis, and MajaPantic. 基于端到端语音驱动的逼真面部动画的时间GANs.arXiv预印本 arXiv:1805.09313 , 2018. 2 , 30[19] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, AndrewTao, Jan Kautz, and Bryan Catanzaro.高分辨率图像合成和语义操作的条件GANs. 在IEEE计算机视觉与模式识别会议论文集中, 2018. 40[20] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z.Chen, and Y. Wu. LibriTTS:从LibriSpeech衍生的用于文本到语音的语料库. 在 Interspeech会议论文集中, 2019. 40[21] Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, ZhifengChen, R.J. Skerry-Ryan, Ye Jia, Andrew Rosenberg, andBhuvana Ramabhadran. 学习流利地讲外语:多语种语音合成和跨语言语音克隆. 在 Interspeech 会议论文集中,页码2080–2084, 2019. 2 , 4

下载后可阅读完整内容，剩余1页未读，立即下载