迈向通用语音合成：利用语言和风格嵌入实现无专业知识和灵活的系统

4 浏览量更新于2023-12-01 收藏 4.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

迈向通用语音合成：利用语言和风格嵌入实现无专业知识和灵活的系统安托万·佩尔坎引用此版本：安托万·珀昆迈向通用语音合成：利用语言和风格嵌入实现无专业知识和灵活的系统。计算与语言[CS.CL]。INSA de Rennes，2021.英语NNT：2021ISAR0004。电话：03343065HAL Id：tel-03343065https://theses.hal.science/tel-033430652021年9月13日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHESE DE DOCTORAT DE法国国家科学院ECOLE DOCTORALE N ° 601信息与通信专业的数学与科学与技术：信息Par« Antoine Perquin »《迈向通用语音合成：利用语言和风格嵌入实现无专业知识和灵活的系统》Thèse présentée et soutenue à « Lannion »，le « 12 février 2021 »研究单位：UMR 6074 IRISA论文编号：21 ISAR 05 / D21 - 05报告员准备：Georges Linarès Universités菲利普·NGarner高级研究员评审团组成：主席：Pascale Sébillot大学校长菲利普·NGarner高级研究员Camille Guinaudeau Mauritresse de confément-Universitéde thèse：LaurentAmsaleg Directeur de recherche因维特斯Gwénolé Lecorvé Mauritre de confétre，人类发展报告，雷恩大学1 / IRISA DamienLolive Mauritre de confétre，人类发展报告，雷恩大学1 /IRISA Junichi Yamagishi国家信息学研究所教授（日本）Marie Tahon会议主持人，Université du Mans /LIUM3雷苏姆ENF RANDENAIS言语是一种通过孩子的行为来表达思想和情感的能力。在她看来她就像一个正直的人。通过大量的工作，我们了解到人类有能力通过言语来表达自己，但也有能力再现这种艺术能力这是一项技术性的工作，因为它是一种这些都集中在文字部分的言语上。他想通过一个程序让一个记者给他发一个短信这一过程包含两种语言形式：文本和音频。他经常会遇到两个独立的问题。首先是对文本发音的预测，这需要一种语言学的专门知识。第二种是产生与这种发音相对应的言语信号，这需要一种处理信号的专门知识这一技术有许多用途。在医学领域，可以使用一种用于口腔失语症患者的检查方法。它也可以用来指导马耳他人在网上的导航，并以口述的方式提供视觉和文本内容。在娱乐领域，言语的重复性被用于电影的双重录制或音频的录制人机交互是一个可能在未来几年内流行的应用程序。特别是，虚拟助手的使用针对的是他们的口头要求细胞-cisont recognues grâce à la recognition de speak automatique. Une fois la requête traitéepar语言的使用具有普遍的潜力，但有一点限制在这种情况下，实际语音识别系统不可能具有“普遍性”。根据定义，一个选择是普遍的，如果它是“适用的一部分，在所有情况下”，如果它是“使用的或由所有人组成 ” 。 Les applications des systèmes actuels sont limitées par le manque depersonnalisation possible.马约里泰4这些系统仅限于产生一种独特的声音。在对其他声音的言语进行识别时，一个系统的部分产生了一个可重复的音频信号在许多类似的情况下，一种对另一种语言的文本进行识别的方法是，对文本进行发音的一方存在重复在对两个当事人进行审查后，使用者必须是一名专家，他可以对第二个当事人进行“普遍性”的辩论Pour qu此外，这些形式不存在可由非专家使用的控制。这不应被认为是一种预先确定的普遍性的系统。同时，探索一种将语言学知识渗透到声乐教学体系构建中的方法。 Il explores aussi di amerentes manières de controlôler lesformes de sporeacquisable par un système. 此外，本文还简要地介绍了语言学神经网络的特点（即在简历中使用英语），它减少了语言学知识的数量，并允许对语言形式进行更明确的解释，我们认为这是一个普遍的语言学习系统。Chapitre 1：État de这声音将文本转换成一个语音信号，对应于文本的演讲。她经常在两个独立的问题中崩溃。首先是语言学的分析，它是对文本发音的另一种分析。第二种是语言分析中产生的语言信号发音的预测是在一个叫做语音学的模块上进行的一个词的发音在一本发音词典中很重要，如果词典中没有包含这个词的发音规则。这本书需要一位语言专家的帮助。Lagénération du signal peut-être e péchéectuée de di pérentes manières，notamment parsélection d ' u n i t é s .Les méthodes de reposent sur la présence假释信号一般与假释基础上的选定单位有关。La séquence5两杯。选择的内容代表了言语基础中的一个单位对应于文本中的一个单位。这一概念是关于语言学的定义，也是一种语言学的专门知识。接触的质量取决于言语基础的两个单元之间的接触。这是关于单位声学特性的定义。介绍一种新的假释审查模式：两种制度。Leur but est de replacer la totalité de lachaaterne de traitement en chaaterne de spealse par un unique réseau de neurones.实际上，所采用的解决方案对应于使用两个神经元网络。第一次和第二次将声学特征预测分为文本或对应的电话序列第二个将声学特性转换为音频信号。Ces systèmespermettent actuellement另外，第2章：利用音素Nous proposons选择的关键在于对存在于底层的电话和存在于底层的电话的语言描述这是因为两部手机之间的相似性。两个电话在语境中的发音可能相似，或者语音合成也相似。传统选择的概念不应是类似的首选类型我们建议建立一个神经元网络，其中包括电话嵌入的外部声音模型此外，从网络中提取的嵌入对电话的语言描述进行编码，这些嵌入也可以捕获声音模型中的声音特征。此外，选择的范围可能取决于电话嵌入空间中的欧几里德距离Ce costtNous comparons un système de par sélection d'unités oceanut de sélection我们将通过一项测试6系统。通过这一系列测试，我们可以得出结论，所建议的系统质量相当，或优于专家系统。此外，这种观察是真实的，因为该模式用于识别手机上的文本，而手机上的文本则用于嵌入因此，选择单元的我们也建议探索手机嵌入空间的可视化Lavisualisation este acquectuée par uneAnalyse en Composite Principales（ACP），et al. que la distribution desembeddings dephones este acquectuée par phonème，et que ces groupes par phonèmes sontdistribués selon une similarité acoustique.我们通过两种方法来客观地评价电话嵌入空间的质量。 La première correspond à la précision d'un modèle acoustique linéaire apprissur les embeddings de phones.第二步是测量嵌入空间中的精确度这些测量的目标是确认嵌入空间对电话的语音特征进行编码，并捕获某些特定的声学特征。Malgré第三章：利用特征随着声音的减弱，再加上语言学的专业知识，我们需要构建一个语音识别系统，我们需要对方法进行整合。Tacotron架构下的神经元模型允许生成一个包含一个对应文本的语音序列的mel-频谱图。这种方法减少了语言学专业知识的数量，但它不需要对语言学进行定义和提取为了帮助我们进行测试，我们决定将Tacotron型号引入电话机的特性或性能与Tacotron型号在质量方面我们的目标检测和测量辅助工具7montrons aussi que le modèle entrané sur des caractères ne commet pas plus我们建议分析嵌入式的 Une visualisation de l'espacequerequelesembeddingsdecaractèressontregroupésenfonetaryduphonèmequ'ilsquientàformer. Nous comparons ensuite unphonétiseur appris sur des cara- ctères ou sur desembeddings de caractères.Il enrésulte que le modèle appris sur lesembeddings de caractères est plus précis. CelaZière qu第4章：利用语言Un système de Questièse universel doit être capable de produire di questiérentsstyles deparole：plusieurs locomotives，émotions，etc. Nous nous concentrons dans unpremier temps sur我们建议使用一种型号的Tacotron，用于腔体的嵌入这一修改明确的发言人doit permettre au système de capturer des caractéristiques qui lui sontpropres，comme sa voix，a finn de les reproduire arti fisciellement. Nous étudionsplusieurs methodes d'augmentationdedonnéesdanslebutdestabiliserlemoduled'Elevationd'unmodèleTacotronmulti-locomotive. 我们的montrons que toute donnée textuelle，y comprise celleayant peuNous evaluons ensuite objectivement la capacité du système à reproduirela voix de loughn'appartenant pas au jeu d'acquisition. Simplement fournir l ' embeddingd'un nouveau locuteur ne su pas pas à capturer fidèlement sa voix，le modèle doit êtrecorrigé par fine-tuning. 此外，还可使用一种内置模式进行校正并允许与之竞争，以实现对说话人声音的特殊校正。Chapitre 5：Utilisation dNous proposons ensuite尤其是我们要建立一个8多语言者多口音与多语言简单系统类似，我们提出了一种基于语音嵌入和口音嵌入的Tacotron模式。为了控制言语独立性的两个方面，我们提出了语言编码和对立面重音的建议然而，这些测量目标和测量方法不允许我们重新考虑独立的成分。我们要客观地评价模特再现声音和说话人口音的能力。因此，我们可以认为，自然引渡与非自然引渡之间存在着相似之处。我们的目标是，模型能够再现说话者的声音和口音。我们的语调与说话者的声音和原口音的口音相匹配。Des mesures objectives à在这一过程中，我们发现，语言学的专业知识对语音识别系统的使用可能是有限的，因为它可以很好地利用语音或字符的此外，这种神经元网络的特性也可用于改进言语表达方式。同样，一个型号的Tacotron条件下的ces嵌入permet的decompositiserdes échantillons reproduisant la voix et l'accentd'unlocuteurchoisi。此外，关于修改这些假释方式以实现独立控制的问题仍然存在。9没能附件导言. 12I State of theArt 151语音合成概述1.1演讲描述161.1.1演讲制作161.1.2书面发言171.1.3演讲稿1.2文本到语音框架191.2.1前端201.2.2后端211.3语音合成方法概述211.3.1基于规则的系统211.3.2连接和单元选择系统221.3.3统计参数建模231.3.4端到端系统241.3.5混合动力系统251.4语音合成评估1.5结论282神经网络语音合成302.1声学模型和神经网络302.2序列到序列声学建模332.3端到端架构：Tacotron 382.4神经声码器：WaveRNN 412.5语音合成中的语音成分建模2.6结论4510目录二、捐款. 473通过在单元选择中使用音素嵌入来降低对语言专业知识的需求493.1专家和混合动力单元选择TTS 503.2声学模型543.2.1DNN模型的介绍3.2.2数据集和实验装置573.2.3客观评价593.2.4感知评估613.3使用音素嵌入的混合单元选择语音合成3.3.1TTS引擎的介绍3.3.2自动成本与专家成本的比较3.4嵌入分析673.4.1嵌入特性及其评估683.4.2A.方法. 693.4.3考虑嵌入空间..........................................................................................................703.4.4嵌入空间可视化703.4.5客观措施的设计3.4.6客观措施的应用3.5第75章结论4按照端到端模式4.1模型784.1.1TacotronTTSModel 784.1.2WaveRNN声码器..................................................................................................804.2数据和实验装置814.3音位型与音位型Tacotron 834.3.1听力测试834.3.2对发音错误的进一步调查4.4嵌入空间分析4.4.1视觉分析884.4.2字符嵌入的进一步使用4.5结论. 9211目录5增加端到端语音合成的多样性935.1多扬声器语音合成945.1.1系统955.1.2数据集和实验装置975.1.3注意对准错误985.1.4相似度1035.2多扬声器多口音语音合成1075.2.1模型1085.2.2数据集和实验装置1115.2.3实验：解开说话者和口音的嵌入1125.2.4语音克隆和口音转移的评估1165.3第121章6结论与展望123结论与展望123出版物129参考书目12912产品介绍言语是通过声音表达思想和情感的能力。因此，它通常被认为是人类特有的特征。人们已经做了许多工作来了解人类如何能够通过语音表达自己，以及如何人工复制这种能力，从而诞生了语音合成技术在本论文中，重点是文语转换（TTS）合成，这是一个过程，产生一个语音音频信号对应于一个给定的文本。因此，这个问题涉及两种语言形式：文本和音频。因此，这个问题往往被视为两个独立的问题。第一个是如何推断文本的阅读，这需要语言学专业知识。第二个问题是如何生成与该读数相对应的语音信号，这需要音频处理专业知识。这项技术可以有很多用途。在医学上，它可用于让言语障碍者进行口头交流;对于视力障碍者，它可用于口头描述在网络上找到的视觉和文本内容出于娱乐目的，语音合成可能被用作电影配音或自动生成有声读物的人工配音演员在未来几年可能变得更加突出的当前用途是机器交互。随着虚拟助理的兴起，用户可以口头向助理讲话通过使用自动语音识别来识别命令然后，在命令被助理处理之后，由于语音合成，它口头地对用户的请求提供口头回答一旦其问题得到解决，这项技术就有可能得到普遍使用事实上，目前的语音系统很难被描述为通用的。根据这个定义，要使某个事物具有普遍性，它需要“适用于任何地方或所有情况”，并“被所有人使用或理解目前的语音合成技术由于缺乏可定制性，限制了其大多数系统限于输出给定语音的语音为了合成不同声音的语音，需要重建系统中生成音频信号的那一半同样，要合成另一种语言的语音，处理如何阅读文本的另一半系统也必须重建。为了重建这两个部分，用户需要成为语音合成方面的专家，这违背了普遍性定义的第二个方面。为13介绍一个语音合成系统要想真正通用，它需要能够合成各种各样的语音（多个说话者、语言、情感等）。此外，语音的多样性必须易于由非专家用户控制。论文的目的本论文并不主张建立前面所述的普遍系统然而，我们的首要目标是通过去除语言专业知识来降低构建TTS系统的准入门槛。我们的目标还明确地模拟语音的多个组件，以允许合成语音的更多变化。对于这两个目标，我们研究了嵌入的使用，即由深度神经网络（DNN）的隐藏层提取的表示本手稿中介绍的工作始于过渡时期，其中TTS的标准从使用DNN的单元选择或声学建模到端到端方法，其中整个TTS管道被DNN取代因此，我们开始调查如何混合的方法混合单元选择和声学建模允许降低语言的专业知识。然后，我们研究端到端系统的语言专业知识删除。最后，我们试图扩展端到端的范例，允许一个单一的系统来合成不同的地区口音的多个扬声器的声音。纲要这份手稿的结构如下：— 第1章首先介绍了与文本到语音合成相关的一般概念，以及可用的不同模型。— 第2章介绍了与深度神经网络相关的概念，以及它们如何在语音合成的背景下使用。— 第三章研究了嵌入在单元选择式文语合成中的应用。许多商业系统遵循这种合成范例，其中预先录制的语音单元被连接以匹配要合成的文本。预先录制的单元的顺序通过涉及两个成本的过程来选择目标成本测量预先记录的单元与正在合成的文本中的单元之间的相似性。连接成本估计两个单元之间的串联的质量。目标成本的定义通常是通过语言专业知识来完成的。在这项工作中，我们表明，训练神经网络作为声学模型，14介绍预测预先记录的单元的声学描述可以导致提取音素嵌入。然后，这些嵌入可以用于自动定义目标我们的经验表明，这样的定义不会降低合成语音的质量，同时降低构建语音合成系统所需的语言专业知识的数量然而，为了推断文本的发音和描述单位，仍然需要语言学方面的— 为了进一步减少对语言专业知识的需求，第4章研究了语音合成的端到端范例。端到端模型旨在使用单个神经网络执行从文本到音频的映射。在现实中，这个问题仍然分为两部分：从文本中预测mel频谱图，然后将mel频谱图转换为音频。不同的方法主张在文本的语音化而不是文本本身上训练我们表明，对于法语，在精心策划的数据集的情况下，这两种方法的表现同样出色。此外，对来自字符的嵌入的研究表明，神经网络学习了类似于电话的文本的内部表示。因此，这些网络可以直接在原始文本上进行训练，无需语言专业知识来构建语音合成系统。— 第五章研究了嵌入的性质，以允许更多的多样性，在语音合成的端到端模型。神经网络可以被训练来从音频中获得说话者嵌入。然后，端到端模型可以以这些说话者嵌入为条件，以允许多说话者语音合成。此外，这些模型还可以复制在训练过程中看不到的说话者的声音，取得了好坏参半的成功。通过给出期望语音的音频作为模型的参考，可以简单地控制语音的多样性然后，我们研究了这种方法的扩展多扬声器和多口音合成。以类似于说话者嵌入的方式，可以训练区域口音嵌入。然后，我们研究了口音在说话人之间转移的可能性— 最后，第6章通过回顾所提出的解决方案并就剩余问题展开讨论来结束本手稿15第一部分现有技术16C第 1OVERVIEW的 SPEECHS合成TTS合成是生成与阅读书面文本相对应的声音信号的过程因此，需要理解语音的文本和音频成分来构建TTS系统。第1.1节介绍了语音是如何产生的，以及它的两个组成部分是如何被表示的。第1.2节介绍了大多数TTS系统遵循的一般管道最后，第1.3节概述了可用于语音合成的不同方法。1.1语音描述言语和文本本质上是两种非常不同的现象，因为它们与两种不同的感官联系在一起虽然语音与听觉感知有关，但文本主要与视觉有关。然而，语音可以转录为文本，文本可以转录为语音。这是因为言语和文本是由语言学联系在一起的。本节的其余部分描述了语音是如何产生的，如何将其转录为文本，以及如何表示它。1.1.1言语产生自然语音是人类说话的结果，是人体内许多器官相互作用产生的声音信号负责产生语音的主要器官是“肺、喉、咽、鼻和口腔的各个部分”（Holmes 2001），如图所示。.自然语音是由肺部排出的空气与各种发音器官相互作用产生的气流产生的声音发音器官的不同配置允许产生不同的声音，从而发出不同的音素，这是语言声音系统中最小的差异单位在喉中，声带是两层可以通过肌肉移动的组织。特别是，它们可以放在一起，几乎接触和关闭喉部。当空气在这种情况下从喉部挤出时，声带1.1.语音描述17图1.1振动，调制空气湍流，使波具有基频F0的准周期性。这就允许产生有声的声音。然后，当通过声道（从喉部延伸到咽，嘴和嘴唇的腔）时，发生共鸣现象。由此产生的共振模式称为共振峰，通常记为F1，.，Fi，其中i是模式的阶数共振峰可以用来区分音素。对于清音，声带不振动，因此不具有基频。它们通常是气流被阻塞然后突然被一个或多个发声器官释放的结果1.1.2书面讲话在语言学中，音素被定义为语言语音系统中最小的区分单位通过组合这些音素，说话者可以发出组合在句子中的单词相比之下，一种语言的书写系统中最小的区别单位在英语或法语等语言中，字素是字母表中的字母。对于像中文这样的语言，字素是表意文字。与语音中的音素类似，字素可以组合成单词，然后组合成句子，以记录相同的含义。因此，通过将字素映射到音素，人们可以推断出书面文本的发音然而，这种映射通常不是第一部分，第1章18一对一通常，两个字素或多个字素必须组合成一个音素。一个字素可以出现在广泛不同的发音音素。例如，在法语单词“entre“和“mine“中，字母“n“分别是音素/A/和/n/的一部分将字素序列转换为音素序列的动作称为字素到音素（G2P）转换。在本文的其余部分，转换过程也将被称为拼音化，而G2P转换器也将被称为拼音器。不同类型的算法可以执行此操作。例如，基于规则的方法（Ainsworth 1973）依赖于语言学专家编写的规则，根据组成单词的字素来预测单词的发音由此产生的音素序列可以再次使用诸如国际音标（IPA）之类的音标字母表而1.1.3言语表征作为一种特殊类型的声音，语音是空气的位移这个物理过程可以通过麦克风记录为振幅随时间的变化，称为波形。波形示例如图1.2所示在这种情况下，所测量的幅度是麦克风的膜片的位移。语音信号也可以与其他信号一样，在频域中进行描述。根据傅立叶变换理论，每个信号都可以分解为多个正弦信号之和每一个都由三个分量描述：幅度、频率和相位。因此，可以通过应用逆傅里叶变换从这三个分量重构信号。由于人耳对相位变化不敏感（Taylor 2009），因此通常会从语音表示中丢弃相位。振幅随频率的分布称为功率谱，振幅随频率的变化称为谱包络。图1.2给出了光谱的一个例子。光谱随时间的演变可以使用光谱图来观察完整的信号首先通过与窗口函数相乘而被切割成语音帧然后，可以在每个帧上计算频谱，以获得每个时间步长的幅度在频率上的分布从图形上看（见图1.2的第二行），对于Y轴上的每个频率，X轴上的时间，颜色代表振幅：颜色越深，在某个时间点上特定频率的振幅越高在图片上，低频是紧密的。频谱图的频率标度与人类对1.2.文语转换框架19图1.2演讲人耳能够区分低频比高频更小的差异。为了考虑语音感知的这一方面，频谱图的频率标度通常被改变为梅尔标度。这是通过对频率标度应用非线性变换来完成的。结果可以在图1.2的第三行看到。如图所示，较低的频率比线性频谱图上的要少得多Mel-频谱图经常被用作语音合成中的表示。然而，由于相位信息丢失，梅尔频谱图不足以使用逆傅里叶变换来重建原始信号然后，必须使用诸如Grin-Lim（Perraudin，Balazs，and Søndergaard 2013）的算法来近似相位最后，语音可以通过使用梅尔倒谱系数（MFCC）或梅尔倒谱系数（MCC）分析信号的频谱包络来描述。在滤波器组分析之后计算MFCC（Davis和Mermelstein 1980）。MCC是从倒谱（Morise，Yokomori和Ozawa 2016）计算的，倒谱被定义为对数谱的逆傅里叶变换。1.2文语转换框架从历史上看，文本到语音的框架可以分为两个子问题：— 如何预测文本的发音来合成？— 如何生成与此读数对应的音频信号？因此，文本到语音合成可以通过遵循由以下组成的两级流水线来完成：

下载后可阅读完整内容，剩余1页未读，立即下载