探索语音合成技术全貌：Python实践与AI音箱研究

需积分: 9 13 浏览量更新于2024-07-01 收藏 1.16MB PDF 举报

语音合成技术是人工智能领域的一个重要分支，它的发展历程可以追溯至早期的文本转换为语音的尝试。当前，语音合成主要包括文本前端处理、语音特征提取、音库制作、声学模型构建和声码器训练等关键环节。以下是对这些知识点的详细介绍： 1. **语音特征提取**：这是语音合成的第一步，涉及从输入文本中提取有意义的语言、语法和语义特征，以便后续的处理能理解和转化。常见的特征包括音素、音节、词、句子结构等。 2. **音库制作和文本前端**：音库是用于合成语音的音频素材库，包含各种语音样本。文本前端则负责将输入文本进行预处理，如分词、词性标注、句法分析等，为后续的语音生成做好准备。 3. **声学模型及损失函数**：声学模型是语音合成的核心组成部分，通常采用深度学习方法，如循环神经网络(RNN)或变换器(Transformer)。损失函数用来衡量合成语音与真实语音之间的差距，优化模型参数以提高合成质量。 4. **声码器（神经网络训练）**：声码器是基于深度学习的模型，负责将文本特征转化为声学特征，如梅尔频率倒谱系数(MFCC)。通过训练，声码器学习到语音的潜在表示，以便生成逼真的语音输出。 5. **语音合成知识结构**：整体上，语音合成技术的架构通常包括文本处理模块、声学模型、语音合成引擎和后处理步骤。这些部分相互协作，形成一个完整的流程，以实现从文字到语音的高效转换。此外，文档还提到了语音合成技术的一些参考资料和资源，如会议、期刊、开源工具和项目，以及评估指标和测评方法。例如，评价语音合成质量的标准可能包括自然度、流畅度、情感表达和可理解性等方面。研究者和开发者需要关注最新的研究成果和竞赛，以便跟踪技术动态并提升自身技术水平。最后，作者冬色提到自己因为上海的疫情而中断了写作进度，但他的分享表明，语音合成技术是一个活跃且不断发展的领域，不仅涉及技术细节，还包括跨学科的合作和应用，如在智能音箱中的集成。希望通过这篇文章，读者能对语音合成技术有更深入的理解，并启发更多创新实践。

1.5 开源资料

1.5.3 情感数据集

1. ESD: 用于语音合成和语音转换的情感数据集。

2. 情感数据和实验总结: 实际是情感语音合成的实验总结，包含了一些情感数据集的总结。

1.5.4 其它数据集

1. Opencpop: 高质量歌唱合成数据集。

2. 好未来开源数据集: 目前主要开源了 3 个大的语音数据集，分别是语音识别数据集，语音情感数据集和中

英文混合语音数据集，都是多说话人教师授课音频。

3. JSUT: 日语，10 小时，单说话人，采样率 48kHz。

4. KazakhTTS: 哈萨克语，93 小时，2 个说话人，采样率 44.1/48kHz。

5. Ruslan: 俄语，31 小时，单说话人，采样率 44.1kHz。

6. HUI-Audio-Corpus: 德语，326 小时，122 个说话人，采样率 44.1kHz。

7. M-AILABS: 多语种，1000 小时，采样率 16kHz。

8. India Corpus:

多语种，

小时，

253

个说话人，采样率

48kHz

。

9. MLS: 多语种，5.1 万小时，6 千个说话人，采样率 16kHz。

10. CommonVoice: 多语种，2500 小时，5 万个说话人，采样率 48kHz。

11. CSS10: 十个语种的单说话人语音数据的集合，140 小时，采样率 22.05kHz。

12. OpenSLR: OpenSLR 是一个专门托管语音和语言资源的网站，例如语音识别训练语料库和与语音识别相关

的软件。迄今为止，已经有 100+ 语音相关的语料。

13. DataShare: 爱丁堡大学维护的数据集汇总，包含了语音、图像等多个领域的数据集和软件，语音数据集中

包括了语音合成、增强、说话人识别、语音转换等方面的内容。

14. Speech in Microsoft Research Open Data: 微软开源数据搜索引擎中关于语音的相关数据集。

15. voice datasets: Github 上较为全面的开源语音和音乐数据集列表，包括语音合成、语音识别、情感语音数据

集、语音分离、歌唱等语料，找不到语料可以到这里看看。

16. Open Speech Corpora: 开放式语音数据库列表，特点是包含多个语种的语料。

17. EMIME: 包含一些 TTS 和 ASR 模型，以及一个中文/英语，法语/英语，德语/英语双语数据集。

18. Celebrity Audio Extraction: 中国名人数据集，包含中国名人语音和图像数据。

1.5.5 开源工具

1. sonic: 语音升降速工具。

2. MFA: 从语音识别工具 Kaldi 中提取出来的音素-音频对齐工具，可以利用 MFA 获取每一个音素的时长，供

预标注或时长模型使用。

3. 宾西法尼亚大学强制对齐标注软件（P2FA）：这里有相关的介绍，对于噪音数据鲁棒性差。

4. ABXpy: 语音等测评 ABX 测试网页。

5. SpeechSubjectiveTest: 主观测评工具，包括用于语音合成和转换的 MOS、PK（倾向性测听）、说话人相似

度测试和 ABX 测试。

6. Matools: 机器学习环境配置工具库

7. MyTinySTL: 基于 C++11 的迷你 STL。

8. CppPrimerPractice: 《C++ Primer 中文版（第 5 版）》学习仓库。

9. git-tips: Git 的奇技淫巧。

1.5.6 开源项目

1. coqui-ai TTS: 采用最新研究成果构建的语音合成后端工具集。

1.6 语音合成评价指标

2. ESPNet: 语音合成和识别工具集，主要集成声学模型、声码器等后端模型。

3. fairseq: 序列到序列建模工具，包含语音识别、合成、机器翻译等模型。

4. eSpeak NG Text-to-Speech: 共振峰生成的语音合成模型，集成超过 100 个语种和口音的语音合成系统，特

别地，可借鉴该项目中的多语种文本前端。

5. Epitran: 将文本转换为 IPA 的工具，支持众多语种。

6. Tacotron-2: Tensorﬂow 版本的 Tacotron-2.

7. Transformer TTS: TensorFlow 2 实现的 FastSpeech 系列语音合成。

8. Text-to-speech in (partially) C++ using Tacotron model + Tensorﬂow: 采用 TensorFlow C++ API 运行 Tacotron

模型。

9. muzic: 微软 AI 音乐的开源项目，包括乐曲理解、音乐生成等多种工作。

10. merlin: CSTR 开发的统计参数语音合成工具包，需要与文本前端（比如 Festival）和声码器（比如 STRAIGHT

或 WORLD）搭配使用。

1.6 语音合成评价指标

对合成语音的质量评价，主要可以分为主观和客观评价。主观评价是通过人类对语音进行打分，比如平均

意见得分（Mean Opinion Score，MOS）、众包平均意见得分（CrowdMOS，CMOS）和 ABX 测试。客观评价是

通过计算机自动给出语音音质的评估，在语音合成领域研究的比较少，论文中常常通过展示频谱细节，计算梅

尔倒谱失真（Mel Cepstral Distortion，MCD）等方法作为客观评价。客观评价还可以分为有参考和无参考质量评

估，这两者的主要判别依据在于该方法是否需要标准信号。有参考评估方法除了待评测信号，还需要一个音质

优异的，可以认为没有损伤的参考信号。常见的有参考质量评估主要有 ITU-T P.861 (MNB)、ITU-T P.862 (PESQ)、

ITU-T P.863 (POLQA)、STOI 和 BSSEval。无参考评估方法则不需要参考信号，直接根据待评估信号，给出质量

评分，无参考评估方法还可以分为基于信号、基于参数以及基于深度学习的质量评估方法。常见的基于信号的

无参考质量评估包括 ITU-T P.563 和 ANIQUE+，基于参数的方法有 ITU-T G.107(E-Model)。近年来，深度学习也

逐步应用到无参考质量评估中，如：AutoMOS、QualityNet、NISQA 和 MOSNet。

主观评价中的 MOS 评测是一种较为宽泛的说法，由于给出评测分数的主体是人类，因此可以灵活测试语音

的不同方面。比如在语音合成领域，主要有自然度 MOS（MOS of Naturalness）和相似度 MOS（MOS of Similarity）。

但是人类给出的评分结果受到的干扰因素较多，谷歌对合成语音的主观评估方法进行了比较，在评估较长语音

中的单个句子时，音频样本的呈现形式会显著影响参与人员给出的结果。比如仅提供单个句子而不提供上下文，

与相同句子给出语境相比，被测人员给出的评分差异显著。国际电信联盟（Inter national Telecommunication Union，

ITU）将 MOS 评测规范化为 ITU-T P.800，其中绝对等级评分（Absolute Category Rating，ACR）应用最为广泛，

ACR 的详细评估标准如下表所示。

表 1.1: 主观意见得分的评估标准

音频级别平均意见得分评价标准

优 5.0 很好，听得清楚；延迟小，交流流畅

良 4.0 稍差，听得清楚；延迟小，交流欠流畅，有点杂音

中 3.0 还可以，听不太清；有一定延迟，可以交流

差 2.0 勉强，听不太清；延迟较大，交流需要重复多遍

劣

1.0

极差，听不懂；延迟大，交流不通畅

在使用 ACR 方法对语音质量进行评价时，参与评测的人员（简称被试）对语音整体质量进行打分，分值范

围为 1 5 分，分数越大表示语音质量越好。MOS 大于 4 时，可以认为该音质受到大部分被试的认可，音质较好；

若 MOS 低于 3，则该语音有比较大的缺陷，大部分被试并不满意该音质。

1.7 平均意见得分的测评要求与方法

语音合成的最终目标是，合成语音应尽可能接近真实发音，以至于人类无法区分合成和真实语音。因此让

人类对合成语音进行评价打分是最为直观的评价方法，评分经处理之后即可获得平均意见得分。平均意见得分

是语音合成系统最重要的性能指标之一，能够直接反映合成语音的自然度、清晰度以及可懂度。

1.7.1 实验要求

获取多样化且数量足够大的音频样本，以确保结果在统计上的显著，测评在具有特定声学特性的设备上进

行，控制每个被试遵循同样的评估标准，并且确保每个被试的实验环境保持一致。

1.7.2 实验方法

为了达到实验要求，可以通过两种方法获得足够精确的测评结果。第一种是实验室方式，该方式让被试在

实验室环境中进行测评，在试听过程中环境噪音必须低于 35dB，测试语音数量至少保持 30 个以上，且覆盖该

语种所有音素和音素组合，参与评测的被试应尽可能熟练掌握待测合成语音的语种，最好以合成语音的语种为

母语。该方法的优点是测试要素容易控制，能够稳定保证实验环境达到测评要求；缺点则主要是需要被试在固

定场所完成试听，人力成本高。第二种是众包，也就是将任务发布到网络上，让具有条件的被试在任何地方进

行测评。该方法主要优点是易于获得较为有效的评估结果；而缺点则体现在无法确保试听条件。

1.7.3 实验步骤

1. 收集合成语音和录制的真实语音；

2. 确保文本和语音一一对应，去除发音明显错误的音频样本；

3. 生成问卷，将合成语音和真实语音交叉打乱，确保打乱的顺序没有规律，合成语音和真实语音不可让被试

提前探知到；

4. 开始任务前，被试试听示例语音，并告知其对应的大致得分；

5. 被试开始对给定音频打分，前三条语音可以作为被试进入平稳打分状态的铺垫，不计入最终结果；

6. 回收问卷，舍弃有明显偏差的评价数据，统计最终得分。

1.7.4 实验设计

1. 准备测试语音数据。(1) 从各领域和语音合成系统实际应用场景中，摘选常规文本作为测试语料，选取的语

句一般尽可能排除生僻字；(2) 用于测试的句子一般是未出现在训练集中的；(3) 被试必须使用耳机试听语

音，以便于判断更为细微的差别；(4) 为了避免被试的疲惫，待测评系统和语料数量不可太多，需要控制测

评时间；(5) 一个句子需要由多个被试打分。

2. 设置实验参数。在准备测试语音时，需要提前设置好训练语料、待测系统、参与测试的句子数量、每个句

子被试听的次数等。以中文语音合成系统的语音评估为例，测评设置如下表所示。

表 1.2: 语音测评设置

训练集待测系统句子数量每个句子被测次数

内部数据集真实语音 40 12

内部数据集 Tacotron-2 40 12

内部数据集 FastSpeech-2 40 12

3. 准备 HTML 文档等展示材料，向被试介绍该测试。该 HTML 文档至少包括：(1) 测试注意事项，如被试应

该使用何种设备，在何种环境下试听，试听时应该排除的干扰因素等；(2) 测试任务，向被试介绍本次试听

剩余74页未读，继续阅读

qoog8m

粉丝: 2
资源: 85

探索语音合成技术全貌：Python实践与AI音箱研究

基于Python实现的中文语音识别和语音合成模型，开箱即用，中文语音识别、文字转语音，基于语音库实现，易扩展

语音合成技术

语音合成技术浅析文章 简单介绍了语音合成技术

人工语音合成

朗读语音 语音合成技术

web语音源程序(web 页面中使用语音合成技术)

基于OpenCV的人脸识别小程序.zip

精选毕设项目-宅男社区.zip

精选毕设项目-扫描条形码.zip

配网两阶段鲁棒优化调度模型 关键词：两阶段鲁棒优化，CCG算法，储能 仿真算例采用33节点，采用matlab+yalmip+cplex编写，两阶段模型采用CCG算法求解 模型中一阶段变量主要包括01

最新资源

语音合成技术浅析文章简单介绍了语音合成技术

朗读语音语音合成技术

配网两阶段鲁棒优化调度模型关键词：两阶段鲁棒优化，CCG算法，储能仿真算例采用33节点，采用matlab+yalmip+cplex编写，两阶段模型采用CCG算法求解模型中一阶段变量主要包括01