个性化TTS系统设计：从文本到情感语音转换

需积分: 0 47 浏览量更新于2024-06-30 1 收藏 1.52MB PDF 举报

"这篇文档是关于个性化文本语音转换系统（TTS）的设计与实现的研究，由潘鹤在王义教授的指导下完成，属于东北大学信息科学与工程学院计算机科学与技术专业的毕业设计。该研究主要关注如何通过Microsoft的SpeechSDK语音工具包实现TTS的基本功能，并增强其个性化特性，包括声音情感特征的分析、语音转换模型的建立以及说话人识别系统的构建。" 在语音技术领域，文本语音转换系统（TTS）是一项关键的技术，它能够将文本信息转化为可听的语音输出，广泛应用于汽车导航、电话服务和公共交通等领域。尽管现有的TTS系统能够实现基本的文本朗读，但它们往往缺乏个性化的朗读风格和情感表达，这正是本文所要解决的问题。首先，作者深入探讨了如何利用Microsoft的SpeechSDK来构建TTS系统的基础功能。SpeechSDK提供了一套完整的API接口，使得开发者能够方便地将文本转化为语音。作者通过这些接口实现了精确的文本朗读，包括对中英文混合文本的支持，增强了系统的语言处理能力。其次，为了实现个性化朗读，研究建立了一个语音转换模型，允许用户自定义朗读角色。这一创新点在于，通过对语音特征的分析，系统可以模拟不同个体的发音特点，从而提供更加丰富和个性化的语音体验。再者，论文还涉及了声音情感特征的分析和提取。这部分研究旨在理解不同情感状态下的语音特征，找出不同情感之间转换的关系，为创建有情感色彩的TTS提供可能。最后，设计了一个说话人识别系统，用于评估语音转换的结果。这一系统有助于确保转换后的语音质量和与原声的相似度，进一步提升了TTS系统的实用性和用户体验。这篇毕业设计不仅详细介绍了TTS的基本原理和技术实现，还展示了如何通过创新方法提升TTS的个性化程度和情感表达，对于语音合成技术的发展具有重要意义。通过这项工作，潘鹤为未来的TTS系统开发提供了有价值的理论和实践基础。

东北大学本科毕业设计（论文）错误!未找

到引用源。引言

加快发音速率则方便人们对语音的信息的检索和减少语音在存储空间上的占有

量。如一些声音处理软件通过改变基音频率来实现男女、小孩声音的变换，又如

一些情感类的广播节目，为防止透露听众的身份，将声音进行处理使声音变形。

本文主要实现的是对语音转换系统的构建。

1.2.2 语音转换的意义

语音转换技术的迅速发展对我们的生活有极大的意义，也创造了很多方便，

有着广泛的实用价值,具体有如下几个方面：

(1) 声音修复。一方面可以用于医学领域，对于声道受损发音不易听懂的病人，

利用语音转换技术能对受损的声音进行增强和修复,加强语音的可懂度和说话人

个人特征信息，保证交流的通常。另一方面，对于有研究价值或有实用性的受损

音频，也可以尽可能的恢复其源发音人的发音特征信息。

(2) 多媒体娱乐。例如在配音领域,可以有效的减少电影配音工作者的工作量,避

免了配音人对不同角色同一句话的反复录音，语音转换技术能很好的将配音员的

一句话转换为不同目标说话人的语音。与语音识别技术相结合，还能为儿童玩具

增加配音功能,可以在玩具中实现将大人的语音转换为儿童的语音，或者反过来

将儿童的语音转换为大人的语音。另外，在网络游戏等方面可以将玩家的声音进

行少量的录制并训练，使得游戏角色的发音能转换成该角色玩家自己的声音，增

加了玩家身临其境的感觉，有实际的吸引力。

(3) 声音伪装。在不便透露说话人的身份时可以通过语音转换系统进行伪装,用伪

装后的声音进行通信；相反的，在刑侦认证时亦可能对经过伪装的声音进行源说

话人的声音特征信息恢复，为侦查提供了很好的依据。

(4) 通信领域。目前的语音通信系统，如果语音的编码率等于或低于 2.4bit/s。将

会导致语音解码后将不带有源说话人的个性特征信息。这虽然对通信本身十分有

利，但将会让使用双方感觉不便，所以我们设想可以在语音解码后增加一个语音

转换的模块，还原源说话人的个性信息。这样既可以兼顾通信的便利，也平衡了

使用者的舒适性。

总之，语音转换技术是对语音合成、语音识别等技术的延续和拓展。随着语

音转换技术的不断成熟，以及人们对语音交流需求的增强，更加方便、更加实用

的语音相关产品必会深入到寻常百姓的生活，深入到各行各业。其带来的经济、

东北大学本科毕业设计（论文）错误!未找

到引用源。引言

社会效益将十分可观。

1.2.3 语音转换技术现状

语音转换技术源于语音识别与语音合成技术，在过去的二三十年间，语音转

换技术才慢慢地得到研究工作者们的重视。总体来说，国外的研究起步早，成果

多。早在 1970 年代初， Atal 等人就研究了使用 LPC 声码器改变声音特性的可

行性。

1988 年，Abe 等人提出了一种基于矢量量化(VQ)的码本映射技术，并在此

基础采用模糊(VQ)法提高了转换性能。1992 年，Valbret 等人使用 LMR(线性多

变量回归)和 DFW (动态频率调整)的方法进行了说话人语音转换的研究。其中，

LMR 的方法考虑到了人耳的听觉特性，可以在转换过程当中加感觉性系数，有

效的提高了转换后的语音质量。1995 年，H.Kuwabara 引入模糊矢量量化的方法

用于说话人语音转换，在一定程度上提高了语音转换的质量。同时，为了解决矢

量量化的不连续性，Stylianou 引入 GMM (高斯混合模型)的算法，通过加权平均

的方法有效的解决了不连续性，这也是目前比较成熟，应用相对广泛的方法。后

来，许多研究者根据 GMM 模型的“过平滑”等缺点对 GMM 模型进行了进一步

的改进。像在 2001 年，Toda 运用 GMM 和 DFW 加权的方法进行了说话人语音

转换的研究，使得转换后的语音相比传统的 GMM 模型的方法有了进一步的提

高。

国内对于说话人语音转换的研究虽然起步较晚，但成果也很丰富。如刘立等

采用矢量量化(VQ)结合动态时间调整法(DTW)进行男女声转换；初敏等采用重采

样声道相应特性和 TD-POSLA (时域基音同步叠加)法进行基音周期的变换来实

现男女声的转换；王聪修对嗓音源的特性进行了研究，基于嗓音源进行韵律的变

换，谱包络的转换通过线性和非线性的频谱搬移方法实现，以此来实现男女生之

间的语音转换。微软亚洲研宄院的 Yining Chen 等采用 GMM 和 MAP 自适应法

来实现语音转换，仅仅将源说话人的特征参数的概率分布转移到目标说话人的特

诊参数的概率分布上，较好的回避了“过平滑”的问题。Chung-HsienWu 等人提

出了将 Bi-HMM (隐马尔科夫模型)用于说话人语音转换，用 HMM 中的状态持续

时间来刻画因素的时长信息，并用 GAMMA 函数分布来描述状态持续时间变量。

除了一些专门的科研机构外，清华大学，哈尔滨工业大学，南京邮电大学等也都

东北大学本科毕业设计（论文）错误!未找

到引用源。引言

有相关的语音信号处理实验室对语音转换技术进行实验研究。

1.3 论文研究的主要内容和目标

传统的 TTS 系统中合成语音都是单一话者的语音，这就使得合成语音显得

单调，缺乏个性，要想得到多样的发音则必须建立多套语音数据库。声音转换技

术则较容易实现多种音色的个性化发音，使传统的耗时庞大的语音数据库的采集

得以简化为仅需采集一个说话人（源）的语音数据库，对于其他音色的声音，只

需少量的训练语音，便可从源说话人的语音库通过语音转换技术获得。目前国内

外的 TTS 实现技术有很多，但考虑到其成熟性和可开发性，本文采用微软公司

提出的 Microsoft Speech SDK（语音软件开发工具包）。它提供了关于语音处理的

一套应用程序编程接口 SAPI。SAPI 提供了实现文字—语音转换（Text To Speech）

和语音识别（Speech Recognition）程序的基本函数，大大简化了语音编程的难度

和工作量。而使用其提供的接口只能调用 windows 系统语音，即只能用系统语

音来朗读文字。因此若想实现个性化的 TTS，即用自己的声音或身边人的声音朗

读文字，需要进入源－目标说话人语音转换技术。即将系统语音作为源语音，自

己的声音作为目标语音，进行转换合成。

综上所述，可将个性化 TTS 系统的设计归纳为以下几个步骤：

（1）了解和掌握 Microsoft Speech SDK 结构和使用，利用其提供的 SAPI 接口和

COM 接口，在 VC++6.0 编程环境下实现文本和语音的转换。

（2）在 Matlab 上实现源—目标说话人语音转换算法。Matlab 是一种交互式的矢

量语音系统，其基本数据单元是不需要指定维数的矩阵，这使得用 Matlab 可以

解决许多科学与工程计算问题。并且 Matlab 系统自带很多处理语音信号的工具

箱（Voice Box），为处理语音信号带来了极大的便利。查找相关文献比较诸多源

—目标说话人语音转换算法的优劣，选择其一进行实现。将某一系统语音作为源

语音，自己的声音则为目标语音。进行一系列的建模和训练，得出源语音和目标

语音的转换函数，最后再合成出具有目标说话人特性的声音。

（3）实现以上两个步骤的整合，及 VC++和 Matlab 的混合编程（VC++调用

Matlab 引擎）。最后使用 MFC 编写一个带有界面的个性化 TTS 系统。其功能大

致包括：文本朗读、朗读角色选择、试听、音量及语速调节、保存语音、不同角

色语音转换等。

东北大学本科毕业设计（论文）错误!未找

到引用源。引言

1.4 论文的组织结构

本文主要旨在开发一个基于 Microsoft Speech SDK 的个性化文本语音转换

系统，主要实现 TTS 基本功能及语音转换算法两部分内容。其中考虑了一些语

音情感因素，使朗读出的语音具有一定的情感色彩。并且设计一个说话人识别系

统对语音转换的结果进行评价。本文的结构安排如下：

第一章分别介绍了 TTS 的实际应用背景及语音转换的实际意义和技术现状。

同时指出了本课题所做的内容是一个个性化的 TTS 系统，并说明了传统 TTS 的

不足及加入个性化实现的实际应用意义。

第二章介绍了 Microsoft Speech SDK 可应用于文本—语音转换和语音识别及

它提供的一套语音应用程序接口。对于本文中主要使用的 TTS 的工作原理、基

本框架和 COM 技术的主要接口类进行了详细的说明。

第三章介绍了语音信号处理、语音特征参数的提取、高斯混合模型及语音转

换结果的评价标准，为下一章语音转换和语音合成做知识铺垫。此外，对于文中

主要使用的客观评价方法中的说话人识别方法的核心思想进行了介绍。

第四章对语音转换算法和语音合成进行了详细的分步说明。介绍了基频目标

模型的建模过程，利用 GMM 模型对基音频率和频谱两个语音重要的特征参数进

行转换。对于目前使用较为广泛和相对成熟的 STRAIGHT 语音合成算法进行了

简要的介绍。此外，简要介绍了不同语音情感特征及情感间转换的相关理论知识。

第五章以四个说话人（两男、两女）的语音样本为例，给出了应用说话人识

别方法对语音转换效果进行评价的实验结果。并且使用 C++和 Matalb 混合编程

将文本—语音转换和语音转换结合起来实现了一个系统工具，分别介绍了系统的

运行环境、主要功能和结果的展示。

第六章总结全文，对整个已实现的系统进行分析讨论，并对未来的改进提出

设想。

剩余71页未读，继续阅读

独角兽邹教授

粉丝: 39
资源: 320

个性化TTS系统设计：从文本到情感语音转换

文本转语音(TTS)

嵌入式TTS汉语语音系统的设计与实现

tts:将文本转换为语音的工具

微软语音TTS文本到语音转换系统

语音转换TTS源代码

文本语音转换器

C++应用微软TTS实现文本语音阅读

文本生成语音：TTS.zip

文本语音转换支持库

文本语音朗读源码（TTS）

最新资源