南京航空航天大学奔跑吧小白:基于TACOTRON的语音合成改进研究

需积分: 0 0 下载量 9 浏览量 更新于2024-06-30 收藏 6.79MB DOCX 举报
第十四届中国研究生电赛中,南京航空航天大学的队伍"奔跑吧小白"由指导老师李海林带领,参赛队员杨凌辉、鲍悦、张嘉纹、高璇、毛健,于2019年6月17日完成了他们的技术论文《基于TACOTRON端到端语音合成模型的改进方案》。该研究聚焦于TTS(文本到语音)技术,这是一种将任意文本转化为语音的关键技术,其历史可以追溯到计算机和数字信号处理技术的重大革新。 TTS技术的核心在于前端文本分析和后端语音建模。前端涉及文本处理,如分词、词性标注、多音字消歧和语音特征提取等,这些步骤为后续生成语音提供基础信息。传统的TACOTRON模型采用神经网络架构,将整个过程集成在一个黑箱中,简化了对内部模块的依赖,使得深度学习能够直接训练出高质量的TTS模型。 然而,TACOTRON模型的传统声码器部分仍依赖Griffin-Lim算法,这限制了合成语音的自然度。为解决这一问题,该研究团队在保持算法简单性的前提下,引入了WaveRNN网络作为声码器模块,以提高语音的自然度。WaveRNN是一种能够生成连续音频的神经网络,特别适合于语音合成,因为它能更好地捕捉语音的连续性和流畅性。 作者们针对语音合成技术的挑战,特别是提高自然度和清晰度,对TACOTRON进行了改良。他们利用Thchs30中文语料库和LJSpeech英文语料库进行模型训练,实现了中英文语音合成。实验结果显示,改进后的端到端网络模型在保持原有合成速度的同时,显著提升了语音的自然度,这表明了他们在技术上的突破。 此外,论文还提到了项目的人机交互界面设计和移动端APP的实现,这表明团队不仅关注技术本身,还考虑了实际应用的用户体验。这篇论文不仅深入探讨了TTS技术的前沿进展,而且展示了如何通过创新方法解决实际问题,推动了语音合成技术在实际场景中的应用和发展。