汉语语音合成压缩技术:基于PSOLA的编码研究

需积分: 30 1 下载量 4 浏览量 更新于2024-08-11 收藏 196KB PDF 举报
"这篇论文是2001年发表在东南大学学报自然科学版上的,主要探讨了基于PSOLA算法的语音编码压缩的研究与实现。文章指出,使用时域基音同步叠加(TD-PSOLA)技术进行汉语语音合成可以得到高质量的语音,但大型的语音库不适合在小型设备上应用。为了克服这一问题,论文提出了结合A律压缩、自适应量化和自适应预测技术来压缩语音库,以减少存储需求,同时保持合成语音的质量。" 在语音合成领域,PSOLA算法是一种重要的技术,它允许在音节拼接时调整音高和时长,显著提升了合成语音的自然度。然而,基于全汉语单音节库的语音合成系统虽然语音质量高,但所需存储空间庞大,限制了其在便携式设备上的应用。为此,论文作者曹钢和徐宏炳进行了深入研究。 他们采用了A律压缩,这是一种常用于数字音频编码的压缩方法,能够有效减少数据量而不明显降低音质。在此基础上,结合自适应量化和自适应预测技术,进一步优化了编码过程。自适应量化是根据信号特性动态调整量化步长,以减少信息损失;而自适应预测则是通过分析信号序列,预测未来的值,减少编码需要的位数。 通过这些技术的综合应用,论文成功实现了语音库的大约50%的压缩率,大大降低了存储需求。实验结果显示,使用压缩后的语音库进行语音合成,基本不会影响合成语音的质量,这对于扩大语音合成的应用范围,尤其是在资源受限的设备上,具有重大意义。 论文还讨论了过去基于参数合成方法(如共振峰、LPC、LSP参数)的局限性,强调了汉语语音合成中全音节音库的重要性。尽管这些方法存储需求小,但由于汉语的复杂性,合成语音的自然度和清晰度往往不尽如人意。而PSOLA技术的引入和优化,为提高合成语音的自然度和实用性开辟了新的道路。 这篇论文为语音编码压缩提供了一种有效的解决方案,对于推动语音合成技术在各种设备上的广泛应用,特别是在资源有限的环境下,具有重要的理论和实践价值。