基于HMM的可训练语音合成技术在越南语合成中的应用与评价

需积分: 9 0 下载量 181 浏览量 更新于2024-09-05 收藏 537KB PDF 举报
本文主要探讨了"可训练语音合成在越南语合成中的应用"。越南语作为一种拼音化的语言,其特点在于每个音节由声母、韵母和声调构成,这对于语音合成技术提出了独特的挑战。论文研究者奎丽萍、杨鉴、胡恩星和何彬针对越南语的特性,采取了一种基于隐马尔科夫模型(HMM)的可训练语音合成方法。 首先,他们对越南语进行了深入研究,包括语料库的收集、录音的获取以及音频的标注,这些都是语音合成系统的基础。通过这些步骤,研究者能够确定越南语的音素列表,即构成语音的基本单元,这对于准确地模仿和再现越南语的发音至关重要。 其次,他们设计了上下文属性集和问题集,这些是HMM模型中的关键元素,它们帮助模型理解和处理语音序列中的时间关联性和语义信息,以实现更自然的合成效果。STRAIGHT合成器在此背景下被构建,这是一种在当时广泛使用的高质量语音合成工具,特别适用于处理非英语等非拉丁字母体系的语言。 经过实际操作和实验,研究者在HTS平台上实现了越南语的语音合成,并对其进行了主观评测。结果显示,合成语音的可懂度达到了较高的水平,接近100%,表明听众基本能理解合成的语音内容。然而,对于自然度的评价则介于"可以接受"和"比较自然"之间,这表明虽然整体表现良好,但仍有一定的改进空间。 该论文的研究工作得到了国家自然科学基金(No.60865002)的支持,展示了在越南语语音合成领域的最新进展,对于推动越南语信息技术的发展和跨语言语音合成技术的研究具有重要意义。此外,论文还提供了详细的联系方式,便于其他研究者进行交流和进一步探索。 这篇论文通过实证研究展示了如何将可训练的HMM技术应用于越南语语音合成,并指出了今后可能的改进方向,为越南语和其他非标准语言的语音合成技术提供了有价值的参考。