基于广义神经网络和STRAIGHT模型的高效基频转换算法

需积分: 9 0 下载量 61 浏览量 更新于2024-08-12 收藏 787KB PDF 举报
"基频轨迹转换算法及在语音转换系统中的应用研究 (2010年)" 本文主要探讨了一种基于广义人工神经网络(GANN)和STRAIGHT(Speech Transformations for Analysis, Resynthesis, and Intonation Grounding in HMM-based Speech Synthesis)模型的基频轨迹跟踪算法,并在语音转换系统中的应用。这项研究由南京邮电大学的陈芝和张玲华在2010年完成。 STRAIGHT模型是语音处理领域的一个重要工具,它能够对语音信号的基频(fundamental frequency,简称F0,即基音频率)进行大幅度的修改,而不会显著降低合成语音的质量。该模型通过对语音信号进行精细的分析和重构,允许对语音的多个参数进行独立调整,包括基频、频谱包络和噪声成分等。 人工神经网络(Artificial Neural Network, ANN)则被用于学习源说话人与目标说话人间的基频轨迹关系。由于神经网络具有强大的预测能力,它可以捕捉到两个说话人基频变化模式的内在联系,从而实现基音频率的有效转换。通过训练神经网络,我们可以得到一个映射函数,将源说话人的基频轨迹转化为目标说话人的特征。 论文中进行了语谱图分析和主观意见分评价,结果显示,所提出的基频轨迹跟踪算法在合成语音质量和目标特征映射上均优于传统的基频转换方法。这表明,结合STRAIGHT模型和GANN的算法不仅提高了转换的准确性,而且保持了良好的语音自然度和可理解性。 基频在语音中扮演着关键角色,它与语音的音高直接相关,影响着语音的语调和情感表达。因此,准确地转换基频对于语音转换系统(如变声技术、语音合成)至关重要。这种新型算法的提出,为提高语音转换系统的性能提供了新的途径,有助于进一步提升语音合成的自然度和个性化程度。 这篇论文在自然科学领域,特别是语音处理和通信技术方面,做出了重要贡献,其提出的基频轨迹转换算法有望在实际应用中产生广泛影响。通过结合先进的模型和算法,研究人员能够更好地理解和操纵语音的基频特性,从而改进语音合成和转换技术。