基于STRAIGHT的普通话到西安方言转换研究

需积分: 0 1 下载量 82 浏览量 更新于2024-09-07 1 收藏 697KB PDF 举报
"这篇论文研究了在人机交互领域中,如何实现普通话到西安方言的转换。通过构建包括文本和语音的西安方言语料库,论文提出了一种基于归一化非线性多项式的方言韵律转换模型,结合统计的时长转换模型,利用STRAIGHT算法对普通话语音进行修改,从而实现转换。实验结果显示,转换后的语音质量得到了较高的评价,MOS评分在4.15至4.75之间。" 在本文中,作者首先指出,尽管当前的语音识别和合成技术在处理普通话方面已相当成熟,但对方言的支持仍然不足。中国方言种类繁多,包括官话、吴方言、粤方言等七大类。官话方言,如普通话和西安话,具有较强的内部一致性,主要是调型和发音的区别。因此,普通话到西安话的转换具有理论上的可行性。 为了进行这项转换研究,作者设计了一个全面的西安方言语料库,包括单音节、双音节词、负载句及各种语调的语句,并进行了详细的标注。四位录音人分别录制了普通话和西安话的平行语料,以便进行深入的比较和分析。 论文的核心贡献在于提出了两种转换模型:一种是基于归一化的非线性多项式方言韵律转换模型,用于捕捉和转换语音的韵律特征;另一种是基于统计的时长转换模型,包括方言时长和停顿时长转换,旨在调整语音的节奏和停顿,使其更接近西安话的风格。此外,STRAIGHT(Speech Spectral Parameterization Using Linear Prediction Cepstrum and its Derivative)算法被用来修改普通话语音的参数,实现声音的转换。 实验评估显示,转换后的语音质量得到了良好的反馈。单字、双字和语句的MOS(Mean Opinion Score)评分分别为4.60、4.75和4.15,这表明转换效果达到了较高的自然度和可理解性。 这项研究为方言语音转换提供了新的方法和技术,有助于提高人机交互的多样性和效率,特别是在方言区域的应用中。通过深入研究和改进这种技术,未来有可能实现更广泛的方言转换,进一步推动人机语音交流的智能化。