基于广义神经网络和STRAIGHT模型的高效基频转换算法 - CSDN文库

下载需积分: 9 | PDF格式 | 787KB | 更新于2024-08-11 | 77 浏览量 | 举报

收藏

"基频轨迹转换算法及在语音转换系统中的应用研究 (2010年)" 本文主要探讨了一种基于广义人工神经网络（GANN）和STRAIGHT（Speech Transformations for Analysis, Resynthesis, and Intonation Grounding in HMM-based Speech Synthesis）模型的基频轨迹跟踪算法，并在语音转换系统中的应用。这项研究由南京邮电大学的陈芝和张玲华在2010年完成。 STRAIGHT模型是语音处理领域的一个重要工具，它能够对语音信号的基频（fundamental frequency，简称F0，即基音频率）进行大幅度的修改，而不会显著降低合成语音的质量。该模型通过对语音信号进行精细的分析和重构，允许对语音的多个参数进行独立调整，包括基频、频谱包络和噪声成分等。人工神经网络（Artificial Neural Network, ANN）则被用于学习源说话人与目标说话人间的基频轨迹关系。由于神经网络具有强大的预测能力，它可以捕捉到两个说话人基频变化模式的内在联系，从而实现基音频率的有效转换。通过训练神经网络，我们可以得到一个映射函数，将源说话人的基频轨迹转化为目标说话人的特征。论文中进行了语谱图分析和主观意见分评价，结果显示，所提出的基频轨迹跟踪算法在合成语音质量和目标特征映射上均优于传统的基频转换方法。这表明，结合STRAIGHT模型和GANN的算法不仅提高了转换的准确性，而且保持了良好的语音自然度和可理解性。基频在语音中扮演着关键角色，它与语音的音高直接相关，影响着语音的语调和情感表达。因此，准确地转换基频对于语音转换系统（如变声技术、语音合成）至关重要。这种新型算法的提出，为提高语音转换系统的性能提供了新的途径，有助于进一步提升语音合成的自然度和个性化程度。这篇论文在自然科学领域，特别是语音处理和通信技术方面，做出了重要贡献，其提出的基频轨迹转换算法有望在实际应用中产生广泛影响。通过结合先进的模型和算法，研究人员能够更好地理解和操纵语音的基频特性，从而改进语音合成和转换技术。

第  卷第  期南京邮电大学学报  自然科学版  ＶｏｌＮｏ

 年  月ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＮａｔｕｒａｌＳｃｉｅｎｃｅ Ｏｃｔ

基频轨迹转换算法及在语音转换系统中的应用研究

陈芝张玲华

南京邮电大学通信与信息工程学院江苏南京

摘要提出并实现了一种基于广义人工神经网络和ＳＴＲＡＩＧＨＴ模型的高效基频轨迹跟踪算法 一方面

ＳＴＲＡＩＧＨＴ模型可以对语音信号的基频进行较大幅度的修改而不至于引起合成语音质量的下降 另一方面利用

人工神经网络优良的预测能力学习源说话人和目标说话人的基频轨迹之间的内在联系实现基音频率的转换

语谱图分析主观意见分评价结果表明提出的基频轨迹跟踪算法在合成语音质量及目标特征映射上都远远好于

传统的基频转换算法

关键词ＳＴＲＡＩＧＨＴ模型基频转换人工神经网络语音转换

中图分类号ＴＮ文献标识码Ｂ文章编号

ＭｏｒｐｈｉｎｇＡｒｉｔｈｍｅｔｉｃｏｆＰｉｔｃｈａｎｄＡｐｐｌｉｃａｔｉｏｎｉｎＶｏｉｃｅＭｏｒｐｈｉｎｇＳｙｓｔｅｍ

ＣＨＥＮＺｈｉＺＨＡＮＧＬｉｎｇｈｕａ

ＣｏｌｌｅｇｅｏｆＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ Ｎａｎｊｉｎｇ Ｃｈｉｎａ

ＡｂｓｔｒａｃｔＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｅｆｆｉｃｉｅｎｔｍｏｒｐｈｉｎｇａｌｇｏｒｉｔｈｍｏｆｐｉｔｃｈｂａｓｅｄｏｎｇｅｎｅｒａｌｉｚｅｄａｒｔｉｆｉｃｉａｌｉｎ

ｔｅｌｌｉｇｅｎｃｅａｎｄｔｈｅＳＴＲＡＩＧＨＴｍｏｄｅｌＴｈｅＳＴＲＡＩＧＨＴｍｏｄｅｌｃａｎｍｏｄｉｆｉｅｓｔｈｅｐｉｔｃｈｗｉｔｈｏｕｔｌｏｓｓｏｆｔｈｅ

ｑｕａｌｉｔｙｏｆｔｈｅｖｏｉｃｅＭｏｒｅｏｖｅｒ ｂａｓｅｄｏｎＧＡＮＮｐｒｅｄｉｃｔａｂｌｅａｂｉｌｉｔｙ ｗｅｃａｎｇｅｔｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎ

ｓｏｕｒｃｅａｎｄｏｂｊｅｃｔ ａｎｄｒｅａｌｉｚｅｓｐｉｔｃｈｃｏｎｖｅｒｓｉｏｎＳｕｂｊｅｃｔｉｖｅｅｖａｌｕａｔｉｏｎａｎｄｏｂｊｅｃｔｉｖｅｍｅａｓｕｒｅｍｅｎｔｉｎｄｉ

ｃａｔｅｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｂｅｔｔｅｒｔｈａｔｔｈａｔｏｆｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｉｎｔｅｒｍｏｆ

ｓｙｎｔｈｅｓｉｚｅｄｑｕａｌｉｔｙａｎｄｐｒｅｃｉｓｉｏｎｏｆｍａｐｐｉｎｇｔａｒｇｅｔｃｈａｒａｃｔｅｒｉｓｔｉｃｓ

ＫｅｙｗｏｒｄｓＳＴＲＡＩＧＨＴｍｏｄｅｌ ｐｉｔｃｈｃｏｎｖｅｒｓｉｏｎ ＧＡＮＮ ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ

收稿日期

基金项目国家自然科学基金资助项目

通讯作者张玲华电话Ｅｍａｉｌｚｈａｎｇｌｈｎｊｕｐｔｅｄｕｃｎ

０引言

语音转换ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ 是指改变一个说话

人源说话人的语音个性特征而保持语音中语义

内容不变使之具有另外一个说话人目标说话人

的语音个性特征 一般来说表征语音个性化的特

征参数可以分为以下三类





 音段特征描述的是语音的音色特征 主

要包括共振峰频率共振峰带宽频谱倾斜基音频

率等 音段特征主要取决于发音器官的生理物理特

性具有很好的稳定性

 超音段特征描述的是语音的韵律特征

主要包括音素的时长基音轨迹能量等 超音段特

征主要受社会和心理状况的影响具有不稳定性

 语言特征主要包括方言口音习惯用语

等 语言特征与个人成长环境社会背景等有很大

的关系具有随机性不易对其进行建摸

各声学参数对语音个性特征的贡献大小学术

内部也是各述己见 Ｍａｔｓｕｍｏｔｏ



研究认为基音频

率的贡献最大其次是共振峰频率Ｆｕｒｕｉ



则认为

由倒谱系数得到的平均谱包络贡献最大其次为基

音频率Ｉｔｏｈ等



认为频谱包络贡献最大基音频率

位列第二 虽然各学者的意见不一但总的来看基

音频率的转换是语音转换的重要方面转换的准确

度对合成语音有极大的影响

目前对于基音频率的提取与转换方法的研究

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38700779

粉丝: 11

大学生入口

最新资源