第 卷第 期 南 京 邮 电 大 学 学 报 自 然 科 学 版 VolNo
年 月 Journal of Nanjing University of Posts and TelecommunicationsNatural Science Oct
一 种 稀 少 训 练 数 据 条 件 下 的 语 音 转 换 算 法
徐宁
杨震
南京邮电大学 通信与信息工程学院江苏 南京
南京邮电大学 信号处理与传输研究院江苏 南京
摘要提出了一种新的语音说话人转换算法利用变分贝叶斯方法估计高斯混合模型参数进而将其应用于语音
转换的声道谱参数映射过程实现说话人身份转换 将变分贝叶斯算法用于模型参数的估计一方面解决了训练
数据量稀少情况下容易使模型产生过拟合的问题另一方面通过将模型参数概率化使得参数估计问题不再是
点估计而成为了全局估计因此在一定程度上提高了模型的精度 主观和客观实验结果表明将基于变分
贝叶斯估计得到的统计模型用于语音声道谱参数的转换明显提高了在训练数据稀少的情况下系统的鲁棒性同
时转换后语音的音质和说话人个性特征均优于经典的语音转换系统
关键词变分贝叶斯估计高斯混合模型语音转换声道谱参数稀少训练数据
中图分类号TN文献标识码A文章编号
A Voice Conversion Algorithm in the Context of Sparse Training Data
XU Ning
YANG Zhen
College of Telecommunications & Information EngineeringNanjing University of Posts and TelecommunicationsNanjing China
The Institute of Signal Processing and TransmissionNanjing University of Posts and Telecommunications Nanjing China
AbstractA new voice speaker conversion algorithm is proposedThe algorithm evaluates the parameters
of Gaussian mixture model GMM by Variational Bayesian VB theory and applies it to the track spec
tral parameter mapping processfor voice conversion VC to realize the speaker conversionThe advantage
of introducing VB into VC community lies in its ability to overcoming the overfitting problem when the
training data is not sufficientMoreoverusing the probability based evaluation approachthe parameters
are estimated globally instead of by point estimationIt makes VB more accurate than the traditional ones
such as Maximum Likelihood ML or Maximum a Posterior MAPSubjective and objective evaluation
both demonstrate that the proposed algorithm based on VB works quite wellespecially when the training
data is sparseIn additionthe quality and the speaker individuality of the converted speech feels much
better in comparison to the traditional VC system
Key words variational Bayesian Gaussian mixture model voice conversion spectral mapping
sparse data
收稿日期
通讯作者杨震电话Emailyangznjupteducn
0引言
语音转换voice conversionVC 是一种保持语
音信号中与语义有关的信息不变而只改变与说话
人个性特征有关的信息的技术
一般的 VC 系统结构框图如图 所示 一般来
说根据声学特性的不同使得我们可以对激励源信
号和声道滤波器响应信号分别设计转换函数 声道
参数由于被认为包含了绝大部分与说话人个性特征
有关的 信 息
因 此 在 该 领 域 产 生 了 众 多 研 究
成果
值得一提的是传统的转换算法均是在理想情
况下提出来的即训练数据量充足 但是现实情况