基于FDGSVM的多语言语音质量客观评价方法

需积分: 9 0 下载量 47 浏览量 更新于2024-08-25 收藏 365KB PDF 举报
本文档主要探讨了"基于模糊多类支持向量机的语音质量客观评价"这一主题,发表于2006年的西安交通大学学报。研究者张军、张德运和傅鹏提出了一种创新的方法,利用模糊有向图支持向量机(FDGSVM)来对多语言语音样本的主观质量进行客观评估。传统上,语音质量评估通常依赖于主观的平均意见评分(MOS),但这种方法往往费时且受个人因素影响较大。 作者将多个可以进行二分类的模糊支持向量机(Fuzzy Support Vector Machine,FSVM)组织成一个具有单一输入节点的有向图结构,形成一个多类分类器FDGSVM。这种结构允许对复杂的多类别问题进行处理,提高了分类的准确性和鲁棒性。在这个框架下,他们选择Mel倒谱系数(Mel-frequency cepstral coefficients,MFCC)作为特征向量,因为MFCC能够捕捉语音信号的频率和时间特性,是语音分析中的常用特征。 通过FDGSVM,研究者将特征向量从原始的声学空间映射到主观MOS评分的非线性区间。这个映射过程生成的数值就是对语音质量的客观评价结果。实验结果显示,该算法在闭集测试(即评估数据集与训练数据集相同)中的评测结果与主观MOS评价间的相关度高达0.91,而在开集测试(评估数据集包含未见过的语音样本)中也达到了0.88,这表明其在跨语言和多样化的语音条件下具有良好的泛化能力。 这项工作不仅有助于提高语音质量评估的自动化程度,还展示了模糊逻辑与支持向量机相结合在复杂任务中的应用潜力,为后续的语音处理和客观评价技术提供了新的研究方向。论文的关键点包括模糊有向图的支持向量机模型、特征提取方法(Mel倒谱系数)、以及客观评价结果的高相关度。对于音频信号处理、通信工程、人工智能等领域,这项研究成果具有实际价值和理论意义。