多核SVM_GMM提升短语音说话人识别性能

需积分: 0 0 下载量 165 浏览量 更新于2024-08-05 收藏 721KB PDF 举报
本文主要探讨了基于多核支持向量机(SVM)和高斯混合模型(GMM)的短语音说话人识别方法。作者林琳、陈虹、陈建和金焕梅针对传统的单核SVM在处理语音识别中的局限性,提出了一种创新的策略。他们通过在多核空间中构建说话人分类器,利用线性组合的多个核函数来增强语音特征的表达能力和区分度,从而提高识别的准确性和鲁棒性。 在传统SVM中,单一核函数的选择和参数设置可能会影响识别效果。多核映射技术解决了这一问题,它允许使用不同的核函数,如径向基函数(RBF)、多项式核或sigmoid核等,通过组合的方式优化识别性能。这种方法不仅增加了模型的灵活性,还能更好地适应不同类型的语音数据。 作者将高斯混合模型引入到该体系中,因为GMM是一种强大的概率模型,能有效地对说话人的声音特征进行建模。通过将GMM的超向量作为说话人的最终特征,算法可以更精确地捕捉说话人的独特声学特性。在实际的仿真实验中,研究者对比了基于多核SVM-GMM的算法与单纯使用SVM-GMM的方法,结果显示在短语音识别任务中,特别是在噪声环境下,多核SVM-GMM表现出了更高的识别精度和更强的抗干扰能力。 这篇文章关注的核心知识点包括多核SVM的原理和应用、高斯混合模型在语音特征提取中的作用、以及如何通过这些技术改进短语音说话人识别系统的性能。这项工作对于提升语音识别系统的实用性和鲁棒性具有重要意义,为实际应用提供了新的研究方向和技术支持。