克服过拟合的本征音子说话人自适应语音识别新法

0 下载量 129 浏览量 更新于2024-08-26 收藏 631KB PDF 举报
本文主要探讨了一种基于特征电话子空间的说话人自适应语音识别方法,针对传统的本征音子说话人自适应算法在自适应数据量不足时可能出现的过拟合问题。作者屈丹和张文林在《电子与信息学报》2015年第6期提出了他们的创新解决方案。 首先,他们回顾了HMM-GMM(隐马尔可夫模型-高斯混合模型)语音识别系统中本征音子说话人自适应的基本原理,这是一种利用语音信号的固有特性来实现个性化识别的技术。本征音子能够捕捉说话人的独特发音特征,从而提高识别准确性。 然而,当适应数据有限时,传统方法可能过于依赖训练数据,导致在新的、未见过的数据上表现不佳,即过拟合现象。为了克服这个问题,研究者引入了说话人子空间的概念。说话人子空间是对不同说话人本征音子矩阵之间相关性的一种数学建模,通过这种方式,他们能够更好地理解和区分不同的说话者特征。 接着,他们提出了一种新的自适应算法,通过对说话人相关坐标向量的估计,构建了一种基于本征音子说话人子空间的策略。这种算法在保持识别性能的同时,降低了对大量适应数据的依赖,从而减轻了过拟合的问题。 作者还进行了实验验证,使用微软语料库进行汉语连续语音识别测试。实验结果显示,相比于传统的本征音子说话人自适应算法,新提出的算法在适应数据稀缺的情况下,性能得到了显著提升,且具有更好的泛化能力。此外,与仅依赖本征音自适应的算法相比,新算法在保持识别精度的同时,具有较低的空间复杂度,这意味着它在实际应用中更具有实用性。 总结来说,这篇研究论文的核心贡献是提出了一种结合了说话人子空间和本征音子技术的自适应方法,有效解决了语音识别中数据量不足导致的过拟合问题,提高了系统的鲁棒性和效率。这对于提高语音识别系统的通用性和实用性具有重要意义,特别是在资源有限或实时应用的场景下。