两层GMM结构的VTS特征补偿:鲁棒语音识别新方法

0 下载量 160 浏览量 更新于2024-08-28 收藏 837KB PDF 举报
"基于两层GMM结构的VTS特征补偿技术在鲁棒语音识别中的应用" 在语音识别领域,尤其是在复杂环境噪声下,确保系统的鲁棒性是一项关键挑战。这篇研究论文提出了一种创新方法,即利用两层高斯混合模型(GMM)结构进行向量泰勒级数(VTS)特征补偿,以提高语音识别的稳健性。该方法旨在解决由于大量混合组件导致的VTS计算复杂性过高的问题。 VTS特征是一种高级的语音特征表示方法,它通过泰勒级数展开来近似声学模型,以捕捉语音信号的非线性变化。然而,这种方法的计算需求较高,特别是在处理含有噪声的语音信号时。为了应对这一挑战,论文提出了采用两层GMM结构来进行VTS特征的补偿。 第一层GMM使用较少的混合成分来估计噪声的均值和方差。这一层的主要作用是通过对噪声特征的建模,有效地从原始的含噪语音信号中分离出噪声信息。通过准确估计噪声参数,可以更好地理解噪声环境并减小其对语音识别的影响。 第二层GMM则采用了更多的混合成分,其目的是将第一层提取的噪声特征映射到干净的语音特征。这一层的GMM更专注于模拟噪声抑制后的语音特性,以实现从噪声中恢复出清晰的语音特征,从而提高识别性能。这种两层GMM结构的设计巧妙地平衡了计算效率与识别精度之间的关系。 实验结果表明,所提出的两层GMM-VTS特征补偿算法显著降低了计算复杂度,同时保持了高识别率,尤其在噪声环境下表现突出。这为实际应用中的鲁棒语音识别提供了新的解决方案,例如在车载通信、智能家居、智能安防等领域,有助于提升系统在各种复杂环境下的语音交互体验。 该研究论文出自东南大学信息科学与工程学院水下声学信号处理国家重点实验室以及河海大学计算机与信息工程学院的研究团队。作者包括林洲、李海静、陈颖、吴振阳和卢勇。他们的工作为鲁棒语音识别领域的理论研究和技术开发提供了重要的理论依据和技术支持。