小波分解与线性预测提升易混淆语音识别:一种新特征提取方法

需积分: 9 0 下载量 171 浏览量 更新于2024-08-11 收藏 612KB PDF 举报
本文主要探讨了在语音识别系统中,易混淆语音对识别率产生的负面影响以及针对这一问题的研究。汉语语音的基本单位是音节,由声母和韵母组成。在易混淆语音中,韵母部分的辨识难度较大,因此,研究者针对这一特性提出了改进的特征提取方法。具体来说,他们采用了小波分解(Wavelet Decomposition)和线性预测编码(Linear Predictive Coding, WLPC)相结合的方式,这种特征提取方法能够更精确地捕捉到韵母的细微差异。 小波分解是一种信号处理技术,它将复杂信号分解成不同频率成分,有助于提取出信号的局部特征,这对于区分具有相似声学特性的韵母非常关键。线性预测编码则利用过去的声音样本预测当前样本,进一步增强特征的时域相关性,这有助于减少噪音干扰和提高识别性能。 接着,作者应用了局部保持映射(Locality Preserving Projections, LPP)算法对提取的特征进行变换。LPP是一种非线性降维技术,它在保持数据内在结构的同时,能够突出区分度,这对于增强易混淆韵母之间的区分能力至关重要。 实验结果表明,相比于传统的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)特征,这种基于小波分解和WLPC的新特征提取方法在区分不同的韵母上表现更为出色。这说明通过改进特征提取策略,可以有效提升语音识别系统的性能,特别是在处理易混淆语音时,对于提高识别准确率具有显著作用。 总结来说,这篇论文深入研究了如何通过优化特征提取技术来解决语音识别中的难点问题,为提高汉语音节尤其是韵母部分的识别精度提供了新的思路和方法。这对于提高整体语音识别系统的鲁棒性和准确性具有重要的理论价值和实践意义。