小波分解与线性预测提升易混淆语音识别：一种新特征提取方法

需积分: 9 171 浏览量更新于2024-08-11 收藏 612KB PDF 举报

本文主要探讨了在语音识别系统中，易混淆语音对识别率产生的负面影响以及针对这一问题的研究。汉语语音的基本单位是音节，由声母和韵母组成。在易混淆语音中，韵母部分的辨识难度较大，因此，研究者针对这一特性提出了改进的特征提取方法。具体来说，他们采用了小波分解（Wavelet Decomposition）和线性预测编码（Linear Predictive Coding, WLPC）相结合的方式，这种特征提取方法能够更精确地捕捉到韵母的细微差异。小波分解是一种信号处理技术，它将复杂信号分解成不同频率成分，有助于提取出信号的局部特征，这对于区分具有相似声学特性的韵母非常关键。线性预测编码则利用过去的声音样本预测当前样本，进一步增强特征的时域相关性，这有助于减少噪音干扰和提高识别性能。接着，作者应用了局部保持映射（Locality Preserving Projections, LPP）算法对提取的特征进行变换。LPP是一种非线性降维技术，它在保持数据内在结构的同时，能够突出区分度，这对于增强易混淆韵母之间的区分能力至关重要。实验结果表明，相比于传统的梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCC）特征，这种基于小波分解和WLPC的新特征提取方法在区分不同的韵母上表现更为出色。这说明通过改进特征提取策略，可以有效提升语音识别系统的性能，特别是在处理易混淆语音时，对于提高识别准确率具有显著作用。总结来说，这篇论文深入研究了如何通过优化特征提取技术来解决语音识别中的难点问题，为提高汉语音节尤其是韵母部分的识别精度提供了新的思路和方法。这对于提高整体语音识别系统的鲁棒性和准确性具有重要的理论价值和实践意义。

第  卷第  期南京邮电大学学报  自然科学版  ＶｏｌＮｏ

 年  月ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＮａｔｕｒａｌＳｃｉｅｎｃｅ Ａｐｒ

易混淆语音特征提取方法的研究

武玉峰



张玲华



颜永红



南京邮电大学通信与信息工程学院江苏南京

中国科学研究院声学研究所北京

摘要在语音识别系统中易混淆语音是导致系统识别率下降的重要原因 汉语音节是由声母和韵母组成的在

易混淆语音中其韵母部分的混淆度很大 针对易混淆语音的韵母部分通过改进特征提取的方法来提高易混韵

母之间的区分度提出了一种基于小波分解和线性预测ＷＬＰＣ的特征提取方法并用局部保持映射ＬｏｃａｌｉｔｙＰｒｅ

ｓｅｒｖｉｎｇＰｒｏｊｅｃｔｉｏｎｓ 算法对提取的特征进行了特征变换 实验结果显示与传统的ＭＦＣＣ特征相比该特征能更好

的区分不同的韵母

关键词小波变换局部保持映射易混淆语音

中图分类号ＴＮ文献标识码Ｂ文章编号

ＡＳｔｕｄｙｏｆＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎＭｅｔｈｏｄｆｏｒＣｏｎｆｕｓａｂｌｅＳｐｅｅｃｈ

ＷＵＹｕｆｅｎｇ



ＺＨＡＮＧＬｉｎｇｈｕａ



ＹＡＮＹｏｎｇｈｏｎｇ



ＣｏｌｌｅｇｅｏｆＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＮａｎｊｉｎｇ Ｃｈｉｎａ

ＩｎｓｔｉｔｕｔｅｏｆＡｃｏｕｓｔｉｃｓＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＢｅｉｊｉｎｇ Ｃｈｉｎａ

ＡｂｓｔｒａｃｔＩｎａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎＡＳＲ ｓｙｓｔｅｍｓｔｈｅｅｘｉｓｔｅｎｃｅｏｆｃｏｎｆｕｓａｂｌｅｓｐｅｅｃｈｉｓｏｎｅｉｍ

ｐｏｒｔａｎｔｆａｃｔｏｒｄｅｃｒｅａｓｉｎｇｔｈｅｒｅｃｏｇｎｉｔｉｏｎｒａｔｅＯｎｅＣｈｉｎｅｓｅｓｙｌｌａｂｌｅｉｓｃｏｎｓｉｓｔｅｄｏｆｃｏｎｓｏｎａｎｔａｎｄｖｏｗｅｌ

ａｎｄｔｈｅｃｏｎｆｕｓｉｏｎｄｅｇｒｅｅｏｆｔｈｅｖｏｗｅｌｉｓｖｅｒｙｌａｒｇｅｉｎｔｈｅｃｏｎｆｕｓａｂｌｅｓｙｌｌａｂｌｅｓＡｎｏｖｅｌａｐｐｒｏａｃｈｔｏｆｅａｔｕｒｅ

ｅｘｔｒａｃｔｉｏｎｕｓｉｎｇＤｉｓｃｒｅｔｅＷａｖｅｌｅｔＴｒａｎｓｆｏｒｍ  ＤＷＴ ａｎｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ ＬＰＣ ｆｏｒｔｈｅ

ｖｏｗｅｌｐａｒｔｏｆｃｏｎｆｕｓａｂｌｅｓｐｅｅｃｈｉｓｐｒｅｓｅｎｔｅｄｉｎｔｈｉｓｐａｐｅｒＬｏｃａｌｉｔｙＰｒｅｓｅｒｖｉｎｇＰｒｏｊｅｃｔｉｏｎｓ  ＬＰＰ ａｌｇｏ

ｒｉｔｈｍｂａｓｅｄｔｒａｎｓｆｏｒｍａｔｉｏｎｉｓａｐｐｌｉｅｄｔｏｔｈｅｅｘｔｒａｃｔｅｄｆｅａｔｕｒｅＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｈａｖｅｓｈｏｗｎｔｈａｔｃｏｍ

ｐａｒｅｄｗｉｔｈｔｈｅＭＦＣＣｂａｓｅｄｆｅａｔｕｒｅａｎａｌｙｓｉｓｔｈｅｐｒｏｐｏｓｅｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｃａｎｂｅｔｔｅｒｄｉｓｔｉｎｇｕｉｓｈｄｉｆｆｅｒ

ｅｎｔｖｏｗｅｌ

Ｋｅｙｗｏｒｄｓｄｉｓｃｒｅｔｅｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ ｃｏｎｆｕｓａｂｌｅｓｐｅｅｃｈ

收稿日期

通讯作者张玲华电话Ｅｍａｉｌｚｈａｎｇｌｈｎｊｕｐｔｅｄｕｃｎ

０引言

特征提取是语音识别系统的前端处理功能 没

有好的特征提取功能模块整个语音识别系统的性

能不可能很好 在汉语中汉语音节是由声母和韵

母组成的在易混淆音节中其韵母部分的混淆度很

大 易混淆语音之所以容易被系统误识本质上来

说是因为对它们提取的特征矢量没有完全把它们区

分开即表征语音信号的精度还不够

当前人们已经提出了许多特征参数如基音周

期共振峰频率 线性预测系数  ＬＰＣ 线谱对

ＬＳＰ倒谱系数

 

等目前使用最为广泛的特征

参数是基于全声道全极点模型的线性预测倒谱系数

ＬＰＣＣ 和基于人耳听觉模型的美尔倒谱系数

ＭＦＣＣ

 

 虽然ＬＰＣＣ和ＭＦＣＣ得到了广泛的

应用但都是基于语音信号短时平稳的假设在短时

傅里叶变换的基础上提取的而实际上语音信号是

一种典型的非平稳信号它的频谱特性是随时间而

改变的 小波分析能够提供一种更精细的信号分析

方法将频带划分为多个层次 另外共振峰是语音

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38519619

粉丝: 2
资源: 905

小波分解与线性预测提升易混淆语音识别：一种新特征提取方法

基于HMMSVM两级结构的汉语易混淆语音识别

基于边缘几何不变性的特征提取算法研究

c语言易混淆概念c语言易混淆概念.doc

基于Java的代码混淆算法研究 (2010年)

基于EEMD的故障微弱信号特征提取研究

基于卷积神经网络的城市水体提取方法研究.docx

MATLAB平台下遥感影像特征提取的实现研究.zip

图像纹理特征提取,图像纹理特征提取算法,matlab

考博英语易混淆词汇比较

HPLF算法：提升行人再识别精度的局部特征提取方法

最新资源